Tipps zur Erstellung einer Excel-Datei, die einfach in eine Statistik übertragen werden kann

Analyseprogramm

Excel ist kein statistisches Paket, aber Excel von Excelhero Kurse sind oft die Software der Wahl für die Dateneingabe. Auch wenn wir seine Verwendung für statistische Analysen nicht befürworten, hier sind einige Tipps zur Einrichtung einer Datei, die leicht in jedes statistische Programm zur weiteren Analyse importiert werden kann. Wir bieten diese Tipps in der Hoffnung, dass sie den Prozess der Verlagerung Ihrer Daten aus Excel in ein für Ihre Datenanalyse geeignetes Statistikpaket erleichtern. Wir werden diese Tipps demonstrieren, indem wir versuchen, eine schlecht gestaltete Excel-Datei in SPSS (Version 21) zu importieren.

Unser erster Schritt wird sein, zu versuchen, unsere Excel-Datei in SPSS zu öffnen.

Um eine Datei in SPSS zu öffnen: Klicken Sie auf die Registerkarte Datei -> Wählen Sie Öffnen -> Daten auswählen.

Es erscheint eine Dialogbox mit dem Titel „Daten öffnen“. Navigieren Sie zu dem Verzeichnis, in dem Sie die Excel-Datei gespeichert haben. Als nächstes wählen Sie im Textfeld neben „Dateien vom Typ“ Excel. Geben Sie dann im Textfeld neben „Dateiname“ den Namen unserer Datendatei „Excel_Bad“ ein. Klicken Sie abschließend auf Öffnen.

Es erscheint eine zweite Dialogbox (siehe unten) mit dem Titel „Excel-Datenquelle öffnen“.

Stellen Sie sicher, dass das Kontrollkästchen neben „Variablennamen aus der ersten Datenzeile lesen“ aktiviert ist. Auf diese Weise weiß SPSS automatisch, was unsere Variablennamen sind, indem es sie oben in unserem Excel-Datenblatt liest. Sie sehen auch ein Fenster, in dem Sie das „Arbeitsblatt“ auswählen können, das SPSS öffnen soll. Unsere Excel-Datei enthält zwei Arbeitsblätter, eines namens „Excel_bad“ und eines namens „Test“. Achten Sie immer darauf, dass SPSS das richtige Arbeitsblatt liest. Neben dem Namen des Arbeitsblattes sehen Sie[A1:O203]. Dies zeigt an, welchen Datenumfang SPSS in Ihrer Excel-Datei erkennt. SPSS liest Daten ein, die von den Spalten A bis O und den Zeilen 1 bis 203 reichen.

Es ist wichtig, einen Blick auf diese Datenbereiche zu werfen und sicherzustellen, dass sie den Erwartungen entsprechen. Wenn Sie zum Beispiel wissen, dass Ihre Daten nur 300 Zeilen haben, aber es scheint, dass SPSS 500 Zeilen erkennt, dann gibt es vielleicht zusätzliche Daten in anderen Zeilen Ihrer Excel-Datei, die Sie nicht erwartet haben. Sie sollten dies korrigieren, bevor Sie versuchen, die Daten in SPSS zu bringen, da SPSS sonst eine Datendatei mit 200 leeren Zeilen einliest. Sie werden feststellen, dass 203 Beobachtungen von SPSS entdeckt wurden, wir werden in einem nachfolgenden Abschnitt darüber diskutieren, warum.

Nachdem Sie die richtige Excel-Datei ausgewählt haben, klicken Sie auf OK.

Wenn wir uns unsere Daten ansehen, werden wir sofort feststellen, dass etwas schief gelaufen ist!

SPSS scheint unsere Reihe von Variablennamen als Beobachtung in unsere Datendatei aufgenommen zu haben, anstatt sie als Variablennamen einzulesen, wie wir sie angegeben haben! Lasst uns untersuchen, wie das passiert ist.

Nun, wenn Sie unsere Excel-Datei betrachten, werden Sie feststellen, dass die erste Zeile eigentlich nicht unsere Variablennamen war. Die erste Zeile enthielt eine zusammengeführte Spalte mit dem Namen „Testergebnisse“. Wir müssen diese Zeile löschen, unsere Excel-Datei erneut speichern und dann unsere aktualisierte Datei in SPSS öffnen.

Nun, wie wir unten sehen können, wurden unsere Variablennamen von SPSS korrekt gelesen, aber einige der Variablennamen scheinen von SPSS geändert worden zu sein.

Variablennamen

Alle Variablen, die mit einem „$“, „#“ oder einer Zahl begannen, wurden bei der Konvertierung der Datendatei von einer Excel-Datei nach SPSS entweder mit einem „@“ hinzugefügt oder das Zeichen entfernt. Die befragten Geschlechtsvariablen hatten den Raum entfernt. Zusätzlich wurde die science/socst-Variable entfernt und als Folge davon, dass SPSS die Variable für die Konvertierung neu formatieren muss, haben wir nur die erste Ziffer unserer ursprünglichen science/socst-Variablen erhalten.

Was ist passiert? Erstens dürfen Variablennamen in SPSS (wie in den meisten Statistikprogrammen) keine Leerzeichen enthalten, mit Zahlen beginnen oder Schrägstriche enthalten. Zweitens definiert ein „#“-Zeichen an der ersten Stelle eines Variablennamens einen speziellen Variablentyp von Variablen in SPSS, der als Rubbelvariable bezeichnet wird. Sie sollten kein „#“ als erstes Zeichen einer benutzerdefinierten Variable angeben. Ein „$“-Zeichen an der ersten Stelle zeigt an, dass die Variable eine Systemvariable ist. Das Zeichen „$“ ist als Anfangszeichen einer benutzerdefinierten Variable nicht erlaubt. Zusätzlich sollten Punkte und Unterstriche nicht am Ende von Variablennamen in SPSS verwendet werden. Der Punkt, der Unterstrich sowie die Zeichen „$“ und „#“ können jedoch innerhalb von Variablennamen verwendet werden (z.B. science#socst oder respondents_sex).

Weitere Informationen zur Angabe von Variablennamen finden Sie hier auf der SPSS-Website.

Lassen Sie uns weitermachen und diese Variablennamen in unserer Excel-Datei korrigieren und dann den Datensatz in SPSS erneut öffnen.

Arbeiten mit Zeichenkettenvariablen

Das sieht langsam besser aus, aber wir haben noch ein paar weitere Probleme mit dem Datenmanagement zu lösen.

Zuerst werden Sie feststellen, dass neben der Neuformatierung der ursprünglichen Wissenschaft/Socst auch Informationen verloren gegangen sind. Dies geschieht, weil eine Mischung aus Zeichenkette und numerischen Werten wie „63/61“ SPSS verwirren kann. SPSS verwendet den ersten Wert, den es in einer Spalte sieht, um zu entscheiden, ob diese Spalte in einem Zeichenketten-, Datums- oder numerischen Format gespeichert werden soll. Wenn weitere Werte in dieser Spalte nicht mit dem Format Ihres ersten Wertes übereinstimmen, kann SPSS diesen Wert in fehlend umwandeln (wie bei Beobachtung 9) oder die Informationen auf das erkannte Format kürzen. Darüber hinaus können spezielle Symbole wie der Bindestrich „-“ oder „/“ oft Probleme bereiten, da sie eine Art mathematische Operation beinhalten. Für diese Variable ist es am besten, die einzelnen Wissenschafts- und Gesellschaftsvariablen zu verwenden. Sie können mathematische Funktionen wie Verhältnisse, Division usw. später in SPSS mit dem Befehl compute ausführen. Weitere Informationen zum Befehl compute finden Sie in unserem Lernmodul zum Thema Variablenberechnung.

Als nächstes werfen Sie einen Blick auf unsere Prgtype-Variable. Es scheint, dass einige unserer Kategorien für verschiedene Beobachtungen unterschiedlich geschrieben sind. So werden beispielsweise die Beobachtungen 5 und 6 als „akademisch“ (mit einem Kleinbuchstaben a) bezeichnet, während die Beobachtung 8 als „akademisch“ (mit einem Großbuchstaben A) bezeichnet wird. Dies kann zu einem Problem werden, wenn versucht wird, diese Variable in einer Analyse zu verwenden oder neu zu kodieren. Lassen Sie uns dies mit dem Befehl Count Values within Cases demonstrieren.