# Erste Schritte

* Autorin: Anna (i3-Versicherung)
* Webseite: [Data Science Training - Kapitel 1](https://data-science.training/kapitel-1/)
* Datum: 23.03.2023

EVA-Prinzip: Eingabe, Verarbeitung, Ausgabe

* (E) Wir laden Daten aus einer CSV-Datei.
* (V) Wir sehen uns die Daten an und filtern diese.
* (A) Wir speichern die gefilterten Daten in einer Excel-Datei.

Je nach Betriebssystem müssen die Pfade entsprechend angepasst werden.

In [4]:
# Pandas Paket (Package) importieren
#  Datenstrukturen und Datenanalyse, I/O
#  https://pandas.pydata.org/pandas-docs/stable/
import pandas as pd
# NumPy Paket (Package) importieren
#  Mehrdimensionale Datenstrukturen (Vektoren, Matrizen, Tensoren, Arrays), Lineare Algebra
#  https://numpy.org/doc/
import numpy as np

In [5]:
# Trainingsdaten als Pandas Data Frame (df) aus CSV-Datei laden
df = pd.read_csv('../../data/titanic/original/train.csv')

In [6]:
# Daten ausgeben -oben- (default: Die ersten 5 Zeilen)
print(df.head())
#print(df.head(3)) # Die ersten 3 Datenzeilen

   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   NaN        S  


In [7]:
# Daten ausgeben -unten- (default: Die letzten 5 Zeilen)
print(df.tail())
#print(df.tail(4)) # Die letzen 4 Datenzeilen

     PassengerId  Survived  Pclass                                      Name  \
886          887         0       2                     Montvila, Rev. Juozas   
887          888         1       1              Graham, Miss. Margaret Edith   
888          889         0       3  Johnston, Miss. Catherine Helen "Carrie"   
889          890         1       1                     Behr, Mr. Karl Howell   
890          891         0       3                       Dooley, Mr. Patrick   

        Sex   Age  SibSp  Parch      Ticket   Fare Cabin Embarked  
886    male  27.0      0      0      211536  13.00   NaN        S  
887  female  19.0      0      0      112053  30.00   B42        S  
888  female   NaN      1      2  W./C. 6607  23.45   NaN        S  
889    male  26.0      0      0      111369  30.00  C148        C  
890    male  32.0      0      0      370376   7.75   NaN        Q  


In [8]:
# Daten ausgeben (default: die ersten 5 und die letzten 5 Datenzeilen)
print(df)

     PassengerId  Survived  Pclass  \
0              1         0       3   
1              2         1       1   
2              3         1       3   
3              4         1       1   
4              5         0       3   
..           ...       ...     ...   
886          887         0       2   
887          888         1       1   
888          889         0       3   
889          890         1       1   
890          891         0       3   

                                                  Name     Sex   Age  SibSp  \
0                              Braund, Mr. Owen Harris    male  22.0      1   
1    Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                               Heikkinen, Miss. Laina  female  26.0      0   
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                             Allen, Mr. William Henry    male  35.0      0   
..                                                 ...     ...   ... 

In [9]:
# Alle Daten ausgeben
#  (Hinweis: Die Ausführung kann ggf. etwas länger dauern. Deshalb ist dieser Aufruf auskommentiert.)
#pd.set_option('display.max_rows', None)
#display(df)

In [10]:
# Attributnamen (Spaltenüberschriften) ausgeben: 3 verschiedene Alternativen
print(df.columns.values)
#print(df.columns)
#df.columns

['PassengerId' 'Survived' 'Pclass' 'Name' 'Sex' 'Age' 'SibSp' 'Parch'
 'Ticket' 'Fare' 'Cabin' 'Embarked']


In [11]:
# Datentypen zu den Attributen ausgeben
print(df.dtypes)

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object


In [12]:
# Datentypen bestmöglich automatisch konvertieren: z.B. object => string
#  Wir speichern die Änderungen direkt wieder in der gleichen Variablen df (Zuweisungsoperator =).
#  Der Inhalt von df wird also überschrieben. Wir sagen auch: df wird überschrieben.
df = df.convert_dtypes()
print(df.dtypes)

PassengerId             Int64
Survived                Int64
Pclass                  Int64
Name           string[python]
Sex            string[python]
Age                   Float64
SibSp                   Int64
Parch                   Int64
Ticket         string[python]
Fare                  Float64
Cabin          string[python]
Embarked       string[python]
dtype: object


In [13]:
# Dimensionen (Zeilen, Spalten) anzeigen
print(df.shape)

(891, 12)


In [14]:
# Allgemeine Informationen zum Data Frame ausgeben
#  Tabelle: Attributname, Anzahl Werte (nicht NULL), Datentyp
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    Int64  
 1   Survived     891 non-null    Int64  
 2   Pclass       891 non-null    Int64  
 3   Name         891 non-null    string 
 4   Sex          891 non-null    string 
 5   Age          714 non-null    Float64
 6   SibSp        891 non-null    Int64  
 7   Parch        891 non-null    Int64  
 8   Ticket       891 non-null    string 
 9   Fare         891 non-null    Float64
 10  Cabin        204 non-null    string 
 11  Embarked     889 non-null    string 
dtypes: Float64(2), Int64(5), string(5)
memory usage: 89.8 KB


In [15]:
# Attributwerte auswählen
#  hier z.B. nur Frauen (und Mädchen)
#
# Schritt 1: df['Sex']
#  Mit diesem Ausdruck extrahieren wir die Spalte Sex extrahiert.
#  Damit schneiden wir aus der Tabelle (2-D) einen Vektor (1-D: eine Spalte) heraus.
#  Dieser Vektor hat die Länge 891 und enthält die Werte "male" und "female".
#
# Schritt 2: df['Sex'] == 'female'
#  Mit diesem Ausdruck erzeugen wir einen Vektor der Länge 891, der jetzt die Werte True und False enthält:
#  True falls der Attributwert "female" ist, ansonsten (also bei "male") False.
#  (Vergleichsoperator ==)
#
# Schritt 3: df[df['Sex'] == 'female']
#  Mit diesem Ausdruck erzeugen wir eine Tabelle, genauer ein Data Frame.
#  Diese Tabelle enthält nur noch die Datenzeilen (Datensätze) mit den Frauen und Mädchen.
#  
# Schritt 4: df = df[df["Sex"] == "female"]
#  Schließlich speichern wir die neue Tabelle als Ergebnis wieder in der Variablen df.
#  df ist nun jedoch um einige Datensätze (Zeilen) reduziert (ursprünglich 891 Zeilen, jetzt 314 Zeilen).
#
df = df[df['Sex'] == 'female']
# Ausgabe der Dimensionen
print(df.shape)

(314, 12)


In [16]:
# Attribute auswählen
#  hier z.B. numerische Attribute behalten und Texte (Datentyp string) herausfiltern
#  Zum Testen verschiedener Alternativen speichern wir die Ergebnisse in vier neue Variablen df1 bis df4
#
# Alternative 1: Filtern aufgrund des Datentyps (INCLUDE)
df1 = df.select_dtypes(include=[np.number])
# Ausgabe der Spaltennamen
print('v1:', df1.columns.values)
#
# Alternative 2: Filtern aufgrund des Datentyps (EXCLUDE)
df2 = df.select_dtypes(exclude='string')
# Ausgabe der Spaltennamen
print('v2:', df2.columns.values)
#
# Alternative 3: Filtern beliebiger Spalten aufgrund des Spaltennamens (INCLUDE)
#  Hierzu benutzen wir eine Liste mit den Namen der Spalten, die wir behalten möchten
columns = ['PassengerId', 'Survived', 'Pclass', 'Age', 'SibSp', 'Parch', 'Fare']
df3 = df.filter(columns)
# Ausgabe der Spaltennamen
print('v3:', df3.columns.values)
#
# Alternative 4: Löschen beliebiger Spalten aufgrund des Spaltennamens (EXCLUDE)
#  Hierzu benutzen wir eine Liste mit den Namen der Spalten, die wir nicht behalten möchten
columns = ['Name', 'Sex', 'Ticket', 'Cabin', 'Embarked']
df4 = df.drop(columns, axis=1)
# Ausgabe der Spaltennamen
print('v4:', df4.columns.values)
#
# Eine dieser Alternativen benutzen wir nun für df
df = df4

v1: ['PassengerId' 'Survived' 'Pclass' 'Age' 'SibSp' 'Parch' 'Fare']
v2: ['PassengerId' 'Survived' 'Pclass' 'Age' 'SibSp' 'Parch' 'Fare']
v3: ['PassengerId' 'Survived' 'Pclass' 'Age' 'SibSp' 'Parch' 'Fare']
v4: ['PassengerId' 'Survived' 'Pclass' 'Age' 'SibSp' 'Parch' 'Fare']


In [17]:
# Daten als Excel-Datei speichern
df.to_excel('../../data/titanic/temp/output_1.xlsx', index=False) # Den Index selbst speichern wir nicht

In [18]:
# Daten ausgeben
display(df)

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
1,2,1,1,38.0,1,0,71.2833
2,3,1,3,26.0,0,0,7.925
3,4,1,1,35.0,1,0,53.1
8,9,1,3,27.0,0,2,11.1333
9,10,1,2,14.0,1,0,30.0708
...,...,...,...,...,...,...,...
880,881,1,2,25.0,0,1,26.0
882,883,0,3,22.0,0,0,10.5167
885,886,0,3,39.0,0,5,29.125
887,888,1,1,19.0,0,0,30.0
