<div style="
    border: 2px solid #4CAF50; 
    padding: 15px; 
    background-color: #f4f4f4; 
    border-radius: 10px; 
    align-items: center;">

<h1 style="margin: 0; color: #4CAF50;">Einführung tabellarische Daten</h1>
<h2 style="margin: 5px 0; color: #555;">DSAI</h2>
<h3 style="margin: 5px 0; color: #555;">Jakob Eggl</h3>

<div style="flex-shrink: 0;">
    <img src="https://www.htl-grieskirchen.at/wp/wp-content/uploads/2022/11/logo_bildschirm-1024x503.png" alt="Logo" style="width: 250px; height: auto;"/>
</div>
<p1> © 2024/25 Jakob Eggl. Nutzung oder Verbreitung nur mit ausdrücklicher Genehmigung des Autors.</p1>
</div>
<div style="flex: 1;">
</div>   

## Allgemeines

* Viele Daten sind in tabellarischer Form
* Gespeichert oft in csv, txt oder in zBsp. Datenbank
* Einfach zu interpretieren
* Gute Skalierbarkeit
* Einfacher Austausch zwischen verschiedenen Systemen und Plattformen
* Einfache Sortierung, Filterung, Aggregierung

## Aufbau und Eigenschaften

![image.png](attachment:image.png)

## Eigenschaften von Tabellen

* Hat immer ein <em> "Länge mal Breite </em> Format"
* Wird oft als Matrix modelliert (für numerische Daten zBsp mit $\mathbb{R}^{m\times n}$)
* (Normalerweise) unabhängige Einträge (i.i.d.)
* Verschiedene Datentypen: numerisch (float, int), text (string, char), leer (None, null, NaN, "")
* Jede Spalte ist ein Feature -> Was ist ein Feature?
* Jede Zeile ist ein Datenpunkt -> Was ist ein Datenpunkt?
* Jede Spalte <em>kann </em> ein Label sein -> Was ist ein Label?

### Feature

* Spalte des tabellarischen Datasets
* Eine <em> Eigenschaft </em>
* Label ist <em> kein </em> Feature
* Kann/Muss oft normalisiert, aggregiert oder vorverarbeitet (preprocessing) werden, dadurch kann die Qualität des Features verbessert werden (kann aber auch schlechter werden)
* Kann in Beziehung zu anderen Features stehen und durch Korrelationen oder Abhängigkeiten beeinflusst werden (ZBsp Feature "Preis" in einem Datensatz über Autos hängt meistens direkt mit der Leistung des Autos zusammen)

### Datenpunkt

* Zeile des tabellarischen Datasets
* Steht für einen Eintrag
* Je mehr Zeilen, desto mehr Daten
* Quantität $\neq$ Qualität:
    * Können Duplikate beinhalten
    * Daten modellieren vielleicht die "echte Situation" nicht gut
    * Können leere Felder haben
    * Können falsch sein (Umfragen etc.)

### Label

* Label ist quasi ein Namensschild bzw. eine Zugehörigkeit
* Zbsp in diesem Titanic Dataset könnte man <em> survived </em> verwenden, um zu analysieren, welche Unterschiede zwischen Überlebenden und Nicht-Überlebenden bestehen/bestanden
* Anderes Beispiel wäre aber auch Alter (Frauen und Kinder zuerst?), oder vielleicht eine geometrische Untersuchung mit den Cabin-Nummern (Vielleicht auf einer Seite der Kabine mehr Mortalitätsrate?)
* Kann auch eine reelle Zahl (float) sein (Regression)
* Analysen können auch ohne Label durchgeführt werden:
    * Gruppierungen
    * Dimensions-Reduzierung (zBsp.: PCA)

---

## Einführung in Pandas

* Way to Go für Tabellarische Daten
* Daten können aus verschiedenen Quellen eingelesen und ggf. auch wieder gespeichert werden (txt, csv, sql)
* Eingelesene Daten werden in sogenannten <em>DataFrames</em> gespeichert
* Es gibt auch <em>Series</em> als Datenstruktur für Listen- oder Array-ähnlichen Datenstrukturen
* Pandas bietet eine flexible Indizierungsmöglichkeit
* Viele statistische Größen (Mittelwert, Median, etc.) können einfach berechnet werden
* Gute Integration mit weiteren Python-Bibliotheken (NumPy, Matplotlib, Scikit-Learn, etc.)

Im folgenden wird nun Pandas anhand von einem Beispiel eingeführt. Dabei wird dieses Dataset in diesem Notebook überall verwendet

In [3]:
# Importieren von Pandas
import pandas as pd

## Erstellung und Indizierung

In [4]:
# Wir erstellen ein Dataframe aus einer Liste ohne Index Spalte:

df = pd.DataFrame({'Name'        : ["Peter", "Karla", "Anne", "Nino", "Andrzej"],
                   'Geschlecht'  : ['M',pd.NA,'W','M','M'],
                   'Alter'       : [45, 53, 16, 22, 61],
                   'Größe'       : [1.77,1.72, 1.82, 1.71, 1.68],
                   'Nationalität': ["deutsch", "schweizerisch", "deutsch", "italienisch", "polnisch"],
                   'Gehalt'      : [3400, 4000, 0, pd.NA, 2300]
                   }
                  )

In [5]:
df

Unnamed: 0,Name,Geschlecht,Alter,Größe,Nationalität,Gehalt
0,Peter,M,45,1.77,deutsch,3400.0
1,Karla,,53,1.72,schweizerisch,4000.0
2,Anne,W,16,1.82,deutsch,0.0
3,Nino,M,22,1.71,italienisch,
4,Andrzej,M,61,1.68,polnisch,2300.0


In [6]:
# Indizierung mit loc
# Wir wählen die Zeile mit dem Index 2 aus
df.loc[2]

Name               Anne
Geschlecht            W
Alter                16
Größe              1.82
Nationalität    deutsch
Gehalt                0
Name: 2, dtype: object

In [7]:
# Indizierung mit iloc
# Wir wählen die erste Zeile aus
df.iloc[0]

Name              Peter
Geschlecht            M
Alter                45
Größe              1.77
Nationalität    deutsch
Gehalt             3400
Name: 0, dtype: object

In [8]:
# Nun erstellen wir ein Dataframe aus einer Liste mit Index Spalte:

df = pd.DataFrame({'Name'        : ["Peter", "Karla", "Anne", "Nino", "Andrzej"],
                     'Geschlecht'  : ['M',pd.NA,'W','M','M'],
                     'Alter'       : [45, 53, 16, 22, 61],
                     'Größe'       : [1.77,1.72, 1.82, 1.71, 1.68],
                     'Nationalität': ["deutsch", "schweizerisch", "deutsch", "italienisch", "polnisch"],
                     'Gehalt'      : [3400, 4000, 0, pd.NA, 2300]
                     },
                    index = ['A', 'B', 'C', 'D', 'E']
                    )

In [9]:
df

Unnamed: 0,Name,Geschlecht,Alter,Größe,Nationalität,Gehalt
A,Peter,M,45,1.77,deutsch,3400.0
B,Karla,,53,1.72,schweizerisch,4000.0
C,Anne,W,16,1.82,deutsch,0.0
D,Nino,M,22,1.71,italienisch,
E,Andrzej,M,61,1.68,polnisch,2300.0


Index ist nun selber gewählt, vorher numerisch (0-4), nun (A-E).

In [10]:
# Indizierung mit Index

df.loc['A']

Name              Peter
Geschlecht            M
Alter                45
Größe              1.77
Nationalität    deutsch
Gehalt             3400
Name: A, dtype: object

In [11]:
# iloc indizierung nach wie vor möglich um die 1. Zeile auszuwählen
df.iloc[0]

Name              Peter
Geschlecht            M
Alter                45
Größe              1.77
Nationalität    deutsch
Gehalt             3400
Name: A, dtype: object

In [12]:
# Wir können auch nur bestimmte Spalten auswählen
df.loc['A', 'Name']

'Peter'

In [13]:
# Es ist auch die Indizierung von mehreren Spalten möglich
df.loc[:, ['Name', 'Geschlecht']]

Unnamed: 0,Name,Geschlecht
A,Peter,M
B,Karla,
C,Anne,W
D,Nino,M
E,Andrzej,M


In [14]:
# Bzw. auch inklusive Zeilen
df.loc[['A', 'B'], ['Name', 'Geschlecht']]

Unnamed: 0,Name,Geschlecht
A,Peter,M
B,Karla,


In [15]:
# Ebenso kann über eine Maske indiziert werden
temp = df.loc[df['Alter'] > 20]

In [16]:
temp

Unnamed: 0,Name,Geschlecht,Alter,Größe,Nationalität,Gehalt
A,Peter,M,45,1.77,deutsch,3400.0
B,Karla,,53,1.72,schweizerisch,4000.0
D,Nino,M,22,1.71,italienisch,
E,Andrzej,M,61,1.68,polnisch,2300.0


In [17]:
# Mehrere Bedingungen können auch kombiniert werden
temp = df.loc[(df['Alter'] > 20) & (df['Gehalt'] > 0)]

In [18]:
temp

Unnamed: 0,Name,Geschlecht,Alter,Größe,Nationalität,Gehalt
A,Peter,M,45,1.77,deutsch,3400
B,Karla,,53,1.72,schweizerisch,4000
E,Andrzej,M,61,1.68,polnisch,2300


In [19]:
# Das Dataframe kann auch mittels SQL ähnlicher Syntax gefiltert werden
temp = df.query('Alter > 20 & Größe > 1.71')

In [20]:
temp

Unnamed: 0,Name,Geschlecht,Alter,Größe,Nationalität,Gehalt
A,Peter,M,45,1.77,deutsch,3400
B,Karla,,53,1.72,schweizerisch,4000


In [21]:
# Eine andere Art der Indizierung ist die Verwendung von at und iat
# at und iat sind schneller als loc und iloc, da sie nur einen Wert zurückgeben

# Beispiel:
a = df.at['A', 'Name']
b = df.iat[0, 0]

print(f'Die Ergebnisse sind {a} bzw. {b}')

Die Ergebnisse sind Peter bzw. Peter


In [22]:
# at und iat können auch für das Setzen von Werten verwendet werden
df.at['A', 'Name'] = 'Peter Müller'
print(df)
df.iat[0, 0] = 'Peter'
print(df)

           Name Geschlecht  Alter  Größe   Nationalität Gehalt
A  Peter Müller          M     45   1.77        deutsch   3400
B         Karla       <NA>     53   1.72  schweizerisch   4000
C          Anne          W     16   1.82        deutsch      0
D          Nino          M     22   1.71    italienisch   <NA>
E       Andrzej          M     61   1.68       polnisch   2300
      Name Geschlecht  Alter  Größe   Nationalität Gehalt
A    Peter          M     45   1.77        deutsch   3400
B    Karla       <NA>     53   1.72  schweizerisch   4000
C     Anne          W     16   1.82        deutsch      0
D     Nino          M     22   1.71    italienisch   <NA>
E  Andrzej          M     61   1.68       polnisch   2300


In [23]:
# iat und at liefert einen Fehler, wenn mehere Werte ausgegeben werden sollen
# df.at[['A', 'B'], ['Name']] # Fehler: Richtig wäre die nächste Zeile
# df.loc[['A', 'B'], ['Name']]

In [24]:
# Außerdem kann auch einfach wie bei einer Liste eine (oder mehrere) Spalte(n) ausgewählt werden
names = df['Name']

In [25]:
print(names)

A      Peter
B      Karla
C       Anne
D       Nino
E    Andrzej
Name: Name, dtype: object


In [26]:
print(type(names)) # Das Ergebnis ist nun eine Series

<class 'pandas.core.series.Series'>


In [27]:
# Gleiches Ergebnis liefert die Adressierung via dem Punkt "." (Ähnlich wie bei Objekten)
names = df.Name

In [28]:
print(names)

A      Peter
B      Karla
C       Anne
D       Nino
E    Andrzej
Name: Name, dtype: object


In [29]:
print(type(names)) # Der Typ ist also auch gleich

<class 'pandas.core.series.Series'>


---

## Spalten und Datentypen

Datentypen von Python und Pandas sind ähnlich, müssen aber dennoch unterschieden werden. Kann Pandas einen Datentyp nicht eindeutig zuordnen wird dieser automatisch als `object` angenommen. In numerischen Spalten ist dies meist ein Zeichen das Daten fehlen und diese zuerst bearbeitet (zBsp. beseitigt) werden müssen.


| Pandas Type | Native Python Type  | Beschreibung          |
|-------------|---------------------|-----------------------|
| object      | string              | Zahlen und Strings    |
| int64       | int                 | Ganzzahlen            |
| float64     | float               | Gleitkomma           |
| datetime64  | N/A                 | Datum und Zeit        |

Verwende `info`() um Informationen über Datentypen und Spalten anzuzeigen.

In [30]:
# Informationen über das Dataframe
df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 5 entries, A to E
Data columns (total 6 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   Name          5 non-null      object 
 1   Geschlecht    4 non-null      object 
 2   Alter         5 non-null      int64  
 3   Größe         5 non-null      float64
 4   Nationalität  5 non-null      object 
 5   Gehalt        4 non-null      object 
dtypes: float64(1), int64(1), object(4)
memory usage: 452.0+ bytes


In [31]:
# Für beliebige Spalten kann folgendes verwendet werden
df['Name'].info()

<class 'pandas.core.series.Series'>
Index: 5 entries, A to E
Series name: Name
Non-Null Count  Dtype 
--------------  ----- 
5 non-null      object
dtypes: object(1)
memory usage: 252.0+ bytes


In der Info wird auch angegeben, wie viele Werte None (=null) sind.

---

## NaN-Values und None/null

In [32]:
# Um die Felder anzuzeigen, welche fehlende Werte enthalten, verwenden wir den folgenden Befehl
df.isna()

Unnamed: 0,Name,Geschlecht,Alter,Größe,Nationalität,Gehalt
A,False,False,False,False,False,False
B,False,True,False,False,False,False
C,False,False,False,False,False,False
D,False,False,False,False,False,True
E,False,False,False,False,False,False


In [33]:
# Ähnlich können wir auch die Felder anzeigen, welche keine fehlenden Werte enthalten
df.notna()

Unnamed: 0,Name,Geschlecht,Alter,Größe,Nationalität,Gehalt
A,True,True,True,True,True,True
B,True,False,True,True,True,True
C,True,True,True,True,True,True
D,True,True,True,True,True,False
E,True,True,True,True,True,True


Warum ist es wichtig, solche Werte zu überprüfen bzw. sich mit sochen Werten zu befassen?

In [34]:
# Um nan-Werte zu löschen, verwenden wir den folgenden Befehl
cleaned_df = df.dropna()

In [35]:
cleaned_df

Unnamed: 0,Name,Geschlecht,Alter,Größe,Nationalität,Gehalt
A,Peter,M,45,1.77,deutsch,3400
C,Anne,W,16,1.82,deutsch,0
E,Andrzej,M,61,1.68,polnisch,2300


In [36]:
# Dies kann auch mit einzelnen Spalten gemacht werden
cleaned_df_2 = df.dropna(subset=['Gehalt'])

In [37]:
cleaned_df_2

Unnamed: 0,Name,Geschlecht,Alter,Größe,Nationalität,Gehalt
A,Peter,M,45,1.77,deutsch,3400
B,Karla,,53,1.72,schweizerisch,4000
C,Anne,W,16,1.82,deutsch,0
E,Andrzej,M,61,1.68,polnisch,2300


In [38]:
column = 'Geschlecht'

amount_null = df.filter([column]).isnull().sum() / len(df) * 100
amount_null_count = df.filter([column]).isnull().sum()


print(f'NULL percent of column {column}: ', amount_null.iloc[0], '%')
print(f'NULL absolute of column {column}: ', amount_null_count.iloc[0])

NULL percent of column Geschlecht:  20.0 %
NULL absolute of column Geschlecht:  1


---

## Sortieren und Filtern

Verwende zum Sortieren des Dataframes die Methode `sort_values('Spalte')`. Verwende dabei `inplace`, damit die Änderungen direkt im aktuellen Dataframe durchgeführt werden.

In [39]:
# Wir sortieren zuerst nach dem Alter
df.sort_values('Alter', inplace=True) # Wir verwenden inplace=True um das Dataframe zu überschreiben

In [40]:
df

Unnamed: 0,Name,Geschlecht,Alter,Größe,Nationalität,Gehalt
C,Anne,W,16,1.82,deutsch,0.0
D,Nino,M,22,1.71,italienisch,
A,Peter,M,45,1.77,deutsch,3400.0
B,Karla,,53,1.72,schweizerisch,4000.0
E,Andrzej,M,61,1.68,polnisch,2300.0


In [41]:
# Wir können auch nach mehreren Spalten sortieren
df.sort_values(['Geschlecht', 'Alter'], inplace=True)

In [42]:
df

Unnamed: 0,Name,Geschlecht,Alter,Größe,Nationalität,Gehalt
D,Nino,M,22,1.71,italienisch,
A,Peter,M,45,1.77,deutsch,3400.0
E,Andrzej,M,61,1.68,polnisch,2300.0
C,Anne,W,16,1.82,deutsch,0.0
B,Karla,,53,1.72,schweizerisch,4000.0


In [43]:
# Wir können auch die Sortierung umkehren für jede der Spalten
df.sort_values(['Geschlecht', 'Alter'], ascending=[False, False], inplace=True) # gleich wie ascending=False

In [44]:
df

Unnamed: 0,Name,Geschlecht,Alter,Größe,Nationalität,Gehalt
C,Anne,W,16,1.82,deutsch,0.0
E,Andrzej,M,61,1.68,polnisch,2300.0
A,Peter,M,45,1.77,deutsch,3400.0
D,Nino,M,22,1.71,italienisch,
B,Karla,,53,1.72,schweizerisch,4000.0


In [45]:
# Um zu filtern, können wir auch den folgenden Befehl verwenden, dieser ist sehr ähnlich zu der normalen Indizierung
df_filtered = df.filter(['Name', 'Geschlecht', 'Alter'])

In [46]:
df_filtered

Unnamed: 0,Name,Geschlecht,Alter
C,Anne,W,16
E,Andrzej,M,61
A,Peter,M,45
D,Nino,M,22
B,Karla,,53


In [47]:
# Um herauszufinden ob ein Wert in einer Spalte vorkommt, können wir folgenden Code verwenden

df['Name'].isin(['Peter', 'Karla'])

C    False
E    False
A     True
D    False
B     True
Name: Name, dtype: bool

---

# Datenimport und Datenexport in Pandas

Pandas stellt umfangreiche Methoden zum importieren, bearbeiten und speichern von Daten zur Verfügung.

* Es werden zahlreiche Datenformate (.csv, .xlsx, .json, ...) unterstützt
* Daten können Lokal oder OnLine gespeichert werden
* Header können angepasst werden
* Datentypen können angepasst werden
* Spalten und Zeilen können verändert werden
* Fehlende Werte können bearbeitet werden
* ...

<h3>Formate, welche unter anderem von Pandas unterstützt werden</h3>

| Data Format |        Read       |            Save |
| ------------ | :---------------: | --------------: |
| csv          |  `pd.read_csv()`  |   `df.to_csv()` |
| json         |  `pd.read_json()` |  `df.to_json()` |
| excel        | `pd.read_excel()` | `df.to_excel()` |
| hdf          |  `pd.read_hdf()`  |   `df.to_hdf()` |
| sql          |  `pd.read_sql()`  |   `df.to_sql()` |
| ...          |        ...        |             ... |

## Laden aus einer CSV Datei

Wir verwenden das *Titanic* Dataset. Dieses ist nun gespeichert im Ordner `_data/titanic.csv`

In [48]:
# wir verwenden dafür die Pakete os und pandas

import os
import pandas as pd # bereits vorher importiert

In [49]:
# Hilfsmethode

path = os.path.join("..", "..", "_data", "titanic.csv")

if not os.path.exists(path):
    os.makedirs(os.path.dirname(path), exist_ok=True)
    df = pd.read_csv("https://raw.githubusercontent.com/rolandmueller/titanic/main/titanic3.csv")
    # df = sns.load_dataset("titanic")
    df.to_csv(path, index=False)
    print(f"Dataset saved to path {path}")
else:
    print("Dataset is already existing")

Dataset saved to path ..\..\_data\titanic.csv


In [50]:
path = os.path.join("..", "..", "_data", "titanic.csv")

titanic = pd.read_csv(path)

In [51]:
titanic

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0000,0,0,24160,211.3375,B5,S,2,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.5500,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0000,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0000,1,2,113781,151.5500,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0000,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1304,3,0,"Zabour, Miss. Hileni",female,14.5000,1,0,2665,14.4542,,C,,328.0,
1305,3,0,"Zabour, Miss. Thamine",female,,1,0,2665,14.4542,,C,,,
1306,3,0,"Zakarian, Mr. Mapriededer",male,26.5000,0,0,2656,7.2250,,C,,304.0,
1307,3,0,"Zakarian, Mr. Ortin",male,27.0000,0,0,2670,7.2250,,C,,,


Wie wir sehen haben wir 1309 Zeilen (Datenpunkte) und 14 Spalten.

Was ist hier das Label?

Datasets können aber auch genau umgekehrt aufgebaut sein.

In [52]:
# Transpornieren des Dataframes

transposed_titanic = titanic.T

In [53]:
transposed_titanic

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,...,1299,1300,1301,1302,1303,1304,1305,1306,1307,1308
pclass,1,1,1,1,1,1,1,1,1,1,...,3,3,3,3,3,3,3,3,3,3
survived,1,1,0,0,0,1,1,0,1,0,...,0,1,0,0,0,0,0,0,0,0
name,"Allen, Miss. Elisabeth Walton","Allison, Master. Hudson Trevor","Allison, Miss. Helen Loraine","Allison, Mr. Hudson Joshua Creighton","Allison, Mrs. Hudson J C (Bessie Waldo Daniels)","Anderson, Mr. Harry","Andrews, Miss. Kornelia Theodosia","Andrews, Mr. Thomas Jr","Appleton, Mrs. Edward Dale (Charlotte Lamson)","Artagaveytia, Mr. Ramon",...,"Yasbeck, Mr. Antoni","Yasbeck, Mrs. Antoni (Selini Alexander)","Youseff, Mr. Gerious","Yousif, Mr. Wazli","Yousseff, Mr. Gerious","Zabour, Miss. Hileni","Zabour, Miss. Thamine","Zakarian, Mr. Mapriededer","Zakarian, Mr. Ortin","Zimmerman, Mr. Leo"
sex,female,male,female,male,female,male,female,male,female,male,...,male,female,male,male,male,female,female,male,male,male
age,29.0,0.9167,2.0,30.0,25.0,48.0,63.0,39.0,53.0,71.0,...,27.0,15.0,45.5,,,14.5,,26.5,27.0,29.0
sibsp,0,1,1,1,1,0,1,0,2,0,...,1,1,0,0,0,1,1,0,0,0
parch,0,2,2,2,2,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
ticket,24160,113781,113781,113781,113781,19952,13502,112050,11769,PC 17609,...,2659,2659,2628,2647,2627,2665,2665,2656,2670,315082
fare,211.3375,151.55,151.55,151.55,151.55,26.55,77.9583,0.0,51.4792,49.5042,...,14.4542,14.4542,7.225,7.225,14.4583,14.4542,14.4542,7.225,7.225,7.875
cabin,B5,C22 C26,C22 C26,C22 C26,C22 C26,E12,D7,A36,C101,,...,,,,,,,,,,


Es gibt einige andere Parameter, die beim Einlesen der Daten angepasst werden können. So kann explizit angegeben werden, welches Trennzeichen verwendet wird oder ob die erste Zeile als Header verwendet werden soll. Ebenso kann die Indexspalte explizit angegeben werden.

In [54]:
# Einlesen der Daten ohne Header
titanic = pd.read_csv(path, header=None)

In [55]:
titanic

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10,11,12,13
0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
1,1,1,"Allen, Miss. Elisabeth Walton",female,29.0,0,0,24160,211.3375,B5,S,2,,"St Louis, MO"
2,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.55,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Miss. Helen Loraine",female,2.0,1,2,113781,151.55,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0,1,2,113781,151.55,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1305,3,0,"Zabour, Miss. Hileni",female,14.5,1,0,2665,14.4542,,C,,328.0,
1306,3,0,"Zabour, Miss. Thamine",female,,1,0,2665,14.4542,,C,,,
1307,3,0,"Zakarian, Mr. Mapriededer",male,26.5,0,0,2656,7.225,,C,,304.0,
1308,3,0,"Zakarian, Mr. Ortin",male,27.0,0,0,2670,7.225,,C,,,


In [56]:
# Einlesen der Daten mit expliziter Angabe der Indexspalte
titanic = pd.read_csv(path, index_col="age")

In [57]:
titanic

Unnamed: 0_level_0,pclass,survived,name,sex,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
age,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
29.0000,1,1,"Allen, Miss. Elisabeth Walton",female,0,0,24160,211.3375,B5,S,2,,"St Louis, MO"
0.9167,1,1,"Allison, Master. Hudson Trevor",male,1,2,113781,151.5500,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON"
2.0000,1,0,"Allison, Miss. Helen Loraine",female,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
30.0000,1,0,"Allison, Mr. Hudson Joshua Creighton",male,1,2,113781,151.5500,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
25.0000,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
...,...,...,...,...,...,...,...,...,...,...,...,...,...
14.5000,3,0,"Zabour, Miss. Hileni",female,1,0,2665,14.4542,,C,,328.0,
,3,0,"Zabour, Miss. Thamine",female,1,0,2665,14.4542,,C,,,
26.5000,3,0,"Zakarian, Mr. Mapriededer",male,0,0,2656,7.2250,,C,,304.0,
27.0000,3,0,"Zakarian, Mr. Ortin",male,0,0,2670,7.2250,,C,,,


In [58]:
# Achtung: Index ist nicht mehr eindeutig

# Hier filtern wir nach allen Personen dem Alter von 22 Jahren
titanic.loc[22]

Unnamed: 0_level_0,pclass,survived,name,sex,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
age,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
22.0,1,1,"Bowerman, Miss. Elsie Edith",female,0,1,113505,55.0,E33,S,6,,"St Leonards-on-Sea, England Ohio"
22.0,1,1,"Cleaver, Miss. Alice",female,0,0,113781,151.55,,S,11,,
22.0,1,1,"Frolicher, Miss. Hedwig Margaritha",female,0,2,13568,49.5,B39,C,5,,"Zurich, Switzerland"
22.0,1,1,"Gibson, Miss. Dorothy Winifred",female,0,1,112378,59.4,,C,7,,"New York, NY"
22.0,1,1,"Ostby, Miss. Helene Ragnhild",female,0,1,113509,61.9792,B36,C,5,,"Providence, RI"
22.0,1,1,"Pears, Mrs. Thomas (Edith Wearne)",female,1,0,113776,66.6,C2,S,8,,"Isleworth, England"
22.0,1,0,"Ringhini, Mr. Sante",male,0,0,PC 17760,135.6333,,C,,232.0,
22.0,2,1,"Caldwell, Mrs. Albert Francis (Sylvia Mae Harb...",female,1,1,248738,29.0,,S,13,,"Bangkok, Thailand / Roseville, IL"
22.0,2,1,"Cook, Mrs. (Selena Rogers)",female,0,0,W./C. 14266,10.5,F33,S,14,,Pennsylvania
22.0,2,0,"Jefferys, Mr. Ernest Wilfred",male,2,0,C.A. 31029,31.5,,S,,,"Guernsey / Elizabeth, NJ"


In [59]:
# Nun verwenden wir das Geschlecht als Index
titanic = pd.read_csv(path, index_col='sex')

In [60]:
titanic

Unnamed: 0_level_0,pclass,survived,name,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
female,1,1,"Allen, Miss. Elisabeth Walton",29.0000,0,0,24160,211.3375,B5,S,2,,"St Louis, MO"
male,1,1,"Allison, Master. Hudson Trevor",0.9167,1,2,113781,151.5500,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON"
female,1,0,"Allison, Miss. Helen Loraine",2.0000,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
male,1,0,"Allison, Mr. Hudson Joshua Creighton",30.0000,1,2,113781,151.5500,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
female,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",25.0000,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
...,...,...,...,...,...,...,...,...,...,...,...,...,...
female,3,0,"Zabour, Miss. Hileni",14.5000,1,0,2665,14.4542,,C,,328.0,
female,3,0,"Zabour, Miss. Thamine",,1,0,2665,14.4542,,C,,,
male,3,0,"Zakarian, Mr. Mapriededer",26.5000,0,0,2656,7.2250,,C,,304.0,
male,3,0,"Zakarian, Mr. Ortin",27.0000,0,0,2670,7.2250,,C,,,


In [61]:
titanic.loc['female']

Unnamed: 0_level_0,pclass,survived,name,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1
female,1,1,"Allen, Miss. Elisabeth Walton",29.0,0,0,24160,211.3375,B5,S,2,,"St Louis, MO"
female,1,0,"Allison, Miss. Helen Loraine",2.0,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
female,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",25.0,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
female,1,1,"Andrews, Miss. Kornelia Theodosia",63.0,1,0,13502,77.9583,D7,S,10,,"Hudson, NY"
female,1,1,"Appleton, Mrs. Edward Dale (Charlotte Lamson)",53.0,2,0,11769,51.4792,C101,S,D,,"Bayside, Queens, NY"
...,...,...,...,...,...,...,...,...,...,...,...,...,...
female,3,1,"Whabee, Mrs. George Joseph (Shawneene Abi-Saab)",38.0,0,0,2688,7.2292,,C,C,,
female,3,1,"Wilkes, Mrs. James (Ellen Needs)",47.0,1,0,363272,7.0000,,S,,,
female,3,1,"Yasbeck, Mrs. Antoni (Selini Alexander)",15.0,1,0,2659,14.4542,,C,,,
female,3,0,"Zabour, Miss. Hileni",14.5,1,0,2665,14.4542,,C,,328.0,


In [62]:
# Einlesen der Daten mit expliziter Angabe des Trennzeichens
titanic = pd.read_csv(path, sep=",")

In [63]:
titanic

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0000,0,0,24160,211.3375,B5,S,2,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.5500,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0000,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0000,1,2,113781,151.5500,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0000,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1304,3,0,"Zabour, Miss. Hileni",female,14.5000,1,0,2665,14.4542,,C,,328.0,
1305,3,0,"Zabour, Miss. Thamine",female,,1,0,2665,14.4542,,C,,,
1306,3,0,"Zakarian, Mr. Mapriededer",male,26.5000,0,0,2656,7.2250,,C,,304.0,
1307,3,0,"Zakarian, Mr. Ortin",male,27.0000,0,0,2670,7.2250,,C,,,


In manchen Fällen kann das Trennzeichen (zBsp ",") Probleme machen (zBsp Tausender-Trennzeichen oder als Gleitkomma für floats)

In [64]:
# In so einem Fall kann dann die eigene Option decimal verwendet werden
titanic = pd.read_csv(path, sep=",", decimal=".")

In [65]:
titanic

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0000,0,0,24160,211.3375,B5,S,2,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.5500,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0000,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0000,1,2,113781,151.5500,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0000,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1304,3,0,"Zabour, Miss. Hileni",female,14.5000,1,0,2665,14.4542,,C,,328.0,
1305,3,0,"Zabour, Miss. Thamine",female,,1,0,2665,14.4542,,C,,,
1306,3,0,"Zakarian, Mr. Mapriededer",male,26.5000,0,0,2656,7.2250,,C,,304.0,
1307,3,0,"Zakarian, Mr. Ortin",male,27.0000,0,0,2670,7.2250,,C,,,


Falls es keinen Header gibt, kann dieser selber erstellt werden mit dem `names` argument

In [66]:
own_header_titanic = pd.read_csv(path, header=0, names=['own_class', 'survived', 'name', 'sex', 'age', 'sibsp', 'parch', 'ticket', 'fare', 'cabin', 'embarked', 'boat', 'body', 'home.dest'])

own_header_titanic # würde auch funktionieren wenn kein header gegeben wäre

Unnamed: 0,own_class,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0000,0,0,24160,211.3375,B5,S,2,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.5500,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0000,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0000,1,2,113781,151.5500,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0000,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1304,3,0,"Zabour, Miss. Hileni",female,14.5000,1,0,2665,14.4542,,C,,328.0,
1305,3,0,"Zabour, Miss. Thamine",female,,1,0,2665,14.4542,,C,,,
1306,3,0,"Zakarian, Mr. Mapriededer",male,26.5000,0,0,2656,7.2250,,C,,304.0,
1307,3,0,"Zakarian, Mr. Ortin",male,27.0000,0,0,2670,7.2250,,C,,,


In unserem Fall wollen wir die Namen beibehalten, sprich wir verwenden die gleichen Spaltennamen wie im originalen Datenset. Um die Spaltennamen des ursprünglichen Datensets zu erhalten verwenden wir den `columns()` Befehl.

In [67]:
# Alle Spaltennamen erhalten
columns = titanic.columns

In [68]:
columns

Index(['pclass', 'survived', 'name', 'sex', 'age', 'sibsp', 'parch', 'ticket',
       'fare', 'cabin', 'embarked', 'boat', 'body', 'home.dest'],
      dtype='object')

In [69]:
# Ausgeben lassen der Informationen über die Spalten inklusive Null-Count:
titanic.info()

# Weitere Infos findet man oft auf der Webseite des Datesets, in diesem Fall: https://www.kaggle.com/c/titanic/data (Achtung, nicht genau das gleiche Dataset, in diesem Fall bereits bereinigt und aufgteilt in train und test)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 14 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   pclass     1309 non-null   int64  
 1   survived   1309 non-null   int64  
 2   name       1309 non-null   object 
 3   sex        1309 non-null   object 
 4   age        1046 non-null   float64
 5   sibsp      1309 non-null   int64  
 6   parch      1309 non-null   int64  
 7   ticket     1309 non-null   object 
 8   fare       1308 non-null   float64
 9   cabin      295 non-null    object 
 10  embarked   1307 non-null   object 
 11  boat       486 non-null    object 
 12  body       121 non-null    float64
 13  home.dest  745 non-null    object 
dtypes: float64(3), int64(4), object(7)
memory usage: 143.3+ KB


Wir sehen, manche Spalten sind als Typ `object`, obwohl sie zbsp als string durchgehen könnten. Richtige Datentypen sind wichtig, da so dann mehr Methoden zur Verfügung stehen.

Für manche Spalten ist es aber dann Vorteilhaft, die <em>null</em> bzw. <em>None</em> Werte davor zu befüllen

In [70]:
# Betrachten wir die Spalte home.dest:
# Die Daten sind eigentlich Werte des Typs string, aber es wird als object interpretiert -> Dies ändern wir nun

# Füllen der Daten mit dem Wert '' (leerer String)
titanic['home.dest'] = titanic['home.dest'].fillna(value='')


titanic['home.dest'] = titanic["home.dest"].astype("string")

In [71]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 14 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   pclass     1309 non-null   int64  
 1   survived   1309 non-null   int64  
 2   name       1309 non-null   object 
 3   sex        1309 non-null   object 
 4   age        1046 non-null   float64
 5   sibsp      1309 non-null   int64  
 6   parch      1309 non-null   int64  
 7   ticket     1309 non-null   object 
 8   fare       1308 non-null   float64
 9   cabin      295 non-null    object 
 10  embarked   1307 non-null   object 
 11  boat       486 non-null    object 
 12  body       121 non-null    float64
 13  home.dest  1309 non-null   string 
dtypes: float64(3), int64(4), object(6), string(1)
memory usage: 143.3+ KB


In [72]:
titanic['home.dest']

0                          St Louis, MO
1       Montreal, PQ / Chesterville, ON
2       Montreal, PQ / Chesterville, ON
3       Montreal, PQ / Chesterville, ON
4       Montreal, PQ / Chesterville, ON
                     ...               
1304                                   
1305                                   
1306                                   
1307                                   
1308                                   
Name: home.dest, Length: 1309, dtype: string

Wenn im Vorhinein die Datentypen schon feststehen, können auch diese beim Einlesen verwendet werden. Dafür muss ein Dictionary für das Argument `dtype` übergeben werden.

In [73]:
# Einlesen der Daten mit home.dest als String
titanic = pd.read_csv(path, dtype={"home.dest": 'string'}, header=0)

In [74]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1309 entries, 0 to 1308
Data columns (total 14 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   pclass     1309 non-null   int64  
 1   survived   1309 non-null   int64  
 2   name       1309 non-null   object 
 3   sex        1309 non-null   object 
 4   age        1046 non-null   float64
 5   sibsp      1309 non-null   int64  
 6   parch      1309 non-null   int64  
 7   ticket     1309 non-null   object 
 8   fare       1308 non-null   float64
 9   cabin      295 non-null    object 
 10  embarked   1307 non-null   object 
 11  boat       486 non-null    object 
 12  body       121 non-null    float64
 13  home.dest  745 non-null    string 
dtypes: float64(3), int64(4), object(6), string(1)
memory usage: 143.3+ KB


In [75]:
titanic['home.dest']

0                          St Louis, MO
1       Montreal, PQ / Chesterville, ON
2       Montreal, PQ / Chesterville, ON
3       Montreal, PQ / Chesterville, ON
4       Montreal, PQ / Chesterville, ON
                     ...               
1304                               <NA>
1305                               <NA>
1306                               <NA>
1307                               <NA>
1308                               <NA>
Name: home.dest, Length: 1309, dtype: string

Es können auch sogenannte na-filter verwendet (und adaptiert) bzw. deaktiviert werden, welche Pandas ggf. unterbinden, leere String und dergleichen mit einen <b>NaN</b>-Symbol zu ersetzen.

In [76]:
# Einlesen mit na_filter = False
titanic = pd.read_csv(path, na_filter=False, header=0, dtype={"home.dest": 'string'})

In [77]:
titanic['home.dest']

0                          St Louis, MO
1       Montreal, PQ / Chesterville, ON
2       Montreal, PQ / Chesterville, ON
3       Montreal, PQ / Chesterville, ON
4       Montreal, PQ / Chesterville, ON
                     ...               
1304                                   
1305                                   
1306                                   
1307                                   
1308                                   
Name: home.dest, Length: 1309, dtype: string

In [78]:
titanic = pd.read_csv(path, header=0, sep=',', index_col=False, decimal='.')

---

## Speichern eines Dataframes

Wie am Anfang erwähnt können die Dataframes auch in einer Datei gespeichert werden.

In [79]:
# speichern des dataframes als json

path = os.path.join("..", "..", "_data", "titanic.json")

titanic.to_json(path)

In [80]:
# Laden der json Datei:
titanic = pd.read_json(path)

In [81]:
titanic

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0000,0,0,24160,211.3375,B5,S,2,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.5500,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0000,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0000,1,2,113781,151.5500,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0000,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1304,3,0,"Zabour, Miss. Hileni",female,14.5000,1,0,2665,14.4542,,C,,328.0,
1305,3,0,"Zabour, Miss. Thamine",female,,1,0,2665,14.4542,,C,,,
1306,3,0,"Zakarian, Mr. Mapriededer",male,26.5000,0,0,2656,7.2250,,C,,304.0,
1307,3,0,"Zakarian, Mr. Ortin",male,27.0000,0,0,2670,7.2250,,C,,,


In [82]:
titanic.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1309 entries, 0 to 1308
Data columns (total 14 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   pclass     1309 non-null   int64  
 1   survived   1309 non-null   int64  
 2   name       1309 non-null   object 
 3   sex        1309 non-null   object 
 4   age        1046 non-null   float64
 5   sibsp      1309 non-null   int64  
 6   parch      1309 non-null   int64  
 7   ticket     1309 non-null   object 
 8   fare       1308 non-null   float64
 9   cabin      295 non-null    object 
 10  embarked   1307 non-null   object 
 11  boat       486 non-null    object 
 12  body       121 non-null    float64
 13  home.dest  745 non-null    object 
dtypes: float64(3), int64(4), object(7)
memory usage: 153.4+ KB


In [83]:
# We can delete the created json again
os.remove(path)

In [84]:
path = os.path.join("..", "..", "_data", "titanic.csv")

# In the case of a csv file, which occurs most often, we have a lot of possibilities
titanic.to_csv(path, sep=',', decimal='.', index=False, header=True) # and many more

---
## Aufgabe:
Laden Sie das *Titanic* Dataset erneut (Falls Link benötigt wird: https://raw.githubusercontent.com/rolandmueller/titanic/main/titanic3.csv).

Bearbeiten Sie nun folgende Punkte! Dokumentieren Sie dabei ihre Schritte indem Sie ggf. auch Fehlversuche als Zellen zu belassen (um zu zeigen, dass etwas nicht funktioniert). 

* Wie ist das Dataset aufgebaut?

    Ein Datensatz hat (name, alter, kabine, etc.) und ob diese person überlebt hat.
* Was bedeuten die einzelnen Features?

    Es gibt personen mit (name, alter, etc.) und ob diese Personen überlebt haben.
* Extrahieren Sie Informationen über das Dataframe über die `info()` Methoden

    Namen sind Objects und bei body gibt es die wenigsten non-nulls
* Analysieren Sie die Datentypen und auch die Anzahl der leeren Zellen in jeder Spalte. Wie viele Prozent sind leer/fehlend?

    In body gibt es 90.7% NaN werte
* Filtern sie das Dataframe, sodass es nur Zeilen beinhaltet, bei der die `Geschlecht`-Spalte und bei der das `Alter` nicht leer ist

    Fertig!
* Sortieren Sie das Dataframe absteigend nach der Spalte `Alter`

    Fertig!
* Erstellen Sie ein neues Dataframe (`inplace=False`), wo Sie den Namen außerdem noch alphabetisch sortieren (aufsteigend). Es soll also zuerst absteigend nach `Alter`, danach aufsteigend nach `Name` sortiert werden.

    Fertig!
* Speichern Sie dieses neue Dataframe unter einem neuen Namen ab und verwenden Sie ab jetzt nur noch dieses Dataset.

    Fertig!
* Verwenden Sie die anschließend einen Befehl um die Ticket-Klasse `pclass` der jüngste(n) Passagier(in) herauszufinden und außerdem, ob diese Person überlebt hat. Sollte dieser Wert <em>leer</em> sein, so dürfen Sie diese Zeilen entfernen. Wie alt war diese Person?

    Age: 0.1667
    pclass: 3
    survived: 1
* Bonus: Finden Sie, unabhängig von den vorigen Aufgaben, den längsten Namen (Anzahl der Charakter). Wie viele Zeichen hat dieser Name?

    Length: 82
    Name: 'Penasco y Castellana, Mrs. Victor de Satode (Maria Josefa Perez de Soto y Vallejo)'

In [85]:
#Aufgabe 3
titanic.info()

<class 'pandas.core.frame.DataFrame'>
Index: 1309 entries, 0 to 1308
Data columns (total 14 columns):
 #   Column     Non-Null Count  Dtype  
---  ------     --------------  -----  
 0   pclass     1309 non-null   int64  
 1   survived   1309 non-null   int64  
 2   name       1309 non-null   object 
 3   sex        1309 non-null   object 
 4   age        1046 non-null   float64
 5   sibsp      1309 non-null   int64  
 6   parch      1309 non-null   int64  
 7   ticket     1309 non-null   object 
 8   fare       1308 non-null   float64
 9   cabin      295 non-null    object 
 10  embarked   1307 non-null   object 
 11  boat       486 non-null    object 
 12  body       121 non-null    float64
 13  home.dest  745 non-null    object 
dtypes: float64(3), int64(4), object(7)
memory usage: 153.4+ KB


In [86]:
#Aufgabe 4
column = 'body'

amount_null = titanic.filter([column]).isnull().sum() / len(titanic) * 100
amount_null_count = titanic.filter([column]).isnull().sum()


print(f'NULL percent of column {column}: ', amount_null.iloc[0], '%')
print(f'NULL absolute of column {column}: ', amount_null_count.iloc[0])

NULL percent of column body:  90.75630252100841 %
NULL absolute of column body:  1188


In [88]:
#Aufgabe 5
cleaned_df_2 = titanic.dropna(subset=['sex', 'age'])
cleaned_df_2

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
0,1,1,"Allen, Miss. Elisabeth Walton",female,29.0000,0,0,24160,211.3375,B5,S,2,,"St Louis, MO"
1,1,1,"Allison, Master. Hudson Trevor",male,0.9167,1,2,113781,151.5500,C22 C26,S,11,,"Montreal, PQ / Chesterville, ON"
2,1,0,"Allison, Miss. Helen Loraine",female,2.0000,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
3,1,0,"Allison, Mr. Hudson Joshua Creighton",male,30.0000,1,2,113781,151.5500,C22 C26,S,,135.0,"Montreal, PQ / Chesterville, ON"
4,1,0,"Allison, Mrs. Hudson J C (Bessie Waldo Daniels)",female,25.0000,1,2,113781,151.5500,C22 C26,S,,,"Montreal, PQ / Chesterville, ON"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1301,3,0,"Youseff, Mr. Gerious",male,45.5000,0,0,2628,7.2250,,C,,312.0,
1304,3,0,"Zabour, Miss. Hileni",female,14.5000,1,0,2665,14.4542,,C,,328.0,
1306,3,0,"Zakarian, Mr. Mapriededer",male,26.5000,0,0,2656,7.2250,,C,,304.0,
1307,3,0,"Zakarian, Mr. Ortin",male,27.0000,0,0,2670,7.2250,,C,,,


In [91]:
#Aufgabe 6
titanic.sort_values('age', ascending=False, inplace=True)

In [93]:
#Aufgabe 7
titanic_sorted_name = titanic.sort_values(['age', 'name'], ascending=[False, True], inplace=False)
titanic_sorted_name

Unnamed: 0,pclass,survived,name,sex,age,sibsp,parch,ticket,fare,cabin,embarked,boat,body,home.dest
14,1,1,"Barkworth, Mr. Algernon Henry Wilson",male,80.0,0,0,27042,30.0000,A23,S,B,,"Hessle, Yorks"
61,1,1,"Cavendish, Mrs. Tyrell William (Julia Florence...",female,76.0,1,0,19877,78.8500,C46,S,6,,"Little Onn Hall, Staffs"
1235,3,0,"Svensson, Mr. Johan",male,74.0,0,0,347060,7.7750,,S,,,
9,1,0,"Artagaveytia, Mr. Ramon",male,71.0,0,0,PC 17609,49.5042,,C,,22.0,"Montevideo, Uruguay"
135,1,0,"Goldschmidt, Mr. George B",male,71.0,0,0,PC 17754,34.6542,A5,C,,,"New York, NY"
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1302,3,0,"Yousif, Mr. Wazli",male,,0,0,2647,7.2250,,C,,,
1303,3,0,"Yousseff, Mr. Gerious",male,,0,0,2627,14.4583,,C,,,
1305,3,0,"Zabour, Miss. Thamine",female,,1,0,2665,14.4542,,C,,,
1262,3,0,"van Billiard, Master. James William",male,,1,1,A/5. 851,14.5000,,S,,,


In [102]:
#Aufgabe 8
temp = titanic_sorted_name.dropna(subset=['age'])
temp.sort_values('age', ascending=True, inplace=True)
temp.iloc[0]

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  temp.sort_values('age', ascending=True, inplace=True)


pclass                                             3
survived                                           1
name         Dean, Miss. Elizabeth Gladys "Millvina"
sex                                           female
age                                           0.1667
sibsp                                              1
parch                                              2
ticket                                     C.A. 2315
fare                                          20.575
cabin                                           None
embarked                                           S
boat                                              10
body                                             NaN
home.dest                 Devon, England Wichita, KS
Name: 763, dtype: object

In [110]:
#Bonus
lengths = titanic_sorted_name['name'].apply(len)
longest_name = titanic_sorted_name.loc[lengths.idxmax(), 'name']
longest_name_length = lengths.max()
longest_name_length


82