# Fallstudie (Case Study) Datenanalyse

Heute wollen wir einen Datensatz aufbereiten, explorieren, Erkenntnisse gewinnen, und diese am Ende auch visualisieren. Wir machen also eine komplette Datenanalyse Fallstudie.

## Modul-Importe

In [28]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

---

# Datenquelle - [Titanic](https://www.kaggle.com/competitions/titanic/data?select=train.csv)

`[titanic_test.csv, titanic_train.csv]`


## Weitere Quellen für frei verfügbare Datensätze:

Ja, es gibt viele frei verfügbare Testdatensätze, die sich hervorragend für eine Datenanalyse-Fallstudie eignen. Hier sind einige beliebte und nützliche Quellen:

1. **Kaggle Datasets**:
   - Kaggle bietet eine Vielzahl von Datensätzen, die kostenlos heruntergeladen und verwendet werden können. Diese Datensätze decken verschiedene Bereiche ab, darunter Wirtschaft, Gesundheit, Soziales und mehr.
   - [Kaggle Datasets](https://www.kaggle.com/datasets)

2. **UCI Machine Learning Repository**:
   - Das UCI Machine Learning Repository ist eine der bekanntesten Quellen für frei verfügbare Datensätze, die häufig in Machine-Learning- und Datenanalyse-Kursen verwendet werden.
   - [UCI Machine Learning Repository](https://archive.ics.uci.edu/ml/index.php)

3. **Google Dataset Search**:
   - Google Dataset Search ist ein spezialisiertes Suchwerkzeug, mit dem man Datensätze zu verschiedenen Themen finden kann.
   - [Google Dataset Search](https://datasetsearch.research.google.com/)

4. **data.gov**:
   - Das Datenportal der US-Regierung bietet zahlreiche Datensätze zu verschiedenen Themen, darunter Umwelt, Bildung, Gesundheit und mehr.
   - [data.gov](https://www.data.gov/)

5. **European Union Open Data Portal**:
   - Das EU Open Data Portal bietet Datensätze aus verschiedenen Bereichen, die von den Institutionen und anderen Stellen der Europäischen Union gesammelt wurden.
   - [European Union Open Data Portal](https://data.europa.eu/euodp/en/data/)


---

## 1. Datenimport und Bereinigung

In [29]:
# Testdatensatz
df_test = pd.read_csv("Datensatz_titanic_test.csv",
                      sep=";",
                      decimal=",", # Dezimaltrennzeichen korrigieren
                      header=1,  # Welche Zeile ist Überschrift
                      #skiprows=1 # Wie viele Zeilen überspringen
                      index_col=0
                      )
df_test.head(4)
df_test.dtypes

PassengerId      int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

In [30]:
# Trainingsdatensatz
df_train = pd.read_csv("Datensatz_titanic_train.csv")
df_train.head()
df_train.dtypes

PassengerId      int64
Survived         int64
Pclass           int64
Name            object
Sex             object
Age            float64
SibSp            int64
Parch            int64
Ticket          object
Fare           float64
Cabin           object
Embarked        object
dtype: object

### Überblick über die Daten

Gleich lang?


In [31]:

df_test


Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,3,"Kelly; Mr, James",male,34.5,0,0,330911,7.8292,,Q
1,893,3,"Wilkes; Mrs, James (Ellen Needs)",female,47.0,1,0,363272,7.0000,,S
2,894,2,"Myles; Mr, Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,3,"Wirz; Mr, Albert",male,27.0,0,0,315154,8.6625,,S
4,896,3,"Hirvonen; Mrs, Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S
...,...,...,...,...,...,...,...,...,...,...,...
413,1305,3,"Spector; Mr, Woolf",male,,0,0,"A,5, 3236",8.0500,,S
414,1306,1,,female,39.0,0,0,PC 17758,108.9000,C105,C
415,1307,3,"Saether; Mr, Simon Sivertsen",male,38.5,0,0,"SOTON/O,Q, 3101262",7.2500,,S
416,1308,3,"Ware; Mr, Frederick",male,,0,0,359309,8.0500,,S


In [32]:
df_train

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


Nein! Aber fast gleiche Anzahl an Spalten. Könnten verschiedene Beobachtungen der gleichen Veriablen inm Wide Format sein.

### Datensätze verbinden

In [33]:
# Verbinden (Seitlich)
# pd.join
# pd.merge

# Verketten / Anfügen (Untereinander)
# pd.concat

In [34]:
print(df_train.columns)  # Trainingsdatensatz
print(df_test.columns)   # Testdatensatz

# X_train = Alle Spalten bis auf survived
# X_test

# y_train = Nur die survived spalte
# y_test

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')
Index(['PassengerId', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch',
       'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')


In [35]:
# Untereinander anfügen
df = pd.concat([df_train, df_test])
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0.0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1.0,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1.0,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,1.0,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0.0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
413,1305,,3,"Spector; Mr, Woolf",male,,0,0,"A,5, 3236",8.0500,,S
414,1306,,1,,female,39.0,0,0,PC 17758,108.9000,C105,C
415,1307,,3,"Saether; Mr, Simon Sivertsen",male,38.5,0,0,"SOTON/O,Q, 3101262",7.2500,,S
416,1308,,3,"Ware; Mr, Frederick",male,,0,0,359309,8.0500,,S


## Daten bereinigen und formatieren

### Datentypen korrigieren

In [36]:
# Methode A
df["Survived"].replace({np.nan: -1})

0      0.0
1      1.0
2      1.0
3      1.0
4      0.0
      ... 
413   -1.0
414   -1.0
415   -1.0
416   -1.0
417   -1.0
Name: Survived, Length: 1309, dtype: float64

In [37]:
# Methode B
df["Survived"].fillna(-1)

0      0.0
1      1.0
2      1.0
3      1.0
4      0.0
      ... 
413   -1.0
414   -1.0
415   -1.0
416   -1.0
417   -1.0
Name: Survived, Length: 1309, dtype: float64

In [38]:
type(np.nan)

float

In [39]:
type(pd.NA)

pandas._libs.missing.NAType

In [40]:

df["Survived"] = df["Survived"].replace({np.nan: pd.NA, 0.0: "no", 1.0: "yes"})

df["Survived"]


np.nan  # Für fehlende Zahlen        (Not a Number)
pd.NA   # Für fehlende Textwerte     (Not Available)
pd.NaT  # Für fehlende Datumsangaben (Not a Time)


NaT

In [41]:
df["Name"] 

0                                Braund, Mr. Owen Harris
1      Cumings, Mrs. John Bradley (Florence Briggs Th...
2                                 Heikkinen, Miss. Laina
3           Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                               Allen, Mr. William Henry
                             ...                        
413                                   Spector; Mr, Woolf
414                                                  NaN
415                         Saether; Mr, Simon Sivertsen
416                                  Ware; Mr, Frederick
417                             Peter; Master, Michael J
Name: Name, Length: 1309, dtype: object

In [42]:
df["Name"] = df["Name"].str.replace(";", ",")

In [62]:
# Spalten umbenennen
df

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,no,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,yes,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,yes,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.9250,,S
3,4,yes,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,no,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
413,1305,,3,"Spector, Mr, Woolf",male,,0,0,"A,5, 3236",8.0500,,S
414,1306,,1,,female,39.0,0,0,PC 17758,108.9000,C105,C
415,1307,,3,"Saether, Mr, Simon Sivertsen",male,38.5,0,0,"SOTON/O,Q, 3101262",7.2500,,S
416,1308,,3,"Ware, Mr, Frederick",male,,0,0,359309,8.0500,,S


In [63]:
df["PassengerId"].unique()

array([   1,    2,    3, ..., 1307, 1308, 1309])

In [65]:
df["PassengerId"].value_counts().sort_values(ascending=False)

PassengerId
1       1
82      1
3       1
4       1
5       1
       ..
1306    1
1307    1
1308    1
1301    1
1309    1
Name: count, Length: 1309, dtype: int64

In [68]:
# PassengerId als richtige ID Spalte verwenden
df = df.set_index("PassengerId")


KeyError: "None of ['PassengerId'] are in the columns"

In [69]:
df.head()

Unnamed: 0_level_0,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
1,no,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
2,yes,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
3,yes,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
4,yes,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
5,no,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [70]:
df.to_csv("titanic_processed.csv")

In [46]:
# Beschreibung der numerischen Spalten des kompletten Datensatzes

In [47]:
# Gibt es Dopplungen im Namen?
# Sind das die gleichen Personen?

### Verarbeitete Daten speichern

---

## 2. Explorative Datenanalyse


In [48]:
# Fehlende Werte: Wie viele? Wo?

### Fehlende Werte behandeln

### Fragestellungen:

* Haben mehr Leute aus der dritten oder aus der ersten Klasse überlebt?
* Wie hoch ist der Anteil an Überlebenden der verschiedenen Klassen?
* Wie viele Kinder / Säuglinge haben überlebt?
* Haben Leute aus Queenstown mehr bezahlt als die aus Cherbourg?

In [49]:
# Klasse zu Überlebenschance

In [50]:
# Anteil Überlebender aus erster Klasse

In [51]:
# Anteil Überlebender aus zweiter Klasse

In [52]:
# Anteil Überlebender aus dritter Klasse

In [53]:
# Ticketpreis per Ausgangsort

In [54]:
# Klassifizieren von Altersgruppen

In [55]:
# Welche Altersruppe hat eher überlebt?

In [56]:
# Anteil Überlebender Säuglinge

In [57]:
# Anteil Überlebender Kinder

In [58]:
# Anteil Überlebender Erwachsener

---

## 3. Visualisierung

In [59]:
# Überlebende nach Passagierklasse

In [60]:
# Überlebende nach Geschlecht

In [61]:
# Was noch?