# Praktikum Informationstechnik im Maschinenbau II
## P10 - Daten analysieren

### Hintergrund

Das [Titanic-Unglück ](https://de.wikipedia.org/wiki/Titanic_(Schiff)) ist datentechnisch hervorragend dokumentiert und wird gerne als Beispiel für Aufgaben der Datenanalyse herangezogen.

Wir haben die Datenbasis zudem etwas stärker zerlegt und auf verschiedene Formate verteilt, so dass der erste Teil der Aufgabe zunächst darin besteht, die verschiedenen Datenquellen zusammenzuführen

In [1]:
# Importanweisungen
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt

## Aufgabe 1: Laden der Teile des Titanic-Datasets und zusammenführen

Das Dataset ist gesplittet in verschiedene Aspekte

Nr. | Datei | Aspekt | Format | Felder
--|----|--|--|--
1 | persons.csv | Daten zu den Personen | csv | PassengerId, Name, Sex, Age
2 | oper.xlsx | Daten zum Betrieb | Excel | PassengerId, Embarked, PClass, Ticket
3 | commercial.pkl | Bezahlter Ticketpreis | Pickle | Fare
4 | disaster.html | Opferliste | html | Survived (Überlebt? Ja/nein)

- Laden Sie die einzelnen Dateien mit den entsprechenden `pandas`-Methoden
- Prüfen und bereinigen Sie die Dataframes (Index, Spaltennamen, Datentypen der Spalten)
- Führen Sie alle Dataframes zu einem Dataframe `titanic` zusammen

## __1. Daten zu den Personen__

- Schauen Sie die Datei `person.csv` mit dem Texteditor an
- Prüfen Sie Kodierung und Trennzeichen
- Laden Sie in ein Dataframe
- Geben Sie die technischen Infos aus
- Geben Sie die Inhalte aus

In [2]:
# Laden in Dataframe
df_persons = pd.read_csv('person.csv', sep=';', decimal=',')

In [3]:
# Technische Infos
df_persons.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Name         891 non-null    object 
 2   Sex          891 non-null    object 
 3   Age          714 non-null    float64
dtypes: float64(1), int64(1), object(2)
memory usage: 28.0+ KB


In [4]:
# Ausgabe
df_persons.head()

Unnamed: 0,PassengerId,Name,Sex,Age
0,1,"Braund, Mr. Owen Harris",male,22.0
1,2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0
2,3,"Heikkinen, Miss. Laina",female,26.0
3,4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0
4,5,"Allen, Mr. William Henry",male,35.0


### Aufbereiten
- Setzen Sie die `PassengerId` als Index
- Wandeln Sie `Sex` in den Typ category

In [5]:
# Index setzen
df_persons = df_persons.set_index('PassengerId')

In [6]:
# Wandeln in Category
df_persons.Sex = df_persons.Sex.astype('category')

In [7]:
df_persons

Unnamed: 0_level_0,Name,Sex,Age
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,"Braund, Mr. Owen Harris",male,22.0
2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0
3,"Heikkinen, Miss. Laina",female,26.0
4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0
5,"Allen, Mr. William Henry",male,35.0
...,...,...,...
887,"Montvila, Rev. Juozas",male,27.0
888,"Graham, Miss. Margaret Edith",female,19.0
889,"Johnston, Miss. Catherine Helen ""Carrie""",female,
890,"Behr, Mr. Karl Howell",male,26.0


In [8]:
df_persons.Sex.cat.categories

Index(['female', 'male'], dtype='object')

## __2. Daten zum Betrieb__

- Laden Sie die gesamte Excel-Mappe
- Prüfen Sie, wieviele und welche Arbeitsblätter enthalten sind
- Laden Sie das Arbeitsblatt in ein Dataframe
- Geben Sie die technischen Infos aus
- Geben Sie die Inhalte aus

In [9]:
# Laden der Exceldatei.
excel_mappe = pd.read_excel('oper.xlsx', sheet_name=None)
excel_mappe

{'Sheet1':      PassengerId Embarked  Pclass            Ticket
 0              1        S       3         A/5 21171
 1              2        C       1          PC 17599
 2              3        S       3  STON/O2. 3101282
 3              4        S       1            113803
 4              5        S       3            373450
 ..           ...      ...     ...               ...
 886          887        S       2            211536
 887          888        S       1            112053
 888          889        S       3        W./C. 6607
 889          890        C       1            111369
 890          891        Q       3            370376
 
 [891 rows x 4 columns]}

In [10]:
# Laden des Worksheets
df_oper = excel_mappe['Sheet1']

In [11]:
# Technische Infos
df_oper.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 4 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   PassengerId  891 non-null    int64 
 1   Embarked     889 non-null    object
 2   Pclass       891 non-null    int64 
 3   Ticket       891 non-null    object
dtypes: int64(2), object(2)
memory usage: 28.0+ KB


In [12]:
# Ausgabe
df_oper

Unnamed: 0,PassengerId,Embarked,Pclass,Ticket
0,1,S,3,A/5 21171
1,2,C,1,PC 17599
2,3,S,3,STON/O2. 3101282
3,4,S,1,113803
4,5,S,3,373450
...,...,...,...,...
886,887,S,2,211536
887,888,S,1,112053
888,889,S,3,W./C. 6607
889,890,C,1,111369


### Aufbereiten
- Setzen Sie die `PassengerId` als Index
- Wandeln Sie `Embarked` und `Pclass` in den Typ category

In [13]:
# Index setzen
df_oper = df_oper.set_index('PassengerId')

In [14]:
# Spalten in category wandeln
df_oper.Embarked = df_oper.Embarked.astype('category')
df_oper.Pclass = df_oper.Pclass.astype('category')

In [15]:
# Ausgeben
df_oper

Unnamed: 0_level_0,Embarked,Pclass,Ticket
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,S,3,A/5 21171
2,C,1,PC 17599
3,S,3,STON/O2. 3101282
4,S,1,113803
5,S,3,373450
...,...,...,...
887,S,2,211536
888,S,1,112053
889,S,3,W./C. 6607
890,C,1,111369


## __3. Ticketpreis__

- Laden Sie die Pickle-Datei
- Geben Sie die technischen Infos aus
- Geben Sie die Inhalte aus

In [16]:
# Pickle-Datei laden
df_fare = pd.read_pickle('commercial.pkl')

In [17]:
# Technische Infos
df_fare.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 891 entries, 1 to 891
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   Fare    891 non-null    float64
dtypes: float64(1)
memory usage: 13.9 KB


In [18]:
# Ausgabe
df_fare

Unnamed: 0_level_0,Fare
PassengerId,Unnamed: 1_level_1
1,7.2500
2,71.2833
3,7.9250
4,53.1000
5,8.0500
...,...
887,13.0000
888,30.0000
889,23.4500
890,30.0000


## __4. Opferliste__

- Schauen Sie sich die Datei `disaster.html` mit dem HTML-Viewer und dem Texteditor an
- Laden Sie die html-Datei
>Sollten Packages fehlen, installieren Sie die bitte selbständig mit Hilfe von Terminalbefehlen nach und starten dann den Kernel neu
- Geben Sie die technischen Infos aus
- Geben Sie die Inhalte aus

In [19]:
# Laden der HTML-Datei 
df_surv = pd.read_html('disaster.html',header=1)[0]

In [20]:
# Technische Infos
df_surv.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 2 columns):
 #   Column       Non-Null Count  Dtype
---  ------       --------------  -----
 0   PassengerId  891 non-null    int64
 1   Unnamed: 1   891 non-null    int64
dtypes: int64(2)
memory usage: 14.0 KB


In [21]:
# Ausgabe
df_surv

Unnamed: 0,PassengerId,Unnamed: 1
0,1,0
1,2,1
2,3,1
3,4,1
4,5,0
...,...,...
886,887,0
887,888,1
888,889,0
889,890,1


### Aufbereiten
- Setzen Sie die `PassengerId` als Index
- Korrigieren Sie die Spaltenbenennung
- Wandeln Sie `Survived` in Datentyp `boolean`

In [22]:
# Index setzen
df_surv = df_surv.set_index('PassengerId')

In [23]:
# Feldname setzen
df_surv.columns = ['Survived']

In [24]:
# Datentyp in boolean wandeln
df_surv.Survived = df_surv.Survived.astype('boolean')

In [25]:
# Ausgeben
df_surv

Unnamed: 0_level_0,Survived
PassengerId,Unnamed: 1_level_1
1,False
2,True
3,True
4,True
5,False
...,...
887,False
888,True
889,False
890,True


## __Zusammenführen__

In [26]:
titanic = df_persons.merge(df_oper, left_index=True, right_index=True)
titanic = titanic.merge(df_fare, left_index=True, right_index=True)
titanic = titanic.merge(df_surv, left_index=True, right_index=True)

# Speichern Sie als Pickle-Datei

In [27]:
titanic

Unnamed: 0_level_0,Name,Sex,Age,Embarked,Pclass,Ticket,Fare,Survived
PassengerId,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
1,"Braund, Mr. Owen Harris",male,22.0,S,3,A/5 21171,7.2500,False
2,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,C,1,PC 17599,71.2833,True
3,"Heikkinen, Miss. Laina",female,26.0,S,3,STON/O2. 3101282,7.9250,True
4,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,S,1,113803,53.1000,True
5,"Allen, Mr. William Henry",male,35.0,S,3,373450,8.0500,False
...,...,...,...,...,...,...,...,...
887,"Montvila, Rev. Juozas",male,27.0,S,2,211536,13.0000,False
888,"Graham, Miss. Margaret Edith",female,19.0,S,1,112053,30.0000,True
889,"Johnston, Miss. Catherine Helen ""Carrie""",female,,S,3,W./C. 6607,23.4500,False
890,"Behr, Mr. Karl Howell",male,26.0,C,1,111369,30.0000,True


In [28]:
titanic.to_pickle('titanic.pkl')