# Überblick verschaffen

Um einen ersten Eindruck von Daten zu erhalten, schaut man sich am Besten ein paar Datensätze an und versucht diese zu verstehen. Welche Informationen relevant sind, hängt vom Anwendungsfall ab. Einige Informationen sind jedoch bei den meisten Anwendungsfällen relevant:

* Welche Merkmale gibt es?
* Was sagen die Merkmale aus?
* Liegen Zielwerte vor? 
* Welche Datentypen liegen vor?
* Gibt es fehlende Werte?
* Wie unterscheiden sich die Wertebereiche der Merkmale?
* Wie viele Datensätze gibt es?
* Was kann man für Aussagen aus grundlegenden Statistiken treffen?

Am Beispiel des Titanic Datensets wird das Vorgehen veranschaulicht. Es wird das Python Modul Pandas verwendet.

## Modul importieren und Daten laden

Python Modul Pandas importieren

In [5]:
import pandas as pd

Daten laden

In [6]:
data = pd.read_csv("../data/titanic/train.csv")

## Anzeigen der ersten Datensätze

In [7]:
data.head(7)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S
5,6,0,3,"Moran, Mr. James",male,,0,0,330877,8.4583,,Q
6,7,0,1,"McCarthy, Mr. Timothy J",male,54.0,0,0,17463,51.8625,E46,S


Beobachtungen aus den ersten Datensätzen:
* bei den Merkmalen Alter und Kabine fehlen Werte (NaN)
* einige der Merkmale sind nicht numerisch
* Merkmale unterscheiden sich teils stark in den Wertebereichen

In [8]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  891 non-null    int64  
 1   Survived     891 non-null    int64  
 2   Pclass       891 non-null    int64  
 3   Name         891 non-null    object 
 4   Sex          891 non-null    object 
 5   Age          714 non-null    float64
 6   SibSp        891 non-null    int64  
 7   Parch        891 non-null    int64  
 8   Ticket       891 non-null    object 
 9   Fare         891 non-null    float64
 10  Cabin        204 non-null    object 
 11  Embarked     889 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 83.7+ KB


Das Datenset besteht aus 891 Datensätzen, 11 Merkmalen und der Zielvariable (survived). Zwei der Merkmale sind vom Typ Float, 5 sind Integer und 5 sind Objekte.

Beschreibung der Merkmale:
* PassengerId: Eindeutige Id eines Passagiers
* Survived: Das Schiffsunglück überlebt ( 1 oder 0, für ja oder nein)
* Pclass: Ticketklasse
* Name: Passagiername
* Sex: Geschlecht
* Age: Alter
* SibSp: Anzahl Geschwister oder Ehepartner mit an Board der Titanic
* Parch: Anzahl Eltern oder Kinder an Board der Titanic
* fare: Ticketpreis
* Cabin: Kabinennummer
* Embarked: Ort des Zustiegs

## Datentypen

Die Bestimmung der Datentypen ist sehr wichtig. Der Datentyp entscheidet welche Vorverarbeitungsschritte notwendig und möglich sind. Zunächst wird unterschieden in **numerische und kategorische** Daten. Numerische Daten liegen vor, wenn man einen Mittelwert berechnen kann. Bei den numerischen Daten wird weiter unterschieden in **diskrete oder kontinuierliche** Daten. Daten sind diskret, wenn man die Werte **zählen** kann. Kann man die Werte **messen**, wie z.B. Länge, Gewicht oder Temperatur, dann handelt es sich um kategorische Daten. Kategorische Daten werden unterteilt in **nominale und ordinale Daten**. Wenn man das Merkmal **benennen** kann, wie z.B. Farbe: rot, blau etc., dann handelt es sich um nominale Daten. Ordinale Daten liegen vor, wenn man die Werte ordnen kann. 

### Numerische Daten 
(wenn man den Mittelwert berechnen kann)

- Diskrete Daten (wenn man es zählen kann)
- Kontinuierliche Daten (wenn man es messen kann, Länge, Gewicht, Temperatur etc.)

### Kategorische Daten
- Nominale Daten (wenn man es benennen kann, z.B. Farbe: rot, blau)
- Ordinale Daten (wenn man es ordnen kann)

Kategorische Daten in numerischer Form:
- Hausnummern,
- Telefonnummern
- Geburtsdatum
- Postleitzahlen

### Anwendung: Datentypen bestimmen 

Numerische Daten:
* Diskret
    * Sibsp
    * Parch
* Kontinuierlich
    * Age
    * Fare

Kategorische Daten:
* Nominal
    * PassengerId
    * Name
    * Ticket
    * Cabin
    * Survived
    * Sex 
    * Embarked
* Ordinal
    * Pclass

### Wissen prüfen

Die Variablen Land (Deutschland, Frankreich, Schweden) und Fläche (in Quadratkilometer) sind

```{dropdown} beide kategorisch
<font color='red'>Falsch.</font>
```
```{dropdown} beide numerisch
<font color='red'>Falsch.</font>
```
```{dropdown} numerisch und kategorisch
<font color='red'>Falsch.</font>
```
```{dropdown} kategorisch und numerisch
<font color='green'>Richtig.</font>
```

Die Variablen Monat (Januar, Februar, März) und monatlicher Umsatz (in Euro) sind

```{dropdown} beide kategorisch
<font color='red'>Falsch.</font>
```
```{dropdown} beide numerisch
<font color='red'>Falsch.</font>
```
```{dropdown} kategorisch und numerisch
<font color='green'>Richtig.</font>
```
```{dropdown} numerisch und kategorisch
<font color='red'>Falsch.</font>
```

Die Variablen Wasserverbrauch (Liter pro Tag) und Hausgröße (in m^2) sind

```{dropdown} beide kategorisch
<font color='red'>Falsch.</font>
```
```{dropdown} beide numerisch
<font color='green'>Richtig.</font>
```
```{dropdown} kategorisch und numerisch
<font color='red'>Falsch.</font>
```
```{dropdown} numerisch und kategorisch
<font color='red'>Falsch.</font>
```

Der Wasserverbrauch von 250 Haushalten wurde in niedrig, mittel und hoch eingestuft und die Hausgröße in klein, mittel und groß. Die Variablen Wasserhaushalt und Hausgröße sind in diesem Fall'

```{dropdown} beide kategorisch
<font color='green'>Richtig.</font>
```
```{dropdown} beide numerisch
<font color='red'>Falsch.</font>
```
```{dropdown} kategorisch und numerisch
<font color='red'>Falsch.</font>
```
```{dropdown} numerisch und kategorisch
<font color='red'>Falsch.</font>
    

## Grundlegende deskriptive Statistiken

In [10]:
data.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,891.0,891.0,891.0,714.0,891.0,891.0,891.0
mean,446.0,0.383838,2.308642,29.699118,0.523008,0.381594,32.204208
std,257.353842,0.486592,0.836071,14.526497,1.102743,0.806057,49.693429
min,1.0,0.0,1.0,0.42,0.0,0.0,0.0
25%,223.5,0.0,2.0,20.125,0.0,0.0,7.9104
50%,446.0,0.0,3.0,28.0,0.0,0.0,14.4542
75%,668.5,1.0,3.0,38.0,1.0,0.0,31.0
max,891.0,1.0,3.0,80.0,8.0,6.0,512.3292


Fakten aus den einfachen deskriptiven Statistiken:
* 38% der Passagiere im Datenset haben überlebt
* Das Alter der Passagiere variiert zwischen 0,4 und 80 Jahren.
* 75% der Passagiere haben weniger als 31,00 bezahlt  
* 25% der Passagiere haben mehr als 31,00 bezahlt
* der durchschnittliche Ticketpreis beträgt 32


### Wissen prüfen

Welche Aussage trifft zu?

```{dropdown} 25% der Passagiere sind mit Eltern oder Kinder gereist
<font color='red'>Falsch.</font>
```
```{dropdown} 50% der Passagiere sind mit Eltern oder Kinder gereist
<font color='red'>Falsch.</font>
```
```{dropdown} die meisten Passagiere (> 75%) sind nicht mit Eltern oder Kinder gereist
<font color='green'>Richtig.</font>
```

Welche Aussage trifft zu?
```{dropdown} 25% der Passagiere sind mit Ehepartner oder Geschwister gereist
<font color='green'>Richtig.</font>
```
```{dropdown} 50% der Passagiere sind mit Ehepartner oder Geschwister gereist
<font color='red'>Falsch.</font>
```
```{dropdown} die meisten Passagiere (> 75%) sind mit Ehepartner oder Geschwister gereist
<font color='red'>Falsch.</font>
```