![title](./pic/summary_functions/dataframe/1_title.png)

In [2]:
import pandas as pd

In [3]:
df = pd.read_csv('./csv/titanic.csv')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,892,0,3,"Kelly, Mr. James",male,34.5,0,0,330911,7.8292,,Q
1,893,1,3,"Wilkes, Mrs. James (Ellen Needs)",female,47.0,1,0,363272,7.0,,S
2,894,0,2,"Myles, Mr. Thomas Francis",male,62.0,0,0,240276,9.6875,,Q
3,895,0,3,"Wirz, Mr. Albert",male,27.0,0,0,315154,8.6625,,S
4,896,1,3,"Hirvonen, Mrs. Alexander (Helga E Lindqvist)",female,22.0,1,1,3101298,12.2875,,S


<br>

Im letzten Notebook hast du gelernt, wie man relevante Daten aus einem `DataFrame` oder einer `Series` auswählt. Wie ich dir gezeigt habe, ist es entscheidend, die richtigen Daten aus der Datendarstellung herauszuziehen, um die Arbeit zu erledigen.

Allerdings kommen die Daten nicht immer in dem Format aus dem Speicher, in dem wir sie haben wollen. Manchmal müssen wir selbst etwas mehr Arbeit leisten, um sie für die anstehende Aufgabe umzuformatieren. In diesem Notebook werden verschiedene Operationen behandelt, die wir auf unsere Daten anwenden können, um einen ersten und schnellen Überblick über das vorliegende `DataFrame` zu erhalten.

Pandas bietet hierfür viele einfache **"Summary Functions"**, die die Daten in irgendeiner nützlichen Weise umstrukturieren und darstellen. 

In diesem Notebook betrachtet wir die Summary Functions, die dir Informationen über dein komplettes `DataFrame` liefern

---

## `.shape()`

Um die **Form** von einem `Pandas` `DataFrame` zu erhalten, verwendest du `.shape`. Die Eigenschaft **shape** gibt ein Tupel zurück, das die Dimensionalität des `DataFrame` darstellt. Das Format von `.shape` ist `(Zeilen, Spalten)`.

In [4]:
df.shape

(418, 12)

---

## `.count()`

Die Methode `.count()` zählt die Anzahl der **nicht leeren Werte für jede Zeile bzw. Spalte** (`Nan`), wenn du den Achsenparameter als `axis='columns'` bzw `(0)` angibst, und gibt ein `Series`-Objekt mit dem Ergebnis für jede Zeile (oder Spalte) zurück.

In [17]:
df.count(0)

PassengerId    418
Survived       418
Pclass         418
Name           418
Sex            418
Age            332
SibSp          418
Parch          418
Ticket         418
Fare           417
Cabin           91
Embarked       418
dtype: int64

---

## `.info()`

Die Methode `.info()` gibt ein paar mehr Informationen über das `DataFrame` aus.

Die Informationen enthalten die Anzahl der **Spalten**, die **Spaltenbezeichnungen**, die **Datentypen der Spalten**, die **Speichernutzung**, den **Bereichsindex** und die Anzahl der Zellen in jeder Spalte (**Nicht-Null-Werte**).

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 418 entries, 0 to 417
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  418 non-null    int64  
 1   Survived     418 non-null    int64  
 2   Pclass       418 non-null    int64  
 3   Name         418 non-null    object 
 4   Sex          418 non-null    object 
 5   Age          332 non-null    float64
 6   SibSp        418 non-null    int64  
 7   Parch        418 non-null    int64  
 8   Ticket       418 non-null    object 
 9   Fare         417 non-null    float64
 10  Cabin        91 non-null     object 
 11  Embarked     418 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 39.3+ KB


---

## `.describe()`

Wenn das `DataFrame` **numerische Daten** enthält, enthält die Beschreibung diese Informationen für jede Spalte:

- count - Die Anzahl der nicht leeren Werte
- mean - Der durchschnittliche (mittlere) Wert
- std - Die Standardabweichung
- min - Der Mindestwert
- 25% - Das 25%-Perzentil
- 50% - Das 50%-Perzentil
- 75% - Das 75%-Perzentil
- max - Der Höchstwert

In [6]:
df.describe()

Unnamed: 0,PassengerId,Survived,Pclass,Age,SibSp,Parch,Fare
count,418.0,418.0,418.0,332.0,418.0,418.0,417.0
mean,1100.5,0.363636,2.26555,30.27259,0.447368,0.392344,35.627188
std,120.810458,0.481622,0.841838,14.181209,0.89676,0.981429,55.907576
min,892.0,0.0,1.0,0.17,0.0,0.0,0.0
25%,996.25,0.0,1.0,21.0,0.0,0.0,7.8958
50%,1100.5,0.0,3.0,27.0,0.0,0.0,14.4542
75%,1204.75,1.0,3.0,39.0,1.0,0.0,31.5
max,1309.0,1.0,3.0,76.0,8.0,9.0,512.3292
