Um deskriptive Statistiken mit Pandas und NumPy zu berechnen und zu interpretieren, können wir eine Vielzahl von Metriken extrahieren, wie zum Beispiel 

- Mittelwert (mean)
- Median
- Modus (mode)
- Standardabweichung (standard deviation)
- Varianz
- Minimum
- Maximum
- Quantile

Diese Statistiken helfen dabei, die Verteilung und Streuung von Daten besser zu verstehen. 

# Syllabus

Compute and interpret descriptive statistics using Pandas and NumPy to extract meaningful insights from data.

# .describe()


In [18]:
# Importieren der notwendigen Bibliotheken
import pandas as pd
import numpy as np

# Beispiel-Datensatz
daten = {
    'Name': ['Anna', 'Bernd', 'Clara', 'Daniel', 'Eva'],
    'Alter': [29, 34, 40, 22, 37],
    'Gehalt': [48000, 52000, 61000, 45000, 58000]
}

df = pd.DataFrame(daten)

# Deskriptive Statistiken berechnen
statistiken = df.describe()
statistiken

Unnamed: 0,Alter,Gehalt
count,5.0,5.0
mean,32.4,52800.0
std,7.092249,6685.80586
min,22.0,45000.0
25%,29.0,48000.0
50%,34.0,52000.0
75%,37.0,58000.0
max,40.0,61000.0


Die Funktion `df.describe()` liefert folgende Metriken für numerische Spalten:

- **count**:<br>
  Anzahl der Werte in jeder Spalte<br>
  nützlich, um fehlende Werte zu identifizieren
- **mean**:<br>
  Durchschnittswert der Daten<br>
  beschreibt die zentrale Tendenz
- **std**:<br>
  Standardabweichung<br>
  zeigt die Streuung der Daten um den Mittelwert
- **min**:<br>
  kleinster Wert der Daten
- **25%**:<br>
  erstes Quartil (unterer Quartil)
  25% der Daten liegen unter diesem Wert
- **50%** (Median):<br>
  auch zweites Quartil genannt<br>
  mittlere Wert der geordneten Daten<br>
  50% der Werte sind kleiner und 50% sind größer
- **75%**:<br>
  dritte Quartil (oberer Quartil)<br>
  75% der Daten liegen unter diesem Wert
- **max**:<br>
  größter Wert der Daten

<br>

**Interpretation**

- das Durchschnittsalter ist 32,4 Jahre, das durchschnittliche Gehalt beträgt 52.800 €
- die Standardabweichung des Alters beträgt 7,01 Jahre -> weist auf eine moderate Streuung hin, während die Gehaltsstreuung mit 6.157 € relativ gering ist
- das Minimumalter ist 22 Jahre und das maximale Alter 40 Jahre, mit einem Gehaltsspanne von 45.000 € bis 61.000 €
- der Median des Gehalts beträgt 52.000 €, was bedeutet, dass die Hälfte der Mitarbeitenden weniger als 52.000 € verdient und die andere Hälfte mehr


# grundlegende deskriptive Statistiken

In [19]:
import pandas as pd

# Einfaches DataFrame mit einer Spalte 'Werte'
df = pd.DataFrame({
    'Werte': [10, 20, 30, 40, 50]
})

df

Unnamed: 0,Werte
0,10
1,20
2,30
3,40
4,50


## Mittelwert (mean, Arithmetisches Mittel)# Berechnung des Mittelwerts

In [20]:
# Berechnung des Mittelwerts
mean_value = df['Werte'].mean()
print(f"Mean: {mean_value}")


# Erklärung: Der Mittelwert ist der Durchschnitt der Werte.

Mean: 30.0


## Median

In [21]:
# Berechnung des Medians
median_value = df['Werte'].median()
print(f"Median: {median_value}")

# Der Median ist der mittlere Wert, wenn die Daten in aufsteigender Reihenfolge sortiert sind.


Median: 30.0


## Modus

In [22]:
# Berechnung des Modus
mode_value = df['Werte'].mode()[0]  # Es wird der erste Modus angezeigt
print(f"Mode: {mode_value}")

Mode: 10


## Varianz

In [23]:
# Berechnung der Varianz
variance_value = df['Werte'].var()
print(f"Variance: {variance_value}")

# Die Varianz zeigt die Streuung der Daten, also wie weit die Werte vom Mittelwert entfernt sind.


Variance: 250.0


## Standardabweichung

In [24]:
# Berechnung der Standardabweichung
std_deviation_value = df['Werte'].std()
print(f"Standard Deviation: {std_deviation_value}")


Standard Deviation: 15.811388300841896


# Arbeiten mit realen Datensätzen

Hier verwenden wir einen realen Datensatz (z. B. titanic.csv) und analysieren die age-Spalte.

In [25]:
# Beispiel: Titanic-Datensatz (verwenden Sie Ihren eigenen Pfad)
df_titanic = pd.read_csv('https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv')

# Anzeigen der ersten 5 Zeilen
df_titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Deskriptive Statistiken für die Spalte 'age':

In [26]:
# Berechnung der deskriptiven Statistiken für die Spalte 'age'
age_stats = df_titanic['Age'].describe()
age_stats


count    714.000000
mean      29.699118
std       14.526497
min        0.420000
25%       20.125000
50%       28.000000
75%       38.000000
max       80.000000
Name: Age, dtype: float64

Berechnen der Standardabweichung und den Median für die 'Fare'-Spalte:

In [27]:
# Berechnung von Median und Standardabweichung für die 'Fare'-Spalte
fare_median = df_titanic['Fare'].median()
fare_std = df_titanic['Fare'].std()
print(f"Median Fare: {fare_median}")
print(f"Standard Deviation of Fare: {fare_std}")


Median Fare: 14.4542
Standard Deviation of Fare: 49.6934285971809


# weiterführende deskriptive Statistiken

- noch viele weitere Methoden/ Techniken
- für tiefergehende Einblicke

In [32]:
import pandas as pd
import numpy as np

# Beispiel-Datensatz
daten = {
    'Name': ['Anna', 'Bernd', 'Clara', 'Daniel', 'Eva'],
    'Alter': [29, 34, 40, 22, 37],
    'Gehalt': [48000, 52000, 61000, 45000, 58000]
}

df = pd.DataFrame(daten)

## Schiefe (Skewness)

- Schiefe gibt an, wie asymmetrisch die Verteilung der Daten ist
- Verteilung kann links (**negativ schief**), **symmetrisch** oder rechts (**positiv schief**) sein

**Schiefe positiv**: &nbsp;  Verteilung nach rechts verzogen (mehr niedrige Werte)<br>
**Schiefe negativ**: &nbsp;  Verteilung nach links verzogen (mehr höhere Werte)

In [29]:
# Schiefe berechnen
schiefe = df['Gehalt'].skew()
print("Schiefe des Gehalts:", schiefe)

Schiefe des Gehalts: 0.14823216151720742


## Kurtosis (Wölbung)

- gibt die „Spitzigkeit“ oder „Flachheit“ der Verteilung im Vergleich zur Normalverteilung an


**hohe Kurtosis**:  &nbsp;   Verteilung ist spitzer ist als eine Normalverteilung (mehr Werte konzentrieren sich in der Nähe des Mittelwerts)<br>
**niedrige Kurtosis**:  &nbsp;   Verteilung ist flacher

In [30]:
# Kurtosis berechnen
kurtosis = df['Gehalt'].kurt()
print("Kurtosis des Gehalts:", kurtosis)

Kurtosis des Gehalts: -2.066123147605964


## Korrelation zwischen Variablen

- misst die Stärke des linearen Zusammenhangs zwischen zwei Variablen
- hilfreich, um zu verstehen, ob es eine Beziehung zwischen den Daten gibt

Der Korrelationskoeffizient liegt zwischen -1 und 1. 

**Wert von 1**: &nbsp; perfekte positive Korrelation (wenn eine Variable steigt, steigt die andere ebenfalls)
**Wert von -1**: &nbsp; perfekte negative Korrelation (eine Variable steigt, während die andere fällt)
**Wert von 0**: &nbsp; keine lineare Korrelation

In [35]:
# Korrelation berechnen

# Nur numerische Spalten auswählen
numerische_spalten = df.select_dtypes(include=[np.number])

# Korrelation zwischen den numerischen Spalten berechnen
korrelation = numerische_spalten.corr()

print("Korrelation zwischen den numerischen Spalten:\n", korrelation)

Korrelation zwischen den numerischen Spalten:
            Alter    Gehalt
Alter   1.000000  0.961672
Gehalt  0.961672  1.000000
