# Datenanalyse mit Python und Pandas

In [None]:
import pandas as pd

Die Bibliothek Pandas bietet zahlreiche Funktionen und Hilfsmittel zum Arbeiten mit Daten und deren Analyse.

Neben dem schnellen Import von CSV oder Excel Dateien, können Daten aus Datenbanken mit wenigen Befehlen importiert werden.

In [None]:
df = pd.read_csv('MOCK_DATA.csv') # https://www.mockaroo.com/

## Anzeige der eingelesenen Daten

In [None]:
df

In [None]:
df.head()
#df.tail()

In [None]:
# Anzeige der Datentypen und Eigenschaften der Daten (Dataframe)
df.info()

## Datum in Alter umwandeln

Die aus der CSV Datei eingelesenen Daten liegen zunächst nur im Datentype "Zahlen" oder "Text" vor (vgl. Datentypen in Excel). Damit wir die vorgefertigten Funktionen für die Arbeit mit Datums- und Zeitwerten nutzen könnnen, müssen wir das Datum zunächst umwandeln. Anschließend können wir mathematische Berechnungen durchführen oder die Daten "richtig" sortieren.

In [None]:
df['birthday'] = pd.to_datetime(df['birthday'], format='%m/%d/%Y')

In [None]:
df.info()

In [None]:
df.sort_values('birthday',ascending=True)

In [None]:
now = pd.Timestamp('now')
df['age'] = (now - df['birthday']).astype('<m8[Y]')

In [None]:
df

In [None]:
# Ausgabe von statistischen Werten

df.describe()

## Fehlende Daten

In [None]:
df["gender"].fillna(value="unbekannt")

## Doppelte Einträge

In [None]:
df_duplicate = df[df.duplicated()]

In [None]:
df_duplicate

## Gruppieren

In [None]:
df.groupby('age')['id'].count()

# Arbeiten mit Diagrammen

Mit Hilfe der Bibliothek **matplotlib** können wir verschiedenste Diagramme zu unseren Daten ausgeben.

In [None]:
import matplotlib as plt
import numpy as np

In [None]:
# Gruppieren nach Altersbereich
df_grouped = df.groupby(pd.cut(df["age"], bins=[0,20, 30, 40,50,60])).count()

In [None]:
df_grouped.plot(kind='bar',x='age',y='id')