# Syllabus

Analyze datasets by grouping data using groupby and creating pivot/cross tables for enhanced data comprehension.

# Gruppierung mit `groupby`
`groupby` ermöglicht es, Daten nach bestimmten Kategorien zu gruppieren und darauf Aggregatfunktionen (z.B. **Mittelwert**, **Summe**, **Anzahl**) anzuwenden.

Dieses Beispiel gruppiert die Daten nach der Spalte `Kategorie` und berechnet den Mittelwert der Werte für jede Gruppe:

In [5]:
import pandas as pd

# Beispiel-Datensatz
daten = {'Kategorie': ['A', 'B', 'A', 'B', 'A', 'C'],
         'Wert': [10, 20, 10, 40, 50, 30]}

df = pd.DataFrame(daten)

# Gruppieren nach 'Kategorie' und Berechnung des Mittelwerts
gruppiert = df.groupby('Kategorie')['Wert'].mean()

gruppiert


Kategorie
A    23.333333
B    30.000000
C    30.000000
Name: Wert, dtype: float64

# Pivot-Tabellen

- leistungsfähiges Werkzeug zur Datenanalyse und -zusammenfassung
- häufig in Tabellenkalkulationsprogrammen wie Excel oder in Bibliotheken wie Pandas verwendet
- große Datensätze lassen sich strukturieren und verdichten, indem man die Daten nach verschiedenen Dimensionen gruppiert und aggregiert
- Daten werden zusammengefasst, indem man eine Matrix aus Zeilen- und Spaltenwerten erstellt (ähnlich wie in Excel)
- dabei können auch Aggregatfunktionen wie Summe oder Mittelwert verwendet werden


Hier wird eine Pivot-Tabelle erstellt, die den Umsatz nach `Region` und `Produkt` zusammenfasst:

In [8]:
# Beispiel-Datensatz
daten = {'Region': ['Nord', 'Süd', 'Nord', 'Süd', 'Ost', 'Ost'],
         'Produkt': ['A', 'A', 'B', 'B', 'A', 'B'],
         'Umsatz': [100, 200, 150, 300, 120, 180]}

df = pd.DataFrame(daten)

# Pivot-Tabelle erstellen
pivot = pd.pivot_table(df, values='Umsatz', index='Region', columns='Produkt', aggfunc='sum')

pivot

Produkt,A,B
Region,Unnamed: 1_level_1,Unnamed: 2_level_1
Nord,100,150
Ost,120,180
Süd,200,300


# Kreuztabellen (Häufigkeitstabelle für Kategorien)

Kreuztabellen sind nützlich, um die Verteilung von Kategorien in Bezug auf andere Kategorien zu untersuchen. Sie sind besonders praktisch, wenn du kategoriale Daten analysierst.

- spezielle Pivot-Tabellen
- häufig verwendet, um Häufigkeit von Kombinationen von Werten aus zwei verschiedenen Spalten darzustellen
- zeigen die Verteilung von Kategorien gegenüber anderen Kategorien

Die Kreuztabelle zeigt die Anzahl der Vorkommen von Produkten in verschiedenen Regionen:

In [9]:
# Kreuztabelle erstellen
kreuztabelle = pd.crosstab(df['Region'], df['Produkt'])

print(kreuztabelle)

Produkt  A  B
Region       
Nord     1  1
Ost      1  1
Süd      1  1


# Beispiel


In [4]:
# Zunächst: Installiere und importiere Pandas und NumPy
import pandas as pd
import numpy as np

# Laden eines Beispiel-Datensatzes
url = 'https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv'
df = pd.read_csv(url)

# Ausgabe der Spaltennamen
print("Spaltennamen des DataFrames:")
print(df.columns)


# Sicherstellen, dass alle Spalten angezeigt werden
# Sicherstellen, dass alle Spalten und alle Daten angezeigt werden
pd.set_option('display.max_columns', None)  # Alle Spalten anzeigen
pd.set_option('display.max_colwidth', None)  # Spaltenbreite anpassen
pd.set_option('display.expand_frame_repr', False)  # Verhindert Zeilenumbruch bei vielen Spalten

print(df.head())

print()
# **1. Subsetting und Sorting**

# Subsetting: Auswahl von spezifischen Spalten
df_subset = df[['Name', 'Age', 'Sex', 'Fare']]
print(df_subset.head())
print()
# Sorting: Sortieren nach Alterswerten
df_sorted = df_subset.sort_values(by='Age')
print(df_sorted.head())
print()
# **2. Grouping und Pivot-Tabellen**

# GroupBy: Durchschnittliches Fahrgeld (Fare) pro Geschlecht
grouped = df.groupby('Sex')['Fare'].mean()
print(grouped)
print()
# Pivot-Table: Zeigt den Durchschnitt der Fahrpreise in Bezug auf Geschlecht und Überleben
pivot_table = df.pivot_table('Fare', index='Sex', columns='Survived', aggfunc='mean')
print(pivot_table)
print()
# Cross-Tabelle: Häufigkeit der Überlebenden basierend auf Geschlecht
cross_tab = pd.crosstab(df['Sex'], df['Survived'])
print(cross_tab)
print()
# **3. Deskriptive Statistik mit Pandas und NumPy**

# Deskriptive Statistik mit Pandas
print(df['Fare'].describe())
print()
# Deskriptive Statistik mit NumPy
mean_fare = np.mean(df['Fare'])
std_fare = np.std(df['Fare'])
print(f"Mean Fare: {mean_fare}, Standard Deviation Fare: {std_fare}")
print()

Spaltennamen des DataFrames:
Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')
   PassengerId  Survived  Pclass                                                 Name     Sex   Age  SibSp  Parch            Ticket     Fare Cabin Embarked
0            1         0       3                              Braund, Mr. Owen Harris    male  22.0      1      0         A/5 21171   7.2500   NaN        S
1            2         1       1  Cumings, Mrs. John Bradley (Florence Briggs Thayer)  female  38.0      1      0          PC 17599  71.2833   C85        C
2            3         1       3                               Heikkinen, Miss. Laina  female  26.0      0      0  STON/O2. 3101282   7.9250   NaN        S
3            4         1       1         Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1      0            113803  53.1000  C123        S
4            5         0       3      