# 01 - Data Exploration: SOEP Practice Dataset
**PathPredict: Educational Success Forecasting**  
  
This notebook covers:
1) Loading SOEP Practice Dataset
2) Initial data exploration
3) Understanding variables
4) Data quality assessment

In [1]:
# Pandas: Datenmanipulation und Analyse
import pandas as pd
# NumPy: Numerische Berechnungen und Arrays
import numpy as np
# Matplotlib: Basis-Visualisierung und Plots
import matplotlib.pyplot as plt
# Seaborn: Erweiterte statistische Visualisierungen
import seaborn as sns
# Path: Dateipfad-Handling (plattformunabhängig)
from pathlib import Path
# sys: System-spezifische Parameter und Funktionen
import sys
# Füge Parent-Directory zum Python-Path hinzu (für Custom Module)
# Python sucht Module nur in bestimmten Ordnern
# '../' = ein Verzeichnis nach oben gehen
# Wir sind in: notebooks/
# Wir brauchen: src/ (eine Ebene höher)
# Ohne dies: ImportError bei "from src.data_loader"
data_path = '../data/processed/soep_cleaned.csv'
sys.path.append('../')
# Import Custom Data Loader Moduls
# src.data_loader = Datei src/data_loader.py
# SOEPDataLoader = Klasse in dieser Datei
# Import macht Klasse nutzbar
from src.data_loader import SOEPDataLoader
# Setze Plot-Style (Grid-Hintergrund)
plt.style.use('seaborn-v0_8-darkgrid')
# Setze Farbpalette für Plots
sns.set_palette('husl')
# Zeige alle Spalten in DataFrames (kein Truncation)
pd.set_option('display.max_columns', None)
# Enable inline plotting in Jupyter Notebook
# % = Jupyter Magic Command (nicht normales Python)
# matplotlib inline = Zeige Plots direkt im Notebook (nicht extra Fenster)
# Ohne dies: plt.show() öffnet separates Fenster
%matplotlib inline

## 1. Loading the SOEP Practice Dataset. (the `practice_dataset_eng.dta` file in the `data/raw/` folder)

In [2]:
# Definiere Pfad zur SOEP-datei (.dta = STATA Format)
data_path = 'data/raw/practice_dataset_eng.dta'

# Prüfe ob Datei existiert (verhindert Fehler später)
# Path(data_path).exists() gibt True/False zurück
# not = negiert (wenn NICHT existiert)
if not Path(data_path).exists():
    
    # Datei nicht gefunden: Zeige Fehlermeldung mit Pfad
    print(f'File not found: {data_path}')
    
    # Gib Hinweis wo Datei platziert werden soll
    print('Please place the SOEP Practice Dataset in data/raw/')

# else = Datei existiert
else:
    
    # Erfolgsmeldung: Datei gefunden
    print('Data file found!')
    
    # Erstelle SOEPDataLoader Objekt mit Dateipfad
    # loader = unser Tool zum Laden/Verarbeiten der Daten
    loader = SOEPDataLoader(data_path)
    
    # Rufe load_data() Methode auf
    # Liest .dta Datei und gibt pandas DataFrame zurück
    # df = unser Haupt-Datensatz für alle weiteren Analysen
    df = loader.load_data()

File not found: data/raw/practice_dataset_eng.dta
Please place the SOEP Practice Dataset in data/raw/


## 2. Initial Data Inspection

In [3]:
# Basic information
df.info()

NameError: name 'df' is not defined

In [None]:
# Display first rows
df.head(10)

In [None]:
# Check data types
df.dtypes

## 3. Variable Understanding  
Let's understand what each variable means:  
**Key Variables:**  
`id`: Person ID (randomly generated)  
`syear`: Survey year (2015-2019)  
`sex`: Gender (0=male, 1=female)   
`alter`: Age  
`bildung`: Education years (TARGET for our analysis)  
`einkommenj1`: Gross annual income, main job  
`einkommenm1`: Gross monthly income, main job  
`anz_pers`: Number of persons in household  
`anz_kind`: Number of children in household  
`gesund_org`: Subjective health (1=very good, 5=poor)  
`lebensz_org`: Life satisfaction (0=completely dissatisfied, 10=completely satisfied)  
`erwerb`: Employment status  
`branche`: Industry/sector

In [None]:
# Summary statistics
df.describe()

## 4. Target Variable: Educational Attainment

In [None]:
# Distribution of education years
fig, axes = plt.subplots(1, 2, figsize=(15, 5))
# Histogram
axes[0].hist(df['bildung'].dropna(), bins=20, edgecolor='black', alpha=0.7)
axes[0].set_xlabel('Education Years')
axes[0].set_ylabel('Frequency')
axes[0].set_title('Distribution of Education Years')
axes[0].axvline(13, color='red', linestyle='--', label='Abitur threshold (13 years)')
axes[0].legend()
# Box plot
axes[1].boxplot(df['bildung'].dropna())
axes[1].set_ylabel('Education Years')
axes[1].set_title('Education Years - Box Plot')
axes[1].axhline(13, color='red', linestyle='--', label='Abitur threshold')
plt.tight_layout()
plt.show()

In [None]:
# Konvertiere 'bildung' zu numerisch
df['bildung'] = pd.to_numeric(df['bildung'], errors='coerce')

# Education statistics:
print('Education Years (Descriptive Statistics):')
print(f'Mean: {df["bildung"].mean():.2f} years')
print(f'Median: {df["bildung"].median():.2f} years')
print(f'Standard Deviation: {df["bildung"].std():.2f} years')
print(f'Min: {df["bildung"].min():.0f} years')
print(f'Max: {df["bildung"].max():.0f} years')

abitur_rate = (df['bildung'] >= 13).mean()
print(f'\nwith Abitur+ (≥13 years): {abitur_rate:.1%}')

## 5. Key Features Exploration

In [None]:
# Erstelle Figure mit 2 Subplots nebeneinander (1 Zeile, 2 Spalten), Größe 15x5
fig, axes = plt.subplots(1, 2, figsize=(15, 5))

# Konvertiere Einkommen-Spalte zu Zahlen
df['einkommenj1'] = pd.to_numeric(df['einkommenj1'], errors='coerce')

# Filtere nur positive Einkommen (entferne 0 und negative Werte)
income_clean = df[df['einkommenj1'] > 0]['einkommenj1']

# Plot 1 (links): Histogramm mit 50 Balken, schwarze Kanten, 70% Transparenz
axes[0].hist(income_clean, bins=50, edgecolor='black', alpha=0.7)

# Beschrifte X-Achse
axes[0].set_xlabel('Gross Annual Income (€)')

# Beschrifte Y-Achse
axes[0].set_ylabel('Frequency')

# Setze Titel
axes[0].set_title('Distribution of Annual Income')

# Plot 2 (rechts): Log10-transformierte Werte, Farbe coral
# Mit Log10: Verteilung gleichmäßiger sichtbar. Beispiel: 10.000€ → log10 = 4, 100.000€ → log10 = 5
axes[1].hist(np.log10(income_clean), bins=50, edgecolor='black', alpha=0.7, color='coral')

# Beschrifte X-Achse (Log-Skala)
axes[1].set_xlabel('Log10(Gross Annual Income)')

# Beschrifte Y-Achse
axes[1].set_ylabel('Frequency')

# Setze Titel
axes[1].set_title('Distribution of Annual Income (Log Scale)')

# Optimiere Layout (verhindere Überlappungen)
plt.tight_layout()

# Log10 Referenz tabelle
axes[1].text(0.02, 0.98, 'Log10 Referenz:\nLog10=0 → 1€\nLog10=1 → 10€\nLog10=2 → 100€\nLog10=3 → 1.000€\nLog10=4 → 10.000€\nLog10=5 → 100.000€', 
             transform=axes[1].transAxes, 
             verticalalignment='top',
             bbox=dict(boxstyle='round', facecolor='white', alpha=0.8))

# Zeige Plots
plt.show()

# Gib Median aus (mittlerer Wert, :,.0f = mit Tausender-Trennzeichen, keine Dezimalen)
print(f'Median annual income: €{income_clean.median():,.0f}')

# Gib Mean (Durchschnitt) aus
print(f'Mean annual income: €{income_clean.mean():,.0f}')

In [None]:
# Erstelle Figure mit 2 Subplots (1 Zeile, 2 Spalten), Größe 15x5
fig, axes = plt.subplots(1, 2, figsize=(15, 5))

# Anzahl Personen:
# Zähle Häufigkeiten von anz_pers, sortiere nach Index, 
# erstelle Balkendiagramm in axes[0], Farbe skyblue, schwarze Kanten
df['anz_pers'].value_counts().sort_index().plot(kind='bar', ax=axes[0], color='skyblue', edgecolor='black')
# Setze X-Achsen-Label für Plot 1
axes[0].set_xlabel('Number of Persons in Household')
# Setze Y-Achsen-Label für Plot 1
axes[0].set_ylabel('Frequency')
# Setze Titel für Plot 1
axes[0].set_title('Household Size Distribution')
# Setze X-Achsen-Labels horizontal (rotation=0, keine Drehung)
axes[0].set_xticklabels(axes[0].get_xticklabels(), rotation=0)

# Anzahl Kindern:
# Zähle Häufigkeiten von anz_kind, sortiere nach Index, erstelle Balkendiagramm in axes[1], Farbe lightcoral, schwarze Kanten
df['anz_kind'].value_counts().sort_index().plot(kind='bar', ax=axes[1], color='lightcoral', edgecolor='black')
# Setze X-Achsen-Label für Plot 2
axes[1].set_xlabel('Number of Children in Household')
# Setze Y-Achsen-Label für Plot 2
axes[1].set_ylabel('Frequency')
# Setze Titel für Plot 2
axes[1].set_title('Number of Children Distribution')

# Setze X-Achsen-Labels horizontal (rotation=0, keine Drehung)
axes[1].set_xticklabels(axes[1].get_xticklabels(), rotation=0)

# Optimiere Layout (verhindere Überlappungen zwischen Subplots)
plt.tight_layout()

# Zeige beide Plots
plt.show()

## 6. Relationships with Education

In [None]:
# Erstelle Figure mit 1 Plot, Größe 12x6
fig, ax = plt.subplots(figsize=(12, 6))

# Filtere Daten: nur Personen mit Einkommen > 0 UND vorhandenem Bildungswert (& = logisches AND, notna = nicht fehlendes Wert)
df_income = df[(df['einkommenj1'] > 0) & (df['bildung'].notna())]

# Erstelle Scatterplot: X=Bildung, Y=Einkommen, alpha=0.3 (30% Transparenz gegen Überlappung)
ax.scatter(df_income['bildung'], df_income['einkommenj1'], alpha=0.3)

# Setze X-Achsen-Label
ax.set_xlabel('Education Years')

# Setze Y-Achsen-Label
ax.set_ylabel('Gross Annual Income (€)')

# Setze Titel
ax.set_title('Education vs Income')

# Berechne Polynom 1. Grades (lineare Regression): gibt Koeffizienten [Steigung, Y-Achsenabschnitt] zurück
z = np.polyfit(df_income['bildung'], df_income['einkommenj1'], 1)

# Erstelle Polynom-Funktion aus Koeffizienten z (macht Funktion aufrufbar für Vorhersagen)
p = np.poly1d(z)

# Zeichne Trendlinie: sortiere X-Werte, berechne Y-Werte mit p(), rot gestrichelt, Dicke 2, Label für Legende
ax.plot(df_income['bildung'].sort_values(), p(df_income['bildung'].sort_values()), 'r--', linewidth=2, label='Trend')

# Zeige Legende (zeigt 'Trend' Label)
ax.legend()

# Optimiere Layout
plt.tight_layout()

# Zeige Plot
plt.show()

# Berechne Pearson-Korrelation zwischen Bildung und Einkommen (-1 bis +1)
corr = df_income['bildung'].corr(df_income['einkommenj1'])

# Gib Korrelation aus (.3f = 3 Dezimalstellen)
print(f'Correlation (Education vs Income): {corr:.3f}')

In [None]:

# Prüfe sex-Spalte
print(df['sex'].dtype)
print(df['sex'].unique())
print(df['sex'].value_counts())

In [None]:
# Erstelle Figure mit 1 Plot, Größe 10x6, weißer Hintergrund
fig, ax = plt.subplots(figsize=(10, 6), facecolor='white')
ax.set_facecolor('white')

# Filtere Daten: nur Zeilen wo Bildung vorhanden ist
df_gender = df[df['bildung'].notna()].copy()

# Konvertiere kategorische sex-Spalte zu String und ersetze Werte
df_gender['sex'] = df_gender['sex'].astype(str).str.replace('[0] male', 'Male').str.replace('[1] female', 'Female')

# Erstelle Boxplot OHNE by-Parameter für manuelle Kontrolle
bp = ax.boxplot([df_gender[df_gender['sex']=='Female']['bildung'], 
                 df_gender[df_gender['sex']=='Male']['bildung']], 
                labels=['Female', 'Male'],
                patch_artist=True)

# Färbe Boxen: Female=pink, Male=blue
bp['boxes'][0].set_facecolor('pink')
bp['boxes'][1].set_facecolor('lightblue')

# Setze Grid schwarz
ax.grid(True, color='black', alpha=0.3)

# Setze Labels und Titel
ax.set_xlabel('Gender')
ax.set_ylabel('Education Years')
ax.set_title('Education Distribution by Gender')

# Optimiere Layout
plt.tight_layout()

# Zeige Plot
plt.show()

# Statistik nach Geschlecht
print('\nEducation by Gender:')
print(df_gender.groupby('sex')['bildung'].describe())
print('Orange Linie = Median (50. Perzentil):')
print('Der Median liegt näher am unteren Rand → mehr Personen haben niedrigere Bildung, wenige haben sehr hohe')

## 7. Missing Data Analysis

In [None]:
# Zähle fehlende Werte (NaN) pro Spalte, sum() gibt Series zurück
missing = df.isnull().sum()

# Berechne Prozentsatz fehlender Werte: (Anzahl / Gesamtzeilen * 100), runde auf 2 Dezimalen
missing_pct = (missing / len(df) * 100).round(2)

# Erstelle DataFrame aus drei Spalten: Variablennamen, Anzahl fehlend, Prozent fehlend
missing_df = pd.DataFrame({
    'Variable': missing.index,
    'Missing_Count': missing.values,
    'Missing_Percent': missing_pct.values
})

# Filtere nur Variablen mit fehlenden Werten (>0), sortiere absteigend nach Prozent
missing_df = missing_df[missing_df['Missing_Count'] > 0].sort_values('Missing_Percent', ascending=False)

# Prüfe ob es fehlende Werte gibt
if len(missing_df) > 0:
    
    # Erstelle Figure mit 1 Plot, Größe 12x6
    fig, ax = plt.subplots(figsize=(12, 6))
    
    # Horizontales Balkendiagramm: Y=Variablennamen, X=Prozent, Farbe indianred, schwarze Kanten
    ax.barh(missing_df['Variable'], missing_df['Missing_Percent'], color='indianred', edgecolor='black')
    
    # Setze X-Achsen-Label
    ax.set_xlabel('Missing Data (%)')
    
    # Setze Titel
    ax.set_title('Missing Data by Variable')
    
    # Invertiere Y-Achse (höchste Werte oben statt unten)
    ax.invert_yaxis()
    
    # Optimiere Layout
    plt.tight_layout()
    
    # Zeige Plot
    plt.show()

# Wenn keine fehlenden Werte vorhanden
else:
    
    # Gib Erfolgsmeldung aus
    print('✓ No missing data!')

## 8. Data Cleaning & Preparation

In [None]:
# Rufe clean_data() Methode vom loader-Objekt auf, 
# entfernt fehlende Bildungswerte und filtert auf Erwachsene (≥18), 
# gibt bereinigte DataFrame zurück
df_clean = loader.clean_data()

# Rufe create_target_variable() Methode auf, 
# erstellt binäre Spalte 'high_education' (1 wenn bildung≥13, sonst 0), 
# gibt DataFrame mit neuer Spalte zurück
df_clean = loader.create_target_variable()

In [None]:
# Definiere Ausgabepfad für bereinigte CSV-Datei
output_path = 'data/processed/soep_cleaned.csv'

# Rufe save_processed_data() Methode auf, speichert df als CSV an output_path
loader.save_processed_data(output_path)

# Gib Erfolgsmeldung aus: Exploration abgeschlossen
print(f'\n✓ Data exploration complete!')

# Gib Speicherort der bereinigten Daten aus
print(f'✓ Cleaned data saved to {output_path}')

# Gib Hinweis für nächsten Schritt aus
print(f'\nNext step: Run notebook 02_regional_clustering.ipynb')

## Key Findings

**Summary from this exploration:**

**Dataset Size:** ~6,000 individuals over 5 years (2015-2019)

**Target Variable:**
Education years, with Abitur threshold at 13 years

**Key Patterns:**
- Strong correlation between education and income
- Gender differences in educational attainment
- Household composition varies widely

**Data Quality:**
- Minimal missing data after filtering for adults

**Next Steps:**
- Create synthetic regional clusters
- Integrate external regional data
- Feature engineering
- Build predictive models