# Datenaufbereitung: Von `raw` zu `processed`

---

Autor: mn086

---

## Setup

In [1]:
import os
import pandas as pd
import numpy as np

## Daten-Import

**Pfade:**

In [2]:
root_raw = os.path.join('..', 'data', 'raw')
root_interim = os.path.join('..', 'data', 'interim')
root_processed = os.path.join('..', 'data', 'processed')

data_kfz = '46251-0021_de_2020_flat.csv' # Daten über Fahrzeugbestand (nach Kraftstoffart und Emissionsgruppen)
data_vee = 'AI-S-01_flat.csv' # Daten über verfügbare Einkommen der privaten Haushalte je Einwohner
data_pop = '12211-Z-03_flat.csv' # Bevölkerungsdaten (nach Alter und Geschlecht)
data_svu = 'AI013-3_flat.csv' # Daten über Verkehrsunfälle

**Import in Dataframes**

In [3]:
df_kfz = pd.read_csv(os.path.join(root_raw, data_kfz), sep=";", decimal='.') # Dataframe Fahrzeugbestand
df_vee = pd.read_csv(os.path.join(root_raw, data_vee), sep=";", decimal='.', encoding='ISO-8859-1') # Dataframe verfügbare Einkommen je Einwohner
df_pop = pd.read_csv(os.path.join(root_raw, data_pop), sep=";", decimal='.', encoding='ISO-8859-1') # Dataframe Bevölkerungsdaten
df_svu = pd.read_csv(os.path.join(root_raw, data_svu), sep=";", decimal='.', encoding='ISO-8859-1') # Dataframe Verkehrsunfälle

## Daten-Struktur

### Daten über Fahrzeugbestand

In [4]:
df_kfz.tail(3)

Unnamed: 0,statistics_code,statistics_label,time_code,time_label,time,1_variable_code,1_variable_label,1_variable_attribute_code,1_variable_attribute_label,2_variable_code,...,2_variable_attribute_label,3_variable_code,3_variable_label,3_variable_attribute_code,3_variable_attribute_label,value,value_unit,value_variable_code,value_variable_label,value_q
38077,46251,Statistik des Kraftfahrzeug- und Anhängerbesta...,STAG,Stichtag,2020-01-01,KREISE,Kreise,14625,"Bautzen, Landkreis",KSTAT1,...,Insgesamt,EMIGR1,Emissionsgruppen,PKW-EURO3,Euro 3,13911,Anzahl,PKW001,Personenkraftwagen,e
38078,46251,Statistik des Kraftfahrzeug- und Anhängerbesta...,STAG,Stichtag,2020-01-01,KREISE,Kreise,7138,"Neuwied, Landkreis",KSTAT1,...,Elektro,EMIGR1,Emissionsgruppen,PKW-EURO3,Euro 3,-,Anzahl,PKW001,Personenkraftwagen,
38079,46251,Statistik des Kraftfahrzeug- und Anhängerbesta...,STAG,Stichtag,2020-01-01,KREISE,Kreise,9676,"Miltenberg, Landkreis",KSTAT1,...,Elektro,EMIGR1,Emissionsgruppen,PKW-EURO6-R,Euro 6 (ohne 6d und 6d-temp),-,Anzahl,PKW001,Personenkraftwagen,


In [5]:
df_kfz.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 38080 entries, 0 to 38079
Data columns (total 22 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   statistics_code             38080 non-null  int64 
 1   statistics_label            38080 non-null  object
 2   time_code                   38080 non-null  object
 3   time_label                  38080 non-null  object
 4   time                        38080 non-null  object
 5   1_variable_code             38080 non-null  object
 6   1_variable_label            38080 non-null  object
 7   1_variable_attribute_code   38080 non-null  int64 
 8   1_variable_attribute_label  38080 non-null  object
 9   2_variable_code             38080 non-null  object
 10  2_variable_label            38080 non-null  object
 11  2_variable_attribute_code   33320 non-null  object
 12  2_variable_attribute_label  38080 non-null  object
 13  3_variable_code             38080 non-null  ob

### Daten über verfügbare Einkommen je Einwohner

In [6]:
df_vee.tail(3)

Unnamed: 0,Statistik_Code,Statistik_Label,Zeit_Code,Zeit_Label,Zeit,1_Merkmal_Code,1_Merkmal_Label,1_Auspraegung_Code,1_Auspraegung_Label,ID0002__Verfuegbares_Einkommen_je_EW__EUR
535,99910,Regionalatlas Deutschland,JAHR,Jahr,2019,KREISE,Kreise und kreisfreie Städte,16075,Saale-Orla-Kreis,20725
536,99910,Regionalatlas Deutschland,JAHR,Jahr,2019,KREISE,Kreise und kreisfreie Städte,16076,"Greiz, Landkreis",21454
537,99910,Regionalatlas Deutschland,JAHR,Jahr,2019,KREISE,Kreise und kreisfreie Städte,16077,"Altenburger Land, Landkreis",20952


In [7]:
df_vee.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 538 entries, 0 to 537
Data columns (total 10 columns):
 #   Column                                     Non-Null Count  Dtype 
---  ------                                     --------------  ----- 
 0   Statistik_Code                             538 non-null    int64 
 1   Statistik_Label                            538 non-null    object
 2   Zeit_Code                                  538 non-null    object
 3   Zeit_Label                                 538 non-null    object
 4   Zeit                                       538 non-null    int64 
 5   1_Merkmal_Code                             538 non-null    object
 6   1_Merkmal_Label                            538 non-null    object
 7   1_Auspraegung_Code                         538 non-null    object
 8   1_Auspraegung_Label                        538 non-null    object
 9   ID0002__Verfuegbares_Einkommen_je_EW__EUR  538 non-null    object
dtypes: int64(2), object(8)
memory usage: 4

### Bevölkerungsdaten

In [8]:
df_pop.tail(3)

Unnamed: 0,Statistik_Code,Statistik_Label,Zeit_Code,Zeit_Label,Zeit,1_Merkmal_Code,1_Merkmal_Label,1_Auspraegung_Code,1_Auspraegung_Label,2_Merkmal_Code,2_Merkmal_Label,2_Auspraegung_Code,2_Auspraegung_Label,3_Merkmal_Code,3_Merkmal_Label,3_Auspraegung_Code,3_Auspraegung_Label,BEVMZ11__Bevoelkerung_am_Hauptwohnort__1000
8067,12211,Grundprogramm des Mikrozensus,JAHR,Jahr,2019,KREISE,Kreise und kreisfreie Städte,16077,"Altenburger Land, Landkreis",ALTGR01,"Altersgruppen (unter 25, 25-45,45-65, 65 und ä...",ALT065UM,65 Jahre und mehr,GES,Geschlecht,,Insgesamt,30
8068,12211,Grundprogramm des Mikrozensus,JAHR,Jahr,2019,KREISE,Kreise und kreisfreie Städte,16077,"Altenburger Land, Landkreis",ALTGR01,"Altersgruppen (unter 25, 25-45,45-65, 65 und ä...",ALT065UM,65 Jahre und mehr,GES,Geschlecht,GESM,männlich,14
8069,12211,Grundprogramm des Mikrozensus,JAHR,Jahr,2019,KREISE,Kreise und kreisfreie Städte,16077,"Altenburger Land, Landkreis",ALTGR01,"Altersgruppen (unter 25, 25-45,45-65, 65 und ä...",ALT065UM,65 Jahre und mehr,GES,Geschlecht,GESW,weiblich,16


In [9]:
df_pop.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 8070 entries, 0 to 8069
Data columns (total 18 columns):
 #   Column                                       Non-Null Count  Dtype 
---  ------                                       --------------  ----- 
 0   Statistik_Code                               8070 non-null   int64 
 1   Statistik_Label                              8070 non-null   object
 2   Zeit_Code                                    8070 non-null   object
 3   Zeit_Label                                   8070 non-null   object
 4   Zeit                                         8070 non-null   int64 
 5   1_Merkmal_Code                               8070 non-null   object
 6   1_Merkmal_Label                              8070 non-null   object
 7   1_Auspraegung_Code                           8070 non-null   object
 8   1_Auspraegung_Label                          8070 non-null   object
 9   2_Merkmal_Code                               8070 non-null   object
 10  2_Merkmal_La

### Daten über Verkehrsunfälle

In [10]:
df_svu.tail(3)

Unnamed: 0,Statistik_Code,Statistik_Label,Zeit_Code,Zeit_Label,Zeit,1_Merkmal_Code,1_Merkmal_Label,1_Auspraegung_Code,1_Auspraegung_Label,AI1303__Strassenverkehrsunfaelle_je_10.000_Kfz__Anzahl
457,99910,Regionalatlas Deutschland,JAHR,Jahr,2019,KREISE,Kreise und kreisfreie Städte,16075,Saale-Orla-Kreis,717
458,99910,Regionalatlas Deutschland,JAHR,Jahr,2019,KREISE,Kreise und kreisfreie Städte,16076,"Greiz, Landkreis",450
459,99910,Regionalatlas Deutschland,JAHR,Jahr,2019,KREISE,Kreise und kreisfreie Städte,16077,"Altenburger Land, Landkreis",478


In [11]:
df_svu.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 460 entries, 0 to 459
Data columns (total 10 columns):
 #   Column                                                  Non-Null Count  Dtype 
---  ------                                                  --------------  ----- 
 0   Statistik_Code                                          460 non-null    int64 
 1   Statistik_Label                                         460 non-null    object
 2   Zeit_Code                                               460 non-null    object
 3   Zeit_Label                                              460 non-null    object
 4   Zeit                                                    460 non-null    int64 
 5   1_Merkmal_Code                                          460 non-null    object
 6   1_Merkmal_Label                                         460 non-null    object
 7   1_Auspraegung_Code                                      460 non-null    object
 8   1_Auspraegung_Label                               

## Daten-Transformation

**Spalten-Extraktion**

In [12]:
df_kfz = df_kfz[['1_variable_attribute_code', '1_variable_attribute_label', '2_variable_attribute_code', '3_variable_attribute_code', 'value']]
df_vee = df_vee[['1_Auspraegung_Code', '1_Auspraegung_Label', 'ID0002__Verfuegbares_Einkommen_je_EW__EUR']]
df_pop = df_pop[['1_Auspraegung_Code', '1_Auspraegung_Label', '2_Auspraegung_Code', '2_Auspraegung_Label', '3_Auspraegung_Code', '3_Auspraegung_Label', 'BEVMZ11__Bevoelkerung_am_Hauptwohnort__1000']]
df_svu = df_svu[['1_Auspraegung_Code', '1_Auspraegung_Label', 'AI1303__Strassenverkehrsunfaelle_je_10.000_Kfz__Anzahl']]

In [13]:
df_kfz.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 38080 entries, 0 to 38079
Data columns (total 5 columns):
 #   Column                      Non-Null Count  Dtype 
---  ------                      --------------  ----- 
 0   1_variable_attribute_code   38080 non-null  int64 
 1   1_variable_attribute_label  38080 non-null  object
 2   2_variable_attribute_code   33320 non-null  object
 3   3_variable_attribute_code   34272 non-null  object
 4   value                       38080 non-null  object
dtypes: int64(1), object(4)
memory usage: 1.5+ MB


**Spaltennamen umbenennen**

In [14]:
df_kfz.rename(columns= {
    '1_variable_attribute_code' : 'landkreis_id',
    '1_variable_attribute_label': 'landkreis',
    '2_variable_attribute_code': 'antrieb',
    '3_variable_attribute_code': 'emissionsgruppen',
    'value': 'anzahl_fahrzeuge'
    }, inplace=True)

df_vee.rename(columns= {
    '1_Auspraegung_Code' : 'landkreis_id',
    '1_Auspraegung_Label': 'landkreis',
    'ID0002__Verfuegbares_Einkommen_je_EW__EUR': 'vee'
    }, inplace=True)

df_pop.rename(columns= {
    '1_Auspraegung_Code' : 'landkreis_id',
    '1_Auspraegung_Label': 'landkreis',
    '2_Auspraegung_Code': 'alter_id',
    '2_Auspraegung_Label': 'alter',
    '3_Auspraegung_Code': 'geschlecht_id',
    '3_Auspraegung_Label': 'geschlecht',
    'BEVMZ11__Bevoelkerung_am_Hauptwohnort__1000': 'anzahl_personen_1000'
    }, inplace=True)

df_svu.rename(columns= {
    '1_Auspraegung_Code' : 'landkreis_id',
    '1_Auspraegung_Label': 'landkreis',
    'AI1303__Strassenverkehrsunfaelle_je_10.000_Kfz__Anzahl': 'unfaelle_je_10k_kfz'
    }, inplace=True)

**Datentyp festlegen**

In [15]:
# Landkreis-IDs in string umwandeln
df_kfz['landkreis_id'] = df_kfz['landkreis_id'].astype('str')
df_vee['landkreis_id'] = df_vee['landkreis_id'].astype('str')
df_pop['landkreis_id'] = df_pop['landkreis_id'].astype('str')
df_svu['landkreis_id'] = df_svu['landkreis_id'].astype('str')
# Spalten in numerische Werte umwandeln, wobei NaN-Werte beibehalten werden, wenn die Umwandlung nicht möglich ist
df_kfz['anzahl_fahrzeuge']= pd.to_numeric(df_kfz['anzahl_fahrzeuge'], errors='coerce').astype('Int64')
df_vee['vee'] = pd.to_numeric(df_vee['vee'], errors='coerce').astype('float64')
df_pop['anzahl_personen_1000'] = pd.to_numeric(df_pop['anzahl_personen_1000'], errors='coerce').astype('float64')
df_svu['unfaelle_je_10k_kfz'] = pd.to_numeric(df_svu['unfaelle_je_10k_kfz'].str.replace(',','.'), errors='coerce').astype('float64')

**Spaltenwerte standardisieren**

In [16]:
df_kfz['antrieb'] = (
    df_kfz['antrieb']
    .str.lower()                                    # Konvertiere in Kleinbuchstaben
    .str.replace(r'^ks-', '', regex=True)           # Entferne vorangestelltes 'ks-'
    .str.replace('-', '', regex=False)              # Entferne alle '-' Zeichen
    .replace({'sonst': 'sonstigeantriebe'})         # Ersetze 'sonst' mit 'sonstigeantriebe'
)
df_kfz['emissionsgruppen'] = (
    df_kfz['emissionsgruppen']
    .str.lower()                                    # Konvertiere in Kleinbuchstaben
    .str.replace(r'^pkw-', '', regex=True)          # Entferne vorangestelltes 'pkw-'
    .str.replace('-', '', regex=False)              # Entferne alle '-' Zeichen
    .replace({'euro6r': 'euro6'})                   # Ersetze 'euro6r' mit 'euro6'
    .replace({'sonst': 'sonstigeemissionsgruppen'}) # Ersetze 'sonst' mit 'sonstigeemissionsgruppen'
)
# Entferne führende Nullen aus allen landkreis_id Spalten
df_kfz['landkreis_id'] = df_kfz['landkreis_id'].str.lstrip('0')
df_vee['landkreis_id'] = df_vee['landkreis_id'].str.lstrip('0')
df_pop['landkreis_id'] = df_pop['landkreis_id'].str.lstrip('0')
df_svu['landkreis_id'] = df_svu['landkreis_id'].str.lstrip('0')

**Relevante Zeilen filtern**

In [17]:
# Alle Zeilen mit NaN-Werten entfernen (Zeilen ohne atribute_code sind nicht relevant)
df_kfz = df_kfz.dropna()

In [18]:
# Landkreise mit einer Gebietsreform aus dem Datensatz löschen: diese enden beispielsweise mit "(bis 03.09.2011)"
# Filter: Zeilen löschen, bei denen 'landkreis' mit ')' gefolgt beliebig viele Leerzeichen (inklusive keine) endet
df_kfz = df_kfz[~df_kfz['landkreis'].str.contains(r'\)\s*$', na=False)]

In [19]:
# Nur die Zeilen mit der Gesamteinwohnerzahl behalten (alter_id und geschlecht_id ist NaN)
df_pop = df_pop[df_pop['alter_id'].isna()]
df_pop = df_pop[df_pop['geschlecht_id'].isna()]

**Daten umstrukturieren und flatten**

In [20]:
# Pivotieren des DataFrame, um die Antriebsarten und Emissionsgruppen in separate Spalten zu bringen
df_kfz = df_kfz.pivot_table(
    index=['landkreis_id', 'landkreis'], 
    columns=['antrieb', 'emissionsgruppen'], 
    values='anzahl_fahrzeuge', 
    fill_value=0)

# MultiIndex der Spalten flach machen
df_kfz.columns = [f"{antrieb.lower()}_{emission.lower()}" for antrieb, emission in df_kfz.columns]

# Konvertiere alle pivotierten Spalten zu int
df_kfz = df_kfz.astype(int)

# Gesamtanzahl der verschiedenen Antriebe und Emissionsgruppen sowie die Gesamtanzahl der Fahrzeuge berechnen
df_kfz['gesamt'] = df_kfz.sum(axis=1).astype(int)  # Gesamtanzahl als int

# Spaltennamen-Extraktion und Summierung
antriebe = df_kfz.columns.str.extract(r"^(\w+)_")[0].dropna().unique()  # Eindeutige Antriebe
emissionen = df_kfz.columns.str.extract(r"_(\w+)$")[0].dropna().unique()  # Eindeutige Emissionsgruppen

# Summen für Antriebsarten berechnen
for antrieb in antriebe:
    # Nur Spalten, die exakt mit "{antrieb}_" beginnen
    antrieb_spalten = [col for col in df_kfz.columns if col.startswith(f"{antrieb}_")]
    df_kfz[antrieb] = df_kfz[antrieb_spalten].sum(axis=1).astype(int)

# Summen für Emissionsgruppen berechnen
for emission in emissionen:
    # Nur Spalten, die exakt mit "_{emission}" enden
    emission_spalten = [col for col in df_kfz.columns if col.endswith(f"_{emission}")]
    df_kfz[emission] = df_kfz[emission_spalten].sum(axis=1).astype(int)

# MultiIndex in Spalten umwandeln
df_kfz = df_kfz.reset_index()

# Spalten umbenennen
df_kfz = df_kfz.rename(columns={'gesamt': 'anzahl_kfz'})

In [21]:
df_kfz.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 399 entries, 0 to 398
Data columns (total 79 columns):
 #   Column                                     Non-Null Count  Dtype 
---  ------                                     --------------  ----- 
 0   landkreis_id                               399 non-null    object
 1   landkreis                                  399 non-null    object
 2   benzin_euro1                               399 non-null    int64 
 3   benzin_euro2                               399 non-null    int64 
 4   benzin_euro3                               399 non-null    int64 
 5   benzin_euro4                               399 non-null    int64 
 6   benzin_euro5                               399 non-null    int64 
 7   benzin_euro6                               399 non-null    int64 
 8   benzin_euro6d                              399 non-null    int64 
 9   benzin_euro6dt                             399 non-null    int64 
 10  benzin_sonstigeemissionsgruppen       

**Transformierte Daten speichern**

In [22]:
df_kfz.to_csv(os.path.join(root_interim, 'kfz.csv'))
df_vee.to_csv(os.path.join(root_interim, 'vee.csv'))
df_pop.to_csv(os.path.join(root_interim, 'pop.csv'))
df_svu.to_csv(os.path.join(root_interim, 'svu.csv'))

In [23]:
df_svu.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 460 entries, 0 to 459
Data columns (total 3 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   landkreis_id         460 non-null    object 
 1   landkreis            460 non-null    object 
 2   unfaelle_je_10k_kfz  448 non-null    float64
dtypes: float64(1), object(2)
memory usage: 10.9+ KB


**Zusammenfügen der Datensätze**

In [24]:
# Merge der DataFrames
df_merged = df_kfz.merge(df_vee[['landkreis_id', 'vee']], on='landkreis_id', how='left')
df_merged = df_merged.merge(df_pop[['landkreis_id', 'anzahl_personen_1000']], on='landkreis_id', how='left')
df_merged = df_merged.merge(df_svu[['landkreis_id', 'unfaelle_je_10k_kfz']], on='landkreis_id', how='left')

In [25]:
df_merged

Unnamed: 0,landkreis_id,landkreis,benzin_euro1,benzin_euro2,benzin_euro3,benzin_euro4,benzin_euro5,benzin_euro6,benzin_euro6d,benzin_euro6dt,...,euro3,euro4,euro5,euro6,euro6d,euro6dt,sonstigeemissionsgruppen,vee,anzahl_personen_1000,unfaelle_je_10k_kfz
0,1001,"Flensburg, kreisfreie Stadt",322,1713,1614,8827,6025,6231,14,1923,...,3230,11819,11510,11068,42,3243,816,19384.0,88.0,83.2
1,1002,"Kiel, kreisfreie Stadt",974,5120,4650,23965,16246,16077,104,4809,...,8340,30078,27440,26605,236,7943,2018,20216.0,241.0,97.3
2,1003,"Lübeck, kreisfreie Stadt",1028,4982,4402,22385,15201,14268,21,3921,...,7583,27856,24842,23232,72,6423,1861,21164.0,210.0,117.4
3,1004,"Neumünster, kreisfreie Stadt",326,2164,2111,9438,5662,5540,37,1839,...,3636,12137,10355,9491,89,2893,605,20133.0,78.0,87.3
4,10041,"Regionalverband Saarbrücken, Landkreis",2250,9945,11045,39122,27853,28838,203,8548,...,16570,50223,47692,45627,436,13040,3725,21138.0,322.0,84.4
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
394,9776,"Lindau (Bodensee), Landkreis",526,2329,1976,10740,7632,7651,25,1843,...,3810,13873,14226,12444,49,2729,1385,26269.0,,63.1
395,9777,"Ostallgäu, Landkreis",767,3379,3047,17832,13926,13375,49,3228,...,6301,23533,25895,22934,109,5054,1986,25033.0,,57.6
396,9778,"Unterallgäu, Landkreis",971,4362,3534,20334,14385,13035,30,2889,...,6861,27297,27984,22648,64,4779,2064,25966.0,,50.5
397,9779,"Donau-Ries, Landkreis",853,4334,3530,18599,12914,11386,43,2865,...,6993,25214,25475,20332,144,4954,1671,26021.0,,51.7


Behandung von Ausnahmen (Daten, die aufgrund inkonsistenter `landkreis_id` nicht gemerged werden konnten):

In [26]:
def fix_missing_values(df_combined: pd.DataFrame, df_reference: pd.DataFrame, column_name: str, verbose: bool = False) -> pd.DataFrame:
    """
    Korrigiert fehlende Werte in einem DataFrame durch Nachschlagen von Werten aus einem Referenz-DataFrame.
    
    Diese Funktion wird verwendet, um fehlende oder ungültige Werte (NaN oder <= 0) in einer bestimmten Spalte
    des kombinierten DataFrames zu korrigieren, indem entsprechende Werte aus einem Referenz-DataFrame nachgeschlagen werden.
    Die Zuordnung erfolgt über die landkreis_id.
    
    Args:
        df_combined (pd.DataFrame): DataFrame mit zu korrigierenden fehlenden Werten
        df_reference (pd.DataFrame): Referenz-DataFrame mit korrekten Werten
        column_name (str): Name der zu korrigierenden Spalte
        verbose (bool, optional): Wenn True, werden detaillierte Ausgaben gedruckt. Defaults to False.
    
    Returns:
        pd.DataFrame: DataFrame mit korrigierten Werten
    
    Hinweise:
        - Funktion prüft auf NaN-Werte und Werte <= 0
        - Führende Nullen in landkreis_id werden beim Matching entfernt
        - Das Korrekturergebnis wird protokolliert, wenn verbose=True
    """
    # Prüfe auf fehlende Werte
    missing_values = df_combined[df_combined[column_name].isna()]
    
    if not missing_values.empty:
        if verbose:
            print(f"Gefunden: {len(missing_values)} fehlende '{column_name}' Werte")
        
        # Iteriere durch Zeilen mit fehlenden Werten
        for index, row in missing_values.iterrows():
            # Entferne Nullen am Ende der landkreis_id für die Suche
            landkreis_id_trans = str(row['landkreis_id']).rstrip('0')
            
            # Suche nach passendem Eintrag im Referenz-DataFrame
            matching_row = df_reference[df_reference['landkreis_id'] == landkreis_id_trans]
            
            if not matching_row.empty:
                df_combined.loc[index, column_name] = matching_row[column_name].values[0]
                if verbose:
                    print(f"Fehlender Wert für '{row['landkreis']}' wurde ersetzt mit '{column_name}' Wert: {matching_row[column_name].values[0]}")
            else:
                if verbose:
                    print(f"Kein passender '{column_name}' Wert gefunden für '{row['landkreis']}'")
    elif verbose:
        print(f"Alle '{column_name}' Werte sind gültig und vorhanden.")

    # Abschließende Prüfung auf verbleibende fehlende Werte
    still_missing = df_combined[df_combined[column_name].isna()]
    if still_missing.empty:
        if verbose:
            print(f"Alle fehlenden '{column_name}' Werte wurden erfolgreich korrigiert.")
    elif verbose:
        print(f"Es gibt noch Landkreise mit fehlenden '{column_name}' Werten:")
        print(still_missing[['landkreis_id', 'landkreis']])
    
    return df_combined

In [27]:
df_merged = fix_missing_values(df_merged, df_vee, 'vee', verbose=True)

Gefunden: 2 fehlende 'vee' Werte
Fehlender Wert für 'Berlin, kreisfreie Stadt' wurde ersetzt mit 'vee' Wert: 21502.0
Fehlender Wert für 'Hamburg, kreisfreie Stadt' wurde ersetzt mit 'vee' Wert: 25340.0
Alle fehlenden 'vee' Werte wurden erfolgreich korrigiert.


In [28]:
df_merged = fix_missing_values(df_merged, df_pop, 'anzahl_personen_1000', verbose=True)

Gefunden: 185 fehlende 'anzahl_personen_1000' Werte
Fehlender Wert für 'Berlin, kreisfreie Stadt' wurde ersetzt mit 'anzahl_personen_1000' Wert: 3604.0
Fehlender Wert für 'Hamburg, kreisfreie Stadt' wurde ersetzt mit 'anzahl_personen_1000' Wert: 1827.0
Fehlender Wert für 'Lüchow-Dannenberg, Landkreis' wurde ersetzt mit 'anzahl_personen_1000' Wert: nan
Kein passender 'anzahl_personen_1000' Wert gefunden für 'Uelzen, Landkreis'
Fehlender Wert für 'Emden, kreisfreie Stadt' wurde ersetzt mit 'anzahl_personen_1000' Wert: nan
Fehlender Wert für 'Friesland, Landkreis' wurde ersetzt mit 'anzahl_personen_1000' Wert: nan
Fehlender Wert für 'Leer, Landkreis' wurde ersetzt mit 'anzahl_personen_1000' Wert: nan
Fehlender Wert für 'Wittmund, Landkreis' wurde ersetzt mit 'anzahl_personen_1000' Wert: nan
Fehlender Wert für 'Bremen, kreisfreie Stadt' wurde ersetzt mit 'anzahl_personen_1000' Wert: nan
Fehlender Wert für 'Bremerhaven, kreisfreie Stadt' wurde ersetzt mit 'anzahl_personen_1000' Wert: nan
Fe

In [29]:
df_merged = fix_missing_values(df_merged, df_svu, 'unfaelle_je_10k_kfz', verbose=True)

Gefunden: 2 fehlende 'unfaelle_je_10k_kfz' Werte
Fehlender Wert für 'Berlin, kreisfreie Stadt' wurde ersetzt mit 'unfaelle_je_10k_kfz' Wert: 116.4
Fehlender Wert für 'Hamburg, kreisfreie Stadt' wurde ersetzt mit 'unfaelle_je_10k_kfz' Wert: 103.5
Alle fehlenden 'unfaelle_je_10k_kfz' Werte wurden erfolgreich korrigiert.


In [30]:
df_merged.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 399 entries, 0 to 398
Data columns (total 82 columns):
 #   Column                                     Non-Null Count  Dtype  
---  ------                                     --------------  -----  
 0   landkreis_id                               399 non-null    object 
 1   landkreis                                  399 non-null    object 
 2   benzin_euro1                               399 non-null    int64  
 3   benzin_euro2                               399 non-null    int64  
 4   benzin_euro3                               399 non-null    int64  
 5   benzin_euro4                               399 non-null    int64  
 6   benzin_euro5                               399 non-null    int64  
 7   benzin_euro6                               399 non-null    int64  
 8   benzin_euro6d                              399 non-null    int64  
 9   benzin_euro6dt                             399 non-null    int64  
 10  benzin_sonstigeemissionsgr

**Feature Engineering**

In [31]:
# Neue Spalte 'anzahl_kfz_je_person' erstellen
df_merged['anzahl_kfz_je_person'] = df_merged['anzahl_kfz'] / (df_merged['anzahl_personen_1000'] * 1000)

**Speicherung der aufbereiteten kanonischen Daten**

In [32]:
df_merged.to_csv(os.path.join(root_processed, 'kfz_kombiniert.csv'), index=False, encoding='utf-8')

**Hinweis**: Diese Lücken in `anzahl_personen` wurden bewusst nicht bereinigt, da die übrigen Spalten im Datensatz vollständig sind und weiterhin uneingeschränkt für explorative Analysen verwendet werden können. Die vollständigen Daten in den übrigen Spalten ermöglichen es, explorative Analysen sinnvoll durchzuführen, ohne Informationen durch frühe Datenbereinigung zu verlieren. Gleichzeitig sind die `NaN`-Werte in der Spalte `anzahl_personen` kein unmittelbares Hindernis, könnten jedoch die Qualität und Interpretierbarkeit von Ergebnissen in späteren Analysen beeinträchtigen, wenn sie nicht angemessen behandelt werden.

Sortierung und Speicherung der Daten zur explorativen Analyse und Modellerstellung:

In [33]:
# Meta-Informationen zu den Landkreisen
list_meta = ['landkreis_id', 'landkreis']
# Numerische Spalten
list_num = [col for col in df_merged.columns if col not in list_meta and pd.api.types.is_numeric_dtype(df_merged[col])]
# Aggregierte Spalten
list_kfz_aggr = [
    "benzin", "diesel", "elektro", "gas", "hybrid", "pih", "sonstigeantriebe",
    "euro1", "euro2", "euro3", "euro4", "euro5", "euro6", "euro6dt", "euro6d", "sonstigeemissionsgruppen"]
# Antriebsarten
list_kfz_aggr_antriebe = ["benzin", "diesel", "elektro", "gas", "hybrid", "pih", "sonstigeantriebe"]
# Emissionsgruppen
list_kfz_aggr_eg = [col for col in list_kfz_aggr if col not in list_kfz_aggr_antriebe]
# Nicht aggregierte Spalten (Kombination Antrieb & Emissionsgruppe)
list_kfz_num = [col for col in list_num if col not in list_kfz_aggr and col not in
                ['gesamt', 'vee', 'anzahl_personen', 'unfaelle_je_10k_kfz']]

In [34]:
# Dataframe der aggregierten Antriebe
df_antriebe = df_merged[['landkreis'] + list_kfz_aggr_antriebe]
# Normierten DataFrame in Prozent erstellen
df_antriebe_prozent = df_antriebe.copy()
df_antriebe_prozent[list_kfz_aggr_antriebe] = df_antriebe[list_kfz_aggr_antriebe].apply(lambda x: x / x.sum() * 100, axis=1)

# Dataframe der aggregierten Emissionsgruppen
df_eg = df_merged[['landkreis'] + list_kfz_aggr_eg]
# Normierten DataFrame in Prozent erstellen
df_eg_prozent = df_eg.copy()
df_eg_prozent[list_kfz_aggr_eg] = df_eg[list_kfz_aggr_eg].apply(lambda x: x / x.sum() * 100, axis=1)

# Dataframe für die Korrelation erstellen
df_corr = pd.DataFrame(pd.concat([df_merged[['anzahl_personen_1000', 'vee', 'anzahl_kfz', 'anzahl_kfz_je_person', 'unfaelle_je_10k_kfz']],
                                  df_antriebe_prozent[list_kfz_aggr_antriebe],
                                  df_eg_prozent[list_kfz_aggr_eg]], axis=1))
# Auswahl einschränken
df_corr = df_corr[['anzahl_personen_1000', 'vee', 'anzahl_kfz_je_person', 'unfaelle_je_10k_kfz',
                            'elektro', 'pih',
                            'euro2', 'euro3', 'euro4', 'euro6', 'euro6dt']]

In [35]:
# Datensätze speichern
df_antriebe.to_csv(os.path.join(root_interim, 'antriebe.csv'), index=False, encoding='utf-8')
df_antriebe_prozent.to_csv(os.path.join(root_interim, 'antriebe_prozent.csv'), index=False, encoding='utf-8')
df_eg.to_csv(os.path.join(root_interim, 'emissionsgruppen.csv'), index=False, encoding='utf-8')
df_eg_prozent.to_csv(os.path.join(root_interim, 'emissionsgruppen_prozent.csv'), index=False, encoding='utf-8')

df_corr.to_csv(os.path.join(root_processed, 'regression_data.csv'), index=False, encoding='utf-8')