In [11]:
import pandas as pd
from pathlib import Path

# Vorverarbeitung des Datensatzes

In [12]:
input_data_folder = "../data/"
input_data_filename = "AAB_raw.csv"
output_data_filename = "AAB_cleaned.csv"

raw_data_file = Path(input_data_folder) / input_data_filename
cleaned_data_file = Path(input_data_folder) / input_data_filename

In [13]:
df_cars = pd.read_csv(raw_data_file, sep= "\t")  

# Variante für Google Colab
#df_cars = pd.read_csv( "https://raw.githubusercontent.com/SebastianZug/RoboLabVortraege/refs/heads/main/30_PythonAutomobile/project/data/AAB_raw.csv", sep= "\t")  

In [14]:
df_cars.head()

Unnamed: 0,Seite,Familienname,Vorname,Kennzeichen,Nummer,Beruf_Stand,Wohnort,Adresse,Fzg_Typ,Kreis_Stadt,Firma,id
0,103,Trautmann,Robert,S S,80,Privatmann,Arnstadt,Lindenallee 11,Lxw.,Arnstadt,-,17091280
1,420,Beckmann,Otto,I K,15,Molk.-Techniker,Breslau,N. Taschenstr. 25 a,KrR.,Provinz Schlesien,-,17101628
2,429,Barteczko,Karl,I K,439,Maschinist,Ratibor,Neuer Markt 5,KrR.,Provinz Schlesien,-,17101933
3,529,"Leesen, v.",-,I P,233,Ingenieur,St. Margarethen,-,KrR.,Schleswig-Holstein,-,17105384
4,2,-,-,A,73,-,Stadt Dessau,Franzstr. 30,LW.,Stadt Dessau,Berlin-Anh. Maschinenbau-Aktien-Gesellschaft,17088030


## Schritt 1: Umbenennen ungeeigneter oder englischsprachiger Spaltenbezeichnungen

In [15]:
df_cars.rename(columns={'page':'Seite', 'lastname':'Familienname', 'firstname':'Vorname'}, 
               inplace=True)

In [16]:
df_cars.rename(columns={'Beruf/Stand':'Beruf_Stand', "Kreis/Stadt": "Kreis_Stadt", "Art des Fahrzeugs": "Fzg_Typ"}, 
               inplace=True)

## Schritt 2: Korrektur der Datentypen und Inhalte

In [17]:
string_columns = list(df_cars.select_dtypes(include='object'))

# ersetzt alle NaN durch "-"und passt den Datentyp an
for column in string_columns:
    df_cars[column] = df_cars[column].fillna('-').astype('string')

In [18]:
df_cars.dtypes

Seite                    int64
Familienname    string[python]
Vorname         string[python]
Kennzeichen     string[python]
Nummer          string[python]
Beruf_Stand     string[python]
Wohnort         string[python]
Adresse         string[python]
Fzg_Typ         string[python]
Kreis_Stadt     string[python]
Firma           string[python]
id                       int64
dtype: object

## Schritt 3: Löschen von mehrfachen Lehrzeichen

In [19]:
# entfernt alle führenden und endenen Lehrzeichen für die Spalten mit Texteinträgen
for column in string_columns:
    df_cars[column] = df_cars[column].str.strip()

In [20]:
df_cars.to_csv(cleaned_data_file, sep= "\t", index=False)  