In [1]:
import pandas as pd

In [2]:
column_names = [
    "age", "workclass", "fnlwgt", "education", "education-num", "marital-status",
    "occupation", "relationship", "race", "sex", "capital-gain", "capital-loss",
    "hours-per-week", "native-country", "income"
]

df = pd.read_csv("adult/adult.data", header=None, names=column_names, na_values=" ?", skipinitialspace=True)

In [3]:
# 🧹 1. Fehlende Werte anzeigen
print("❓ Fehlende Werte:")
print(df.isnull().sum())

❓ Fehlende Werte:
age               0
workclass         0
fnlwgt            0
education         0
education-num     0
marital-status    0
occupation        0
relationship      0
race              0
sex               0
capital-gain      0
capital-loss      0
hours-per-week    0
native-country    0
income            0
dtype: int64


In [4]:
# 🧼 2. Zeilen mit fehlenden Werten entfernen
df_cleaned = df.dropna()

print(f"✅ Nach Drop: {df_cleaned.shape[0]} Zeilen verbleiben")

✅ Nach Drop: 32561 Zeilen verbleiben


In [5]:
# 🧾 3. Doppelte Einträge entfernen (optional)
df_cleaned = df_cleaned.drop_duplicates()

In [6]:
# 🔁 4. Zielvariable binär codieren
df_cleaned["income"] = df_cleaned["income"].apply(lambda x: 1 if x == ">50K" else 0)

In [7]:
# 🔍 5. Überblick über kategorische Merkmale
cat_columns = df_cleaned.select_dtypes(include="object").columns.tolist()
print("🔤 Kategorische Spalten:")
print(cat_columns)

🔤 Kategorische Spalten:
['workclass', 'education', 'marital-status', 'occupation', 'relationship', 'race', 'sex', 'native-country']


In [8]:
# 🗑️ 6. Optional: Spalten wie 'fnlwgt' entfernen, falls nicht benötigt
df_cleaned = df_cleaned.drop(columns=["fnlwgt"])

In [9]:
# 💾 7. Bereinigte Daten speichern (z. B. für EDA oder Modeling)
df_cleaned.to_csv("adult/adult_cleaned.csv", index=False)

print("✅ Bereinigte Datei gespeichert: 'adult/adult_cleaned.csv'")

✅ Bereinigte Datei gespeichert: 'adult/adult_cleaned.csv'
