In [1]:
import pandas as pd
import numpy as np
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.model_selection import train_test_split

In [3]:
def load_adult_dataset():
    columns = ['age', 'workclass', 'fnlwgt', 'education', 'education-num',
               'marital-status', 'occupation', 'relationship', 'race', 'sex',
               'capital-gain', 'capital-loss', 'hours-per-week', 'native-country', 'income']
    
    # 0 -- carregar dataset adult
    df = pd.read_csv('adult.data', names=columns, skipinitialspace=True)
    
    # 1 -- excluir linhas com dados faltantes
    df = df.replace('?', np.nan)
    df = df.dropna()
    
    # 2 -- transformar as strings em números
    categorical_columns = ['workclass', 'education', 'marital-status', 'occupation',
                          'relationship', 'race', 'sex', 'native-country']
     
    # Criar um LabelEncoder para cada coluna categórica
    label_encoders = {}
    for col in categorical_columns:
        le = LabelEncoder()
        df[col] = le.fit_transform(df[col])
        label_encoders[col] = le  # Salvar para uso posterior se necessário

    # 3 -- separar idade por faixa de valores
    df['age_group'] = pd.cut(df['age'], bins=[0, 30, 50, 100], labels=['young', 'middle_aged', 'old'])
    le_age = LabelEncoder()
    df['age_group'] = le_age.fit_transform(df['age_group'])
    
    # Corrigir o target (>50K com K maiúsculo)
    df['income'] = (df['income'] == '>50K').astype(int)
    
    return df

In [None]:
# Carregar e visualizar os dados
df = load_adult_dataset()
print(f"Shape do dataset: {df.shape}")
print(f"Colunas: {df.columns.tolist()}")
print(f"Distribuição do target:")
print(df['income'].value_counts())
print(f"\nPrimeiras 5 linhas:")
print(df.head())