In [2]:
import pandas as pd
import numpy as np

from google.colab import drive
drive.mount('/content/drive')

# 1. DEFINIR O CAMINHO DO ARQUIVO NO DRIVE
PATH_COMPLETO = '/content/drive/MyDrive/Atividade 14.10/Atividade3/adult.data'

COLUMNS = [
    'age', 'workclass', 'fnlwgt', 'education', 'education-num',
    'marital-status', 'occupation', 'relationship', 'race', 'sex',
    'capital-gain', 'capital-loss', 'hours-per-week', 'native-country', 'income'
]

try:
    # 2. CARREGAR O DATASET COM OS PARÂMETROS CORRETOS
    df_adult = pd.read_csv(
        PATH_COMPLETO,
        header=None,
        names=COLUMNS,
        sep=',',
        skipinitialspace=True,
        na_values='?' # Converte '?' em NaN
    )

    df_clean = df_adult.copy()
    print(f"✅ Dataset carregado. Registros originais: {len(df_adult)}")
    print("=" * 50)

    # 3. LIMPEZA LÓGICA: TRATAMENTO DE DUPLICATAS EXATAS
    initial_duplicates = df_clean.duplicated().sum()
    df_clean.drop_duplicates(inplace=True)

    print(f"Duplicatas exatas removidas: {initial_duplicates}")
    print(f"Registros após remoção de duplicatas: {len(df_clean)}")
    print("-" * 50)

    # 4. LIMPEZA LÓGICA: TRATAMENTO DE VALORES AUSENTES (NAN)
    nan_cols = ['workclass', 'occupation', 'native-country']

    # Imputação (substituição) dos valores ausentes pela Moda
    for col in nan_cols:
        mode_value = df_clean[col].mode()[0]
        df_clean[col].fillna(mode_value, inplace=True)

    print("Tratamento de NaNs (Valores Ausentes) concluído:")
    print(f"-> NaNs preenchidos nas colunas: {', '.join(nan_cols)}")
    print("-" * 50)

    # 5. DOCUMENTAÇÃO DO IMPACTO FINAL
    print("--- Resumo Final da Limpeza Lógica ---")
    print(f"Total de registros no dataset final (df_clean): {len(df_clean)}")
    print("O DataFrame 'df_clean' está limpo e pronto para análise.")

except FileNotFoundError:
    print(f"\n❌ ERRO: Arquivo não encontrado no caminho: {PATH_COMPLETO}")
    print("Verifique se você executou a montagem do Drive e se o caminho/nome do arquivo está correto.")
except Exception as e:
    print(f"\n❌ Ocorreu um erro durante a execução: {e}")

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).
✅ Dataset carregado. Registros originais: 32561
Duplicatas exatas removidas: 24
Registros após remoção de duplicatas: 32537
--------------------------------------------------
Tratamento de NaNs (Valores Ausentes) concluído:
-> NaNs preenchidos nas colunas: workclass, occupation, native-country
--------------------------------------------------
--- Resumo Final da Limpeza Lógica ---
Total de registros no dataset final (df_clean): 32537
O DataFrame 'df_clean' está limpo e pronto para análise.


The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df_clean[col].fillna(mode_value, inplace=True)
