# Dataset limpo para análise exploratória
Este notebook gera e salva um arquivo com o dataset limpo, sem normalização ou encoding, para facilitar análises exploratórias. Separar os arquivos por finalidade (análise vs machine learning) torna o projeto mais organizado e flexível.

In [1]:
# Importação das bibliotecas
import pandas as pd
import numpy as np

In [2]:
# Leitura do dataset original
train_data_raw = pd.read_csv('../data/train_data.csv')

In [None]:
# Limpeza básica: duplicatas, outliers, variáveis correlacionadas (manual), categorias raras
train_data_limpo = train_data_raw.drop_duplicates()
num_cols = train_data_limpo.select_dtypes(include=['float64', 'int64']).columns
for col in num_cols:
    Q1 = train_data_limpo[col].quantile(0.25)
    Q3 = train_data_limpo[col].quantile(0.75)
    IQR = Q3 - Q1
    lim_inf = Q1 - 1.5 * IQR
    lim_sup = Q3 + 1.5 * IQR
    train_data_limpo = train_data_limpo[(train_data_limpo[col] >= lim_inf) & (train_data_limpo[col] <= lim_sup)]
# Visualize a matriz de correlação para decidir manualmente quais colunas remover
print(train_data_limpo[num_cols].corr())
# Exemplo: para remover manualmente, use algo assim:
# train_data_limpo = train_data_limpo.drop(columns=['coluna1', 'coluna2'])
# cat_cols = train_data_limpo.select_dtypes(include=['object', 'category']).columns
for col in cat_cols:
    freq = train_data_limpo[col].value_counts(normalize=True)
    raras = freq[freq < 0.01].index
    train_data_limpo[col] = train_data_limpo[col].replace(raras, 'OUTRA')
train_data_limpo.to_csv('../data/train_data_limpo.csv', index=False)

## Por que separar os arquivos?
Separar os arquivos por finalidade (análise exploratória, machine learning, etc) facilita a organização do projeto, evita confusões e permite que diferentes etapas sejam realizadas de forma independente. Assim, é possível garantir que cada equipe ou pessoa trabalhe com o dado mais adequado para sua tarefa, sem misturar transformações específicas de modelagem com dados para análise geral.