# Trabalho Prático: Tomada de Decisão em Limpeza de Dados

**Dataset:** [Ames Housing Dataset](https://www.kaggle.com/datasets/prevek18/ames-housing-dataset)

**Objetivo:** Este trabalho desafia você a atuar como um cientista de dados responsável por preparar um dataset bruto para modelagem. Em vez de seguir instruções, sua tarefa é analisar, tomar decisões informadas e justificar cada passo do processo de limpeza e transformação. O objetivo final é produzir um DataFrame limpo e robusto, pronto para ser usado em um modelo de machine learning para prever o preço de venda das casas.

---

### Seção 0: Configuração Inicial

**Enunciado:** Importe as bibliotecas necessárias (pandas, numpy, matplotlib, seaborn) e carregue o dataset `train.csv` em um DataFrame chamado `df`.

In [2]:
# Célula de resposta para a Seção 0

# Importe as bibliotecas
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

# Configure o estilo dos gráficos
sns.set_style("whitegrid")
pd.set_option('display.max_columns', None)
pd.set_option('display.max_rows', 100)

# Carregue o dataset
try:
    df = pd.read_csv('../data/AmesHousing.csv')
    print("Dataset carregado com sucesso!")
except FileNotFoundError:
    print("Arquivo 'AmesHousing.csv' não encontrado. Certifique-se de que ele está no diretório correto.")

Dataset carregado com sucesso!


### Seção 1: Diagnóstico e Formulação de Hipóteses

**Enunciado:** Todo bom projeto de limpeza começa com um diagnóstico completo. Sua primeira tarefa é entender profundamente o estado inicial dos dados.

1.  Execute uma análise de perfilamento básica no dataset. Utilize os métodos que julgar necessários (`.shape`, `.info()`, `.head()`, `.describe()`, etc.) para obter uma visão geral.
2.  **Tomada de Decisão:** Com base na sua análise inicial, formule hipóteses sobre os principais desafios deste dataset em uma célula de Markdown. Quais colunas parecem mais problemáticas? Que tipo de ações você *acha* que precisará tomar? (Ex: "A coluna 'Alley' tem muitos valores ausentes, talvez precise ser removida." ou "A coluna 'SalePrice' parece ter valores muito altos, precisarei investigar outliers.").

In [None]:
# Célula de resposta para a Seção 1

# Explore o dataset livremente para fazer seu diagnóstico.
barreira_visual = "\n--------------------------------"
print(f"\nDimensões do dataset: {df.shape}")


print(barreira_visual)
print("Primeiras 5 linhas do dataset:")
print(df.head())


print(barreira_visual)
print("\nInformações do dataset:")
print(df.info())


print(barreira_visual)
print("\nEstatísticas descritivas do dataset:")
print(df.describe())



print(barreira_visual)
missing_values = df.isnull().sum()
print(f"\nQuantidade de colunas com valores faltantes: {len(missing_values[missing_values > 0])}")


print(barreira_visual)
print(f"\nColunas com valores faltantes e suas contagens: {missing_values[missing_values > 0]}")


print(barreira_visual)
print("\nAnálise das distribuições das classes categóricas:")

for coluna in df.columns:
    print(f"\nColuna: {coluna}")
    print(df[coluna].value_counts(normalize=True)*100)
    print(barreira_visual)



print(f"\nAnálise de registros duplicados: {df.duplicated().sum()}")





Dimensões do dataset: (2930, 82)

--------------------------------
Primeiras 5 linhas do dataset:
   Order        PID  MS SubClass MS Zoning  Lot Frontage  Lot Area Street  \
0      1  526301100           20        RL         141.0     31770   Pave   
1      2  526350040           20        RH          80.0     11622   Pave   
2      3  526351010           20        RL          81.0     14267   Pave   
3      4  526353030           20        RL          93.0     11160   Pave   
4      5  527105010           60        RL          74.0     13830   Pave   

  Alley Lot Shape Land Contour Utilities Lot Config Land Slope Neighborhood  \
0   NaN       IR1          Lvl    AllPub     Corner        Gtl        NAmes   
1   NaN       Reg          Lvl    AllPub     Inside        Gtl        NAmes   
2   NaN       IR1          Lvl    AllPub     Corner        Gtl        NAmes   
3   NaN       Reg          Lvl    AllPub     Corner        Gtl        NAmes   
4   NaN       IR1          Lvl    AllPub   

**Hipóteses e Plano de Ação Inicial:**

* (Escreva suas hipóteses e seu plano de ação aqui)

# hipóteses

Conforme os dados estão estruturados, minha hipótese inicial é de que é possível determinar um preço de uma casa com base em informações que sejam suficientementes equivalentes ao das colunas das tabelas.

Como principal desafio para esses dados estão: 

**Nomeação das colunas**

1- Colunas redudantes, por exemplo existe a presença de uma coluna chamada Order que funciona basicamente como indexadora.

2- Falta de uma padronização das colunas. Pode em algum momento dificultar o trabalho de programação e análise desses dados. Por exemplo o fato de existir espaços nos titulos das colunas, já é suficiente de não ser possível utilizar o acesso com a notação de pontos.

3- Colunas que estão abreviadas com certas incosistências, oque pode dificultar as análises dos resultados em algum determinado momento. Exemplo dessas inconsistências estão presentes em, Qualidade: "Overall Qual" e "Fireplace Qu"; ano: "Year Built" e "Yr sold"; etc...

4- Colunas possuem números no meio da nomeação, oque pode também dificultar na utilização de algumas bibliotecas. Exemplo: "Exterior 1st"; etc...

**Dados das tabelas**

1- Presença de dados faltantes

2- Tipo de dados inconsistentes de algumas colunas, por exemplo na coluna "Garage Yr BLT" os dados segundo o método info() está como float, sendo que é apenas os anos da construção das garagens das casas.

3- Presença de dados que são categóricos, mas não estão classificados como categóricos













### Seção 2: Estratégia para Dados Ausentes (Missing Values)

**Enunciado:** Este dataset tem uma quantidade significativa de dados ausentes. Sua missão é desenvolver e aplicar uma estratégia coesa para lidar com eles.

1.  Calcule e analise a porcentagem de dados ausentes em cada coluna.
2.  **Tomada de Decisão (Remoção):** Com base na análise, proponha uma estratégia para colunas com uma quantidade muito alta de valores ausentes. Devemos remover algumas colunas? Se sim, qual seria um bom limiar (threshold) de porcentagem de ausência para justificar a remoção? Justifique sua decisão e implemente-a.
3.  **Tomada de Decisão (Imputação Categórica):** Consulte o dicionário de dados (`data_description.txt`). O que `NaN` significa para colunas como `Fence` ou `GarageType`? Qual é a melhor estratégia de imputação para estas colunas categóricas, considerando o significado dos dados? Implemente sua estratégia.
4.  **Tomada de Decisão (Imputação Numérica):** Investigue a coluna numérica `LotFrontage`. Analise sua distribuição (usando histograma e `.describe()`). É mais apropriado usar a média, a mediana ou outra estratégia para preencher os valores ausentes? Justifique sua escolha e implemente-a. Faça o mesmo para outras colunas numéricas que ainda possuam valores ausentes.

In [None]:
# Célula de resposta para a Seção 2

# 1. Calcule a porcentagem de valores ausentes


In [None]:
# 2. Justificativa e implementação da remoção de colunas
# print("Minha justificativa é...")


In [None]:
# 3. Justificativa e implementação da imputação categórica
# print("Minha justificativa é...")


In [None]:
# 4. Investigação, justificativa e implementação da imputação numérica
# print("Minha justificativa para 'LotFrontage' é...")


### Seção 3: Validação de Tipos de Dados

**Enunciado:** A forma como os dados são armazenados nem sempre reflete sua natureza real. Sua tarefa é identificar e corrigir essas discrepâncias.

1.  **Tomada de Decisão:** Inspecione as colunas com tipo de dado numérico (`int64`, `float64`). Existe alguma que, apesar de ser um número, representa uma categoria (ex: um código)? Identifique-as, explique por que tratá-las como números contínuos seria um erro para um modelo de machine learning, e converta-as para um tipo de dado mais apropriado (`object` ou `category`).

In [None]:
# Célula de resposta para a Seção 3

# 1. Identifique, justifique e converta os tipos de dados
# print("As colunas X e Y são categóricas porque...")


### Seção 4: Análise e Tratamento de Outliers

**Enunciado:** Valores extremos podem distorcer análises e prejudicar modelos. Investigue e trate os outliers de forma estratégica.

1.  Visualize a distribuição da variável alvo (`SalePrice`) e de outras features numéricas importantes, como `GrLivArea`, usando as técnicas que preferir (histogramas, box plots).
2.  Crie um gráfico de dispersão (scatter plot) para visualizar a relação entre `GrLivArea` e `SalePrice`.
3.  **Tomada de Decisão:** Com base no gráfico de dispersão, identifique visualmente as observações que parecem ser outliers problemáticos (ex: casas muito grandes com preços desproporcionalmente baixos). Defina um critério lógico para removê-los. Justifique sua escolha e implemente a remoção, explicando o impacto esperado no modelo.

In [None]:
# Célula de resposta para a Seção 4

# 1 e 2. Visualize as distribuições e a relação entre as variáveis


In [None]:
# 3. Defina seu critério, justifique e remova os outliers
# print("Meu critério para remoção é..., porque...")
# Lembre-se de resetar o índice do DataFrame após a remoção


### Seção 5: Engenharia de Features (Feature Engineering)

**Enunciado:** A criação de novas features é uma das etapas mais criativas e impactantes. Pense em como as features existentes podem ser combinadas ou transformadas para criar novas informações.

1.  **Tomada de Decisão:** Proponha e implemente a criação de pelo menos **três** novas features que você acredita que possam ser úteis para prever o preço de uma casa. Explique o raciocínio por trás de cada uma.
    * *Sugestões (sinta-se livre para criar outras):* Qual a idade da casa na data da venda? Qual a área total da casa somando todos os andares e porão? A casa foi reformada desde que foi construída?

In [None]:
# Célula de resposta para a Seção 5

# Feature 1: Nome e Raciocínio
# print("Criei a feature X porque...")


# Feature 2: Nome e Raciocínio


# Feature 3: Nome e Raciocínio


### Seção 6: Codificação de Variáveis Categóricas

**Enunciado:** Para que o dataset possa ser usado por um modelo, todas as features precisam ser numéricas.

1.  **Tomada de Decisão:** Identifique as colunas categóricas (`object`) restantes. Qual é a estratégia de codificação mais adequada (One-Hot Encoding, Label Encoding, etc.)? Lembre-se de considerar se os dados são nominais ou ordinais e o impacto de cada técnica. Justifique sua escolha geral e implemente a codificação para transformar todas as features restantes em formato numérico.

In [None]:
# Célula de resposta para a Seção 6

# Justifique sua escolha de método de codificação
# print("Escolhi o método X porque...")

# Implemente a codificação


### Seção 7: Verificação Final

**Enunciado:** Antes de entregar o trabalho, faça uma verificação final para garantir que o DataFrame está impecável.

1.  Verifique se ainda existe algum valor ausente no DataFrame.
2.  Verifique os tipos de dados de todas as colunas. Todos devem ser numéricos (`int` ou `float`).
3.  Exiba as dimensões do seu DataFrame final. Compare com as dimensões originais e comente brevemente as mudanças.

In [None]:
# Célula de resposta para a Seção 7
