# Feature Engineering - Análise

## Notebook 01: Leitura e Pré-Análise dos Dados

### Organização do Dataset

No notebook **01_reading_raw_data**, foram realizadas ações iniciais para garantir que o dataset estivesse organizado e pronto para análise. As etapas incluem:

- **Organização do Dataset**:
  - Criação de uma pasta para armazenar o dataset e facilitar o acesso futuro.
  - Download e leitura do dataset.

### Verificações Iniciais

Antes de qualquer ajuste, foram realizadas verificações para avaliar a integridade e a estrutura do dataset:

- Verificação do tamanho do dataset (número de linhas e colunas).
- Identificação dos tipos de dados de cada coluna com base na documentação.
- Detecção de valores ausentes e variáveis redundantes.

### Limpeza e Ajustes

Para melhorar a qualidade dos dados, foram aplicados os seguintes ajustes:

1. **Exclusão de Colunas Irrelevantes**:
   - `PID` e `Order` foram removidas, pois são identificadores que não influenciam na análise.
   
2. **Ajuste de Tipos de Variáveis**:
   - Conversão de variáveis ordinais para categóricas, facilitando sua interpretação futura.

3. **Salvamento do Dataset**:
   - O dataset processado foi salvo para ser reutilizado no próximo notebook.

---

## Notebook 02: Análise e Pré-Processamento

Neste notebook, deu-se início ao **Feature Engineering**, onde foram realizadas transformações detalhadas para maximizar a relevância das variáveis. As alterações realizadas tornam o dataset robusto e pronto para modelagem, atendendo aos seguintes critérios:

1. **Redução de Dimensionalidade**:
   - Exclusão ou agrupamento de categorias pouco frequentes, reduzindo o risco de sobreajuste.
   
2. **Tratamento de Valores Ausentes**:
   - Todas as colunas com valores ausentes foram tratadas de forma coerente, garantindo a integridade dos dados.

3. **Relevância das Variáveis**:
   - Remoção de variáveis com pouca variabilidade ou que não agregam informações úteis, como `Utilities` e `Heating`.

4. **Transformações Consistentes**:
   - Ajustes foram realizados para melhorar a interpretação e o impacto de variáveis, como `Garage Age` e `Years Since Remodel`.

5. **Correlações com a Variável-Alvo**:
   - Verificou-se que as variáveis remanescentes possuem relação com `SalePrice`, garantindo que o dataset é representativo do problema.

Essas alterações foram justificadas para equilibrar a complexidade do modelo e a qualidade dos dados.

### Alterações nas Colunas Categóricas

#### MS Zoning
- Categorias pouco representadas, como `C`, `I` e `A`, foram removidas para evitar ruído.

#### Sales Type
- Categorias relacionadas a `WD` foram agrupadas em `GroupedWD`, enquanto categorias com baixa frequência foram combinadas em `Other`.

#### Street
- A categoria `Grvl` foi excluída devido à baixa representatividade.

#### Condition 1 e Condition 2
- Criou-se a coluna combinada **Condition**, agrupando categorias relacionadas a ferrovias, ruas e influências positivas.

#### Misc Feature
- Transformada em uma variável binária `HasShed`, indicando a presença de galpão.

#### Alley
- Convertida em uma coluna binária `HasAlley`.

#### Exterior1 e Exterior2
- Erros de digitação foram corrigidos, categorias pouco frequentes foram agrupadas em `Other` e criou-se a coluna combinada `Exterior`.

#### Roof Style
- Categorias `Flat`, `Gambrel`, `Mansard` e `Shed` foram agrupadas em `Other`.

#### Foundation
- Agrupou-se `Wood`, `Stone` e `Slab` em `Other`.

#### Neighborhood
- Bairros com poucos exemplos, como `Blueste` e `Landmrk`, foram excluídos.

#### Garage Type
- Criou-se a variável binária `NoGarage` para indicar a ausência de garagem.

### Alterações nas Colunas Ordinais

- **Utilities**: Removida pela baixa variabilidade.
- **Fence**: Adicionada a categoria `NoFence` para indicar ausência de cerca.
- **Garage Cond e Garage Qual**: Removidas por alta concentração na categoria `TA`.
- **Garage Finish**: Convertida para nominal, com adição da categoria `NoGarage`.
- **Bsmt Cond, Bsmt Qual, Bsmt Exposure, BsmtFin Type 1 e 2**:
  - Convertidas para nominais, com categorias agrupadas para simplificação.
  
### Alterações nas Colunas Numéricas

- **SalePrice**: Aplicação de logaritmo para melhorar a interpretação de erros.
- **Lot Frontage**: Valores ausentes preenchidos com a mediana.
- **Garage Yr Blt**: Criada a coluna `Garage Age` e valores inconsistentes corrigidos.
- **Year Remod Add e Year Built**: Transformadas em variáveis de idade.
- **Mas Vnr Area**: Valores nulos substituídos por `0`.

---

## Análise Conjunta

Após as transformações, o dataset foi avaliado em conjunto para verificar sua adequação:

1. **Correlação entre Variáveis Numéricas e `SalePrice`**:
   - Variáveis como idade da casa apresentaram forte relação com o preço.

2. **Correlação entre Variáveis Categóricas e `SalePrice`**:
   - Não foram identificadas relações marcantes.

3. **Interação entre Features**:
   - Nenhuma relação significativa foi observada.

---

## Conclusão

O **Feature Engineering** realizado garante que o dataset esteja bem estruturado e relevante para a modelagem. A eliminação de ruído e o tratamento de dados ausentes proporcionam uma base sólida, enquanto as transformações realizadas preservam a integridade e a representatividade das informações. O dataset final foi salvo e está pronto para as próximas etapas.