# Feature Engineering Analysis

## Notebook 01: Reading Raw Data

### Pré-Análise
No notebook **01_reading_raw_data**, foram realizadas as seguintes verificações para garantir que o dataset estava correto:
- **Organização do Dataset**:
  - Criação de uma pasta para armazenar o dataset e facilitar o acesso futuro.
  - Download do dataset.
- **Verificações Iniciais**:
  - Verificação do tamanho do dataset.
  - Verificação dos tamanhos de colunas e linhas.
  - Verificação dos tipos de dados de cada coluna, com auxílio da documentação do dataset.
- **Limpeza e Ajustes**:
  - Exclusão de colunas irrelevantes (`PID` e `Order`, que representam identificadores de linhas).
  - Ajuste dos tipos de variáveis.
  - Conversão de variáveis ordinais para categóricas.
- **Salvamento do Dataset**:
  - Salvamento do dataset com as alterações realizadas.

---

## Notebook 02: Analysis and Preprocessing

Neste notebook, o processo de **feature engineering** começa efetivamente. O dataset preparado no notebook 01 é carregado.

### Análise Individual das Colunas Categóricas
Foram realizadas as seguintes ações em cada coluna categórica:

#### **Visualização**
- Geração de gráficos para análise das colunas categóricas.

#### **Alterações nas Colunas**
1. **MS Zoning**:
   - Exclusão das categorias `C`, `I` e `A` (zoneamento comercial, industrial e agrícola), que possuem poucos exemplos.
2. **Sales Type**:
   - Agrupamento das categorias relacionadas a `WD` (`Warranty Deed - Conventional`,` Warranty Deed - Cash`, `Warranty Deed - VA Loan`, `Warranty Deed - FHA Loan`) em uma nova categoria: `GroupedWD`.
   - Manutenção da categoria `New`
   - Agrupamento das demais (`COD - Court Officer Deed/Estate`, `ConLI - Contract Low Interest`, `Con - Contract 15% Down payment regular terms`, `ConLD - Contract Low Down`, `Oth - Other` e `ConLw - Contract Low Down payment and low interest`) em `Other` devido à baixa frequência.
3. **Street**:
   - Exclusão da categoria `Grvl` (rua de cascalho) por ter poucos exemplos.
4. **Condition 1 e Condition 2**:
   - Agrupamento das categorias em novas colunas:
        - Railroad: `RRNe - RailRoad Non-arterial crossing`, `RRAe - RailRoad Non-arterial crossing`, `RRAn - RailRoad Arterial Non-crossing`, `RRNn - RailRoad Non-crossing`
        - Road: `Artery - Adjacent to arterial street`, `Feedr - Adjacent to feeder street`
        - Positive: `PosAPosA - Positive influence, Adjacent`, `PosN - Positive influence, Neighborhood`
        
   - Criação da coluna combinada **Condition** com regras definidas para interpretar o ambiente ao redor da propriedade.
    - `norm`: Condition1 é Norm;
    - `RailRoad`: Condition 1 é RailRoad e Condition 2 é Norm;
    - `Road`: Condition 1 é Road e Condition 2 não é  RailRoad;
    - `Positive`: Condition 1 é Positive;
    - `RoadAndRailRoad`: Condition 1 é Road e Condition 2 é RailRoad ou Condition 1 é RailRoad e Condition 2 é Road;
5. **Misc Feature**:
    - A maioria dos exemplos possui valor nulo. 
   - Transformada em uma coluna binária `HasShed`, indicando se a propriedade possui galpão. 
6. **Alley**:
   - Transformada em uma coluna binária `HasAlley`, indicando a presença de rua secundária.
7. **Exterior1 e Exterior2**:
   - Correção de erros de digitação nas categorias:
        - `CmentBd` para `CemntBd`
        - `Brk Cmn` para `BrkComm`
        - `Wd Shng` para `WdShing`
   - Agrupamento de categorias com baixa frequência (<40) em `Other`.
        - `AsphShn`, `CBlock`, `ImStucc`, `BrkComm`, `Stone` e `PreCast`.
   - Criação da coluna combinada `Exterior`.
8. **Heating** 
    - Maiorioa dos exemplos possuem `GasA - Gas forced air furnance`.
    - Exclusão da Coluna.
9. **Roof Matl**:
   - Maioria dos exemplos possuem `CompShg - Standard (Composite) Shingle`.
    - Exclusão da Coluna.
10. **Roof Style**:
   - Agrupamento das categorias `Flat`, `Gambrel`, `Mansard` e `Shed` em `Other`.
11. **Mas Vnr Type**:
    - Agrupamento de categorias com baixa frequência em `Other`:
        - `BrkCmn - Brick Common`, `Cblock - Cinder Block`.
    - Preenchimento de valores nulos com `None`.
12. **Ms Subclass**:
    - Baixo conehcimento sobre o significado das categorias.
    - Agrupamento de categorias com poucos exemplos em `Other`.
13. **Foundation**
    - Agrupamento de categorias `Wood`, `Stone` e `Slab` em `Other`.
14. **Neighborhood**:
    - Exclusão de bairros com poucos exemplos (`Blueste`, `Landmrk`, `Greens`, `GrnHill`).
    - O modelo não funciona para esses bairros.
15. **Garage Type**:
    - Criação da coluna binária `NoGarage` para indicar a ausência de garagem.

---

### Análise Individual das Colunas Ordinais
A maioria das colunas ordinais já havia sido ajustada na pré-análise. Alterações adicionais incluem:
- **Utilities**:
  - Coluna removida devido à concentração em uma única categoria (`AllPub - All public utilities`).
- **Pool QC**:
  - Coluna removida por possuir poucos exemplos.
- **Fence**:
  - Adicionada a categoria `NoFence` para indicar a ausência de cerca.
- **Fireplace Qu**:
  - Coluna removida devido à baixa variabilidade e alta quantidade de valores nulos.
  - A coluna `Fireplaces` já indica a quantidade de lareiras.
- **Garage Cond e Garage Qual**:
  - Remoção por alta concentração na categoria `TA` (Typical/Average).
- **Garage Finish**:
  - Convertida para nominal, com adição da categoria `NoGarage`.
- **Electrical**:
  - Preenchimento de valores nulos com a categoria mais frequente (`SBrkr - Standard Circuit Breakers & Romex`).
- **Bsmt Cond, Bsmt Qual, Bsmt Exposure, BsmtFin Type 1 e 2**:
  - Convertidas para nominais com adição da categoria `NA`.
  - Algumas categorias foram agrupadas para simplificação.
        - `Fa - Fair` e `Po - Poor` em `Fair`.
        - `Gd - Good` e `Ex - Excellent` em `Good`.

---

### Análise Individual das Colunas Numéricas
Alterações realizadas:
- **SalePrice**:
  - Transformada em logaritmo para facilitar a interpretação dos erros.
- **Lot Frontage**:
  - Preenchimento de valores nulos com a mediana.
- **Garage Yr Blt**:
  - Criada a coluna `Garage Age` a partir da coluna `Year Built`.
  - Preenchimento de valores errados com a 0.
  - Preenchimento de valores nulos com a mediana.
- **Year Remod Add e Year Built**:
  - Transformadas em colunas que indicam a idade da casa e da última reforma.
  - Valores errados foram corrigidos para 0.
- **Mas Vnr Area**:
  - Valores nulos preenchidos com `0` (sem revestimento).
- Colunas com valores faltantes remanescentes foram removidas.

---

## Análise Conjunta

1. **Correlação entre Variáveis Numéricas e `SalePrice`**:
   - Identificação de variáveis fortemente correlacionadas com o preço (ex.: idade da casa).
    - Identificação de variáveis fracamente correlacionadas com o preço (ex.: área da casa).
2. **Correlação entre Variáveis Categóricas e `SalePrice`**:
   - Nenhuma relação marcante foi identificada.
3. **Relação entre Features**:
   - Nenhuma relação significativa foi observada.

O dataset final foi salvo e está pronto para o próximo notebook.
