# Projeto Ames

## *Ames Dataset*

### Obtendo os dados

In [11]:
from pathlib import Path

DATA_DIR = Path("datasets")
print(DATA_DIR)

datasets


In [12]:
import pandas as pd


def load_housing_data(data_dir: Path) -> pd.DataFrame:
    '''Loads the Ames dataset.

    Loads the Ames dataset from the specified directory.

    Args:
        data_dir: The directory from which the dataset will be loaded.

    Returns:
        A pandas DataFrame containing the California Housing Prices dataset.
    '''
    csv_path = data_dir / 'ames.csv'
    df = pd.read_csv(csv_path)
    return df

In [13]:
data = load_housing_data(DATA_DIR)

print(f'O dataset tem {data.shape[0]} linhas e {data.shape[1]} colunas.')
print('As colunas são:')
for column_name in data.columns:
    print(f'- "{column_name}"')

O dataset tem 2930 linhas e 82 colunas.
As colunas são:
- "Order"
- "PID"
- "MS.SubClass"
- "MS.Zoning"
- "Lot.Frontage"
- "Lot.Area"
- "Street"
- "Alley"
- "Lot.Shape"
- "Land.Contour"
- "Utilities"
- "Lot.Config"
- "Land.Slope"
- "Neighborhood"
- "Condition.1"
- "Condition.2"
- "Bldg.Type"
- "House.Style"
- "Overall.Qual"
- "Overall.Cond"
- "Year.Built"
- "Year.Remod.Add"
- "Roof.Style"
- "Roof.Matl"
- "Exterior.1st"
- "Exterior.2nd"
- "Mas.Vnr.Type"
- "Mas.Vnr.Area"
- "Exter.Qual"
- "Exter.Cond"
- "Foundation"
- "Bsmt.Qual"
- "Bsmt.Cond"
- "Bsmt.Exposure"
- "BsmtFin.Type.1"
- "BsmtFin.SF.1"
- "BsmtFin.Type.2"
- "BsmtFin.SF.2"
- "Bsmt.Unf.SF"
- "Total.Bsmt.SF"
- "Heating"
- "Heating.QC"
- "Central.Air"
- "Electrical"
- "X1st.Flr.SF"
- "X2nd.Flr.SF"
- "Low.Qual.Fin.SF"
- "Gr.Liv.Area"
- "Bsmt.Full.Bath"
- "Bsmt.Half.Bath"
- "Full.Bath"
- "Half.Bath"
- "Bedroom.AbvGr"
- "Kitchen.AbvGr"
- "Kitchen.Qual"
- "TotRms.AbvGrd"
- "Functional"
- "Fireplaces"
- "Fireplace.Qu"
- "Garage.Type"
- "

## Entendimento do negócio

### O que os dados representam

Estes dados representam um conjunto detalhado de informações sobre **propriedades residenciais (casas) que foram vendidas na cidade de Ames, Iowa, nos Estados Unidos**.

Cada linha do dataset corresponde a uma única casa vendida e as colunas descrevem uma ampla variedade de características sobre essa casa e a transação de venda, incluindo:

* **Características do Lote:** Tamanho, forma, acesso (rua, beco), nivelamento, localização (vizinhança), zoneamento.
* **Características da Construção:** Tipo de moradia, estilo arquitetônico, ano de construção/reforma, materiais.
* **Qualidade e Condição:** Avaliações gerais e específicas (porão, exterior, cozinha, garagem, etc.).
* **Tamanho e Layout Interno:** Áreas (total, andares, porão), número de cômodos, banheiros, quartos.
* **Comodidades:** Aquecimento, ar condicionado, lareiras, garagem, deck, varandas, piscina, cerca.
* **Detalhes da Venda:** Data, tipo e condição da venda.
* **Preço de Venda (`SalePrice`):** O valor final pelo qual a propriedade foi vendida.

Essencialmente, o dataset captura as características de uma casa e o seu valor de mercado no momento da venda, sendo frequentemente utilizado para análise imobiliária e modelos preditivos de preços.

### Descrição das Colunas

* **`Order`**: Número sequencial/ordem da linha no dataset.
* **`PID`**: (Parcel ID) Identificador único do lote/propriedade.
* **`MS.SubClass`**: Código numérico que identifica o tipo de moradia envolvida na venda (ex: `20` para 1 andar pós-1946, `60` para 2 andares pós-1946).
* **`MS.Zoning`**: Classificação de zoneamento geral da venda (ex: `RL` - Residencial Baixa Densidade, `RM` - Residencial Média Densidade).
* **`Lot.Frontage`**: Comprimento linear (em pés) da rua conectada à propriedade. `NA` indica ausência de dado ou frente não convencional.
* **`Lot.Area`**: Tamanho do lote em pés quadrados.
* **`Street`**: Tipo de acesso rodoviário (ex: `Pave` - Pavimentado, `Grvl` - Cascalho).
* **`Alley`**: Tipo de acesso por beco (ex: `Grvl` - Cascalho, `Pave` - Pavimentado, `NA` - Sem acesso por beco).
* **`Lot.Shape`**: Forma geral da propriedade (ex: `Reg` - Regular, `IR1` - Ligeiramente irregular).
* **`Land.Contour`**: Nivelamento da propriedade (ex: `Lvl` - Nível).
* **`Utilities`**: Tipo de serviços públicos disponíveis (ex: `AllPub` - Todos os serviços públicos).
* **`Lot.Config`**: Configuração do lote (ex: `Inside` - Interno, `Corner` - Esquina, `CulDSac` - Fim de rua sem saída).
* **`Land.Slope`**: Inclinação da propriedade (ex: `Gtl` - Suave).
* **`Neighborhood`**: Localização física dentro dos limites da cidade de Ames.
* **`Condition.1`**: Proximidade a condições externas (ex: `Norm` - Normal, `Artery` - Rua arterial, `Feedr` - Rua alimentadora).
* **`Condition.2`**: Segunda condição de proximidade (se aplicável).
* **`Bldg.Type`**: Tipo de moradia (ex: `1Fam` - Família única, `TwnhsE` - Townhouse final).
* **`House.Style`**: Estilo da moradia (ex: `1Story` - Um andar, `2Story` - Dois andares).
* **`Overall.Qual`**: Qualidade geral do material e acabamento (escala 1-10).
* **`Overall.Cond`**: Condição geral da casa (escala 1-10).
* **`Year.Built`**: Ano de construção original.
* **`Year.Remod.Add`**: Ano da reforma (igual a `Year.Built` se não houve reforma).
* **`Roof.Style`**: Tipo de telhado (ex: `Gable` - Duas águas, `Hip` - Quatro águas).
* **`Roof.Matl`**: Material do telhado (ex: `CompShg` - Telhas de asfalto).
* **`Exterior.1st`**: Revestimento exterior primário.
* **`Exterior.2nd`**: Revestimento exterior secundário (se houver).
* **`Mas.Vnr.Type`**: Tipo de revestimento de alvenaria (ex: `BrkFace` - Tijolo Aparente, `None` - Nenhum).
* **`Mas.Vnr.Area`**: Área de revestimento de alvenaria em pés quadrados.
* **`Exter.Qual`**: Qualidade do material exterior (ex: `Ex`, `Gd`, `TA`, `Fa`, `Po`).
* **`Exter.Cond`**: Condição do material exterior (ex: `Ex`, `Gd`, `TA`, `Fa`, `Po`).
* **`Foundation`**: Tipo de fundação (ex: `PConc` - Concreto, `CBlock` - Bloco de cimento).
* **`Bsmt.Qual`**: Altura do porão (ex: `Ex`, `Gd`, `TA`, `Fa`, `Po`, `NA` - Sem porão).
* **`Bsmt.Cond`**: Condição geral do porão (ex: `Ex`, `Gd`, `TA`, `Fa`, `Po`, `NA` - Sem porão).
* **`Bsmt.Exposure`**: Exposição das paredes do porão (walk-out/nível jardim) (ex: `Gd`, `Av`, `Mn`, `No`, `NA` - Sem porão).
* **`BsmtFin.Type.1`**: Qualidade da área acabada principal do porão (ex: `GLQ`, `ALQ`, `BLQ`, `Rec`, `LwQ`, `Unf`, `NA` - Sem porão).
* **`BsmtFin.SF.1`**: Pés quadrados da área acabada tipo 1.
* **`BsmtFin.Type.2`**: Qualidade da segunda área acabada (se houver) (mesmos valores de `BsmtFin.Type.1`).
* **`BsmtFin.SF.2`**: Pés quadrados da área acabada tipo 2.
* **`Bsmt.Unf.SF`**: Pés quadrados de área inacabada do porão.
* **`Total.Bsmt.SF`**: Área total do porão em pés quadrados.
* **`Heating`**: Tipo de aquecimento (ex: `GasA` - Ar quente a gás).
* **`Heating.QC`**: Qualidade e condição do aquecimento (ex: `Ex`, `Gd`, `TA`, `Fa`, `Po`).
* **`Central.Air`**: Ar condicionado central (`Y` - Sim, `N` - Não).
* **`Electrical`**: Sistema elétrico (ex: `SBrkr` - Disjuntores).
* **`X1st.Flr.SF`**: Área do primeiro andar em pés quadrados.
* **`X2nd.Flr.SF`**: Área do segundo andar em pés quadrados.
* **`Low.Qual.Fin.SF`**: Pés quadrados acabados de baixa qualidade (todos os andares).
* **`Gr.Liv.Area`**: Área de estar acima do nível do solo em pés quadrados.
* **`Bsmt.Full.Bath`**: Banheiros completos no porão.
* **`Bsmt.Half.Bath`**: Lavabos (meio-banheiros) no porão.
* **`Full.Bath`**: Banheiros completos acima do nível do solo.
* **`Half.Bath`**: Lavabos (meio-banheiros) acima do nível do solo.
* **`Bedroom.AbvGr`**: Número de quartos acima do nível do solo.
* **`Kitchen.AbvGr`**: Número de cozinhas acima do nível do solo.
* **`Kitchen.Qual`**: Qualidade da cozinha (ex: `Ex`, `Gd`, `TA`, `Fa`, `Po`).
* **`TotRms.AbvGrd`**: Total de cômodos acima do nível do solo (não inclui banheiros).
* **`Functional`**: Classificação da funcionalidade da casa (ex: `Typ` - Típico).
* **`Fireplaces`**: Número de lareiras.
* **`Fireplace.Qu`**: Qualidade da lareira (ex: `Ex`, `Gd`, `TA`, `Fa`, `Po`, `NA` - Sem lareira).
* **`Garage.Type`**: Localização da garagem (ex: `Attchd` - Anexada, `Detchd` - Separada, `NA` - Sem garagem).
* **`Garage.Yr.Blt`**: Ano de construção da garagem (`NA` se não houver garagem).
* **`Garage.Finish`**: Acabamento interior da garagem (ex: `Fin` - Acabada, `RFn` - Rústica, `Unf` - Inacabada, `NA` - Sem garagem).
* **`Garage.Cars`**: Capacidade da garagem em número de carros.
* **`Garage.Area`**: Área da garagem em pés quadrados.
* **`Garage.Qual`**: Qualidade da garagem (ex: `Ex`, `Gd`, `TA`, `Fa`, `Po`, `NA` - Sem garagem).
* **`Garage.Cond`**: Condição da garagem (ex: `Ex`, `Gd`, `TA`, `Fa`, `Po`, `NA` - Sem garagem).
* **`Paved.Drive`**: Entrada de automóveis pavimentada (`Y` - Sim, `P` - Parcialmente, `N` - Não).
* **`Wood.Deck.SF`**: Área do deck de madeira em pés quadrados.
* **`Open.Porch.SF`**: Área da varanda aberta em pés quadrados.
* **`Enclosed.Porch`**: Área da varanda fechada em pés quadrados.
* **`X3Ssn.Porch`**: Área da varanda de três estações em pés quadrados.
* **`Screen.Porch`**: Área da varanda com tela em pés quadrados.
* **`Pool.Area`**: Área da piscina em pés quadrados (`0` indica sem piscina).
* **`Pool.QC`**: Qualidade da piscina (ex: `Ex`, `Gd`, `TA`, `Fa`, `NA` - Sem piscina).
* **`Fence`**: Qualidade da cerca (ex: `GdPrv`, `MnPrv`, `GdWo`, `MnWw`, `NA` - Sem cerca).
* **`Misc.Feature`**: Recurso miscelâneo não coberto (ex: `Shed` - Galpão, `Gar2` - Segunda garagem, `NA` - Nenhum).
* **`Misc.Val`**: Valor ($) do recurso miscelâneo.
* **`Mo.Sold`**: Mês da venda (1-12).
* **`Yr.Sold`**: Ano da venda.
* **`Sale.Type`**: Tipo de venda (ex: `WD` - Normal, `New` - Casa Nova).
* **`Sale.Condition`**: Condição da venda (ex: `Normal`, `Partial` - Venda parcial/casa nova, `Abnorml` - Anormal).
* **`SalePrice`**: Preço de venda da propriedade em dólares (variável alvo comum).

## Seleção de 15 Features para Prever log10(SalePrice)

Com base na análise do dataset Ames Housing e considerando o objetivo de prever `log10(SalePrice)` com 15 features (sendo pelo menos 4 categóricas), a seguinte seleção é recomendada por incluir variáveis comumente associadas a um alto poder preditivo:

### Features Selecionadas (15)

---

**Numéricas/Ordinais (9):**

1.  **`Overall.Qual`**: Qualidade geral do material e acabamento. (Ordinal, mas geralmente tratada como numérica devido à forte correlação).
2.  **`Gr.Liv.Area`**: Área de estar acima do nível do solo (pés quadrados).
3.  **`Total.Bsmt.SF`**: Área total do porão (pés quadrados).
4.  **`Garage.Cars`**: Capacidade da garagem em número de carros.
5.  **`Year.Built`**: Ano de construção original.
6.  **`Year.Remod.Add`**: Ano da reforma (ou construção, se não reformada).
7.  **`Full.Bath`**: Número de banheiros completos acima do solo.
8.  **`TotRms.AbvGrd`**: Número total de cômodos acima do solo (excluindo banheiros).
9.  **`Fireplaces`**: Número de lareiras.

**Categóricas (6 selecionadas, atendendo ao requisito >= 4):**

10. **`Neighborhood`**: Localização física/vizinhança na cidade. **(Categórica)**
11. **`Kitchen.Qual`**: Qualidade da cozinha. **(Categórica Ordinal)**
12. **`Bsmt.Qual`**: Qualidade (altura/acabamento) do porão. **(Categórica Ordinal)**
13. **`Exter.Qual`**: Qualidade do material externo. **(Categórica Ordinal)**
14. **`Heating.QC`**: Qualidade e condição do sistema de aquecimento. **(Categórica Ordinal)**
15. **`Foundation`**: Tipo de fundação (ex: `PConc`). **(Categórica)**

---

### Justificativa

* Este conjunto abrange dimensões cruciais para a precificação de imóveis:
    * **Qualidade Geral:** `Overall.Qual`
    * **Tamanho:** `Gr.Liv.Area`, `Total.Bsmt.SF`, `Garage.Cars`, `TotRms.AbvGrd`
    * **Idade/Renovação:** `Year.Built`, `Year.Remod.Add`
    * **Localização:** `Neighborhood`
    * **Qualidade de Componentes:** `Kitchen.Qual`, `Bsmt.Qual`, `Exter.Qual`, `Heating.QC`
    * **Comodidades:** `Full.Bath`, `Fireplaces`
    * **Estrutura:** `Foundation`
* As 6 features categóricas selecionadas são conhecidas por terem forte influência no valor dos imóveis neste dataset.
* Atende aos requisitos: 15 features no total, com 6 sendo categóricas (mais que as 4 mínimas exigidas).

---

### Observações Importantes

* A seleção ótima pode variar conforme a metodologia específica (análise de correlação, feature importance de modelos como Florestas Aleatórias ou Gradient Boosting, Eliminação Recursiva de Features - RFE, etc.) e o algoritmo de machine learning escolhido.
* Features ordinais (`Overall.Qual`, `Kitchen.Qual`, etc.) podem ser tratadas como numéricas (1, 2, 3...) ou categóricas (ex: One-Hot Encoding), exigindo diferentes pré-processamentos. A escolha pode depender do modelo.
* É fundamental realizar o tratamento adequado de dados faltantes (`NA`) antes da modelagem (ex: imputação).
* As features categóricas nominais (como `Neighborhood`, `Foundation`) precisarão ser codificadas (ex: One-Hot Encoding) para a maioria dos modelos. As ordinais podem usar codificação ordinal ou também one-hot.

In [14]:
import pandas as pd
from pathlib import Path

def load_selected_features(data_dir: Path) -> pd.DataFrame:
    '''Loads a subset of the Ames housing dataset with selected features.

    Args:
        data_dir: The directory from which the dataset will be loaded.

    Returns:
        A pandas DataFrame containing only the selected features.
    '''
    # Carrega o dataset completo
    df = load_housing_data(data_dir)
    
    # Define as colunas desejadas
    selected_columns = [
        "Overall.Qual",
        "Gr.Liv.Area",
        "Total.Bsmt.SF",
        "Garage.Cars",
        "Year.Built",
        "Year.Remod.Add",
        "Full.Bath",
        "TotRms.AbvGrd",
        "Fireplaces",
        "Neighborhood",
        "Kitchen.Qual",
        "Bsmt.Qual",
        "Exter.Qual",
        "Heating.QC",
        "Foundation",
        "SalePrice"
    ]
    
    # Retorna apenas as colunas selecionadas
    return df[selected_columns]

In [15]:
load_selected_features(DATA_DIR)

Unnamed: 0,Overall.Qual,Gr.Liv.Area,Total.Bsmt.SF,Garage.Cars,Year.Built,Year.Remod.Add,Full.Bath,TotRms.AbvGrd,Fireplaces,Neighborhood,Kitchen.Qual,Bsmt.Qual,Exter.Qual,Heating.QC,Foundation,SalePrice
0,6,1656,1080.0,2.0,1960,1960,1,7,2,NAmes,TA,TA,TA,Fa,CBlock,215000
1,5,896,882.0,1.0,1961,1961,1,5,0,NAmes,TA,TA,TA,TA,CBlock,105000
2,6,1329,1329.0,1.0,1958,1958,1,6,0,NAmes,Gd,TA,TA,TA,CBlock,172000
3,7,2110,2110.0,2.0,1968,1968,2,8,2,NAmes,Ex,TA,Gd,Ex,CBlock,244000
4,5,1629,928.0,2.0,1997,1998,2,6,1,Gilbert,TA,Gd,TA,Gd,PConc,189900
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
2925,6,1003,1003.0,2.0,1984,1984,1,6,0,Mitchel,TA,TA,TA,TA,CBlock,142500
2926,5,902,864.0,2.0,1983,1983,1,5,0,Mitchel,TA,Gd,TA,TA,CBlock,131000
2927,5,970,912.0,0.0,1992,1992,1,6,0,Mitchel,TA,Gd,TA,TA,PConc,132000
2928,5,1389,1389.0,2.0,1974,1975,1,6,1,Mitchel,TA,Gd,TA,Gd,CBlock,170000
