## **Enunciado do problema, Kaggle**

Peça a um comprador de imóveis para descrever a casa dos seus sonhos, e provavelmente ele não começará mencionando a altura do teto do porão ou a proximidade de uma ferrovia leste-oeste. No entanto, o conjunto de dados desta competição demonstra que muito mais fatores influenciam as negociações de preço do que apenas o número de quartos ou uma cerca branca.

Com 79 variáveis explicativas descrevendo (quase) todos os aspectos das residências em Ames, Iowa, esta competição desafia você a prever o preço final de cada imóvel.

## **Estudo da tipologia das variáveis**

### **Variáveis Qualitativas**

#### **Categóricas (Nominais ou Ordinais)**

1. **MSZoning** – Classificação de zoneamento
2. **Street** – Tipo de acesso viário
3. **Alley** – Tipo de acesso por viela
4. **LotShape** – Formato do lote
5. **LandContour** – Nivelamento do terreno
6. **Utilities** – Tipo de utilidades disponíveis
7. **LotConfig** – Configuração do lote
8. **LandSlope** – Inclinação do terreno
9. **Neighborhood** – Bairro/localização dentro da cidade
10. **Condition1** – Proximidade a rodovia/ferrovia
11. **Condition2** – Proximidade secundária a rodovia/ferrovia
12. **BldgType** – Tipo de habitação
13. **HouseStyle** – Estilo da habitação
14. **RoofStyle** – Tipo de telhado
15. **RoofMatl** – Material do telhado
16. **Exterior1st** – Material da cobertura externa
17. **Exterior2nd** – Segundo material da cobertura externa
18. **MasVnrType** – Tipo de revestimento de alvenaria
19. **Foundation** – Tipo de fundação
20. **BsmtQual** – Qualidade do porão
21. **BsmtCond** – Condição do porão
22. **BsmtExposure** – Exposição do porão
23. **BsmtFinType1** – Qualidade da área acabada do porão
24. **BsmtFinType2** – Qualidade da segunda área acabada do porão
25. **Heating** – Tipo de aquecimento
26. **HeatingQC** – Qualidade do aquecimento
27. **Electrical** – Tipo de sistema elétrico
28. **KitchenQual** – Qualidade da cozinha
29. **Functional** – Funcionalidade da casa
30. **FireplaceQu** – Qualidade da lareira
31. **GarageType** – Localização da garagem
32. **GarageFinish** – Acabamento interno da garagem
33. **GarageQual** – Qualidade da garagem
34. **GarageCond** – Condição da garagem
35. **PavedDrive** – Tipo de pavimentação da garagem
36. **PoolQC** – Qualidade da piscina
37. **Fence** – Qualidade da cerca
38. **MiscFeature** – Característica extra não categorizada
39. **SaleType** – Tipo de venda
40. **SaleCondition** – Condição da venda

#### **Binárias (Sim/Não ou 0/1)**

1. **CentralAir** – Presença de ar-condicionado central (Y/N)

### **Variáveis Quantitativas**

#### **Contínuas**

1. **LotFrontage** – Frente do lote em pés
2. **LotArea** – Área total do lote
3. **MasVnrArea** – Área de revestimento de alvenaria
4. **BsmtFinSF1** – Área acabada tipo 1 do porão
5. **BsmtFinSF2** – Área acabada tipo 2 do porão
6. **BsmtUnfSF** – Área não acabada do porão
7. **TotalBsmtSF** – Área total do porão
8. **1stFlrSF** – Área do primeiro andar
9. **2ndFlrSF** – Área do segundo andar
10. **LowQualFinSF** – Área acabada de baixa qualidade
11. **GrLivArea** – Área útil total acima do solo
12. **GarageArea** – Área da garagem
13. **WoodDeckSF** – Área do deck de madeira
14. **OpenPorchSF** – Área da varanda aberta
15. **EnclosedPorch** – Área da varanda fechada
16. **3SsnPorch** – Área da varanda de três estações
17. **ScreenPorch** – Área da varanda telada
18. **PoolArea** – Área da piscina

#### **Discretas**

1. **MSSubClass** – Classe do edifício (apesar de ser numérica, representa categorias)
2. **OverallQual** – Qualidade geral dos materiais e acabamentos
3. **OverallCond** – Condição geral do imóvel
4. **YearBuilt** – Ano de construção
5. **YearRemodAdd** – Ano da última reforma
6. **BsmtFullBath** – Número de banheiros completos no porão
7. **BsmtHalfBath** – Número de lavabos no porão
8. **FullBath** – Número de banheiros completos acima do solo
9. **HalfBath** – Número de lavabos acima do solo
10. **BedroomAbvGr** – Número de quartos acima do porão
11. **KitchenAbvGr** – Número de cozinhas
12. **TotRmsAbvGrd** – Total de cômodos acima do solo (exclui banheiros)
13. **Fireplaces** – Número de lareiras
14. **GarageCars** – Capacidade da garagem em número de carros
15. **GarageYrBlt** – Ano de construção da garagem
16. **MiscVal** – Valor em dólares das características extras
17. **MoSold** – Mês da venda
18. **YrSold** – Ano da venda

In [10]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.cluster import KMeans
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
import warnings

In [11]:
# Definir caminhos dos arquivos (ajuste conforme necessário)
train_path = "data/train.csv"
test_path = "data/test.csv"

# Carregar os arquivos CSV
train_df = pd.read_csv(train_path)
test_df = pd.read_csv(test_path)

# Exibir as primeiras linhas de cada DataFrame para verificação
print("Train DataFrame (head):")
display(train_df.head())
print("\nTest DataFrame (head):")
display(test_df.head())

# Verificando dimensões
print("\nDimensões do Train:", train_df.shape)
print("Dimensões do Test:", test_df.shape)

Train DataFrame (head):


Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000



Test DataFrame (head):


Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,ScreenPorch,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition
0,1461,20,RH,80.0,11622,Pave,,Reg,Lvl,AllPub,...,120,0,,MnPrv,,0,6,2010,WD,Normal
1,1462,20,RL,81.0,14267,Pave,,IR1,Lvl,AllPub,...,0,0,,,Gar2,12500,6,2010,WD,Normal
2,1463,60,RL,74.0,13830,Pave,,IR1,Lvl,AllPub,...,0,0,,MnPrv,,0,3,2010,WD,Normal
3,1464,60,RL,78.0,9978,Pave,,IR1,Lvl,AllPub,...,0,0,,,,0,6,2010,WD,Normal
4,1465,120,RL,43.0,5005,Pave,,IR1,HLS,AllPub,...,144,0,,,,0,1,2010,WD,Normal



Dimensões do Train: (1460, 81)
Dimensões do Test: (1459, 80)


## 2. Definição e Classificação das Variáveis

In [12]:
# Variável alvo no train_df
target_variable = "SalePrice"

# Variáveis Qualitativas
qualitative = [
    "MSZoning", "Street", "Alley", "LotShape", "LandContour", "Utilities", "LotConfig", "LandSlope", "Neighborhood", 
    "Condition1", "Condition2", "BldgType", "HouseStyle", "RoofStyle", "RoofMatl", "Exterior1st", "Exterior2nd", 
    "MasVnrType", "Foundation", "BsmtQual", "BsmtCond", "BsmtExposure", "BsmtFinType1", "BsmtFinType2", "Heating", 
    "HeatingQC", "Electrical", "KitchenQual", "Functional", "FireplaceQu", "GarageType", "GarageFinish", "GarageQual", 
    "GarageCond", "PavedDrive", "PoolQC", "Fence", "MiscFeature", "SaleType", "SaleCondition"
]

# Variável Binária
binary = ["CentralAir"]

# Variáveis Quantitativas (Contínuas)
quantitative_continuous = [
    "LotFrontage", "LotArea", "MasVnrArea", "BsmtFinSF1", "BsmtFinSF2", "BsmtUnfSF", "TotalBsmtSF", "1stFlrSF", 
    "2ndFlrSF", "LowQualFinSF", "GrLivArea", "GarageArea", "WoodDeckSF", "OpenPorchSF", "EnclosedPorch", "3SsnPorch", 
    "ScreenPorch", "PoolArea"
]

# Variáveis Quantitativas (Discretas)
quantitative_discrete = [
    "MSSubClass", "OverallQual", "OverallCond", "YearBuilt", "YearRemodAdd", "BsmtFullBath", "BsmtHalfBath", "FullBath", 
    "HalfBath", "BedroomAbvGr", "KitchenAbvGr", "TotRmsAbvGrd", "Fireplaces", "GarageCars", "GarageYrBlt", "MiscVal", 
    "MoSold", "YrSold"
]

# Identificação das categorias para variáveis qualitativas (no train_df)
qualitative_categories = {
    var: train_df[var].dropna().unique().tolist() 
    for var in qualitative
}

print("\n===== Categorias Identificadas para Variáveis Qualitativas =====")
i = 0
for var, categories in qualitative_categories.items():
    i += 1
    print(f"{i}. {var}: {categories}")


===== Categorias Identificadas para Variáveis Qualitativas =====
1. MSZoning: ['RL', 'RM', 'C (all)', 'FV', 'RH']
2. Street: ['Pave', 'Grvl']
3. Alley: ['Grvl', 'Pave']
4. LotShape: ['Reg', 'IR1', 'IR2', 'IR3']
5. LandContour: ['Lvl', 'Bnk', 'Low', 'HLS']
6. Utilities: ['AllPub', 'NoSeWa']
7. LotConfig: ['Inside', 'FR2', 'Corner', 'CulDSac', 'FR3']
8. LandSlope: ['Gtl', 'Mod', 'Sev']
9. Neighborhood: ['CollgCr', 'Veenker', 'Crawfor', 'NoRidge', 'Mitchel', 'Somerst', 'NWAmes', 'OldTown', 'BrkSide', 'Sawyer', 'NridgHt', 'NAmes', 'SawyerW', 'IDOTRR', 'MeadowV', 'Edwards', 'Timber', 'Gilbert', 'StoneBr', 'ClearCr', 'NPkVill', 'Blmngtn', 'BrDale', 'SWISU', 'Blueste']
10. Condition1: ['Norm', 'Feedr', 'PosN', 'Artery', 'RRAe', 'RRNn', 'RRAn', 'PosA', 'RRNe']
11. Condition2: ['Norm', 'Artery', 'RRNn', 'Feedr', 'PosN', 'PosA', 'RRAn', 'RRAe']
12. BldgType: ['1Fam', '2fmCon', 'Duplex', 'TwnhsE', 'Twnhs']
13. HouseStyle: ['2Story', '1Story', '1.5Fin', '1.5Unf', 'SFoyer', 'SLvl', '2.5Unf', '2.5F

In [13]:
print(len(qualitative))

40


## **Limpeza e Estruturação**

Para estruturar a limpeza e transformação das variáveis qualitativas do dataset **House Prices - Advanced Regression Techniques**, vamos seguir estes passos:

1. **Traduzir e Renomear Variáveis** – Para tornar os nomes mais intuitivos no Power BI.
2. **Tratar Valores Categóricos** – Criar legendas mais claras e padronizar categorias.
3. **Lidar com Valores Ausentes** – Definir estratégias para `NaN` e valores desconhecidos.

| # | Variável Original | Novo Nome (Português) | Tipo | Descrição | Valores Originais | Valores Padronizados |
| --- | --- | --- | --- | --- | --- | --- |
| 1 | MSZoning | Zoneamento | Qualitativa Categórica | Classificação do zoneamento | RL, RM, C (all), FV, RH | Residencial (Baixa Dens.), Residencial (Média Dens.), Comercial, Vila Planejada, Residencial (Alta Dens.) |
| 2 | Street | Tipo de Rua | Qualitativa Categórica | Tipo de pavimentação da rua | Pave, Grvl | Pavimentada, Cascalho |
| 3 | Alley | Tipo de Viela | Qualitativa Categórica | Tipo de acesso secundário | Grvl, Pave, NaN | Cascalho, Pavimentada, Sem Acesso |
| 4 | LotShape | Formato do Lote | Qualitativa Categórica | Forma geométrica do terreno | Reg, IR1, IR2, IR3 | Regular, Leve Irregular, Moderadamente Irregular, Muito Irregular |
| 5 | LandContour | Nivelamento do Terreno | Qualitativa Categórica | Elevação e nivelamento do terreno | Lvl, Bnk, Low, HLS | Plano, Levemente Inclinado, Baixo, Alto |
| 6 | Utilities | Tipo de Utilidades | Qualitativa Categórica | Infraestrutura de serviços básicos | AllPub, NoSeWa | Todas Disponíveis, Apenas Poço Séptico |
| 7 | LotConfig | Configuração do Lote | Qualitativa Categórica | Arranjo do lote dentro do bairro | Inside, FR2, Corner, CulDSac, FR3 | Interno, Frente Dupla, Esquina, Cul-de-sac, Frente Tripla |
| 8 | LandSlope | Inclinação do Terreno | Qualitativa Categórica | Declividade do terreno | Gtl, Mod, Sev | Suave, Moderada, Íngreme |
| 9 | Neighborhood | Bairro | Qualitativa Categórica | Localização dentro da cidade | Diversos bairros | Nome dos bairros mantidos |
| 10 | Condition1 | Condição Principal | Qualitativa Categórica | Proximidade com rodovias e ferrovias | Norm, Feedr, PosN, Artery, RRAe, RRNe, etc. | Normal, Próximo a Via Alimentadora, Posição Boa, Arterial, Ferrovia (Afastado), Ferrovia (Próximo) |
| 11 | Condition2 | Condição Secundária | Qualitativa Categórica | Segunda proximidade com rodovias e ferrovias | Norm, Artery, RRNe, Feedr, etc. | Normal, Próximo a Via Alimentadora, Arterial, Ferrovia |
| 12 | BldgType | Tipo de Construção | Qualitativa Categórica | Tipo de habitação | 1Fam, 2fmCon, Duplex, TwnhsE, Twnhs | Casa Individual, Casa para Duas Famílias, Duplex, Geminada (Extremidade), Geminada |
| 13 | HouseStyle | Estilo da Casa | Qualitativa Categórica | Estilo arquitetônico | 2Story, 1Story, 1.5Fin, etc. | Sobrado, Térrea, Mezanino Finalizado, Mezanino Inacabado |
| 14 | RoofStyle | Tipo de Telhado | Qualitativa Categórica | Tipo de estrutura do telhado | Gable, Hip, Gambrel, etc. | Duas Águas, Quatro Águas, Mansard, Plano, Inclinado |
| 15 | RoofMatl | Material do Telhado | Qualitativa Categórica | Material de construção do telhado | CompShg, WdShngl, Metal, etc. | Asfalto, Madeira, Metal, Membrana, Concreto |
| 16 | Exterior1st | Revestimento Externo 1 | Qualitativa Categórica | Principal material externo da casa | Diversos materiais | Nome dos materiais mantidos |
| 17 | Exterior2nd | Revestimento Externo 2 | Qualitativa Categórica | Segundo material externo da casa | Diversos materiais | Nome dos materiais mantidos |
| 18 | MasVnrType | Tipo de Alvenaria | Qualitativa Categórica | Material da alvenaria externa | BrkFace, None, Stone, BrkCmn | Tijolo, Nenhum, Pedra, Tijolo Comum |
| 19 | Foundation | Fundação | Qualitativa Categórica | Tipo de fundação do imóvel | PConc, CBlock, BrkTil, Wood, Slab, Stone | Concreto, Blocos de Concreto, Tijolo, Madeira, Laje, Pedra |
| 20 | BsmtQual | Qualidade do Porão | Qualitativa Categórica | Avaliação da qualidade do porão | Gd, TA, Ex, Fa | Boa, Média, Excelente, Fraca |
| 21 | BsmtCond | Condição do Porão | Qualitativa Categórica | Estado de conservação do porão | TA, Gd, Fa, Po | Média, Boa, Fraca, Pobre |
| 22 | BsmtExposure | Exposição do Porão | Qualitativa Categórica | Presença de janelas e iluminação natural | No, Gd, Mn, Av | Nenhuma, Boa, Mínima, Média |
| 23 | BsmtFinType1 | Acabamento do Porão 1 | Qualitativa Categórica | Tipo de acabamento da área principal do porão | GLQ, ALQ, Unf, Rec, BLQ, LwQ | Alto Acabamento, Bom Acabamento, Sem Acabamento, Sala de Recreação, Baixo Acabamento |
| 24 | BsmtFinType2 | Acabamento do Porão 2 | Qualitativa Categórica | Tipo de acabamento da segunda área do porão | Unf, BLQ, ALQ, Rec, LwQ, GLQ | Sem Acabamento, Baixo Acabamento, Bom Acabamento, Sala de Recreação, Alto Acabamento |
| 25 | Heating | Tipo de Aquecimento | Qualitativa Categórica | Sistema de aquecimento do imóvel | GasA, GasW, Grav, Wall, OthW, Floor | Gás Forçado, Gás Radiante, Gravidade, Parede, Outro, Piso |
| 26 | HeatingQC | Qualidade do Aquecimento | Qualitativa Categórica | Avaliação da qualidade do sistema | Ex, Gd, TA, Fa, Po | Excelente, Boa, Média, Fraca, Pobre |
| 27 | Electrical | Sistema Elétrico | Qualitativa Categórica | Tipo de instalação elétrica | SBrkr, FuseF, FuseA, FuseP, Mix | Disjuntor, Fusível Médio, Fusível Alto, Fusível Pequeno, Misto |
| 28 | KitchenQual | Qualidade da Cozinha | Qualitativa Categórica | Avaliação da qualidade da cozinha | Ex, Gd, TA, Fa | Excelente, Boa, Média, Fraca |
| 29 | Functional | Funcionalidade da Casa | Qualitativa Categórica | Nível de funcionalidade do imóvel | Typ, Min1, Maj1, Min2, Mod, Maj2, Sev | Típica, Pequeno Ajuste, Grande Ajuste, Mínima Modificação, Modificada, Grandes Ajustes, Severamente Deficiente |
| 30 | FireplaceQu | Qualidade da Lareira | Qualitativa Categórica | Estado da lareira | TA, Gd, Fa, Ex, Po | Média, Boa, Fraca, Excelente, Pobre |
| 31 | GarageType | Tipo de Garagem | Qualitativa Categórica | Localização e estilo da garagem | Attchd, Detchd, BuiltIn, CarPort, Basment, 2Types | Anexada, Separada, Embutida, Estacionamento, Subsolo, Duplo |
| 32 | GarageFinish | Acabamento Interno da Garagem | Qualitativa Categórica | Acabamento interno do espaço da garagem | RFn, Unf, Fin | Rústico, Sem Acabamento, Acabado |
| 33 | GarageQual | Qualidade da Garagem | Qualitativa Categórica | Estado da estrutura da garagem | TA, Fa, Gd, Ex, Po | Média, Fraca, Boa, Excelente, Pobre |
| 34 | GarageCond | Condição da Garagem | Qualitativa Categórica | Condição geral da garagem | TA, Fa, Gd, Po, Ex | Média, Fraca, Boa, Pobre, Excelente |
| 35 | PavedDrive | Entrada Pavimentada | Qualitativa Categórica | Tipo de pavimentação da entrada | Y, N, P | Sim, Não, Parcial |
| 36 | PoolQC | Qualidade da Piscina | Qualitativa Categórica | Avaliação da piscina (se houver) | Ex, Fa, Gd | Excelente, Fraca, Boa |
| 37 | Fence | Tipo de Cerca | Qualitativa Categórica | Tipo e qualidade da cerca | MnPrv, GdWo, GdPrv, MnWw | Média Privativa, Madeira Boa, Boa Privativa, Média de Arame |
| 38 | MiscFeature | Característica Extra | Qualitativa Categórica | Algum item adicional da propriedade | Shed, Gar2, Othr, TenC | Galpão, Segunda Garagem, Outro, Quadra de Tênis |
| 39 | SaleType | Tipo de Venda | Qualitativa Categórica | Forma de negociação | WD, New, COD, ConLD, ConLI, CWD, ConLw, Con, Oth | Venda Direta, Nova, Venda Judicial, Condições Especiais (Diversas) |
| 40 | SaleCondition | Condição da Venda | Qualitativa Categórica | Condição específica na venda do imóvel | Normal, Abnorml, Partial, AdjLand, Alloca, Family | Normal, Anormal, Parcial, Terreno Adjacente, Alocação, Venda entre Família |
| 41 | ExterQual | Qualidade dos Materiais Externos | Qualitativa Categórica | Avaliação da qualidade dos materiais externos | Ex, Gd, TA, Fa, Po | Excelente, Boa, Média, Razoável, Pobre |
| 42 | ExterCond | Condição dos Materiais Externos | Qualitativa Categórica | Estado de conservação dos materiais externos | Ex, Gd, TA, Fa, Po | Excelente, Boa, Média, Razoável, Pobre |
| 43 | CentralAir | Ar-Condicionado Central | Qualitativa Binária | Possui ou Não Ar-Condicionado Central | Y, N | Sim, Não |
| 44 | LotFrontage | Frente do Lote | Quantitativa Contínua | Largura da frente do lote (pés) |  |  |
| 45 | LotArea | Área Total do Lote | Quantitativa Contínua | Área total do lote (pés²) |  |  |
| 46 | MasVnrArea | Área de Alvenaria | Quantitativa Contínua | Área de revestimento de alvenaria (pés²) |  |  |
| 47 | BsmtFinSF1 | Área Acabada do Porão 1 | Quantitativa Contínua | Área acabada da primeira parte do porão (pés²) |  |  |
| 48 | BsmtFinSF2 | Área Acabada do Porão 2 | Quantitativa Contínua | Área acabada da segunda parte do porão (pés²) |  |  |
| 49 | BsmtUnfSF | Área Não Acabada do Porão | Quantitativa Contínua | Área do porão sem acabamento (pés²) |  |  |
| 50 | TotalBsmtSF | Área Total do Porão | Quantitativa Contínua | Soma das áreas do porão (pés²) |  |  |
| 51 | 1stFlrSF | Área do Primeiro Andar | Quantitativa Contínua | Área do primeiro andar da casa (pés²) |  |  |
| 52 | 2ndFlrSF | Área do Segundo Andar | Quantitativa Contínua | Área do segundo andar da casa (pés²) |  |  |
| 53 | LowQualFinSF | Área de Baixa Qualidade | Quantitativa Contínua | Área acabada de baixa qualidade (pés²) |  |  |
| 54 | GrLivArea | Área Útil Acima do Solo | Quantitativa Contínua | Área útil da casa acima do nível do solo (pés²) |  |  |
| 55 | GarageArea | Área da Garagem | Quantitativa Contínua | Área total da garagem (pés²) |  |  |
| 56 | WoodDeckSF | Área do Deck de Madeira | Quantitativa Contínua | Área do deck externo feito de madeira (pés²) |  |  |
| 57 | OpenPorchSF | Área da Varanda Aberta | Quantitativa Contínua | Área da varanda aberta (pés²) |  |  |
| 58 | EnclosedPorch | Área da Varanda Fechada | Quantitativa Contínua | Área da varanda fechada (pés²) |  |  |
| 59 | 3SsnPorch | Área da Varanda de Três Estações | Quantitativa Contínua | Área da varanda coberta para três estações do ano (pés²) |  |  |
| 60 | ScreenPorch | Área da Varanda Telada | Quantitativa Contínua | Área da varanda coberta com tela de proteção (pés²) |  |  |
| 61 | PoolArea | Área da Piscina | Quantitativa Contínua | Área ocupada pela piscina (pés²) |  |  |
| 62 | SalePrice | Preço de Venda | Quantitativa Contínua | Valor final da venda da propriedade (dólares) |  |  |
| 63 | MSSubClass | Classe do Edifício | Quantitativa Discreta | Tipo de construção residencial |  |  |
| 64 | OverallQual | Qualidade Geral | Quantitativa Discreta | Avaliação da qualidade dos materiais (1 a 10) |  |  |
| 65 | OverallCond | Condição Geral | Quantitativa Discreta | Estado de conservação do imóvel (1 a 10) |  |  |
| 66 | YearBuilt | Ano de Construção | Quantitativa Discreta | Ano em que o imóvel foi construído |  |  |
| 67 | YearRemodAdd | Ano da Última Reforma | Quantitativa Discreta | Último ano de reforma ou modificação |  |  |
| 68 | BsmtFullBath | Banheiros Completos no Porão | Quantitativa Discreta | Número de banheiros completos |  |  |
| 69 | BsmtHalfBath | Lavabos no Porão | Quantitativa Discreta | Número de lavabos no porão |  |  |
| 70 | FullBath | Banheiros Completos Acima do Solo | Quantitativa Discreta | Número de banheiros completos |  |  |
| 71 | HalfBath | Lavabos Acima do Solo | Quantitativa Discreta | Número de lavabos |  |  |
| 72 | BedroomAbvGr | Quartos Acima do Porão | Quantitativa Discreta | Número de quartos |  |  |
| 73 | KitchenAbvGr | Número de Cozinhas | Quantitativa Discreta | Quantidade de cozinhas |  |  |
| 74 | TotRmsAbvGrd | Total de Cômodos Acima do Solo | Quantitativa Discreta | Exclui banheiros |  |  |
| 75 | Fireplaces | Número de Lareiras | Quantitativa Discreta | Quantidade de lareiras |  |  |
| 76 | GarageCars | Capacidade da Garagem | Quantitativa Discreta | Número de carros que cabem na garagem |  |  |
| 77 | GarageYrBlt | Ano da Construção da Garagem | Quantitativa Discreta | Ano de construção da garagem |  |  |
| 78 | MiscVal | Valor de Características Extras | Quantitativa Discreta | Valor em dólares de itens adicionais |  |  |
| 79 | MoSold | Mês da Venda | Quantitativa Discreta | Mês em que o imóvel foi vendido |  |  |
| 80 | YrSold | Ano da Venda | Quantitativa Discreta | Ano em que o imóvel foi vendido |  |  |
| 81 | Id | Identificador do Imóvel | Quantitativa Discreta | Número de identificação único no dataset |  |  |

In [14]:
def renomear_colunas(df):
    """
    Função que renomeia as 81 colunas do dataset House Prices.
    Se alguma coluna original não for encontrada, será informada no print
    e o processo seguirá para as demais.
    
    Retorna:
        df (DataFrame) com colunas renomeadas.
    """
    # Dicionário com todas as 81 variáveis do dataset
    # Formato: {nome_original: "novo_nome_em_portugues"}
    mapeamento_colunas = {
        # 1 a 40 (Qualitativas)
        "MSZoning": "Zoneamento",
        "Street": "Tipo de Rua",
        "Alley": "Tipo de Viela",
        "LotShape": "Formato do Lote",
        "LandContour": "Nivelamento do Terreno",
        "Utilities": "Tipo de Utilidades",
        "LotConfig": "Configuração do Lote",
        "LandSlope": "Inclinação do Terreno",
        "Neighborhood": "Bairro",
        "Condition1": "Condição Principal",
        "Condition2": "Condição Secundária",
        "BldgType": "Tipo de Construção",
        "HouseStyle": "Estilo da Casa",
        "RoofStyle": "Tipo de Telhado",
        "RoofMatl": "Material do Telhado",
        "Exterior1st": "Revestimento Externo 1",
        "Exterior2nd": "Revestimento Externo 2",
        "MasVnrType": "Tipo de Alvenaria",
        "Foundation": "Fundação",
        "BsmtQual": "Qualidade do Porão",
        "BsmtCond": "Condição do Porão",
        "BsmtExposure": "Exposição do Porão",
        "BsmtFinType1": "Acabamento do Porão 1",
        "BsmtFinType2": "Acabamento do Porão 2",
        "Heating": "Tipo de Aquecimento",
        "HeatingQC": "Qualidade do Aquecimento",
        "Electrical": "Sistema Elétrico",
        "KitchenQual": "Qualidade da Cozinha",
        "Functional": "Funcionalidade da Casa",
        "FireplaceQu": "Qualidade da Lareira",
        "GarageType": "Tipo de Garagem",
        "GarageFinish": "Acabamento Interno da Garagem",
        "GarageQual": "Qualidade da Garagem",
        "GarageCond": "Condição da Garagem",
        "PavedDrive": "Entrada Pavimentada",
        "PoolQC": "Qualidade da Piscina",
        "Fence": "Tipo de Cerca",
        "MiscFeature": "Característica Extra",
        "SaleType": "Tipo de Venda",
        "SaleCondition": "Condição da Venda",
        
        # 41 (Binária)
        "CentralAir": "Ar-Condicionado Central",
        
        # 42 a 59 (Contínuas)
        "LotFrontage": "Frente do Lote",
        "LotArea": "Área Total do Lote",
        "MasVnrArea": "Área de Alvenaria",
        "BsmtFinSF1": "Área Acabada do Porão 1",
        "BsmtFinSF2": "Área Acabada do Porão 2",
        "BsmtUnfSF": "Área Não Acabada do Porão",
        "TotalBsmtSF": "Área Total do Porão",
        "1stFlrSF": "Área do Primeiro Andar",
        "2ndFlrSF": "Área do Segundo Andar",
        "LowQualFinSF": "Área de Baixa Qualidade",
        "GrLivArea": "Área Útil Acima do Solo",
        "GarageArea": "Área da Garagem",
        "WoodDeckSF": "Área do Deck de Madeira",
        "OpenPorchSF": "Área da Varanda Aberta",
        "EnclosedPorch": "Área da Varanda Fechada",
        "3SsnPorch": "Área da Varanda de Três Estações",
        "ScreenPorch": "Área da Varanda Telada",
        "PoolArea": "Área da Piscina",
        
        # 60 a 77 (Discretas)
        "MSSubClass": "Classe do Edifício",
        "OverallQual": "Qualidade Geral",
        "OverallCond": "Condição Geral",
        "YearBuilt": "Ano de Construção",
        "YearRemodAdd": "Ano da Última Reforma",
        "BsmtFullBath": "Banheiros Completos no Porão",
        "BsmtHalfBath": "Lavabos no Porão",
        "FullBath": "Banheiros Completos Acima do Solo",
        "HalfBath": "Lavabos Acima do Solo",
        "BedroomAbvGr": "Quartos Acima do Porão",
        "KitchenAbvGr": "Número de Cozinhas",
        "TotRmsAbvGrd": "Total de Cômodos Acima do Solo",
        "Fireplaces": "Número de Lareiras",
        "GarageCars": "Capacidade da Garagem",
        "GarageYrBlt": "Ano da Construção da Garagem",
        "MiscVal": "Valor de Características Extras",
        "MoSold": "Mês da Venda",
        "YrSold": "Ano da Venda",
        
        # 78 e 79 (Novas Qualitativas)
        "ExterQual": "Qualidade dos Materiais Externos",
        "ExterCond": "Condição dos Materiais Externos",
        
        # 80 e 81 (Extras)
        "Id": "Identificador do Imóvel",
        "SalePrice": "Preço de Venda"
    }
    
    # Contador para checar quantas colunas foram renomeadas com sucesso
    renomeadas_sucesso = 0

    for original, novo in mapeamento_colunas.items():
        if original in df.columns:
            df.rename(columns={original: novo}, inplace=True)
            renomeadas_sucesso += 1
            print(f"Renomeado: {original} -> {novo}")
        else:
            print(f"[AVISO] Coluna '{original}' não encontrada no DataFrame. Pulando...")
    
    print(f"\nTotal de colunas renomeadas com sucesso: {renomeadas_sucesso}")
    print(f"Total esperado de colunas para renomear: {len(mapeamento_colunas)}")
    print("Renomeação de colunas concluída!\n")
    
    return df

In [15]:
def renomear_categorias(df):
    """
    Função que renomeia (substitui) as categorias das variáveis qualitativas,
    já considerando o novo nome em Português (após renomear_colunas).
    Se a coluna não for encontrada, será avisado no print.

    Retorna:
        df (DataFrame) com categorias renomeadas.
    """

    # Dicionário de mapeamento das variáveis qualitativas:
    # Observação: as chaves (colunas) devem ser os *NOMES EM PORTUGUÊS*,
    # pois a renomeação de colunas já foi feita na função 'renomear_colunas'.
    categorias_qualitativas = {
        #  1) MSZoning -> Zoneamento
        "Zoneamento": {
            "RL": "Residencial (Baixa Dens.)",
            "RM": "Residencial (Média Dens.)",
            "C (all)": "Comercial",
            "FV": "Vila Planejada",
            "RH": "Residencial (Alta Dens.)"
        },
        #  2) Street -> Tipo de Rua
        "Tipo de Rua": {
            "Pave": "Pavimentada",
            "Grvl": "Cascalho"
        },
        #  3) Alley -> Tipo de Viela
        "Tipo de Viela": {
            "Grvl": "Cascalho",
            "Pave": "Pavimentada"
            # NaN -> "Sem Acesso" (tratado dentro da função)
        },
        #  4) LotShape -> Formato do Lote
        "Formato do Lote": {
            "Reg": "Regular",
            "IR1": "Leve Irregular",
            "IR2": "Moderadamente Irregular",
            "IR3": "Muito Irregular"
        },
        #  5) LandContour -> Nivelamento do Terreno
        "Nivelamento do Terreno": {
            "Lvl": "Plano",
            "Bnk": "Levemente Inclinado",
            "Low": "Baixo",
            "HLS": "Alto"
        },
        #  6) Utilities -> Tipo de Utilidades
        "Tipo de Utilidades": {
            "AllPub": "Todas Disponíveis",
            "NoSeWa": "Apenas Poço Séptico"
        },
        #  7) LotConfig -> Configuração do Lote
        "Configuração do Lote": {
            "Inside": "Interno",
            "FR2": "Frente Dupla",
            "Corner": "Esquina",
            "CulDSac": "Cul-de-sac",
            "FR3": "Frente Tripla"
        },
        #  8) LandSlope -> Inclinação do Terreno
        "Inclinação do Terreno": {
            "Gtl": "Suave",
            "Mod": "Moderada",
            "Sev": "Íngreme"
        },
        #  9) Neighborhood -> Bairro
        "Bairro": {
            # Sem mapeamento específico, pois mantemos nomes originais dos bairros
        },
        # 10) Condition1 -> Condição Principal
        "Condição Principal": {
            "Norm": "Normal",
            "Feedr": "Próximo a Via Alimentadora",
            "PosN": "Posição Boa",
            "Artery": "Arterial",
            "RRAe": "Ferrovia (Afastado)",
            "RRAn": "Ferrovia (Próximo)",
            "RRNe": "Ferrovia (Próximo)"
        },
        # 11) Condition2 -> Condição Secundária
        "Condição Secundária": {
            "Norm": "Normal",
            "Artery": "Arterial",
            "RRNe": "Ferrovia",
            "Feedr": "Próximo a Via Alimentadora"
        },
        # 12) BldgType -> Tipo de Construção
        "Tipo de Construção": {
            "1Fam": "Casa Individual",
            "2fmCon": "Casa para Duas Famílias",
            "Duplex": "Duplex",
            "TwnhsE": "Geminada (Extremidade)",
            "Twnhs": "Geminada"
        },
        # 13) HouseStyle -> Estilo da Casa
        "Estilo da Casa": {
            "2Story": "Sobrado",
            "1Story": "Térrea",
            "1.5Fin": "Mezanino Finalizado",
            "1.5Unf": "Mezanino Inacabado"
            # etc.
        },
        # 14) RoofStyle -> Tipo de Telhado
        "Tipo de Telhado": {
            "Gable": "Duas Águas",
            "Hip": "Quatro Águas",
            "Gambrel": "Mansard"
            # etc.
        },
        # 15) RoofMatl -> Material do Telhado
        "Material do Telhado": {
            "CompShg": "Asfalto",
            "WdShngl": "Madeira",
            "Metal": "Metal"
            # etc.
        },
        # 16) Exterior1st -> Revestimento Externo 1
        # Possui vários materiais distintos; se não houver substituições específicas,
        # deixaremos mapeamento vazio. Mesmo assim, entra na contagem das 43 variáveis.
        "Revestimento Externo 1": {},
        # 17) Exterior2nd -> Revestimento Externo 2
        "Revestimento Externo 2": {},
        # 18) MasVnrType -> Tipo de Alvenaria
        "Tipo de Alvenaria": {
            "BrkFace": "Tijolo",
            "None": "Nenhum",
            "Stone": "Pedra",
            "BrkCmn": "Tijolo Comum"
        },
        # 19) Foundation -> Fundação
        "Fundação": {
            "PConc": "Concreto",
            "CBlock": "Blocos de Concreto",
            "BrkTil": "Tijolo",
            "Wood": "Madeira",
            "Slab": "Laje",
            "Stone": "Pedra"
        },
        # 20) BsmtQual -> Qualidade do Porão
        "Qualidade do Porão": {
            "Gd": "Boa",
            "TA": "Média",
            "Ex": "Excelente",
            "Fa": "Fraca"
        },
        # 21) BsmtCond -> Condição do Porão
        "Condição do Porão": {
            "TA": "Média",
            "Gd": "Boa",
            "Fa": "Fraca",
            "Po": "Pobre"
        },
        # 22) BsmtExposure -> Exposição do Porão
        "Exposição do Porão": {
            "No": "Nenhuma",
            "Gd": "Boa",
            "Mn": "Mínima",
            "Av": "Média"
        },
        # 23) BsmtFinType1 -> Acabamento do Porão 1
        "Acabamento do Porão 1": {
            "GLQ": "Alto Acabamento",
            "ALQ": "Bom Acabamento",
            "Unf": "Sem Acabamento",
            "Rec": "Sala de Recreação",
            "BLQ": "Baixo Acabamento",
            "LwQ": "Baixo Acabamento"
        },
        # 24) BsmtFinType2 -> Acabamento do Porão 2
        "Acabamento do Porão 2": {
            "Unf": "Sem Acabamento",
            "BLQ": "Baixo Acabamento",
            "ALQ": "Bom Acabamento",
            "Rec": "Sala de Recreação",
            "LwQ": "Baixo Acabamento",
            "GLQ": "Alto Acabamento"
        },
        # 25) Heating -> Tipo de Aquecimento
        "Tipo de Aquecimento": {
            "GasA": "Gás Forçado",
            "GasW": "Gás Radiante",
            "Grav": "Gravidade",
            "Wall": "Parede",
            "OthW": "Outro",
            "Floor": "Piso"
        },
        # 26) HeatingQC -> Qualidade do Aquecimento
        "Qualidade do Aquecimento": {
            "Ex": "Excelente",
            "Gd": "Boa",
            "TA": "Média",
            "Fa": "Fraca",
            "Po": "Pobre"
        },
        # 27) Electrical -> Sistema Elétrico
        "Sistema Elétrico": {
            "SBrkr": "Disjuntor",
            "FuseF": "Fusível Médio",
            "FuseA": "Fusível Alto",
            "FuseP": "Fusível Pequeno",
            "Mix": "Misto"
        },
        # 28) KitchenQual -> Qualidade da Cozinha
        "Qualidade da Cozinha": {
            "Ex": "Excelente",
            "Gd": "Boa",
            "TA": "Média",
            "Fa": "Fraca"
        },
        # 29) Functional -> Funcionalidade da Casa
        "Funcionalidade da Casa": {
            "Typ": "Típica",
            "Min1": "Pequeno Ajuste",
            "Maj1": "Grande Ajuste",
            "Min2": "Mínima Modificação",
            "Mod": "Modificada",
            "Maj2": "Grandes Ajustes",
            "Sev": "Severamente Deficiente"
        },
        # 30) FireplaceQu -> Qualidade da Lareira
        "Qualidade da Lareira": {
            "TA": "Média",
            "Gd": "Boa",
            "Fa": "Fraca",
            "Ex": "Excelente",
            "Po": "Pobre"
        },
        # 31) GarageType -> Tipo de Garagem
        "Tipo de Garagem": {
            "Attchd": "Anexada",
            "Detchd": "Separada",
            "BuiltIn": "Embutida",
            "CarPort": "Estacionamento",
            "Basment": "Subsolo",
            "2Types": "Duplo"
        },
        # 32) GarageFinish -> Acabamento Interno da Garagem
        "Acabamento Interno da Garagem": {
            "RFn": "Rústico",
            "Unf": "Sem Acabamento",
            "Fin": "Acabado"
        },
        # 33) GarageQual -> Qualidade da Garagem
        "Qualidade da Garagem": {
            "TA": "Média",
            "Fa": "Fraca",
            "Gd": "Boa",
            "Ex": "Excelente",
            "Po": "Pobre"
        },
        # 34) GarageCond -> Condição da Garagem
        "Condição da Garagem": {
            "TA": "Média",
            "Fa": "Fraca",
            "Gd": "Boa",
            "Po": "Pobre",
            "Ex": "Excelente"
        },
        # 35) PavedDrive -> Entrada Pavimentada
        "Entrada Pavimentada": {
            "Y": "Sim",
            "N": "Não",
            "P": "Parcial"
        },
        # 36) PoolQC -> Qualidade da Piscina
        "Qualidade da Piscina": {
            "Ex": "Excelente",
            "Fa": "Fraca",
            "Gd": "Boa"
        },
        # 37) Fence -> Tipo de Cerca
        "Tipo de Cerca": {
            "MnPrv": "Média Privativa",
            "GdWo": "Madeira Boa",
            "GdPrv": "Boa Privativa",
            "MnWw": "Média de Arame"
        },
        # 38) MiscFeature -> Característica Extra
        "Característica Extra": {
            "Shed": "Galpão",
            "Gar2": "Segunda Garagem",
            "Othr": "Outro",
            "TenC": "Quadra de Tênis"
        },
        # 39) SaleType -> Tipo de Venda
        "Tipo de Venda": {
            "WD": "Venda Direta",
            "New": "Nova",
            "COD": "Venda Judicial",
            "ConLD": "Condições Especiais (Diversas)",
            "ConLI": "Condições Especiais (Diversas)",
            "CWD": "Condições Especiais (Diversas)",
            "ConLw": "Condições Especiais (Diversas)",
            "Con": "Condições Especiais (Diversas)",
            "Oth": "Condições Especiais (Diversas)"
        },
        # 40) SaleCondition -> Condição da Venda
        "Condição da Venda": {
            "Normal": "Normal",
            "Abnorml": "Anormal",
            "Partial": "Parcial",
            "AdjLand": "Terreno Adjacente",
            "Alloca": "Alocação",
            "Family": "Venda entre Família"
        },
        # 41) ExterQual -> Qualidade dos Materiais Externos
        "Qualidade dos Materiais Externos": {
            "Ex": "Excelente",
            "Gd": "Boa",
            "TA": "Média",
            "Fa": "Razoável",
            "Po": "Pobre"
        },
        # 42) ExterCond -> Condição dos Materiais Externos
        "Condição dos Materiais Externos": {
            "Ex": "Excelente",
            "Gd": "Boa",
            "TA": "Média",
            "Fa": "Razoável",
            "Po": "Pobre"
        },
        # 43) CentralAir -> Ar-Condicionado Central
        "Ar-Condicionado Central": {
            "Y": "Sim",
            "N": "Não"
        }
    }

    # Verifica a quantidade de colunas qualitativas que estamos mapeando
    total_esperado = 43  # conforme solicitado
    total_no_dicionario = len(categorias_qualitativas)

    print(f"Total de colunas qualitativas no dicionário: {total_no_dicionario}")
    print(f"Total esperado de colunas qualitativas: {total_esperado}")

    if total_no_dicionario != total_esperado:
        print(
            f"[ATENÇÃO] O dicionário possui {total_no_dicionario} chaves, "
            f"mas eram esperadas {total_esperado}.\n"
        )

    # Contador de quantas colunas foram realmente encontradas e mapeadas no DF
    encontradas_e_mapeadas = 0

    # Substituição das categorias em cada coluna qualitativa
    for coluna_pt, mapa in categorias_qualitativas.items():
        if coluna_pt in df.columns:
            # Caso especial: Alley (Tipo de Viela) -> fillna("Sem Acesso")
            if coluna_pt == "Tipo de Viela":
                df[coluna_pt] = df[coluna_pt].fillna("Sem Acesso")

            # Replace dos valores
            df[coluna_pt].replace(mapa, inplace=True)
            encontradas_e_mapeadas += 1
            print(f"Categorias renomeadas na coluna '{coluna_pt}'.")
        else:
            print(f"[AVISO] Coluna '{coluna_pt}' não encontrada no DataFrame. Pulando...")

    print(f"\nTotal de colunas qualitativas mapeadas no DataFrame: {encontradas_e_mapeadas}")
    print("Renomeação de categorias concluída!\n")
    return df

In [16]:
train_df_renomear_colunas = renomear_colunas(train_df)
train_df_transform = renomear_categorias(train_df_renomear_colunas)

Renomeado: MSZoning -> Zoneamento
Renomeado: Street -> Tipo de Rua
Renomeado: Alley -> Tipo de Viela
Renomeado: LotShape -> Formato do Lote
Renomeado: LandContour -> Nivelamento do Terreno
Renomeado: Utilities -> Tipo de Utilidades
Renomeado: LotConfig -> Configuração do Lote
Renomeado: LandSlope -> Inclinação do Terreno
Renomeado: Neighborhood -> Bairro
Renomeado: Condition1 -> Condição Principal
Renomeado: Condition2 -> Condição Secundária
Renomeado: BldgType -> Tipo de Construção
Renomeado: HouseStyle -> Estilo da Casa
Renomeado: RoofStyle -> Tipo de Telhado
Renomeado: RoofMatl -> Material do Telhado
Renomeado: Exterior1st -> Revestimento Externo 1
Renomeado: Exterior2nd -> Revestimento Externo 2
Renomeado: MasVnrType -> Tipo de Alvenaria
Renomeado: Foundation -> Fundação
Renomeado: BsmtQual -> Qualidade do Porão
Renomeado: BsmtCond -> Condição do Porão
Renomeado: BsmtExposure -> Exposição do Porão
Renomeado: BsmtFinType1 -> Acabamento do Porão 1
Renomeado: BsmtFinType2 -> Acabament

In [17]:
train_df_transform.to_excel("train_df_transform.xlsx", index=False)