# Predição de Preços de Casas

Bem-vindo(a) ao meu notebook de predição de preços de casas! Neste projeto, utilizarei técnicas de aprendizado de máquina para prever os preços de imóveis com base em suas características. O objetivo é criar um modelo que possa prever com precisão o preço de uma casa com base em um conjunto de variáveis, como área, número de quartos, localização e outros fatores relevantes.

O conjunto de dados utilizado neste projeto é composto por uma amostra de casas vendidas em uma determinada região, com informações como preço de venda, tamanho, número de quartos, banheiros, entre outras características. Com base nessas informações, desenvolveremos um modelo que possa prever o preço de uma casa com base em suas características.

Ao longo do notebook, explorarei os dados, realizarei a limpeza e transformação dos dados, bem como a engenharia de recursos para criar variáveis úteis para a modelagem. Em seguida, utilizarei algoritmos de regressão para treinar e avaliar o modelo. Por fim, apresentarei as conclusões e os resultados obtidos, bem como sugestões para melhorias futuras.

Espero que este projeto seja útil e informativo para você, e que possa ajudá-lo(a) a entender melhor como criar modelos de aprendizado de máquina para prever preços de casas. Vamos começar!

![Houses](https://cdn.thecoolist.com/wp-content/uploads/2022/01/Types-of-Houses.png)

# 1 - Compreensão do problema

O seu problema envolve a análise de uma base de dados contendo várias variáveis e o objetivo é criar um **modelo de aprendizado de máquina** capaz de prever os preços de casas com base nessas variáveis. Para isso, você precisa realizar a análise exploratória dos dados, verificar a qualidade dos dados e realizar o pré-processamento necessário para preparar os dados para a modelagem. Em seguida, deve-se desenvolver um modelo de regressão para prever os preços das casas e avaliar a eficácia do modelo utilizando técnicas de validação cruzada ou outras técnicas de avaliação de modelos. Por fim, deve-se apresentar os resultados de uma forma clara e objetiva, permitindo que os stakeholders possam tomar decisões informadas com base nas previsões do modelo.

# 2 - Coleta de Dados

In [1]:
# Módulos necessários
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

In [2]:
# Coletando a base de dados para treino
train_data = pd.read_csv('/home/jdspy/Datasets/train.csv')

# Coletando a base de dados para teste
test_data = pd.read_csv('/home/jdspy/Datasets/test.csv')

In [3]:
# Visualizando o dataset de treino
train_data.head(3)

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500


In [4]:
# Visualizando o dataset de teste
test_data.head(3)

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,ScreenPorch,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition
0,1461,20,RH,80.0,11622,Pave,,Reg,Lvl,AllPub,...,120,0,,MnPrv,,0,6,2010,WD,Normal
1,1462,20,RL,81.0,14267,Pave,,IR1,Lvl,AllPub,...,0,0,,,Gar2,12500,6,2010,WD,Normal
2,1463,60,RL,74.0,13830,Pave,,IR1,Lvl,AllPub,...,0,0,,MnPrv,,0,3,2010,WD,Normal


# 3 - Análise Exploratória de Dados

Campos de dados

Aqui está uma versão breve do que você encontrará no arquivo de descrição de dados.

- SalePrice - o preço de venda da propriedade em dólares. Esta é a variável alvo que você está tentando prever.

- MSSubClass: A classe do edifício

- MSZoning: A classificação geral de zoneamento

- LotFrontage: Pés lineares de rua conectados à propriedade

- LotArea: Tamanho do lote em pés quadrados

- Street: Tipo de acesso à estrada

- Alley: Tipo de acesso à rua lateral

- LotShape: Forma geral da propriedade

- LandContour: Planicidade da propriedade

- Utilities: Tipo de utilidades disponíveis

- LotConfig: Configuração do lote

- LandSlope: Declive da propriedade

- Neighborhood: Localizações físicas dentro dos limites da cidade de Ames

- Condition1: Proximidade da estrada principal ou ferrovia

- Condition2: Proximidade da estrada principal ou ferrovia (se houver uma segunda)

- BldgType: Tipo de habitação

- HouseStyle: Estilo de habitação

- OverallQual: Qualidade geral do material e acabamento

- OverallCond: Classificação geral da condição

- YearBuilt: Data original de construção

- YearRemodAdd: Data da remodelação

- RoofStyle: Tipo de telhado

- RoofMatl: Material do telhado

- Exterior1st: Cobertura exterior da casa

- Exterior2nd: Cobertura exterior da casa (se mais de um material)

- MasVnrType: Tipo de revestimento de alvenaria

- MasVnrArea: Área do revestimento de alvenaria em pés quadrados

- ExterQual: Qualidade do material exterior

- ExterCond: Condição atual do material no exterior

- Foundation: Tipo de fundação

- BsmtQual: Altura do porão

- BsmtCond: Condição geral do porão

- BsmtExposure: Paredes do porão com saída ou jardim

- BsmtFinType1: Qualidade da área do porão acabada do tipo 1

- BsmtFinSF1: Pés quadrados acabados do tipo 1

- BsmtFinType2: Qualidade da segunda área acabada (se presente)

- BsmtFinSF2: Pés quadrados acabados do tipo 2

- BsmtUnfSF: Pés quadrados inacabados da área do porão

- TotalBsmtSF: Pés quadrados totais da área do porão

- Heating: Tipo de aquecimento

- HeatingQC: Qualidade e condição do aquecimento

- CentralAir: Ar-condicionado central

- Electrical: Sistema elétrico

- 1stFlrSF: Pés quadrados do primeiro andar

- 2ndFlrSF: Pés quadrados do segundo andar

- LowQualFinSF: Pés quadrados de acabamento de baixa qualidade (todos os andares)

- GrLivArea: Pés quadrados da área de vida acima do nível do solo

- BsmtFullBath: Banheiros completos no porão

- BsmtHalfBath: Meio banheiro no porão

- FullBath: Banheiros completos acima do nível do solo

- HalfBath: Meio banho acima do nível do solo

- Bedroom: Número de quartos acima do nível do porão

- Kitchen: Número de cozinhas

- KitchenQual: Qualidade da cozinha

- TotRmsAbvGrd: Total de cômodos acima do nível do solo (não inclui banheiros)

- Functional: Avaliação da funcionalidade da casa

- Fireplaces: Número de lareiras

- FireplaceQu: Qualidade da lareira

- GarageType: Localização da garagem

- GarageYrBlt: Ano em que a garagem foi construída

- GarageFinish: Acabamento interno da garagem

- GarageCars: Capacidade da garagem em número de carros

- GarageArea: Tamanho da garagem em pés quadrados

- GarageQual: Qualidade da garagem

- GarageCond: Condição da garagem

- PavedDrive: Caminho de entrada pavimentado

- WoodDeckSF: Área do deck de madeira em pés quadrados

- OpenPorchSF: Área da varanda aberta em pés quadrados

- EnclosedPorch: Área da varanda fechada em pés quadrados

- 3SsnPorch: Área da varanda de três estações em pés quadrados

- ScreenPorch: Área da varanda com tela em pés quadrados

- PoolArea: Área da piscina em pés quadrados

- PoolQC: Qualidade da piscina

- Fence: Qualidade do cercado

- MiscFeature: Característica diversa não abrangida em outras categorias

- MiscVal: Valor em dólares da característica diversa

- MoSold: Mês de venda

- YrSold: Ano de venda

- SaleType: Tipo de venda

- SaleCondition: Condição da venda

In [None]:
# Quantidade de variáveis
