In [1]:
# Importando bibliotecas
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np
from sklearn.impute import SimpleImputer
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import StandardScaler

#Análise e tratamento de dados do arquivo Train

Aqui está uma explicação para cada coluna do arquivo train:

- **Id:** Identificação única para cada registro.
- **MSSubClass:** Identifica o tipo de moradia envolvida na venda com base em categorias numéricas.
- **MSZoning:** Classificação geral de zoneamento do local.
- **LotFrontage:** Comprimento linear da rua conectada à propriedade.
- **LotArea:** Tamanho do lote em pés quadrados.
- **Street:** Tipo de acesso rodoviário à propriedade (Grvl para cascalho, Pave para pavimentado).
- **Alley:** Tipo de acesso ao beco (Grvl para cascalho, Pave para pavimentado, NA para nenhum acesso).
- **LotShape:** Forma geral da propriedade.
- **LandContour:** Planura da propriedade.
- **Utilities:** Tipo de utilitários disponíveis.
- **LotConfig:** Configuração do lote.
- **LandSlope:** Inclinação da propriedade.
- **Neighborhood:** Localização física dentro dos limites da cidade de Ames.
- **Condition1:** Proximidade de várias condições (1).
- **Condition2:** Proximidade de várias condições (2), se mais de uma estiver presente.
- **BldgType:** Tipo de moradia.
- **HouseStyle:** Estilo da moradia.
- **OverallQual:** Avalia o material geral e acabamento da casa.
- **OverallCond:** Avalia a condição geral da casa.
- **YearBuilt:** Data original de construção.
- **YearRemodAdd:** Data de remodelação (igual à data de construção se não houver remodelação ou adições).
- **RoofStyle:** Tipo de telhado.
- **RoofMatl:** Material do telhado.
- **Exterior1st:** Cobertura exterior da casa (primeiro material).
- **Exterior2nd:** Cobertura exterior da casa (segundo material, se houver mais de um).
- **MasVnrType:** Tipo de revestimento de alvenaria.
- **MasVnrArea:** Área de revestimento de alvenaria em pés quadrados.
- **ExterQual:** Avalia a qualidade do material exterior.
- **ExterCond:** Avalia a condição presente do material exterior.
- **Foundation:** Tipo de fundação.
- **BsmtQual:** Avalia a altura do porão.
- **BsmtCond:** Avalia a condição geral do porão.
- **BsmtExposure:** Refere-se às paredes do porão do nível do solo.
- **BsmtFinType1:** Classificação da área de porão acabada.
- **BsmtFinSF1:** Pés quadrados acabados do tipo 1 do porão.
- **BsmtFinType2:** Classificação da segunda área de porão acabada (se houver).
- **BsmtFinSF2:** Pés quadrados acabados do tipo 2 do porão.
- **BsmtUnfSF:** Pés quadrados não acabados do porão.
- **TotalBsmtSF:** Pés quadrados totais do porão.
- **Heating:** Tipo de sistema de aquecimento.
- **HeatingQC:** Qualidade e condição do sistema de aquecimento.
- **CentralAir:** Ar condicionado central.
- **Electrical:** Sistema elétrico.
- **1stFlrSF:** Pés quadrados do primeiro andar.
- **2ndFlrSF:** Pés quadrados do segundo andar.
- **LowQualFinSF:** Pés quadrados acabados de baixa qualidade (todos os andares).
- **GrLivArea:** Área de estar acima do nível do solo.
- **BsmtFullBath:** Banheiros completos no porão.
- **BsmtHalfBath:** Banheiros parciais no porão.
- **FullBath:** Banheiros completos acima do nível do solo.
- **HalfBath:** Banheiros parciais acima do nível do solo.
- **BedroomAbvGr:** Quartos acima do nível do solo (não inclui quartos no porão).
- **KitchenAbvGr:** Cozinhas acima do nível do solo.
- **KitchenQual:** Qualidade da cozinha.
- **TotRmsAbvGrd:** Total de quartos acima do nível do solo (não inclui banheiros).
- **Functional:** Funcionalidade da casa.
- **Fireplaces:** Número de lareiras.
- **FireplaceQu:** Qualidade da lareira.
- **GarageType:** Localização da garagem.
- **GarageYrBlt:** Ano de construção da garagem.
- **GarageFinish:** Acabamento interior da garagem.
- **GarageCars:** Tamanho da garagem em capacidade de carros.
- **GarageArea:** Tamanho da garagem em pés quadrados.
- **GarageQual:** Qualidade da garagem.
- **GarageCond:** Condição da garagem.
- **PavedDrive:** Entrada pavimentada.
- **WoodDeckSF:** Área do deque de madeira em pés quadrados.
- **OpenPorchSF:** Área da varanda aberta em pés quadrados.
- **EnclosedPorch:** Área da varanda fechada em pés quadrados.
- **3SsnPorch:** Área da varanda de três estações em pés quadrados.
- **ScreenPorch:** Área da varanda com tela em pés quadrados.
- **PoolArea:** Área da piscina em pés quadrados.
- **PoolQC:** Qualidade da piscina.
- **Fence:** Qualidade da cerca.
- **MiscFeature:** Recurso diverso não coberto em outras categorias.
- **MiscVal:** Valor do recurso diverso.
- **MoSold:** Mês de venda.
- **YrSold:** Ano de venda.
- **SaleType:** Tipo de venda.
- **SaleCondition:** Condição de venda.
- **SalePrice:** Preço de venda do imóvel.

In [2]:
# Criando dataframe dos dados de csv train
df_train = pd.read_csv('/content/drive/MyDrive/train.csv')

In [3]:
# Linhas iniciais de train
df_train.head()

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000


In [4]:
# Total de linhas e colunas dos dados
df_train.shape

(1460, 81)

In [5]:
# Análise inicial dos dados e verificação de outliers
df_train.describe()

Unnamed: 0,Id,MSSubClass,LotFrontage,LotArea,OverallQual,OverallCond,YearBuilt,YearRemodAdd,MasVnrArea,BsmtFinSF1,...,WoodDeckSF,OpenPorchSF,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,MiscVal,MoSold,YrSold,SalePrice
count,1460.0,1460.0,1201.0,1460.0,1460.0,1460.0,1460.0,1460.0,1452.0,1460.0,...,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0,1460.0
mean,730.5,56.89726,70.049958,10516.828082,6.099315,5.575342,1971.267808,1984.865753,103.685262,443.639726,...,94.244521,46.660274,21.95411,3.409589,15.060959,2.758904,43.489041,6.321918,2007.815753,180921.19589
std,421.610009,42.300571,24.284752,9981.264932,1.382997,1.112799,30.202904,20.645407,181.066207,456.098091,...,125.338794,66.256028,61.119149,29.317331,55.757415,40.177307,496.123024,2.703626,1.328095,79442.502883
min,1.0,20.0,21.0,1300.0,1.0,1.0,1872.0,1950.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,2006.0,34900.0
25%,365.75,20.0,59.0,7553.5,5.0,5.0,1954.0,1967.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,5.0,2007.0,129975.0
50%,730.5,50.0,69.0,9478.5,6.0,5.0,1973.0,1994.0,0.0,383.5,...,0.0,25.0,0.0,0.0,0.0,0.0,0.0,6.0,2008.0,163000.0
75%,1095.25,70.0,80.0,11601.5,7.0,6.0,2000.0,2004.0,166.0,712.25,...,168.0,68.0,0.0,0.0,0.0,0.0,0.0,8.0,2009.0,214000.0
max,1460.0,190.0,313.0,215245.0,10.0,9.0,2010.0,2010.0,1600.0,5644.0,...,857.0,547.0,552.0,508.0,480.0,738.0,15500.0,12.0,2010.0,755000.0


In [6]:
# Verificando a existência de linhas duplicadas
df_train[df_train.duplicated()]

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice


In [7]:
# Identificando nome das colunas
df_train.columns

Index(['Id', 'MSSubClass', 'MSZoning', 'LotFrontage', 'LotArea', 'Street',
       'Alley', 'LotShape', 'LandContour', 'Utilities', 'LotConfig',
       'LandSlope', 'Neighborhood', 'Condition1', 'Condition2', 'BldgType',
       'HouseStyle', 'OverallQual', 'OverallCond', 'YearBuilt', 'YearRemodAdd',
       'RoofStyle', 'RoofMatl', 'Exterior1st', 'Exterior2nd', 'MasVnrType',
       'MasVnrArea', 'ExterQual', 'ExterCond', 'Foundation', 'BsmtQual',
       'BsmtCond', 'BsmtExposure', 'BsmtFinType1', 'BsmtFinSF1',
       'BsmtFinType2', 'BsmtFinSF2', 'BsmtUnfSF', 'TotalBsmtSF', 'Heating',
       'HeatingQC', 'CentralAir', 'Electrical', '1stFlrSF', '2ndFlrSF',
       'LowQualFinSF', 'GrLivArea', 'BsmtFullBath', 'BsmtHalfBath', 'FullBath',
       'HalfBath', 'BedroomAbvGr', 'KitchenAbvGr', 'KitchenQual',
       'TotRmsAbvGrd', 'Functional', 'Fireplaces', 'FireplaceQu', 'GarageType',
       'GarageYrBlt', 'GarageFinish', 'GarageCars', 'GarageArea', 'GarageQual',
       'GarageCond', 'PavedDrive

In [8]:
# Porcentagem de valores ausentes por coluna
df_train.isnull().sum().sort_values(ascending=False).head(20)/df_train.shape[0]*100

PoolQC          99.520548
MiscFeature     96.301370
Alley           93.767123
Fence           80.753425
FireplaceQu     47.260274
LotFrontage     17.739726
GarageYrBlt      5.547945
GarageCond       5.547945
GarageType       5.547945
GarageFinish     5.547945
GarageQual       5.547945
BsmtFinType2     2.602740
BsmtExposure     2.602740
BsmtQual         2.534247
BsmtCond         2.534247
BsmtFinType1     2.534247
MasVnrArea       0.547945
MasVnrType       0.547945
Electrical       0.068493
Id               0.000000
dtype: float64

## Preparação dos dados para criação do modelo

In [9]:
# Eliminado coluna 'Id'
df_train_tratado = df_train.drop('Id', axis=1)

In [10]:
# Excluindo colunas não numéricas
df_train_tratado.drop(df_train_tratado.select_dtypes(include=['object']).columns,axis=1,inplace=True)

In [11]:
# Eliminando colunas com mais de 50% de valores ausentes
colunas_eliminar = df_train_tratado.loc[:, df_train_tratado.isnull().sum().sort_values(ascending=False)/df_train_tratado.shape[0]*100 > 50]
df_train_tratado.drop(colunas_eliminar.columns, axis=1, inplace=True)

In [12]:
# Substituindo valores faltante pelos valores mais frequentes de cada coluna
most_frequent_imputer = SimpleImputer(strategy='most_frequent')
df_imputado = most_frequent_imputer.fit_transform(df_train_tratado)
df_train_tratado_final = pd.DataFrame(df_imputado, columns=df_train_tratado.columns)

In [13]:
# Verificando se ainda há valores ausentes em train
df_train_tratado_final.isnull().sum()

MSSubClass       0
LotFrontage      0
LotArea          0
OverallQual      0
OverallCond      0
YearBuilt        0
YearRemodAdd     0
MasVnrArea       0
BsmtFinSF1       0
BsmtFinSF2       0
BsmtUnfSF        0
TotalBsmtSF      0
1stFlrSF         0
2ndFlrSF         0
LowQualFinSF     0
GrLivArea        0
BsmtFullBath     0
BsmtHalfBath     0
FullBath         0
HalfBath         0
BedroomAbvGr     0
KitchenAbvGr     0
TotRmsAbvGrd     0
Fireplaces       0
GarageYrBlt      0
GarageCars       0
GarageArea       0
WoodDeckSF       0
OpenPorchSF      0
EnclosedPorch    0
3SsnPorch        0
ScreenPorch      0
PoolArea         0
MiscVal          0
MoSold           0
YrSold           0
SalePrice        0
dtype: int64

In [14]:
# Retirando colunas com valores iguais
colunas_min_max_0 = df_train_tratado_final.loc[:, (df_train_tratado_final.min() == df_train_tratado_final.max())]
df_train_tratado_final.drop(colunas_min_max_0.columns, axis=1, inplace=True)

# Criando meu modelo com regressão linear

In [15]:
X = df_train_tratado_final.drop('SalePrice', axis=1)
y = df_train_tratado_final['SalePrice']

# Padronizando colunas de X
scaler = StandardScaler()
cols_train_to_scale = X.columns[(X.max() > 10)]
X[cols_train_to_scale] = scaler.fit_transform(X[cols_train_to_scale])

# Treinando modelo de regressão linear
rls_model = LinearRegression().fit(X, y)

# Tratamento e previsão do arquivo test

In [16]:
# Criando dataframe dos dados de csv test
df_test = pd.read_csv('/content/drive/MyDrive/test.csv')

In [17]:
# Análise inicial dos dados e verificação de outliers
df_test.describe()

Unnamed: 0,Id,MSSubClass,LotFrontage,LotArea,OverallQual,OverallCond,YearBuilt,YearRemodAdd,MasVnrArea,BsmtFinSF1,...,GarageArea,WoodDeckSF,OpenPorchSF,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,MiscVal,MoSold,YrSold
count,1459.0,1459.0,1232.0,1459.0,1459.0,1459.0,1459.0,1459.0,1444.0,1458.0,...,1458.0,1459.0,1459.0,1459.0,1459.0,1459.0,1459.0,1459.0,1459.0,1459.0
mean,2190.0,57.378341,68.580357,9819.161069,6.078821,5.553804,1971.357779,1983.662783,100.709141,439.203704,...,472.768861,93.174777,48.313914,24.243317,1.79438,17.064428,1.744345,58.167923,6.104181,2007.769705
std,421.321334,42.74688,22.376841,4955.517327,1.436812,1.11374,30.390071,21.130467,177.6259,455.268042,...,217.048611,127.744882,68.883364,67.227765,20.207842,56.609763,30.491646,630.806978,2.722432,1.30174
min,1461.0,20.0,21.0,1470.0,1.0,1.0,1879.0,1950.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,1.0,2006.0
25%,1825.5,20.0,58.0,7391.0,5.0,5.0,1953.0,1963.0,0.0,0.0,...,318.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,4.0,2007.0
50%,2190.0,50.0,67.0,9399.0,6.0,5.0,1973.0,1992.0,0.0,350.5,...,480.0,0.0,28.0,0.0,0.0,0.0,0.0,0.0,6.0,2008.0
75%,2554.5,70.0,80.0,11517.5,7.0,6.0,2001.0,2004.0,164.0,753.5,...,576.0,168.0,72.0,0.0,0.0,0.0,0.0,0.0,8.0,2009.0
max,2919.0,190.0,200.0,56600.0,10.0,9.0,2010.0,2010.0,1290.0,4010.0,...,1488.0,1424.0,742.0,1012.0,360.0,576.0,800.0,17000.0,12.0,2010.0


In [18]:
# Linhas iniciais de test
df_test.head()

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,ScreenPorch,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition
0,1461,20,RH,80.0,11622,Pave,,Reg,Lvl,AllPub,...,120,0,,MnPrv,,0,6,2010,WD,Normal
1,1462,20,RL,81.0,14267,Pave,,IR1,Lvl,AllPub,...,0,0,,,Gar2,12500,6,2010,WD,Normal
2,1463,60,RL,74.0,13830,Pave,,IR1,Lvl,AllPub,...,0,0,,MnPrv,,0,3,2010,WD,Normal
3,1464,60,RL,78.0,9978,Pave,,IR1,Lvl,AllPub,...,0,0,,,,0,6,2010,WD,Normal
4,1465,120,RL,43.0,5005,Pave,,IR1,HLS,AllPub,...,144,0,,,,0,1,2010,WD,Normal


In [19]:
# Verificando a existência de linhas duplicadas
df_test[df_test.duplicated()]

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,ScreenPorch,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition


In [20]:
# Excluindo coluna 'Id'
df_test_tratado = df_test.drop('Id', axis=1)

In [21]:
# Excluindo colunas não numéricas
df_test_tratado.drop(df_test_tratado.select_dtypes(include=['object']).columns,axis=1,inplace=True)

In [22]:
# Observando porcentagem de colunas com valores ausentes
df_test_tratado.isnull().sum().sort_values(ascending=False)/df_test_tratado.shape[0]

LotFrontage      0.155586
GarageYrBlt      0.053461
MasVnrArea       0.010281
BsmtHalfBath     0.001371
BsmtFullBath     0.001371
TotalBsmtSF      0.000685
GarageCars       0.000685
BsmtFinSF1       0.000685
BsmtFinSF2       0.000685
BsmtUnfSF        0.000685
GarageArea       0.000685
OpenPorchSF      0.000000
WoodDeckSF       0.000000
MSSubClass       0.000000
EnclosedPorch    0.000000
TotRmsAbvGrd     0.000000
3SsnPorch        0.000000
ScreenPorch      0.000000
PoolArea         0.000000
MiscVal          0.000000
MoSold           0.000000
Fireplaces       0.000000
FullBath         0.000000
KitchenAbvGr     0.000000
BedroomAbvGr     0.000000
HalfBath         0.000000
GrLivArea        0.000000
LowQualFinSF     0.000000
2ndFlrSF         0.000000
1stFlrSF         0.000000
YearRemodAdd     0.000000
YearBuilt        0.000000
OverallCond      0.000000
OverallQual      0.000000
LotArea          0.000000
YrSold           0.000000
dtype: float64

In [23]:
# Substituindo valores faltante pelos valores mais frequentes de cada coluna
df_imputado_test = most_frequent_imputer.fit_transform(df_test_tratado)
df_test_tratado_final = pd.DataFrame(df_imputado_test, columns=df_test_tratado.columns)

In [24]:
# Verificando se ainda há valores ausentes em test
df_test_tratado_final.isnull().sum().sort_values(ascending=False)

MSSubClass       0
LotFrontage      0
BedroomAbvGr     0
KitchenAbvGr     0
TotRmsAbvGrd     0
Fireplaces       0
GarageYrBlt      0
GarageCars       0
GarageArea       0
WoodDeckSF       0
OpenPorchSF      0
EnclosedPorch    0
3SsnPorch        0
ScreenPorch      0
PoolArea         0
MiscVal          0
MoSold           0
HalfBath         0
FullBath         0
BsmtHalfBath     0
BsmtFinSF1       0
LotArea          0
OverallQual      0
OverallCond      0
YearBuilt        0
YearRemodAdd     0
MasVnrArea       0
BsmtFinSF2       0
BsmtFullBath     0
BsmtUnfSF        0
TotalBsmtSF      0
1stFlrSF         0
2ndFlrSF         0
LowQualFinSF     0
GrLivArea        0
YrSold           0
dtype: int64

In [25]:
# Retirando colunas com valores iguais de test
colunas_test_min_max_0 = df_test_tratado_final.loc[:, (df_test_tratado_final.min() == df_test_tratado_final.max())]
df_test_tratado_final.drop(colunas_test_min_max_0.columns, axis=1, inplace=True)

In [26]:
# Padronizando colunas de test
cols_test_to_scale = df_test_tratado_final.columns[(df_test_tratado_final.max() > 10)]
df_test_tratado_final[cols_test_to_scale] = scaler.fit_transform(df_test_tratado_final[cols_test_to_scale])

In [28]:
# Prevendo 'SalePrice' de test
y_pred = rls_model.predict(df_test_tratado_final)

In [29]:
# Criação do arquivo csv para a competição do Kaggle: "House prices using basic regression techniques"
data = {'Id': df_test['Id'], 'SalePrice': y_pred}
resultado = pd.DataFrame(data)

resultado.to_csv('resultado10.csv', index=False)