## Preços de casas - Técnicas avançadas de regressão
Preveja preços de vendas e pratique engenharia de recursos, RFs e aumento de gradiente

### Descrição
Comece aqui se...
Você tem alguma experiência com R ou Python e noções básicas de aprendizado de máquina. Esta é uma competição perfeita para estudantes de ciência de dados que concluíram um curso online de aprendizado de máquina e desejam expandir suas habilidades antes de participar de uma competição em destaque.

### 💡Caderno de Introdução
Para começar rapidamente, sinta-se à vontade para aproveitar este caderno inicial .

### Descrição da Competição
![alt text](https://storage.googleapis.com/kaggle-media/competitions/House%20Prices/kaggle_5407_media_housesbanner.png)

Peça a um comprador de imóveis para descrever a casa dos seus sonhos, e ele provavelmente não começará pela altura do teto do porão ou pela proximidade de uma ferrovia leste-oeste. Mas o conjunto de dados desta competição de playgrounds prova que muito mais influencia as negociações de preço do que o número de quartos ou uma cerca branca.

Com 79 variáveis ​​explicativas descrevendo (quase) todos os aspectos dos imóveis residenciais em Ames, Iowa, esta competição desafia você a prever o preço final de cada casa.

### Habilidades práticas
- Engenharia de recursos criativos
- Técnicas avançadas de regressão, como floresta aleatória e aumento de gradiente

### Formato do arquivo de submissão
O arquivo deve conter um cabeçalho e ter o seguinte formato:

- Id,Preço de venda
- 1461,169000,1
- 1462,187724,1233
- 1463,175221
- etc.

In [2]:
#Importa base de dados
import pandas as pd

df = pd.read_csv('/content/drive/MyDrive/House-Prices/Temp_file/train.csv')
display(df.head())

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition,SalePrice
0,1,60,RL,65.0,8450,Pave,,Reg,Lvl,AllPub,...,0,,,,0,2,2008,WD,Normal,208500
1,2,20,RL,80.0,9600,Pave,,Reg,Lvl,AllPub,...,0,,,,0,5,2007,WD,Normal,181500
2,3,60,RL,68.0,11250,Pave,,IR1,Lvl,AllPub,...,0,,,,0,9,2008,WD,Normal,223500
3,4,70,RL,60.0,9550,Pave,,IR1,Lvl,AllPub,...,0,,,,0,2,2006,WD,Abnorml,140000
4,5,60,RL,84.0,14260,Pave,,IR1,Lvl,AllPub,...,0,,,,0,12,2008,WD,Normal,250000


In [3]:
# Retorna a shape da df
display(df.shape)

(1460, 81)

In [4]:
# e as irformações
display(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1460 entries, 0 to 1459
Data columns (total 81 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             1460 non-null   int64  
 1   MSSubClass     1460 non-null   int64  
 2   MSZoning       1460 non-null   object 
 3   LotFrontage    1201 non-null   float64
 4   LotArea        1460 non-null   int64  
 5   Street         1460 non-null   object 
 6   Alley          91 non-null     object 
 7   LotShape       1460 non-null   object 
 8   LandContour    1460 non-null   object 
 9   Utilities      1460 non-null   object 
 10  LotConfig      1460 non-null   object 
 11  LandSlope      1460 non-null   object 
 12  Neighborhood   1460 non-null   object 
 13  Condition1     1460 non-null   object 
 14  Condition2     1460 non-null   object 
 15  BldgType       1460 non-null   object 
 16  HouseStyle     1460 non-null   object 
 17  OverallQual    1460 non-null   int64  
 18  OverallC

None

In [5]:
# Visualizar quantidade de valores vazios(nan)
#display(df.isnull().sum().sort_values(ascending=False).head(20))
display((df.isnull().sum()/df.shape[0]).sort_values(ascending=False).head(20)) # em percentual

Unnamed: 0,0
PoolQC,0.995205
MiscFeature,0.963014
Alley,0.937671
Fence,0.807534
MasVnrType,0.59726
FireplaceQu,0.472603
LotFrontage,0.177397
GarageQual,0.055479
GarageFinish,0.055479
GarageType,0.055479


In [6]:
# Podemos eliminar as colunas com mais 10% de valores vazios
display((df.isnull().sum()/df.shape[0]) > 0.1)

eliminar = df.columns[(df.isnull().sum()/df.shape[0]) > 0.1]
display(eliminar)

Unnamed: 0,0
Id,False
MSSubClass,False
MSZoning,False
LotFrontage,True
LotArea,False
...,...
MoSold,False
YrSold,False
SaleType,False
SaleCondition,False


Index(['LotFrontage', 'Alley', 'MasVnrType', 'FireplaceQu', 'PoolQC', 'Fence',
       'MiscFeature'],
      dtype='object')

In [7]:
# eliminando essa colunas
df = df.drop(eliminar, axis=1)

In [8]:
# Visualizar quantidade de valores vazios(nan)
#display(df.isnull().sum().sort_values(ascending=False).head(20))
display((df.isnull().sum()/df.shape[0]).sort_values(ascending=False).head(20)) # em percentual

Unnamed: 0,0
GarageYrBlt,0.055479
GarageQual,0.055479
GarageCond,0.055479
GarageType,0.055479
GarageFinish,0.055479
BsmtFinType2,0.026027
BsmtExposure,0.026027
BsmtQual,0.025342
BsmtCond,0.025342
BsmtFinType1,0.025342


- Queremos criar apenas um primeiro modelo para verificar o quanto estamos errando e depois planejar melhorar. Para isso:
    - Vamos **eliminar as colunas de texto**
    - Precisamos **tratar os valores vazios**
    - Vamos **escolher alguns algoritmos para testar e um método de avaliação de erro**

In [9]:
# Selecionar apenas colunas numéricas
colunas = (df.columns[df.dtypes != 'object'])
display(colunas)

Index(['Id', 'MSSubClass', 'LotArea', 'OverallQual', 'OverallCond',
       'YearBuilt', 'YearRemodAdd', 'MasVnrArea', 'BsmtFinSF1', 'BsmtFinSF2',
       'BsmtUnfSF', 'TotalBsmtSF', '1stFlrSF', '2ndFlrSF', 'LowQualFinSF',
       'GrLivArea', 'BsmtFullBath', 'BsmtHalfBath', 'FullBath', 'HalfBath',
       'BedroomAbvGr', 'KitchenAbvGr', 'TotRmsAbvGrd', 'Fireplaces',
       'GarageYrBlt', 'GarageCars', 'GarageArea', 'WoodDeckSF', 'OpenPorchSF',
       'EnclosedPorch', '3SsnPorch', 'ScreenPorch', 'PoolArea', 'MiscVal',
       'MoSold', 'YrSold', 'SalePrice'],
      dtype='object')

In [10]:
# Criar um nova base com esse valores
df_novo = df.loc[:, colunas]
display(df_novo.head())

Unnamed: 0,Id,MSSubClass,LotArea,OverallQual,OverallCond,YearBuilt,YearRemodAdd,MasVnrArea,BsmtFinSF1,BsmtFinSF2,...,WoodDeckSF,OpenPorchSF,EnclosedPorch,3SsnPorch,ScreenPorch,PoolArea,MiscVal,MoSold,YrSold,SalePrice
0,1,60,8450,7,5,2003,2003,196.0,706,0,...,0,61,0,0,0,0,0,2,2008,208500
1,2,20,9600,6,8,1976,1976,0.0,978,0,...,298,0,0,0,0,0,0,5,2007,181500
2,3,60,11250,7,5,2001,2002,162.0,486,0,...,0,42,0,0,0,0,0,9,2008,223500
3,4,70,9550,7,5,1915,1970,0.0,216,0,...,0,35,272,0,0,0,0,2,2006,140000
4,5,60,14260,8,5,2000,2000,350.0,655,0,...,192,84,0,0,0,0,0,12,2008,250000


In [11]:
# Verificando os valores vazio df_novo
display(df_novo.isnull().sum().sort_values(ascending=False).head(3))

Unnamed: 0,0
GarageYrBlt,81
MasVnrArea,8
LotArea,0


In [12]:
# Substituir os valores vazios por -1, é uma boa prática pra mostra a ausência de valores
df_novo = df_novo.fillna(-1)

- Essa será a base inicial para o modelo

## Criando o modelo
- Vamos separar em treino e teste
    - https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

In [13]:
# Seleciando x e y
X = df_novo.drop('SalePrice', axis=1)
y = df_novo.SalePrice

In [14]:
# Importando o train_test_split
from sklearn.model_selection import train_test_split

In [15]:
# Separando a base em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.33, random_state=42)

- **O proximo passo é selecionar o algoritmos:**
    - Regressão linear
        - https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#
     - Arvore de Regressão
        - https://scikit-learn.org/stable/modules/tree.html#regression
    - KNeighborsRegressor
        - https://scikit-learn.org/stable/modules/generated/sklearn.neighbors.KNeighborsRegressor.html

In [16]:
# Importar regressão linear
from sklearn.linear_model import LinearRegression

In [17]:
# Criando a regressor e fazendo o fit com os dados de treino
reg_rl = LinearRegression().fit(X_train, y_train)

In [18]:
# Fazer previsão para os dados de teste
y_rl = reg_rl.predict(X_test)

In [19]:
# Importar Árvore de decisão
from sklearn import tree

In [20]:
# Criando a regressor e fazendo o fit com os dados de treino
reg_ar = tree.DecisionTreeClassifier(random_state=42).fit(X_train, y_train)

In [21]:
# Fazer previsão para os dados de teste
y_ar = reg_ar.predict(X_test)

In [22]:
# Importar o KNN
from sklearn.neighbors import KNeighborsRegressor

In [23]:
# Criando a regressor e fazendo o fit com os dados de treino
reg_knn = KNeighborsRegressor(n_neighbors=2).fit(X_train, y_train)

In [24]:
# Fazer previsão para os dados de teste
y_knn = reg_knn.predict(X_test)

**E avaliar esses dados, ultilizado tanto o erro absoluto com o quadrático:**
- Erro médio absoluto:
    - https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_absolute_error.html
- Erro quadrático médio
    - https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html

In [25]:
# Importando o erro médio absoluto
from sklearn.metrics import mean_absolute_error

In [26]:
# Importando o erro médio quadrático
from sklearn.metrics import mean_squared_error

In [27]:
# Avaliando os erros da regressão linear
display(mean_absolute_error(y_test, y_rl))
display(mean_squared_error(y_test, y_rl))

23763.187393064567

1533982883.444864

In [28]:
# Avaliando os erros da árvore de decisão
display(mean_absolute_error(y_test, y_ar))
display(mean_squared_error(y_test, y_ar))

34290.82780082987

3267429539.840249

In [29]:
# Avaliando os erros da knn
display(mean_absolute_error(y_test, y_knn))
display(mean_squared_error(y_test, y_knn))

33273.08298755187

2733937586.841286

**A regressão linear tever o menor erro quadrático médio, a messa métrica avalida pelo Kaggle de classificar os modelos**

## Fazendo a previsão para base de teste da competição

In [31]:
# Impontando a base de teste
df_teste = pd.read_csv('/content/drive/MyDrive/House-Prices/Temp_file/test.csv')
display(df_teste.head())

Unnamed: 0,Id,MSSubClass,MSZoning,LotFrontage,LotArea,Street,Alley,LotShape,LandContour,Utilities,...,ScreenPorch,PoolArea,PoolQC,Fence,MiscFeature,MiscVal,MoSold,YrSold,SaleType,SaleCondition
0,1461,20,RH,80.0,11622,Pave,,Reg,Lvl,AllPub,...,120,0,,MnPrv,,0,6,2010,WD,Normal
1,1462,20,RL,81.0,14267,Pave,,IR1,Lvl,AllPub,...,0,0,,,Gar2,12500,6,2010,WD,Normal
2,1463,60,RL,74.0,13830,Pave,,IR1,Lvl,AllPub,...,0,0,,MnPrv,,0,3,2010,WD,Normal
3,1464,60,RL,78.0,9978,Pave,,IR1,Lvl,AllPub,...,0,0,,,,0,6,2010,WD,Normal
4,1465,120,RL,43.0,5005,Pave,,IR1,HLS,AllPub,...,144,0,,,,0,1,2010,WD,Normal


**Repitir os mesmo tratamento da base de treino**
- **Obs:** não pode exclir linhas

In [33]:
# Eliminar as mesma colunas da base de treino
df_teste = df_teste.drop(eliminar, axis=1)

In [34]:
# Verificar colunas númericas
colunas2 = df_teste.columns[df_teste.dtypes != 'object']
display(colunas2)

Index(['Id', 'MSSubClass', 'LotArea', 'OverallQual', 'OverallCond',
       'YearBuilt', 'YearRemodAdd', 'MasVnrArea', 'BsmtFinSF1', 'BsmtFinSF2',
       'BsmtUnfSF', 'TotalBsmtSF', '1stFlrSF', '2ndFlrSF', 'LowQualFinSF',
       'GrLivArea', 'BsmtFullBath', 'BsmtHalfBath', 'FullBath', 'HalfBath',
       'BedroomAbvGr', 'KitchenAbvGr', 'TotRmsAbvGrd', 'Fireplaces',
       'GarageYrBlt', 'GarageCars', 'GarageArea', 'WoodDeckSF', 'OpenPorchSF',
       'EnclosedPorch', '3SsnPorch', 'ScreenPorch', 'PoolArea', 'MiscVal',
       'MoSold', 'YrSold'],
      dtype='object')

In [35]:
# Manter também apenas as colunas numericas
df_teste = df_teste.loc[:, colunas2]

In [36]:
# Verificar a base restante
display(df_teste.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1459 entries, 0 to 1458
Data columns (total 36 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             1459 non-null   int64  
 1   MSSubClass     1459 non-null   int64  
 2   LotArea        1459 non-null   int64  
 3   OverallQual    1459 non-null   int64  
 4   OverallCond    1459 non-null   int64  
 5   YearBuilt      1459 non-null   int64  
 6   YearRemodAdd   1459 non-null   int64  
 7   MasVnrArea     1444 non-null   float64
 8   BsmtFinSF1     1458 non-null   float64
 9   BsmtFinSF2     1458 non-null   float64
 10  BsmtUnfSF      1458 non-null   float64
 11  TotalBsmtSF    1458 non-null   float64
 12  1stFlrSF       1459 non-null   int64  
 13  2ndFlrSF       1459 non-null   int64  
 14  LowQualFinSF   1459 non-null   int64  
 15  GrLivArea      1459 non-null   int64  
 16  BsmtFullBath   1457 non-null   float64
 17  BsmtHalfBath   1457 non-null   float64
 18  FullBath

None

In [37]:
# Visualizando a quantidade de valores vazios
display(df_teste.isnull().sum().sort_values(ascending=False).head(10))

Unnamed: 0,0
GarageYrBlt,78
MasVnrArea,15
BsmtHalfBath,2
BsmtFullBath,2
GarageCars,1
GarageArea,1
BsmtFinSF2,1
BsmtUnfSF,1
TotalBsmtSF,1
BsmtFinSF1,1


In [38]:
# Substituir os valores vazios por -1
df_teste = df_teste.fillna(-1)

In [39]:
# Usar a regressão linear para fazer a previsão
y_pred = reg_rl.predict(df_teste)

In [40]:
# Adicionar essa coluna da previsão na base de dados
df_teste['SalePrice'] =  y_pred

In [41]:
# Extrair colunas Id e SalePrice
resultado = df_teste[['Id', 'SalePrice']]
display(resultado.head())

Unnamed: 0,Id,SalePrice
0,1461,122234.99596
1,1462,139178.263684
2,1463,169872.054251
3,1464,199138.801656
4,1465,196257.109229


In [42]:
# Exporta base de dados
resultado.to_csv('/content/drive/MyDrive/House-Prices/Temp_file/Resultado.csv', index=False)
display(resultado.head())

Unnamed: 0,Id,SalePrice
0,1461,122234.99596
1,1462,139178.263684
2,1463,169872.054251
3,1464,199138.801656
4,1465,196257.109229
