# APRENDIZAGEM SUPERVISIONADA: REGRESSÃO

Objetivo: Desenvolver um algoritmo de Machine Learning para prever o valor do preço médio de casas em Boston.


---



Os dados foram extraídos do site do Kaggle:

https://www.kaggle.com/schirmerchad/bostonhoustingmlnd



---

## Legenda para consulta


- RM: Número médio de cômodos entre os imóveis no bairro.

- LSTAT: Porcentagem de proprietários no bairro considerados de "classe baixa" (proletariado).

- PTRATIO: Razão entre estudantes e professores nas escolas de ensino fundamental e médio no bairro.

- MEDV: Valor médio das casas

In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from yellowbrick.regressor import ResidualsPlot

In [3]:
df = pd.read_csv('/content/drive/MyDrive/scripts_machine_learning/dados_regressao/housing_tratado.csv', sep= ';', encoding= 'utf-8')

In [4]:
df.head()

Unnamed: 0,RM,LSTAT,PTRATIO,MEDV
0,6.575,4.98,15.3,504000.0
1,6.421,9.14,17.8,453600.0
2,7.185,4.03,17.8,728700.0
3,6.998,2.94,18.7,701400.0
4,7.147,5.33,18.7,760200.0


In [5]:
df.shape

(489, 4)

In [6]:
df.dtypes

Unnamed: 0,0
RM,float64
LSTAT,float64
PTRATIO,float64
MEDV,float64


# Treinamento dos Algoritmos

**Resultados finais dos treinamentos**

**Random Forest**
- Raiz do erro quadrático médio: 66729.3
- Coeficiente de Determinação: Treino 91,60% / Teste 84,65%
- Validação Cruzada: 82,85%

**XGBoost**
- Raiz do erro quadrático médio: 68238.8
- Coeficiente de Determinação: Treino 91,60% / Teste 83,95%
- Validação Cruzada: 83,15%

**LightGBM**
- Raiz do erro quadrático médio: 71906.4
- Coeficiente de Determinação: Treino 88,14% / Teste 82,17%
- Validação Cruzada: 82,38%

**CatBoost**
- Raiz do erro quadrático médio: 69053.3
- Coeficiente de Determinação: Treino 89,87% / Teste 83,56%
- Validação Cruzada: 83,40%

**Redes neurais Artificiais**
- Raiz do erro quadrático médio: 72702.1
- Coeficiente de Determinação: Treino 85,36% / Teste 81,78%
- Validação Cruzada: 78,71%

## Random Forest


In [7]:
from sklearn.ensemble import RandomForestRegressor

In [8]:
df.head(2)

Unnamed: 0,RM,LSTAT,PTRATIO,MEDV
0,6.575,4.98,15.3,504000.0
1,6.421,9.14,17.8,453600.0


**Separação entre colunas previsoras e alvo**

In [9]:
# Selecionando as colunas 0 a 2 (RM a PTRATIO) como colunas previsoras
previsores = df.iloc[:, 0:3].values
previsores

array([[ 6.575,  4.98 , 15.3  ],
       [ 6.421,  9.14 , 17.8  ],
       [ 7.185,  4.03 , 17.8  ],
       ...,
       [ 6.976,  5.64 , 21.   ],
       [ 6.794,  6.48 , 21.   ],
       [ 6.03 ,  7.88 , 21.   ]])

In [10]:
# Selecionando a coluna 3 (MEDV) como alvo
alvo = df.iloc[:, 3].values
alvo

array([ 504000.,  453600.,  728700.,  701400.,  760200.,  602700.,
        480900.,  569100.,  346500.,  396900.,  315000.,  396900.,
        455700.,  428400.,  382200.,  417900.,  485100.,  367500.,
        424200.,  382200.,  285600.,  411600.,  319200.,  304500.,
        327600.,  291900.,  348600.,  310800.,  386400.,  441000.,
        266700.,  304500.,  277200.,  275100.,  283500.,  396900.,
        420000.,  441000.,  518700.,  646800.,  732900.,  558600.,
        531300.,  518700.,  445200.,  405300.,  420000.,  348600.,
        302400.,  407400.,  413700.,  430500.,  525000.,  491400.,
        396900.,  743400.,  518700.,  663600.,  489300.,  411600.,
        392700.,  336000.,  466200.,  525000.,  693000.,  493500.,
        407400.,  462000.,  365400.,  438900.,  508200.,  455700.,
        478800.,  491400.,  506100.,  449400.,  420000.,  436800.,
        445200.,  426300.,  588000.,  501900.,  520800.,  480900.,
        501900.,  558600.,  472500.,  466200.,  495600.,  6027

**Separação entre treino e teste**

In [11]:
from sklearn.model_selection import train_test_split
# Dividir o conjunto de dados em conjunto de treinamento e teste
x_treino, x_teste, y_treino, y_teste = train_test_split(previsores, alvo, test_size = 0.3, random_state = 0)

In [12]:
# Visualizando os dados separados para treino e para teste
x_treino.shape, x_teste.shape

((342, 3), (147, 3))

**Treinamento do modelo**

In [13]:
# Treinar o modelo de random forest
random = RandomForestRegressor(n_estimators=60, criterion='squared_error', max_depth=5, random_state = 10)
random.fit(x_treino, y_treino)

In [14]:
# Coeficiente de Determinação de treino
random.score(x_treino, y_treino)

0.9160346630571496

**Teste**

In [15]:
previsoes_teste = random.predict(x_teste)
previsoes_teste

array([429790.1184383 , 626425.24570752, 319291.        , 369687.79212278,
       504007.08094948, 275038.77411657, 325784.08333333, 419935.2164072 ,
       461145.73252911, 407252.93004329, 250872.39578869, 342808.74084789,
       454388.83705035, 207628.59742739, 523389.0588747 , 343148.06749092,
       436277.53376586, 519168.2986373 , 400302.89135561, 591299.21535976,
       617998.62691853, 737021.36549068, 207628.59742739, 433990.65598718,
       378602.16484354, 911394.60227273, 690510.8130319 , 913862.10227273,
       420589.43787112, 423405.52420844, 326646.08924392, 380183.19387172,
       436732.30908567, 687715.29521126, 434483.34195931, 890163.5       ,
       529306.19369936, 231323.99610428, 491146.52058414, 505014.08035269,
       256106.89211222, 382749.3212387 , 424659.14608592, 488901.56840275,
       401002.16125623, 406066.93224785, 503825.27539393, 325390.61402888,
       856473.33333333, 421515.20723289, 693269.282585  , 434272.60667474,
       558379.53436472, 3

In [16]:
y_teste

array([ 417900.,  632100.,  281400.,  577500.,  474600.,  359100.,
        247800.,  474600.,  449400.,  411600.,  214200.,  214200.,
        428400.,  375900.,  577500.,  327600.,  420000.,  489300.,
        470400.,  640500.,  651000.,  690900.,  147000.,  441000.,
        367500.,  966000.,  756000.,  888300.,  455700.,  445200.,
        323400.,  455700.,  430500.,  867300.,  445200.,  875700.,
        415800.,  268800.,  590100.,  497700.,  231000.,  315000.,
        388500.,  449400.,  413700.,  352800.,  453600.,  306600.,
        898800.,  514500.,  743400.,  474600.,  600600.,  304500.,
        661500.,  489300.,  422100.,  184800.,  525000.,  249900.,
        407400.,  361200.,  428400.,  392700.,  428400.,  472500.,
        258300.,  550200.,  346500.,  199500.,  302400.,  611100.,
        396900.,  585900.,  279300.,  483000.,  462000.,  218400.,
        518700.,  420000.,  392700.,  980700.,  455700.,  514500.,
        480900.,  520800.,  485100.,  525000.,  390600.,  5691

In [17]:
# Coeficiente de Determinação de teste
random.score(x_teste, y_teste)

0.8465287311346861

**Métricas de desempenho**

In [18]:
from sklearn.metrics import mean_absolute_error, mean_squared_error, mean_absolute_percentage_error

In [19]:
# Erro médio Absoluto
mean_absolute_error(y_teste, previsoes_teste)

49730.29595322481

In [20]:
# Erro quadrático médio
mean_squared_error(y_teste, previsoes_teste)

4452803054.515374

In [21]:
# Raiz do erro quadrático médio (RMSE)
np.sqrt(mean_squared_error(y_teste, previsoes_teste))

66729.326795011

**Validação cruzada**

In [22]:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [23]:
# Separando os dados em folds
kfold = KFold(n_splits = 15, shuffle=True, random_state = 5)

In [24]:
# Criando o modelo
from sklearn.tree import DecisionTreeRegressor
modelo = RandomForestRegressor(n_estimators=60, criterion='squared_error', max_depth=5, random_state = 10)
resultado = cross_val_score(modelo, previsores, alvo, cv = kfold)
resultado

array([0.9390087 , 0.9048205 , 0.78576987, 0.78178487, 0.80471035,
       0.73189206, 0.88019637, 0.85442545, 0.7796746 , 0.82002933,
       0.93538902, 0.72717569, 0.80683864, 0.8863317 , 0.78974059])

In [25]:
# Usamos a média e o desvio padrão
print("Coeficiente de Determinação médio: %.2f%%" % (resultado.mean() * 100.0))

Coeficiente de Determinação médio: 82.85%


## Resultado

- Raiz do erro quadrático médio: 66729.3
- Coeficiente de Determinação: Treino 91,60% / Teste 84,65%
- Validação Cruzada: 82,85%



---



## Random XGBoost


In [26]:
from xgboost import XGBRegressor

In [27]:
df.head(2)

Unnamed: 0,RM,LSTAT,PTRATIO,MEDV
0,6.575,4.98,15.3,504000.0
1,6.421,9.14,17.8,453600.0


**Separação entre colunas previsoras e alvo**

In [28]:
# Selecionando as colunas 0 a 2 (RM a PTRATIO) como colunas previsoras
previsores = df.iloc[:, 0:3].values
previsores

array([[ 6.575,  4.98 , 15.3  ],
       [ 6.421,  9.14 , 17.8  ],
       [ 7.185,  4.03 , 17.8  ],
       ...,
       [ 6.976,  5.64 , 21.   ],
       [ 6.794,  6.48 , 21.   ],
       [ 6.03 ,  7.88 , 21.   ]])

In [29]:
# Selecionando a coluna 3 (MEDV) como alvo
alvo = df.iloc[:, 3].values
alvo

array([ 504000.,  453600.,  728700.,  701400.,  760200.,  602700.,
        480900.,  569100.,  346500.,  396900.,  315000.,  396900.,
        455700.,  428400.,  382200.,  417900.,  485100.,  367500.,
        424200.,  382200.,  285600.,  411600.,  319200.,  304500.,
        327600.,  291900.,  348600.,  310800.,  386400.,  441000.,
        266700.,  304500.,  277200.,  275100.,  283500.,  396900.,
        420000.,  441000.,  518700.,  646800.,  732900.,  558600.,
        531300.,  518700.,  445200.,  405300.,  420000.,  348600.,
        302400.,  407400.,  413700.,  430500.,  525000.,  491400.,
        396900.,  743400.,  518700.,  663600.,  489300.,  411600.,
        392700.,  336000.,  466200.,  525000.,  693000.,  493500.,
        407400.,  462000.,  365400.,  438900.,  508200.,  455700.,
        478800.,  491400.,  506100.,  449400.,  420000.,  436800.,
        445200.,  426300.,  588000.,  501900.,  520800.,  480900.,
        501900.,  558600.,  472500.,  466200.,  495600.,  6027

**Separação entre treino e teste**

In [30]:
from sklearn.model_selection import train_test_split
# Dividir o conjunto de dados em conjunto de treinamento e teste
x_treino, x_teste, y_treino, y_teste = train_test_split(previsores, alvo, test_size = 0.3, random_state = 0)

In [31]:
# Visualizando os dados separados para treino e para teste
x_treino.shape, x_teste.shape

((342, 3), (147, 3))

**Treinamento do modelo**

In [32]:
# Treinar o modelo de XGBoost
xgboost = XGBRegressor(n_estimators=180, max_depth=3, learning_rate=0.05, objective="reg:squarederror", random_state=10)
xgboost.fit(x_treino, y_treino)

In [33]:
# Coeficiente de Determinação de treino
random.score(x_treino, y_treino)

0.9160346630571496

**Teste**

In [34]:
previsoes_teste = xgboost.predict(x_teste)
previsoes_teste

array([430816.78, 673513.8 , 324454.34, 309227.72, 499943.22, 252765.6 ,
       316813.9 , 426922.84, 503661.06, 402697.88, 268991.62, 331517.56,
       463183.5 , 243093.81, 518295.56, 329424.25, 448297.56, 503230.97,
       403421.84, 624580.8 , 641586.4 , 719073.75, 243093.81, 445842.97,
       381795.4 , 923113.06, 738944.1 , 916428.5 , 411565.8 , 423582.78,
       257591.67, 392865.9 , 461097.1 , 679883.5 , 457870.7 , 868431.7 ,
       538034.5 , 284727.25, 497835.22, 534659.5 , 258270.98, 386919.62,
       414637.88, 484999.38, 320483.72, 388157.66, 499943.22, 327718.53,
       788367.1 , 424809.78, 711017.  , 441260.53, 564940.  , 317295.06,
       714132.5 , 563607.2 , 377803.16, 269027.1 , 513365.56, 437324.9 ,
       361198.97, 253089.25, 400416.5 , 410362.72, 428149.1 , 407860.16,
       221062.33, 536261.25, 520159.28, 236810.25, 189212.81, 507994.7 ,
       383907.5 , 561411.56, 248866.  , 425389.62, 581118.4 , 368890.06,
       507368.72, 395464.06, 395908.56, 884322.56, 

In [35]:
y_teste

array([ 417900.,  632100.,  281400.,  577500.,  474600.,  359100.,
        247800.,  474600.,  449400.,  411600.,  214200.,  214200.,
        428400.,  375900.,  577500.,  327600.,  420000.,  489300.,
        470400.,  640500.,  651000.,  690900.,  147000.,  441000.,
        367500.,  966000.,  756000.,  888300.,  455700.,  445200.,
        323400.,  455700.,  430500.,  867300.,  445200.,  875700.,
        415800.,  268800.,  590100.,  497700.,  231000.,  315000.,
        388500.,  449400.,  413700.,  352800.,  453600.,  306600.,
        898800.,  514500.,  743400.,  474600.,  600600.,  304500.,
        661500.,  489300.,  422100.,  184800.,  525000.,  249900.,
        407400.,  361200.,  428400.,  392700.,  428400.,  472500.,
        258300.,  550200.,  346500.,  199500.,  302400.,  611100.,
        396900.,  585900.,  279300.,  483000.,  462000.,  218400.,
        518700.,  420000.,  392700.,  980700.,  455700.,  514500.,
        480900.,  520800.,  485100.,  525000.,  390600.,  5691

In [36]:
# Coeficiente de Determinação de teste
xgboost.score(x_teste, y_teste)

0.8395066646498099

In [37]:
# Fazendo previsões para valores distintos
valor_casa = xgboost.predict([[6,20,12]])
valor_casa

array([356100.6], dtype=float32)

**Métricas de desempenho**

In [38]:
from sklearn.metrics import mean_absolute_error, mean_squared_error, mean_absolute_percentage_error

In [39]:
# Erro médio Absoluto
mean_absolute_error(y_teste, previsoes_teste)

51564.748830782315

In [40]:
# Erro quadrático médio
mean_squared_error(y_teste, previsoes_teste)

4656540726.8761015

In [41]:
# Raiz do erro quadrático médio (RMSE)
np.sqrt(mean_squared_error(y_teste, previsoes_teste))

68238.85056825109

**Validação cruzada**

In [42]:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [43]:
# Separando os dados em folds
kfold = KFold(n_splits = 15, shuffle=True, random_state = 5)

In [44]:
# Criando o modelo
from xgboost import XGBRegressor
modelo = XGBRegressor(n_estimators=180, max_depth=3, learning_rate=0.05, objective="reg:squarederror", random_state=10)
resultado = cross_val_score(modelo, previsores, alvo, cv = kfold)
resultado

array([0.9151535 , 0.90873767, 0.77263186, 0.80988912, 0.84544355,
       0.73201005, 0.91066964, 0.82575379, 0.82342746, 0.85921785,
       0.92123404, 0.70669457, 0.76360029, 0.8708078 , 0.80668477])

In [45]:
# Usamos a média e o desvio padrão
print("Coeficiente de Determinação médio: %.2f%%" % (resultado.mean() * 100.0))

Coeficiente de Determinação médio: 83.15%


## Resultado

- Raiz do erro quadrático médio: 68238.8
- Coeficiente de Determinação: Treino 91,60% / Teste 83,95%
- Validação Cruzada: 83,15%



---



## LightGBM


In [46]:
# Instalação do Algoritmo
!pip install lightgbm



In [47]:
import lightgbm as lgb

Dask dataframe query planning is disabled because dask-expr is not installed.

You can install it with `pip install dask[dataframe]` or `conda install dask`.
This will raise in a future version.



In [48]:
df.head(2)

Unnamed: 0,RM,LSTAT,PTRATIO,MEDV
0,6.575,4.98,15.3,504000.0
1,6.421,9.14,17.8,453600.0


**Separação entre colunas previsoras e alvo**

In [49]:
# Selecionando as colunas 0 a 2 (RM a PTRATIO) como colunas previsoras
previsores = df.iloc[:, 0:3].values
previsores

array([[ 6.575,  4.98 , 15.3  ],
       [ 6.421,  9.14 , 17.8  ],
       [ 7.185,  4.03 , 17.8  ],
       ...,
       [ 6.976,  5.64 , 21.   ],
       [ 6.794,  6.48 , 21.   ],
       [ 6.03 ,  7.88 , 21.   ]])

In [50]:
# Selecionando a coluna 3 (MEDV) como alvo
alvo = df.iloc[:, 3].values
alvo

array([ 504000.,  453600.,  728700.,  701400.,  760200.,  602700.,
        480900.,  569100.,  346500.,  396900.,  315000.,  396900.,
        455700.,  428400.,  382200.,  417900.,  485100.,  367500.,
        424200.,  382200.,  285600.,  411600.,  319200.,  304500.,
        327600.,  291900.,  348600.,  310800.,  386400.,  441000.,
        266700.,  304500.,  277200.,  275100.,  283500.,  396900.,
        420000.,  441000.,  518700.,  646800.,  732900.,  558600.,
        531300.,  518700.,  445200.,  405300.,  420000.,  348600.,
        302400.,  407400.,  413700.,  430500.,  525000.,  491400.,
        396900.,  743400.,  518700.,  663600.,  489300.,  411600.,
        392700.,  336000.,  466200.,  525000.,  693000.,  493500.,
        407400.,  462000.,  365400.,  438900.,  508200.,  455700.,
        478800.,  491400.,  506100.,  449400.,  420000.,  436800.,
        445200.,  426300.,  588000.,  501900.,  520800.,  480900.,
        501900.,  558600.,  472500.,  466200.,  495600.,  6027

**Separação entre treino e teste**

In [51]:
from sklearn.model_selection import train_test_split
# Dividir o conjunto de dados em conjunto de treinamento e teste
x_treino, x_teste, y_treino, y_teste = train_test_split(previsores, alvo, test_size = 0.3, random_state = 0)

In [52]:
# Visualizando os dados separados para treino e para teste
x_treino.shape, x_teste.shape

((342, 3), (147, 3))

**Treinamento do modelo**

In [53]:
# Treinar o modelo de LightGBM
lgbm = lgb.LGBMRegressor(num_leaves=50, max_depth=3, learning_rate=0.1, n_estimators=50, random_state=10)
lgbm.fit(x_treino, y_treino)

[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000671 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 266
[LightGBM] [Info] Number of data points in the train set: 342, number of used features: 3
[LightGBM] [Info] Start training from score 455325.438596


In [54]:
# Coeficiente de Determinação de treino
lgbm.score(x_treino, y_treino)

0.8814914688459106

**Teste**

In [55]:
previsoes_teste = lgbm.predict(x_teste)
previsoes_teste

array([435162.29267074, 641982.3998361 , 322046.97599033, 340648.39158879,
       508504.69714956, 256803.70362607, 322046.97599033, 415731.56507782,
       474852.39016892, 409103.68860495, 252194.9296392 , 333942.24166878,
       461303.70389499, 213398.13388959, 492058.58187162, 330376.83535804,
       464552.53809627, 506994.23480863, 400666.13511991, 621771.25656614,
       602564.24822465, 769110.04124343, 213398.13388959, 447844.58183   ,
       392704.41012444, 868248.53555394, 777725.04626645, 868248.53555394,
       404543.7024141 , 428683.90878048, 264021.13804074, 396452.2353351 ,
       467982.96344989, 699841.53682937, 465526.02992314, 831351.38971622,
       513572.01979326, 256604.61260171, 501548.76251926, 536476.89765996,
       252194.9296392 , 383489.37973411, 431323.8401831 , 493287.25969631,
       349187.96727163, 383343.93651366, 508504.69714956, 334561.0012021 ,
       791156.15882389, 427132.69322427, 718901.9547592 , 442056.92555076,
       561471.74759905, 3

In [56]:
y_teste

array([ 417900.,  632100.,  281400.,  577500.,  474600.,  359100.,
        247800.,  474600.,  449400.,  411600.,  214200.,  214200.,
        428400.,  375900.,  577500.,  327600.,  420000.,  489300.,
        470400.,  640500.,  651000.,  690900.,  147000.,  441000.,
        367500.,  966000.,  756000.,  888300.,  455700.,  445200.,
        323400.,  455700.,  430500.,  867300.,  445200.,  875700.,
        415800.,  268800.,  590100.,  497700.,  231000.,  315000.,
        388500.,  449400.,  413700.,  352800.,  453600.,  306600.,
        898800.,  514500.,  743400.,  474600.,  600600.,  304500.,
        661500.,  489300.,  422100.,  184800.,  525000.,  249900.,
        407400.,  361200.,  428400.,  392700.,  428400.,  472500.,
        258300.,  550200.,  346500.,  199500.,  302400.,  611100.,
        396900.,  585900.,  279300.,  483000.,  462000.,  218400.,
        518700.,  420000.,  392700.,  980700.,  455700.,  514500.,
        480900.,  520800.,  485100.,  525000.,  390600.,  5691

In [57]:
# Coeficiente de determinação de teste
lgbm.score(x_teste, y_teste)

0.821790912114666

In [58]:
# Fazendo previsões para valores distintos
valor_casa = lgbm.predict([[8,12,25]])
valor_casa

array([473777.6547499])

**Métricas de desempenho**

In [59]:
from sklearn.metrics import mean_absolute_error, mean_squared_error, mean_absolute_percentage_error

In [60]:
# Erro médio Absoluto
mean_absolute_error(y_teste, previsoes_teste)

55114.09314449551

In [61]:
# Erro quadrático médio
mean_squared_error(y_teste, previsoes_teste)

5170544146.439645

In [62]:
# Raiz do erro quadrático médio (RMSE)
np.sqrt(mean_squared_error(y_teste, previsoes_teste))

71906.49585704789

**Validação cruzada**

In [63]:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [64]:
# Separando os dados em folds
kfold = KFold(n_splits = 15, shuffle=True, random_state = 5)

In [65]:
# Criando o modelo
import lightgbm as lgb
modelo = lgb.LGBMRegressor(num_leaves=50, max_depth=3, learning_rate=0.1, n_estimators=50, random_state=10)
resultado = cross_val_score(modelo, previsores, alvo, cv = kfold)
resultado

[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000055 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 344
[LightGBM] [Info] Number of data points in the train set: 456, number of used features: 3
[LightGBM] [Info] Start training from score 454092.763158
[LightGBM] [Info] Auto-choosing col-wise multi-threading, the overhead of testing was 0.000056 seconds.
You can set `force_col_wise=true` to remove the overhead.
[LightGBM] [Info] Total Bins 344
[LightGBM] [Info] Number of data points in the train set: 456, number of used features: 3
[LightGBM] [Info] Start training from score 452853.947368
[LightGBM] [Info] Auto-choosing row-wise multi-threading, the overhead of testing was 0.000036 seconds.
You can set `force_row_wise=true` to remove the overhead.
And if memory is not enough, you can set `force_col_wise=true`.
[LightGBM] [Info] Total Bins 345
[LightGBM] [Info] Number of data points in the train se

array([0.92885902, 0.87411091, 0.79183715, 0.82557057, 0.84077803,
       0.69153561, 0.8972966 , 0.853766  , 0.78817415, 0.84598833,
       0.9151854 , 0.680427  , 0.7801631 , 0.86306132, 0.78006315])

In [66]:
# Usamos a média e o desvio padrão
print("Coeficiente de Determinação médio: %.2f%%" % (resultado.mean() * 100.0))

Coeficiente de Determinação médio: 82.38%


## Resultado

- Raiz do erro quadrático médio: 71906.4
- Coeficiente de Determinação: Treino 88,14% / Teste 82,17%
- Validação Cruzada: 82,38%



---



## CatBoost


In [67]:
# Instalação do Algoritmo
!pip install catboost

Collecting catboost
  Downloading catboost-1.2.7-cp310-cp310-manylinux2014_x86_64.whl.metadata (1.2 kB)
Downloading catboost-1.2.7-cp310-cp310-manylinux2014_x86_64.whl (98.7 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m98.7/98.7 MB[0m [31m6.1 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: catboost
Successfully installed catboost-1.2.7


In [68]:
from catboost.core import CatBoostRegressor

In [69]:
df.head(2)

Unnamed: 0,RM,LSTAT,PTRATIO,MEDV
0,6.575,4.98,15.3,504000.0
1,6.421,9.14,17.8,453600.0


**Separação entre colunas previsoras e alvo**

In [70]:
# Selecionando as colunas 0 a 2 (RM a PTRATIO) como colunas previsoras
previsores = df.iloc[:, 0:3].values
previsores

array([[ 6.575,  4.98 , 15.3  ],
       [ 6.421,  9.14 , 17.8  ],
       [ 7.185,  4.03 , 17.8  ],
       ...,
       [ 6.976,  5.64 , 21.   ],
       [ 6.794,  6.48 , 21.   ],
       [ 6.03 ,  7.88 , 21.   ]])

In [71]:
# Selecionando a coluna 3 (MEDV) como alvo
alvo = df.iloc[:, 3].values
alvo

array([ 504000.,  453600.,  728700.,  701400.,  760200.,  602700.,
        480900.,  569100.,  346500.,  396900.,  315000.,  396900.,
        455700.,  428400.,  382200.,  417900.,  485100.,  367500.,
        424200.,  382200.,  285600.,  411600.,  319200.,  304500.,
        327600.,  291900.,  348600.,  310800.,  386400.,  441000.,
        266700.,  304500.,  277200.,  275100.,  283500.,  396900.,
        420000.,  441000.,  518700.,  646800.,  732900.,  558600.,
        531300.,  518700.,  445200.,  405300.,  420000.,  348600.,
        302400.,  407400.,  413700.,  430500.,  525000.,  491400.,
        396900.,  743400.,  518700.,  663600.,  489300.,  411600.,
        392700.,  336000.,  466200.,  525000.,  693000.,  493500.,
        407400.,  462000.,  365400.,  438900.,  508200.,  455700.,
        478800.,  491400.,  506100.,  449400.,  420000.,  436800.,
        445200.,  426300.,  588000.,  501900.,  520800.,  480900.,
        501900.,  558600.,  472500.,  466200.,  495600.,  6027

**Separação entre treino e teste**

In [72]:
from sklearn.model_selection import train_test_split
# Dividir o conjunto de dados em conjunto de treinamento e teste
x_treino, x_teste, y_treino, y_teste = train_test_split(previsores, alvo, test_size = 0.3, random_state = 0)

In [73]:
# Visualizando os dados separados para treino e para teste
x_treino.shape, x_teste.shape

((342, 3), (147, 3))

**Treinamento do modelo**

In [74]:
# Treinar o modelo de CatBoost
catboost = CatBoostRegressor (iterations=100, learning_rate=0.08, depth = 5, random_state = 10)
catboost.fit(x_treino, y_treino)

0:	learn: 153885.2754929	total: 64.6ms	remaining: 6.39s
1:	learn: 145560.6000514	total: 70.1ms	remaining: 3.44s
2:	learn: 138225.8372427	total: 74.3ms	remaining: 2.4s
3:	learn: 131355.6293814	total: 75.1ms	remaining: 1.8s
4:	learn: 125170.2577020	total: 80.9ms	remaining: 1.54s
5:	learn: 119550.2226179	total: 91.9ms	remaining: 1.44s
6:	learn: 114409.0672213	total: 97ms	remaining: 1.29s
7:	learn: 109536.2116181	total: 104ms	remaining: 1.19s
8:	learn: 105434.3594366	total: 108ms	remaining: 1.1s
9:	learn: 101243.2460951	total: 113ms	remaining: 1.01s
10:	learn: 97472.9802508	total: 120ms	remaining: 972ms
11:	learn: 93927.2207626	total: 126ms	remaining: 924ms
12:	learn: 90880.1445218	total: 130ms	remaining: 873ms
13:	learn: 87832.0734456	total: 138ms	remaining: 846ms
14:	learn: 85013.5932920	total: 141ms	remaining: 801ms
15:	learn: 82307.6915610	total: 144ms	remaining: 757ms
16:	learn: 79857.8824898	total: 149ms	remaining: 730ms
17:	learn: 77586.4911189	total: 156ms	remaining: 710ms
18:	lear

<catboost.core.CatBoostRegressor at 0x78ce17605bd0>

In [75]:
# Coeficiente de Determinação de treino
catboost.score(x_treino, y_treino)

0.8987749049972403

**Teste**

In [76]:
previsoes_teste = catboost.predict(x_teste)
previsoes_teste

array([429400.01623192, 682595.02868122, 331243.97698003, 296222.91720886,
       494493.87846518, 263905.53234461, 332510.33447166, 415822.69648785,
       473356.34097678, 384911.86966413, 269459.57548172, 350494.04605895,
       475432.07209624, 236188.39757946, 460145.1882612 , 325011.53079013,
       459852.34147579, 533622.19993342, 419207.37214489, 624809.82783425,
       675771.08521338, 723808.08032618, 237389.73068411, 452499.57980866,
       396428.03776697, 922534.53446703, 762399.00820899, 927150.00498334,
       398075.0017192 , 431027.91269727, 281829.08536463, 397151.87260001,
       467664.15225401, 702032.35503146, 461395.29564721, 902800.92816049,
       484238.27027971, 261538.78665599, 482683.75197574, 528248.5184367 ,
       271685.94165107, 369422.52483921, 429194.50009351, 479687.66350916,
       326951.09175282, 374804.11446178, 489985.80383496, 314447.61478032,
       840083.29268409, 409737.02687785, 720294.76268985, 437172.90409723,
       567665.81226538, 3

In [77]:
y_teste

array([ 417900.,  632100.,  281400.,  577500.,  474600.,  359100.,
        247800.,  474600.,  449400.,  411600.,  214200.,  214200.,
        428400.,  375900.,  577500.,  327600.,  420000.,  489300.,
        470400.,  640500.,  651000.,  690900.,  147000.,  441000.,
        367500.,  966000.,  756000.,  888300.,  455700.,  445200.,
        323400.,  455700.,  430500.,  867300.,  445200.,  875700.,
        415800.,  268800.,  590100.,  497700.,  231000.,  315000.,
        388500.,  449400.,  413700.,  352800.,  453600.,  306600.,
        898800.,  514500.,  743400.,  474600.,  600600.,  304500.,
        661500.,  489300.,  422100.,  184800.,  525000.,  249900.,
        407400.,  361200.,  428400.,  392700.,  428400.,  472500.,
        258300.,  550200.,  346500.,  199500.,  302400.,  611100.,
        396900.,  585900.,  279300.,  483000.,  462000.,  218400.,
        518700.,  420000.,  392700.,  980700.,  455700.,  514500.,
        480900.,  520800.,  485100.,  525000.,  390600.,  5691

In [78]:
# Coeficiente de determinação de teste
catboost.score(x_teste, y_teste)

0.8356524921108562

In [79]:
# Fazendo previsões para valores distintos
valor_casa = catboost.predict([[5,18,20]])
valor_casa

array([328451.4683164])

**Métricas de desempenho**

In [80]:
from sklearn.metrics import mean_absolute_error, mean_squared_error, mean_absolute_percentage_error

In [81]:
# Erro médio Absoluto
mean_absolute_error(y_teste, previsoes_teste)

52043.380841851125

In [82]:
# Erro quadrático médio
mean_squared_error(y_teste, previsoes_teste)

4768365379.014369

In [83]:
# Raiz do erro quadrático médio (RMSE)
np.sqrt(mean_squared_error(y_teste, previsoes_teste))

69053.3516855943

**Validação cruzada**

In [84]:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [85]:
# Separando os dados em folds
kfold = KFold(n_splits = 15, shuffle=True, random_state = 5)

In [86]:
# Criando o modelo
from catboost.core import CatBoostRegressor
modelo = CatBoostRegressor (iterations=100, learning_rate=0.08, depth = 5, random_state = 10)
resultado = cross_val_score(modelo, previsores, alvo, cv = kfold)
resultado

0:	learn: 155861.3254260	total: 781us	remaining: 77.4ms
1:	learn: 147849.0945349	total: 1.34ms	remaining: 65.9ms
2:	learn: 140069.3123604	total: 3.11ms	remaining: 100ms
3:	learn: 133080.9174182	total: 10ms	remaining: 241ms
4:	learn: 126572.2230376	total: 14.9ms	remaining: 283ms
5:	learn: 120763.6466926	total: 16.5ms	remaining: 259ms
6:	learn: 115744.0292487	total: 22.3ms	remaining: 296ms
7:	learn: 111101.5795724	total: 24.1ms	remaining: 277ms
8:	learn: 106622.3873670	total: 28.7ms	remaining: 290ms
9:	learn: 102647.6071008	total: 33.5ms	remaining: 302ms
10:	learn: 98811.0949782	total: 37.9ms	remaining: 306ms
11:	learn: 95325.9824500	total: 43.3ms	remaining: 318ms
12:	learn: 92143.4946101	total: 46.4ms	remaining: 310ms
13:	learn: 89167.3773597	total: 50.8ms	remaining: 312ms
14:	learn: 86510.4687369	total: 52.2ms	remaining: 296ms
15:	learn: 84149.1642823	total: 57.3ms	remaining: 301ms
16:	learn: 81967.4747398	total: 61.1ms	remaining: 298ms
17:	learn: 80140.1505681	total: 62.8ms	remaining:

array([0.94440689, 0.88935588, 0.7975338 , 0.82476037, 0.85586772,
       0.72996979, 0.87886289, 0.83549716, 0.81780425, 0.85273594,
       0.92537037, 0.70497553, 0.77807769, 0.87783237, 0.79681647])

In [87]:
# Usamos a média e o desvio padrão
print("Coeficiente de Determinação médio: %.2f%%" % (resultado.mean() * 100.0))

Coeficiente de Determinação médio: 83.40%


## Resultado

- Raiz do erro quadrático médio: 69053.3
- Coeficiente de Determinação: Treino 89,87% / Teste 83,56%
- Validação Cruzada: 83,40%



---



## Redes Neurais Artificiais


In [88]:
from sklearn.neural_network import MLPRegressor

In [89]:
df.head(2)

Unnamed: 0,RM,LSTAT,PTRATIO,MEDV
0,6.575,4.98,15.3,504000.0
1,6.421,9.14,17.8,453600.0


**Separação entre colunas previsoras e alvo**

In [90]:
# Selecionando as colunas 0 a 2 (RM a PTRATIO) como colunas previsoras
previsores = df.iloc[:, 0:3].values
previsores

array([[ 6.575,  4.98 , 15.3  ],
       [ 6.421,  9.14 , 17.8  ],
       [ 7.185,  4.03 , 17.8  ],
       ...,
       [ 6.976,  5.64 , 21.   ],
       [ 6.794,  6.48 , 21.   ],
       [ 6.03 ,  7.88 , 21.   ]])

In [91]:
# Selecionando a coluna 3 (MEDV) como alvo
alvo = df.iloc[:, 3].values
alvo

array([ 504000.,  453600.,  728700.,  701400.,  760200.,  602700.,
        480900.,  569100.,  346500.,  396900.,  315000.,  396900.,
        455700.,  428400.,  382200.,  417900.,  485100.,  367500.,
        424200.,  382200.,  285600.,  411600.,  319200.,  304500.,
        327600.,  291900.,  348600.,  310800.,  386400.,  441000.,
        266700.,  304500.,  277200.,  275100.,  283500.,  396900.,
        420000.,  441000.,  518700.,  646800.,  732900.,  558600.,
        531300.,  518700.,  445200.,  405300.,  420000.,  348600.,
        302400.,  407400.,  413700.,  430500.,  525000.,  491400.,
        396900.,  743400.,  518700.,  663600.,  489300.,  411600.,
        392700.,  336000.,  466200.,  525000.,  693000.,  493500.,
        407400.,  462000.,  365400.,  438900.,  508200.,  455700.,
        478800.,  491400.,  506100.,  449400.,  420000.,  436800.,
        445200.,  426300.,  588000.,  501900.,  520800.,  480900.,
        501900.,  558600.,  472500.,  466200.,  495600.,  6027

**Separação entre treino e teste**

In [92]:
from sklearn.model_selection import train_test_split
# Dividir o conjunto de dados em conjunto de treinamento e teste
x_treino, x_teste, y_treino, y_teste = train_test_split(previsores, alvo, test_size = 0.3, random_state = 0)

In [93]:
# Visualizando os dados separados para treino e para teste
x_treino.shape, x_teste.shape

((342, 3), (147, 3))

**Treinando o modelo**

In [94]:
# Treinar o modelo de redes neurais
redes = MLPRegressor(hidden_layer_sizes=(100, 100), activation='relu', verbose=False, max_iter=2000,
                     solver='lbfgs', random_state = 12)
redes.fit(x_treino, y_treino)

In [95]:
# Número de camadas da rede neural: camada de entrada + camadas ocultas + camada de saída
redes.n_layers_

4

In [96]:
# Coeficiente de Determinação de treino
redes.score(x_treino, y_treino)

0.8536909521067109

**Teste**

In [97]:
previsoes_teste = redes.predict(x_teste)
previsoes_teste

array([ 407767.5422182 ,  701972.97746861,  360968.61260667,
        281563.70376671,  504260.72534338,  294965.6791673 ,
        359661.83736238,  431768.94901103,  442911.66636384,
        397832.99417084,  260141.63435007,  371667.00215915,
        454351.69865628,  226556.5690648 ,  507897.48862296,
        337577.04366966,  443883.56705347,  581355.47934491,
        379434.56248093,  662706.21063195,  656462.36051081,
        707732.77231626,  233167.74937699,  422449.31968087,
        395208.70855643,  894121.71653521,  785687.31679089,
        889086.76826785,  429798.37739983,  432212.51644925,
        304791.7724169 ,  410770.49971032,  454159.07587872,
        717608.9934564 ,  433960.36992074, 1004099.59438876,
        475574.50404788,  253389.73178383,  485572.05145804,
        548798.09174937,  265174.97141844,  377724.48636809,
        423111.58269052,  478653.31057874,  295901.29030843,
        390240.67345036,  501059.85130627,  324797.84885648,
        910002.13737627,

In [98]:
y_teste

array([ 417900.,  632100.,  281400.,  577500.,  474600.,  359100.,
        247800.,  474600.,  449400.,  411600.,  214200.,  214200.,
        428400.,  375900.,  577500.,  327600.,  420000.,  489300.,
        470400.,  640500.,  651000.,  690900.,  147000.,  441000.,
        367500.,  966000.,  756000.,  888300.,  455700.,  445200.,
        323400.,  455700.,  430500.,  867300.,  445200.,  875700.,
        415800.,  268800.,  590100.,  497700.,  231000.,  315000.,
        388500.,  449400.,  413700.,  352800.,  453600.,  306600.,
        898800.,  514500.,  743400.,  474600.,  600600.,  304500.,
        661500.,  489300.,  422100.,  184800.,  525000.,  249900.,
        407400.,  361200.,  428400.,  392700.,  428400.,  472500.,
        258300.,  550200.,  346500.,  199500.,  302400.,  611100.,
        396900.,  585900.,  279300.,  483000.,  462000.,  218400.,
        518700.,  420000.,  392700.,  980700.,  455700.,  514500.,
        480900.,  520800.,  485100.,  525000.,  390600.,  5691

In [99]:
# Coeficiente de Determinação de teste
redes.score(x_teste, y_teste)

0.8178252425873315

**Métricas de desempenho**

In [100]:
from sklearn.metrics import mean_absolute_error, mean_squared_error, mean_absolute_percentage_error

In [101]:
# Erro médio Absoluto
mean_absolute_error(y_teste, previsoes_teste)

54889.90145604481

In [102]:
# Erro quadrático médio
mean_squared_error(y_teste, previsoes_teste)

5285603763.233527

In [103]:
# Raiz do erro quadrático médio (RMSE)
np.sqrt(mean_squared_error(y_teste, previsoes_teste))

72702.15789942915

**Validação cruzada**

In [104]:
from sklearn.model_selection import KFold
from sklearn.model_selection import cross_val_score

In [105]:
# Separando os dados em folds
kfold = KFold(n_splits = 15, shuffle=True, random_state = 5)

In [106]:
# Criando o modelo
from sklearn.neural_network import MLPRegressor
modelo = MLPRegressor(hidden_layer_sizes=(100, 100), activation='relu', verbose=False, max_iter=2000,
                     solver='lbfgs', random_state = 12)
resultado = cross_val_score(modelo, previsores, alvo, cv = kfold)
resultado

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
  self.n_iter_ = _check_optimize_result("lbfgs", opt_res, self.max_iter)
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
  self.n_iter_ = _check_optimize_result("lbfgs", opt_res, self.max_iter)
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
  self.n_iter_ = _check_optimize_result("lbfgs", opt_res, self.max_iter)
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
  self.n_iter_ = _check_optimize_result("

array([0.90382375, 0.91157218, 0.7249679 , 0.82976776, 0.79868094,
       0.78907642, 0.87690405, 0.82075919, 0.76251121, 0.86307951,
       0.86437757, 0.55398906, 0.7417826 , 0.80574087, 0.56017148])

In [107]:
# Usamos a média e o desvio padrão
print("Coeficiente de Determinação médio: %.2f%%" % (resultado.mean() * 100.0))

Coeficiente de Determinação médio: 78.71%


## Resultado

- Raiz do erro quadrático médio: 72702.1
- Coeficiente de Determinação: Treino 85,36% / Teste 81,78%
- Validação Cruzada: 78,71%



---



# **Salvando Dados para Deploy**

- Random Forest foi o algoritmo com melhor desempenho utilizando previsores e alvo.

- previsores e alvo devem ser salvos e passados para a equipe de desenvolvimento preferencialmente em formato de csv.

In [108]:
# previsores tem que ser salvo em seu formato de array
previsores

array([[ 6.575,  4.98 , 15.3  ],
       [ 6.421,  9.14 , 17.8  ],
       [ 7.185,  4.03 , 17.8  ],
       ...,
       [ 6.976,  5.64 , 21.   ],
       [ 6.794,  6.48 , 21.   ],
       [ 6.03 ,  7.88 , 21.   ]])

In [109]:
# alvo tem que ser salvo em seu formato de array
alvo

array([ 504000.,  453600.,  728700.,  701400.,  760200.,  602700.,
        480900.,  569100.,  346500.,  396900.,  315000.,  396900.,
        455700.,  428400.,  382200.,  417900.,  485100.,  367500.,
        424200.,  382200.,  285600.,  411600.,  319200.,  304500.,
        327600.,  291900.,  348600.,  310800.,  386400.,  441000.,
        266700.,  304500.,  277200.,  275100.,  283500.,  396900.,
        420000.,  441000.,  518700.,  646800.,  732900.,  558600.,
        531300.,  518700.,  445200.,  405300.,  420000.,  348600.,
        302400.,  407400.,  413700.,  430500.,  525000.,  491400.,
        396900.,  743400.,  518700.,  663600.,  489300.,  411600.,
        392700.,  336000.,  466200.,  525000.,  693000.,  493500.,
        407400.,  462000.,  365400.,  438900.,  508200.,  455700.,
        478800.,  491400.,  506100.,  449400.,  420000.,  436800.,
        445200.,  426300.,  588000.,  501900.,  520800.,  480900.,
        501900.,  558600.,  472500.,  466200.,  495600.,  6027

In [110]:
# Salvando previsores como csv
np.savetxt('previsores.csv', previsores, delimiter=',')

In [111]:
# Salvando alvo como csv
np.savetxt('alvo.csv', alvo, delimiter=',')

- Passar para o desenvolvimento também o classificador abaixo

In [112]:
# Substituir (x_treino,y_treino) por (previsores,alvo)

from sklearn.ensemble import RandomForestRegressor

random = RandomForestRegressor(n_estimators=60, criterion='squared_error', max_depth=5, random_state = 10)
random.fit(previsores,alvo)