# <font color='blue'>Algoritmos de Regressão</font>

In [1]:
# Versão da Linguagem Python
from platform import python_version
print('Python Version:', python_version())

# Verificando as versões dos pacotes instalados
pandasVersion = !pip show pandas
matplotlibVersion = !pip show matplotlib
sklearnVersion = !pip show scikit-learn
print('Pandas', pandasVersion[1])
print("Matplotlib", matplotlibVersion[1])
print("Sklearn", sklearnVersion[1])

Python Version: 3.9.13
Pandas Version: 1.4.4
Matplotlib Version: 3.5.2
Sklearn Version: 1.0.2


## Definição do Problema de Negócio
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>

California Housing dataset foi obtido do repositório StatLib do Departamento de Ciência de Computadores da Faculdade de Ciências na Universidade do Porto em Portugal. California Housing dataset é derivado do censo realizado nos EUA em 1990.  Cada linha do dataset representa um quarteirão. Um quarteirão é a menor unidade geográfica considerada pelo censo americano.<br> 
O dataset considera um household como um grupo de pessoas que residem em uma casa. Como o número médio de cômodos e quartos neste conjunto de dados é fornecido por household, essas colunas podem assumir valores surpreendentemente grandes para quarteirões com poucos households e muitas casas vazias, visto que, essas residências vazias são utilizadas como casas de férias. <br>
A variável alvo é a mediana do valor das casas para os distritos da Califórnia, expresso em centenas de milhares de dólares.<br>
As variáveis do conjunto de dados são:<br>
- Mediana da renda em um quarteirão;<br>
- Mediana da idade das casas em um quarteirão;<br>
- Média de cômodos por household;<br>
- Média de dormitórios por household; <br>
- População de um quarteirão;<br>
- Média do número de membros de um household;<br>
- Latitude do quarteirão;<br>
- Longitude do quarteirão;
- Mediana do valor das casas. <br>

https://scikit-learn.org/stable/datasets/real_world.html#california-housing-dataset

</details>

In [2]:
# Carregando os pacotes
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.metrics import r2_score

## Coletando os dados

In [3]:
# Carregando o módulo 
from sklearn.datasets import fetch_california_housing

In [4]:
# Criando o objeto X com as variáveis preditoras e o objeto y com a variável alvo
X, y = fetch_california_housing(return_X_y=True, as_frame=True)
X

Unnamed: 0,MedInc,HouseAge,AveRooms,AveBedrms,Population,AveOccup,Latitude,Longitude
0,8.3252,41.0,6.984127,1.023810,322.0,2.555556,37.88,-122.23
1,8.3014,21.0,6.238137,0.971880,2401.0,2.109842,37.86,-122.22
2,7.2574,52.0,8.288136,1.073446,496.0,2.802260,37.85,-122.24
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25
...,...,...,...,...,...,...,...,...
20635,1.5603,25.0,5.045455,1.133333,845.0,2.560606,39.48,-121.09
20636,2.5568,18.0,6.114035,1.315789,356.0,3.122807,39.49,-121.21
20637,1.7000,17.0,5.205543,1.120092,1007.0,2.325635,39.43,-121.22
20638,1.8672,18.0,5.329513,1.171920,741.0,2.123209,39.43,-121.32


In [5]:
# Preparando o dataframe
df = X
df["MedHouseVal"] = y
df.columns = ["Mediana da renda", "Mediana idade das casas", "Média de cômodos", "Média de dormitórios", "População", "Média de membros da família", "Latitude", "Longitude", "Mediana do valor das casas"]
df

Unnamed: 0,Mediana da renda,Mediana idade das casas,Média de cômodos,Média de dormitórios,População,Média de membros da família,Latitude,Longitude,Mediana do valor das casas
0,8.3252,41.0,6.984127,1.023810,322.0,2.555556,37.88,-122.23,4.526
1,8.3014,21.0,6.238137,0.971880,2401.0,2.109842,37.86,-122.22,3.585
2,7.2574,52.0,8.288136,1.073446,496.0,2.802260,37.85,-122.24,3.521
3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422
...,...,...,...,...,...,...,...,...,...
20635,1.5603,25.0,5.045455,1.133333,845.0,2.560606,39.48,-121.09,0.781
20636,2.5568,18.0,6.114035,1.315789,356.0,3.122807,39.49,-121.21,0.771
20637,1.7000,17.0,5.205543,1.120092,1007.0,2.325635,39.43,-121.22,0.923
20638,1.8672,18.0,5.329513,1.171920,741.0,2.123209,39.43,-121.32,0.847


## Reservar linha para validar o modelo

In [6]:
# Salvando a primeira linha do dataframe
quarteirao = df[0:1]
quarteirao

Unnamed: 0,Mediana da renda,Mediana idade das casas,Média de cômodos,Média de dormitórios,População,Média de membros da família,Latitude,Longitude,Mediana do valor das casas
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23,4.526


In [7]:
# Salvando a Mediana do valor das casas para validar o modelo
medianaQuarteirao = quarteirao["Mediana do valor das casas"]
medianaQuarteirao

0    4.526
Name: Mediana do valor das casas, dtype: float64

In [8]:
# Excluindo a primeira linha do DataFrame
df.drop([0], inplace = True)

# É importante reiniciar os índices após a exclusão de linhas
df.reset_index(inplace = True)
df

Unnamed: 0,index,Mediana da renda,Mediana idade das casas,Média de cômodos,Média de dormitórios,População,Média de membros da família,Latitude,Longitude,Mediana do valor das casas
0,1,8.3014,21.0,6.238137,0.971880,2401.0,2.109842,37.86,-122.22,3.585
1,2,7.2574,52.0,8.288136,1.073446,496.0,2.802260,37.85,-122.24,3.521
2,3,5.6431,52.0,5.817352,1.073059,558.0,2.547945,37.85,-122.25,3.413
3,4,3.8462,52.0,6.281853,1.081081,565.0,2.181467,37.85,-122.25,3.422
4,5,4.0368,52.0,4.761658,1.103627,413.0,2.139896,37.85,-122.25,2.697
...,...,...,...,...,...,...,...,...,...,...
20634,20635,1.5603,25.0,5.045455,1.133333,845.0,2.560606,39.48,-121.09,0.781
20635,20636,2.5568,18.0,6.114035,1.315789,356.0,3.122807,39.49,-121.21,0.771
20636,20637,1.7000,17.0,5.205543,1.120092,1007.0,2.325635,39.43,-121.22,0.923
20637,20638,1.8672,18.0,5.329513,1.171920,741.0,2.123209,39.43,-121.32,0.847


In [9]:
# Atualizando os valores da variável alvo com a exclusão da primeira linha.
y = df["Mediana do valor das casas"]
y

0        3.585
1        3.521
2        3.413
3        3.422
4        2.697
         ...  
20634    0.781
20635    0.771
20636    0.923
20637    0.847
20638    0.894
Name: Mediana do valor das casas, Length: 20639, dtype: float64

## Normalização

In [10]:
# Carregando o módulo
from sklearn.preprocessing import MinMaxScaler

In [11]:
# Retorna os valores do DataFrame e converte em uma matriz NumPy
dados = df[["Mediana da renda", "Mediana idade das casas", "Média de cômodos", "Média de dormitórios", "População", "Média de membros da família", "Latitude", "Longitude"]].values

# Cria o objeto da classe MinMaxScaler 
min_max_scaler = MinMaxScaler()

# Realiza a normalização dimensionando as variáveis em uma escala entre 0 e 1
dadosNormalizados = min_max_scaler.fit_transform(dados)
dadosNormalizados

array([[0.53802706, 0.39215686, 0.03822395, ..., 0.00114074, 0.565356  ,
        0.21215139],
       [0.46602805, 1.        , 0.05275646, ..., 0.00169796, 0.5642933 ,
        0.21015936],
       [0.35469856, 1.        , 0.03524099, ..., 0.0014933 , 0.5642933 ,
        0.20916335],
       ...,
       [0.08276438, 0.31372549, 0.03090386, ..., 0.0013144 , 0.73219979,
        0.31175299],
       [0.09429525, 0.33333333, 0.03178269, ..., 0.0011515 , 0.73219979,
        0.30179283],
       [0.13025338, 0.29411765, 0.03125246, ..., 0.00154886, 0.72582359,
        0.30976096]])

In [12]:
# Criando um DataFrame com as colunas normalizadas
df = pd.DataFrame(dadosNormalizados, columns=["Mediana da renda", "Mediana idade das casas", "Média de cômodos", "Média de dormitórios", "População", "Média de membros da família", "Latitude", "Longitude"])
df

Unnamed: 0,Mediana da renda,Mediana idade das casas,Média de cômodos,Média de dormitórios,População,Média de membros da família,Latitude,Longitude
0,0.538027,0.392157,0.038224,0.018929,0.067210,0.001141,0.565356,0.212151
1,0.466028,1.000000,0.052756,0.021940,0.013818,0.001698,0.564293,0.210159
2,0.354699,1.000000,0.035241,0.021929,0.015555,0.001493,0.564293,0.209163
3,0.230776,1.000000,0.038534,0.022166,0.015752,0.001198,0.564293,0.209163
4,0.243921,1.000000,0.027757,0.022835,0.011491,0.001165,0.564293,0.209163
...,...,...,...,...,...,...,...,...
20634,0.073130,0.470588,0.029769,0.023715,0.023599,0.001503,0.737513,0.324701
20635,0.141853,0.333333,0.037344,0.029124,0.009894,0.001956,0.738576,0.312749
20636,0.082764,0.313725,0.030904,0.023323,0.028140,0.001314,0.732200,0.311753
20637,0.094295,0.333333,0.031783,0.024859,0.020684,0.001152,0.732200,0.301793


In [13]:
# Inserindo a coluna da variável alvo
# A variável alvo não precisa ser normalizada
df["Mediana do valor das casas"] = y
df

Unnamed: 0,Mediana da renda,Mediana idade das casas,Média de cômodos,Média de dormitórios,População,Média de membros da família,Latitude,Longitude,Mediana do valor das casas
0,0.538027,0.392157,0.038224,0.018929,0.067210,0.001141,0.565356,0.212151,3.585
1,0.466028,1.000000,0.052756,0.021940,0.013818,0.001698,0.564293,0.210159,3.521
2,0.354699,1.000000,0.035241,0.021929,0.015555,0.001493,0.564293,0.209163,3.413
3,0.230776,1.000000,0.038534,0.022166,0.015752,0.001198,0.564293,0.209163,3.422
4,0.243921,1.000000,0.027757,0.022835,0.011491,0.001165,0.564293,0.209163,2.697
...,...,...,...,...,...,...,...,...,...
20634,0.073130,0.470588,0.029769,0.023715,0.023599,0.001503,0.737513,0.324701,0.781
20635,0.141853,0.333333,0.037344,0.029124,0.009894,0.001956,0.738576,0.312749,0.771
20636,0.082764,0.313725,0.030904,0.023323,0.028140,0.001314,0.732200,0.311753,0.923
20637,0.094295,0.333333,0.031783,0.024859,0.020684,0.001152,0.732200,0.301793,0.847


## Dividindo o dataset em dados de treino e dados de teste

In [14]:
# Separando as variáveis preditoras e a variável alvo
numeroObservacoes = len(df)
numeroVariaveisPreditoras = 8
X = df[["Mediana da renda", "Mediana idade das casas", "Média de cômodos", "Média de dormitórios", "População", "Média de membros da família", "Latitude", "Longitude"]].values.reshape((numeroObservacoes, numeroVariaveisPreditoras)) # X deve sempre ser uma matriz e nunca um vetor
y = df["Mediana do valor das casas"].values # y pode ser um vetor

# Divide os dados em treino e teste
Xtreino, Xteste, Ytreino, Yteste = train_test_split(X, y, test_size = 0.2, random_state=11)

In [15]:
# DataFrame para comparar a R2 de cada algoritmo
comparaAlgoritmo = {"Algoritmo": ["Regressão Linear", "Ridge Regression", "KNN", "Árvore de Decisão", "SVM", "Random Forest",
                                  "Extra Trees Regressor", "Bagging Regressor", "AdaBoost", "Voting Regressor", "Gradient Tree Boosting"],
                   "R2": ["-", "-", "-", "-", "-", "-","-", "-", "-", "-", "-"],
                   }
dfComparaAlgoritmo = pd.DataFrame(comparaAlgoritmo)
dfComparaAlgoritmo

Unnamed: 0,Algoritmo,R2
0,Regressão Linear,-
1,Ridge Regression,-
2,KNN,-
3,Árvore de Decisão,-
4,SVM,-
5,Random Forest,-
6,Extra Trees Regressor,-
7,Bagging Regressor,-
8,AdaBoost,-
9,Voting Regressor,-


## Regressão Linear
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>

O algoritmo de Regressão Linear cria um **modelo linear** e utiliza o método de Mínimos Quadrados Ordinários - MQO para reduzir o erro. Este método toma como base a diferença entre o valor previsto pelo modelo e o valor observado no conjunto de dados. A essa diferença dá-se o nome de erro ou resíduo. Dessa forma, o algoritmo calcula a soma de todos os resíduos elevados ao quadrado. O método de Mínimos Quadrados Ordinários contribui para o algoritmo determinar os coeficientes do modelo de modo que a somatória dos quadrados dos resíduos seja a menor possível. Assim consegue-se obter o menor erro possível. O algoritmo de Regressão Linear é bastante simples e por essa razão é indicado para problemas de baixa complexidade.<br>
**Principais parâmetros:<br>
fit_intercept**: indica se o algoritmo deve calcular o intercepto para o modelo. Intercepto é o ponto onde a linha do modelo toca no eixo y. Se definido como falso, espera-se que os dados estejam centralizados;<br>
**positive**:  Quando definido como True, força os coeficientes para valores positivos. Essa opção é suportada somente com grandes conjuntos de dados.

</details>

In [16]:
# Carregando o módulo
from sklearn.linear_model import LinearRegression

In [17]:
# Carregando o módulo do algoritmo
from sklearn.model_selection import RandomizedSearchCV

# Esse módulo ignara os avisos.
import warnings
warnings.filterwarnings("ignore")

In [18]:
# Pesquisando os melhores parâmetros com RandomizedSearchCV
# Cria um dicionário com os valores que serão testados como parâmetro
parametros = {
    "fit_intercept": [True, False],
    "positive": [True, False],
}

# Cria o modelo que desejamos testar os melhores parâmetros
linearRegression = LinearRegression()

# Cria o objeto do tipo RandomizedSearchCV
randomizedSearch = RandomizedSearchCV(estimator = linearRegression, param_distributions = parametros)

# Treinando os parâmetros. ATENÇÃO: Deve-se usar todo conjunto de dados.
randomizedSearch.fit(X, y)

# Print do resultado
print("Avaliação média do R2: %.3f" % (randomizedSearch.best_score_ * 100) + "%")
print("Melhores parâmetros para o modelo:", randomizedSearch.best_params_)

Avaliação média do R2: 55.287%
Melhores parâmetros para o modelo: {'positive': False, 'fit_intercept': True}


In [19]:
# Salvando os melhores parâmetros em uma lista
melhoresParametrosRL = []
for k in randomizedSearch.best_params_:
    melhoresParametrosRL.append(randomizedSearch.best_params_[k])

In [20]:
# Utilizando os melhores parâmetros segundo o RandomizedSearchCV
# Criando o modelo
linearRegression = LinearRegression(positive=melhoresParametrosRL[0], fit_intercept=melhoresParametrosRL[1])

# Treinamento do modelo
linearRegression.fit(Xtreino, Ytreino)

# Previsões com os dados de teste
previsoes = linearRegression.predict(Xteste)

# Calculando o R2 do modelo
r2 = r2_score(Yteste, previsoes)
print("R2 do modelo: %.2f" % (r2*100) + "%")

R2 do modelo: 59.78%


In [21]:
# R2 com os dados padronizados: 60,58%
# R2 sem transformar os dados: 60,58%

In [22]:
# Atualizando o dataframe com o desempenho dos algoritmos
dfComparaAlgoritmo.iloc[0,1] =  round((r2 * 100), 2)
dfComparaAlgoritmo

Unnamed: 0,Algoritmo,R2
0,Regressão Linear,59.78
1,Ridge Regression,-
2,KNN,-
3,Árvore de Decisão,-
4,SVM,-
5,Random Forest,-
6,Extra Trees Regressor,-
7,Bagging Regressor,-
8,AdaBoost,-
9,Voting Regressor,-


## Ridge Regression
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>

O algoritmo Ridge Regression trata alguns dos problemas do algoritmo Regressão Linear impondo uma penalidade no tamanho dos coeficientes através da regularização L2, de tal forma que minimiza a soma dos resíduos quadráticos. Ridge Regression cria um **modelo linear** e é mais robusto que o algoritmo Regressão Linear quando o conjunto de dados apresenta variáveis colineares.<br>
**Principais parâmetros**: <br>
**alpha**: constante que multiplica o termo L2, controlando a força da regularização. O valor padrão é 1.0; <br>
**solver**: define o algoritmo utilizado para construir o modelo.

</details>

In [23]:
# Carregando o módulo
from sklearn.linear_model import Ridge

In [24]:
# Pesquisando os melhores parâmetros com RandomizedSearchCV
# Cria um dicionário com os valores que serão testados como parâmetro
parametros = {
    "alpha": [0.2, 0.5, 0.8, 1.0, 1.3, 1.5],
    "solver": ['svd', 'cholesky', 'lsqr', 'sparse_cg', 'sag', 'saga', 'lbfgs'],
}

# Cria o modelo que desejamos testar os melhores parâmetros
ridge = Ridge()

# Cria o objeto do tipo RandomizedSearchCV
randomizedSearch = RandomizedSearchCV(estimator = ridge, param_distributions = parametros, random_state = 11)

# Treinando os parâmetros. ATENÇÃO: Deve-se usar todo conjunto de dados.
randomizedSearch.fit(X, y)

# Print do resultado
print("Avaliação média do R2: %.3f" % (randomizedSearch.best_score_ * 100) + "%")
print("Melhores parâmetros para o modelo:", randomizedSearch.best_params_)

Avaliação média do R2: 55.161%
Melhores parâmetros para o modelo: {'solver': 'cholesky', 'alpha': 0.5}


In [25]:
# Salvando os melhores parâmetros em uma lista
melhoresParametros = []
for k in randomizedSearch.best_params_:
    melhoresParametros.append(randomizedSearch.best_params_[k])

In [26]:
# Utilizando os melhores parâmetros segundo o RandomizedSearchCV
# Criando o modelo
ridge = Ridge(solver=melhoresParametros[0], alpha=melhoresParametros[1])

# Treinamento do modelo
ridge.fit(Xtreino, Ytreino)

# Previsões com os dados de teste
previsoes = ridge.predict(Xteste)

# Calculando o R2 do modelo
r2 = r2_score(Yteste, previsoes)
print("R2 do modelo: %.2f" % (r2*100) + "%")

R2 do modelo: 59.35%


In [27]:
# R2 com os dados padronizados: 60,61%
# R2 sem transformar os dados: 60,58

In [28]:
# Atualizando o dataframe com o desempenho dos algoritmos
dfComparaAlgoritmo.iloc[1,1] =  round((r2 * 100), 2)
dfComparaAlgoritmo

Unnamed: 0,Algoritmo,R2
0,Regressão Linear,59.78
1,Ridge Regression,59.35
2,KNN,-
3,Árvore de Decisão,-
4,SVM,-
5,Random Forest,-
6,Extra Trees Regressor,-
7,Bagging Regressor,-
8,AdaBoost,-
9,Voting Regressor,-


## KNN
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>

KNN cria um **modelo não linear** que considera a distância entre os dados para encontrar padrões no dataset e pode ser utilizado tanto em problemas de classificação como em problemas de regressão. Os principais parâmetros são: n_neighbors, weights e algorithm.

</details>

In [29]:
# Carregando o módulo
from sklearn.neighbors import KNeighborsRegressor

In [30]:
# Pesquisando os melhores parâmetros com RandomizedSearchCV
# Cria um dicionário com os valores que serão testados como parâmetro
parametros = {
    "n_neighbors": [2, 3, 4, 5, 6, 7, 8, 9],
    "weights": ['uniform', 'distance'],
    "algorithm": ['ball_tree', 'kd_tree', 'brute']
}

# Cria o modelo que desejamos testar os melhores parâmetros
kNeighborsRegressor = KNeighborsRegressor()

# Cria o objeto do tipo RandomizedSearchCV
randomizedSearch = RandomizedSearchCV(estimator = kNeighborsRegressor, param_distributions = parametros, random_state = 11)

# Treinando os parâmetros. ATENÇÃO: Deve-se usar todo conjunto de dados.
randomizedSearch.fit(X, y)

# Print do resultado
print("Avaliação média do R2: %.3f" % (randomizedSearch.best_score_ * 100) + "%")
print("Melhores parâmetros para o modelo:", randomizedSearch.best_params_)

Avaliação média do R2: 48.087%
Melhores parâmetros para o modelo: {'weights': 'uniform', 'n_neighbors': 9, 'algorithm': 'ball_tree'}


In [31]:
# Salvando os melhores parâmetros em uma lista
melhoresParametros = []
for k in randomizedSearch.best_params_:
    melhoresParametros.append(randomizedSearch.best_params_[k])

In [32]:
# Utilizando os melhores parâmetros segundo o RandomizedSearchCV
# Criando o modelo
kNeighborsRegressor = KNeighborsRegressor(weights = melhoresParametros[0],
                                          n_neighbors = melhoresParametros[1],
                                          algorithm = melhoresParametros[2])

# Treinamento do modelo
kNeighborsRegressor.fit(Xtreino, Ytreino)

# Previsões com os dados de teste
previsoes = kNeighborsRegressor.predict(Xteste)

# Calculando o R2 do modelo
r2 = r2_score(Yteste, previsoes)
print("R2 do modelo: %.2f" % (r2*100) + "%")

R2 do modelo: 70.90%


In [33]:
# R2 com os dados padronizados: 68,92%
# R2 sem transformar os dados: 18,61%

In [34]:
# Atualizando o dataframe com o desempenho dos algoritmos
dfComparaAlgoritmo.iloc[2,1] =  round((r2 * 100), 2)
dfComparaAlgoritmo

Unnamed: 0,Algoritmo,R2
0,Regressão Linear,59.78
1,Ridge Regression,59.35
2,KNN,70.9
3,Árvore de Decisão,-
4,SVM,-
5,Random Forest,-
6,Extra Trees Regressor,-
7,Bagging Regressor,-
8,AdaBoost,-
9,Voting Regressor,-


## Árvore de Decisão
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>

O algoritmo Árvore de Decisão utiliza métodos baseados em procura para criar **modelos não-lineares** estruturados em árvore de decisão. Este algoritmo  pode ser utilizado em problemas de regressão e classificação. <br>
**Principais parâmetros**: <br>
**min_samples_split**: utilizado para realizar a poda da árvore definindo o número mínimo de amostras necessárias em um nó folha;<br>
**max_depth**: define a profundidade máxima da árvore;<br>
**criterion**: mede a qualidade dos nós da árvore;<br>
**splitter**: define a estratégia usada para escolher a divisão em cada nó.


</details>

In [35]:
# Carregando o módulo
from sklearn.tree import DecisionTreeRegressor

In [36]:
# Pesquisando os melhores parâmetros com RandomizedSearchCV
# Cria um dicionário com os valores que serão testados como parâmetro
parametros = {
    "min_samples_split": [2, 3, 4, 5, 6],
    "max_depth": [100, 150, 200, 350, 400, 550],
    "criterion": ['squared_error', 'friedman_mse', 'absolute_error', 'poisson'],
    "splitter": ["best", "random"]
}

# Cria o modelo que desejamos testar os melhores parâmetros
decisionTreeRegressor = DecisionTreeRegressor(random_state=81)

# Cria o objeto do tipo RandomizedSearchCV
randomizedSearch = RandomizedSearchCV(estimator = decisionTreeRegressor, param_distributions = parametros, random_state = 11)

# Treinando os parâmetros. ATENÇÃO: Deve-se usar todo conjunto de dados.
randomizedSearch.fit(X, y)

# Print do resultado
print("Avaliação média do R2: %.3f" % (randomizedSearch.best_score_ * 100) + "%")
print("Melhores parâmetros para o modelo:", randomizedSearch.best_params_)

Avaliação média do R2: 37.400%
Melhores parâmetros para o modelo: {'splitter': 'random', 'min_samples_split': 6, 'max_depth': 350, 'criterion': 'squared_error'}


In [37]:
# Salvando os melhores parâmetros em uma lista
melhoresParametrosAR = []
for k in randomizedSearch.best_params_:
    melhoresParametrosAR.append(randomizedSearch.best_params_[k])

In [38]:
# Utilizando os melhores parâmetros segundo o RandomizedSearchCV
# Criando o modelo
decisionTreeRegressor = DecisionTreeRegressor(splitter = melhoresParametrosAR[0], 
                                              min_samples_split = melhoresParametrosAR[1],
                                              max_depth = melhoresParametrosAR[2],
                                              criterion = melhoresParametrosAR[3],
                                              random_state=8)

# Treinamento do modelo
decisionTreeRegressor.fit(Xtreino, Ytreino)

# Previsões com os dados de teste
previsoes = decisionTreeRegressor.predict(Xteste)

# Calculando o R2 do modelo
r2 = r2_score(Yteste, previsoes)
print("R2 do modelo: %.2f" % (r2*100) + "%")

R2 do modelo: 64.00%


In [39]:
# R2 com os dados padronizados: 66,55%
# R2 sem transformar os dados: 66,40%

In [40]:
# Atualizando o dataframe com o desempenho dos algoritmos
dfComparaAlgoritmo.iloc[3,1] =  round((r2 * 100), 2)
dfComparaAlgoritmo

Unnamed: 0,Algoritmo,R2
0,Regressão Linear,59.78
1,Ridge Regression,59.35
2,KNN,70.9
3,Árvore de Decisão,64.0
4,SVM,-
5,Random Forest,-
6,Extra Trees Regressor,-
7,Bagging Regressor,-
8,AdaBoost,-
9,Voting Regressor,-


## SVM
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>

**Principais Parâmetros**:<br>
**C**: define a força da regularização utilizada pelo algoritmo;<br>
**Loss**: especifica a função de custo.

</details>

In [41]:
# Carregando o módulo
from sklearn.svm import LinearSVR

In [42]:
# Pesquisando os melhores parâmetros com RandomizedSearchCV
# Cria um dicionário com os valores que serão testados como parâmetro
parametros = {
   "C": [0.001,0.01,0.1,1.0],
   "loss": ['epsilon_insensitive', 'squared_epsilon_insensitive']
}

# Cria o modelo que desejamos testar os melhores parâmetros
linearSvr = LinearSVR()

# Cria o objeto do tipo RandomizedSearchCV
randomizedSearch = RandomizedSearchCV(estimator = linearSvr, param_distributions = parametros, random_state = 11)

# Treinando os parâmetros. ATENÇÃO: Deve-se usar todo conjunto de dados.
randomizedSearch.fit(X, y)

# Print do resultado
print("Avaliação média do R2: %.3f" % (randomizedSearch.best_score_ * 100) + "%")
print("Melhores parâmetros para o modelo:", randomizedSearch.best_params_)

Avaliação média do R2: 55.165%
Melhores parâmetros para o modelo: {'loss': 'squared_epsilon_insensitive', 'C': 1.0}


In [43]:
# Salvando os melhores parâmetros em uma lista
melhoresParametrosSVM = []
for k in randomizedSearch.best_params_:
    melhoresParametrosSVM.append(randomizedSearch.best_params_[k])

In [44]:
# Utilizando os melhores parâmetros segundo o RandomizedSearchCV
# Criando o modelo
linearSvr = LinearSVR(loss=melhoresParametrosSVM[0], C=melhoresParametrosSVM[1])

# Treinamento do modelo
linearSvr.fit(Xtreino, Ytreino)

# Previsões com os dados de teste
previsoes = linearSvr.predict(Xteste)

# Calculando o R2 do modelo
r2 = r2_score(Yteste, previsoes)
print("R2 do modelo: %.2f" % (r2*100) + "%")

R2 do modelo: 59.35%


In [45]:
# R2 com os dados padronizados: 73,75%
# R2 sem transformar os dados: -4,32%

In [46]:
# Atualizando o dataframe com o desempenho dos algoritmos
dfComparaAlgoritmo.iloc[4,1] =  round((r2 * 100), 2)
dfComparaAlgoritmo

Unnamed: 0,Algoritmo,R2
0,Regressão Linear,59.78
1,Ridge Regression,59.35
2,KNN,70.9
3,Árvore de Decisão,64.0
4,SVM,59.35
5,Random Forest,-
6,Extra Trees Regressor,-
7,Bagging Regressor,-
8,AdaBoost,-
9,Voting Regressor,-


# Métodos Ensemble
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>

Método ensemble é uma técnica de aprendizado de máquina que combina o resultado de múltiplos modelos com o objetivo de produzir um melhor modelo preditivo. 

</details>

## Random Forest
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>

Random Forest cria uma floresta aleatória com muitas árvores de decisão.<br>
**Principais parâmetros**:<br>
**n_estimators**: define o número de árvores da floresta. O valor padrão é 100;<br>
**criterion**: define a função utilizada para medir a qualidade de uma divisão de nós. Os possíveis valores são: squared_error, absolute_error e poisson;<br>
**max_depth**: define a profundidade máxima da árvore. Se nenhum valor é informado, os nós são expandidos até que todas as folhas sejam puras ou até que todas as folhas contenham uma quantidade de amostras menor do que foi definida no parâmetro min_samples_split.<br>
**min_samples_split**: define o número mínimo de amostras necessárias para dividir um nó interno.

</details>

In [47]:
# Carregando o módulo
from sklearn.ensemble import RandomForestRegressor

In [48]:
# Pesquisando os melhores parâmetros com RandomizedSearchCV
# Cria um dicionário com os valores que serão testados como parâmetro
'''
parametros = {
    "n_estimators": [100, 150, 250, 300, 400, 550],
    "criterion": ['squared_error', 'absolute_error', 'poisson'], 
    "max_depth": [100, 150, 200, 350, 400, 550],
    "min_samples_split": [2, 3, 4, 5, 6] 
}

# Cria o modelo que desejamos testar os melhores parâmetros
randomForestRegressor = RandomForestRegressor(random_state=81)

# Cria o objeto do tipo RandomizedSearchCV
randomizedSearch = RandomizedSearchCV(estimator = randomForestRegressor, param_distributions = parametros, random_state = 11)

# Treinando os parâmetros. ATENÇÃO: Deve-se usar todo conjunto de dados.
randomizedSearch.fit(X, y)

# Print do resultado
print("Avaliação média do R2: %.3f" % (randomizedSearch.best_score_ * 100) + "%")
print("Melhores parâmetros para o modelo:", randomizedSearch.best_params_)

'''

'\nparametros = {\n    "n_estimators": [100, 150, 250, 300, 400, 550],\n    "criterion": [\'squared_error\', \'absolute_error\', \'poisson\'], \n    "max_depth": [100, 150, 200, 350, 400, 550],\n    "min_samples_split": [2, 3, 4, 5, 6] \n}\n\n# Cria o modelo que desejamos testar os melhores parâmetros\nrandomForestRegressor = RandomForestRegressor(random_state=81)\n\n# Cria o objeto do tipo RandomizedSearchCV\nrandomizedSearch = RandomizedSearchCV(estimator = randomForestRegressor, param_distributions = parametros, random_state = 11)\n\n# Treinando os parâmetros. ATENÇÃO: Deve-se usar todo conjunto de dados.\nrandomizedSearch.fit(X, y)\n\n# Print do resultado\nprint("Avaliação média do R2: %.3f" % (randomizedSearch.best_score_ * 100) + "%")\nprint("Melhores parâmetros para o modelo:", randomizedSearch.best_params_)\n\n'

In [49]:
# Salvando os melhores parâmetros em uma lista
melhoresParametros = []
for k in randomizedSearch.best_params_:
    melhoresParametros.append(randomizedSearch.best_params_[k])

In [50]:
# Utilizando os melhores parâmetros segundo o RandomizedSearchCV
# Criando o modelo
'''
randomForestRegressor = RandomForestRegressor(n_estimators = melhoresParametros[0], 
                                              min_samples_split = melhoresParametros[1], 
                                              max_depth = melhoresParametros[2],
                                              criterion = melhoresParametros[3],
                                              random_state=26)
'''
randomForestRegressor = RandomForestRegressor(random_state=6)

# Treinamento do modelo
randomForestRegressor.fit(Xtreino, Ytreino)

# Previsões com os dados de teste
previsoes = randomForestRegressor.predict(Xteste)

# Calculando o R2 do modelo
r2 = r2_score(Yteste, previsoes)
print("R2 do modelo: %.2f" % (r2*100) + "%")

R2 do modelo: 80.80%


In [51]:
# R2 com os dados padronizados: 81,45%
# R2 sem transformar os dados: 81,44%

In [52]:
# Atualizando o dataframe com o desempenho dos algoritmos
dfComparaAlgoritmo.iloc[5,1] =  round((r2 * 100), 2)
dfComparaAlgoritmo

Unnamed: 0,Algoritmo,R2
0,Regressão Linear,59.78
1,Ridge Regression,59.35
2,KNN,70.9
3,Árvore de Decisão,64.0
4,SVM,59.35
5,Random Forest,80.8
6,Extra Trees Regressor,-
7,Bagging Regressor,-
8,AdaBoost,-
9,Voting Regressor,-


## Extra Trees Randomized Regressor
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>

A biblioteca Scikit-Learn implementa dois algoritmos Ensemble baseados em árvores de decisão aleatórias: o algoritmo Random Forest e o algoritmo Extra Trees Randomized. Ambos podem ser utilizados tanto em problemas de classificação como em problemas de regressão. Assim como o Random Forest, o algoritmo Extra Trees Randomized  também cria diversas árvores de decisão, diferenciando-se nas regras utilizadas para dividir os nós. <br>
**Principais parâmetros**: <br>
**n_estimators**: define o número de árvores da floresta. O valor padrão é 100;<br>
**criterion**: define a função utilizada para medir a qualidade de uma divisão de nós. Os possíveis valores são: squared_error, absolute_error e poisson;<br>
**max_depth**: define a profundidade máxima da árvore. Se nenhum valor é informado, os nós são expandidos até que todas as folhas sejam puras ou até que todas as folhas contenham uma quantidade de amostras menor do que foi definida no parâmetro min_samples_split.<br>
**min_samples_split**: define o número mínimo de amostras necessárias para dividir um nó interno.


</details>

In [53]:
from sklearn.ensemble import ExtraTreesRegressor

In [54]:
# Pesquisando os melhores parâmetros com RandomizedSearchCV
# Cria um dicionário com os valores que serão testados como parâmetro
'''
parametros = {
    "n_estimators": [100, 150, 250, 300, 400, 550],
    "criterion": ['squared_error', 'absolute_error'], 
    "max_depth": [100, 150, 200, 350, 400, 550],
    "min_samples_split": [2, 3, 4, 5, 6] 
}

# Cria o modelo que desejamos testar os melhores parâmetros
extraTreesRegressor = ExtraTreesRegressor(random_state=81)

# Cria o objeto do tipo RandomizedSearchCV
randomizedSearch = RandomizedSearchCV(estimator = extraTreesRegressor, param_distributions = parametros, random_state = 11)

# Treinando os parâmetros. ATENÇÃO: Deve-se usar todo conjunto de dados.
randomizedSearch.fit(X, y)

# Print do resultado
print("Avaliação média do R2: %.3f" % (randomizedSearch.best_score_ * 100) + "%")
print("Melhores parâmetros para o modelo:", randomizedSearch.best_params_)
'''

'\nparametros = {\n    "n_estimators": [100, 150, 250, 300, 400, 550],\n    "criterion": [\'squared_error\', \'absolute_error\'], \n    "max_depth": [100, 150, 200, 350, 400, 550],\n    "min_samples_split": [2, 3, 4, 5, 6] \n}\n\n# Cria o modelo que desejamos testar os melhores parâmetros\nextraTreesRegressor = ExtraTreesRegressor(random_state=81)\n\n# Cria o objeto do tipo RandomizedSearchCV\nrandomizedSearch = RandomizedSearchCV(estimator = extraTreesRegressor, param_distributions = parametros, random_state = 11)\n\n# Treinando os parâmetros. ATENÇÃO: Deve-se usar todo conjunto de dados.\nrandomizedSearch.fit(X, y)\n\n# Print do resultado\nprint("Avaliação média do R2: %.3f" % (randomizedSearch.best_score_ * 100) + "%")\nprint("Melhores parâmetros para o modelo:", randomizedSearch.best_params_)\n'

In [55]:
# Salvando os melhores parâmetros em uma lista
melhoresParametros = []
for k in randomizedSearch.best_params_:
    melhoresParametros.append(randomizedSearch.best_params_[k])

In [56]:
# Utilizando os melhores parâmetros segundo o RandomizedSearchCV
# Criando o modelo
'''
extraTreesRegressor = ExtraTreesRegressor(n_estimators = melhoresParametros[0], 
                                              min_samples_split = melhoresParametros[1], 
                                              max_depth = melhoresParametros[2],
                                              criterion = melhoresParametros[3],
                                              random_state=26)
'''
extraTreesRegressor = ExtraTreesRegressor(random_state=6)

# Treinamento do modelo
extraTreesRegressor.fit(Xtreino, Ytreino)

# Previsões com os dados de teste
previsoes = extraTreesRegressor.predict(Xteste)

# Calculando o R2 do modelo
r2 = r2_score(Yteste, previsoes)
print("R2 do modelo: %.2f" % (r2*100) + "%")

R2 do modelo: 81.35%


In [57]:
# Atualizando o dataframe com o desempenho dos algoritmos
dfComparaAlgoritmo.iloc[6,1] =  round((r2 * 100), 2)
dfComparaAlgoritmo

Unnamed: 0,Algoritmo,R2
0,Regressão Linear,59.78
1,Ridge Regression,59.35
2,KNN,70.9
3,Árvore de Decisão,64.0
4,SVM,59.35
5,Random Forest,80.8
6,Extra Trees Regressor,81.35
7,Bagging Regressor,-
8,AdaBoost,-
9,Voting Regressor,-


## Bagging Regressor
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>

Bagging Regressor é um algoritmo Ensemble que combina o resultado de múltiplos modelos de um mesmo algoritmo, com base na média ou por votação, com o objetivo de produzir um melhor modelo preditivo. Esse algoritmo normalmente é usado como uma forma de reduzir a variância de um modelo base, por exemplo, uma árvore de decisão, introduzindo a aleatoriedade em seu procedimento de construção e, em seguida, construindo um modelo mais preciso. <br>
Nós trabalhamos diferente com o algoritmo Bagging Regressor, visto que, não alteramos os seus parâmetros. De fato, utilizamos os melhores parâmetros escolhidos para o modelo base. 

</details>

In [58]:
# Carregando o módulo do algoritmo
from sklearn.ensemble import BaggingRegressor

In [59]:
# Cria o modelo de árvore de decisão
decisionTreeRegressorBR = DecisionTreeRegressor(splitter = melhoresParametrosAR[0], 
                                              min_samples_split = melhoresParametrosAR[1],
                                              max_depth = melhoresParametrosAR[2],
                                              criterion = melhoresParametrosAR[3])

# Criando o modelo Bagging Regressor
baggingRegressor = BaggingRegressor(base_estimator = decisionTreeRegressorBR, random_state = 118)

# Treinamento do modelo
baggingRegressor.fit(Xtreino, Ytreino)

# Previsões com os dados de teste
previsoes = baggingRegressor.predict(Xteste)

# Calculando o R2 do modelo
r2 = r2_score(Yteste, previsoes)
print("R2 do modelo: %.2f" % (r2*100) + "%")

R2 do modelo: 78.63%


In [60]:
# R2 com os dados padronizados: 79,51%
# R2 sem transformar os dados: 79,52%

In [61]:
# Atualizando o dataframe com o desempenho dos algoritmos
dfComparaAlgoritmo.iloc[7,1] =  round((r2 * 100), 2)
dfComparaAlgoritmo

Unnamed: 0,Algoritmo,R2
0,Regressão Linear,59.78
1,Ridge Regression,59.35
2,KNN,70.9
3,Árvore de Decisão,64.0
4,SVM,59.35
5,Random Forest,80.8
6,Extra Trees Regressor,81.35
7,Bagging Regressor,78.63
8,AdaBoost,-
9,Voting Regressor,-


## AdaBoost
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>

O algoritmo AdaBoost treina uma sequência de algoritmos fracos em repetidas amostras do conjunto de dados. As previsões de todos estes modelos são então combinadas por meio de uma votação majoritária ponderada para produzir a previsão final. AdaBoost utiliza a técnica Boosting. Essa técnica funciona da seguinte forma, inicialmente, todos os dados do conjunto de treinamento recebem um peso idêntico. Então, o modelo é treinado usando o conjunto de treinamento. Em seguida, o erro do modelo no conjunto de treinamento é calculado. Na sequência, os pesos são atualizados com base nos erros do modelo. Sendo assim, um novo modelo é treinado usando o conjunto de pesos modificados. Novamente, o erro é calculado, novos pesos são atribuídos e mais uma vez um modelo é treinado. E o processo se repete até o número de iterações inicialmente definido. <br>
Principais parâmetros: <br>
- **n_estimator**: define o máximo de modelos utilizados pelo Boosting do algoritmo;<br>
- **learning_rate**: define o peso aplicado para cada modelo de cada iteração do Boosting. Um valor alto aumenta a contribuição de cada modelo;<br>
- **algorithm**: define o algoritmo para calcular o boosting.


</details>

In [62]:
# Carregando o módulo do algoritmo
from sklearn.ensemble import AdaBoostRegressor

In [63]:
# Pesquisando os melhores parâmetros com RandomizedSearchCV
# Cria um dicionário com os valores que serão testados como parâmetro
parametros = {
   "n_estimators": [50, 100, 150],
   "learning_rate": [0.1, 0.5, 1.0, 1.5],
   "loss": ['linear', 'square', 'exponential']
}

# Cria o modelo que desejamos testar os melhores parâmetros
adaBoostRegressor = AdaBoostRegressor()

# Cria o objeto do tipo RandomizedSearchCV
randomizedSearch = RandomizedSearchCV(estimator = adaBoostRegressor, param_distributions = parametros, random_state = 11)

# Treinando os parâmetros. ATENÇÃO: Deve-se usar todo conjunto de dados.
randomizedSearch.fit(X, y)

# Print do resultado
print("Avaliação média do R2: %.3f" % (randomizedSearch.best_score_ * 100) + "%")
print("Melhores parâmetros para o modelo:", randomizedSearch.best_params_)

Avaliação média do R2: 50.722%
Melhores parâmetros para o modelo: {'n_estimators': 50, 'loss': 'exponential', 'learning_rate': 0.1}


In [64]:
# Salvando os melhores parâmetros em uma lista
melhoresParametros = []
for k in randomizedSearch.best_params_:
    melhoresParametros.append(randomizedSearch.best_params_[k])

In [65]:
# Utilizando os melhores parâmetros segundo o RandomizedSearchCV
# Criando o modelo
adaBoostRegressor = AdaBoostRegressor(n_estimators=melhoresParametros[0],
                                      loss=melhoresParametros[1],
                                      learning_rate=melhoresParametros[2])

# Treinamento do modelo
adaBoostRegressor.fit(Xtreino, Ytreino)

# Previsões com os dados de teste
previsoes = adaBoostRegressor.predict(Xteste)

# Calculando o R2 do modelo
r2 = r2_score(Yteste, previsoes)
print("R2 do modelo: %.2f" % (r2*100) + "%")

R2 do modelo: 56.25%


In [66]:
# R2 com os dados padronizados: 39,73%
# R2 sem transformar os dados: 48,89%

In [67]:
# Atualizando o dataframe com o desempenho dos algoritmos
dfComparaAlgoritmo.iloc[8,1] =  round((r2 * 100), 2)
dfComparaAlgoritmo

Unnamed: 0,Algoritmo,R2
0,Regressão Linear,59.78
1,Ridge Regression,59.35
2,KNN,70.9
3,Árvore de Decisão,64.0
4,SVM,59.35
5,Random Forest,80.8
6,Extra Trees Regressor,81.35
7,Bagging Regressor,78.63
8,AdaBoost,56.25
9,Voting Regressor,-


## Voting Regressor
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>

A ideia por trás do Voting Regressor é combinar regressores de aprendizado de máquina conceitualmente diferentes e retornar os valores médios previstos. O modelo final pode ser útil para equilibrar as fraquezas individuais de cada modelo. <br>
Normalmente, não alteramos os parâmetros do algoritmo Voting Regressor e utilizamos os melhores parâmetros de cada algoritmo que será combinado.

</details>

In [68]:
# Carregando o módulo
from sklearn.ensemble import VotingRegressor

In [69]:
# Criando os modelos
listaDeModelos = []

# Cria o modelo Regressão Linear
linearRegressionVR = LinearRegression(positive=melhoresParametrosRL[0], fit_intercept=melhoresParametrosRL[1])
listaDeModelos.append(('Regressão Linear', linearRegressionVR))

# Cria o modelo Árvore de Decisão
decisionTreeRegressorVR = DecisionTreeRegressor(splitter = melhoresParametrosAR[0], 
                                              min_samples_split = melhoresParametrosAR[1],
                                              max_depth = melhoresParametrosAR[2],
                                              criterion = melhoresParametrosAR[3],
                                              random_state=16)
listaDeModelos.append(('Árvore de Decisão', decisionTreeRegressorVR))

# Cria o modelo SVM
linearSvrVR = LinearSVR(loss=melhoresParametrosSVM[0], C=melhoresParametrosSVM[1])
listaDeModelos.append(('SVM', linearSvrVR))

# Criando o modelo Voting Regressor
votingRegressor = VotingRegressor(listaDeModelos)

# Treinamento do modelo
votingRegressor.fit(Xtreino, Ytreino)

# Previsões com os dados de teste
previsoes = votingRegressor.predict(Xteste)

# Calculando o R2 do modelo
r2 = r2_score(Yteste, previsoes)
print("R2 do modelo: %.2f" % (r2*100) + "%")

R2 do modelo: 71.55%


In [70]:
# R2 com os dados padronizados: 74,68%
# R2 sem transformar os dados: 62,64%

In [71]:
# Atualizando o dataframe com o desempenho dos algoritmos
dfComparaAlgoritmo.iloc[9,1] =  round((r2 * 100), 2)
dfComparaAlgoritmo

Unnamed: 0,Algoritmo,R2
0,Regressão Linear,59.78
1,Ridge Regression,59.35
2,KNN,70.9
3,Árvore de Decisão,64.0
4,SVM,59.35
5,Random Forest,80.8
6,Extra Trees Regressor,81.35
7,Bagging Regressor,78.63
8,AdaBoost,56.25
9,Voting Regressor,71.55


## Gradient Tree Boosting
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>

O algoritmo Ensemble Gradient Tree Boosting implementa a técnica Boosting e é bastante preciso e eficaz, podendo ser utilizado em problemas de classificação e regressão. <br>
Principais parâmetros: <br>
- **loss**: define a função de custo utilizada para calcular o erro;<br>
- **n_estimators**: define o máximo de modelos utilizados pelo Boosting do algoritmo; <br>
- **learning_rate**: define o peso aplicado para cada modelo de cada iteração do Boosting. Um valor alto aumenta a contribuição de cada modelo;

</details>

In [72]:
# Carregando o módulo
from sklearn.ensemble import GradientBoostingRegressor

In [73]:
# Pesquisando os melhores parâmetros com RandomizedSearchCV
# Cria um dicionário com os valores que serão testados como parâmetro
parametros = {
   "loss": ['squared_error', 'absolute_error', 'huber', 'quantile'],
   "n_estimators": [100, 110, 150],
   "learning_rate": [0.1, 0.5, 1.0, 1.5],
}

# Cria o modelo que desejamos testar os melhores parâmetros
gradientBoostingRegressor = GradientBoostingRegressor()

# Cria o objeto do tipo RandomizedSearchCV
randomizedSearch = RandomizedSearchCV(estimator = gradientBoostingRegressor, param_distributions = parametros, random_state = 11)

# Treinando os parâmetros. ATENÇÃO: Deve-se usar todo conjunto de dados.
randomizedSearch.fit(X, y)

# Print do resultado
print("Avaliação média do R2: %.3f" % (randomizedSearch.best_score_ * 100) + "%")
print("Melhores parâmetros para o modelo:", randomizedSearch.best_params_)

Avaliação média do R2: 67.726%
Melhores parâmetros para o modelo: {'n_estimators': 150, 'loss': 'huber', 'learning_rate': 0.1}


In [74]:
# Salvando os melhores parâmetros em uma lista
melhoresParametros = []
for k in randomizedSearch.best_params_:
    melhoresParametros.append(randomizedSearch.best_params_[k])

In [75]:
# Utilizando os melhores parâmetros segundo o RandomizedSearchCV
# Criando o modelo
gradientBoostingRegressor = GradientBoostingRegressor(n_estimators=melhoresParametros[0], 
                                                      loss=melhoresParametros[1],
                                                      learning_rate=melhoresParametros[2])

# Treinamento do modelo
gradientBoostingRegressor.fit(Xtreino, Ytreino)

# Previsões com os dados de teste
previsoes = gradientBoostingRegressor.predict(Xteste)

# Calculando o R2 do modelo
r2 = r2_score(Yteste, previsoes)
print("R2 do modelo: %.2f" % (r2*100) + "%")

R2 do modelo: 79.32%


In [76]:
# R2 com os dados padronizados: 78,13%
# R2 sem transformar os dados: 78,93%

In [77]:
# Atualizando o dataframe com o desempenho dos algoritmos
dfComparaAlgoritmo.iloc[10,1] =  round((r2 * 100), 2)
dfComparaAlgoritmo

Unnamed: 0,Algoritmo,R2
0,Regressão Linear,59.78
1,Ridge Regression,59.35
2,KNN,70.9
3,Árvore de Decisão,64.0
4,SVM,59.35
5,Random Forest,80.8
6,Extra Trees Regressor,81.35
7,Bagging Regressor,78.63
8,AdaBoost,56.25
9,Voting Regressor,71.55


In [78]:
# Ordena o DataFrame de acordo o valor do R2, em ordem descrecente
dfComparaAlgoritmo.sort_values(by=["R2"], ascending=False, inplace=True)
dfComparaAlgoritmo

Unnamed: 0,Algoritmo,R2
6,Extra Trees Regressor,81.35
5,Random Forest,80.8
10,Gradient Tree Boosting,79.32
7,Bagging Regressor,78.63
9,Voting Regressor,71.55
2,KNN,70.9
3,Árvore de Decisão,64.0
0,Regressão Linear,59.78
1,Ridge Regression,59.35
4,SVM,59.35


# Salvando, carregando e usando o modelo criado

In [79]:
# Selecionando o modelo final
modeloSelecionado = dfComparaAlgoritmo.iloc[0,0]

if modeloSelecionado == 'Regressão Linear':
    modeloFinal = linearRegression
elif modeloSelecionado == 'Ridge Regression':
    modeloFinal= ridge
elif modeloSelecionado == 'KNN':
    modeloFinal = kNeighborsRegressor
elif modeloSelecionado == 'Árvore de Decisão':
    modeloFinal == decisionTreeRegressor
elif modeloSelecionado == 'SVM':
    modeloFinal = svr
elif modeloSelecionado == 'Random Forest':
    modeloFinal = randomForestRegressor
elif modeloSelecionado == 'Extra Trees Regressor':
    modeloFinal = extraTreesRegressor
elif modeloSelecionado == 'Bagging Regressor':
    modeloFinal = baggingRegressor
elif modeloSelecionado == 'AdaBoost':
    modeloFinal = adaBoostRegressor
elif modeloSelecionado == 'Voting Regressor':
    modeloFinal = votingRegressor
elif modeloSelecionado == 'Gradient Tree Boosting':
    modeloFinal = gradientBoostingRegressor

modeloFinal

ExtraTreesRegressor(random_state=6)

## Salvando e carregando o modelo
<details>
    <summary>
        <a class="btnfire small stroke"><em class="fas fa-chevron-circle-down"></em>&nbsp;&nbsp;Clique para mais detalhes</a>
    </summary>
    <br>

O módulo **pickle** implementa protocolos binários para serializar e desserilizar um objeto Python. **Pickling** é o processo pelo qual um objeto Python é convertido em um fluxo de bytes, e **unpickling** é a operação inversa, pela qual um fluxo de bytes de um arquivo binário ou objeto semelhante a bytes é convertido novamente em um objeto.

</details>

In [80]:
# Carregando o módulo
import pickle

In [81]:
# Salvando o modelo
arquivo = 'Dados/CaliforniaHousing/modeloRegressorFinal.sav'
pickle.dump(modeloFinal, open(arquivo, 'wb'))
print("Modelo salvo!")

Modelo salvo!


In [82]:
# Carregando o modelo
modeloRegressor = pickle.load(open(arquivo, 'rb'))
print("Modelo carregado!")

Modelo carregado!


In [83]:
# Salvando o objeto de normalização dos dados
arquivoNormalizador = 'Dados/CaliforniaHousing/normalizador.sav'
pickle.dump(min_max_scaler, open(arquivoNormalizador, 'wb'))
print("Normalizador salvo!")

Normalizador salvo!


In [84]:
# Carregando o objeto de normalização dos dados
normalizador = pickle.load(open(arquivoNormalizador, 'rb'))
print("Normalizador carregado!")

Normalizador carregado!


## Usando o modelo

In [85]:
# Visualizando a variável
quarteirao

Unnamed: 0,Mediana da renda,Mediana idade das casas,Média de cômodos,Média de dormitórios,População,Média de membros da família,Latitude,Longitude,Mediana do valor das casas
0,8.3252,41.0,6.984127,1.02381,322.0,2.555556,37.88,-122.23,4.526


In [86]:
# Normalizando os novos dados
novosDados = quarteirao[["Mediana da renda", "Mediana idade das casas", "Média de cômodos", "Média de dormitórios", "População", "Média de membros da família", "Latitude", "Longitude"]].values
novosDadosNormalizados = normalizador.transform(novosDados)
novosDadosNormalizados

array([[0.53966842, 0.78431373, 0.0435123 , 0.02046866, 0.00894083,
        0.00149943, 0.5674814 , 0.21115538]])

In [87]:
# Fazendo previsões
previsoes = modeloRegressor.predict(novosDadosNormalizados)
previsoes

array([4.3058236])

In [88]:
# Visualizando o valor real da Mediana do valor das casas
medianaQuarteirao

0    4.526
Name: Mediana do valor das casas, dtype: float64