<a href="https://colab.research.google.com/github/henryyuzo/biblioteca_pandas/blob/main/Modeling_Pr%C3%A1tico.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [1]:
from sklearn import datasets

In [2]:
# load_boston foi removido do sklearn na v1.2, outra maneira de se utilizar a database
import pandas as pd
import numpy as np

data_url = "http://lib.stat.cmu.edu/datasets/boston"
housing = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)
data = np.hstack([housing.values[::2, :], housing.values[1::2, :2]])
target = housing.values[1::2, 2]

column_names = ["CRIM", "ZN", "INDUS", "CHAS", "NOX", "RM", "AGE", "DIS", "RAD", "TAX", "PTRATIO", "B", "LSTAT", "MEDV"]

# Criar DataFrame final com nomes de colunas
df = pd.DataFrame(data, columns=column_names[:-1])  # Ignorar a coluna 'MEDV'
df['MEDV'] = target  # Adicionar a coluna 'MEDV'

# Exibir as primeiras linhas do DataFrame final
df.head()

Unnamed: 0,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3,396.9,4.98,24.0
1,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8,396.9,9.14,21.6
2,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8,392.83,4.03,34.7
3,0.03237,0.0,2.18,0.0,0.458,6.998,45.8,6.0622,3.0,222.0,18.7,394.63,2.94,33.4
4,0.06905,0.0,2.18,0.0,0.458,7.147,54.2,6.0622,3.0,222.0,18.7,396.9,5.33,36.2


#Modeling techniques

1. [Regressão Linear do sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html#sklearn.linear_model.LinearRegression)
2. [Support Vector Regression do sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVR.html#sklearn.svm.SVR)
3. [Decision Tree Regression do XGBoost](https://xgboost.readthedocs.io/en/stable/python/python_api.html)

Modeling Assumptions:
Apenas variáveis numéricas


#Test Desing
##Dataset split:
Separação de Train/Test dataset padrão com 20% de massa para teste via método sklearn.

##Métrica de avaliação do modelo:
Validação da métrica Mean Squared Error (MSE) e Root Mean Square Error (RMSE) para penalizar grandes erros de previsão,[ utilizando o método do sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_error.html#sklearn.metrics.mean_squared_error).

In [3]:
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split

In [4]:
X_train, X_test, y_train, y_test = train_test_split(data, target, test_size = 0.2, random_state = 42)

#1. Regressão Linear

In [5]:
# Criando e treinando o modelo de regressão linear
from sklearn.linear_model import LinearRegression
#regLinear = LinearRegression() // atribuindo o modelo de regressão linear à variável
#trained = regLinear.fit(X_train, y_train) // fornecendo a amostra de treino para o modelo de regressão linear
regLinear = LinearRegression().fit(X_train, y_train)

In [6]:
yPredLinear = regLinear.predict(X_test)

In [7]:
# Comparando o resultado predito (yPredLinear) com o resultado real (y_test) utilizando o MSE e RMSE
MSE_L = mean_squared_error(y_test, yPredLinear)
RMSE_L = np.sqrt(MSE_L)
print(f'MSE: {MSE_L*1000:f}') # indica que, em média, os preços previstos desviam MSE dos preços reais.
print(f'RMSE: {RMSE_L*1000:f}') # indica que, em média, os preços previstos desviam RMSE dos preços reais.

MSE: 24291.119475
RMSE: 4928.602183


#2. Support Vector Regression

In [8]:
# Criando e treinando o modelo de Support Vector Regression
from sklearn.svm import SVR
regSVR = SVR().fit(X_train, y_train)

In [9]:
# Comparando o resultado predito (yPredSVR) com o resultado real (y_test) utilizando o MSE e RMSE
yPredSVR = regSVR.predict(X_test)
MSE_SVR = mean_squared_error(y_test, yPredSVR)
RMSE_SVR = np.sqrt(MSE_SVR)
print(f'MSE: {MSE_SVR*1000:f}') # indica que, em média, os preços previstos desviam MSE dos preços reais.
print(f'RMSE: {RMSE_SVR*1000:f}') # indica que, em média, os preços previstos desviam RMSE dos preços reais.

MSE: 52838.365768
RMSE: 7269.000328


#3. Decision Tree Regression (XGBoost)

In [10]:
# Criando e treinando o modelo de Decision Tree Regression (XGBoost)
from xgboost import XGBRegressor
regXGB = XGBRegressor().fit(X_train, y_train)

In [11]:
# Comparando o resultado predito (yPredSVR) com o resultado real (y_test) utilizando o MSE e RMSE
yPredXGB = regXGB.predict(X_test)
MSE_XGB = mean_squared_error(y_test, yPredXGB)
RMSE_XGB = np.sqrt(MSE_XGB)
print(f'MSE: {MSE_XGB*1000:f}') # indica que, em média, os preços previstos desviam MSE dos preços reais.
print(f'RMSE: {RMSE_XGB*1000:f}') # indica que, em média, os preços previstos desviam RMSE dos preços reais.

MSE: 6909.231565
RMSE: 2628.541718


#Definindo o melhor modelo

MSE e RMSE, quanto menor os valores, mais precisos os resultados

In [12]:
# Criando os dicionários de resultados MSE e RMSE
resMSE = {'RegL': MSE_L, 'SVR': MSE_SVR, 'XGB': MSE_XGB}
resRMSE = {'RegL': RMSE_L, 'SVR': RMSE_SVR, 'XGB': RMSE_XGB}

# Encontrando os menores valores de MSE e RMSE
bMSE = min(resMSE.values())
bRMSE = min(resRMSE.values())

# Encontrando as chaves correspondentes aos menores valores de MSE e RMSE
chave_menor_MSE = [chave for chave, valor in resMSE.items() if valor == bMSE][0]
chave_menor_RMSE = [chave for chave, valor in resRMSE.items() if valor == bRMSE][0]

# Imprimindo os menores valores e os nomes das chaves
print(f'Melhor modelo de previsão: {chave_menor_MSE}')
print(f'MSE: {bMSE} * 1000 = {bMSE*1000}')
print(f'MSE: {bRMSE} * 1000 = {bRMSE*1000}')

Melhor modelo de previsão: XGB
MSE: 6.909231565384943 * 1000 = 6909.231565384944
MSE: 2.62854171840299 * 1000 = 2628.5417184029898


#Otimizando hiper-parâmetros
Utilizando o [Grid Search](https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html#sklearn.model_selection.GridSearchCV) do sklearn

In [13]:
from sklearn.model_selection import GridSearchCV

In [14]:
# Pegando os parâmetros do modelo
regXGB.get_params().keys()

dict_keys(['objective', 'base_score', 'booster', 'callbacks', 'colsample_bylevel', 'colsample_bynode', 'colsample_bytree', 'device', 'early_stopping_rounds', 'enable_categorical', 'eval_metric', 'feature_types', 'gamma', 'grow_policy', 'importance_type', 'interaction_constraints', 'learning_rate', 'max_bin', 'max_cat_threshold', 'max_cat_to_onehot', 'max_delta_step', 'max_depth', 'max_leaves', 'min_child_weight', 'missing', 'monotone_constraints', 'multi_strategy', 'n_estimators', 'n_jobs', 'num_parallel_tree', 'random_state', 'reg_alpha', 'reg_lambda', 'sampling_method', 'scale_pos_weight', 'subsample', 'tree_method', 'validate_parameters', 'verbosity'])

## Explicação dos hiper-parâmetros

Explicando os hiper-parâmetros de forma simples:

1. **max_depth**:
   - É como perguntar "quantas perguntas você pode fazer sobre uma casa antes de adivinhar o preço?".
   - Quanto mais profunda for a árvore, mais detalhes o modelo pode aprender sobre os dados, mas muito profunda pode fazer com que ele decore os dados em vez de entender.

2. **learning_rate**:
   - É como definir o tamanho dos passos que o modelo dá para aprender.
   - Uma taxa de aprendizado maior significa que ele aprenderá mais rápido, mas pode pular algumas nuances importantes.
   
3. **objective**:
   - É como dizer ao modelo qual é o objetivo final do aprendizado.
   - Aqui estamos dizendo que queremos prever preços de casas com o menor erro possível.

4. **booster**:
   - É como escolher o tipo de modelo que estamos construindo.
   - Estamos dizendo que queremos usar um modelo baseado em árvores de decisão.

5. **n_jobs**:
   - É como dizer ao computador quantos trabalhadores ele deve ter para construir o modelo.
   - Mais trabalhadores podem fazer o trabalho mais rápido, mas também podem sobrecarregar o computador.

6. **gamma**:
   - É como dizer ao modelo quando parar de fazer perguntas detalhadas.
   - Um valor maior significa que o modelo parará de fazer perguntas mais cedo.

7. **min_child_weight**:
   - É como dizer ao modelo quanto peso deve ter uma resposta antes de levá-la a sério.
   - Valores maiores significam que o modelo precisa de mais exemplos para considerar uma resposta válida.

8. **max_delta_step**:
   - É como dizer ao modelo para não mudar muito rapidamente.
   - Isso ajuda a tornar o modelo mais estável durante o treinamento.

9. **subsample**:
   - É como dizer ao modelo quantos exemplos ele deve usar para aprender de cada vez.
   - Usar menos exemplos pode ajudar a evitar que o modelo decore os dados em vez de aprender padrões gerais.

## Definindo os hiper-parâmetros

In [22]:
# Definindo os hiper-parâmetros
params = {
    'max_depth' : [5, 6, 7],                # Controla a complexidade do modelo e a capacidade de ajuste.
    'learning_rate' : [0.1],      # Taxa de aprendizado que controla a magnitude das atualizações nos pesos dos modelos durante o treinamento.
    'objective' : ["reg:squarederror"],     # Define a função de perda a ser otimizada durante o treinamento.
    'booster' : ["gbtree"],                 # Tipo de modelo a ser treinado
    'n_jobs' : [5],                         # Número de threads a serem usados durante o treinamento, quantos processos ele fará em paralelo
    'gamma' : [1],                       # Parâmetro de corte que controla a quantidade de redução da função de perda necessária para fazer uma nova divisão em um nó da árvore.
    'min_child_weight' : [1, 3],            # O peso mínimo necessário em uma folha para continuar dividindo
    'max_delta_step' : [0, 1],              # Limita a contribuição de cada árvore ao peso dos modelos durante o treinamento
    'subsample' : [1]                  # Fração de exemplos de treinamento a serem usados em cada etapa de treinamento.
}

In [23]:
# Definindo o modelo a ser executado
xgbGrid = GridSearchCV(XGBRegressor(), params,
                       refit = 'neg_mean_squared_error', # refit é a métrica para definir qual o melhor modelo (utilizar o nome da métrica)
                       verbose = True) # verbose descreve o passo a passo do que está ocorrendo

In [24]:
xgbGridModel = xgbGrid.fit(X_train, y_train)

Fitting 5 folds for each of 12 candidates, totalling 60 fits


In [25]:
# Encontrar os melhores parâmetros
xgbGridModel.best_params_

{'booster': 'gbtree',
 'gamma': 1,
 'learning_rate': 0.1,
 'max_delta_step': 0,
 'max_depth': 5,
 'min_child_weight': 1,
 'n_jobs': 5,
 'objective': 'reg:squarederror',
 'subsample': 1}

In [26]:
# Comparando o resultado predito (yPredGrid) com o resultado real (y_test) utilizando o MSE e RMSE
yPredGrid = xgbGridModel.predict(X_test)
MSE_Grid = mean_squared_error(y_test, yPredGrid)
RMSE_Grid = np.sqrt(MSE_Grid)
print(f'MSE: {MSE_Grid*1000:f}') # indica que, em média, os preços previstos desviam MSE dos preços reais.
print(f'RMSE: {RMSE_Grid*1000:f}') # indica que, em média, os preços previstos desviam RMSE dos preços reais.

MSE: 5941.294102
RMSE: 2437.476995
