<a href="https://colab.research.google.com/github/Gipedroso1997/Praticas_curso/blob/main/Machine_learning_BDD_California.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

> Objetivo: Prever o valor médio das casas em diferentes blocos de grupos na Califórnia.

**Seleção das Técnicas de Modelagem**

As técnicas de modelagem selecionadas para treinar os modelos de regressão foram:


Regressão Linear: modelo linear simples do Scikit-Learn

Support Vector Regression (SVR): modelo de regressão baseado em Support Vector Machines

Decision Tree Regression: modelo de árvore de decisão para regressão do XGBoost

**BASE DE DADOS**

fetch_california_housing, que oferece
 um conjunto de dados diferente, focado
 nas habitações da Califórnia

**Pressupostos dos Modelos**

Alguns pressupostos e limitações das técnicas selecionadas:


Aceitam apenas variáveis numéricas como entrada
Não trabalham nativamente com dados categóricos
Podem ter problemas com outliers

In [1]:
%pip install scikit-learn
from sklearn.datasets import fetch_california_housing



In [2]:
california_housing = fetch_california_housing()

In [3]:
X = california_housing.data
y = california_housing.target

In [4]:
import pandas as pd
import numpy as np

In [5]:
from sklearn.metrics import mean_squared_error, mean_absolute_error

In [6]:
from sklearn.model_selection import train_test_split, GridSearchCV

**TEST DESIGN**

Separação entre Conjuntos de Treino e Teste

Foi utilizada uma separação padrão entre conjuntos de treino e teste, com 20% da massa de dados destinada ao conjunto de teste.

A separação foi feita de forma aleatória utilizando a função traintestsplit do Scikit-Learn, passando uma semente aleatória (random state) para garantir a reprodutibilidade do resultado.

Dessa forma, temos:


Xtrain, Ytrain: conjuntos de treino
Xtest, Ytest: conjuntos de teste

O modelo será treinado no conjunto de treino e depois avaliado no conjunto de teste. Isso evita overfitting e permite avaliar se o modelo se generaliza bem para dados nunca vistos antes.


In [7]:
Xtrain, Xtest, ytrain, ytest = train_test_split(X, y, test_size=0.2, random_state=0)

TÉCNICA 1. REGRESSÃO LINEAR

In [8]:
from sklearn.linear_model import LinearRegression

In [9]:
regLinear = LinearRegression().fit(Xtrain, ytrain)

In [10]:
yLinear =regLinear.predict(Xtest)

**Métricas de Avaliação**

Para avaliar o desempenho dos modelos, serão utilizadas as métricas:


Mean Squared Error (MSE): mede a média do quadrado das diferenças entre os valores previstos e os valores reais. Penaliza mais erros grandes de previsão.

Root Mean Squared Error (RMSE): raiz quadrada do MSE. Facilita a interpretação dos erros em unidades da variável alvo.


O objetivo é minimizar o MSE e RMSE, buscando modelos com erros de previsão menores possíveis.

In [11]:
MSE = mean_squared_error(ytest, yLinear)
print('MSE:',MSE)
print('RMSE:',np.sqrt(MSE))

MSE: 0.5289841670367247
RMSE: 0.7273129773603141


TECNICA 2. SVR

In [12]:
from sklearn.svm import SVR

In [13]:
regsvr = SVR().fit(Xtrain, ytrain)

In [14]:
MSESVR = mean_squared_error(ytest, regsvr.predict(Xtest))
print('MSE:',MSESVR)
print('RMSE:',np.sqrt(MSESVR))

MSE: 1.3260916573306467
RMSE: 1.1515605313359114


TECNICA 3 XGBOOST Decision Tree Regression

In [15]:
!pip install xgboost
from xgboost import XGBRegressor




In [16]:
regXGB = XGBRegressor().fit(Xtrain, ytrain)

In [17]:
yXGB = regXGB.predict(Xtest)

In [18]:
MSExgb = mean_squared_error(ytest, yXGB)
print('MSE:',MSExgb)
print('RMSE:',np.sqrt(MSExgb))

MSE: 0.2078329679717226
RMSE: 0.4558870122867316


OTIMIZAÇÃO DE PARÂMETROS
Utilizando o método GridSearch do SKLEARN
<https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.GridSearchCV.html>

In [None]:
regXGB.get_params().keys()

dict_keys(['objective', 'base_score', 'booster', 'callbacks', 'colsample_bylevel', 'colsample_bynode', 'colsample_bytree', 'device', 'early_stopping_rounds', 'enable_categorical', 'eval_metric', 'feature_types', 'gamma', 'grow_policy', 'importance_type', 'interaction_constraints', 'learning_rate', 'max_bin', 'max_cat_threshold', 'max_cat_to_onehot', 'max_delta_step', 'max_depth', 'max_leaves', 'min_child_weight', 'missing', 'monotone_constraints', 'multi_strategy', 'n_estimators', 'n_jobs', 'num_parallel_tree', 'random_state', 'reg_alpha', 'reg_lambda', 'sampling_method', 'scale_pos_weight', 'subsample', 'tree_method', 'validate_parameters', 'verbosity'])

In [19]:
parameters = {"max_depth":[5,6,7],
              "learning_rate": [0.1,0.2,0.3],
              "objetive": ["reg:squarederror"],
              "booster": ["gbtree"],
              "n_jobs": [5], # Removed extra comma here
              "gamma": [0,1],  # Corrected indentation
              "min_child_weight": [1,3],
              "max_delta_step": [0,1],
              "subsample": [0.5,1]}

In [20]:
xgbGrid = GridSearchCV(XGBRegressor(), parameters, refit = 'mean_square_error',verbose = True)

In [21]:
xgbGridModel = xgbGrid.fit(Xtrain, ytrain)

Fitting 5 folds for each of 144 candidates, totalling 720 fits


Parameters: { "objetive" } are not used.

Parameters: { "objetive" } are not used.

Parameters: { "objetive" } are not used.

Parameters: { "objetive" } are not used.

Parameters: { "objetive" } are not used.

Parameters: { "objetive" } are not used.

Parameters: { "objetive" } are not used.

Parameters: { "objetive" } are not used.

Parameters: { "objetive" } are not used.

Parameters: { "objetive" } are not used.

Parameters: { "objetive" } are not used.

Parameters: { "objetive" } are not used.

Parameters: { "objetive" } are not used.

Parameters: { "objetive" } are not used.

Parameters: { "objetive" } are not used.

Parameters: { "objetive" } are not used.

Parameters: { "objetive" } are not used.

Parameters: { "objetive" } are not used.

Parameters: { "objetive" } are not used.

Parameters: { "objetive" } are not used.

Parameters: { "objetive" } are not used.

Parameters: { "objetive" } are not used.

Parameters: { "objetive" } are not used.

Parameters: { "objetive" } are not

In [22]:
  xgbGridModel.best_params_

{'booster': 'gbtree',
 'gamma': 0,
 'learning_rate': 0.2,
 'max_delta_step': 0,
 'max_depth': 7,
 'min_child_weight': 3,
 'n_jobs': 5,
 'objetive': 'reg:squarederror',
 'subsample': 1}

In [23]:
yGrid = xgbGridModel.predict(Xtest)

In [24]:
from sklearn.metrics import mean_squared_error as MSE # Import the MSE function

In [25]:
print('MSE XGB GRID:', MSE(ytest, yGrid)) # Use the imported MSE function
print('RMSE XGB GRID:', np.sqrt(MSE(ytest, yGrid)))

MSE XGB GRID: 0.20486108428296873
RMSE XGB GRID: 0.4526158241632397
