<a href="https://colab.research.google.com/github/airosa32/CRISP-DM---Modeling/blob/main/Modeling_na_Pratica.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Tema central: Modelagem de regressão para estimar preços de casas em Boston**

# **Imports de Bibliotecas e Loads de Datasets**

In [None]:
from sklearn import datasets
import pandas as pd
import numpy as np


data_url = "http://lib.stat.cmu.edu/datasets/boston"

# Ler os dados apartir da linha 22
raw_df = pd.read_csv(data_url, sep="\s+", skiprows=22, header=None)

# **Entendendo sobre os dados**

In [None]:
# Ler os nomes das colunas (primeiras 14 linhas)
colunas = pd.read_table(data_url, skiprows=7, sep="\t", header=None)[:14]

# Extrair as infos das colunas
for i in range(len(colunas)):
    print(f"Infos das colunas extraídas: {str(colunas.loc[i]).replace('0', '').strip()[:-22].replace('N','').strip()}")

Infos das colunas extraídas: CRIM     per capita crime rate by town
Infos das colunas extraídas: Z       proportion of residential land zoned...
Infos das colunas extraídas: IDUS    proportion of non-retail business ac...
Infos das colunas extraídas: CHAS     Charles River dummy variable (= 1 if...
Infos das colunas extraídas: OX      nitric oxides concentration (parts p...
Infos das colunas extraídas: RM       average number of rooms per dwelling
Infos das colunas extraídas: AGE      proportion of owner-occupied units b...
Infos das colunas extraídas: DIS      weighted distances to five Boston em...
Infos das colunas extraídas: RAD      index of accessibility to radial hig...
Infos das colunas extraídas: TAX      full-value property-tax rate per $1...
Infos das colunas extraídas: PTRATIO  pupil-teacher ratio by town
Infos das colunas extraídas: B        1(Bk - .63)^2 where Bk is the pr...
Infos das colunas extraídas: LSTAT    % lower status of the population
Infos das colunas extraída

# **Tratando o Dataset**

In [None]:
# Ler os nomes das colunas (primeiras 14 linhas)
colunas = pd.read_table(data_url, skiprows=7, sep="\t", header=None)[:14]

# Extrair os nomes das colunas
colunas_retratada = []
for i in range(len(colunas)):
    colunas_retratada.append(str(colunas.iloc[i]).split()[1])
print(f"Nomes das colunas extraídas: {colunas_retratada}")

Nomes das colunas extraídas: ['CRIM', 'ZN', 'INDUS', 'CHAS', 'NOX', 'RM', 'AGE', 'DIS', 'RAD', 'TAX', 'PTRATIO', 'B', 'LSTAT', 'MEDV']


In [None]:
raw_df.head()

Unnamed: 0,0,1,2,3,4,5,6,7,8,9,10
0,0.00632,18.0,2.31,0.0,0.538,6.575,65.2,4.09,1.0,296.0,15.3
1,396.9,4.98,24.0,,,,,,,,
2,0.02731,0.0,7.07,0.0,0.469,6.421,78.9,4.9671,2.0,242.0,17.8
3,396.9,9.14,21.6,,,,,,,,
4,0.02729,0.0,7.07,0.0,0.469,7.185,61.1,4.9671,2.0,242.0,17.8


In [None]:
# Pegando apenas as linhas que contem os dados das 10 colunas
dados = []
n = 0
for i in range(1, len(raw_df)):
  if i <= 506:
    dados.append( raw_df.loc[n][:] )
    n += 2

# Dando um reshape para elas virarem colunas novamente
dados = np.array(dados)
dados_retratado = dados.reshape(-1, 11)

# Transformando o dado em um dataframe
primeira_tabela = pd.DataFrame(dados_retratado, columns=colunas_retratada[:11])

# Resetar o índice
primeira_tabela_resetado = primeira_tabela.reset_index(drop=True)

# Adicionar a coluna ID na posição 0
primeira_tabela_resetado.insert(0, 'ID', primeira_tabela_resetado.index)


primeira_tabela_resetado.tail()

Unnamed: 0,ID,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO
501,501,0.06263,0.0,11.93,0.0,0.573,6.593,69.1,2.4786,1.0,273.0,21.0
502,502,0.04527,0.0,11.93,0.0,0.573,6.12,76.7,2.2875,1.0,273.0,21.0
503,503,0.06076,0.0,11.93,0.0,0.573,6.976,91.0,2.1675,1.0,273.0,21.0
504,504,0.10959,0.0,11.93,0.0,0.573,6.794,89.3,2.3889,1.0,273.0,21.0
505,505,0.04741,0.0,11.93,0.0,0.573,6.03,80.8,2.505,1.0,273.0,21.0


In [None]:
# Extraindo as 3 colunas que viraram linhas
dados_2 = []
n = 1
for i in range(1, len(raw_df)):
  if i <= 506:
    dados_2.append( raw_df.loc[n][:3] )
    n += 2

# Dando um reshape para elas virarem colunas novamente
dados_2 = np.array(dados_2)
dados_2_retratado = dados_2.reshape(-1, 3)

# Transformando o dado em um dataframe
segunda_tabela = pd.DataFrame(dados_2_retratado, columns=colunas_retratada[11:])

# Resetar o índice
segunda_tabela_resetado = segunda_tabela.reset_index(drop=True)

# Adicionar a coluna ID na posição 0
segunda_tabela_resetado.insert(0, 'ID', segunda_tabela_resetado.index)

segunda_tabela_resetado.tail()

Unnamed: 0,ID,B,LSTAT,MEDV
501,501,391.99,9.67,22.4
502,502,396.9,9.08,20.6
503,503,396.9,5.64,23.9
504,504,393.45,6.48,22.0
505,505,396.9,7.88,11.9


In [None]:
# Dando um merge nelas
df = primeira_tabela_resetado.merge(segunda_tabela_resetado, on='ID', how='left')


df.tail()

Unnamed: 0,ID,CRIM,ZN,INDUS,CHAS,NOX,RM,AGE,DIS,RAD,TAX,PTRATIO,B,LSTAT,MEDV
501,501,0.06263,0.0,11.93,0.0,0.573,6.593,69.1,2.4786,1.0,273.0,21.0,391.99,9.67,22.4
502,502,0.04527,0.0,11.93,0.0,0.573,6.12,76.7,2.2875,1.0,273.0,21.0,396.9,9.08,20.6
503,503,0.06076,0.0,11.93,0.0,0.573,6.976,91.0,2.1675,1.0,273.0,21.0,396.9,5.64,23.9
504,504,0.10959,0.0,11.93,0.0,0.573,6.794,89.3,2.3889,1.0,273.0,21.0,393.45,6.48,22.0
505,505,0.04741,0.0,11.93,0.0,0.573,6.03,80.8,2.505,1.0,273.0,21.0,396.9,7.88,11.9


# **Separando os dados para a Regressão Linear**

### Caracteristicas das Casas

In [None]:
# Selecionar apenas as primeiras 13 colunas apos o ID
# .values: Transforam o Dataframe em dados do tipo numpy apenas valores sem o nome das colunas
X = df.iloc[:, 1:14].values

X.shape

(506, 13)

### Preço conhecido das Casas - Target

In [None]:
# Selecionar apenas a ultima coluna que sera nosso Target
Y = df.iloc[:, 14:15].values

Y.shape

(506, 1)

# **Tema central: Construção e avaliação de modelos de machine learning para prever o preço de imóveis**

# **Modeling Techniques**

1. Regressão Linear do Sklearn.
<https://scikit-learn.org/stable/modules/generated/sklearn.linear_model.LinearRegression.html>

2. Support Vector Regression do Sklearn.
<https://scikit-learn.org/stable/modules/generated/sklearn.svm.SVR.html>

3. Decision Tree Regression do XGBoost.
<https://xgboost.readthedocs.io/en/stable/python/python_api.html>


### Modeling Assumptions:

Aceita apenas variaveis numéricas

## **Test Design**

### Dataset Split:

* Separação Train/Test dataset padrão com 20% de massa para teste via metodo SKLEARN
<https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html>


### Métrica de Avaliação do Modelo:
* R2, R2 ajustado: Regressão ao quadrado - Quão bom esta ajustado a curva de regressão aos dados.

* MSE: Mean square error - Media de erro ao quadrado, penaliza erros grandes
para ficarem ainda maiores, por estar sendo elevado ao quadrado, assim ficando mais visivel.

* RMSE: Raiz do Mean square error - Raiz da media do quadrado dos erros.

* MAE: Mean absolut error - Mediade erro absoluta, normaliza os erros, mantendo na mesma proporção, por esta tirando a média absoluta do erro.

**Validação da métrica será MSE e RMSE para penalizar grandes erros de previsão.**

**Utilizando os metodos do SKLEARN: <https://scikit-learn.org/stable/api/sklearn.metrics.html>**

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.svm import SVR
from xgboost import XGBRegressor
from sklearn.metrics import mean_squared_error

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, Y, test_size=0.2, train_size=0.8, random_state=42)


print(X_train)

[[1.50234e+01 0.00000e+00 1.81000e+01 ... 2.02000e+01 3.49480e+02
  2.49100e+01]
 [6.27390e-01 0.00000e+00 8.14000e+00 ... 2.10000e+01 3.95620e+02
  8.47000e+00]
 [3.46600e-02 3.50000e+01 6.06000e+00 ... 1.69000e+01 3.62250e+02
  7.83000e+00]
 ...
 [1.50100e-02 8.00000e+01 2.01000e+00 ... 1.70000e+01 3.90940e+02
  5.99000e+00]
 [1.11604e+01 0.00000e+00 1.81000e+01 ... 2.02000e+01 1.09850e+02
  2.32700e+01]
 [2.28760e-01 0.00000e+00 8.56000e+00 ... 2.09000e+01 7.08000e+01
  1.06300e+01]]


### Técnica 1. Regressão Linear

In [None]:
reg_linear = LinearRegression().fit(X_train, y_train)

In [None]:
previsao_linear = reg_linear.predict(X_test)

In [None]:
# MSE: Tira a media dos erros elevado ao quadrado
MSE_1 = mean_squared_error(y_test, previsao_linear)

In [None]:
# RMSE: Tira a raiz quadrada da media dos erros elevado ao quadrado
# minimizando o valor final da metrica
RMSE_1 = np.sqrt(MSE_1)

In [None]:
print(f"MSE Linear: {MSE_1:.2f}\nRMSE Linear: {RMSE_1:.2f}")

MSE Linear: 24.29
RMSE Linear: 4.93


### Técnica 2. SVR

In [None]:
reg_svr = SVR().fit(X_train, y_train)

In [None]:
previsao_svr = reg_svr.predict(X_test)

In [None]:
MSE_2 = mean_squared_error(y_test, previsao_svr)

In [None]:
RMSE_2 = np.sqrt(MSE_2)

In [None]:
print(f"MSE SVR: {MSE_2:.2f}\nRMSE SVR: {RMSE_2:.2f}")

MSE SVR: 52.84
RMSE SVR: 7.27


### Técnica 3. Decision Tree Regression(XGBOOST)

In [None]:
reg_xgb = XGBRegressor().fit(X_train, y_train)

In [None]:
previsao_xgb = reg_xgb.predict(X_test)

In [None]:
MSE_3 = mean_squared_error(y_test, previsao_xgb)

In [None]:
RMSE_3 = np.sqrt(MSE_3)

In [None]:
print(f"MSE XGB: {MSE_3:.2f}\nRMSE XGB: {RMSE_3:.2f}")

MSE XGB: 6.91
RMSE XGB: 2.63


# **O melhor modelo que previu foi o XGBOOST - Decision Tree Regression**
<br><br>
# **Agora vamos fazer uma otimização dos Hiperparametros**

### Utilizando o metodo: GridSearchCV do SKLEARN: <https://scikit-learn.org/stable/api/sklearn.model_selection.html>

In [None]:
from sklearn.model_selection import GridSearchCV

In [None]:
# Pegando os parametros que o nosso modelo XGBOOST contem
reg_xgb.get_params().keys()

dict_keys(['objective', 'base_score', 'booster', 'callbacks', 'colsample_bylevel', 'colsample_bynode', 'colsample_bytree', 'device', 'early_stopping_rounds', 'enable_categorical', 'eval_metric', 'feature_types', 'gamma', 'grow_policy', 'importance_type', 'interaction_constraints', 'learning_rate', 'max_bin', 'max_cat_threshold', 'max_cat_to_onehot', 'max_delta_step', 'max_depth', 'max_leaves', 'min_child_weight', 'missing', 'monotone_constraints', 'multi_strategy', 'n_estimators', 'n_jobs', 'num_parallel_tree', 'random_state', 'reg_alpha', 'reg_lambda', 'sampling_method', 'scale_pos_weight', 'subsample', 'tree_method', 'validate_parameters', 'verbosity'])

In [None]:
parameters = {
    "max_depth": [5, 6, 7],
    "learning_rate": [0.1, 0.2, 0.3],
    "objective": ["reg:squarederror"],
    "booster": ["gbtree"],
    "n_jobs": [5],
    "gamma": [0, 1],
    "min_child_weight": [1, 3],
    "max_delta_step": [0, 1],
    "subsample": [0.5, 1]
}

In [None]:
# Vai fazer a iteração em cima do modelo com os parametros que escolhemos
# de varias combinações possiveis, de acordo com a quantidade que colocamos na lista

# Varios XGBOOST com valores diferentes nos paremetros
# REFIT: Qual metrica usar para determinar com vai ser o melhor modelo
# VERBOSE: A função vai descrever passo a passo do que esta acontecendo
xgbGrid = GridSearchCV(XGBRegressor(), parameters, refit="neg_mean_squared_error", verbose=True)

In [None]:
# Em cima determinamos como vai ser o modelo
# Aqui agora vamos realmente usar o modelo, treinar e fazer o predict
reg_xgb_grid = xgbGrid.fit(X_train, y_train)

Fitting 5 folds for each of 144 candidates, totalling 720 fits


In [None]:
reg_xgb_grid.best_params_

{'booster': 'gbtree',
 'gamma': 0,
 'learning_rate': 0.2,
 'max_delta_step': 0,
 'max_depth': 5,
 'min_child_weight': 1,
 'n_jobs': 5,
 'objective': 'reg:squarederror',
 'subsample': 1}

In [None]:
previsao_xgb_grid = reg_xgb_grid.predict(X_test)

In [None]:
MSE_4 = mean_squared_error(y_test, previsao_xgb_grid)

In [None]:
RMSE_4 = np.sqrt(MSE_4)

In [None]:
print(f"MSE XGB com GRID: {MSE_4:.2f}\nRMSE XGB com GRID: {RMSE_4:.2f}")

MSE XGB com GRID: 6.06
RMSE XGB com GRID: 2.46


# **Tema central**
## Otimização de modelos de machine learning para previsão de preços de imóveis
<br>

* Nosso modelo com hiperparametros modificados, teve um desempenho melhor
* Com a previão de preço de imoveis, com o erro de 2.460 dolars