In [None]:

# Importando as bibliotecas para os modelos
import pandas as pd
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.preprocessing import OneHotEncoder

import numpy as np

from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score, f1_score, roc_auc_score, roc_curve, ConfusionMatrixDisplay, RocCurveDisplay, confusion_matrix, classification_report

# Modelos de Machine Learning
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.tree import DecisionTreeRegressor
from sklearn.svm import SVC
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.ensemble import GradientBoostingClassifier
from sklearn.ensemble import GradientBoostingRegressor
from sklearn.preprocessing import StandardScaler, MinMaxScaler

from sklearn.model_selection import GridSearchCV
from googledrivedownloader import download_file_from_google_drive as gdd


# Plot dos gráficos
import matplotlib.pyplot as plt
import matplotlib
from matplotlib import colors
import seaborn as sns

# Hiperparâmetros

Alguns parâmetros de algortitmos de Machine Learning não são treinados, mas influenciam diretamente nas métricas do nosso modelo. Esses parâmetros são conhecidos como Hiperparâmetros.

Por exemplo na Arvore de Decisões temos o número de camadas no sklearn.

Uma forma de trabalhar com os hiperparâmetros é com o **Grid Search**, que é uma técnica de busca exaustiva para encontrar os melhores valores para os hiperparâmetros.


Para essa técnica vamos usar a validação cruzada, onde iremos encontrar os melhores parâmetros para o nosso modelo usando apenas o conjunto de treinamento. A imagem a seguir ilustra a divisão do conjunto de dados quando usamos a validação cruzada:



<center>
<img src="https://scikit-learn.org/stable/_images/grid_search_cross_validation.png" width="500">

fonte: https://scikit-learn.org/stable/modules/cross_validation.html

O objetivo do Grid Search é fazer uma busca para encontar os melhores hiperparâmetros do nosso moelo para posteriormente retreinar o modelo usando o resultado obtido por ele. A imagem a seguir ilustra esse processo:




<center>
<img src="https://scikit-learn.org/stable/_images/grid_search_workflow.png" width="500">

fonte: https://scikit-learn.org/stable/modules/cross_validation.html

Vamos fazer um exemplo com um conjunto de dados para classificação com o objetivo de verificar os conceitos de hiperparâmetros:

## Exemplo Regressão

Vamos agora ver um exemplo com modelos de regressão

### Análise Exploratória dos Dados

#### Tarefa #1: Recebendo os dados

In [None]:
data_google_id = '1miwQK6nydj2VaAff9xFOPG5SMmnNVvb1'
gdd(file_id=data_google_id,
   dest_path = './data_regressao.csv', # Faz o download dos dados e salva o mesmo num arquivo nomeado data.csv
   showsize = True,
   overwrite=True)

# Armazenandos os dados em um DataFrame
dados_reg = pd.read_csv("data_regressao.csv")

#### Tarefa #2: Analise Exploratória dos Dados

In [None]:
dados_reg.head()

In [None]:
dados_reg.shape

In [None]:
dados_reg.info()

In [None]:
dados_reg.isnull().sum()

In [None]:
dados_reg.describe()

Unnamed: 0,Cement (component 1)(kg in a m^3 mixture),Blast Furnace Slag (component 2)(kg in a m^3 mixture),Fly Ash (component 3)(kg in a m^3 mixture),Water (component 4)(kg in a m^3 mixture),Superplasticizer (component 5)(kg in a m^3 mixture),Coarse Aggregate (component 6)(kg in a m^3 mixture),Fine Aggregate (component 7)(kg in a m^3 mixture),Age (day),"Concrete compressive strength(MPa, megapascals)"
count,1030.0,1030.0,1030.0,1030.0,1030.0,1030.0,1030.0,1030.0,1030.0
mean,281.165631,73.895485,54.187136,181.566359,6.203112,972.918592,773.578883,45.662136,35.817836
std,104.507142,86.279104,63.996469,21.355567,5.973492,77.753818,80.175427,63.169912,16.705679
min,102.0,0.0,0.0,121.75,0.0,801.0,594.0,1.0,2.331808
25%,192.375,0.0,0.0,164.9,0.0,932.0,730.95,7.0,23.707115
50%,272.9,22.0,0.0,185.0,6.35,968.0,779.51,28.0,34.442774
75%,350.0,142.95,118.27,192.0,10.16,1029.4,824.0,56.0,46.136287
max,540.0,359.4,200.1,247.0,32.2,1145.0,992.6,365.0,82.599225


In [None]:
dados_reg.hist(figsize=(20,20))

### Aplicando IA aos nossos dados

#### Tarefa #1: Dividindo o conjunto de dados (Entrada/Saída e Treinamento/Teste)

In [None]:
dados_reg.columns

Index(['Cement (component 1)(kg in a m^3 mixture)',
       'Blast Furnace Slag (component 2)(kg in a m^3 mixture)',
       'Fly Ash (component 3)(kg in a m^3 mixture)',
       'Water  (component 4)(kg in a m^3 mixture)',
       'Superplasticizer (component 5)(kg in a m^3 mixture)',
       'Coarse Aggregate  (component 6)(kg in a m^3 mixture)',
       'Fine Aggregate (component 7)(kg in a m^3 mixture)', 'Age (day)',
       'Concrete compressive strength(MPa, megapascals) '],
      dtype='object')

In [None]:
# Dividindo X e y (Entrada e saída de dados)
X = dados_reg.drop(columns=["Concrete compressive strength(MPa, megapascals) "]) #Excluindo a coluna de charges do conjunto de dados
y = dados_reg["Concrete compressive strength(MPa, megapascals) "] # Em y colocamos apenas os valores que desejamos para a saída dos dados.

# Dividindo dados para treino e dados para teste
X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size = 0.3, # 30% dos dados serão utilizados no conjunto de teste.
                                                    random_state= 42 # Modelo de divisão número 42
                                                    )

scale = MinMaxScaler().fit(X_train)

X_train = scale.transform(X_train)
X_test = scale.transform(X_test)

#### Tarefa #2.1: Hiperparâmetros dos modelos:

Árvore de Decisões para os modelos de Regressão:

{'max_depth': 19, 'min_samples_leaf': 5}

Modelo de Random Forest Regressor:

{'max_depth': 9, 'min_samples_leaf': 2}

Modelo de Gradient Boosting Regressor:

{'max_depth': 8, 'min_samples_leaf': 9}

#### Tarefa #2.2: Treinando os modelos:

In [None]:
modelos = {}
previsoes = {}
for nome_modelo, modelo in modelos.items():
  regressor = modelo
  modelo.fit(X_train,y_train)
  previsoes[nome_modelo]=modelo.predict(X_test)

#### Tarefa #3: Métricas de desempenho dos modelos

In [None]:
for nome_reg, prev in previsoes.items():
  print('='*30)
  print(f"{nome_reg:^30}")
  mse = mean_squared_error(y_true=y_test,
                           y_pred=prev)
  mae = mean_absolute_error(y_true=y_test,
                            y_pred=prev)
  r2 = r2_score(y_true=y_test,
                y_pred=prev)
  print(f"MSE = {mse}")
  print(f"MAE = {mae}")
  print(f"R2 = {r2}")

# Exemplo Classificadores

### Tarefa #1: Recebendo os dados

In [None]:
data_google_id = '1Q1_W0UF4F6pOhNGHAxhC0YRKwvizZgRt'
gdd(file_id=data_google_id,
    dest_path = './data_classificacao.csv', # Faz o download dos dados e salva o mesmo num arquivo nomeado data.csv
    showsize = True,
    overwrite = True)

# Armazenandos os dados em um DataFrame
dados_classificacao = pd.read_csv("data_classificacao.csv", sep = ',')

Downloading 1Q1_W0UF4F6pOhNGHAxhC0YRKwvizZgRt into ./data_classificacao.csv... 
0.0 B Done.


### Tarefa #2: Analise Exploratória dos Dados

In [None]:
dados_classificacao.head()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm,Species
0,1,5.1,3.5,1.4,0.2,Iris-setosa
1,2,4.9,3.0,1.4,0.2,Iris-setosa
2,3,4.7,3.2,1.3,0.2,Iris-setosa
3,4,4.6,3.1,1.5,0.2,Iris-setosa
4,5,5.0,3.6,1.4,0.2,Iris-setosa


In [None]:
dados_classificacao.shape

(150, 6)

In [None]:
dados_classificacao.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150 entries, 0 to 149
Data columns (total 6 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   Id             150 non-null    int64  
 1   SepalLengthCm  150 non-null    float64
 2   SepalWidthCm   150 non-null    float64
 3   PetalLengthCm  150 non-null    float64
 4   PetalWidthCm   150 non-null    float64
 5   Species        150 non-null    object 
dtypes: float64(4), int64(1), object(1)
memory usage: 7.2+ KB


In [None]:
dados_classificacao.isnull().sum()

Unnamed: 0,0
Id,0
SepalLengthCm,0
SepalWidthCm,0
PetalLengthCm,0
PetalWidthCm,0
Species,0


In [None]:
dados_classificacao.describe()

Unnamed: 0,Id,SepalLengthCm,SepalWidthCm,PetalLengthCm,PetalWidthCm
count,150.0,150.0,150.0,150.0,150.0
mean,75.5,5.843333,3.054,3.758667,1.198667
std,43.445368,0.828066,0.433594,1.76442,0.763161
min,1.0,4.3,2.0,1.0,0.1
25%,38.25,5.1,2.8,1.6,0.3
50%,75.5,5.8,3.0,4.35,1.3
75%,112.75,6.4,3.3,5.1,1.8
max,150.0,7.9,4.4,6.9,2.5


### Tarefa#3: Tratamento dos dados

In [None]:
dados_classificacao.drop(columns=['Id'], inplace = True)

## Aplicando IA aos nossos dados

### Tarefa #1: Dividindo o conjunto de dados (Entrada/Saída e Treinamento/Teste)

In [None]:
# Dividindo X e y (Entrada e saída de dados)
X = dados_classificacao.drop(columns=['Species']) #Excluindo a coluna de charges do conjunto de dados
y = dados_classificacao["Species"] # Em y colocamos apenas os valores que desejamos para a saída dos dados.

# Dividindo dados para treino e dados para teste
X_train, X_test, y_train, y_test = train_test_split(X, y,
                                                    test_size = 0.3, # 30% dos dados serão utilizados no conjunto de teste.
                                                    random_state= 42 # Modelo de divisão número 42
                                                    )

### Tarefa #2.1: Hiperparâmetros dos modelos

Vamos começar com o k-NN:

{'n_neighbors': 7}

Árvore de Decisões:

{'max_depth': 4, 'min_samples_leaf': 3}

Random Forest:

{'max_depth': 6, 'min_samples_leaf': 5}

Gradient Boosting Classifier:




{'max_depth': 2, 'min_samples_leaf': 2}

Support Vector Machine:

{'kernel': 'poly'}

### Tarefa #2.2: Treinando os modelos

In [None]:
modelos = {}
y_pred = {}
for nome_modelo, modelo in modelos.items():
  # Treinar o modelo:
  modelo.fit(X_train, y_train)
  y_pred[nome_modelo] = modelo.predict(X_test)

## Tarefa #3: Métricas de desempenho do modelo

In [None]:
figure = plt.figure(figsize=(25,10))
for i, (nome_modelo, y_p) in enumerate(y_pred.items()):
  cm = confusion_matrix(y_true=y_test,
                        y_pred=y_p,
                        labels=y_train.unique())
  disp = ConfusionMatrixDisplay(confusion_matrix=cm,
                                display_labels=y_train.unique())
  ax = plt.subplot(2,3,i+1)
  disp.plot(ax=ax)
  ax.set_title(nome_modelo)

In [None]:
for nome_modelo, y_p in y_pred.items():
  print(f"Métricas do modelo: {nome_modelo}")
  print(classification_report(y_true=y_test,
                              y_pred=y_p))
  print('-'*53)