# Hyperparameter Tuning


## Introdução
Hiperparâmetros são parâmetros cujo valor é determinado antes da aprendizagem de um modelo. Para a biblioteca [sklearn](https://docs.google.com/document/u/1/d/1W7Z0SvUGHGU3YkTo1rECUMJervk7FhPlfCxfNkgiOdI/edit?usp=drive_open&ouid=110097037757552537186), os hiperparâmetros são fornecidos como argumentos da função responsável pela construção de um modelo, com cada modelo possuindo hiperparâmetros específicos.

Para obter um melhor modelo de IA, é interessante obter os melhores hiperparâmetros. Esse notebook busca mostrar duas formas de se obter os melhores hiperparâmetros, dado um modelo e um dataset


## Construindo um modelo
Antes da busca de hiperparâmetros, vamos primeiro criar o dataframe, separá-lo em treino e teste e criar um modelo. Neste notebook, será utilizado o [dataset iris](https://en.wikipedia.org/wiki/Iris_flower_data_set), um dos datasets já presentes no sklearn, além da Decision Tree como modelo. Esse modelo já foi abordado em um **[Turing Talks](https://medium.com/turing-talks)**, cujo texto pode ser conferido [neste link](https://medium.com/turing-talks/turing-talks-17-modelos-de-predi%C3%A7%C3%A3o-decision-tree-610aa484cb05).

Para a execução deste processo, é necessária a importação das bibliotecas [pandas](https://drive.google.com/drive/u/1/folders/1FlpRFtXXMytmqjW_ZPVd_U76jwHwcYY1) e a partes da já mencionada scikit-learn

In [3]:
import pandas as pd
from sklearn import datasets 

In [4]:
#Criação do dataframe
iris = datasets.load_iris()
df = pd.DataFrame(iris.data, columns=iris.feature_names)
df['target'] = pd.Series(iris.target)
df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),target
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


In [5]:
#Separando os dados em 'train' e 'test'
from sklearn.model_selection import train_test_split

X = df.drop('target', axis=1)
y = df.target

X_train,X_test,y_train,y_test=train_test_split(X,y,random_state=0,test_size=0.2) #reservamos 20% dos dados para teste

In [6]:
#Criação de um modelo Decision Tree
from sklearn import tree

clf = tree.DecisionTreeClassifier() # vamos utilizar os hiperparâmetros padrão inicialmente

Com isso feito, podemos começar a busca pelos hiperparâmetros ideais para estes dados.


## Busca pelos melhores hiperparâmetros

### 1º Método: Grid Search
Grid search consiste no teste de todas as combinações de hiperparâmetros, dentro dos limites que estabelecemos. Podemos ver os hiperparâmetros de um knn:

In [7]:
clf.get_params().keys() #Podemos ver os parâmetros que o modelo possui

dict_keys(['class_weight', 'criterion', 'max_depth', 'max_features', 'max_leaf_nodes', 'min_impurity_decrease', 'min_impurity_split', 'min_samples_leaf', 'min_samples_split', 'min_weight_fraction_leaf', 'presort', 'random_state', 'splitter'])

Queremos descobrir se estes são os valores ideais, e é neste momento que o grid search é útil. Primeiro, criaremos um dicionário que possui os nomes dos hiperparâmetros e os valores que queremos testar. Caso haja dúvida sobre o significado de cada um, o ideal é buscar na [documentação](https://scikit-learn.org/stable/modules/generated/sklearn.tree.DecisionTreeClassifier.html). Para esse exemplo, testaremos somente alguns do hiperparâmetros do modelo, deixando os outros no padrão.

In [8]:
#criação do dicionário, com o auxilio da biblioteca NumPy
import numpy as np

max_depth = np.arange(1, 20)
min_samples_split = np.linspace(0.1, 1.0, 10, endpoint=True)
min_samples_leaf = np.linspace(0.1, 0.5, 5, endpoint=True)

param_grid = {'max_depth' : max_depth,
              'min_samples_split' : min_samples_split,
              'min_samples_leaf' : min_samples_leaf
}

param_grid

{'max_depth': array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
        18, 19]),
 'min_samples_split': array([0.1, 0.2, 0.3, 0.4, 0.5, 0.6, 0.7, 0.8, 0.9, 1. ]),
 'min_samples_leaf': array([0.1, 0.2, 0.3, 0.4, 0.5])}

Com o dicionário criado, podemos começar o teste de todas as permutações possíveis dentro do determinado em 'param_grid'. Importaremos então o Grid Search do sklearn, usando como critério de avaliação 'scoring = accuracy'. Para obtenção deste valor, utilizaremos [validação cruzada](https://scikit-learn.org/stable/modules/cross_validation.html), separando o dataframe de treino em 10 partes (cv = 10). Além desses argumentos, também são passados o modelo e o dicionário de valores possíveis

In [9]:
from sklearn.model_selection import GridSearchCV

grid = GridSearchCV(clf, param_grid, cv=10, scoring='accuracy')

grid.fit(X_train, y_train)



GridSearchCV(cv=10, error_score='raise-deprecating',
             estimator=DecisionTreeClassifier(class_weight=None,
                                              criterion='gini', max_depth=None,
                                              max_features=None,
                                              max_leaf_nodes=None,
                                              min_impurity_decrease=0.0,
                                              min_impurity_split=None,
                                              min_samples_leaf=1,
                                              min_samples_split=2,
                                              min_weight_fraction_leaf=0.0,
                                              presort=False, random_state=None,
                                              splitter='best'),
             iid='warn', n_jobs=None,
             param_grid={'max_depth': array([ 1,  2,  3,  4,  5,  6,  7,  8,  9, 10, 11, 12, 13, 14, 15, 16, 17,
       18, 19]),
     

Podemos então obter os melhores hiperparâmetros para as condições estabelecidas, utilizando do argumento **.best_params_**. Com eles, criaremos uma nova decision tree, mais adequada para este dataset.

In [10]:
grid.best_params_

{'max_depth': 2, 'min_samples_leaf': 0.1, 'min_samples_split': 0.1}

In [11]:
clf = tree.DecisionTreeClassifier(grid.best_params_)

In [None]:
grid