# Hiperparâmetro x Parâmetro

>

# Otimização de Hiperparâmetros

Problema? 

# Grid Search

Talvez a primeira coisa que qualquer pessoa pense ao se deparar com esse problema é criar listas de parâmetros e testar todas as combinações possíveis. Logo, ao tentar otimizar 2 hiperparâmetros com três possibilidades em cada, testaremos então $3 \times 3 = 9$ modelos. O modelo que tiver melhor desempenho, será o escolhido.

<img src="https://s3-sa-east-1.amazonaws.com/lcpi/14f61637-c80b-4ec3-8a1f-0c6e547ecb8d.png" style="height: 250px"/>

## Plano

1. ler dataset titanic
2. Criar features (X) e target (y)
3. Dividir dataset em treino e teste
4. Aplicar tecnicas do começo da aula para missing values e categorias
5. Treinar um modelo. **Qual?**
6. avaliar o modelo: **qual métrica?**

e finalmente...

7. Fazer o grid search
8. Discussão!

In [1]:
# passo 1
import pandas as pd
import numpy as np 

df = pd.read_csv('titanic.csv')
df.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


In [3]:
# passo 2
X = df[['Sex', 'Age', 'Fare']].copy()
y = df['Survived'].copy()

In [4]:
# passo 3
from sklearn.model_selection import train_test_split

X_train_tmp, X_test, y_train_tmp, y_test = train_test_split(X, y, test_size=0.3, random_state=13)

print(X_train_tmp.shape, X_test.shape, y_train_tmp.shape, y_test.shape)

(623, 3) (268, 3) (623,) (268,)


In [5]:
# create validation set
X_train, X_val, y_train, y_val = train_test_split(X_train_tmp, y_train_tmp, test_size=0.3, random_state=13)
print(X_train.shape, X_val.shape, y_train.shape, y_val.shape)

(436, 3) (187, 3) (436,) (187,)


In [6]:
# passo 4

X_train['Sex'].value_counts()

male      287
female    149
Name: Sex, dtype: int64

In [7]:
# passo 4
from sklearn.preprocessing import OrdinalEncoder

ordinal = OrdinalEncoder()

X_train = X_train.copy()
X_val = X_val.copy()
X_test = X_test.copy()

ordinal.fit(X_train[['Sex']])

X_train['Sex'] = ordinal.transform(X_train[['Sex']])
X_val['Sex'] = ordinal.transform(X_val[['Sex']])
X_test['Sex'] = ordinal.transform(X_test[['Sex']])

# warnings são incompatibilidade entre pandas e sklearn!

In [8]:
X_train['Sex'].value_counts()

1.0    287
0.0    149
Name: Sex, dtype: int64

In [9]:
# passo 4 continuação
X_train.isnull().sum()

Sex      0
Age     95
Fare     0
dtype: int64

In [10]:
# passo 4 continuação
from sklearn.impute import SimpleImputer

imputer = SimpleImputer(strategy='mean')

imputer.fit(X_train[['Age']])

X_train['Age'] = imputer.transform(X_train[['Age']])
X_val['Age'] = imputer.transform(X_val[['Age']])
X_test['Age'] = imputer.transform(X_test[['Age']])

# warnings são incompatibilidade entre pandas e sklearn!

In [18]:
# passo 5
from sklearn.ensemble import RandomForestClassifier

model = RandomForestClassifier()

model.fit(X_train, y_train)

RandomForestClassifier()

In [19]:
# passo 6: qual métrica?
y.value_counts(dropna=False, normalize=True)

0    0.616162
1    0.383838
Name: Survived, dtype: float64

In [20]:
# passo 6
from sklearn.metrics import roc_auc_score

y_pred = model.predict_proba(X_val)

roc_auc_score(y_val, y_pred[:,1])

0.8295896066051481

In [21]:
model.get_params()

{'bootstrap': True,
 'ccp_alpha': 0.0,
 'class_weight': None,
 'criterion': 'gini',
 'max_depth': None,
 'max_features': 'auto',
 'max_leaf_nodes': None,
 'max_samples': None,
 'min_impurity_decrease': 0.0,
 'min_impurity_split': None,
 'min_samples_leaf': 1,
 'min_samples_split': 2,
 'min_weight_fraction_leaf': 0.0,
 'n_estimators': 100,
 'n_jobs': None,
 'oob_score': False,
 'random_state': None,
 'verbose': 0,
 'warm_start': False}

## Otimizar os hiperparâmetros

## Exercicio

Vamos testar e otimizar outro modelo?

Crie um modelo de árvore para os dados que já temos no problema do titanic, meça sua performance e em seguida utilize o grid search para otimizar 3 hiperparâmetros de sua escolha. 

**Para pensar:** Quais hiperparâmetros podem ser utlizados?

# Random Search

Funciona de forma muito similar ao Grid Search, criando um grid de parâmetros a serem testados. Porém, com a diferença de que a seleção dos valores escolhidos para teste é *aleatória* dado um conjunto de possibilidades. Ao invés de testar todos com todos, essa metodologia escolhe um valor ao acaso a partir de um conjunto pré-determinado. Mas uma escolha aleatória trás ganho?

Sim! [Alguns pesquisadores](https://s3-sa-east-1.amazonaws.com/lcpi/879e38fe-51f5-4f0e-abf1-339de202611b.pdf) perceberam que o Grid Search trás um problema na otimização dos valores: vamos supor que estamos testando os hiperparâmetros W, X, Y e Z, sendo $w$, $x$, $y$ e $z$ a quantidade de valores que cada hiperparâmetro receberá. Porém, modificar o W, por exemplo, trará uma variação desprezível no resultado do nosso modelo. Mas mesmo assim, por estar especificada no Grid Search, essa metodologia irá testar $ w \times x \times y \times z$, o que pode ser um desperdício. 

Além disso, ao especificar pontos estamos colocando um viés e pode ser que acabemos por não explorar espaços com máximos locais.

<img src="https://s3-sa-east-1.amazonaws.com/lcpi/ccb2c843-3e26-4f56-bca5-e380d6964751.png" style="height: 250px"/>


## Exercicio

Otimize seu modelo de knn usando o random search.