# *Tuning* de Parâmetros, Comparação de Modelos e Validação Cruzada *K-Fold*.

Como dito anteriormente, o objetivo de um modelo em ML é aprender a partir de dados. Porém, dados com labels, isto é, dados com o *y* são muito caros e valiosos. A validação cruzada *holdout* "consome" boa parte dos dados apenas para treinamento.

A validação cruzada *K-Fold* divide os dados em *K* subconjuntos diferentes aleatoriamente, onde cada um destes subconjuntos é usado ao menos uma vez para validação (*K*-1) enquanto o resto é usado para treino. Apos esse processo, é feita a media da acurácia de cada fase da validação resultando assim na acuracia total do modelo. Geralmente *K*= 10.

![title](k-fold.jpeg)

Com essa divisão, podemos fazer uma busca exaustiva. Nessa busca, o modelo é testado com diversos parâmetros diferentes e a configuração que atingir a maior acurácia é escolhida.

## Tarefa: Crie uma *Support Vector Macine* e treine-a com o Dígitos Dataset

In [None]:
from sklearn.svm import SVC #Importando o support vector classifier


In [None]:
from sklearn.datasets import load_digits
from sklearn.cross_validation import train_test_split #Importando a biblioteca de validação cruzada
digits = load_digits() #Carrega o dataset na variável digits

X,y = digits.data, digits.target


X_train, X_test, y_train, y_test = train_test_split(X,y, test_size = 0.25, random_state = 42)

In [None]:
classificador = SVC()

In [None]:
classificador.fit(X_train, y_train)

In [None]:
from sklearn.metrics import accuracy_score
from sklearn.metrics import classification_report


y_verdadeiro, y_predito = y_test, classificador.predict(X_test)

print "A acurácia do modelo é: ", accuracy_score(y_verdadeiro, y_predito)

print classification_report(y_verdadeiro, y_predito)

In [None]:
from sklearn.grid_search import GridSearchCV

parametros = {'C': [1e2,1e3, 5e3, 1e4, 5e4, 1e5],
              'gamma': [0.0001, 0.0005, 0.001, 0.005, 0.01, 0.1]}

clf = GridSearchCV(SVC(kernel = 'rbf'), parametros, cv = 10, n_jobs = 4)

clf.fit(X_train,y_train)



In [None]:
y_verdadeiro, y_predito = y_test, clf.predict(X_test)

In [None]:
print "A acurácia do modelo é: ", accuracy_score(y_verdadeiro, y_predito)

print classification_report(y_verdadeiro, y_predito)

## Tarefa: Faça o tuning de parâmetros utilizando uma KNN

# Contato:

**Email**: jpmarinho.martins@gmail.com

**Github**: @jpvmm

**Twitter**: @_jpmartins

**Blog**: https://machinelearningbrasil.wordpress.com/
