# Introdução

## Representação dos Dados

![image.png](attachment:image.png)

In [5]:
import pandas as pd
import numpy as np
from sklearn import model_selection
from sklearn import neighbors
from sklearn import datasets

## Carregamento do dataset

Vamos utilizar como exemplo o nosso já conhecido dataset do Iris

In [10]:
df = pd.read_csv('iris-dataset.csv', header=None)
df.head()

Unnamed: 0,0,1,2,3,4
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [11]:
df.columns = ['sepal_length', 'sepal_width', 'petal_length', 
              'petal_width', 'class']

In [12]:
df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


Um modelo treinado com todo o dataset!

## Separação dos dados entre atributos (X) e rótulo (y)

In [13]:
X = df.values[:, :-1]
y = df.values[:, -1]

## Treinamento do modelo

In [14]:
model = neighbors.KNeighborsClassifier(n_neighbors=3)
model.fit(X, y)
model.score(X, y)

0.96

#### O resultado parece bom, mas foi obtido utilizando dados que já são conhecidos pelo modelo!

Caminho possível: como não temos novos dados para avaliar se o modelo realmente é bom, podemos simular isso dividindo nosso conjunto de dados em 2 partes:
- Parte para treino do modelo (conjunto de treino)
- Parte para avaliação do modelo (conjunto de teste)

## Validação cruzada holdout

- Consiste em dividir o conjunto de dados inicial em um conjunto de dados de treinamento e outro de teste. 

- O primeiro é usado para treinamento de modelo e o último é usado para estimar seu desempenho de generalização.

- Avaliação com o método holdout é o que temos feito até agora! 

## Holdout 

1 - Os dados são divididos em treino e teste

2 - O algoritmo de aprendizado é executado utilizando os dados de treino e possíveis hiperparâmetros e um modelo  é dado como saída. Os hiperparâmetros são os parâmetros do nosso algoritmo de aprendizagem. E temos que especificar esses valores de hiperparâmetros manualmente. 

3 - O modelo é avaliado utilizando os dados de teste. 

4 - Temos uma estimativa do desempenho de nosso modelo em dados não vistos. 
O modelo terá um melhor desempenho de generalização se os algoritmos utilizarem dados mais informativos - visto que ainda não atingiu sua capacidade. Portanto, o modelo final pode ser retreinado utilizando todos os dados.


![image.png](attachment:image.png)

![image.png](attachment:image.png)

#### Utilize o train_test_split para treinar o classificador KNN utilizabdo holdout 70/30

In [15]:
from sklearn.model_selection import train_test_split

In [44]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.30, random_state=123)

In [45]:
model = neighbors.KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)
model.score(X_test, y_test)

0.9555555555555556

## Criação do modelo final

In [46]:
model = neighbors.KNeighborsClassifier(n_neighbors=8)
model.fit(X, y)

KNeighborsClassifier(n_neighbors=8)

## Holdout ajuste de hiperparametros

Queremos saber quão bem nosso modelo generaliza para novos dados, usamos o método de validação para dividir o conjunto de dados em duas partes, um conjunto de treinamento e um conjunto de teste independente. Podemos também usar o método de validação para ajuste de hiperparâmetros. No entanto, temos que fazer uma pequena modificação em nossa abordagem inicial e dividir o conjunto de dados em três partes: um treinamento, uma validação e um conjunto de teste.

1 - Dividimos os dados em três partes: treino, validação e teste

2 - Treinamos diferentes modelos com diferentes valores de hiperparametros utilizabdo os dados de treino

3 - Avaliamos o desempenho do modelo de cada modelo gerado por valores de hiperparametros diferentes utilizando os dados de validação e escolhemos os hipermarametros que obtiveram o melhor desempenho

4 - Juntamos o dados de treino e validação para treinar o modelo utilizando os melhores hiperparametros e avaliamos com o conjunto de teste. Agora temos o desempenho final do nosso modelo!

5 - Para gerar o modelo final, treinamos com o dataset completo.

![image.png](attachment:image.png)

#### Repita o processo agora pegando 10% do dataset de treino para validação. Ajuste o valor de k utilizando o dataset de validação. Escolha o melhor k para o conjunto de validação.

In [47]:
X_train, X_validation, y_train, y_validation = train_test_split(X_train, y_train, test_size=0.10, random_state=123)

In [65]:
best_k = 2
best_score = 0
for i in range(2,20):
    model = neighbors.KNeighborsClassifier(n_neighbors=i)
    model.fit(X_train, y_train)
    this_score = model.score(X_validation, y_validation)
    
    if (this_score > best_score):
        best_k = i
        best_score = this_score

print("Melhor k: {}".format(best_k))
print("Score: {}".format(best_score))

Melhor k: 2
Score: 0.9090909090909091


#### Treine o modelo com o k escolhido na etapa anterior e o conjunto de dados de treino e validação

In [66]:
model = neighbors.KNeighborsClassifier(n_neighbors=best_k)
model.fit(X, y)

KNeighborsClassifier(n_neighbors=2)

#### Avalie o modelo com o dataset de teste

In [67]:
model.score(X_test, y_test)

0.9555555555555556