# Introdução

## Representação dos Dados

![image.png](attachment:image.png)

In [1]:
import pandas as pd
import numpy as np
from sklearn import model_selection
from sklearn import neighbors

## Carregamento do dataset

In [2]:
df = pd.read_csv('iris-dataset.csv', header=None)
df.head()

Unnamed: 0,0,1,2,3,4
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [3]:
df.columns = ['sepal_length', 'sepal_width', 'petal_length', 
              'petal_width', 'class']

In [4]:
df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


In [5]:
X = df.values[:, :-1]
y = df.values[:, -1]

In [6]:
np.unique(y)

array(['setosa', 'versicolor', 'virginica'], dtype=object)

In [7]:
df['class'].value_counts()

setosa        50
virginica     50
versicolor    50
Name: class, dtype: int64

In [8]:
model = neighbors.KNeighborsClassifier(n_neighbors=3)
model.fit(X, y)
model.score(X, y)

0.96

In [9]:
y_pred = model.predict(X)

In [10]:
df = pd.read_csv('iris-dataset.csv', header=None)
df.columns = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'class']
df.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,class
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


## Separação dos dados entre atributos (X) e rótulo (y)

In [11]:
X = df.values[:, :-1]
y = df.values[:, -1]

## Treinamento do modelo

In [12]:
model = neighbors.KNeighborsClassifier(n_neighbors=3)
model.fit(X, y)
model.score(X, y)

0.96

- Que score é esse? O que é isso?
- Esse modelo é burro ou o que?
- Que coisa mais sem graça tentar predizer o que já é conhecido.

Caminho possível: como não temos novos dados para avaliar se o modelo realmente é bom, podemos simular isso dividindo nosso conjunto de dados em 2 partes:
- Parte para treino do modelo (conjunto de treino)
- Parte para avaliação do modelo (conjunto de teste)

## Ajuste do modelo e Predição

![image.png](attachment:image.png)

## Validação cruzada holdout

Consiste em dividir o conjunto de dados inicial em um conjunto de dados de treinamento e outro de teste. 

O primeiro é usado para treinamento de modelo e o último é usado para estimar seu desempenho de generalização.

### Passos: Fit e Predict

### Passos

![image.png](attachment:image.png)

### Passos detalhados:

![image.png](attachment:image.png)

![image.png](attachment:image.png)

In [None]:
n = df.shape[0]
perc_train = 2/3
idx_train = np.arange(n * perc_train, dtype=int)
idx_test = np.arange(n * perc_train, n, dtype=int)

In [None]:
idx_train, idx_test

In [None]:
X_train = X[idx_train]
y_train = y[idx_train]
X_test = X[idx_test]
y_test = y[idx_test]
X_train.shape, X_test.shape, y_train.shape, y_test.shape

In [None]:
model = neighbors.KNeighborsClassifier(n_neighbors=3)
model.fit(X_train, y_train)
model.score(X_test, y_test)

- Meu Deus!!! Por que o resultado foi tão trágico?
- Parece que o modelo é burro mesmo, né? Especialmente para dados "novos".
- O que fazer agora?

### Embaralhando os dados - buscando ordem a partir do caos...

In [None]:
rand = np.random.RandomState(42)
indices = np.arange(X.shape[0])
print(indices)
rand.shuffle(indices)
print(indices)

In [None]:
X_ = X[indices]
y_ = y[indices]
X_.shape, y_.shape

In [None]:
X_train = X_[idx_train]
y_train = y_[idx_train]
X_test = X_[idx_test]
y_test = y_[idx_test]
X_train.shape, X_test.shape, y_train.shape, y_test.shape

In [None]:
model = neighbors.KNeighborsClassifier(n_neighbors=8)
model.fit(X_train, y_train)
print(model.score(X_train, y_train))
print(model.score(X_test, y_test))

## Criação do modelo final

In [None]:
model = neighbors.KNeighborsClassifier(n_neighbors=8)
model.fit(X, y)

## Validação cruzada Holdout com conjunto de validação

### Passos

![image.png](attachment:image.png)

![image.png](attachment:image.png)

![image.png](attachment:image.png)