## K-Nearest Neighbors (KNN)

"K-vizinhos próximos"

1. importar o modelo, e separar balanceadamente

In [None]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.model_selection import train_test_split
from sklearn.datasets import load_iris

In [None]:
iris = load_iris()
iris.keys()

In [None]:
X = iris.data[:,:2]
y = iris.target

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y ,stratify=y, random_state=0)

2. Construir dois diferentes modelos KNN, variando o parâmetro `n_neighbors`

> Usar '10' no cross_validation é comúm na comunidade de machine learning, especialmente em competições

In [None]:
from sklearn.model_selection import cross_val_score
knn_3_clf = KNeighborsClassifier(n_neighbors=3)
knn_5_clf = KNeighborsClassifier(n_neighbors=5)

knn_3_scores = cross_val_score(knn_3_clf, X_train, y_train, cv=10)
knn_5_scores = cross_val_score(knn_5_clf, X_train, y_train, cv=10)

3. Pontuar e mostrar as pontuações

In [None]:
print(f"KNN 3 média: {knn_3_scores.mean()}")
print(f"KNN 3 desvio padrão: {knn_3_scores.std()}")
print()
print(f"KNN 5 média: {knn_5_scores.mean()}")
print(f"KNN 5 desvio padrão: {knn_5_scores.std()}")

## MAIS

Usar loop para ver o desempenho das funções

In [None]:
all_scores = []
for c_vizinho in range(3,9,1):
    knn_clf = KNeighborsClassifier(n_neighbors=c_vizinho)
    all_scores.append((c_vizinho, cross_val_score(knn_clf, X_train, y_train, cv=10).mean()))
sorted(all_scores, key=lambda x:x[1], reverse=True)

## O propósito de Scikit-Learn

O scikit-learn permitiu selecionar um modelo que funciona relativamente rápido. Testamos SVC, regressão logistica, e KNN. Através de cross-validation, pode-se selecionar o modelo com maior desempenho. Depois de selecionar o melhor modelo, será otimizado. Isto poupa tempo, recursos, incluindo energia mental.

## Adicional

Na classificação, a variável-alvo é uma de várias categorias, e deve haver mais de uma instância de cada categoria. Na regressão, só pode haver uma instância de cada variável-alvo, uma vez que o único requisito é que o alvo seja um número real.

1. Carregar iris o modulo datasets

In [None]:
import numpy as np
import pandas as pd
from sklearn import datasets

2. Será considerado somente o target 0 e 1, correspondendo a 'Setosa' e 'Versicolor'. Usar `iris.target < 2` para filtrar este

In [None]:
X = iris.data[iris.target < 2]
y = iris.target[iris.target < 2]

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score

3. Importar `train_test_split` e aplicar

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, stratify=y, random_state=7)

4. Preparar e rodar SVC e utilizar cross-validation

In [None]:
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score

In [None]:
svc_clf = SVC(kernel='linear').fit(X_train, y_train)
svc_scores = cross_val_score(svc_clf, X_train, y_train, cv=4)

5. Média

In [None]:
svc_scores.mean()

6. Fazer o mesmo com o SVR (support vector regression), encontra-se em `sklearn.svm`

In [None]:
from sklearn.svm import SVR

In [None]:
svr_clf = SVR(kernel= 'linear').fit(X_train, y_train)
svr_scores = cross_val_score(svr_clf, X_train, y_train, cv=4)

In [None]:
svr_scores.mean()

## Fazer um marcador

Para isso precisa:

- uma função que compare `y_test` com `y_pred` as previsões.
- para determinar se uma pontuação é boa ou ruim

In [None]:
from sklearn.metrics import make_scorer

In [None]:
# so funciona para este exemplo com o target 0 e 1
def for_scorer(y_test, orig_y_pred):
    y_pred = np.rint(orig_y_pred).astype(np.int64) # arredonda a previsao 
    return accuracy_score(y_test, y_pred)

o `np.rint` arredonda a previsão to o inteiro mais próximo. O método `astype` muda o tipo de previsão para um tipo inteiro

7. Detemrinar se uma pontuação alta é bom ou não.

In [None]:
svr_to_class_scorer = make_scorer(for_scorer, greater_is_better=True)

8. cross-validation

In [None]:
svr_scores = cross_val_score(svr_clf, X_train, y_train, cv=4, scoring=svr_to_class_scorer)

In [None]:
svr_scores.mean()

## Linear e Não Linear

In [None]:
from sklearn.svm import SVC
svc_poly_clf = SVC(kernel='poly', degree=3).fit(X_train, y_train)

In [None]:
svc_poly_scores = cross_val_score(svc_clf, X_train, y_train, cv=4)
svc_poly_scores.mean()