<h1><center>K vizinhos mais próximos - KNN</center></h1>


Neste notebook, você carregará um conjunto de dados do cliente, ajustará os dados e usará K vizinhos mais próximos para prever um ponto de dados. Mas o que são ** K vizinhos mais próximos**?

** K vizinhos mais próximos** ou **KNN** é um algoritmo para aprendizado supervisionado. Onde os dados são 'treinados' com pontos de dados correspondentes à sua classificação. Uma vez que um ponto deve ser previsto, ele leva em consideração os 'K' pontos mais próximos a ele para determinar sua classificação.

### A figura abaixo mostra um exemplo do conceito de KNN.

<img src="https://ibm.box.com/shared/static/mgkn92xck0z05v7yjq8pqziukxvc2461.png">


Nesse caso, temos pontos de dados de Classe A e B. Queremos prever o que é a estrela (ponto de dados de teste). Se considerarmos um valor k de 3 (3 pontos de dados mais próximos), obteremos uma previsão da Classe B. No entanto, se considerarmos um valor k de 6, obteremos uma previsão da Classe A.

Nesse sentido, é importante considerar o valor de k. Mas, com sorte, a partir deste diagrama, você deve ter uma ideia do que é o algoritmo KNN. Ele considera os 'K' Vizinhos Mais Próximos (pontos) quando prevê a classificação do ponto de teste.

Carregando as bibliotecas

In [None]:
import itertools
import numpy as np
import matplotlib.pyplot as plt
from matplotlib.ticker import NullFormatter
import pandas as pd
import numpy as np
import matplotlib.ticker as ticker
from sklearn import preprocessing
%matplotlib inline

<div id="about_dataset">
    <h2>Sobre o conjunto de dados</h2>
</div>


Imagine que um provedor de telecomunicações tenha segmentado sua base de clientes por padrões de uso de serviço, categorizando os clientes em quatro grupos. Se os dados demográficos puderem ser usados para prever a associação ao grupo, a empresa pode customizar ofertas para clientes em potencial individuais. É um problema de classificação. Ou seja, dado o conjunto de dados, com rótulos predefinidos, precisamos construir um modelo a ser usado para prever a classe de um caso novo ou desconhecido.

O exemplo se concentra no uso de dados demográficos, como região, idade e estado civil, para prever os padrões de uso.

O campo de destino, denominado ** custcat**, tem quatro valores possíveis que correspondem aos quatro grupos de clientes, da seguinte forma:
- Basic Service
- E-Service
- Plus Service
- Total Service

Nosso objetivo é construir um classificador, para prever a classe de casos desconhecidos. Usaremos um tipo de classificação KNN.

### Carregar os dados do arquivo CSV


In [None]:
df = pd.read_csv('datasets/telecust_dataset/teleCust1000t.csv')
df.head()

<div id="visualization_analysis">
    <h2>Análise e Visualização dos dados</h2> 
</div>


#### Vamos ver quantos elementos de cada classe está em nosso conjunto de dados


In [None]:
df['custcat'].value_counts()

#### 281 Plus Service, 266 Basic-service, 236 Total Service, and 217 E-Service customers


Você pode explorar facilmente seus dados usando técnicas de visualização:


In [None]:
df.hist(column='income', bins=50)

### Conjunto de características


Vamos definir o conjunto de características, X:


In [None]:
df.columns

Para usar a biblioteca scikit-learn, temos que converter o dataframe do Pandas em uma matriz Numpy:

In [None]:
X = df[['region', 'tenure','age', 'marital', 'address', 'income', 'ed', 'employ','retire', 'gender', 'reside']] .values  #.astype(float)
X[0:5]


Quais são os rótulos?


In [None]:
y = df['custcat'].values
y[0:5]

## Normalização dos dados


A padronização de dados dá aos dados média zero e variância unitária, é uma boa prática, especialmente para algoritmos como KNN, que é baseado na distância dos casos:

In [None]:
X = preprocessing.StandardScaler().fit(X).transform(X.astype(float))
X[0:5]

### Divisão de dados em teste e treinamento

<b>Out-of-Sample Accuracy</b> é a porcentagem de previsões corretas que o modelo faz sobre os dados nos quais o modelo NÃO foi treinado. Fazer um treinamento e um teste no mesmo conjunto de dados provavelmente terá uma baixa precisão fora da amostra, devido à probabilidade de ajuste excessivo.

É importante que nossos modelos tenham uma alta Out-of-Sample Accuracy, porque o objetivo de qualquer modelo, é claro, é fazer previsões corretas sobre dados desconhecidos. Então, como podemos melhorar a precisão fora da amostra? Uma maneira é usar uma abordagem de avaliação chamada Divisão de Treino/Teste.
A divisão de treino/teste envolve a divisão do conjunto de dados em conjuntos de treinamento e teste, respectivamente, que são mutuamente exclusivos. Depois disso, você treina com o conjunto de treinamento e testa com o conjunto de teste.

Isso fornecerá uma avaliação mais precisa sobre a Out-of-Sample Accuracy porque o conjunto de dados de teste não faz parte do conjunto de dados que foi usado para treinar os dados. É mais realista para problemas do mundo real.

In [None]:
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split( X, y, test_size=0.2, random_state=4)
print ('Conjunto de treinamento:', X_train.shape,  y_train.shape)
print ('Conjunto de teste:', X_test.shape,  y_test.shape)

<div id="classification">
    <h2>Classificação</h2>
</div>


<h3>Modelagem (KNN)</h3>


Importando a componente do classificador na biblioteca sklearn.neighbors


In [None]:
from sklearn.neighbors import KNeighborsClassifier

### Treinamento

Vamos começar o algoritmo com k=4 por enquanto:


In [None]:
k = 4
# Treine o modelo com o conjunto de treinamento
neigh = KNeighborsClassifier(n_neighbors = k).fit(X_train,y_train)
neigh

### Predição

Usamos o conjunto de teste na predição:


In [None]:
# Predição
yhat = neigh.predict(X_test)
yhat[0:5]

### Avaliação da precisão

Na classificação multi rótulo, **metrics.accuracy_score** é uma função que calcula a precisão do subconjunto. Esta função é igual à função jaccard_similarity_score. Essencialmente, ele calcula o quão próximo os rótulos reais e os rótulos previstos são correspondidos no conjunto de teste.


In [None]:
from sklearn import metrics
print("Precisão no conjunto de treino: ", metrics.accuracy_score(y_train, neigh.predict(X_train)))
print("Precisão no conjunto de teste: ", metrics.accuracy_score(y_test, yhat))

## Exercício

Você consegue construir o modelo denovo com k=6?


In [None]:
# Escreva seu código abaixo. Não se esqueça de pressionar Shift + Enter para executar a célula


<details><summary>Clique aqui para ver a solução</summary>

```python
k = 6
neigh6 = KNeighborsClassifier(n_neighbors = k).fit(X_train,y_train)
yhat6 = neigh6.predict(X_test)
print("Precisão do conjunto de treino: ", metrics.accuracy_score(y_train, neigh6.predict(X_train)))
print("Precisão do conjunto de teste: ", metrics.accuracy_score(y_test, yhat6))

```

</details>


#### E quanto aos outros Ks?

K em KNN é o número de vizinhos mais próximos a serem examinados. Deve ser especificado pelo usuário. Então, como podemos escolher o valor certo para K?
A solução geral é reservar uma parte de seus dados para testar a precisão do modelo. Em seguida, escolha k = 1, use a parte de treinamento para modelagem e calcule a precisão da previsão usando todas as amostras em seu conjunto de teste. Repita esse processo, aumentando k, e veja qual k é o melhor para o seu modelo.

Podemos calcular a precisão de KNN para diferentes Ks.

In [None]:
Ks = 10
mean_acc = np.zeros((Ks-1))
std_acc = np.zeros((Ks-1))
for n in range(1,Ks):
    
    # Treina o modelo e faz a predição
    neigh = KNeighborsClassifier(n_neighbors = n).fit(X_train,y_train)
    yhat=neigh.predict(X_test)
    mean_acc[n-1] = metrics.accuracy_score(y_test, yhat)

    
    std_acc[n-1]=np.std(yhat==y_test)/np.sqrt(yhat.shape[0])

mean_acc

#### Plotar valor de precisão por K


In [None]:
plt.plot(range(1,Ks),mean_acc,'g')
plt.fill_between(range(1,Ks),mean_acc - 1 * std_acc,mean_acc + 1 * std_acc, alpha=0.10)
plt.legend(('Precisão ', '+/- 3x Desvio Padrão'))
plt.ylabel('Precisão ')
plt.xlabel('K')
plt.tight_layout()
plt.show()

In [None]:
print( "A melhor precisão foi de ", mean_acc.max(), " com k= ", mean_acc.argmax()+1)