<a href="https://colab.research.google.com/github/deboradcm/IARTES/blob/master/05_k_NN.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Métodos de AM tradicionais: **k Vizinhos Mais Próximos - kNN**
### Notas de aula

In [1]:
import pandas as pd
import numpy as np

### Dados

In [2]:
weather = {'ceu': ['ensolarado', 'ensolarado', 'nublado', 'chuvoso', 'chuvoso', 'chuvoso', 'nublado',
                     'ensolarado', 'ensolarado', 'chuvoso', 'ensolarado', 'nublado', 'nublado', 'chuvoso'],
          'temp': ['quente', 'quente', 'quente', 'media', 'fria', 'fria', 'fria',
                        'media', 'fria', 'media', 'media', 'media', 'quente', 'media'],
          'umidade': ['alta', 'alta', 'alta', 'alta', 'normal', 'normal', 'normal',
                     'alta', 'normal', 'normal', 'normal', 'alta', 'normal', 'alta'],
          'vento': ['F', 'V', 'F', 'F', 'F', 'V', 'V',
                  'F', 'F', 'F', 'V', 'V', 'F', 'V'],
          'jogar': ['F', 'F', 'V', 'V', 'V', 'F', 'V',
                 'F', 'V', 'V', 'V', 'V', 'V', 'F']}
wdf = pd.DataFrame(weather)[['ceu', 'temp', 'umidade', 'vento', 'jogar']]

In [3]:
wdf

Unnamed: 0,ceu,temp,umidade,vento,jogar
0,ensolarado,quente,alta,F,F
1,ensolarado,quente,alta,V,F
2,nublado,quente,alta,F,V
3,chuvoso,media,alta,F,V
4,chuvoso,fria,normal,F,V
5,chuvoso,fria,normal,V,F
6,nublado,fria,normal,V,V
7,ensolarado,media,alta,F,F
8,ensolarado,fria,normal,F,V
9,chuvoso,media,normal,F,V


## Métodos baseados em instâncias -- $k$ Nearest Neighbors

Estes são métodos muito simples de classificação e regressão baseados na ideia de se encontrar um conjunto pré-definido de casos de treino similares à uma nova instância (os vizinhos) e prever a nova instância com base neles. O tamanho da vizinhança pode ser tanto dada em termos de um número fixo $k$ quanto em termos de um raio de distância. A distância pode ser medida por qualquer métrica, por exemplo, a euclidiana. Esses métodos não empregam técnicas de generalização já que eles lembram de todos os dados do treino.

Para um exemplo deste método, dada a coleção abaixo, qual a classe de uma instância `<ceu = ensolarado, temp = media, umidade = alta, vento = V>`, considerando $k$ = 1, 3, 5?

Para calcular o kNN vamos considerar a distância de Manhattan para o exemplo dado:

In [4]:
exemplo = np.array(['ensolarado', 'media', 'alta', 'V'])
exemplo2 = np.array(['nublado', 'media', 'fraca', 'F'])
exemplo == exemplo2  #Vai verificar elemento a elemento
False + False

0

In [5]:
def manhattan(row, vec):
    return 1 - (vec==row).sum()/row.shape[0]

In [6]:
wdf['dist'] = wdf.apply(lambda v: manhattan(v[:-1].values, exemplo), axis = 1)

Para $k$=1, temos, jogar = F:

In [7]:
wdf.sort_values('dist').head(1)

Unnamed: 0,ceu,temp,umidade,vento,jogar,dist
1,ensolarado,quente,alta,V,F,0.25


Para $k$=3, temos jogar = F com 67% de certeza (2/3 dos vizinhos):

In [8]:
wdf.sort_values('dist').head(3)

Unnamed: 0,ceu,temp,umidade,vento,jogar,dist
1,ensolarado,quente,alta,V,F,0.25
7,ensolarado,media,alta,F,F,0.25
10,ensolarado,media,normal,V,V,0.25


Para $k$=5, temos jogar = F com 60% de certeza (3/5 dos vizinhos):

In [9]:
wdf.sort_values('dist').head(5)

Unnamed: 0,ceu,temp,umidade,vento,jogar,dist
1,ensolarado,quente,alta,V,F,0.25
7,ensolarado,media,alta,F,F,0.25
10,ensolarado,media,normal,V,V,0.25
11,nublado,media,alta,V,V,0.25
13,chuvoso,media,alta,V,F,0.25


#### Conclusões

O kNN consiste de uma família de métodos muito simples, muito usado como componente de diferentes outras técnicas (como estimativas de densidade). A maneira como uma decisão é inferida da vizinhança pode ou não considerar a similaridade dos vizinhos, através de ponderação. Implementações efetivas destes métodos devem recuperar as informações de treino com a ajuda de alguma estrutura de busca eficiente como uma KD-Tree ou uma Ball Tree.

In [10]:
from sklearn.datasets import load_iris
iris = load_iris()

#iris.target_names[0,1]

In [11]:
iris.target

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

In [12]:

iris.target_names

array(['setosa', 'versicolor', 'virginica'], dtype='<U10')

In [13]:
iris.target_names[iris.target]

array(['setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'setosa', 'setosa', 'setosa', 'setosa',
       'setosa', 'setosa', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolor', 'versicolor', 'versicolor', 'versicolor',
       'versicolo

In [14]:
iris.data

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1],
       [5.4, 3.7, 1.5, 0.2],
       [4.8, 3.4, 1.6, 0.2],
       [4.8, 3. , 1.4, 0.1],
       [4.3, 3. , 1.1, 0.1],
       [5.8, 4. , 1.2, 0.2],
       [5.7, 4.4, 1.5, 0.4],
       [5.4, 3.9, 1.3, 0.4],
       [5.1, 3.5, 1.4, 0.3],
       [5.7, 3.8, 1.7, 0.3],
       [5.1, 3.8, 1.5, 0.3],
       [5.4, 3.4, 1.7, 0.2],
       [5.1, 3.7, 1.5, 0.4],
       [4.6, 3.6, 1. , 0.2],
       [5.1, 3.3, 1.7, 0.5],
       [4.8, 3.4, 1.9, 0.2],
       [5. , 3. , 1.6, 0.2],
       [5. , 3.4, 1.6, 0.4],
       [5.2, 3.5, 1.5, 0.2],
       [5.2, 3.4, 1.4, 0.2],
       [4.7, 3.2, 1.6, 0.2],
       [4.8, 3.1, 1.6, 0.2],
       [5.4, 3.4, 1.5, 0.4],
       [5.2, 4.1, 1.5, 0.1],
       [5.5, 4.2, 1.4, 0.2],
       [4.9, 3

In [15]:
from sklearn.model_selection import train_test_split
Xtrain, Xtest, ytrain, ytest = train_test_split(iris.data, iris.target, test_size=0.3, stratify=iris.target)

In [16]:

Xtrain.shape

(105, 4)

In [17]:
Xtest.shape

(45, 4)

In [18]:

45/150

0.3

In [19]:
100 * pd.Series(iris.target).value_counts() / 150

0    33.333333
1    33.333333
2    33.333333
dtype: float64

In [20]:
100 * pd.Series(ytrain).value_counts() / len(ytrain)

2    33.333333
0    33.333333
1    33.333333
dtype: float64

In [21]:

100 * pd.Series(ytest).value_counts() / len(ytest)

1    33.333333
0    33.333333
2    33.333333
dtype: float64

In [22]:
from sklearn.neighbors import KNeighborsClassifier

In [23]:
knn = KNeighborsClassifier(n_neighbors=3)

In [24]:
knn.fit(Xtrain, ytrain)

In [25]:
y_pred = knn.predict(Xtest)

In [26]:
from sklearn.metrics import accuracy_score

In [27]:
acuracia = accuracy_score(ytest, y_pred)
acuracia

0.9555555555555556

In [28]:
knn2 = KNeighborsClassifier()

In [29]:
knn2.fit(Xtrain, ytrain)

In [30]:
y_pred = knn2.predict(Xtest)

In [31]:
y_pred

array([1, 0, 2, 0, 2, 0, 0, 1, 0, 2, 2, 2, 1, 0, 0, 2, 1, 0, 2, 1, 1, 2,
       1, 1, 1, 0, 1, 0, 2, 2, 2, 0, 0, 0, 2, 0, 2, 1, 2, 0, 1, 1, 2, 2,
       1])

In [32]:
ytest

array([1, 0, 2, 0, 1, 0, 0, 1, 0, 2, 2, 2, 1, 0, 0, 2, 1, 0, 2, 1, 1, 2,
       1, 2, 1, 0, 1, 0, 2, 2, 2, 0, 0, 0, 1, 0, 2, 1, 2, 0, 1, 1, 2, 2,
       1])

In [33]:
y_pred == ytest

array([ True,  True,  True,  True, False,  True,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True,
        True,  True,  True,  True,  True, False,  True,  True,  True,
        True,  True,  True,  True,  True,  True,  True, False,  True,
        True,  True,  True,  True,  True,  True,  True,  True,  True])

In [34]:
acuracia  = accuracy_score(ytest, y_pred)
acuracia

0.9333333333333333