# Introdução à Data Science e Machine Learning - Data ICMC-USP

## Prática Aula 01 - k-Nearest Neighbors

Esse material foi desenvolvido pelo **Data**, grupo de extensão de aprendizado e ciência de dados compostos por alunos do Instituto de Ciências Matemáticas e de Computação da USP

Para saber mais sobre as atividades do Data entre no nosso site e nos siga e nossas redes sociais:
- [Site](http://data.icmc.usp.br/)
- [Twitter](https://twitter.com/data_icmc)
- [LinkedIn](https://www.linkedin.com/school/data-icmc/)
- [Facebook](https://www.facebook.com/dataICMC/)

Aproveite o material!

In [1]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
from sklearn.neighbors import KNeighborsClassifier

Vamos começar carregando os dados que iremos usar no nossa tarefa. Esses dados fornecem várias informações a respeito de diferentes vinhos e o objetivo é classificar se o vinho é bom (target é a coluna *is_good*).

Esse conjunto de dados é uma modificação do conjunto 

In [2]:
##############################################################
#                       PREENCHA AQUI:                       #
#  - Leia os dados de data.csv com pd.read_csv e guarde      #
# na variável df                                             #
##############################################################

df = pd.read_csv('data.csv')

# .head() mostra as primeiras linhas do DataFrame
df.head()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,is good
0,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,0.0
1,7.8,0.88,0.0,2.6,0.098,25.0,67.0,0.9968,3.2,0.68,9.8,0.0
2,7.8,0.76,0.04,2.3,0.092,15.0,54.0,0.997,3.26,0.65,9.8,0.0
3,11.2,0.28,0.56,1.9,0.075,17.0,60.0,0.998,3.16,0.58,9.8,1.0
4,7.4,0.7,0.0,1.9,0.076,11.0,34.0,0.9978,3.51,0.56,9.4,0.0


In [3]:
# .tail() mostra as últimas linhas do DataFrame 
df.tail()

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,is good
1594,6.2,0.6,0.08,2.0,0.09,32.0,44.0,0.9949,3.45,0.58,10.5,0.0
1595,5.9,0.55,0.1,2.2,0.062,39.0,51.0,0.99512,3.52,0.76,11.2,1.0
1596,6.3,0.51,0.13,2.3,0.076,29.0,40.0,0.99574,3.42,0.75,11.0,1.0
1597,5.9,0.645,0.12,2.0,0.075,32.0,44.0,0.99547,3.57,0.71,10.2,0.0
1598,6.0,0.31,0.47,3.6,0.067,18.0,42.0,0.99549,3.39,0.66,11.0,1.0


In [4]:
##############################################################
#                       PREENCHA AQUI:                       #
#  - Guarde o shape do DataFrame na viarável  shape          #
##############################################################

# DataFrames possuem shape, assim como arrays

shape = df.shape                                             # informa o formato do shape -> linhas x colunas

##############################################################

print(shape)

(1599, 12)


In [5]:
# imprime os nomes de todas as colunas
for col in df.columns:
    print(col)

fixed acidity
volatile acidity
citric acid
residual sugar
chlorides
free sulfur dioxide
total sulfur dioxide
density
pH
sulphates
alcohol
is good


### Deixando os dados na mesma escala
Para vários algoritmos é importante deixarmos os dados em uma mesma escala, e o kNN um desses casos. Para entender melhor vamos olhar o exemplo a seguir:

<img src="imgs/grafico_escala.png" style="width: 400px"/>

Nesse caso a distância entre os dois pontos é dada por

$$
\begin{align*}
\text{dist}(x^{(1)}, x^{(2)}) &= \sqrt{(x^{(1)}_1 - x^{(2)}_1)^2 + (x^{(1)}_2 - x^{(2)}_2)^2} \\
  &= \sqrt{(3 - 2)^2 + (10000 - 9000)^2} \\
  &= \sqrt{1 + 1000000} \\
  &= \sqrt{1000001} \\
  &= 1000.0005
\end{align*}$$


Como as escalas são muito diferentes o primeiro atributo acaba não interferindo em praticamente nada no resultado da distância. E é importante perceber que esse tipo de situação ocorre com frequência em conjuntos de dados reais.

Existem diversas formas de tratar essa situação, aqui usaremos uma técnica chamada **Min-Max Scaling**, que transforma os dados deixando-os no intervalo $[0, 1]$. A formula é da transformação é a seguinte:

$$x^{(i)}_j \leftarrow \frac{x^{(i)}_j - min(x_j)}{max(x_j) - min(x_j)}$$

Em palavras significa que vamos subtrair o menor valor da atributo e dividir pela amplitude (diferença entre o máximo e o mínimo).


Pronto, agora que entendemos podemos fazer fazer isso para todas as nossas colunas utilizando a função interna do scikit-learn

In [6]:
scaler = MinMaxScaler()
scaler.fit(df)
df = pd.DataFrame(scaler.transform(df), columns=df.columns)

[Como usar a função MinMaxScaler em Python?](https://machinelearningmastery.com/standardscaler-and-minmaxscaler-transforms-in-python/)

Para saber mais sobre a função MinMaxScaler(), leia [aqui](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.MinMaxScaler.html).

### Divisão dos dados em treino e validação

In [7]:
target = 'is good'
features = df.columns.to_list()
features.remove(target)

X_train, X_val, y_train, y_val = train_test_split(df[features], df[target], test_size=0.2, random_state=0)

print(X_train.shape)
print(y_train.shape)
print(X_val.shape)
print(y_val.shape)

(1279, 11)
(1279,)
(320, 11)
(320,)


### Treinando um modelo

In [9]:
##############################################################
#                       PREENCHA AQUI:                       #
#  - Instancie um KNeighborsClassifier na variável clf       #
#  - Treine o classificador com X_train e y_train            #
#  - Faça a predições para os dados de validade e salve      #
# em y_pred                                                  #
##############################################################

# Criando o modelo que usa somento um vizinho
clf = KNeighborsClassifier(n_neighbors=1)

# Treinando o modelo nos dados de treino
clf.fit(X_train, y_train)

X_train, X_val, y_train, y_val = train_test_split(df[features], df[target], 
                                                    test_size=0.2, random_state=42)

print(X_train.shape)
print(X_val.shape)
print(y_train.shape)
print(y_val.shape)


y_pred = clf.predict(X_val)

##############################################################

(1279, 11)
(320, 11)
(1279,)
(320,)


### Avaliando o modelo treinado

In [10]:
acc = None

##############################################################
#                       PREENCHA AQUI:                       #
#  - Calcule a acurácia do modelo que você treinou usando a  #
# função accuracy_score, salve o resultado e o imprima       #
##############################################################

# Importar a função que calcula a acurácia

acc = accuracy_score(y_val, y_pred)

##############################################################

print(f'A acurácia foi de {acc * 100:.2f}%')

A acurácia foi de 75.00%


### Explorando variações no modelo

#### Número de vizinhos

O principal hiperparâmetro do kNN é justamente o número de vizinhos, representado pelo k. Por padrão o `KNeighborsClassifier()` usa cinco vizinhos, através de seu parâmetro `n_neighbors` é possível alterar este valor.

#### Métrica de distância

Como vimos na aula, é possível utilizar diferentes metricas de distancia entre pontos, e vimos as duas seguintes:

- Distância Euclidiana => $dist(a, b) = \sqrt{\sum_i (a_i - b_i)^2}$
- Distância Manhattan => $dist(a, b) = \sum_i |a_i - b_i|$

O sklearn, por outro lado, faz uso de uma generalização destas duas distâncias, chamada distância **Minkowski** =>
$dist(a, b) = (\sum_i |a_i - b_i|^p)^\frac{1}{p}$. Perceba que com $p=2$ temos a distância Euclidiano e com $p=1$ temos a distância Manhattan. 

Por padrão a classe `KNeighborsClassifier()` usa `p=2`.

In [11]:
n_vizinhos = [3, 5, 7, 9, 11, 13]
resultados = []

    ##############################################################
    #                       PREENCHA AQUI:                       #
    #  - Crie um kNN com k vizinhos e utilizando distância       #
    # Manhattan                                                  #
    # - Treine esse modelo com X_train e y_train                 #
    # - Calcule a acurácia do modelo que você treinou e salve    #
    # o resultado na lista resultados                            #
    ##############################################################
    
for k in n_vizinhos:    
    # Criamos um modelo novo e treinamos ele
    clf = KNeighborsClassifier(n_neighbors=k)
    clf.fit(X_train, y_train)
    
    # Fazendo predição para os dados de validação e calculando acurácia
    y_pred = clf.predict(X_val)
    acc = accuracy_score(y_val, y_pred)
    
    # Salvando a acurácia para o numero atual de vizinhos
    resultados.append(acc)
    

    ##############################################################

for k, acc in zip(n_vizinhos, resultados):
    print(f'{k:02d} vizinhos => Acurácia {acc * 100:.2f}%')

03 vizinhos => Acurácia 71.88%
05 vizinhos => Acurácia 68.44%
07 vizinhos => Acurácia 70.94%
09 vizinhos => Acurácia 70.00%
11 vizinhos => Acurácia 72.81%
13 vizinhos => Acurácia 71.25%
