[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/diogoflim/AM/blob/main/1_kNN.ipynb)


# Introdução ao Aprendizado de Máquina

**Professor: Diogo Ferreira de Lima Silva (TEP)**

**Universidade Federal Fluminense**


# Classificação com o Iris dataset

## Entendendo o problema

Nossa base de treinamento contém informações sobre 150 flores, divididas em 3 classes (rótulos):

- 0: "setosa"
- 1: "versicolor"
- 2: "virginica"

Ao todo, temos quatro atributos:

1. largura da sépala em cm
2. comprimento da sépala em cm
3. largura da pétala em cm
4. comprimento da pétala em cm


Com base nos nossos dados, queremos aprender uma forma de classificar novas instâncias.

## Acessando a base de dados

A biblioteca sklearn é muito importante para modelagem de AM. Podemos usá-la para acessar a base de dados iris


In [1]:
from sklearn.datasets import load_iris

In [2]:
(X, y) = load_iris(return_X_y = True)

In [3]:
# Vamos analisar o formato dos nossos dados

print (f' shape da matriz de atributos: {X.shape}')
print (f' shape do vetor de rótulos de atributos: {y.shape}')


 shape da matriz de atributos: (150, 4)
 shape do vetor de rótulos de atributos: (150,)


In [4]:
# Primeiras 10 linhas da matriz de atributos

X[:10]

array([[5.1, 3.5, 1.4, 0.2],
       [4.9, 3. , 1.4, 0.2],
       [4.7, 3.2, 1.3, 0.2],
       [4.6, 3.1, 1.5, 0.2],
       [5. , 3.6, 1.4, 0.2],
       [5.4, 3.9, 1.7, 0.4],
       [4.6, 3.4, 1.4, 0.3],
       [5. , 3.4, 1.5, 0.2],
       [4.4, 2.9, 1.4, 0.2],
       [4.9, 3.1, 1.5, 0.1]])

In [5]:
# Vetor de rótulos
y

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1,
       1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2,
       2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2, 2])

### Amostragem

Como visto em sala, é importante realizar uma separação entre os dados de treinamento e teste. Isso pode ser feito com a função train_test_split do pacote sklearn

In [6]:
from sklearn.model_selection import train_test_split

In [7]:
# Realizaremos uma separação com 20% dos dados para teste e 80% para treinamento

X_train, X_test, y_train, y_test = train_test_split(X, y, random_state=0, test_size = 0.2)

In [8]:
print (f' shape da matriz de de treinamento: {X_train.shape}')
print (f' shape do vetor de rótulos de treinamento: {y_train.shape}')
print (f' shape da matriz de teste: {X_test.shape}')
print (f' shape do vetor de rótulos de teste: {y_test.shape}')

 shape da matriz de de treinamento: (120, 4)
 shape do vetor de rótulos de treinamento: (120,)
 shape da matriz de teste: (30, 4)
 shape do vetor de rótulos de teste: (30,)


### Normalização

In [9]:
from sklearn.preprocessing import MinMaxScaler

In [10]:
escala = MinMaxScaler()
escala.fit(X_train)

X_train_norm =  escala.transform(X_train)

X_train_norm [:10]

array([[0.58333333, 0.45833333, 0.75862069, 0.70833333],
       [0.30555556, 0.41666667, 0.5862069 , 0.58333333],
       [0.25      , 0.625     , 0.06896552, 0.04166667],
       [0.5       , 0.41666667, 0.65517241, 0.70833333],
       [0.58333333, 0.33333333, 0.77586207, 0.875     ],
       [0.25      , 0.29166667, 0.48275862, 0.54166667],
       [0.38888889, 0.75      , 0.10344828, 0.08333333],
       [0.47222222, 0.29166667, 0.68965517, 0.625     ],
       [0.44444444, 0.41666667, 0.53448276, 0.58333333],
       [0.41666667, 0.25      , 0.5       , 0.45833333]])

## Classificação com o k-NN


In [11]:
# Para aplicar o classificador, podemos importar o método KNeighborsClassifier

from sklearn.neighbors import KNeighborsClassifier

In [12]:
# Inicialmente, criamos o objeto chamando o modelo e passando o hiperparâmetro k=5 (número de vizinhos)

knn = KNeighborsClassifier (n_neighbors= 5)

In [13]:
# Na fase de treinamento, ajustamos a função. Lembrando que, no caso do k-NN, nosso algoritmo é lazy.

# Assim, o treinamento consiste basicamente na memorização dos dados.

knn.fit(X_train_norm, y_train)

In [14]:
# Agora, podemos aplicar nosso método aos exemplos de teste

X_test_norm = escala.transform(X_test)


y_pred = knn.predict(X_test_norm) # y_pred receberá os valores previstos com base nos 5 vizinhos mais próximos

In [15]:
y_pred

array([2, 1, 0, 2, 0, 2, 0, 1, 1, 1, 2, 1, 1, 1, 1, 0, 1, 1, 0, 0, 2, 1,
       0, 0, 2, 0, 0, 1, 1, 0])

## Performance

Chegou a hora de testarmos a performance que obtivemos em nosso experimento.

Para isso, vamos carregar as métricas inseridas no sklearn e aplicar o método accuracy_score

In [16]:
from sklearn import metrics

In [17]:
metrics.accuracy_score(y_test, y_pred)

1.0

Atingimos uma acurácia de 100% no exemplo.

**Será que obteríamos uma outra acurácia caso a nossa partição (treino / teste) fosse diferente?**

- **Não necessariamente!**

In [18]:
X2_train, X2_test, y2_train, y2_test = train_test_split(X, y, random_state=2, test_size = 0.2)
escala = MinMaxScaler()
X2_train_norm = escala.fit_transform(X2_train)
X2_test_norm = escala.transform(X2_test)
y2_pred = knn.fit(X2_train_norm, y2_train).predict(X2_test_norm)
metrics.accuracy_score(y2_test, y2_pred)


0.9666666666666667

Ou seja, mudando a semente da geração do número aleatório, obtivemos um resultado diferente!

# Aplicando validação cruzada

## r-fold cross validation

1. Particione os dados em r subconjuntos;

2. "Guarde" um subconjunto para o teste da função aprendida pelos demais (r-1) subconjuntos, usados no treinamento;

3.  Calcule a acurácia comparando as previsões com os rótulos verdadeiros do conjunto de teste;

4.  Os passos 2 e 3 são realizados r vezes, cada uma das vezes com um dos subconjuntos usado como teste e os demais no treinamento;  

5. Calcule a média das performances obtidas;

In [19]:
from sklearn.model_selection import cross_val_score

In [20]:
knn = KNeighborsClassifier(n_neighbors= 5)

In [21]:
X_norm = MinMaxScaler().fit_transform(X)

In [22]:
scores = cross_val_score(knn, X_norm, y , cv = 5, scoring= 'accuracy') # cv = 5 partições
scores

array([0.96666667, 0.96666667, 0.96666667, 0.9       , 1.        ])

In [23]:
scores.mean()

np.float64(0.96)

Nossa performance média não foi tão diferente da performance encontrada anteriormente, ficando apenas um pouco abaixo

# Testando diferentes valores de k e utilizando um Pipeline

In [31]:
from sklearn.pipeline import Pipeline
import pandas as pd


In [32]:
# 1. Dividindo em Treino e Teste (80% treino, 20% teste)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

# 2. Criando um Pipeline (normalização + k-NN)
pipe = Pipeline([
    ('scaler', MinMaxScaler()),  # Normalização dentro do pipeline
    ('knn', KNeighborsClassifier())
])

In [33]:
# 3. Testar diferentes valores de k com Validação Cruzada no conjunto de treinamento
k_range = list(range(1, 15))
scores = []
for k in k_range:
    pipe.set_params(knn__n_neighbors=k)  # Define o valor de k
    cv_scores = cross_val_score(pipe, X_train, y_train, cv=5, scoring='accuracy')
    scores.append(cv_scores.mean())



In [34]:
# 4. Encontrar o melhor k no treinamento!
best_k = k_range[scores.index(max(scores))]
print(f"Melhor k: {best_k} (Acurácia: {max(scores)})")


# Resultados em DataFrame
cv_results = pd.DataFrame({'k': k_range, 'Acurácia Validação': scores})
print(cv_results)

Melhor k: 3 (Acurácia: 0.95)
     k  Acurácia Validação
0    1            0.933333
1    2            0.941667
2    3            0.950000
3    4            0.933333
4    5            0.941667
5    6            0.950000
6    7            0.941667
7    8            0.941667
8    9            0.941667
9   10            0.950000
10  11            0.950000
11  12            0.941667
12  13            0.950000
13  14            0.950000


In [35]:
# 5. Treinar o modelo final com o melhor k (usando todo o treino)
pipe.set_params(knn__n_neighbors=best_k)
pipe.fit(X_train, y_train)

# 6. Avaliar no Teste
test_accuracy = pipe.score(X_test, y_test)
print(f"Acurácia no Teste: {test_accuracy:.4f}")



Acurácia no Teste: 0.9667
