# <font color='blue'>Capítulo 6 - Exercício</font>

Neste exercício você vai praticar suas habilidades de pesquisador, fundamental para quem pretende trabalhar como Cientista de Dados. Seu trabalho será desenvolver o algoritmo KNN usando apenas linguagem Python e Numpy, sem o uso de frameworks (como Scikit-Learn). Você poderá usar o paper abaixo como referência para montar o algoritmo.

Seu problema de negócio é a classificação de plantas em 3 categorias. No dataset fornecido, cada planta possui 4 variáveis preditoras representando características da planta e uma variável representando a classe. Seu algoritmo KNN deve prever a classe de uma nova planta uma vez que as 4 características sejam fornecidas.

In [12]:
# Imports
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split

In [13]:
# Carregando o dataset
names = ['sepal_length', 'sepal_width', 'petal_length', 'petal_width', 'classe']
iris_data = pd.read_csv('arquivos/iris.data', names = names)
iris_data.head()

Unnamed: 0,sepal_length,sepal_width,petal_length,petal_width,classe
0,5.1,3.5,1.4,0.2,Iris-setosa
1,4.9,3.0,1.4,0.2,Iris-setosa
2,4.7,3.2,1.3,0.2,Iris-setosa
3,4.6,3.1,1.5,0.2,Iris-setosa
4,5.0,3.6,1.4,0.2,Iris-setosa


In [14]:
# Separando variáveis preditoras e variável target
X = iris_data.iloc[:,:4].values
y = iris_data.iloc[:,4]

#Labels da variavel target
mapping = {class_name: index for index, class_name in enumerate(np.unique(y))}
y_mapped = y.map(mapping).astype(int)

# Agora, 'y_mapped' contém os valores numéricos correspondentes às classes originais
y = y_mapped

In [15]:
# Separando os dados em conjuntos de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.30, random_state = 33)
print(X_train.shape, y_train.shape)

(105, 4) (105,)


In [19]:
#Verificar o tipo.
print(type(y_train))


<class 'pandas.core.series.Series'>


In [20]:
#Convertendo o array para tratar o código da previsão KM.
y_train = y_train.values  # Se y_train for um pandas Series


In [21]:
y = y_mapped.values  # Se y_mapped for um pandas Series


In [22]:
# Função para calcular a distância euclidiana
def distancia_euclidiana(att1, att2):
    dist = 0
    for i in range(len(att1)):
        dist += pow((att1[i] - att2[i]),2)
    return np.sqrt(dist)

In [23]:
# Algoritmo KNN
def KNN(X_test, k):
    global X_train, y_train  # Usamos as variáveis globais para os dados de treinamento
    predictions = []  # Para armazenar as previsões para cada ponto de teste
    
    # Para cada ponto no conjunto de teste
    for test_point in X_test:
        # Calculando a distância entre o ponto de teste e todos os pontos de treinamento
        distances = np.array([distancia_euclidiana(test_point, x) for x in X_train])
        
        # Obtendo os índices dos k vizinhos mais próximos
        k_indices = distances.argsort()[:k]
        
        # Obtendo as classes dos k vizinhos mais próximos
        k_nearest_labels = [y_train[i] for i in k_indices]
        
        # Realizando a votação majoritária
        majority_vote = max(set(k_nearest_labels), key=k_nearest_labels.count)
        predictions.append(majority_vote)
    
    return predictions


### Explicação passo a passo:

- **Inicialização**: Cria uma lista vazia chamada `predictions` para armazenar as previsões para cada ponto de teste.

- **Loop sobre `X_test`**: Para cada ponto de teste em `X_test`, calculamos a distância desse ponto para todos os pontos no conjunto de treinamento usando a função `distancia_euclidiana`.

- **Calcular distâncias**: Utiliza a lista para calcular a distância entre o ponto de teste atual e cada ponto no conjunto de treinamento `X_train`, e armazenamos essas distâncias em um array do NumPy.

- **Encontrar os k vizinhos mais próximos**: Usa `argsort()` no array de distâncias para obter os índices dos `k` vizinhos mais próximos. `argsort()` retorna os índices que ordenariam o array, e ao selecionar os primeiros `k` índices, obtemos os vizinhos mais próximos.

- **Votação majoritária**: Para cada um dos `k` vizinhos mais próximos, encontramos suas classes (usando os índices para buscar em `y_train`) e realizamos uma votação majoritária para determinar a classe mais comum entre esses vizinhos. A função `max(set(k_nearest_labels), key=k_nearest_labels.count)` retorna o elemento mais frequente em `k_nearest_labels`.

- **Adicionar à previsão**: Adiciona a classe votada majoritariamente à lista `predictions`.

- **Retorno**: Após iterar sobre todos os pontos de teste, a função retorna a lista `predictions`, que contém a classe prevista para cada ponto de teste.



In [24]:
# Avaliando o modelo
y_test_pred = KNN(X_test, 5)
y_test_prediction = np.asarray(y_test_pred)

In [25]:
# Calculando a acurácia
acc = y_test - y_test_prediction
err = np.count_nonzero(acc)
acuracia = ((len(y_test) - err) / len(y_test)) * 100
acuracia

95.55555555555556

In [26]:
# Fazendo previsões para 5 novas plantas com K igual a 3
previsoes = KNN([[6.7,3.1,4.4,1.4],[4.6,3.2,1.4,0.2],[4.6,3.2,1.4,0.2],[6.4,3.1,5.5,1.8],[6.3,3.2,5.6,1.9]], 3)
previsoes

[1, 0, 0, 2, 2]

In [27]:
# Fazendo previsões para 5 novas plantas com K igual a 5
previsoes = KNN([[6.7,3.1,4.4,1.4],[4.6,3.2,1.4,0.2],[4.6,3.2,1.4,0.2],[6.4,3.1,5.5,1.8],[6.3,3.2,5.6,1.9]], 5)
previsoes

[1, 0, 0, 2, 2]

## RESUMO AULA 06 ##

O algoritmo K-Nearest Neighbors (KNN) é um método simples, mas poderoso, usado em classificação e regressão. O princípio por trás do KNN é utilizar os 'k' vizinhos mais próximos de um ponto de dados para determinar a sua classificação ou valor. Vamos detalhar os aspectos fundamentais desse algoritmo e como ele pode ser implementado em Python para resolver problemas de classificação multiclasse.

### **Introdução**
KNN é baseado na ideia intuitiva de que pontos de dados semelhantes tendem a estar próximos uns dos outros. É um algoritmo "preguiçoso" porque não constrói explicitamente um modelo interno, mas memoriza os dados de treinamento. Sua simplicidade o torna amplamente utilizado para uma primeira abordagem em problemas de classificação e regressão.

### **Conhecendo o Algoritmo KNN**
O algoritmo KNN classifica um dado novo ponto baseando-se na maioria dos votos de seus 'k' vizinhos mais próximos. O valor de 'k' é um parâmetro crucial que influencia a qualidade da previsão e deve ser escolhido cuidadosamente para evitar overfitting ou underfitting.

### **KNN e Estrutura de Células de Voronoi**
A estrutura de células de Voronoi é uma maneira de visualizar como o espaço é dividido entre os diferentes pontos de dados no KNN. Cada célula contém pontos que são mais próximos a um determinado ponto de dados do que a qualquer outro, ilustrando a região de influência de cada vizinho.

### **Como Funciona o Algoritmo KNN?**
Para classificar um novo ponto, o KNN calcula a distância entre esse ponto e todos os pontos no conjunto de treinamento, seleciona os 'k' pontos mais próximos, e atribui a classe com base na classe mais frequente entre esses vizinhos.

### **Medidas de Distância Matemática**
A escolha da medida de distância (euclidiana, manhattan, minkowski, etc.) é crucial para o desempenho do KNN. A distância euclidiana é a mais comum, mas outras medidas podem ser mais adequadas dependendo do tipo de dados.

### **Classificação KNN em Python**
A implementação do KNN em Python pode ser realizada usando a biblioteca scikit-learn, que oferece uma implementação eficiente e fácil de usar do algoritmo. Vamos percorrer as etapas para construir um classificador KNN multiclasse:

1. **Definindo Um Problema Para Classificação Multiclasse**: Escolher um conjunto de dados adequado que contém várias classes para previsão.
   
2. **Carregando e Explorando o Dataset**: Utilizar bibliotecas como Pandas para carregar e explorar os dados, entendendo suas características e estrutura.

3. **Pré-Processamento e Normalização**: Preparar os dados para o modelo, incluindo a normalização, que é crucial para o KNN, pois a medida de distância é afetada pela escala dos dados.

4. **Testando o Melhor Valor de K**: Experimentar com diferentes valores de 'k' para encontrar o que oferece o melhor equilíbrio entre overfitting e underfitting.

5. **Construção e Treinamento do Modelo KNN**: Utilizar a classe `KNeighborsClassifier` do scikit-learn para construir e treinar o modelo com os dados de treinamento.

6. **Previsões com Dados de Teste e Avaliação do Modelo**: Após o treinamento, fazer previsões com um conjunto de dados de teste e avaliar o desempenho do modelo usando métricas como precisão, recall e a matriz de confusão.

7. **Previsões em Novos Dados com o Modelo Treinado**: Finalmente, usar o modelo treinado para fazer previsões sobre novos dados não vistos, aplicando o mesmo pré-processamento feito nos dados de treinamento.

O KNN é uma ferramenta poderosa para problemas de classificação e regressão, mas sua eficácia depende da escolha correta de parâmetros e da compreensão dos dados. A implementação em Python com scikit-learn facilita o teste e a aplicação desse algoritmo em problemas reais.