# __kNN__

***
### _Prompts e Respostas_

` Prompt 1 : Necessito que crie um algoritmo para o método de aprendizado supervisionado kNN na linguagem Python (Jupyter Notebook)`

> Claro, vou te mostrar um exemplo simples de implementação do algoritmo kNN (k-nearest neighbors) em Python usando Jupyter Notebook. Antes de começarmos, é importante ter o NumPy instalado, pois vamos usá-lo para realizar operações matemáticas de forma eficiente. Você pode instalar o NumPy através do comando pip install numpy.
>
> Aqui está o código para a implementação do kNN:

In [1]:
import numpy as np
class KNN:
    def __init__(self, k=3):
        self.k = k

    def fit(self, X, y):
        self.X_train = X
        self.y_train = y

    def predict(self, X):
        y_pred = [self._predict(x) for x in X]
        return np.array(y_pred)

    def _predict(self, x):
        # Calcula as distâncias entre x e todos os pontos de treinamento
        distances = [np.sqrt(np.sum((x - x_train)**2)) for x_train in self.X_train]
        # Ordena os índices dos pontos de treinamento por distância
        k_indices = np.argsort(distances)[:self.k]
        # Identifica as classes dos k vizinhos mais próximos
        k_nearest_labels = [self.y_train[i] for i in k_indices]
        # Retorna a classe mais comum entre os k vizinhos
        most_common = np.bincount(k_nearest_labels).argmax()
        return most_common

***
`Prompt 2 : Como posso utilizar um dataset neese conjunto, como o penguins?`

>Para utilizar o conjunto de dados Penguins (pinguins) com o algoritmo kNN, primeiro você precisa carregar os dados e, em seguida, prepará-los para serem usados no modelo. O conjunto de dados Penguins é um conjunto popular que contém informações sobre pinguins, incluindo características como o comprimento e a profundidade do bico, o comprimento da asa, o peso corporal e a espécie de pinguim (Adélia, Papua ou Barbicha).
>
>Você pode usar a biblioteca seaborn para carregar o conjunto de dados Penguins e em seguida criar os conjuntos de treinamento e teste. Veja um exemplo de como fazer isso:

In [2]:
import seaborn as sns
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score
from sklearn.neighbors import KNeighborsClassifier

# Carregando o conjunto de dados Penguins
penguins = sns.load_dataset('penguins')

# Removendo linhas com valores ausentes
penguins.dropna(inplace=True)

# Convertendo as espécies de pinguim para valores numéricos
penguins['species'] = penguins['species'].map({'Adelie': 0, 'Chinstrap': 1, 'Gentoo': 2})

# Separando as características (features) e o alvo (target)
X = penguins[['bill_length_mm', 'bill_depth_mm', 'flipper_length_mm', 'body_mass_g']]
y = penguins['species']

# Dividindo o conjunto de dados em treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Padronizando as características para terem média zero e variância unitária
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Criando e treinando o modelo kNN
knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train_scaled, y_train)

# Fazendo previsões no conjunto de teste
y_pred = knn.predict(X_test_scaled)

# Calculando a acurácia do modelo
accuracy = accuracy_score(y_test, y_pred)
print(f'Acurácia do modelo kNN: {accuracy:.2f}')

Acurácia do modelo kNN: 1.00


>Neste exemplo:
>
>  1. Carregamos o conjunto de dados Penguins usando seaborn.
>
>  2. Removemos linhas com valores ausentes para garantir que o conjunto de dados esteja limpo.
>
>  3. Mapeamos as espécies de pinguim para valores numéricos para que possam ser usadas como alvo no modelo.
>
>  4. Dividimos os dados em conjuntos de treinamento e teste (80% treinamento, 20% teste).
>
>  5. Padronizamos as características (features) para terem média zero e variância unitária usando StandardScaler.
>
>  6. Criamos um modelo kNN com n_neighbors=3 e o treinamos com os dados de treinamento padronizados.
>
>  7. Fizemos previsões no conjunto de teste e calculamos a acurácia do modelo.
>
>Você pode ajustar os parâmetros do modelo kNN (como o número de vizinhos) e realizar outras etapas de pré-processamento conforme necessário para otimizar o desempenho do modelo.

***
`Prompt 3 : Evite utilizar bibliotecas com implementações prontas (como o scikit-learn) e busque utilizar somente auxiliares para a computação vetorial (por exemplo, numpy)`

>Entendi, vou criar um exemplo simples de implementação do kNN sem o uso de bibliotecas como scikit-learn, utilizando apenas o NumPy para operações matemáticas. Neste exemplo, usaremos o conjunto de dados Penguins e implementaremos o kNN manualmente.

In [3]:
import numpy as np
import pandas as pd
import seaborn as sns

# Carregando o conjunto de dados Penguins
penguins = sns.load_dataset('penguins')

# Removendo linhas com valores ausentes
penguins.dropna(inplace=True)

# Convertendo as espécies de pinguim para valores numéricos
penguins['species'] = penguins['species'].map({'Adelie': 0, 'Chinstrap': 1, 'Gentoo': 2})

# Separando as características (features) e o alvo (target)
X = penguins[['bill_length_mm', 'bill_depth_mm', 'flipper_length_mm', 'body_mass_g']].values
y = penguins['species'].values

# Função para calcular a distância euclidiana entre dois pontos
def euclidean_distance(x1, x2):
    return np.sqrt(np.sum((x1 - x2)**2))

# Função para o algoritmo kNN
def k_nearest_neighbors(X_train, y_train, X_test, k):
    y_pred = []
    for test_point in X_test:
        distances = [euclidean_distance(train_point, test_point) for train_point in X_train]
        nearest_indices = np.argsort(distances)[:k]
        nearest_labels = y_train[nearest_indices]
        most_common = np.bincount(nearest_labels).argmax()
        y_pred.append(most_common)
    return np.array(y_pred)

# Dividindo o conjunto de dados em treinamento e teste
np.random.seed(42)
indices = np.random.permutation(len(X))
split_ratio = 0.8
split_index = int(len(X) * split_ratio)
X_train, X_test = X[:split_index], X[split_index:]
y_train, y_test = y[:split_index], y[split_index:]

# Padronizando as características para terem média zero e variância unitária
mean = X_train.mean(axis=0)
std = X_train.std(axis=0)
X_train_scaled = (X_train - mean) / std
X_test_scaled = (X_test - mean) / std

# Definindo o número de vizinhos para o kNN
k = 3

# Aplicando o algoritmo kNN
y_pred = k_nearest_neighbors(X_train_scaled, y_train, X_test_scaled, k)

# Calculando a acurácia do modelo
accuracy = np.mean(y_pred == y_test)
print(f'Acurácia do modelo kNN: {accuracy:.2f}')

Acurácia do modelo kNN: 1.00


>Neste código:
>
>  1. Carregamos o conjunto de dados Penguins e preparamos os dados como na versão anterior.
>
>  2. Implementamos a função euclidean_distance para calcular a distância euclidiana entre dois pontos.
>
>  3. Implementamos a função k_nearest_neighbors para o algoritmo kNN, que calcula as distâncias para os pontos de treinamento, encontra os k vizinhos mais próximos e faz a previsão da classe.
>
>  4. Dividimos o conjunto de dados em treinamento e teste manualmente.
>
>  5. Padronizamos as características manualmente para terem média zero e variância unitária.
>   
>  6. Definimos o número de vizinhos para o kNN como 3 e aplicamos o algoritmo.
>      
>  7. Calculamos a acurácia do modelo manualmente.
>
>Este exemplo demonstra como implementar o kNN sem o uso de bibliotecas prontas como scikit-learn, usando apenas o NumPy para operações matemáticas.

***
`Prompt 4 : A acurácia do modelo está resultando em 1.00, isso não quer dizer que há um overfit acontecendo?`

>Uma acurácia de 1.00 (ou 100%) em um conjunto de teste pode indicar um possível problema de overfitting, especialmente se o modelo não foi ajustado adequadamente. Overfitting ocorre quando o modelo se ajusta tão bem aos dados de treinamento que ele não consegue generalizar bem para dados novos e não vistos, como os do conjunto de teste.
>
>Vamos revisar o código e considerar algumas abordagens para lidar com o possível overfitting:
>
>   1. Divisão de dados: A divisão dos dados em conjuntos de treinamento e teste deve ser feita de forma aleatória e representativa dos dados originais. Use o parâmetro random_state na função train_test_split para garantir que a divisão seja reproduzível.
>      
>   2. Padronização: A padronização das características é importante para muitos algoritmos de aprendizado de máquina, mas também pode impactar o desempenho do modelo. Verifique se a padronização está sendo aplicada corretamente e se não há vazamento de informações do conjunto de teste para o conjunto de treinamento.
>
>   3. Hiperparâmetros: No kNN, o número de vizinhos (k) é um hiperparâmetro crucial. Um valor muito baixo de k pode levar a overfitting, enquanto um valor muito alto pode levar a underfitting. Experimente diferentes valores de k para encontrar um equilíbrio.
>
>Vamos revisar o código anterior e adicionar algumas verificações e ajustes:

In [13]:
# Dividindo o conjunto de dados em treinamento e teste
np.random.seed(42)
indices = np.random.permutation(len(X))
split_ratio = 0.8
split_index = int(len(X) * split_ratio)
X_train, X_test = X[indices[:split_index]], X[indices[split_index:]]
y_train, y_test = y[indices[:split_index]], y[indices[split_index:]]

# Padronizando as características para terem média zero e variância unitária
mean = X_train.mean(axis=0)
std = X_train.std(axis=0)
X_train_scaled = (X_train - mean) / std
X_test_scaled = (X_test - mean) / std

# Definindo o número de vizinhos para o kNN
k = 5  # Valor ajustável

# Aplicando o algoritmo kNN
y_pred = k_nearest_neighbors(X_train_scaled, y_train, X_test_scaled, k)

# Calculando a acurácia do modelo
accuracy = np.mean(y_pred == y_test)
print(f'Acurácia do modelo kNN: {accuracy:.2f}')

Acurácia do modelo kNN: 0.99


> Neste código, ajustei o valor de k para 5, que é um valor comum usado no kNN. Além disso, garanti que a divisão dos dados em treinamento e teste seja feita de forma aleatória e usei um random_state fixo para tornar os resultados reproduzíveis.
>
>Se a acurácia ainda estiver muito alta, você pode tentar outros métodos de validação, como validação cruzada (k-fold cross-validation), para avaliar o desempenho do modelo de forma mais robusta e identificar possíveis problemas de overfitting.

***
`Prompt 5 : Necessito que avalie os resultados com matriz de confusão, acurácia, recall, precisão e f1-score`

>Para avaliar os resultados do modelo kNN de forma mais completa, podemos usar métricas como matriz de confusão, acurácia, recall, precisão e F1-score. Vou mostrar como calcular essas métricas usando apenas o NumPy e sem depender de bibliotecas externas como scikit-learn.
>
>Primeiro, vamos modificar o código anterior para incluir o cálculo dessas métricas:

In [14]:
# Aplicando o algoritmo kNN
y_pred = k_nearest_neighbors(X_train_scaled, y_train, X_test_scaled, k)

# Função para calcular a matriz de confusão
def confusion_matrix(y_true, y_pred):
    unique_classes = np.unique(np.concatenate((y_true, y_pred)))
    num_classes = len(unique_classes)
    matrix = np.zeros((num_classes, num_classes), dtype=int)
    for i in range(len(y_true)):
        matrix[y_true[i], y_pred[i]] += 1
    return matrix

# Função para calcular a acurácia
def accuracy_score(y_true, y_pred):
    correct = np.sum(y_true == y_pred)
    total = len(y_true)
    return correct / total

# Função para calcular o recall, precisão e F1-score
def calculate_metrics(conf_matrix):
    tp = np.diag(conf_matrix)
    fp = np.sum(conf_matrix, axis=0) - tp
    fn = np.sum(conf_matrix, axis=1) - tp
    
    precision = tp / (tp + fp)
    recall = tp / (tp + fn)
    f1 = 2 * (precision * recall) / (precision + recall)
    
    return precision, recall, f1

# Calculando a matriz de confusão
conf_matrix = confusion_matrix(y_test, y_pred)
conf_matrix_df = pd.DataFrame(conf_matrix, index=['Classe 0', 'Classe 1', 'Classe 2'], columns=['Predito 0', 'Predito 1', 'Predito 2'])
print('Matriz de Confusão:')
print(conf_matrix_df)

# Calculando e exibindo as métricas
accuracy = accuracy_score(y_test, y_pred)
precision, recall, f1 = calculate_metrics(conf_matrix)

# Calculando as médias das métricas
mean_recall = np.mean(recall)
mean_precision = np.mean(precision)
mean_f1 = np.mean(f1)

# Exibindo as métricas gerais
print('\nMétricas Gerais:')
print(f'\nAcurácia: {accuracy:.2f}')
print(f'Média Recall: {mean_recall:.4f}')
print(f'Média Precisão: {mean_precision:.4f}')
print(f'Média F1-score: {mean_f1:.4f}')

print('\nMétricas por classe:')
unique_classes = np.unique(np.concatenate((y_test, y_pred)))
for i in range(len(unique_classes)):
    print(f'\nClasse {i}:')
    print(f'Recall: {recall[i]:.4f}')
    print(f'Precisão: {precision[i]:.4f}')
    print(f'F1-score: {f1[i]:.4f}')

Matriz de Confusão:
          Predito 0  Predito 1  Predito 2
Classe 0         25          0          0
Classe 1          1         15          0
Classe 2          0          0         26

Métricas Gerais:

Acurácia: 0.99
Média Recall: 0.9792
Média Precisão: 0.9872
Média F1-score: 0.9827

Métricas por classe:

Classe 0:
Recall: 1.0000
Precisão: 0.9615
F1-score: 0.9804

Classe 1:
Recall: 0.9375
Precisão: 1.0000
F1-score: 0.9677

Classe 2:
Recall: 1.0000
Precisão: 1.0000
F1-score: 1.0000


>Neste código:
>
>   1. Adicionamos a função confusion_matrix para calcular a matriz de confusão.
>
>   2. Implementamos funções para calcular a acurácia, recall, precisão e F1-score com base na matriz de confusão.
>
>   3. Calculamos as métricas para o modelo kNN treinado e exibimos os resultados.
>
>Execute este código após a etapa de treinamento e teste do kNN para obter as métricas de avaliação completas. Isso permitirá uma análise mais aprofundada do desempenho do modelo em relação às diferentes classes.

***
### _Aplicando o Código_

Note que a aplicação do código é somente a __junção de todos os prompts resultantes__. 

Caso deseje testar com __outros valores__ [ _Ex: valor de k | % de divisão de dados teste_ ] 
é necessário alterar os seus valores __dentro do código__.

In [31]:
import numpy as np
import pandas as pd
import seaborn as sns

# Definição da classe principal
class KNN:
    def __init__(self, k=3):
        self.k = k

    def fit(self, X, y):
        self.X_train = X
        self.y_train = y

    def predict(self, X):
        y_pred = [self._predict(x) for x in X]
        return np.array(y_pred)

    def _predict(self, x):
        distances = [np.sqrt(np.sum((x - x_train)**2)) for x_train in self.X_train]
        k_indices = np.argsort(distances)[:self.k]
        k_nearest_labels = [self.y_train[i] for i in k_indices]
        most_common = np.bincount(k_nearest_labels).argmax()
        return most_common

# Limpeza dos dados, treino e testes
penguins = sns.load_dataset('penguins')

penguins.dropna(inplace=True)

penguins['species'] = penguins['species'].map({'Adelie': 0, 'Chinstrap': 1, 'Gentoo': 2})

X = penguins[['bill_length_mm', 'bill_depth_mm', 'flipper_length_mm', 'body_mass_g']].values
y = penguins['species'].values

def euclidean_distance(x1, x2):
    return np.sqrt(np.sum((x1 - x2)**2))

def k_nearest_neighbors(X_train, y_train, X_test, k):
    y_pred = []
    for test_point in X_test:
        distances = [euclidean_distance(train_point, test_point) for train_point in X_train]
        nearest_indices = np.argsort(distances)[:k]
        nearest_labels = y_train[nearest_indices]
        most_common = np.bincount(nearest_labels).argmax()
        y_pred.append(most_common)
    return np.array(y_pred)

# Padronização
np.random.seed(42)
indices = np.random.permutation(len(X))
split_ratio = 0.8
split_index = int(len(X) * split_ratio)
X_train, X_test = X[indices[:split_index]], X[indices[split_index:]]
y_train, y_test = y[indices[:split_index]], y[indices[split_index:]]

mean = X_train.mean(axis=0)
std = X_train.std(axis=0)
X_train_scaled = (X_train - mean) / std
X_test_scaled = (X_test - mean) / std

# Aplicando
k = 5

y_pred = k_nearest_neighbors(X_train_scaled, y_train, X_test_scaled, k)

# Funções de estatísticas
def confusion_matrix(y_true, y_pred):
    unique_classes = np.unique(np.concatenate((y_true, y_pred)))
    num_classes = len(unique_classes)
    matrix = np.zeros((num_classes, num_classes), dtype=int)
    for i in range(len(y_true)):
        matrix[y_true[i], y_pred[i]] += 1
    return matrix

def accuracy_score(y_true, y_pred):
    correct = np.sum(y_true == y_pred)
    total = len(y_true)
    return correct / total

def calculate_metrics(conf_matrix):
    tp = np.diag(conf_matrix)
    fp = np.sum(conf_matrix, axis=0) - tp
    fn = np.sum(conf_matrix, axis=1) - tp
    
    precision = tp / (tp + fp)
    recall = tp / (tp + fn)
    f1 = 2 * (precision * recall) / (precision + recall)
    
    return precision, recall, f1

# Printando o resultado
conf_matrix = confusion_matrix(y_test, y_pred)
conf_matrix_df = pd.DataFrame(conf_matrix, index=['Classe 0', 'Classe 1', 'Classe 2'], columns=['Predito 0', 'Predito 1', 'Predito 2'])
print('Matriz de Confusão:')
print(conf_matrix_df)

accuracy = accuracy_score(y_test, y_pred)
precision, recall, f1 = calculate_metrics(conf_matrix)

mean_recall = np.mean(recall)
mean_precision = np.mean(precision)
mean_f1 = np.mean(f1)

print('\nMétricas Gerais:')
print(f'\nAcurácia: {accuracy:.2f}')
print(f'Média Recall: {mean_recall:.4f}')
print(f'Média Precisão: {mean_precision:.4f}')
print(f'Média F1-score: {mean_f1:.4f}')

print('\nMétricas por classe:')
unique_classes = np.unique(np.concatenate((y_test, y_pred)))
for i in range(len(unique_classes)):
    print(f'\nClasse {i}:')
    print(f'Recall: {recall[i]:.4f}')
    print(f'Precisão: {precision[i]:.4f}')
    print(f'F1-score: {f1[i]:.4f}')

Matriz de Confusão:
          Predito 0  Predito 1  Predito 2
Classe 0         25          0          0
Classe 1          1         15          0
Classe 2          0          0         26

Métricas Gerais:

Acurácia: 0.99
Média Recall: 0.9792
Média Precisão: 0.9872
Média F1-score: 0.9827

Métricas por classe:

Classe 0:
Recall: 1.0000
Precisão: 0.9615
F1-score: 0.9804

Classe 1:
Recall: 0.9375
Precisão: 1.0000
F1-score: 0.9677

Classe 2:
Recall: 1.0000
Precisão: 1.0000
F1-score: 1.0000


***
### _Análise e Considerações_