# KNN

### Promt para o ChatGPT

Prompt: 

Oi, pode implementar o algoritmo KNN, na linguagem python, porém sem usar bibliotecas com o algoritmo já pronto, apenas bibliotecas vetoriais como o numpy.
  
Resposta:

Claro! Aqui está uma implementação simples do algoritmo K-Nearest Neighbors (KNN) em Python utilizando apenas bibliotecas básicas como o NumPy para manipulação de arrays:



In [1]:
import numpy as np
from collections import Counter

class KNN:
    def __init__(self, k=3):
        self.k = k
    
    def fit(self, X_train, y_train):
        """Armazena os dados de treino."""
        self.X_train = X_train
        self.y_train = y_train
    
    def predict(self, X_test):
        """Prediz os rótulos de dados de teste."""
        predictions = [self._predict(x) for x in X_test]
        return np.array(predictions)
    
    def _predict(self, x):
        """Prediz o rótulo para um único ponto de dados."""
        # Calcula as distâncias euclidianas de x para todos os pontos de treino
        distances = [np.linalg.norm(x - x_train) for x_train in self.X_train]
        
        # Pega os índices das k menores distâncias
        k_indices = np.argsort(distances)[:self.k]
        
        # Pega os rótulos correspondentes a esses k pontos mais próximos
        k_nearest_labels = [self.y_train[i] for i in k_indices]
        
        # Retorna o rótulo mais comum (maioria)
        most_common = Counter(k_nearest_labels).most_common(1)
        return most_common[0][0]

# Exemplo de uso:
if __name__ == "__main__":
    # Dados de treino (X_train -> características, y_train -> rótulos)
    X_train = np.array([[1, 2], [2, 3], [3, 4], [6, 5], [7, 7], [8, 9]])
    y_train = np.array([0, 0, 0, 1, 1, 1])
    
    # Dados de teste
    X_test = np.array([[5, 5], [0, 1]])

    # Instanciando o classificador KNN com k=3
    knn = KNN(k=3)
    
    # Treinando o modelo
    knn.fit(X_train, y_train)
    
    # Fazendo previsões
    predictions = knn.predict(X_test)
    print("Predições:", predictions)

Predições: [1 0]


Explicação:
KNN é um algoritmo baseado em instância que armazena todos os dados de treino e, ao prever um novo ponto de dados, ele:
Calcula a distância (nesse caso, distância euclidiana) do ponto de teste para todos os pontos de treino.
Seleciona os k vizinhos mais próximos (menores distâncias).
Faz uma votação majoritária dos rótulos desses vizinhos para determinar a classe de saída.
Exemplo de saída:
Se executarmos o exemplo acima, as predições podem ser algo como:

Predições: [1 0]

Esse algoritmo é bastante simples e pode ser ajustado para incluir variações, como diferentes métricas de distância ou técnicas de ponderação para os vizinhos.

### Aplicação do algoritmo criado pelo ChatGPT sobre o dataset Iris

In [18]:
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score

# Utilizado pois no usecase do KNN com 105 o método usado para calcular a precisão estava gerando um warning
import warnings
warnings.filterwarnings('ignore')

def create_test(k):
    iris = datasets.load_iris()
    X, y = iris.data, iris.target
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

    knn = KNN(k)
    knn.fit(X_train, y_train)

    predictions = knn.predict(X_test)

    accuracy = accuracy_score(y_test, predictions)
    precision = precision_score(y_test, predictions, average='macro')
    recall = recall_score(y_test, predictions, average='macro')
    f1 = f1_score(y_test, predictions, average='macro')

    conf_matrix = confusion_matrix(y_test, predictions)

    print(f"Acurácia: {accuracy * 100:.2f}%")
    print(f"Precisão: {precision * 100:.2f}%")
    print(f"Recall: {recall * 100:.2f}%")
    print(f"F1-Score: {f1 * 100:.2f}%")
    print("Matriz de Confusão:")
    print(conf_matrix)

if __name__ == "__main__":
    print("K = 3:")
    create_test(3)
    print("\nK = 7:")
    create_test(5)
    print("\nK = 51:")
    create_test(51)
    print("\nK = 105:") # 105 é o número de instâncias usadas para treino
    create_test(105)  # underfitting
    


K = 3:
Acurácia: 100.00%
Precisão: 100.00%
Recall: 100.00%
F1-Score: 100.00%
Matriz de Confusão:
[[19  0  0]
 [ 0 13  0]
 [ 0  0 13]]

K = 7:
Acurácia: 100.00%
Precisão: 100.00%
Recall: 100.00%
F1-Score: 100.00%
Matriz de Confusão:
[[19  0  0]
 [ 0 13  0]
 [ 0  0 13]]

K = 51:
Acurácia: 95.56%
Precisão: 95.56%
Recall: 94.87%
F1-Score: 94.84%
Matriz de Confusão:
[[19  0  0]
 [ 0 13  0]
 [ 0  2 11]]

K = 105:
Acurácia: 57.78%
Precisão: 46.88%
Recall: 66.67%
F1-Score: 52.59%
Matriz de Confusão:
[[ 0 19  0]
 [ 0 13  0]
 [ 0  0 13]]


### Análise crítica do código gerado

Análise sobre as funções geradas:

- Função **fit(self, X_train, y_train)**: Por ser um algoritmo "lazy" não constroi um modelo de predição, logo a função fit implementada pelo ChatGPT está de acordo com o que vimos em aula. Ela apenas armazema os conjuntos de treino x e y.

- Função **predit(self, X_test)**: O algoritmo implementado pelo ChatGPT está correto, pois ele itera sobre todos as instâncias do conjunto de teste e para cada uma delas ele chama a função _predict(self, x).

- Função **_predict(self, x)**: Essa função calcula qual a classe mais frequente, com base no conjunto de treinamento, essa utiliza a distância euclidiana como medida de dissimilaridade e após isso calcula os k-vizinhos mais próximo e retorna o mais frequente entre eles.

A parte do código que trata do exemplo de uso foi desconsiderada visto que utilizamos o dataset Iris para testar o algoritmo.

Pontos fortes:

- Dado o dataset Iris, os testes obtiveram uma boa performance conseguindo obter 100% de acurácia para os valores de k=3 e k=7, tendo uma divisão 70/30 entre dados para treino/teste. Isso mostra que por mais que a implementação tenha sido simples ela conseguiu generalizar bem para esse conjunto de teste.

Potencias problemas:

- Caso o problema que o KNN implementado pelo ChatGPT esteja tentando resolver for um problema de regressão, ele não irá funcionar, pois sua implementação foi feita apenas pensada para resolver problemas de classificação.

Diferenças do algoritmo visto em aula:

- O algoritmo do ChatGPT é similar ao visto em aula, que para uma instância não vista começava calculando a dissimilaridade para todas as instâncias de treino, após isso obtinha as k instâncias mais próximas e por fim classificava o dado não visto com o valor da maioria dos k vizinhos.

Opções de projeto realizadas pelo ChatGPT:

- Utilização do numpy
  - A utilização do numpy é entendível visto que ela é amplamente utilizada para fazer diversos tipos de cálculos em python, então foi um acerto ele ter escolhido ela, pois caso não tivesse, poderia ter implementado a fórmula da distância euclidiana errada, por exemplo.

Pontos para melhorar:

- O algoritmo permite apenas a utilização da distancia euclidiana como medida de dissimilaridade, então um dos pontos que ele podia melhorar é ter outras medidas ou possibilitar o usuário adicionar uma função própria que calcularia a dissimilaridade de duas instâncias.

- Caso tivermos muitas instâncias de treino no KNN a inferência pode ser muito demorada, então uma solução que poderia ter sido implementada é a de paralelizar o método de _predict() para cada uma das instâncias de teste ou para um número fixo de threads.

- Além disso, o modelo desenvolvido não oferece uma funcionalidade para atribuir pesos variáveis aos “vizinhos” durante o cálculo das predições. Isso contrasta com o algoritmo k-NN do scikit-learn, que permite configurar a ponderação dos pontos vizinhos de três formas distintas: usando pesos uniformes (‘uniform’), onde todos os pontos em cada vizinhança têm o mesmo peso; atribuindo pesos inversamente proporcionais à distância dos pontos (‘distance’), o que confere maior influência aos vizinhos mais próximos; ou através de uma função definida pelo usuário (‘callable’), que calcula os pesos com base em um array de distâncias fornecido.


# Naive Bayes

### Promt para o ChatGPT

Prompt:

Oi, pode implementar o algoritmo Naive Bayes, na linguagem python, porém sem usar bibliotecas com o algoritmo já pronto, apenas bibliotecas vetoriais como o numpy.

Resposta:

Claro! Vou implementar o algoritmo Naive Bayes em Python sem usar bibliotecas que já têm o algoritmo pronto, utilizando apenas bibliotecas como o numpy para manipulação de vetores e matrizes.

Aqui está uma implementação simples do Naive Bayes para classificação binária:

Implementação do Naive Bayes:

In [21]:
import numpy as np

class NaiveBayes:
    def __init__(self):
        self.class_priors = {}
        self.mean = {}
        self.variance = {}

    def fit(self, X, y):
        # Separa os dados por classe
        self.classes = np.unique(y)
        for cls in self.classes:
            X_class = X[y == cls]
            self.class_priors[cls] = X_class.shape[0] / X.shape[0]  # P(y=cls)
            self.mean[cls] = np.mean(X_class, axis=0)  # Média por atributo
            self.variance[cls] = np.var(X_class, axis=0)  # Variância por atributo
            
    def _gaussian_pdf(self, x, mean, var):
        # Função de densidade de probabilidade Gaussiana
        eps = 1e-6  # Para evitar divisão por zero
        coeff = 1 / np.sqrt(2 * np.pi * var + eps)
        exponent = np.exp(- (x - mean) ** 2 / (2 * var + eps))
        return coeff * exponent

    def predict(self, X):
        y_pred = [self._predict_instance(x) for x in X]
        return np.array(y_pred)

    def _predict_instance(self, x):
        posteriors = []
        
        # Calcula a probabilidade posterior para cada classe
        for cls in self.classes:
            prior = np.log(self.class_priors[cls])  # log(P(y=cls))
            conditional = np.sum(np.log(self._gaussian_pdf(x, self.mean[cls], self.variance[cls])))
            posterior = prior + conditional
            posteriors.append(posterior)

        # Retorna a classe com a maior probabilidade posterior
        return self.classes[np.argmax(posteriors)]

Explicação:
Classe NaiveBayes: Implementa o Naive Bayes com suposições de independência entre os atributos (Naive) e que os atributos seguem uma distribuição Gaussiana (ou Normal).
fit(X, y): Ajusta o modelo, calculando a média e variância para cada atributo em cada classe, e também as probabilidades a priori das classes.
predict(X): Faz a predição para os exemplos passados, calculando a probabilidade posterior para cada classe e selecionando a classe com maior valor.
Distribuição Gaussiana: Como assumimos que os dados seguem uma distribuição normal, usamos a função de densidade de probabilidade Gaussiana (implementada em _gaussian_pdf) para calcular as probabilidades condicionais dos atributos.

Espero que isso ajude! Se precisar de mais detalhes ou explicações, é só avisar!

### Teste do algoritmo usando a base de dados Iris

In [22]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score
from sklearn import datasets


if __name__ == "__main__":
    iris = datasets.load_iris()    

    X, y = iris.data, iris.target

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

    nb = NaiveBayes()
    nb.fit(X_train, y_train)

    predictions = nb.predict(X_test)

    accuracy = accuracy_score(y_test, predictions)
    precision = precision_score(y_test, predictions, average='macro')
    recall = recall_score(y_test, predictions, average='macro')
    f1 = f1_score(y_test, predictions, average='macro')

    conf_matrix = confusion_matrix(y_test, predictions)

    print(f"Acurácia: {accuracy * 100:.2f}%")
    print(f"Precisão: {precision * 100:.2f}%")
    print(f"Recall: {recall * 100:.2f}%")
    print(f"F1-Score: {f1 * 100:.2f}%")
    print("Matriz de Confusão:")
    print(conf_matrix)

{0: array([0.1119667 , 0.13658689, 0.03325702, 0.01152966]), 1: array([0.27532505, 0.08724617, 0.23934259, 0.04134405]), 2: array([0.42241052, 0.09630387, 0.28842951, 0.08591673])}
{0: array([4.96451613, 3.37741935, 1.46451613, 0.2483871 ]), 1: array([5.86216216, 2.72432432, 4.21081081, 1.3027027 ]), 2: array([6.55945946, 2.98648649, 5.54594595, 2.00540541])}
{0: 0.29523809523809524, 1: 0.3523809523809524, 2: 0.3523809523809524}
Acurácia: 97.78%
Precisão: 97.62%
Recall: 97.44%
F1-Score: 97.43%
Matriz de Confusão:
[[19  0  0]
 [ 0 12  1]
 [ 0  0 13]]


### Análise crítica do código gerado

Análise sobre as funções geradas:

- Função **fit(self, X, y)**: 
- Função **_gaussian_pdf(self, x, mean, var)**:
- Função **predict(self, X)**:
- Função **_predict_instance(self, x)**:

Pontos fortes:

Potenciais problemas:

Diferenças do algoritmo visto em aula:

Opções de projeto realizadas pelo ChatGPT:

Pontos para melhorar: