# KNN

Prompt: 

Oi, pode implementar o algoritmo KNN, na linguagem python, porém sem usar bibliotecas com o algoritmo já pronto, apenas bibliotecas vetoriais como o numpy.
  
Resposta:

Claro! Aqui está uma implementação simples do algoritmo K-Nearest Neighbors (KNN) em Python utilizando apenas bibliotecas básicas como o NumPy para manipulação de arrays:



In [14]:
import numpy as np
from collections import Counter

class KNN:
    def __init__(self, k=3):
        self.k = k

    def fit(self, X_train, y_train):
        """Armazena os dados de treino."""
        self.X_train = X_train
        self.y_train = y_train

    def predict(self, X_test):
        """Prediz os rótulos de dados de teste."""
        predictions = [self._predict(x) for x in X_test]
        return np.array(predictions)

    def _predict(self, x):
        """Prediz o rótulo para um único ponto de dados."""
        # Calcula as distâncias euclidianas de x para todos os pontos de treino
        distances = [np.linalg.norm(x - x_train) for x_train in self.X_train]

        # Pega os índices das k menores distâncias
        k_indices = np.argsort(distances)[:self.k]

        # Pega os rótulos correspondentes a esses k pontos mais próximos
        k_nearest_labels = [self.y_train[i] for i in k_indices]

        # Retorna o rótulo mais comum (maioria)
        most_common = Counter(k_nearest_labels).most_common(1)
        return most_common[0][0]

# Exemplo de uso:
if __name__ == "__main__":
    # Dados de treino (X_train -> características, y_train -> rótulos)
    X_train = np.array([[1, 2], [2, 3], [3, 4], [6, 5], [7, 7], [8, 9]])
    y_train = np.array([0, 0, 0, 1, 1, 1])

    # Dados de teste
    X_test = np.array([[5, 5], [0, 1]])

    # Instanciando o classificador KNN com k=3
    knn = KNN(k=3)

    # Treinando o modelo
    knn.fit(X_train, y_train)

    # Fazendo previsões
    predictions = knn.predict(X_test)
    print("Predições:", predictions)

Predições: [1 0]


Explicação:
KNN é um algoritmo baseado em instância que armazena todos os dados de treino e, ao prever um novo ponto de dados, ele:
Calcula a distância (nesse caso, distância euclidiana) do ponto de teste para todos os pontos de treino.
Seleciona os k vizinhos mais próximos (menores distâncias).
Faz uma votação majoritária dos rótulos desses vizinhos para determinar a classe de saída.
Exemplo de saída:
Se executarmos o exemplo acima, as predições podem ser algo como:

Predições: [1 0]

Esse algoritmo é bastante simples e pode ser ajustado para incluir variações, como diferentes métricas de distância ou técnicas de ponderação para os vizinhos.

### Aplicação do algoritmo criado pelo ChatGPT sobre o dataset Iris

In [15]:
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score


if __name__ == "__main__":
    iris = datasets.load_iris()
    X, y = iris.data, iris.target
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

    scaler = StandardScaler()
    X_train = scaler.fit_transform(X_train)
    X_test = scaler.transform(X_test)

    knn = KNN(k=3)
    knn.fit(X_train, y_train)

    predictions = knn.predict(X_test)

    accuracy = accuracy_score(y_test, predictions)
    precision = precision_score(y_test, predictions, average='macro')
    recall = recall_score(y_test, predictions, average='macro')
    f1 = f1_score(y_test, predictions, average='macro')

    conf_matrix = confusion_matrix(y_test, predictions)

    print(f"Acurácia: {accuracy * 100:.2f}%")
    print(f"Precisão: {precision * 100:.2f}%")
    print(f"Recall: {recall * 100:.2f}%")
    print(f"F1-Score: {f1 * 100:.2f}%")
    print("Matriz de Confusão:")
    print(conf_matrix)


Acurácia: 100.00%
Precisão: 100.00%
Recall: 100.00%
F1-Score: 100.00%
Matriz de Confusão:
[[19  0  0]
 [ 0 13  0]
 [ 0  0 13]]


### Análise crítica do código gerado

- Função **fit(self, X_train, y_train)**: Por ser um algoritmo "lazy" não constroi um modelo de predição, logo a função fit implementada pelo ChatGPT está de acordo com o que vimos em aula. Ela apenas armazema os conjuntos de treino x e y.

- Função **predit(self, X_test)**: O algoritmo implementado pelo ChatGPT está correto, pois ele itera sobre todos as instâncias do conjunto de teste e para cada uma delas ele chama a função _predict(self, x).

- Função **_predict(self, x)**: Essa função calcula qual a classe mais frequente, com base no conjunto de treinamento, essa utiliza a distância euclidiana como medida de dissimilaridade e após isso calcula os k-vizinhos mais próximo e retorna o mais frequente entre eles.

A parte do código que trata do exemplo de uso foi desconsiderada visto que utilizamos o dataset Iris para testar o algoritmo.

Pontos fortes:

- Dado o conjunto de testes Iris com poucas instâncias o algoritmo do ChatGPT teve uma acurácia de 100% com um k=3 em uma divisão 70/30 entre dados para treino/teste. Isso mostra que por mais que a implementação tenha sido simples ela conseguiu generalizar bem para esse conjunto de teste.

Potencias problemas:

- Caso o problema que o KNN implementado pelo ChatGPT esteja tentando resolver for um problema de regressão, ele não irá funcionar, pois sua implementação foi feita apenas pensada para resolver problemas de classificação.

Diferenças do algoritmo visto em aula:

- O algoritmo do ChatGPT é similar ao visto em aula, que para uma instância não vista começava calculando a dissimilaridade para todas as instâncias de treino, após isso obtinha as k instâncias mais próximas e por fim classificava o dado não visto com o valor da maioria dos k vizinhos.

Opções de projeto realizadas pelo ChatGPT:

- Utilização do numpy
  - A utilização do numpy é entendível visto que ela é amplamente utilizada para fazer diversos tipos de cálculos em python, então foi um acerto ele ter escolhido ela, pois caso não tivesse, poderia ter implementado a fórmula da distância euclidiana errada, por exemplo.

Pontos para melhorar:

- O algoritmo permite apenas a utilização da distancia euclidiana como medida de dissimilaridade, então um dos pontos que ele podia melhorar é ter outras medidas ou possibilitar o usuário adicionar uma função própria que calcularia a dissimilaridade de duas instâncias.

- Caso tivermos muitas instâncias de treino no KNN a inferência pode ser muito demorada, então uma solução que poderia ter sido implementada é a de paralelizar o método de _predict() para cada uma das instâncias de teste ou para um número fixo de threads.

- Além disso, o modelo desenvolvido não oferece uma funcionalidade para atribuir pesos variáveis aos “vizinhos” durante o cálculo das predições. Isso contrasta com o algoritmo k-NN do scikit-learn, que permite configurar a ponderação dos pontos vizinhos de três formas distintas: usando pesos uniformes (‘uniform’), onde todos os pontos em cada vizinhança têm o mesmo peso; atribuindo pesos inversamente proporcionais à distância dos pontos (‘distance’), o que confere maior influência aos vizinhos mais próximos; ou através de uma função definida pelo usuário (‘callable’), que calcula os pesos com base em um array de distâncias fornecido.


# Naive Bayes

Prompt:

Oi, pode implementar o algoritmo Naive Bayes, na linguagem python, porém sem usar bibliotecas com o algoritmo já pronto, apenas bibliotecas vetoriais como o numpy.

Resposta:

Claro! Vou implementar o algoritmo Naive Bayes em Python sem usar bibliotecas que já têm o algoritmo pronto, utilizando apenas bibliotecas como o numpy para manipulação de vetores e matrizes.

Aqui está uma implementação simples do Naive Bayes para classificação binária:

Implementação do Naive Bayes:

In [16]:
import numpy as np

class NaiveBayes:
    def __init__(self):
        self.class_priors = {}
        self.mean = {}
        self.variance = {}

    def fit(self, X, y):
        # Separa os dados por classe
        self.classes = np.unique(y)
        for cls in self.classes:
            X_class = X[y == cls]
            self.class_priors[cls] = X_class.shape[0] / X.shape[0]  # P(y=cls)
            self.mean[cls] = np.mean(X_class, axis=0)  # Média por atributo
            self.variance[cls] = np.var(X_class, axis=0)  # Variância por atributo

    def _gaussian_pdf(self, x, mean, var):
        # Função de densidade de probabilidade Gaussiana
        eps = 1e-6  # Para evitar divisão por zero
        coeff = 1 / np.sqrt(2 * np.pi * var + eps)
        exponent = np.exp(- (x - mean) ** 2 / (2 * var + eps))
        return coeff * exponent

    def predict(self, X):
        y_pred = [self._predict_instance(x) for x in X]
        return np.array(y_pred)

    def _predict_instance(self, x):
        posteriors = []

        # Calcula a probabilidade posterior para cada classe
        for cls in self.classes:
            prior = np.log(self.class_priors[cls])  # log(P(y=cls))
            conditional = np.sum(np.log(self._gaussian_pdf(x, self.mean[cls], self.variance[cls])))
            posterior = prior + conditional
            posteriors.append(posterior)

        # Retorna a classe com a maior probabilidade posterior
        return self.classes[np.argmax(posteriors)]

# Exemplo de uso
if __name__ == "__main__":
    # Criação de um dataset simples
    from sklearn.model_selection import train_test_split
    from sklearn.datasets import load_iris

    # Carrega o dataset Iris (apenas 2 classes para classificação binária)
    data = load_iris()
    X = data.data[data.target != 2]  # Mantendo apenas as classes 0 e 1
    y = data.target[data.target != 2]

    # Divisão em treino e teste
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

    # Instancia o classificador Naive Bayes
    nb = NaiveBayes()
    nb.fit(X_train, y_train)

    # Predição
    y_pred = nb.predict(X_test)

    # Acurácia
    accuracy = np.mean(y_pred == y_test)
    print(f"Acurácia: {accuracy * 100:.2f}%")

Acurácia: 100.00%


Explicação:
Classe NaiveBayes: Implementa o Naive Bayes com suposições de independência entre os atributos (Naive) e que os atributos seguem uma distribuição Gaussiana (ou Normal).
fit(X, y): Ajusta o modelo, calculando a média e variância para cada atributo em cada classe, e também as probabilidades a priori das classes.
predict(X): Faz a predição para os exemplos passados, calculando a probabilidade posterior para cada classe e selecionando a classe com maior valor.
Distribuição Gaussiana: Como assumimos que os dados seguem uma distribuição normal, usamos a função de densidade de probabilidade Gaussiana (implementada em _gaussian_pdf) para calcular as probabilidades condicionais dos atributos.
Teste:
Este exemplo usa o conjunto de dados Iris (modificado para ser binário) e divide os dados em treino e teste para avaliar o modelo.

Espero que isso ajude! Se precisar de mais detalhes ou explicações, é só avisar!

### Teste do algoritmo usando a base de dados Iris

In [17]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score


if __name__ == "__main__":
    data = load_iris()

    X, y = iris.data, iris.target

    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

    nb = NaiveBayes()
    nb.fit(X_train, y_train)

    predictions = nb.predict(X_test)

    accuracy = accuracy_score(y_test, predictions)
    precision = precision_score(y_test, predictions, average='macro')
    recall = recall_score(y_test, predictions, average='macro')
    f1 = f1_score(y_test, predictions, average='macro')

    conf_matrix = confusion_matrix(y_test, predictions)

    print(f"Acurácia: {accuracy * 100:.2f}%")
    print(f"Precisão: {precision * 100:.2f}%")
    print(f"Recall: {recall * 100:.2f}%")
    print(f"F1-Score: {f1 * 100:.2f}%")
    print("Matriz de Confusão:")
    print(conf_matrix)

Acurácia: 97.78%
Precisão: 97.62%
Recall: 97.44%
F1-Score: 97.43%
Matriz de Confusão:
[[19  0  0]
 [ 0 12  1]
 [ 0  0 13]]


# Árvores de decisão

Prompt:

Oi, pode implementar o algoritmo Arvores de decisao, na linguagem python, porém sem usar bibliotecas com o algoritmo já pronto, apenas bibliotecas vetoriais como o numpy.

Resposta:

Aqui está uma implementação de uma árvore de decisão em Python usando apenas bibliotecas vetoriais, como o numpy. Este código usa o critério de Gini Impurity para dividir os nós:

In [18]:
import numpy as np

class DecisionTree:
    def __init__(self, max_depth=None, min_samples_split=2):
        self.max_depth = max_depth
        self.min_samples_split = min_samples_split
        self.tree = None

    def fit(self, X, y):
        self.tree = self._build_tree(X, y)

    def predict(self, X):
        return np.array([self._predict_single(x, self.tree) for x in X])

    def _gini_impurity(self, y):
        m = len(y)
        if m == 0:
            return 0
        class_counts = np.bincount(y)
        probabilities = class_counts / m
        return 1 - np.sum(probabilities**2)

    def _split(self, X, y, feature_idx, threshold):
        left_mask = X[:, feature_idx] <= threshold
        right_mask = X[:, feature_idx] > threshold
        return X[left_mask], y[left_mask], X[right_mask], y[right_mask]

    def _best_split(self, X, y):
        best_gini = float('inf')
        best_split = None
        n_features = X.shape[1]

        for feature_idx in range(n_features):
            thresholds = np.unique(X[:, feature_idx])
            for threshold in thresholds:
                X_left, y_left, X_right, y_right = self._split(X, y, feature_idx, threshold)

                if len(y_left) == 0 or len(y_right) == 0:
                    continue

                m = len(y)
                gini_left = self._gini_impurity(y_left)
                gini_right = self._gini_impurity(y_right)
                weighted_gini = (len(y_left) / m) * gini_left + (len(y_right) / m) * gini_right

                if weighted_gini < best_gini:
                    best_gini = weighted_gini
                    best_split = {
                        'feature_idx': feature_idx,
                        'threshold': threshold,
                        'X_left': X_left,
                        'y_left': y_left,
                        'X_right': X_right,
                        'y_right': y_right,
                    }
        return best_split

    def _build_tree(self, X, y, depth=0):
        n_samples, n_features = X.shape
        n_labels = len(np.unique(y))

        if n_labels == 1 or n_samples < self.min_samples_split or (self.max_depth is not None and depth >= self.max_depth):
            leaf_value = self._most_common_label(y)
            return {'type': 'leaf', 'class': leaf_value}

        best_split = self._best_split(X, y)

        if best_split is None:
            leaf_value = self._most_common_label(y)
            return {'type': 'leaf', 'class': leaf_value}

        left_subtree = self._build_tree(best_split['X_left'], best_split['y_left'], depth + 1)
        right_subtree = self._build_tree(best_split['X_right'], best_split['y_right'], depth + 1)

        return {
            'type': 'node',
            'feature_idx': best_split['feature_idx'],
            'threshold': best_split['threshold'],
            'left': left_subtree,
            'right': right_subtree,
        }

    def _most_common_label(self, y):
        return np.bincount(y).argmax()

    def _predict_single(self, x, tree):
        if tree['type'] == 'leaf':
            return tree['class']

        feature_idx = tree['feature_idx']
        threshold = tree['threshold']

        if x[feature_idx] <= threshold:
            return self._predict_single(x, tree['left'])
        else:
            return self._predict_single(x, tree['right'])

Explicação:
A função fit constrói a árvore a partir dos dados de entrada X e dos rótulos y.
O critério de divisão utilizado é a impureza de Gini, calculada na função _gini_impurity.
O método _best_split busca a melhor divisão com base na impureza de Gini, tentando várias divisões em cada recurso (feature).
A árvore é construída de maneira recursiva na função _build_tree, que também limita a profundidade com max_depth e o número mínimo de amostras com min_samples_split.
A função predict faz previsões para novos dados, percorrendo a árvore até encontrar o valor da folha.
Este código implementa uma árvore de decisão simples, com a lógica completa de construção e predição baseada no critério de Gini, mas sem usar bibliotecas de machine learning.

### Teste do algoritmo usando a base de dados Iris

In [19]:
from sklearn.model_selection import train_test_split
from sklearn.metrics import confusion_matrix, accuracy_score, precision_score, recall_score, f1_score
from sklearn import datasets


if __name__ == '__main__':
    iris = datasets.load_iris()
    X, y = iris.data, iris.target

    # Dividir os dados em treino e teste
    X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

    # Criar e treinar o modelo de árvore de decisão
    dt = DecisionTree(max_depth=3)
    dt.fit(X_train, y_train)

    # Fazer previsões no conjunto de teste
    predictions = dt.predict(X_test)

    # Calcular métricas de desempenho
    accuracy = accuracy_score(y_test, predictions)
    precision = precision_score(y_test, predictions, average='macro')
    recall = recall_score(y_test, predictions, average='macro')
    f1 = f1_score(y_test, predictions, average='macro')
    conf_matrix = confusion_matrix(y_test, predictions)

    # Exibir resultados
    print(f"Acurácia: {accuracy * 100:.2f}%")
    print(f"Precisão: {precision * 100:.2f}%")
    print(f"Recall: {recall * 100:.2f}%")
    print(f"F1-Score: {f1 * 100:.2f}%")
    print("Matriz de Confusão:")
    print(conf_matrix)

Acurácia: 95.56%
Precisão: 95.56%
Recall: 94.87%
F1-Score: 94.84%
Matriz de Confusão:
[[19  0  0]
 [ 0 11  2]
 [ 0  0 13]]


### Análise crítica do código gerado

- Função **_gini_impurity(self, y)**:

- Função **fit(self, X, y)**:

- Função **_best_split(self, X, y)**:

- Função **_split(self, X, y, feature_idx, threshold)**:

- Função **_build_tree(self, X, y, depth=0)**:

- Função **_most_common_label(self, y)**:

- Função **_predict_single(self, x, tree)**:

- Função **_predict(self, x)**: Essa função calcula qual a classe mais frequente, com base no conjunto de treinamento, essa utiliza a distância euclidiana como medida de dissimilaridade e após isso calcula os k-vizinhos mais próximo e retorna o mais frequente entre eles.

A parte do código que trata do exemplo de uso foi desconsiderada visto que utilizamos o dataset Iris para testar o algoritmo.

Pontos fortes:

- 

Potencias problemas:

- 

Diferenças do algoritmo visto em aula:

- 

Opções de projeto realizadas pelo ChatGPT:

- Utilização do numpy
  - A utilização do numpy é entendível visto que 

Pontos para melhorar:

- 