# Primeiro Prompt: k-NN
Implemente um algoritmo do Knn em python sem usar scikit-learn

Aqui está uma implementação básica do algoritmo K-Nearest Neighbors (KNN) em Python, sem o uso da biblioteca `scikit-learn`. Esse código implementa o KNN de forma simples e eficiente, usando apenas bibliotecas padrão do Python como `math` e `collections` para calcular as distâncias e determinar os vizinhos mais próximos.

### Passos principais do KNN:
1. Calcular a distância entre o ponto de teste e todos os pontos de treino.
2. Selecionar os `k` vizinhos mais próximos com base nas distâncias.
3. Realizar a votação majoritária (para classificação) ou calcular a média (para regressão) entre os vizinhos selecionados.

Aqui está o código de exemplo:

```python
import math
from collections import Counter

# Função para calcular a distância Euclidiana entre dois pontos
def euclidean_distance(point1, point2):
    return math.sqrt(sum((x - y) ** 2 for x, y in zip(point1, point2)))

# Implementação do algoritmo KNN
class KNN:
    def __init__(self, k=3):
        self.k = k
        self.data = None
        self.labels = None

    # Função para treinar o modelo com os dados de treino
    def fit(self, X_train, y_train):
        self.data = X_train
        self.labels = y_train

    # Função para prever o rótulo (classificação)
    def predict(self, X_test):
        predictions = []
        for test_point in X_test:
            # Calcular a distância de todos os pontos de treino
            distances = [(euclidean_distance(test_point, train_point), label)
                         for train_point, label in zip(self.data, self.labels)]
            # Ordenar as distâncias e pegar os k vizinhos mais próximos
            sorted_distances = sorted(distances)[:self.k]
            # Coletar os rótulos dos vizinhos mais próximos
            k_nearest_labels = [label for _, label in sorted_distances]
            # Votação majoritária
            most_common_label = Counter(k_nearest_labels).most_common(1)[0][0]
            predictions.append(most_common_label)
        return predictions

# Exemplo de uso
if __name__ == "__main__":
    # Dados de treino (4 amostras de 2 features)
    X_train = [[1, 2], [2, 3], [3, 4], [5, 6]]
    y_train = [0, 0, 1, 1]  # Rótulos correspondentes

    # Dados de teste (1 amostra de 2 features)
    X_test = [[1.5, 2.5]]

    # Instancia o modelo KNN
    knn = KNN(k=3)
    
    # Treina o modelo
    knn.fit(X_train, y_train)
    
    # Faz a previsão
    prediction = knn.predict(X_test)
    
    print("Predição:", prediction)
```

### Explicação:
- **euclidean_distance**: Calcula a distância euclidiana entre dois pontos.
- **KNN**:
  - `__init__(self, k=3)`: Inicializa o modelo com o número de vizinhos `k`.
  - `fit(self, X_train, y_train)`: Armazena os dados de treino e seus rótulos.
  - `predict(self, X_test)`: Faz a previsão para novos dados de teste, calculando a distância de cada ponto de teste para todos os pontos de treino, selecionando os `k` mais próximos e retornando o rótulo mais comum (votação majoritária).

Você pode alterar a função de distância para outras métricas, como distância de Manhattan, ou ajustar o valor de `k` conforme necessário.

Se precisar de mais informações ou ajustes, estou à disposição!

In [None]:
import math
from collections import Counter

# Função para calcular a distância Euclidiana entre dois pontos
def euclidean_distance(point1, point2):
    return math.sqrt(sum((x - y) ** 2 for x, y in zip(point1, point2)))

# Implementação do algoritmo KNN
class KNN:
    def __init__(self, k=3):
        self.k = k
        self.data = None
        self.labels = None

    # Função para treinar o modelo com os dados de treino
    def fit(self, X_train, y_train):
        self.data = X_train
        self.labels = y_train

    # Função para prever o rótulo (classificação)
    def predict(self, X_test):
        predictions = []
        for test_point in X_test:
            # Calcular a distância de todos os pontos de treino
            distances = [(euclidean_distance(test_point, train_point), label)
                         for train_point, label in zip(self.data, self.labels)]
            # Ordenar as distâncias e pegar os k vizinhos mais próximos
            sorted_distances = sorted(distances)[:self.k]
            # Coletar os rótulos dos vizinhos mais próximos
            k_nearest_labels = [label for _, label in sorted_distances]
            # Votação majoritária
            most_common_label = Counter(k_nearest_labels).most_common(1)[0][0]
            predictions.append(most_common_label)
        return predictions

# Exemplo de uso
if __name__ == "__main__":
    # Dados de treino (4 amostras de 2 features)
    X_train = [[1, 2], [2, 3], [3, 4], [5, 6]]
    y_train = [0, 0, 1, 1]  # Rótulos correspondentes

    # Dados de teste (1 amostra de 2 features)
    X_test = [[1.5, 2.5]]

    # Instancia o modelo KNN
    knn = KNN(k=3)

    # Treina o modelo
    knn.fit(X_train, y_train)

    # Faz a previsão
    prediction = knn.predict(X_test)

    print("Predição:", prediction)


# Segundo prompt: Naive Bayes
Implemente um algoritmo de Naive Bayes em python sem usar scikit-learn, ou seja, from scratch

Aqui está uma implementação básica de um classificador Naive Bayes "from scratch" em Python, sem usar `scikit-learn`. Essa abordagem é baseada no teorema de Bayes e na suposição de que as características são independentes entre si (daí o nome "Naive").

### Passos principais:
1. **Treinamento**: Calcular a probabilidade condicional de cada classe com base nas características (estimativas de máxima verossimilhança).
2. **Predição**: Para cada novo exemplo, calcular a probabilidade posterior de cada classe, dada a entrada, e selecionar a classe com a maior probabilidade.

Para simplificar, vamos implementar a versão para classificação binária ou multiclasse, assumindo que os atributos são contínuos (usaremos a função densidade de probabilidade Gaussiana).

### Implementação:

```python
import numpy as np

class NaiveBayes:
    def fit(self, X_train, y_train):
        # Separar por classe
        self.classes = np.unique(y_train)
        self.mean = {}
        self.var = {}
        self.priors = {}
        
        # Para cada classe
        for c in self.classes:
            X_c = X_train[y_train == c]
            self.mean[c] = np.mean(X_c, axis=0)
            self.var[c] = np.var(X_c, axis=0)
            self.priors[c] = X_c.shape[0] / X_train.shape[0]

    # Função para calcular a densidade de probabilidade Gaussiana
    def gaussian_pdf(self, class_idx, x):
        mean = self.mean[class_idx]
        var = self.var[class_idx]
        numerator = np.exp(-(x - mean) ** 2 / (2 * var))
        denominator = np.sqrt(2 * np.pi * var)
        return numerator / denominator
    
    # Função para calcular a probabilidade posterior
    def predict(self, X_test):
        y_pred = [self._predict(x) for x in X_test]
        return np.array(y_pred)
    
    # Função interna que calcula a probabilidade posterior para um exemplo
    def _predict(self, x):
        posteriors = []
        
        for c in self.classes:
            prior = np.log(self.priors[c])  # Probabilidade a priori
            conditional = np.sum(np.log(self.gaussian_pdf(c, x)))  # Verossimilhança
            posterior = prior + conditional  # Posterior
            posteriors.append(posterior)
        
        return self.classes[np.argmax(posteriors)]  # Retorna a classe com maior probabilidade

# Exemplo de uso
if __name__ == "__main__":
    # Exemplo de dados: 2 features
    X_train = np.array([[1, 2], [2, 3], [3, 4], [4, 5], [5, 6]])
    y_train = np.array([0, 0, 1, 1, 1])

    X_test = np.array([[1.5, 2.5], [3.5, 4.5]])

    # Instancia o classificador Naive Bayes
    nb = NaiveBayes()
    
    # Treina o modelo
    nb.fit(X_train, y_train)
    
    # Faz a predição
    predictions = nb.predict(X_test)
    
    print("Predições:", predictions)
```

### Explicação:
1. **`fit(self, X_train, y_train)`**:
   - Calcula a média, a variância e as probabilidades a priori para cada classe. A suposição é que as características seguem uma distribuição normal (Gaussiana), então armazenamos a média e a variância de cada característica para cada classe.
   
2. **`gaussian_pdf(self, class_idx, x)`**:
   - Função que calcula a densidade de probabilidade Gaussiana, dada uma amostra, para uma determinada classe. Isso é utilizado para calcular a verossimilhança de uma amostra pertencer a uma classe.

3. **`predict(self, X_test)`**:
   - Calcula a probabilidade posterior para cada classe e retorna a classe com a maior probabilidade.

4. **_Exemplo de uso_**:
   - No final, temos um exemplo de como o algoritmo pode ser utilizado, com um conjunto de treino simples e um conjunto de teste para fazer a predição.

### Fórmulas:
- A densidade de probabilidade Gaussiana para cada atributo \( x_i \) é calculada como:
  
  \[
  P(x_i|c) = \frac{1}{\sqrt{2\pi \sigma_c^2}} \exp\left(-\frac{(x_i - \mu_c)^2}{2\sigma_c^2}\right)
  \]
  
  Onde \( \mu_c \) e \( \sigma_c \) são a média e a variância da classe \( c \) para a característica \( x_i \).

- A probabilidade posterior é:
  
  \[
  P(c|x) \propto P(c) \prod_{i=1}^{n} P(x_i|c)
  \]

Se precisar de ajustes ou mais explicações, me avise!

In [None]:
import numpy as np

class NaiveBayes:
    def fit(self, X_train, y_train):
        # Separar por classe
        self.classes = np.unique(y_train)
        self.mean = {}
        self.var = {}
        self.priors = {}

        # Para cada classe
        for c in self.classes:
            X_c = X_train[y_train == c]
            self.mean[c] = np.mean(X_c, axis=0)
            self.var[c] = np.var(X_c, axis=0)
            self.priors[c] = X_c.shape[0] / X_train.shape[0]

    # Função para calcular a densidade de probabilidade Gaussiana
    def gaussian_pdf(self, class_idx, x):
        mean = self.mean[class_idx]
        var = self.var[class_idx]
        numerator = np.exp(-(x - mean) ** 2 / (2 * var))
        denominator = np.sqrt(2 * np.pi * var)
        return numerator / denominator

    # Função para calcular a probabilidade posterior
    def predict(self, X_test):
        y_pred = [self._predict(x) for x in X_test]
        return np.array(y_pred)

    # Função interna que calcula a probabilidade posterior para um exemplo
    def _predict(self, x):
        posteriors = []

        for c in self.classes:
            prior = np.log(self.priors[c])  # Probabilidade a priori
            conditional = np.sum(np.log(self.gaussian_pdf(c, x)))  # Verossimilhança
            posterior = prior + conditional  # Posterior
            posteriors.append(posterior)

        return self.classes[np.argmax(posteriors)]  # Retorna a classe com maior probabilidade

# Exemplo de uso
if __name__ == "__main__":
    # Exemplo de dados: 2 features
    X_train = np.array([[1, 2], [2, 3], [3, 4], [4, 5], [5, 6]])
    y_train = np.array([0, 0, 1, 1, 1])

    X_test = np.array([[1.5, 2.5], [3.5, 4.5]])

    # Instancia o classificador Naive Bayes
    nb = NaiveBayes()

    # Treina o modelo
    nb.fit(X_train, y_train)

    # Faz a predição
    predictions = nb.predict(X_test)

    print("Predições:", predictions)


# Terceiro prompt: Arvore de decisao
Implemente um algoritmo de arvore de decisao em python sem usar scikit-leanr, ou seja, from scratch

Aqui está uma implementação de uma árvore de decisão do zero em Python, sem o uso da biblioteca `scikit-learn`. A implementação utiliza o critério de **Gini** para dividir os dados:

### Passo 1: Cálculo do Índice Gini
O índice Gini mede a impureza de uma divisão, ou seja, quão mista estão as classes.

### Passo 2: Funções de Divisão
Precisamos de uma função para dividir os dados com base em um valor em uma coluna específica.

### Passo 3: Construção da Árvore
A árvore de decisão é construída de forma recursiva, dividindo os dados até encontrar folhas puras ou atingir um critério de parada (como profundidade máxima).

### Passo 4: Função de Previsão
Depois que a árvore é construída, a função de previsão é utilizada para classificar novas amostras.

### Código:

```python
import numpy as np

# Função para calcular o índice Gini de um grupo de amostras
def gini(groups, classes):
    # Número total de amostras
    n_instances = float(sum([len(group) for group in groups]))
    
    gini_index = 0.0
    for group in groups:
        size = len(group)
        if size == 0:
            continue
        score = 0.0
        # Proporção de cada classe no grupo
        for class_val in classes:
            p = [row[-1] for row in group].count(class_val) / size
            score += p * p
        gini_index += (1.0 - score) * (size / n_instances)
    
    return gini_index

# Função para dividir os dados em dois grupos com base em um valor específico de uma coluna
def test_split(index, value, dataset):
    left, right = [], []
    for row in dataset:
        if row[index] < value:
            left.append(row)
        else:
            right.append(row)
    return left, right

# Selecionar a melhor divisão do dataset
def get_split(dataset):
    class_values = list(set(row[-1] for row in dataset))
    b_index, b_value, b_score, b_groups = 999, 999, 999, None
    for index in range(len(dataset[0])-1):
        for row in dataset:
            groups = test_split(index, row[index], dataset)
            gini_index = gini(groups, class_values)
            if gini_index < b_score:
                b_index, b_value, b_score, b_groups = index, row[index], gini_index, groups
    return {'index': b_index, 'value': b_value, 'groups': b_groups}

# Criar um nó folha
def to_terminal(group):
    outcomes = [row[-1] for row in group]
    return max(set(outcomes), key=outcomes.count)

# Dividir os nós, criando sub-árvores de forma recursiva ou folhas
def split(node, max_depth, min_size, depth):
    left, right = node['groups']
    del(node['groups'])
    # Verificar se não há divisão
    if not left or not right:
        node['left'] = node['right'] = to_terminal(left + right)
        return
    # Verificar profundidade máxima
    if depth >= max_depth:
        node['left'], node['right'] = to_terminal(left), to_terminal(right)
        return
    # Processar o nó esquerdo
    if len(left) <= min_size:
        node['left'] = to_terminal(left)
    else:
        node['left'] = get_split(left)
        split(node['left'], max_depth, min_size, depth+1)
    # Processar o nó direito
    if len(right) <= min_size:
        node['right'] = to_terminal(right)
    else:
        node['right'] = get_split(right)
        split(node['right'], max_depth, min_size, depth+1)

# Construir uma árvore de decisão
def build_tree(train, max_depth, min_size):
    root = get_split(train)
    split(root, max_depth, min_size, 1)
    return root

# Fazer uma previsão com a árvore de decisão
def predict(node, row):
    if row[node['index']] < node['value']:
        if isinstance(node['left'], dict):
            return predict(node['left'], row)
        else:
            return node['left']
    else:
        if isinstance(node['right'], dict):
            return predict(node['right'], row)
        else:
            return node['right']

# Exemplo de uso
if __name__ == '__main__':
    # Dataset de exemplo: [característica1, característica2, ..., classe]
    dataset = [[2.771244718, 1.784783929, 0],
               [1.728571309, 1.169761413, 0],
               [3.678319846, 2.81281357, 0],
               [3.961043357, 2.61995032, 0],
               [2.999208922, 2.209014212, 0],
               [7.497545867, 3.162953546, 1],
               [9.00220326, 3.339047188, 1],
               [7.444542326, 0.476683375, 1],
               [10.12493903, 3.234550982, 1],
               [6.642287351, 3.319983761, 1]]

    # Definindo os parâmetros da árvore
    max_depth = 3
    min_size = 1

    # Construir a árvore
    tree = build_tree(dataset, max_depth, min_size)

    # Fazer previsões
    for row in dataset:
        prediction = predict(tree, row)
        print('Esperado=%d, Previsto=%d' % (row[-1], prediction))
```

### Explicação:
1. **gini**: Calcula o índice Gini para um conjunto de grupos.
2. **test_split**: Divide o conjunto de dados em dois grupos com base no valor de uma característica.
3. **get_split**: Encontra a melhor divisão possível do dataset, retornando o índice da coluna e o valor que proporcionam a menor impureza Gini.
4. **split**: Realiza a divisão recursiva dos nós.
5. **build_tree**: Constrói a árvore de decisão.
6. **predict**: Faz previsões com base na árvore gerada.

### Testando
O código usa um pequeno dataset para testar a construção da árvore e as previsões feitas com ela.

In [None]:
import numpy as np

# Função para calcular o índice Gini de um grupo de amostras
def gini(groups, classes):
    # Número total de amostras
    n_instances = float(sum([len(group) for group in groups]))

    gini_index = 0.0
    for group in groups:
        size = len(group)
        if size == 0:
            continue
        score = 0.0
        # Proporção de cada classe no grupo
        for class_val in classes:
            p = [row[-1] for row in group].count(class_val) / size
            score += p * p
        gini_index += (1.0 - score) * (size / n_instances)

    return gini_index

# Função para dividir os dados em dois grupos com base em um valor específico de uma coluna
def test_split(index, value, dataset):
    left, right = [], []
    for row in dataset:
        if row[index] < value:
            left.append(row)
        else:
            right.append(row)
    return left, right

# Selecionar a melhor divisão do dataset
def get_split(dataset):
    class_values = list(set(row[-1] for row in dataset))
    b_index, b_value, b_score, b_groups = 999, 999, 999, None
    for index in range(len(dataset[0])-1):
        for row in dataset:
            groups = test_split(index, row[index], dataset)
            gini_index = gini(groups, class_values)
            if gini_index < b_score:
                b_index, b_value, b_score, b_groups = index, row[index], gini_index, groups
    return {'index': b_index, 'value': b_value, 'groups': b_groups}

# Criar um nó folha
def to_terminal(group):
    outcomes = [row[-1] for row in group]
    return max(set(outcomes), key=outcomes.count)

# Dividir os nós, criando sub-árvores de forma recursiva ou folhas
def split(node, max_depth, min_size, depth):
    left, right = node['groups']
    del(node['groups'])
    # Verificar se não há divisão
    if not left or not right:
        node['left'] = node['right'] = to_terminal(left + right)
        return
    # Verificar profundidade máxima
    if depth >= max_depth:
        node['left'], node['right'] = to_terminal(left), to_terminal(right)
        return
    # Processar o nó esquerdo
    if len(left) <= min_size:
        node['left'] = to_terminal(left)
    else:
        node['left'] = get_split(left)
        split(node['left'], max_depth, min_size, depth+1)
    # Processar o nó direito
    if len(right) <= min_size:
        node['right'] = to_terminal(right)
    else:
        node['right'] = get_split(right)
        split(node['right'], max_depth, min_size, depth+1)

# Construir uma árvore de decisão
def build_tree(train, max_depth, min_size):
    root = get_split(train)
    split(root, max_depth, min_size, 1)
    return root

# Fazer uma previsão com a árvore de decisão
def predict(node, row):
    if row[node['index']] < node['value']:
        if isinstance(node['left'], dict):
            return predict(node['left'], row)
        else:
            return node['left']
    else:
        if isinstance(node['right'], dict):
            return predict(node['right'], row)
        else:
            return node['right']

# Exemplo de uso
if __name__ == '__main__':
    # Dataset de exemplo: [característica1, característica2, ..., classe]
    dataset = [[2.771244718, 1.784783929, 0],
               [1.728571309, 1.169761413, 0],
               [3.678319846, 2.81281357, 0],
               [3.961043357, 2.61995032, 0],
               [2.999208922, 2.209014212, 0],
               [7.497545867, 3.162953546, 1],
               [9.00220326, 3.339047188, 1],
               [7.444542326, 0.476683375, 1],
               [10.12493903, 3.234550982, 1],
               [6.642287351, 3.319983761, 1]]

    # Definindo os parâmetros da árvore
    max_depth = 3
    min_size = 1

    # Construir a árvore
    tree = build_tree(dataset, max_depth, min_size)

    # Fazer previsões
    for row in dataset:
        prediction = predict(tree, row)
        print('Esperado=%d, Previsto=%d' % (row[-1], prediction))


# 2. Aplicando as métricas de avaliação nos algoritmos obtidos

Através dos algoritmos obtidos na primeira etapa, foi pedido para o chatGPT aplicar a leitura do *dataset* escolhido e acrescentar os métodos que gerassem a matriz de confusão e as métricas de avaliação acurácia, precisão, *recall* e f1-score.

No chatGPT, junto a cada código, foi acrescido o seguinte pedido:
> Preciso que no código acima, seja adicionado:
1. Carregar os dados do dataset presente em /content/sample_data/penguins.csv. A primeira e segunda coluna sao strings, a terceira e quarta são floats, a quinta e a sexta coluna são integer e o rótulo na coluna 7 é uma string.
2. Preciso que, após a predictions, seja feita a matriz de confusão, acurá-
cia, recall, precisão e f1-score
Observação:
1.Não pode ser utilizada nenhuma biblioteca do scikit-learn
2. Algumas colunas do float ou integer podem ser valores vazio
3. Desconsideradar os rótulos que são nulos

Os resultados obtidos para cada algoritmo podem ser vistos e executados nas sessões 'Testes com k-NN', 'Testes com Naive Bayes' e 'Testes com Árvores de Decisão'.

## Testes com k-NN

In [6]:
import math
from collections import Counter

# Função para calcular a distância Euclidiana entre dois pontos
def euclidean_distance(point1, point2):
    return math.sqrt(sum((x - y) ** 2 for x, y in zip(point1, point2)))

# Função para calcular a média ignorando valores vazios
def mean_without_empty(values):
    valid_values = [float(v) for v in values if v != '']
    return sum(valid_values) / len(valid_values) if valid_values else 0

# Função para calcular a moda ignorando valores vazios
def mode_without_empty(values):
    valid_values = [int(v) for v in values if v != '']
    return Counter(valid_values).most_common(1)[0][0] if valid_values else 0

# Função para ler e preprocessar os dados do CSV, desconsiderando rótulos nulos
def load_and_preprocess_data(filepath):
    with open(filepath, 'r') as file:
        data = [line.strip().split(',') for line in file.readlines()[1:]]  # Ignorar cabeçalho

    # Filtrar linhas onde o rótulo (coluna 7) não está vazio
    data = [row for row in data if row[6] != '']

    # Preencher valores faltantes (float e int)
    col3 = [row[2] for row in data]
    col4 = [row[3] for row in data]
    col5 = [row[4] for row in data]
    col6 = [row[5] for row in data]

    mean_col3 = mean_without_empty(col3)
    mean_col4 = mean_without_empty(col4)
    mode_col5 = mode_without_empty(col5)
    mode_col6 = mode_without_empty(col6)

    # Converter as colunas de string em números (poderia ser feito com um mapeamento para labels)
    str_columns_1_2 = {value: idx for idx, value in enumerate(sorted(set([row[0] for row in data] + [row[1] for row in data])))}

    X = [[str_columns_1_2[row[0]], str_columns_1_2[row[1]],
          float(row[2]) if row[2] != '' else mean_col3,
          float(row[3]) if row[3] != '' else mean_col4,
          int(row[4]) if row[4] != '' else mode_col5,
          int(row[5]) if row[5] != '' else mode_col6] for row in data]
    y = [row[6] for row in data]

    return X, y

# Implementação do algoritmo KNN
class KNN:
    def __init__(self, k=3):
        self.k = k
        self.data = None
        self.labels = None

    # Função para treinar o modelo com os dados de treino
    def fit(self, X_train, y_train):
        self.data = X_train
        self.labels = y_train

    # Função para prever o rótulo (classificação)
    def predict(self, X_test):
        predictions = []
        for test_point in X_test:
            # Calcular a distância de todos os pontos de treino
            distances = [(euclidean_distance(test_point, train_point), label)
                         for train_point, label in zip(self.data, self.labels)]
            # Ordenar as distâncias e pegar os k vizinhos mais próximos
            sorted_distances = sorted(distances)[:self.k]
            # Coletar os rótulos dos vizinhos mais próximos
            k_nearest_labels = [label for _, label in sorted_distances]
            # Votação majoritária
            most_common_label = Counter(k_nearest_labels).most_common(1)[0][0]
            predictions.append(most_common_label)
        return predictions

# Função para calcular a matriz de confusão
def confusion_matrix(y_true, y_pred):
    unique_labels = sorted(set(y_true))
    matrix = {label: {label: 0 for label in unique_labels} for label in unique_labels}

    for true, pred in zip(y_true, y_pred):
        matrix[true][pred] += 1

    return matrix

# Funções para calcular acurácia, precisão, recall e F1-score
def accuracy(y_true, y_pred):
    correct = sum(1 for true, pred in zip(y_true, y_pred) if true == pred)
    return correct / len(y_true)

def precision_recall_f1(y_true, y_pred):
    cm = confusion_matrix(y_true, y_pred)
    precisions = {}
    recalls = {}
    f1_scores = {}

    for label in cm:
        tp = cm[label][label]
        fp = sum(cm[other][label] for other in cm if other != label)
        fn = sum(cm[label][other] for other in cm if other != label)

        precision = tp / (tp + fp) if (tp + fp) > 0 else 0
        recall = tp / (tp + fn) if (tp + fn) > 0 else 0
        f1 = 2 * (precision * recall) / (precision + recall) if (precision + recall) > 0 else 0

        precisions[label] = precision
        recalls[label] = recall
        f1_scores[label] = f1

    return precisions, recalls, f1_scores

# Exemplo de uso
if __name__ == "__main__":
    # Carregar os dados
    filepath = "/content/sample_data/penguins.csv"
    X, y = load_and_preprocess_data(filepath)

    # Dividir os dados em treino e teste (exemplo simples)
    split_ratio = 0.8
    split_index = int(split_ratio * len(X))
    X_train, X_test = X[:split_index], X[split_index:]
    y_train, y_test = y[:split_index], y[split_index:]

    # Instanciar o modelo KNN
    knn = KNN(k=3)

    # Treinar o modelo
    knn.fit(X_train, y_train)

    # Fazer a previsão
    y_pred = knn.predict(X_test)

    # Calcular e exibir a matriz de confusão, acurácia, recall, precisão e F1-score
    print("Matriz de Confusão:", confusion_matrix(y_test, y_pred))
    print("Acurácia:", accuracy(y_test, y_pred))
    precisions, recalls, f1_scores = precision_recall_f1(y_test, y_pred)
    print("Precisões:", precisions)
    print("Recalls:", recalls)
    print("F1-scores:", f1_scores)

Matriz de Confusão: {'FEMALE': {'FEMALE': 17, 'MALE': 15}, 'MALE': {'FEMALE': 6, 'MALE': 29}}
Acurácia: 0.6865671641791045
Precisões: {'FEMALE': 0.7391304347826086, 'MALE': 0.6590909090909091}
Recalls: {'FEMALE': 0.53125, 'MALE': 0.8285714285714286}
F1-scores: {'FEMALE': 0.6181818181818182, 'MALE': 0.7341772151898734}


## Teste com Naive Bayes

In [7]:
import numpy as np
import pandas as pd
from collections import defaultdict

class NaiveBayes:
    def fit(self, X_train, y_train):
        self.classes = np.unique(y_train)
        self.mean = {}
        self.var = {}
        self.priors = {}

        for c in self.classes:
            X_c = X_train[y_train == c]
            self.mean[c] = np.nanmean(X_c, axis=0)
            self.var[c] = np.nanvar(X_c, axis=0)
            self.priors[c] = X_c.shape[0] / X_train.shape[0]

    def gaussian_pdf(self, class_idx, x):
        mean = self.mean[class_idx]
        var = self.var[class_idx]
        numerator = np.exp(-(x - mean) ** 2 / (2 * var))
        denominator = np.sqrt(2 * np.pi * var)
        return numerator / denominator

    def predict(self, X_test):
        y_pred = [self._predict(x) for x in X_test]
        return np.array(y_pred)

    def _predict(self, x):
        posteriors = []

        for c in self.classes:
            prior = np.log(self.priors[c])
            conditional = np.sum(np.log(self.gaussian_pdf(c, x)))
            posterior = prior + conditional
            posteriors.append(posterior)

        return self.classes[np.argmax(posteriors)]

def load_and_prepare_data(file_path):
    df = pd.read_csv(file_path)

    # Remover linhas com rótulos nulos
    df = df.dropna(subset=[df.columns[-1]])

    # Converter as colunas para tipos adequados
    df[df.columns[2:4]] = df[df.columns[2:4]].astype(float)
    df[df.columns[4:6]] = df[df.columns[4:6]].astype(int)

    # Remover linhas com valores numéricos nulos
    df = df.dropna(subset=df.columns[2:6])

    # Converter rótulo para valores numéricos
    y = df[df.columns[-1]].astype('category').cat.codes
    X = df.iloc[:, 2:6].values

    return X, y

def confusion_matrix(y_true, y_pred, classes):
    matrix = np.zeros((len(classes), len(classes)), dtype=int)
    for true, pred in zip(y_true, y_pred):
        matrix[true][pred] += 1
    return matrix

def accuracy(y_true, y_pred):
    return np.sum(y_true == y_pred) / len(y_true)

def precision_recall_f1(y_true, y_pred, classes):
    metrics = defaultdict(dict)

    for c in classes:
        tp = np.sum((y_true == c) & (y_pred == c))
        fp = np.sum((y_true != c) & (y_pred == c))
        fn = np.sum((y_true == c) & (y_pred != c))

        precision = tp / (tp + fp) if (tp + fp) > 0 else 0
        recall = tp / (tp + fn) if (tp + fn) > 0 else 0
        f1 = 2 * (precision * recall) / (precision + recall) if (precision + recall) > 0 else 0

        metrics[c]['precision'] = precision
        metrics[c]['recall'] = recall
        metrics[c]['f1'] = f1

    return metrics

# Exemplo de uso
if __name__ == "__main__":
    file_path = '/content/sample_data/penguins.csv'

    # Carregar e preparar dados
    X, y = load_and_prepare_data(file_path)

    # Divisão simples para treino e teste (por exemplo, 80% treino, 20% teste)
    split_idx = int(0.8 * len(X))
    X_train, X_test = X[:split_idx], X[split_idx:]
    y_train, y_test = y[:split_idx], y[split_idx:]

    # Instanciar o classificador
    nb = NaiveBayes()
    nb.fit(X_train, y_train)

    # Fazer predições
    predictions = nb.predict(X_test)

    # Calcular a matriz de confusão, acurácia, recall, precisão e f1-score
    classes = np.unique(y)

    conf_matrix = confusion_matrix(y_test, predictions, classes)
    acc = accuracy(y_test, predictions)
    metrics = precision_recall_f1(y_test, predictions, classes)

    # Exibir resultados
    print("Matriz de Confusão:\n", conf_matrix)
    print("Acurácia:", acc)
    for c in classes:
        print(f"Classe {c}:")
        print(" Precisão:", metrics[c]['precision'])
        print(" Recall:", metrics[c]['recall'])
        print(" F1-Score:", metrics[c]['f1'])

Matriz de Confusão:
 [[ 4 28]
 [ 0 35]]
Acurácia: 0.582089552238806
Classe 0:
 Precisão: 1.0
 Recall: 0.125
 F1-Score: 0.2222222222222222
Classe 1:
 Precisão: 0.5555555555555556
 Recall: 1.0
 F1-Score: 0.7142857142857143


## Teste com Árvores de Decisão

In [8]:
import csv
import numpy as np

# Função para calcular o índice Gini
def gini(groups, classes):
    n_instances = float(sum([len(group) for group in groups]))
    gini_index = 0.0
    for group in groups:
        size = len(group)
        if size == 0:
            continue
        score = 0.0
        for class_val in classes:
            p = [row[-1] for row in group].count(class_val) / size
            score += p * p
        gini_index += (1.0 - score) * (size / n_instances)
    return gini_index

# Função para dividir os dados em dois grupos com base em um valor específico de uma coluna
def test_split(index, value, dataset):
    left, right = [], []
    for row in dataset:
        if row[index] < value:
            left.append(row)
        else:
            right.append(row)
    return left, right

# Selecionar a melhor divisão do dataset
def get_split(dataset):
    class_values = list(set(row[-1] for row in dataset))
    b_index, b_value, b_score, b_groups = 999, 999, 999, None
    for index in range(len(dataset[0])-1):
        for row in dataset:
            groups = test_split(index, row[index], dataset)
            gini_index = gini(groups, class_values)
            if gini_index < b_score:
                b_index, b_value, b_score, b_groups = index, row[index], gini_index, groups
    return {'index': b_index, 'value': b_value, 'groups': b_groups}

# Criar um nó folha
def to_terminal(group):
    outcomes = [row[-1] for row in group]
    return max(set(outcomes), key=outcomes.count)

# Dividir os nós, criando sub-árvores de forma recursiva ou folhas
def split(node, max_depth, min_size, depth):
    left, right = node['groups']
    del(node['groups'])
    if not left or not right:
        node['left'] = node['right'] = to_terminal(left + right)
        return
    if depth >= max_depth:
        node['left'], node['right'] = to_terminal(left), to_terminal(right)
        return
    if len(left) <= min_size:
        node['left'] = to_terminal(left)
    else:
        node['left'] = get_split(left)
        split(node['left'], max_depth, min_size, depth+1)
    if len(right) <= min_size:
        node['right'] = to_terminal(right)
    else:
        node['right'] = get_split(right)
        split(node['right'], max_depth, min_size, depth+1)

# Construir uma árvore de decisão
def build_tree(train, max_depth, min_size):
    root = get_split(train)
    split(root, max_depth, min_size, 1)
    return root

# Fazer uma previsão com a árvore de decisão
def predict(node, row):
    if row[node['index']] < node['value']:
        if isinstance(node['left'], dict):
            return predict(node['left'], row)
        else:
            return node['left']
    else:
        if isinstance(node['right'], dict):
            return predict(node['right'], row)
        else:
            return node['right']

# Função para calcular a matriz de confusão e as métricas
def confusion_matrix_metrics(actual, predicted, classes):
    matrix = {label: {label: 0 for label in classes} for label in classes}
    for a, p in zip(actual, predicted):
        matrix[a][p] += 1

    # Calculando métricas
    tp = sum(matrix[c][c] for c in classes)  # True Positives
    total = len(actual)  # Total de exemplos

    # Acurácia
    accuracy = tp / total

    # Para cada classe, calcular precision, recall e f1-score
    precision = {}
    recall = {}
    f1_score = {}

    for c in classes:
        tp_c = matrix[c][c]
        fp_c = sum(matrix[other][c] for other in classes if other != c)
        fn_c = sum(matrix[c][other] for other in classes if other != c)

        precision[c] = tp_c / (tp_c + fp_c) if (tp_c + fp_c) > 0 else 0
        recall[c] = tp_c / (tp_c + fn_c) if (tp_c + fn_c) > 0 else 0
        f1_score[c] = 2 * precision[c] * recall[c] / (precision[c] + recall[c]) if (precision[c] + recall[c]) > 0 else 0

    return matrix, accuracy, precision, recall, f1_score

# Função para carregar e processar o dataset de pinguins
def load_penguin_data(file_path):
    dataset = []
    with open(file_path, newline='') as csvfile:
        reader = csv.reader(csvfile)
        next(reader)  # Pular cabeçalho
        for row in reader:
            if not row[6]:  # Ignorar se o rótulo for nulo
                continue
            processed_row = []
            for i in range(7):
                if i == 0 or i == 1:  # String (colunas 1 e 2)
                    processed_row.append(row[i])
                elif i == 2 or i == 3:  # Float (colunas 3 e 4)
                    processed_row.append(float(row[i]) if row[i] else 0.0)
                elif i == 4 or i == 5:  # Inteiro (colunas 5 e 6)
                    processed_row.append(int(row[i]) if row[i] else 0)
                else:  # Rótulo (coluna 7)
                    processed_row.append(row[i])
            dataset.append(processed_row)
    return dataset

# Exemplo de uso
if __name__ == '__main__':
    # Carregar o dataset de pinguins
    file_path = '/content/sample_data/penguins.csv'
    dataset = load_penguin_data(file_path)

    # Codificar rótulos como números
    class_mapping = {label: i for i, label in enumerate(set(row[-1] for row in dataset))}
    for row in dataset:
        row[-1] = class_mapping[row[-1]]

    # Definindo os parâmetros da árvore
    max_depth = 3
    min_size = 1

    # Construir a árvore
    tree = build_tree(dataset, max_depth, min_size)

    # Fazer previsões
    actual = [row[-1] for row in dataset]
    predicted = [predict(tree, row) for row in dataset]

    # Calcular matriz de confusão e métricas
    classes = list(class_mapping.values())
    matrix, accuracy, precision, recall, f1_score = confusion_matrix_metrics(actual, predicted, classes)

    print(f"Matriz de Confusão: {matrix}")
    print(f"Acurácia: {accuracy}")
    print(f"Precisão: {precision}")
    print(f"Recall: {recall}")
    print(f"F1-Score: {f1_score}")


Matriz de Confusão: {0: {0: 164, 1: 4}, 1: {0: 24, 1: 141}}
Acurácia: 0.9159159159159159
Precisão: {0: 0.8723404255319149, 1: 0.9724137931034482}
Recall: {0: 0.9761904761904762, 1: 0.8545454545454545}
F1-Score: {0: 0.9213483146067415, 1: 0.9096774193548387}


#3.Análise Crítica


## 3.1. kNN
A implementação de KNN gerada pelo ChatGPT segue de forma básica a estrutura do
algoritmo discutido em aula, com a definição do número de vizinhos (k), cálculo da dis-
tância euclidiana como medida de similaridade, e o voto da maioria dos vizinhos mais
próximos. No entanto, algumas diferenças e potenciais melhorias podem ser observadas:


*   **Pontos fortes:** A simplicidade da implementação reflete bem o conceito de classi-
ficador lazy discutido em aula. O uso de uma função clara para calcular a distância
euclidiana e o uso da classe ‘Counter‘ para votação são boas práticas que mantêm
o código fácil de ler e entender.
*   **Diferenciações e problemas potenciais:** A versão discutida em aula menciona
que a escolha de ‘k‘ pode impactar o desempenho do modelo, sendo muito pe-
queno propenso a overfitting e muito grande a underfitting. O código não aborda
mecanismos para ajuste automático de ‘k‘, algo que poderia ser explorado para
evitar esses problemas. Além disso, não foi considerado o uso de pesos para os
votos dos vizinhos com base nas distâncias, o que poderia aumentar a robustez a
ruídos e tornar o algoritmo menos sensível à escolha de ‘k‘.

*   **Opções de projeto e impacto:** O uso da distância euclidiana, embora adequada para muitos casos, pode não ser a escolha ideal dependendo do tipo de dados, como discutido em aula (por exemplo, dados binários assimétricos). Uma sugestão de melhoria seria a inclusão de outras opções de métricas de dissimilaridade que se adequem a diferentes tipos de dados, como a distância de Manhattan.
*   **Sugestões de melhorias:** Além de ponderar os votos por distância, a inclusão de uma estrutura de dados eficiente, como KD-Trees, poderia melhorar a eficiência computacional, especialmente para grandes conjuntos de dados, como discutido na aula sobre o impacto do alto custo computacional no KNN.

Isso demonstra como o algoritmo gerado pelo GPT pode ser um ponto de partida
válido, mas melhorias e ajustes são necessários para alinhar melhor o código aos pontos
discutidos em sala.

## 3.2. Naive Bayes
A implementação do Naive Bayes gerada pelo GPT tambem segue bem a estrutura do
classificador discutido em aula, usando o Teorema de Bayes para calcular a probabilidade
posterior e assumindo independência entre os atributos. No código, a suposição de que os
atributos seguem uma distribuição Gaussiana para cada classe foi corretamente aplicada,
o que é uma escolha comum para atributos contínuos.


*   **Pontos fortes:** O algoritmo é eficiente, realizando o cálculo das probabilidades
por meio de uma única varredura nos dados de treino e armazenando os parâme-
tros necessários (média, variância e prior) para cada classe, o que reflete o que foi
discutido em aula sobre a eficiência do Naive Bayes. Além disso, o uso de loga-
ritmos para evitar underflow numérico ao multiplicar pequenas probabilidades é
uma escolha inteligente, garantindo maior estabilidade numérica.
*   **Diferenças e potenciais problemas:** Uma diferença em relação ao que foi visto
em aula é que a implementação assume uma distribuição Gaussiana para os atribu-
tos, o que pode não ser ideal se os dados forem categóricos ou não seguirem essa
distribuição. A aula também menciona a robustez do Naive Bayes para lidar com
atributos irrelevantes, o que não está explícito no código. No entanto, o modelo
em si herda essa característica, mesmo que o código não faça ajustes específicos
para detectar atributos irrelevantes.
*   **Opções de projeto e impacto:** O uso da distribuição Gaussiana como densidade
de probabilidade é uma escolha projetual que funciona bem para dados contínuos,
mas a implementação poderia ser expandida para incluir outros tipos de distribui-
ção (como a Bernoulli para atributos binários). Isso ampliaria a aplicabilidade do
código em diferentes cenários de dados.
*   **Sugestões de melhorias:** Seria interessante adicionar um tratamento mais flexível
para lidar com atributos de diferentes naturezas (discretos e contínuos), algo que
o Naive Bayes faz bem em teoria, mas não está explícito nesta implementação.
Além disso, a inclusão de um processo de seleção de atributos poderia ser útil
para lidar com redundâncias, conforme discutido em aula.

Vemos que o código gerado pelo GPT está alinhado com os princípios fundamen-
tais do Naive Bayes, mas poderia ser refinado para abranger mais cenários e aumentar sua
flexibilidade.

## 3.3 Árvores de Decisão
Comparando o algoritmo fornecido com o que foi ensinado em sala de aula, podemos
identificar vários pontos de convergência e algumas áreas onde há espaço para discussão.
Vamos analisá-los em termos de conceitos e decisões de design:
**Semelhanças**


*   **Estrutura básica:** O algoritmo implementado segue a ideia central do método de
indução top-down das árvores de decisão, que é o algoritmo de Hunt. Ele parte
de um conjunto de dados e divide os registros com base no atributo que otimiza
localmente determinado critério de divisão (neste caso, o índice Gini), tal como
discutido em aula.
*   **Uso do índice Gini:** O código utiliza o índice Gini para avaliar a pureza dos nós,
o que está de acordo com as métricas de impureza discutidas. Em aula, vimos três
principais medidas de impureza (índice Gini, entropia e erro de classificação), e o
Gini é bastante comum na prática devido à sua simplicidade.
*   **Recursividade:** A árvore é construída de maneira recursiva, e as divisões conti-
nuam até se alcançar critérios de parada, como profundidade máxima da árvore
ou o tamanho mínimo de instâncias em um nó, alinhado com a estratégia gulosa
vista em sala.
*   **Divisões binárias:** O algoritmo implementa apenas divisões binárias para atribu-
tos contínuos, uma escolha comum para simplificar o processo e que também foi
abordada nas aulas.



**Diferenças e pontos de discussão**


*   **Critério de parada:** No algoritmo fornecido, os critérios de parada incluem o li-
mite de profundidade da árvore (max_depth) e o número mínimo de instâncias em
um nó (min_size). Em aula, foi discutido que outros critérios de parada poderiam
ser usados, como a homogeneidade das classes ou a impossibilidade de melhorar o
critério de divisão, por exemplo, quando todos os atributos restantes têm o mesmo
valor. O código não leva em consideração diretamente a pureza do nó ao decidir
parar, o que poderia ser uma adição interessante.
*   **Divisão para atributos categóricos:** O código fornecido parece focado em atri-
butos contínuos (pelo menos no exemplo dado). Em sala de aula, discutiu-se a
divisão tanto para atributos contínuos quanto categóricos (nominais e ordinais). O
código atual teria que ser adaptado para lidar com atributos categóricos, especial-
mente para suportar divisões múltiplas, que também foram abordadas em aula.
*   **Critério de escolha do atributo:** O algoritmo sempre escolhe o atributo com a
menor impureza medida pelo índice Gini, o que está correto. No entanto, poderia
ser interessante comparar o desempenho com outros critérios discutidos, como a
**entropia** ou o **erro de classificação**, para observar o impacto no modelo
gerado. Isso foi mencionado como uma questão de projeto importante em sala.
*   **Complexidade computacional:** O código implementa uma abordagem de força
bruta, onde cada valor de cada atributo é testado como um possível ponto de di-
visão, recalculando o índice Gini para cada divisão possível. Em aula, foi menci-
onado que essa abordagem pode ser computacionalmente pesada, especialmente
para grandes conjuntos de dados. Uma possível otimização discutida seria o pré-
processamento dos atributos contínuos para calcular os limiares de divisão de
forma mais eficiente.
*   **Árvores não otimizadas:** Conforme discutido em sala, encontrar a árvore ótima
é um problema NP-difícil, e heurísticas são utilizadas para se obter uma solu-
ção satisfatória. O algoritmo fornecido utiliza uma abordagem gulosa (greedy),
tomando decisões localmente ótimas (minimização do índice Gini em cada nó),
mas não garante a árvore globalmente ótima, o que foi mencionado como uma
limitação geral das árvores de decisão.

**Outras Considerações**



*   **Visualização da árvore:** Em sala de aula, a facilidade de interpretação das árvores
de decisão foi destacada, porém o algoritmo não inclui uma funcionalidade para
visualizar a árvore gerada, o que seria útil para verificar a compreensibilidade das
regras criadas.
*   **Ajuste de overfitting:** Um aspecto importante das árvores de decisão é o risco
de overfitting em dados de treino. O algoritmo atual utiliza profundidade máxima
e tamanho mínimo dos nós como forma de controle, mas em sala de aula, foi
mencionado que técnicas como **poda** (pruning) também podem ser úteis para
controlar o ajuste excessivo, algo que não foi abordado no código.

O código fornecido está alinhado com muitos dos conceitos e técnicas vistos em
aula, especialmente no que diz respeito ao uso do índice Gini, à recursividade e à divisão
binária de atributos contínuos. No entanto, poderia ser enriquecido ao incorporar suporte
a atributos categóricos, critérios adicionais para escolha de atributos e mais técnicas de
controle de overfitting, como a poda.

# 4. Conclusão

A comparação entre os três algoritmos vistos em aula — Árvore de Decisão, K-Nearest
Neighbors (KNN) e Naive Bayes — e o algoritmo desenvolvido a partir do modelo GPT-
4 evidenciou as semelhanças e distinções fundamentais entre os métodos tradicionais e
a abordagem automatizada. Enquanto a Árvore de Decisão oferece uma estrutura inter-
pretável e eficiente para determinados conjuntos de dados, o KNN se destaca pela sim-
plicidade e robustez, embora sofra com grandes volumes de dados. O Naive Bayes, por
sua vez, provou ser altamente eficiente em cenários com forte independência entre as
variáveis, mas pode ser limitado em outros contextos. O algoritmo gerado pelo GPT-4,
embora tenha demonstrado um bom desempenho em termos de precisão e flexibilidade,
destacou-se pela facilidade com que foi adaptado e ajustado sem o uso de bibliotecas pré-
definidas. A análise crítica dessas implementações reforçou a importância de entender os
fundamentos teóricos para ajustar e otimizar algoritmos conforme as necessidades espe-
cíficas de cada problema, consolidando os conceitos apresentados em sala de aula com as
práticas aplicadas no desenvolvimento de modelos do zero.