# Aprendizado de Máquina Trabalho 1

Estudantes: Vitor Hugo Garcez, Gabriel Velloso, Bruno Battesini, Larissa Esteves e Nicolas Pietro

# Introdução
___
Este trabalho se propõe a avaliar os resultados alcançados pelo modelo de linguagem ChatGPT, desenvolvido pela OpenAI, ao criar algoritmos para três dos métodos de aprendizado supervisionado amplamente estudados em aula: k-Nearest Neighbors (kNN), Naïve Bayes e Árvores de Decisão. Nosso objetivo principal é analisar não apenas a eficácia dos algoritmos desenvolvidos pelo ChatGPT, mas também a adequação dos prompts utilizados para interagir com o modelo e as escolhas de projeto feitas pelo próprio modelo.

Nossa abordagem enfatiza a implementação "from scratch" desses algoritmos, desafiando o ChatGPT a criar implementações sem depender de bibliotecas com implementações prontas, como o scikit-learn. Para realizar esse experimento, utilizaremos bibliotecas auxiliares, como o NumPy, para computação vetorial, garantindo que o processo de construção dos algoritmos seja controlado e transparente.

É importante destacar que, além de desenvolver os algoritmos, este trabalho também avaliará a capacidade do ChatGPT em criar prompts adequados para gerar resultados precisos e úteis. A análise crítica dos resultados gerados pelo ChatGPT desempenha um papel fundamental, permitindo-nos identificar pontos fortes, potenciais problemas e diferenças em relação às implementações discutidas em sala de aula. Além disso, exploraremos as escolhas de projeto feitas pelo ChatGPT e seu impacto na implementação dos algoritmos, oferecendo sugestões de melhorias e refinamentos.

# Desenvolvimento
___
Esta seção aborda a construção dos três modelos de aprendizado de máquina e sua performance. Para garantir uma comparação justa, optamos por utilizar o mesmo conjunto de dados referente aos pinguins. O objetivo dos modelos é aprender os atributos e classificar o sexo dos pinguins. Todos os prompts utilizados na criação dos algoritmos foram formulados em língua inglesa, uma vez que é sabido que o ChatGPT desenvolvido pela OpenAI interpreta melhor os comandos nesse idioma.

## _Dataset_

O grupo optou por utilizar um conjunto de dados sobre pinguins do Kaggle devido à sua descrição clara e à presença de uma distribuição equilibrada de 50% para ambos os atributos alvo: _FEMALE_ (fêmea) e _MALE_ (macho). O conjunto de dados inclui os seguintes atributos: espécie, comprimento do culmen, profundidade do culmen, comprimento da nadadeira, massa corporal, ilha de residência e sexo. Na etapa de engenharia de atributos, optamos por mapear as variáveis categóricas, como sexo, ilha e espécie, para os valores 0, 1 e 2, a fim de permitir que os modelos lidem apenas com variáveis numéricas, eliminando a necessidade de qualquer tipo de tratamento adicional.

Para facilitar a separação do conjunto de dados entre treino e teste, solicitamos ao ChatGPT a implementação do método holdout usando o comando _`Write a train_test_split function`_. A implementação exigiu uma adaptação para o pandas dataframe com o comando _`I'm using a pandas dataframe`_, uma vez que o uso dessa biblioteca simplifica a leitura e a manipulação dos dados para o grupo.

## Métricas
As métricas utilizadas para a comparação dos modelos desenvolvidos pelo ChatGPT foram acurácia, recall, precisão e pontuação F1. Os métodos foram implementados a partir do comando _`Without using scikit-learn, write a way to calculate accuracy, recall, precision, and F1 score`_, e não foi necessário realizar nenhuma alteração adicional, pois as implementações funcionaram bem com todos os modelos.

## _K-Nearest Neighbors_

O algoritmo k-Nearest Neighbors (KNN) foi desenvolvido a partir do comando _`Without using scikit-learn, write a KNN algorithm`_. O ChatGPT foi capaz de gerar quase que integralmente uma classe para o KNN. A única modificação necessária foi uma adaptação para tornar os métodos públicos _predict_ e privado _ _predict_ compatíveis com o pandas dataframe, uma vez que essa biblioteca facilita a manipulação de dados para o grupo. A implementação foi realizada com a função de distância euclidiana, sem a opção de utilizar outras como a gaussiana ou a distância do cosseno.

## Naïve Bayes

O algoritmo Naïve Bayes foi desenvolvido a partir do comando _`Write a Naïve Bayes algorithm without using scikit-learn`_. Curiosamente, o ChatGPT não criou uma classe para a implementação, em vez disso, foram desenvolvidos todos os métodos separadamente. O ChatGPT manteve o mesmo padrão de desenvolvimento mencionado na seção _K-Nearest Neighbors_ e optou por utilizar apenas uma função de cálculo fixa para o modelo, que foi a gaussiana. Da mesma forma que na seção anterior, foi necessário solicitar que as funções fossem adaptadas para suportar o pandas dataframe.

## Árvores de Decisão

A implementação da árvore de decisão foi considerada a mais complexa, pois envolve métodos recursivos durante o treinamento. Devido à complexidade da classe, foi necessário refazer diversas vezes os métodos _fit, predict_, e _predict_single_ para que conseguíssemos executar o programa. A classe foi gerada a partir do comando _`Write a decision tree classifier without using scikit-learn`_, e também foi necessário adaptar todos os métodos para que pudessem suportar o pandas dataframe.

# Conclusão
___

Em resumo, este experimento demonstrou que o ChatGPT foi capaz de implementar com sucesso os modelos _K Nearest Neighbors, Gaussian Naïve Bayes e Decision Tree_. Embora a implementação inicial não tenha sido perfeita, com algumas correções foi possível fazer com que todos os modelos alcançassem uma performance superior a 70%. A tabela abaixo apresenta uma comparação de resultados entre os modelos _K Nearest Neighbors, Gaussian Naïve Bayes e Decision Tree_:

|_Model_|_Accuracy_|_Precision_|_recall_|_F1 Score_|
|:-----:|:---------|:---------:|:------:|:--------:|
|_K-Nearest Neighbors_|0.82|0.85|0.81|0.83|
|_Gaussian Naive Bayes_|0.70|0.74|0.69|0.71|
|_Decision Tree_|0.83|0.86|0.83|0.85|

Observamos que, para o conjunto de dados em questão, o melhor desempenho foi obtido com o modelo de Árvore de Decisão. Isso se deve ao fato de que as árvores de decisão podem capturar relações não lineares nos dados de forma mais eficaz do que o Naive Bayes, que assume independência condicional entre os atributos, e são robustas em relação a outliers e dados ruidosos, uma vez que a divisão dos nós é baseada em limiares e frequências relativas.


In [1]:
###############################################
#                   imports                   #
###############################################
import pandas as pd
import numpy as np

In [22]:
###############################################
#                   Dataset                   #
###############################################

# Read the CSV file into a DataFrame: df
df = pd.read_csv('penguins_size.csv')

# Define the mapping
species_mapping = {'Adelie': 0, 'Chinstrap': 1, 'Gentoo': 2}
island_mapping = {'Torgersen': 0, 'Biscoe': 1, 'Dream': 2}
sex_mapping = {'MALE': 0, 'FEMALE': 1}

# Map the values in the 'species' column
df['species'] = df['species'].map(species_mapping)
df['island'] = df['island'].map(island_mapping)
df['sex'] = df['sex'].map(sex_mapping)

# Removing NaN values
mask = df['sex'].isin([0, 1])
df = df[mask]

In [15]:
###############################################
#              Metrics and Hodout             #
###############################################

def calculate_accuracy(y_true, y_pred):
    correct_predictions = np.sum(y_true.values == y_pred)
    total_predictions = len(y_true)
    accuracy = correct_predictions / total_predictions
    return accuracy

def calculate_precision(y_true, y_pred, positive_class):
    true_positives = np.sum((y_true.values == positive_class) & (y_pred == positive_class))
    false_positives = np.sum((y_true.values != positive_class) & (y_pred == positive_class))
    precision = true_positives / (true_positives + false_positives)
    return precision

def calculate_recall(y_true, y_pred, positive_class):
    true_positives = np.sum((y_true.values == positive_class) & (y_pred == positive_class))
    false_negatives = np.sum((y_true.values == positive_class) & (y_pred != positive_class))
    recall = true_positives / (true_positives + false_negatives)
    return recall

def calculate_f1_score(y_true, y_pred, positive_class):
    precision = calculate_precision(y_true, y_pred, positive_class)
    recall = calculate_recall(y_true, y_pred, positive_class)
    f1_score = 2 * (precision * recall) / (precision + recall)
    return f1_score

def train_test_split_df(df, target_column, test_size=0.3, random_seed=None):
    """
    Split a Pandas DataFrame into training and testing sets.

    Parameters:
    - df: The Pandas DataFrame containing your data.
    - target_column: The name of the target column in the DataFrame.
    - test_size: The proportion of the dataset to include in the test split (default is 0.3).
    - random_seed: Seed for random number generation (optional).

    Returns:
    - X_train: The training feature DataFrame.
    - X_test: The testing feature DataFrame.
    - y_train: The training target Series.
    - y_test: The testing target Series.
    """
    if random_seed is not None:
        np.random.seed(random_seed)

    num_samples = len(df)
    num_test_samples = int(test_size * num_samples)

    # Shuffle the indices to randomize the data split
    shuffled_indices = np.random.permutation(num_samples)

    # Split the data
    test_indices = shuffled_indices[:num_test_samples]
    train_indices = shuffled_indices[num_test_samples:]

    X = df.drop(columns=[target_column])
    y = df[target_column]

    X_train = X.iloc[train_indices]
    X_test = X.iloc[test_indices]
    y_train = y.iloc[train_indices]
    y_test = y.iloc[test_indices]

    return X_train, X_test, y_train, y_test

# Example usage:
"""
X_train, X_test, y_train, y_test = train_test_split_df(df, target_column='sex', test_size=0.2, random_seed=42)
accuracy = calculate_accuracy(y_true, y_pred)
precision = calculate_precision(y_true, y_pred, positive_class=1)
recall = calculate_recall(y_true, y_pred, positive_class=1)
f1_score = calculate_f1_score(y_true, y_pred, positive_class=1)

print(f"Accuracy: {accuracy}")
print(f"Precision: {precision}")
print(f"Recall: {recall}")
print(f"F1 Score: {f1_score}")
"""

'\nX_train, X_test, y_train, y_test = train_test_split_df(df, target_column=\'sex\', test_size=0.2, random_seed=42)\naccuracy = calculate_accuracy(y_true, y_pred)\nprecision = calculate_precision(y_true, y_pred, positive_class=1)\nrecall = calculate_recall(y_true, y_pred, positive_class=1)\nf1_score = calculate_f1_score(y_true, y_pred, positive_class=1)\n\nprint(f"Accuracy: {accuracy}")\nprint(f"Precision: {precision}")\nprint(f"Recall: {recall}")\nprint(f"F1 Score: {f1_score}")\n'

In [16]:
###############################################
#             K-Nearest Neighbors             #
###############################################

class KNN:
    def __init__(self, k=3):
        self.k = k

    def fit(self, X, y):
        self.X_train = X
        self.y_train = y

    def euclidean_distance(self, x1, x2):
        return np.sqrt(np.sum((x1 - x2) ** 2))

    def predict(self, X):
        y_pred = [self._predict(x) for x in X.values]
        return pd.Series(y_pred, index=X.index)  # Return predictions as a Pandas Series

    def _predict(self, x):
        # Compute distances between x and all examples in the training set
        distances = [self.euclidean_distance(x, x_train) for x_train in self.X_train.values]
        # Sort by distance and return indices of the first k neighbors
        k_indices = np.argsort(distances)[:self.k]
        # Extract the labels of the k nearest neighbor training samples
        k_nearest_labels = [self.y_train.iloc[i] for i in k_indices]
        # Return the most common class label
        most_common = pd.Series(k_nearest_labels).mode().values[0]  # Handle ties
        return most_common

In [17]:
###############################################
#            Gaussian Naive Bayes             #
###############################################

def calculate_mean_std(X):
    # Calculate mean and standard deviation for each feature in X
    means = X.mean(axis=0)
    stds = X.std(axis=0)
    
    return means, stds

def gaussian_probability(x, mean, std):
    # Calculate the Gaussian probability density function
    exponent = np.exp(-((x - mean) ** 2) / (2 * std ** 2))
    return (1 / (std * np.sqrt(2 * np.pi))) * exponent

def train_naive_bayes(X_train, y_train):
    # Calculate class priors
    unique_classes, class_counts = np.unique(y_train, return_counts=True)
    priors = class_counts / len(y_train)
    
    # Convert DataFrame to NumPy array
    X_train = X_train.values
    y_train = y_train.values
    
    # Calculate mean and standard deviation for each feature and class
    num_classes = len(unique_classes)
    num_features = X_train.shape[1]
    means = np.zeros((num_classes, num_features))
    stds = np.zeros((num_classes, num_features))
    
    for i, class_label in enumerate(unique_classes):
        class_data = X_train[y_train == class_label]
        means[i, :], stds[i, :] = calculate_mean_std(class_data)
    
    return priors, means, stds

def predict_naive_bayes(X_test, priors, means, stds):
    # Convert DataFrame to NumPy array
    X_test = X_test.values
    
    num_classes = len(priors)
    num_samples = X_test.shape[0]
    predictions = np.zeros((num_samples, num_classes))
    
    for i in range(num_samples):
        for j in range(num_classes):
            class_prior = np.log(priors[j])
            likelihood = np.sum(np.log(gaussian_probability(X_test[i, :], means[j, :], stds[j, :])))
            predictions[i, j] = class_prior + likelihood
    
    return np.argmax(predictions, axis=1)

In [18]:
###############################################
#                Decision Tree                #
###############################################

class DecisionTreeClassifier:
    def __init__(self, max_depth=None, min_samples_split=2):
        self.max_depth = max_depth
        self.min_samples_split = min_samples_split
        self.tree = None

    def fit(self, X, y, depth=0):
        # Check termination conditions
        if depth == self.max_depth or len(set(y)) == 1:
            return {'class': np.argmax(np.bincount(y))}
        
        # Find the best split
        feature, threshold = self.find_best_split(X, y)

        if feature is None:
            return {'class': np.argmax(np.bincount(y))}

        # Split the data
        left_mask = X[feature] <= threshold
        right_mask = X[feature] > threshold

        # Recursively build left and right subtrees
        left_subtree = self.fit(X[left_mask], y[left_mask], depth + 1)
        right_subtree = self.fit(X[right_mask], y[right_mask], depth + 1)

        self.tree = {'feature': feature, 'threshold': threshold, 'left': left_subtree, 'right': right_subtree}
        return self.tree  # Return the constructed tree

    def find_best_split(self, X, y):
        m, n = X.shape
        if m <= 1:
            return None, None

        num_classes = len(set(y))
        if num_classes == 1:
            return None, None

        gini_parent = 1.0 - sum((np.sum(y == c) / m) ** 2 for c in set(y))

        best_gini = 1.0
        best_feature = None
        best_threshold = None

        for feature in X.columns:
            thresholds = sorted(X[feature].unique())

            for i in range(1, len(thresholds)):
                threshold = (thresholds[i - 1] + thresholds[i]) / 2
                left_mask = X[feature] <= threshold
                right_mask = X[feature] > threshold

                if sum(left_mask) == 0 or sum(right_mask) == 0:
                    continue

                gini_left = 1.0 - sum((np.sum(y[left_mask] == c) / sum(left_mask)) ** 2 for c in set(y))
                gini_right = 1.0 - sum((np.sum(y[right_mask] == c) / sum(right_mask)) ** 2 for c in set(y))

                weighted_gini = (sum(left_mask) / m) * gini_left + (sum(right_mask) / m) * gini_right

                if weighted_gini < best_gini:
                    best_gini = weighted_gini
                    best_feature = feature
                    best_threshold = threshold

        return best_feature, best_threshold

    def predict(self, X):
        predictions = []
        for _, row in X.iterrows():
            predictions.append(self.predict_single(self.tree, row))
        return np.array(predictions)

    def predict_single(self, tree, x):
        if 'class' in tree:
            return tree['class']

        feature = tree.get('feature')
        if feature is None:
            # Handle the case where a leaf node is reached without a 'feature' key
            return tree.get('class')

        threshold = tree['threshold']
        left_subtree = tree['left']
        right_subtree = tree['right']

        if x[feature] <= threshold:
            return self.predict_single(left_subtree, x)
        else:
            return self.predict_single(right_subtree, x)

In [21]:
###############################################
#            Apprentices Committee            #
###############################################

# Split the data into train and test sets
X_train, X_test, y_train, y_test = train_test_split_df(df, 'sex', test_size=0.2, random_seed=42)

############# K-Nearest Neighbors #############

# Create KNN classifier
knn = KNN(k=3)
knn.fit(X_train, y_train)
# Make predictions
predictions = knn.predict(X_test)
predictions = np.array(predictions)

# Calculate metrics
accuracy = calculate_accuracy(y_test, predictions)
precision = calculate_precision(y_test, predictions, positive_class=1)
recall = calculate_recall(y_test, predictions, positive_class=1)
f1_score = calculate_f1_score(y_test, predictions, positive_class=1)

print('K-Nearest Neighbors')
print(f"Accuracy: {accuracy:.2f}")
print(f"Precision: {precision:.2f}")
print(f"Recall: {recall:.2f}")
print(f"F1 Score: {f1_score:.2f}")
############ Gaussian Naive Bayes #############

priors, means, stds = train_naive_bayes(X_train, y_train)
y_pred = predict_naive_bayes(X_test, priors, means, stds)

y_pred = np.array(y_pred)
accuracy = calculate_accuracy(y_test, y_pred)
precision = calculate_precision(y_test, y_pred, positive_class=1)
recall = calculate_recall(y_test, y_pred, positive_class=1)
f1_score = calculate_f1_score(y_test, y_pred, positive_class=1)

print('\nGaussian Naive Bayes')
print(f"Accuracy: {accuracy:.2f}")
print(f"Precision: {precision:.2f}")
print(f"Recall: {recall:.2f}")
print(f"F1 Score: {f1_score:.2f}")

############### Decision Tree #################

tree = DecisionTreeClassifier(max_depth=3)
tree.fit(X_train, y_train)
y_pred = tree.predict(X_test)

accuracy = calculate_accuracy(y_test, y_pred)
precision = calculate_precision(y_test, y_pred, positive_class=1)
recall = calculate_recall(y_test, y_pred, positive_class=1)
f1_score = calculate_f1_score(y_test, y_pred, positive_class=1)

print('\nDecision Tree Classifier')
print(f"Accuracy: {accuracy:.2f}")
print(f"Precision: {precision:.2f}")
print(f"Recall: {recall:.2f}")
print(f"F1 Score: {f1_score:.2f}")

K-Nearest Neighbors
Accuracy: 0.82
Precision: 0.85
Recall: 0.81
F1 Score: 0.83

Gaussian Naive Bayes
Accuracy: 0.70
Precision: 0.74
Recall: 0.69
F1 Score: 0.71

Decision Tree Classifier
Accuracy: 0.83
Precision: 0.86
Recall: 0.83
F1 Score: 0.85
