### prompt 1


Gere em python um algoritmo que observe os seguintes requisitos:
1. crie um algoritmo de naive bayes from scratch;
2. não utilize bibliotecas como scikit learn ou quaisquer outras que implementem tal algoritmo;
3. utilize quando necessário bibliotecas de manipulaçao de dados como Pandas e Numpy;
4. os atributos poderão ser tanto categóricos, como numéricos (inteiro e float);


### Resposta ao prompt 1

Para implementar o Naïve Bayes do zero, vamos considerar o cenário de
classificação, onde o algoritmo utiliza o teorema de Bayes para calcular
a probabilidade de uma amostra pertencer a uma determinada classe com
base nos atributos fornecidos.

Passos para a implementação do Naïve Bayes: Treinamento:

Calcular a probabilidade a priori para cada classe com base na
distribuição de classes no conjunto de treinamento. Para cada atributo,
calcular a probabilidade condicional (P(atributo\|classe)) assumindo que
os atributos são independentes (suposição ingênua). Classificação:

Para uma amostra desconhecida, calcular a probabilidade para cada classe
usando as probabilidades calculadas no treinamento. Atribuir à classe
com a maior probabilidade. Exemplo de código em Python (usando numpy):




In [1]:
import numpy as np

class NaiveBayes: def **init**(self): self.classes = None self.mean =
None self.var = None self.priors = None

    def fit(self, X, y):
        # Número de classes e inicialização de parâmetros
        n_samples, n_features = X.shape
        self.classes = np.unique(y)
        n_classes = len(self.classes)
        
        # Inicialização de variáveis para armazenar as médias, variâncias e probabilidades a priori
        self.mean = np.zeros((n_classes, n_features), dtype=np.float64)
        self.var = np.zeros((n_classes, n_features), dtype=np.float64)
        self.priors = np.zeros(n_classes, dtype=np.float64)
        
        for idx, c in enumerate(self.classes):
            X_c = X[y == c]
            self.mean[idx, :] = X_c.mean(axis=0)
            self.var[idx, :] = X_c.var(axis=0)
            self.priors[idx] = X_c.shape[0] / float(n_samples)

    def _gaussian_density(self, class_idx, x):
        mean = self.mean[class_idx]
        var = self.var[class_idx]
        numerator = np.exp(- (x - mean) ** 2 / (2 * var))
        denominator = np.sqrt(2 * np.pi * var)
        return numerator / denominator

    def _predict(self, x):
        posteriors = []

        for idx, c in enumerate(self.classes):
            prior = np.log(self.priors[idx])
            posterior = np.sum(np.log(self._gaussian_density(idx, x)))
            posterior = prior + posterior
            posteriors.append(posterior)

        return self.classes[np.argmax(posteriors)]

    def predict(self, X):
        return np.array([self._predict(x) for x in X])



Essa abordagem “from scratch” cumpre o objetivo do exercício ao focar em
cálculos manuais de probabilidades e suposições do teorema de Bayes, sem
recorrer a bibliotecas com funções prontas.



### prompt 2

use o dataset titanic.csv


### Resposta prompt 2

In [2]:
import numpy as np import pandas as pd from sklearn.model_selection
import train_test_split from sklearn.metrics import accuracy_score


# Classe Naive Bayes implementada anteriormente

class NaiveBayes: def **init**(self): self.classes = None self.mean =
None self.var = None self.priors = None

    def fit(self, X, y):
        n_samples, n_features = X.shape
        self.classes = np.unique(y)
        n_classes = len(self.classes)
        
        self.mean = np.zeros((n_classes, n_features), dtype=np.float64)
        self.var = np.zeros((n_classes, n_features), dtype=np.float64)
        self.priors = np.zeros(n_classes, dtype=np.float64)
        
        for idx, c in enumerate(self.classes):
            X_c = X[y == c]
            self.mean[idx, :] = X_c.mean(axis=0)
            self.var[idx, :] = X_c.var(axis=0)
            self.priors[idx] = X_c.shape[0] / float(n_samples)

    def _gaussian_density(self, class_idx, x):
        mean = self.mean[class_idx]
        var = self.var[class_idx]
        numerator = np.exp(- (x - mean) ** 2 / (2 * var))
        denominator = np.sqrt(2 * np.pi * var)
        return numerator / denominator

    def _predict(self, x):
        posteriors = []

        for idx, c in enumerate(self.classes):
            prior = np.log(self.priors[idx])
            posterior = np.sum(np.log(self._gaussian_density(idx, x)))
            posterior = prior + posterior
            posteriors.append(posterior)

        return self.classes[np.argmax(posteriors)]

    def predict(self, X):
        return np.array([self._predict(x) for x in X])

# Carregar dataset Titanic

df = pd.read_csv(‘titanic.csv’)

# Pré-processamento dos dados

# Remover colunas irrelevantes e tratar valores faltantes

df = df\[\[‘Survived’, ‘Pclass’, ‘Age’, ‘SibSp’, ‘Parch’, ‘Fare’,
‘Sex’\]\] \# Selecionar colunas de interesse df\[‘Sex’\] =
df\[‘Sex’\].apply(lambda x: 1 if x == ‘male’ else 0) \# Converter ‘Sex’
para valores binários df\[‘Age’\].fillna(df\[‘Age’\].mean(),
inplace=True) \# Preencher valores faltantes em ‘Age’ com a média

# Dividir em features (X) e target (y)

X = df.drop(‘Survived’, axis=1).values y = df\[‘Survived’\].values

# Dividir o dataset em treino e teste

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,
random_state=42)

# Instanciar o classificador Naive Bayes

nb = NaiveBayes()

# Treinar o modelo

nb.fit(X_train, y_train)

# Fazer previsões no conjunto de teste

y_pred = nb.predict(X_test)

# Avaliar o modelo

accuracy = accuracy_score(y_test, y_pred) print(f’Acurácia:
{accuracy:.4f}’)


### prompt 3
faça com cross validation


### Resposta ao prompt 3

In [3]:
import numpy as np

import numpy as np import pandas as pd from sklearn.model_selection
import train_test_split from sklearn.metrics import accuracy_score

class NaiveBayes: def **init**(self): self.classes = None self.mean =
None self.var = None self.priors = None

    def fit(self, X, y):
        n_samples, n_features = X.shape
        self.classes = np.unique(y)
        n_classes = len(self.classes)
        
        self.mean = np.zeros((n_classes, n_features), dtype=np.float64)
        self.var = np.zeros((n_classes, n_features), dtype=np.float64)
        self.priors = np.zeros(n_classes, dtype=np.float64)
        
        for idx, c in enumerate(self.classes):
            X_c = X[y == c]
            self.mean[idx, :] = X_c.mean(axis=0)
            self.var[idx, :] = X_c.var(axis=0)
            self.priors[idx] = X_c.shape[0] / float(n_samples)

    def _gaussian_density(self, class_idx, x):
        mean = self.mean[class_idx]
        var = self.var[class_idx]
        numerator = np.exp(- (x - mean) ** 2 / (2 * var))
        denominator = np.sqrt(2 * np.pi * var)
        return numerator / denominator

    def _predict(self, x):
        posteriors = []

        for idx, c in enumerate(self.classes):
            prior = np.log(self.priors[idx])
            posterior = np.sum(np.log(self._gaussian_density(idx, x)))
            posterior = prior + posterior
            posteriors.append(posterior)

        return self.classes[np.argmax(posteriors)]

    def predict(self, X):
        return np.array([self._predict(x) for x in X])

# Função de cross-validation k-fold

def cross_validation(modelo, X, y, k=5): fold_size = len(y) // k indices
= np.arange(len(y)) np.random.shuffle(indices)

    scores = []

    for i in range(k):
        test_indices = indices[i * fold_size: (i + 1) * fold_size]
        train_indices = np.concatenate([indices[j * fold_size: (j + 1) * fold_size] for j in range(k) if j != i])

        X_train, X_test = X[train_indices], X[test_indices]
        y_train, y_test = y[train_indices], y[test_indices]

        modelo.fit(X_train, y_train)
        y_pred = modelo.predict(X_test)

        acc = accuracy_score(y_test, y_pred)
        scores.append(acc)
        print(f"Fold {i + 1} Acurácia: {acc:.4f}")

    avg_score = np.mean(scores)
    print(f"Média da acurácia após {k} folds: {avg_score:.4f}")
    return avg_score

# Carregar dataset Titanic

df = pd.read_csv(‘titanic.csv’)

# Pré-processamento dos dados

df = df\[\[‘Survived’, ‘Pclass’, ‘Age’, ‘SibSp’, ‘Parch’, ‘Fare’,
‘Sex’\]\] df\[‘Sex’\] = df\[‘Sex’\].apply(lambda x: 1 if x == ‘male’
else 0) df\[‘Age’\].fillna(df\[‘Age’\].mean(), inplace=True)

# Dividir em features (X) e target (y)

X = df.drop(‘Survived’, axis=1).values y = df\[‘Survived’\].values

# Instanciar o classificador Naive Bayes

nb = NaiveBayes()

# Executar k-fold cross-validation

cross_validation(nb, X, y, k=5)

Explicação das Alterações: Função cross_validation:


## Prompt 4
faça sem scikit learn


### Resposta ao Prompt 4


In [4]:
import numpy as np import pandas as pd

class NaiveBayes: def **init**(self): self.classes = None self.mean =
None self.var = None self.priors = None

    def fit(self, X, y):
        n_samples, n_features = X.shape
        self.classes = np.unique(y)
        n_classes = len(self.classes)
        
        self.mean = np.zeros((n_classes, n_features), dtype=np.float64)
        self.var = np.zeros((n_classes, n_features), dtype=np.float64)
        self.priors = np.zeros(n_classes, dtype=np.float64)
        
        for idx, c in enumerate(self.classes):
            X_c = X[y == c]
            self.mean[idx, :] = X_c.mean(axis=0)
            self.var[idx, :] = X_c.var(axis=0)
            self.priors[idx] = X_c.shape[0] / float(n_samples)

    def _gaussian_density(self, class_idx, x):
        mean = self.mean[class_idx]
        var = self.var[class_idx]
        numerator = np.exp(- (x - mean) ** 2 / (2 * var))
        denominator = np.sqrt(2 * np.pi * var)
        return numerator / denominator

    def _predict(self, x):
        posteriors = []

        for idx, c in enumerate(self.classes):
            prior = np.log(self.priors[idx])
            posterior = np.sum(np.log(self._gaussian_density(idx, x)))
            posterior = prior + posterior
            posteriors.append(posterior)

        return self.classes[np.argmax(posteriors)]

    def predict(self, X):
        return np.array([self._predict(x) for x in X])

# Carregar dataset Titanic

df = pd.read_csv(‘titanic.csv’)

# Pré-processamento dos dados

df = df\[\[‘Survived’, ‘Pclass’, ‘Age’, ‘SibSp’, ‘Parch’, ‘Fare’,
‘Sex’\]\] df\[‘Sex’\] = df\[‘Sex’\].apply(lambda x: 1 if x == ‘male’
else 0) df\[‘Age’\].fillna(df\[‘Age’\].mean(), inplace=True)

# Dividir em features (X) e target (y)

X = df.drop(‘Survived’, axis=1).values y = df\[‘Survived’\].values

# Função de k-fold cross-validation

def cross_validation(model, X, y, k=5): fold_size = len(y) // k indices
= np.arange(len(y)) np.random.shuffle(indices)

    scores = []

    for i in range(k):
        test_indices = indices[i * fold_size: (i + 1) * fold_size]
        train_indices = np.concatenate((indices[:i * fold_size], indices[(i + 1) * fold_size:]))
        
        X_train, X_test = X[train_indices], X[test_indices]
        y_train, y_test = y[train_indices], y[test_indices]

        model.fit(X_train, y_train)
        y_pred = model.predict(X_test)
        
        accuracy = np.mean(y_pred == y_test)
        scores.append(accuracy)
        print(f'Fold {i+1} Acurácia: {accuracy:.4f}')

    avg_score = np.mean(scores)
    print(f'Média da acurácia após {k} folds: {avg_score:.4f}')
    return avg_score

# Executar k-fold cross-validation

nb = NaiveBayes() cross_validation(nb, X, y, k=5)


### prompt 5:
avaliação de seus resultados com matriz de confusão, acurácia,
recall, precisão e f1-score.
resposta ao prompt 5:


In [5]:
def imprime_dict(dict_instance:dict, metrica:str)->None:
    print(f"métrica: {metrica}")
    for key,value in dict_instance.items():
        print(f"rótulo: {key}, pontuação: {value}")
    return
def pre_processing_titanic(df:pd.DataFrame)->pd.DataFrame:
    df = df.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1)
    # Handle missing values
    df['Age'].fillna(df['Age'].median(), inplace=True)
    df['Embarked'].fillna(df['Embarked'].mode()[0], inplace=True)
    df['Fare'].fillna(df['Fare'].median(), inplace=True)
    # Feature engineering
    df['FamilySize'] = df['SibSp'] + df['Parch'] + 1
    df['IsAlone'] = (df['FamilySize'] == 1).astype(int)
    return df
def main()->None:
    df : pd.DataFrame = pd.read_csv("titanic.csv")
    tree : DecisionTree = DecisionTree(max_depth=5)
    # Remove unnecessary columns
    df = pre_processing_titanic(df)
    # Prepare features and target
    X = df.drop('Survived', axis=1)
    y = df['Survived']
    tree.fit(X,y)
    predictions = tree.predict(X)
    print(predictions)
    conf_matrix_df : pd.DataFrame = confusion_matrix(y,predictions)
    accuracy_value : float = accuracy(conf_matrix=conf_matrix_df)
    recall_dict : dict = recall(conf_matrix=conf_matrix_df)
    precision_dict :dict = precision(conf_matrix=conf_matrix_df)
    f1_score_dict : dict = f1_score(conf_matrix=conf_matrix_df)
    print(f"matriz de confusão: {conf_matrix_df}")
    print(f"acurácia: {accuracy_value}")
    imprime_dict(recall_dict,"recall")
    imprime_dict(precision_dict,"precision")
    imprime_dict(f1_score_dict,"f1 score")
if __name__=='__main__':
    main()

## Análise crítica do código gerado: 

### pontos fortes
  - **completude**: a solução implementada pelo ChatGpt é bastante completa, já que possui todos os métodos necessários para se realizar uma avaliação básica em um conjunto de dados utilizando uma árvore de decisão;
  - **flexibilidade**: ao permitir que o usuário possa passar como argumento `max_depth` e `min_samples_split`, que representam respectivamente a profundidade máxima da árvore e a quantidade mínima de instâncias por nó, o algoritmo está dando alguma flexibilidade para casos particulares;


### pontos fracos
  - **divisões binárias** o método _best_split, que é utilizado para encontrar a melhor divisão possível, ou seja, encontrar qual a feature mais apropriada para realizar a divisão, tem algumas deficiências. Uma delas é que ele só consegue realizar divisões binárias, ou seja, no trecho `left_split = dataset[dataset[feature] <= value]` e `right_split = dataset[dataset[feature] > value]`, são criados apenas dois nó a partir do pai, o que pode ser uma solução sub-ótima, a depender da situação. Além disso, a comparação `dataset[feature] <= value` e `dataset[feature] > value`, também no método ` _best_split` não lida bem com atributos categóricos, afinal de contas, nem todo atributo categórico possui ordem (ordinal);
  - **sem mecanismo de poda**: não é implementado nenhum tipo de mecanismo de poda, o que pode deixar as previsões sujeitas a overfitting;
  - **não implementação de cross-validation**: não há na classe método que implemente a divisão dos dados utilizados para treino por cross-validation. Essa abordagem é importante, já que deixa os dados menos sujeitos a overfitting;

### sugestões de melhorias
  - a sugestão de melhoria mais evidente é a implementação de um algoritmo de cross-validation. Foi utilizado o seguinte prompt para tanto:
### Prompt 5
How do you suggest to implement, without the use of libraries like skitlearn, to implement the cross-validation mechanism?
### Resposta ao prompt 5
O algoritmo de cross-validation sugerido foi o seguinte:

In [None]:
def cross_validate(model, X, y, k=5):
    """
    Perform k-fold cross-validation on the given model.
    
    Args:
    model: An instance of the DecisionTree class
    X (pd.DataFrame): The feature dataset
    y (pd.Series or np.array): The target values
    k (int): The number of folds
    
    Returns:
    list: A list of accuracy scores for each fold
    """
    
    # Ensure y is a numpy array
    y = np.array(y)
    
    # Generate indices for the folds
    indices = np.arange(len(X))
    np.random.shuffle(indices)
    fold_sizes = np.full(k, len(X) // k, dtype=int)
    fold_sizes[:len(X) % k] += 1
    
    # Split indices into k folds
    current = 0
    folds = []
    for fold_size in fold_sizes:
        start, stop = current, current + fold_size
        folds.append(indices[start:stop])
        current = stop
    
    # Perform cross-validation
    scores = []
    for i in range(k):
        # Split data into train and test
        test_indices = folds[i]
        train_indices = np.concatenate([fold for j, fold in enumerate(folds) if j != i])
        
        X_train, X_test = X.iloc[train_indices], X.iloc[test_indices]
        y_train, y_test = y[train_indices], y[test_indices]
        
        # Train the model
        model.fit(X_train, y_train)
        
        # Make predictions and calculate accuracy
        y_pred = model.predict(X_test)
        accuracy = np.mean(y_pred == y_test)
        scores.append(accuracy)
    
    return scores