# __NAIVE BAYES__

***
## _Prompts e Respostas_

` Prompt 1 : Necessito que crie um algoritmo para o método de aprendizado supervisionado Naive Bayes na linguagem Python (Jupyter Notebook)`

> Claro, vou criar um exemplo simples de implementação do algoritmo Naive Bayes em Python usando Jupyter Notebook. Vou implementar o algoritmo para classificação de texto, utilizando o pacote scikit-learn para facilitar o processo. Este exemplo será para classificação binária, mas pode ser facilmente estendido para classificação multiclasse.
>
> Primeiro, você precisa ter certeza de que tem o scikit-learn instalado. Se ainda não tiver, pode instalá-lo usando o pip: pip install scikit-learn

In [2]:
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report

# Dados de exemplo
texts = ["good movie", "bad movie", "not a good movie", "did not like", "liked it", "awesome movie"]

# Labels correspondentes (1 para positivo e 0 para negativo)
labels = [1, 0, 1, 0, 1, 1]

# Vetorização dos textos
vectorizer = CountVectorizer()
X = vectorizer.fit_transform(texts)

# Divisão dos dados em conjunto de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, labels, test_size=0.2, random_state=42)

# Criação do classificador Naive Bayes
clf = MultinomialNB()

# Treinamento do classificador
clf.fit(X_train, y_train)

# Predição nos dados de teste
y_pred = clf.predict(X_test)

# Avaliação do desempenho
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Classification Report:")
print(classification_report(y_test, y_pred))


Accuracy: 0.5
Classification Report:
              precision    recall  f1-score   support

           0       0.00      0.00      0.00         1
           1       0.50      1.00      0.67         1

    accuracy                           0.50         2
   macro avg       0.25      0.50      0.33         2
weighted avg       0.25      0.50      0.33         2



  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


> Este código cria um classificador Naive Bayes usando o modelo MultinomialNB do scikit-learn. Ele usa um vetorizador de contagem para converter os textos em vetores numéricos que o algoritmo pode entender. Depois, divide os dados em conjuntos de treinamento e teste, treina o modelo e avalia sua precisão usando a acurácia e o relatório de classificação.

***
`Prompt 2 : Preciso que me forneça avaliação de seus resultados com matriz de confusão, acurácia, recall, precisão e f1-score. E para isto utilize datasets do Penguins com o algoritmo Naive Bayes`

> Para usar o conjunto de dados de pinguins (penguins), precisaremos importar o conjunto de dados e ajustar o código anterior para usá-lo. Além disso, vamos calcular a matriz de confusão, a acurácia, o recall, a precisão e o F1-score para avaliar os resultados. Vamos lá:

In [3]:
import seaborn as sns
import pandas as pd
from sklearn.datasets import load_iris
from sklearn.naive_bayes import GaussianNB
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

# Carregar conjunto de dados de pinguins
penguins = sns.load_dataset("penguins")

# Remover linhas com valores ausentes
penguins = penguins.dropna()

# Converter variáveis categóricas em variáveis dummy
penguins = pd.get_dummies(penguins, drop_first=True)

# Separar variáveis independentes (features) e variável dependente (target)
X = penguins.drop('species_Chinstrap', axis=1)  # Chinstrap será nossa classe positiva
y = penguins['species_Chinstrap']

# Dividir os dados em conjunto de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Criação do classificador Naive Bayes
clf = GaussianNB()

# Treinamento do classificador
clf.fit(X_train, y_train)

# Predição nos dados de teste
y_pred = clf.predict(X_test)

# Avaliação do desempenho
print("Accuracy:", accuracy_score(y_test, y_pred))
print("Classification Report:")
print(classification_report(y_test, y_pred))

# Matriz de confusão
conf_matrix = confusion_matrix(y_test, y_pred)
print("Confusion Matrix:")
print(conf_matrix)


Accuracy: 0.8955223880597015
Classification Report:
              precision    recall  f1-score   support

       False       1.00      0.87      0.93        54
        True       0.65      1.00      0.79        13

    accuracy                           0.90        67
   macro avg       0.82      0.94      0.86        67
weighted avg       0.93      0.90      0.90        67

Confusion Matrix:
[[47  7]
 [ 0 13]]


> Neste exemplo, usamos o conjunto de dados de pinguins e removemos qualquer linha que contenha valores ausentes. Em seguida, convertemos as variáveis categóricas em variáveis dummy. Depois, dividimos os dados em conjunto de treinamento e teste.
>
>O modelo Naive Bayes usado aqui é o GaussianNB, que assume que as características seguem uma distribuição gaussiana.
>
>Finalmente, avaliamos o desempenho do modelo usando acurácia, recall, precisão, F1-score e matriz de confusão.

***
`Prompt 3 : Evite utilizar bibliotecas com implementações prontas (como o scikit-learn) e busque utilizar somente auxiliares para a computação vetorial (por exemplo, numpy)`

> Entendi, podemos implementar um classificador Naive Bayes do zero usando apenas o numpy para computação vetorial. Vou adaptar o exemplo anterior para atender a essa exigência:

In [5]:
import numpy as np
import pandas as pd

def train_naive_bayes(X_train, y_train):
    # Separar dados por classe
    separated = {}
    for i in range(len(X_train)):
        if y_train[i] not in separated:
            separated[y_train[i]] = []
        separated[y_train[i]].append(X_train[i])

    # Calcular médias e desvios padrão para cada classe e feature
    summaries = {}
    for class_value, instances in separated.items():
        summaries[class_value] = [(np.mean(feature), np.std(feature)) for feature in zip(*instances)]

    return summaries

def calculate_probability(x, mean, stdev):
    exponent = np.exp(-((x - mean) ** 2 / (2 * stdev ** 2)))
    return (1 / (np.sqrt(2 * np.pi) * stdev)) * exponent

def predict(summaries, input_vector):
    probabilities = {}
    for class_value, class_summaries in summaries.items():
        probabilities[class_value] = 1
        for i in range(len(class_summaries)):
            mean, stdev = class_summaries[i]
            x = input_vector[i]
            probabilities[class_value] *= calculate_probability(x, mean, stdev)
    return max(probabilities, key=probabilities.get)

def accuracy(y_true, y_pred):
    correct = 0
    for i in range(len(y_true)):
        if y_true[i] == y_pred[i]:
            correct += 1
    return correct / float(len(y_true))

# Carregar conjunto de dados de pinguins
penguins = sns.load_dataset("penguins")

# Remover linhas com valores ausentes
penguins = penguins.dropna()

# Converter variáveis categóricas em variáveis dummy
penguins = pd.get_dummies(penguins, drop_first=True)

# Separar variáveis independentes (features) e variável dependente (target)
X = penguins.drop('species_Chinstrap', axis=1)  # Chinstrap será nossa classe positiva
y = penguins['species_Chinstrap']

# Dividir os dados em conjunto de treinamento e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Treinar modelo
model = train_naive_bayes(X_train.to_numpy(), y_train.to_numpy())

# Fazer previsões
predictions = []
for i in range(len(X_test)):
    result = predict(model, X_test.iloc[i].to_numpy())
    predictions.append(result)

# Avaliar o modelo
acc = accuracy(y_test.to_numpy(), predictions)
print("Accuracy:", acc)


Accuracy: 0.8059701492537313


  exponent = np.exp(-((x - mean) ** 2 / (2 * stdev ** 2)))
  return (1 / (np.sqrt(2 * np.pi) * stdev)) * exponent
  exponent = np.exp(-((x - mean) ** 2 / (2 * stdev ** 2)))
  return (1 / (np.sqrt(2 * np.pi) * stdev)) * exponent


> Neste código, implementamos o algoritmo Naive Bayes do zero. Começamos definindo funções para treinar o modelo, calcular probabilidades, fazer previsões e calcular a acurácia. Em seguida, carregamos o conjunto de dados de pinguins, processamos e dividimos em conjunto de treinamento e teste. Então, treinamos o modelo usando o conjunto de treinamento e fazemos previsões com o conjunto de teste. Por fim, avaliamos a acurácia do modelo.

***
`Prompt 4 : Necessito que avalie os resultados com matriz de confusão, acurácia, recall, precisão e f1-score`

> Entendi, para calcular a matriz de confusão, acurácia, recall, precisão e F1-score, podemos estender a implementação do algoritmo Naive Bayes. Vou adicionar essas métricas ao código anterior:

In [6]:
def confusion_matrix(y_true, y_pred):
    classes = np.unique(np.concatenate((y_true, y_pred)))
    matrix = np.zeros((len(classes), len(classes)))
    for i in range(len(classes)):
        for j in range(len(classes)):
            matrix[i,j] = np.sum((y_true == classes[i]) & (y_pred == classes[j]))
    return matrix

def precision_recall_f1(y_true, y_pred):
    cm = confusion_matrix(y_true, y_pred)
    tp = np.diag(cm)
    fp = np.sum(cm, axis=0) - tp
    fn = np.sum(cm, axis=1) - tp

    precision = tp / (tp + fp)
    recall = tp / (tp + fn)
    f1 = 2 * precision * recall / (precision + recall)

    return precision, recall, f1

# Fazer previsões
predictions = []
for i in range(len(X_test)):
    result = predict(model, X_test.iloc[i].to_numpy())
    predictions.append(result)

# Avaliar o modelo
cm = confusion_matrix(y_test.to_numpy(), np.array(predictions))
acc = accuracy(y_test.to_numpy(), np.array(predictions))
precision, recall, f1 = precision_recall_f1(y_test.to_numpy(), np.array(predictions))

print("Confusion Matrix:")
print(cm)
print("Accuracy:", acc)
print("Precision:", np.mean(precision))
print("Recall:", np.mean(recall))
print("F1-score:", np.mean(f1))


Confusion Matrix:
[[54.  0.]
 [13.  0.]]
Accuracy: 0.8059701492537313
Precision: nan
Recall: 0.5
F1-score: nan


  exponent = np.exp(-((x - mean) ** 2 / (2 * stdev ** 2)))
  return (1 / (np.sqrt(2 * np.pi) * stdev)) * exponent
  exponent = np.exp(-((x - mean) ** 2 / (2 * stdev ** 2)))
  return (1 / (np.sqrt(2 * np.pi) * stdev)) * exponent
  precision = tp / (tp + fp)


> Agora, após fazer previsões com o modelo, calculamos a matriz de confusão, acurácia, precisão, recall e F1-score usando as funções definidas anteriormente. Essas métricas nos darão uma visão mais completa do desempenho do modelo Naive Bayes.

***
## _Aplicando o Código_

***
## _Análise e Considerações_