# Análise do Dataset Titanic com Naïve Bayes

Neste notebook, utilizaremos o algoritmo Naïve Bayes para prever a sobrevivência dos passageiros do Titanic. Vamos seguir uma abordagem passo a passo para carregar o dataset, pré-processar os dados, treinar o modelo e avaliar os resultados.

# Prompt 1:
Descreva o processo de pré-processamento dos dados.

# Resposta ao Prompt 1:
O pré-processamento dos dados inclui as seguintes etapas:
- Carregamento do dataset Titanic.
- Seleção de colunas relevantes: `Survived`, `Pclass`, `Age`, `SibSp`, `Parch`, `Fare`, `Sex`.
- Transformação da coluna `Sex`: converter os valores para numéricos (1 para masculino e 0 para feminino).
- Tratamento de valores faltantes: preencher valores ausentes da coluna `Age` com a média da idade.


# Prompt 2:
Implemente o modelo Naïve Bayes e faça previsões.

# Resposta ao Prompt 2:
Vamos implementar o modelo Naïve Bayes:

```python
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.naive_bayes import GaussianNB

# Carregar dataset Titanic
df = pd.read_csv('titanic.csv')

# Pré-processamento dos dados
df = df[['Survived', 'Pclass', 'Age', 'SibSp', 'Parch', 'Fare', 'Sex']]
df['Sex'] = df['Sex'].apply(lambda x: 1 if x == 'male' else 0)
df['Age'].fillna(df['Age'].mean(), inplace=True)

# Dividir em variáveis independentes e dependentes
X = df[['Pclass', 'Age', 'SibSp', 'Parch', 'Fare', 'Sex']].values
y = df['Survived'].values

# Dividir o dataset em conjunto de treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Treinar o modelo Naïve Bayes
model = GaussianNB()
model.fit(X_train, y_train)

# Fazer previsões no conjunto de teste
y_pred = model.predict(X_test)

# Avaliar a precisão do modelo
accuracy = accuracy_score(y_test, y_pred)
print(f'Acurácia do modelo: {accuracy * 100:.2f}%')
```
Neste código, carregamos o dataset Titanic, processamos os dados removendo colunas irrelevantes e tratando valores faltantes. Em seguida, dividimos os dados em conjuntos de treino e teste, treinamos o modelo Naïve Bayes e avaliamos sua precisão utilizando a acurácia.


# Prompt 3:
Gere uma função que retorne a matriz de confusão.

# Resposta ao Prompt 3:
A matriz de confusão pode ser calculada a partir das previsões e dos rótulos reais. Vamos implementar essa função:

```python
def confusion_matrix(y_true, y_pred):
    classes = np.unique(y_true)
    matrix = np.zeros((len(classes), len(classes)), dtype=int)
    
    for true, pred in zip(y_true, y_pred):
        matrix[true, pred] += 1
    return matrix

# Uso da função de matriz de confusão
cm = confusion_matrix(y_test, y_pred)
print('Matriz de Confusão:')
print(cm)
```
Essa função cria uma matriz onde cada elemento (i, j) representa o número de previsões feitas para a classe i que pertencem à classe j. A matriz de confusão é uma ferramenta útil para avaliar o desempenho de um modelo de classificação.

# Prompt 4:
Gere funções para calcular acurácia, recall e precisão.

# Resposta ao Prompt 4:
Aqui estão as funções para calcular as métricas solicitadas:

```python
def accuracy(y_true, y_pred):
    return np.sum(y_true == y_pred) / len(y_true)

def precision(y_true, y_pred):
    tp = np.sum((y_true == 1) & (y_pred == 1))
    fp = np.sum((y_true == 0) & (y_pred == 1))
    return tp / (tp + fp) if (tp + fp) > 0 else 0

def recall(y_true, y_pred):
    tp = np.sum((y_true == 1) & (y_pred == 1))
    fn = np.sum((y_true == 1) & (y_pred == 0))
    return tp / (tp + fn) if (tp + fn) > 0 else 0

# Uso das funções de métricas
acc = accuracy(y_test, y_pred)
prec = precision(y_test, y_pred)
rec = recall(y_test, y_pred)

print(f'Acurácia: {acc * 100:.2f}%')
print(f'Precisão: {prec * 100:.2f}%')
print(f'Recall: {rec * 100:.2f}%')
```
Essas funções calculam as métricas de acurácia, precisão e recall, que são fundamentais para avaliar a performance de um modelo de classificação.

# Prompt 5:
Avaliação de seus resultados com matriz de confusão, acurácia, recall, precisão e f1-score.

# Resposta ao Prompt 5:
Agora, vamos implementar as funções para calcular a matriz de confusão e as métricas de avaliação:

```python
import numpy as np
import pandas as pd

# Definição da matriz de confusão
def confusion_matrix(y_true, y_pred, labels=None):
    if labels is None:
        labels = np.unique(y_true)

    matrix = pd.DataFrame(np.zeros((len(labels), len(labels)), dtype=int), index=labels, columns=labels)

    for true_label, predicted_label in zip(y_true, y_pred):
        matrix.at[true_label, predicted_label] += 1
    return matrix

# Cálculo de acurácia
def accuracy(conf_matrix) -> float:
    total_correct = np.trace(conf_matrix)  
    total_samples = conf_matrix.sum().sum()  
    return total_correct / total_samples

# Cálculo de precisão
def precision(conf_matrix: pd.DataFrame) -> dict:
    precisions = {}
    for label in conf_matrix.columns:
        true_positive = conf_matrix.at[label, label]  
        predicted_positive = conf_matrix[label].sum()  
        precisions[label] = true_positive / predicted_positive if predicted_positive > 0 else 0
    return precisions

# Cálculo de recall
def recall(conf_matrix: pd.DataFrame) -> dict:
    recalls = {}
    for label in conf_matrix.index:
        true_positive = conf_matrix.at[label, label]  
        actual_positive = conf_matrix.loc[label].sum()  
        recalls[label] = true_positive / actual_positive if actual_positive > 0 else 0
    return recalls

# Cálculo do F1 Score
def f1_score(conf_matrix: pd.DataFrame) -> dict:
    precisions = precision(conf_matrix)
    recalls = recall(conf_matrix)
    f1_scores = {}

    for label in conf_matrix.index:
        p = precisions[label]
        r = recalls[label]
        if (p + r) > 0:
            f1_scores[label] = 2 * (p * r) / (p + r)
        else:
            f1_scores[label] = 0

    return f1_scores

# Agora, vamos utilizar as funções na avaliação do modelo Naive Bayes

# Carregar dataset Titanic
df = pd.read_csv('titanic.csv')

# Pré-processamento dos dados
df = df[['Survived', 'Pclass', 'Age', 'SibSp', 'Parch', 'Fare', 'Sex']]
df['Sex'] = df['Sex'].apply(lambda x: 1 if x == 'male' else 0)
df['Age'].fillna(df['Age'].mean(), inplace=True)

# Dividir em features (X) e target (y)
X = df.drop('Survived', axis=1).values
y = df['Survived'].values

# Dividir o dataset em treino e teste
n_train = int(0.8 * len(X))
X_train, X_test = X[:n_train], X[n_train:]
y_train, y_test = y[:n_train], y[n_train:]

# Instanciar e treinar o modelo Naive Bayes
nb = NaiveBayes()
nb.fit(X_train, y_train)

# Fazer previsões no conjunto de teste
y_pred = nb.predict(X_test)

# Calcular a matriz de confusão
conf_matrix = confusion_matrix(y_test, y_pred)

# Avaliar o modelo
acc = accuracy(conf_matrix)
precisions = precision(conf_matrix)
recalls = recall(conf_matrix)
f1_scores = f1_score(conf_matrix)

# Exibir resultados
print(f'Acurácia: {acc:.4f}')
print('Precisão por classe:', precisions)
print('Recall por classe:', recalls)
print('F1 Score por classe:', f1_scores)
print('Matriz de confusão:')
print(conf_matrix)
```
Essas funções calculam a matriz de confusão, acurácia, precisão, recall e F1-score do modelo Naïve Bayes. A matriz de confusão fornece uma visão clara de como o modelo está performando em termos de verdadeiros positivos, falsos positivos, verdadeiros negativos e falsos negativos.


# Função de k-fold cross-validation
def cross_validation(model, X, y, k=5):
    fold_size = len(y) // k
    indices = np.arange(len(y))
    np.random.shuffle(indices)
    
    scores = []
    
    for i in range(k):
        test_indices = indices[i * fold_size: (i + 1) * fold_size]
        train_indices = np.concatenate((indices[:i * fold_size], indices[(i + 1) * fold_size:]))
        
        X_train, X_test = X[train_indices], X[test_indices]
        y_train, y_test = y[train_indices], y[test_indices]

        model.fit(X_train, y_train)
        y_pred = model.predict(X_test)
        
        # Calcular a matriz de confusão
        conf_matrix = confusion_matrix(y_test, y_pred)

        # Calcular métricas
        acc = accuracy(conf_matrix)
        precisions = precision(conf_matrix)
        recalls = recall(conf_matrix)
        f1_scores = f1_score(conf_matrix)

        scores.append(acc)
        
        # Exibir resultados
        print(f'Fold {i+1} Acurácia: {acc:.4f}')
        print('Matriz de Confusão:')
        print(conf_matrix)  # Imprimir a matriz de confusão
        print('Precisão por classe:', precisions)
        print('Recall por classe:', recalls)
        print('F1 Score por classe:', f1_scores)
    
    avg_score = np.mean(scores)
    print(f'Média da acurácia após {k} folds: {avg_score:.4f}')
    return avg_score
# Executar k-fold cross-validation
nb = NaiveBayes()
cross_validation(nb, X, y, k=5)

```
A função de validação cruzada k-fold divide os dados em `k` partes e, em cada iteração, utiliza uma parte como conjunto de teste e as restantes como conjunto de treinamento. Isso permite avaliar a performance do modelo de maneira mais robusta e confiável.
