In [2]:
# Importação de Bibliotecas
import pandas as pd
import numpy as np
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import classification_report, confusion_matrix

# Configuração de visualização
pd.set_option('display.max_columns', None)
import warnings
warnings.filterwarnings('ignore')

# 1. Carregamento dos Dados
url_dados = "https://raw.githubusercontent.com/mwaskom/seaborn-data/master/titanic.csv"
df = pd.read_csv(url_dados)

# 2. Pré-processamento e Limpeza
# Remoção de colunas com alta cardinalidade de nulos ou redundantes
cols_to_drop = ['deck', 'embark_town', 'alive', 'class', 'who', 'adult_male']
df.drop(cols_to_drop, axis=1, inplace=True, errors='ignore')

# Imputação de valores nulos
df['age'] = df['age'].fillna(df['age'].median())
df['embarked'] = df['embarked'].fillna(df['embarked'].mode()[0])

# 3. Engenharia de Atributos (Feature Engineering)
# Aplicação de One-Hot Encoding para variáveis categóricas
df = pd.get_dummies(df, columns=['sex', 'embarked'], drop_first=True)

# Garantindo tipo inteiro para variáveis binárias
bool_cols = ['sex_male', 'embarked_Q', 'embarked_S', 'alone']
df[bool_cols] = df[bool_cols].astype(int)

# 4. Divisão de Dados (Train/Test Split)
X = df.drop('survived', axis=1)
y = df['survived']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# 5. Modelagem - Regressão Logística
model_lr = LogisticRegression(max_iter=1000)
model_lr.fit(X_train, y_train)
y_pred_lr = model_lr.predict(X_test)

# 6. Modelagem - Random Forest (Comparativo)
model_rf = RandomForestClassifier(n_estimators=100, random_state=42)
model_rf.fit(X_train, y_train)
y_pred_rf = model_rf.predict(X_test)

# 7. Avaliação de Desempenho
print("=== Performance: Regressão Logística ===")
print(classification_report(y_test, y_pred_lr))

print("\n=== Performance: Random Forest ===")
print(classification_report(y_test, y_pred_rf))

# 8. Simulação de Predição (Exemplo Prático)
# Passageiro fictício para teste de inferência
jack_data = {
    'pclass': [3], 'age': [20], 'sibsp': [0], 'parch': [0], 'fare': [7.50],
    'alone': [1], 'sex_male': [1], 'embarked_Q': [0], 'embarked_S': [1]
}
jack_df = pd.DataFrame(jack_data)
jack_pred = model_rf.predict(jack_df)[0]

result = "Sobreviveu" if jack_pred == 1 else "Não Sobreviveu"
print(f"\nPredição para o passageiro Jack: {result}")

=== Performance: Regressão Logística ===
              precision    recall  f1-score   support

           0       0.81      0.87      0.84       157
           1       0.79      0.72      0.75       111

    accuracy                           0.81       268
   macro avg       0.80      0.79      0.80       268
weighted avg       0.81      0.81      0.80       268


=== Performance: Random Forest ===
              precision    recall  f1-score   support

           0       0.80      0.82      0.81       157
           1       0.74      0.70      0.72       111

    accuracy                           0.77       268
   macro avg       0.77      0.76      0.76       268
weighted avg       0.77      0.77      0.77       268


Predição para o passageiro Jack: Não Sobreviveu
