In [None]:
### 🧪 Kit Prático – Semana 8: Introdução à Modelagem com Scikit-learn – Classificação
# Tema: Predição de sobrevivência com Regressão Logística
# Ferramenta: Google Colab
# Dataset: https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv

import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report

# Passo 1: Carregar os dados
df = pd.read_csv("https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv")

# Passo 2: Selecionar colunas relevantes
df_model = df[['Survived', 'Pclass', 'Sex', 'Age', 'Fare']].copy()

# Passo 3: Tratar valores ausentes
df_model['Age'].fillna(df_model['Age'].mean(), inplace=True)

# Passo 4: Codificar variável categórica 'Sex'
df_model['Sex'] = df_model['Sex'].map({'male': 0, 'female': 1})

# Passo 5: Separar variáveis independentes e alvo
X = df_model[['Pclass', 'Sex', 'Age', 'Fare']]
y = df_model['Survived']

# Passo 6: Dividir em treino e teste
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Passo 7: Treinar o modelo
modelo = LogisticRegression(max_iter=200)
modelo.fit(X_train, y_train)

# Passo 8: Fazer previsões
y_pred = modelo.predict(X_test)

# Passo 9: Avaliar o modelo
print("\n🎯 Acurácia:", accuracy_score(y_test, y_pred))
print("\n📊 Relatório de Classificação:\n")
print(classification_report(y_test, y_pred))

# DESAFIO EXTRA:
# Testar a acurácia de um modelo usando apenas 'Pclass' e 'Sex' como preditores.


In [None]:
# -------------------------------------------------------------------
# DESAFIO EXTRA:
# Testar a acurácia de um modelo usando apenas 'Pclass' e 'Sex' como preditores.
# -------------------------------------------------------------------

print("\n--- Modelo do Desafio Extra (apenas com 'Pclass' e 'Sex') ---")

X_desafio = df_model[['Pclass', 'Sex']]

X_train_desafio, X_test_desafio, y_train_desafio, y_test_desafio = train_test_split(
    X_desafio, y, test_size=0.2, random_state=42
)

modelo_desafio = LogisticRegression()
modelo_desafio.fit(X_train_desafio, y_train_desafio)

y_pred_desafio = modelo_desafio.predict(X_test_desafio)

print(f"\n🎯 Acurácia (Desafio): {accuracy_score(y_test_desafio, y_pred_desafio):.4f}")
print("\n📊 Relatório de Classificação (Desafio):\n")
print(classification_report(y_test_desafio, y_pred_desafio))