In [None]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report
import seaborn as sns
import matplotlib.pyplot as plt
import numpy as np
from IPython.display import HTML, display

# Cargar el conjunto de datos
file_path = '/Titanic-Dataset.csv'
titanic_data = pd.read_csv(file_path)

# Mostrar las primeras filas del conjunto de datos
titanic_data.head()

# Verificar valores faltantes y obtener un resumen del conjunto de datos
missing_values = titanic_data.isnull().sum()
summary = titanic_data.describe(include='all')

missing_values, summary

# Manejo de valores faltantes

# Imputar edades faltantes con la edad mediana
titanic_data['Age'].fillna(titanic_data['Age'].median(), inplace=True)

# Imputar valores faltantes de 'Embarked' con la moda (valor más común)
titanic_data['Embarked'].fillna(titanic_data['Embarked'].mode()[0], inplace=True)

# Eliminar la columna 'Cabin' debido a la gran cantidad de valores faltantes
titanic_data.drop(columns=['Cabin'], inplace=True)

# Ingeniería de características

# Convertir características categóricas ('Sex' y 'Embarked') en representaciones numéricas
titanic_data['Sex'] = titanic_data['Sex'].map({'male': 0, 'female': 1})
titanic_data = pd.get_dummies(titanic_data, columns=['Embarked'], drop_first=True)

# Crear una nueva característica 'FamilySize' combinando 'SibSp' y 'Parch'
titanic_data['FamilySize'] = titanic_data['SibSp'] + titanic_data['Parch']

# Eliminar columnas innecesarias
titanic_data.drop(columns=['Name', 'Ticket'], inplace=True)

# Mostrar las primeras filas del conjunto de datos limpio y con ingeniería de características
titanic_data.head()

# Definir características y objetivo
X = titanic_data.drop(columns=['Survived', 'PassengerId'])
y = titanic_data['Survived']

# Dividir los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Inicializar y entrenar el modelo de Regresión Logística
logreg = LogisticRegression(max_iter=200)
logreg.fit(X_train, y_train)

# Hacer predicciones en el conjunto de prueba
y_pred = logreg.predict(X_test)

# Evaluar el rendimiento del modelo
accuracy = accuracy_score(y_test, y_pred)
conf_matrix = confusion_matrix(y_test, y_pred)
class_report = classification_report(y_test, y_pred)

print("Precisión:", accuracy)
print("Matriz de Confusión:\n", conf_matrix)
print("Informe de Clasificación:\n", class_report)

# Visualización de resultados

# Matriz de confusión como HTML
conf_matrix_html = pd.DataFrame(conf_matrix, columns=['Predicted 0', 'Predicted 1'], index=['Actual 0', 'Actual 1']).to_html()

# Mostrar la matriz de confusión como HTML
display(HTML('<h2>Matriz de Confusión</h2>' + conf_matrix_html))

# Gráfico de barras para el F1-score por clase
class_f1_score = [class_report[str(i)]['f1-score'] for i in range(2)]
class_names = ['No Sobrevivió', 'Sobrevivió']
f1_score_df = pd.DataFrame({'Clase': class_names, 'F1-Score': class_f1_score})
f1_score_html = f1_score_df.to_html(index=False)

# Mostrar el gráfico de barras como HTML
display(HTML('<h2>F1-Score por Clase</h2>' + f1_score_html))

# Mostrar precisión del modelo
print(f"Precisión del modelo: {accuracy:.2f}")