In [3]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.preprocessing import StandardScaler

# Cargar el dataset
df = pd.read_csv('/content/titanic-train.csv')

# Preprocesar datos
# Convertir la columna 'Sex' a numérica
df['Sex'] = df['Sex'].map({'male': 0, 'female': 1})

# Llenar NaNs en 'Age' y 'Fare' con la media
df['Age'] = df['Age'].fillna(df['Age'].mean())
df['Fare'] = df['Fare'].fillna(df['Fare'].mean())

# Seleccionar las columnas relevantes y eliminar las no necesarias
df = df[['Survived', 'Pclass', 'Sex', 'Age', 'SibSp', 'Parch', 'Fare']]

# Dividir datos en características (X) y etiquetas (y)
X = df.drop('Survived', axis=1)
y = df['Survived']

# Dividir en conjunto de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Estandarizar datos
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Crear y entrenar el modelo
model = LogisticRegression()
model.fit(X_train, y_train)

# Datos de Jack (suponiendo que son los mismos que el primer registro del dataset)
jack_data = [[1, 0, 20, 0, 0, 7.25]]  # Pclass, Sex, Age, SibSp, Parch, Fare
jack_data_scaled = scaler.transform(jack_data)

# Predecir la supervivencia de Jack
jack_survival_prob = model.predict_proba(jack_data_scaled)[0][1]  # Probabilidad de sobrevivir

print(f"Probabilidad de supervivencia de Jack: {jack_survival_prob:.2f}")


Probabilidad de supervivencia de Jack: 0.53


