# Clasificación de Sobrevivencia en el Titanic 🛳️

Este notebook tiene como objetivo comparar dos modelos de clasificación:
- **Regresión Logística**
- **K-Nearest Neighbors (KNN)**

Aplicaremos ambos modelos para predecir si un pasajero sobrevivió al naufragio del Titanic, utilizando variables como edad, sexo y clase.



Este notebook muestra cómo utilizar `scikit-learn` y `seaborn` para cargar, limpiar y modelar datos del famoso dataset del Titanic. Se utiliza regresión logística para predecir la probabilidad de supervivencia.


## Paso 1: carga y preparación de datos

In [1]:
import seaborn as sns
import pandas as pd

# Exploremos los datasets presentes
print(sns.get_dataset_names())

['anagrams', 'anscombe', 'attention', 'brain_networks', 'car_crashes', 'diamonds', 'dots', 'dowjones', 'exercise', 'flights', 'fmri', 'geyser', 'glue', 'healthexp', 'iris', 'mpg', 'penguins', 'planets', 'seaice', 'taxis', 'tips', 'titanic']


In [11]:
# Cargar dataset Titanic
data  = sns.load_dataset('titanic')
data.head(3)


Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True


In [12]:
# Selección y limpieza de columnas relevantes
data = data[['survived', 'age', 'fare', 'sex', 'pclass']].dropna()

# Exploremos nuestra seleccion
data.head()

Unnamed: 0,survived,age,fare,sex,pclass
0,0,22.0,7.25,male,3
1,1,38.0,71.2833,female,1
2,1,26.0,7.925,female,3
3,1,35.0,53.1,female,1
4,0,35.0,8.05,male,3


In [18]:
# Definir el diccionario de mapeo
sexo_map = {'male': 0, 'female': 1}


# Codificamos la columna sex 

data['sex'] = data['sex'].map(sexo_map)
data.head()

Unnamed: 0,survived,age,fare,sex,pclass
0,0,22.0,7.25,0,3
1,1,38.0,71.2833,1,1
2,1,26.0,7.925,1,3
3,1,35.0,53.1,1,1
4,0,35.0,8.05,0,3


In [19]:
# Dividimos el dataset entre datos de entrada y de dato de salida

X = data[['age', 'fare', 'sex', 'pclass']]
y = data['survived']

## Paso 2: División del dataset en entrenamiento y prueba

Usamos `train_test_split` para dividir los datos y luego aplicamos `StandardScaler` para normalizar las variables.


In [20]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler

X = data[['age', 'fare', 'sex', 'pclass']]
y = data["survived"]


X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.25, random_state = 0)

In [21]:
pd.DataFrame(X_train, columns= ['age','fare','sex','pclass'])

Unnamed: 0,age,fare,sex,pclass
535,7.0,26.2500,1,2
129,45.0,6.9750,0,3
491,21.0,7.2500,0,3
703,25.0,7.7417,0,3
313,28.0,7.8958,0,3
...,...,...,...,...
883,28.0,10.5000,0,2
238,19.0,10.5000,0,2
789,46.0,79.2000,0,1
704,26.0,7.8542,0,3


In [22]:
# Escalado
sc_X = StandardScaler()
X_train_scaled = sc_X.fit_transform(X_train)
X_test_scaled = sc_X.transform(X_test)

In [23]:
pd.DataFrame(X_train_scaled , columns= ['age','fare','sex','pclass'])

Unnamed: 0,age,fare,sex,pclass
0,-1.568076,-0.145730,1.331173,-0.308794
1,1.057582,-0.494487,-0.751217,0.897079
2,-0.600728,-0.489511,-0.751217,0.897079
3,-0.324343,-0.480614,-0.751217,0.897079
4,-0.117054,-0.477826,-0.751217,0.897079
...,...,...,...,...
530,-0.117054,-0.430706,-0.751217,-0.308794
531,-0.738921,-0.430706,-0.751217,-0.308794
532,1.126679,0.812331,-0.751217,-1.514666
533,-0.255247,-0.478579,-0.751217,0.897079


## 3. Modelo 1: Regresión Logística

Entrenamos y evaluamos el modelo de regresión logística.

In [24]:
from sklearn.linear_model import LogisticRegression

log_model = LogisticRegression()
log_model.fit(X_train_scaled, y_train)

In [27]:
from sklearn.metrics import accuracy_score, confusion_matrix

y_pred_log = log_model.predict(X_test_scaled)


print("Precisión (Logistic Regression):", accuracy_score(y_test, y_pred_log))
print("Matriz de Confusión:")
print(confusion_matrix(y_test, y_pred_log))

Precisión (Logistic Regression): 0.8100558659217877
Matriz de Confusión:
[[85 18]
 [16 60]]


## Paso 4: Probar con nuevo pasajero

In [30]:
# Formato: [Age, Fare, Sex, Pclass]
nuevo_pasajero = [[30, 100, 1, 1]]  # Mujer de 30 años, tarifa alta, primera clase

# Escalar el nuevo pasajero con el mismo scaler ya entrenado
nuevo_pasajero_scaled = sc_X.transform(nuevo_pasajero)

# Usar el modelo entrenado para predecir
pred = log_model.predict(nuevo_pasajero_scaled)
print("¿Sobrevive?", "Sí" if pred[0] == 1 else "No")

¿Sobrevive? Sí




## 5. Modelo 2: K-Nearest Neighbors

Entrenamos y evaluamos el modelo KNN usando los mismos datos escalados.


In [31]:
from sklearn.neighbors import KNeighborsClassifier

knn_model = KNeighborsClassifier(n_neighbors=5)
knn_model.fit(X_train_scaled, y_train)

In [32]:
from sklearn.metrics import accuracy_score, confusion_matrix

y_pred_knn = knn_model.predict(X_test_scaled)

print("Precisión (KNN):", accuracy_score(y_test, y_pred_knn))
print("Matriz de Confusión:")
print(confusion_matrix(y_test, y_pred_knn))

Precisión (KNN): 0.7988826815642458
Matriz de Confusión:
[[87 16]
 [20 56]]


## 6. Comparación de modelos

Ambos modelos fueron entrenados sobre los mismos datos. Comparamos sus resultados para ver cuál funciona mejor en este caso.


In [33]:
print("Precisión Logistic Regression:", accuracy_score(y_test, y_pred_log))
print("Precisión KNN:", accuracy_score(y_test, y_pred_knn))

Precisión Logistic Regression: 0.8100558659217877
Precisión KNN: 0.7988826815642458


In [35]:
# Entrada de datos reales por teclado
# age = float(input("Edad: "))
# sex = int(input("Sexo (0 = hombre, 1 = mujer): "))
# fare = float(input("Tarifa pagada: "))
# pclass = int(input("Clase (1, 2, 3): "))


# Escalar los datos
# input_data = [[age, sex, fare, pclass]]
input_data = [[30, 100, 1, 1]]  # Mujer de 30 años, tarifa alta, primera clase
input_scaled = sc_X.transform(input_data)

# Predicciones
log_result = log_model.predict(input_scaled)[0]
knn_result = knn_model.predict(input_scaled)[0]

print("Predicción Logistic Regression:", "Sobrevivió" if log_result == 1 else "No sobrevivió")
print("Predicción KNN:", "Sobrevivió" if knn_result == 1 else "No sobrevivió")

Predicción Logistic Regression: Sobrevivió
Predicción KNN: Sobrevivió


