SVM para predecir la supervivencia en el Titanic en Python, utilizando la biblioteca scikit-learn

In [9]:
import pandas as pd
from sklearn.svm import SVC
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
import matplotlib.pyplot as plt

In [17]:
# Cargar datos
titanic_data = pd.read_csv("./data/Titanic.csv")

In [18]:
titanic_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 711 entries, 0 to 710
Data columns (total 12 columns):
 #   Column       Non-Null Count  Dtype  
---  ------       --------------  -----  
 0   PassengerId  711 non-null    int64  
 1   Survived     711 non-null    int64  
 2   Pclass       711 non-null    int64  
 3   Name         711 non-null    object 
 4   Sex          711 non-null    object 
 5   Age          711 non-null    float64
 6   SibSp        711 non-null    int64  
 7   Parch        711 non-null    int64  
 8   Ticket       711 non-null    object 
 9   Fare         711 non-null    float64
 10  Cabin        182 non-null    object 
 11  Embarked     711 non-null    object 
dtypes: float64(2), int64(5), object(5)
memory usage: 66.8+ KB


In [19]:
# Preprocesamiento de datos
titanic_data.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1, inplace=True)
titanic_data['Age'].fillna(titanic_data['Age'].mean(), inplace=True)
titanic_data['Embarked'].fillna('S', inplace=True)
titanic_data = pd.get_dummies(titanic_data, columns=['Sex', 'Embarked'])

In [20]:
# Escalado de características
scaler = StandardScaler()
X = scaler.fit_transform(titanic_data.drop('Survived', axis=1))

In [21]:
# Separar en datos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(
    X, titanic_data['Survived'], test_size=0.2, random_state=42)

In [22]:
# Crear modelo SVM
clf = SVC(kernel='rbf', C=1, gamma='scale')

In [23]:
# Entrenar modelo
clf.fit(X_train, y_train)

SVC(C=1)

In [24]:
# Predecir en datos de prueba
y_pred = clf.predict(X_test)

In [25]:
# Evaluar modelo
accuracy = accuracy_score(y_test, y_pred)
print(f'Precisión del modelo: {accuracy:.2f}')

Precisión del modelo: 0.81


Al igual que en los ejemplos anteriores, primero cargamos y preprocesamos los datos del Titanic. En este caso, además de crear variables dummy para las características categóricas, utilizamos la técnica de escalado de características con StandardScaler para normalizar los datos numéricos.

Luego, dividimos los datos en conjuntos de entrenamiento y prueba utilizando la función train_test_split. Después, creamos un modelo SVM utilizando la clase SVC con un kernel radial y un parámetro de regularización C igual a 1. Entrenamos el modelo con los datos de entrenamiento y hacemos predicciones en los datos de prueba utilizando el método predict. Finalmente, evaluamos la precisión del modelo utilizando la función accury-score