# Modelo SVM

In [3]:
# Importar librerías
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder, StandardScaler
from sklearn.svm import SVC
from sklearn.metrics import classification_report

In [4]:
# Carga y preparación de datos
  # Carga los datos
data = pd.read_csv('Clean_Data_Train.csv')  # Cambia esto por la ruta correcta

  # Elimina las columnas irrelevantes para el modelo
data = data.drop(['PassengerId', 'Name', 'Ticket', 'Cabin_encoded'], axis=1)

  # Convierte variables categóricas en numéricas
label_encoder = LabelEncoder()
data['Sex'] = label_encoder.fit_transform(data['Sex'])
data['Embarked'] = label_encoder.fit_transform(data['Embarked'])
data['Title'] = label_encoder.fit_transform(data['Title'])
data['Deck'] = label_encoder.fit_transform(data['Deck'])

In [5]:
# Dividimos los datos entre X y y para ajustar el modelo
  # Divide los datos en características (X) y etiquetas (y)
X = data.drop('Survived', axis=1)
y = data['Survived']

  # Divide los datos en conjuntos de entrenamiento y prueba
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

  # Estandariza las características
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

  # Crea el modelo SVM
svm_model = SVC(kernel='linear', C=1.0, random_state=42)

  # Entrena el modelo
svm_model.fit(X_train, y_train)

In [13]:
# Evaluación del modelo
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

  # Realiza predicciones en el conjunto de entrenamiento
y_pred = svm_model.predict(X_test)

  # Evalúa el modelo
#print(classification_report(y_test, y_pred))

# Calcular métricas en el conjunto de entrenamiento
accuracy = accuracy_score(y_test, y_pred)
print("accuracy: ", accuracy)

precision = precision_score(y_test, y_pred)
print("precision: ", precision)

recall = recall_score(y_test, y_pred)
print("recall: ", recall)

f1 = f1_score(y_test, y_pred)
print("f1: ", f1)

accuracy:  0.7226277372262774
precision:  0.671875
recall:  0.7166666666666667
f1:  0.6935483870967741


## Prueba en Kaggle

In [15]:
# Carga y preparación de datos
  # Carga los datos
data_test = pd.read_csv('Clean_Data_Test.csv') # Cambia esto por la ruta correcta

  # Elimina las columnas irrelevantes para el modelo
data_test_new = data_test.drop(['PassengerId', 'Name', 'Ticket'], axis=1)

  # Convierte variables categóricas en numéricas
label_encoder = LabelEncoder()
data_test_new['Sex'] = label_encoder.fit_transform(data_test_new['Sex'])
data_test_new['Embarked'] = label_encoder.fit_transform(data_test_new['Embarked'])
data_test_new['Title'] = label_encoder.fit_transform(data_test_new['Title'])
data_test_new['Deck'] = label_encoder.fit_transform(data_test_new['Deck'])

In [16]:
# Calculamos predicciones
  # Realiza predicciones en el conjunto de prueba
Y_pred = svm_model.predict(data_test_new)



In [17]:
# Exportamos predicciones para meter a Kaggle
  # Crear el DataFrame de Resultados
resultados = pd.DataFrame({'PassengerId': data_test['PassengerId'], 'Survived': Y_pred})

# Guardar el DataFrame de submission como un archivo CSV
resultados.to_csv('resultados.csv', index=False)

In [18]:
resultados.shape

(418, 2)