# SVM - Caso Titanic

En este notebook, utilizaremos SVM para entrenar un algoritmo de clasificación que permita establecer un modelo que prediga los sobrevivientes del dataset Titanic

In [39]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
%matplotlib inline

### Carga de Datos y Análisis Exploratorio

In [40]:
df = pd.read_csv('titanic.csv')

In [41]:
df.head(2)

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C


### Valores perdidos

La cabina no aporta mucho en el análisis, pero la edad es una variable importante para predecir si una persona sobrevivió o no a la trajedia. A continuación, una forma de "visualizar" los valores perdidos.

Haremos una imputación de la edad del pasajero en función del promedio de edad de la clase en la que viajaba.

In [42]:
edades = round(df.groupby('Pclass').mean()['Age'])
edades

  edades = round(df.groupby('Pclass').mean()['Age'])


Pclass
1    38.0
2    30.0
3    25.0
Name: Age, dtype: float64

In [43]:
# creamos una funcion que imputa la edad en caso de estar nula
def imputar_edad(cols):
    edad = cols[0]
    pclass = cols[1]
    if(pd.isnull(edad)):
        if(pclass==1):
            return 38
        if(pclass==2):
            return 30
        if(pclass==3):
            return 25
    else:
        return edad

In [44]:
df['Age'] = df[['Age','Pclass']].apply(imputar_edad, axis=1)

In [45]:
df.isnull().sum()

PassengerId      0
Survived         0
Pclass           0
Name             0
Sex              0
Age              0
SibSp            0
Parch            0
Ticket           0
Fare             0
Cabin          687
Embarked         2
dtype: int64

### Formulación del modelo

En esta sección seleccionaremos las variables que incorporaremos en la matriz de predictores "X" y en el vector de resultados "y", ya que no todas las columnas son de utilidad.

In [46]:
#Matriz de features

X=df[['Age','Sex','SibSp','Parch','Fare']]

#Valor de resultado (variable objetivo)

y=df[['Survived']]

### Tratamiento de variables categoricas

La variable sex es categórica, debemos transformarla en variable dummy para incorporarla en el modelo.

In [47]:
X=pd.get_dummies(X, drop_first=True)

In [48]:
X.head()

Unnamed: 0,Age,SibSp,Parch,Fare,Sex_male
0,22.0,1,0,7.25,1
1,38.0,1,0,71.2833,0
2,26.0,0,0,7.925,0
3,35.0,1,0,53.1,0
4,35.0,0,0,8.05,1


### Validación Cruzada

In [49]:
from sklearn.model_selection import train_test_split

In [50]:
X_train, X_test, y_train, y_test = train_test_split(X, y, 
                                                    test_size=0.20, 
                                                    random_state=0)

### Modelamiento con SVM kernel lineal

In [51]:
from sklearn.svm import SVC


In [52]:
classifier= SVC(kernel='linear', random_state=0)
classifier.fit(X_train,y_train)

  y = column_or_1d(y, warn=True)


#### Métricas de Evaluación

In [53]:
from sklearn.metrics import confusion_matrix, accuracy_score

In [54]:
y_pred=classifier.predict(X_test)

In [55]:
accuracy_score(y_test,y_pred)

0.7877094972067039

In [56]:
confusion_matrix(y_test,y_pred)

array([[92, 18],
       [20, 49]], dtype=int64)

### Modelamiento con SVM kernel rgf

In [59]:
classifier= SVC(kernel='rbf', random_state=0)
classifier.fit(X_train,y_train)

  y = column_or_1d(y, warn=True)


#### Métricas de Evaluación

In [60]:
y_pred=classifier.predict(X_test)

In [61]:
accuracy_score(y_test,y_pred)

0.7262569832402235

In [62]:
confusion_matrix(y_test,y_pred)

array([[104,   6],
       [ 43,  26]], dtype=int64)

### Optimice los parámetros Gamma, C (regularización), y Kernel

Para esto, utilice una grilla de búsqueda exhaustiva (GridSearchCV). Tome como referencia la siguiente documentación:

https://scikit-learn.org/stable/modules/grid_search.html