# 🚢 Prediciendo la supervivencia del Titanic 

Entrenemos un clasificador que prediga si un pasajero sobrevivirá el naufrago o no.

## 1. Importar librerías

In [None]:
# Operaciones numéricas con arreglos y matrices
import numpy as np

# Manejo de datos
import pandas as pd

## 2. Cargar set de datos

### Diccionario de datos
- Supervivencia  - (Sí o No)
- Pclass         - (1, 2, 3)
- Sex            - ('male', 'female')
- Sibsp	         - # of hermanos / cónyugues a bordo
- Parch	         - # of padres / hijos a bordo
- Ticket         - Número de Ticket
- Fare	         - Tarifa de pasajero	
- Cabin          - Número de Cabina
- Embarked	     - Puerto de empbarque (C = Cherbourg, Q = Queenstown, S = Southampton)

In [None]:
dir_train = "titanic/train.csv"
dir_test = "titanic/test.csv"

test_set = pd.read_csv(dir_test)
train_set = pd.read_csv(dir_train)

Veamos la forma del nuestros datos con `.shape`.

In [None]:
# datos de entrenamiento
# datos de prueba

Veamos los features con `.columns`

In [None]:
# datos de entrenamiento
# datos de prueba

## 3. Entendimiento de datos

In [None]:
# Veamos las primeras filas con .head()

# datos de entrenamiento
# datos de prueba

In [None]:
# Veamos información más detallada con .info()

# datos de entrenamiento
# datos de prueba

Veamos qué datos están ausentes con `pd.isnull(data).sum()`

In [2]:
# datos de entrenamiento

In [3]:
# datos de prueba

## 4. Preparación de datos

### Eliminar la columnas irrelevantes

Eliminemos columnas con `.drop(['Column', 'Names'], axis = 1, inplace = True)`

In [None]:
# Elimina 'PassengerId', 'Name', y 'Ticket' en los datos de entrenamiento
test_set.drop(['Name', 'Ticket'], axis = 1, inplace = True)

In [None]:
# Elimina 'Name' y 'Ticket' en los datos de prueba

In [None]:
# Verifica la nueva cantidad de columnas

# datos de entrenamiento
# datos de prueba

### Eliminar la columna cabina

In [None]:
# Elimina la columna 'Cabin' de los datos de entrenamiento

In [None]:
# verificamos la nueva cantidad de columnas

# datos de entrenamiento
# datos de prueba

### Eliminar filas con datos incompletos

Elimina las filas con los datos perdidos usando `.dropna(axis=0, how = 'any', inplace = True)`

In [None]:
# Elimina las filas con los datos perdidos

# datos de entrenamiento
# datos de prueba

Verificamos los datos con `pd.isnull(data).sum()`

In [None]:
# datos de entrenamiento

In [None]:
# datos de prueba

### Reemplazar categoría de sexo por números

In [None]:
train_set['Sex'].replace( ['male', 'female'], [0, 1], inplace = True)
test_set['Sex'].replace( ['male', 'female'], [0, 1], inplace = True)

In [None]:
print(train_set['Sex'].value_counts())
print(test_set['Sex'].value_counts())

### Reemplazar categoría de puerto de embarque por números

In [None]:
# Reemplazar valores en set de entrenamiento
train_set['Embarked'].replace( ['Q', 'S', 'C'], [0, 1, 2], inplace = True)
# test_set['Embarked'].replace( [0, 1, 2], [0, 1, 2], inplace = True)

# Reemplazar valores en set de prueba
test_set['Embarked'].replace( ['Q', 'S', 'C'], [0, 1, 2], inplace = True)

In [None]:
print(train_set['Embarked'].value_counts())
print(test_set['Embarked'].value_counts())

### Reemplazar edades faltantes por el promedio de edades

In [None]:
# Averiguar el promedio de las edades de los pasajeros
print(train_set['Age'].mean())
print(test_set['Age'].mean())

In [None]:
promedio = 30
# Reemplazar edades faltantes por promedio en set de entrenamientos
train_set['Age'].replace(np.nan, promedio, inplace = True)

# Reemplazar edades faltantes por promedio en set de pruebas
test_set['Age'].replace(np.nan, promedio, inplace = True)

In [None]:
# Verificamos
print(train_set['Age'].value_counts())
print(test_set['Age'].value_counts())

In [None]:
print(pd.isnull(train_set).sum())
print(pd.isnull(test_set).sum())

## 5. Entrenar modelo

In [None]:
print(train_set.head())
print(train_set.shape)
print(test_set.head())
print(test_set.shape)

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC

In [None]:
# Transformamos nuestras tablas en arreglos numéricos
X = np.array(train_set.drop(['Survived'], 1))
y = np.array(train_set['Survived'])

In [None]:
# Verificamos las dimensiones de X y Y
print(X.shape)
print(y.shape)

In [None]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

In [None]:
print(X_train.shape)
print(X_test.shape)
print(y_train.shape)
print(y_test.shape)

## Regresión Logística

In [None]:
# Definir el modelo
logreg = LogisticRegression()

# Entrenamos el modelo
logreg.fit(X_train, y_train)
Y_pred = logreg.predict(X_test)

print('Precisión Regresión Logística')
print(logreg.score(X_train, y_train))

## Máquina de vectores de soporte (SVM)

In [None]:
# Definir el modelo
svc = SVC()

# Ajustamos el modelo con datos de entrenamiento
svc.fit(X_train, y_train)
Y_pred = svc.predict(X_test)

print('Precisión Soporte de Vectores:')
print(svm.score(X_train, y_train))

## K vecinos más cercanos

In [None]:
# K neighbors
knn = KNeighborsClassifier(n_neighbors = 2)
# Ajustar 
knn.fit(X_train, y_train)

Y_pred = knn.predict(X_test)
print('Precisión Vecinos más Cercanos:')
print(knn.score(X_train, y_train))

## 6. Evaluar Entrenamiento

In [None]:
ids = test_set['PassengerId']

In [None]:
prediccion_logreg = logreg.predict(test_set.drop('PassengerId', axis=1))
out_logreg = pd.DataFrame({ 'PassengerId' : ids, 'Survived': prediccion_logreg })
print('Predicción Regresión Logística:')
print(out_logreg.head())

In [None]:
# Support Vector Machines
prediccion_svc = svc.predict(test_set.drop('PassengerId', axis=1))
out_svc = pd.DataFrame({ 'PassengerId' : ids, 'Survived': prediccion_svc })
print('Predicción Soporte de Vectores:')
print(out_svc.head())

In [None]:
prediccion_knn = knn.predict(test_set.drop('PassengerId', axis=1))
out_knn = pd.DataFrame({ 'PassengerId' : ids, 'Survived': prediccion_knn })
print('Predicción Vecinos más Cercanos:')
print(out_knn.head())

In [None]:
# print(test_set.loc[1])
# print(svc.predict(test_set.loc[0])
train_set