## Algoritmos de Machine Learnig: Caso Titanic

El objetivo de este cuaderno es seguir un flujo de trabajo paso a paso, explicando cada paso y la justificación de cada decisión que tomamos durante el desarrollo de la solución de un problema de analítica de datos.

Etapas a seguir:

1. Definición de pregunta o problema.
2. Adquirir datos de entrenamiento y pruebas.
3. Discutir, preparar, limpiar los datos.
4. Analizar, identificar patrones y explorar los datos.
5. Modelizar, predecir y resolver el problema.
6. Visualizar, informar y presentar los pasos de resolución del problema y la solución final.

#### Objetivo de Solución

Sabiendo a partir de un conjunto de datos de entrenamiento que contiene datos de los pasajeros que sobrevivieron o no al desastre del Titanic, crearemos modelos que utilicen diversos algoritmos de Machine Learning y que posteriorment pueden determinar en base a un conjunto de datos de prueba dado (que no contiene la información de supervivencia), si estos pasajeros en el conjunto de datos de prueba sobrevivieron o no.

### 1. Definición de pregunta o problema.

El 15 de abril de 1912, durante su viaje inaugural, el Titanic se hundió después de chocar con un iceberg, matando a 1502 de los 2224 pasajeros y tripulación. 

Tasa de supervivencia traducida del 32%.

Una de las razones por las que el naufragio provocó tantas pérdidas de vidas fue que no había suficientes botes salvavidas para los pasajeros y la tripulación.

Aunque hubo algún elemento de suerte involucrado en sobrevivir al hundimiento, algunos grupos de personas tenían más probabilidades de sobrevivir que otros, como las mujeres, los niños y la clase alta.

![titanic.jpg](attachment:titanic.jpg)

### Objetivos de analítica


A continuacion, resolveremos siete objetivos principales, importantes en Ciencia de Datos:

***Clasificación***. Es posible que queramos clasificar o categorizar nuestras datos (muestras). También es posible que deseemos comprender las implicaciones o la correlación de diferentes clases con nuestro objetivo de solución.

***Correlación*** Se puede abordar el problema en función de las características disponibles dentro del conjunto de datos de entrenamiento. 
* ¿Qué características dentro del conjunto de datos contribuyen significativamente a nuestro objetivo de solución? 
* Hablando estadísticamente, ¿existe una correlación entre una característica y el objetivo de la solución? 
* A medida que cambian los valores de las caracteristicas, ¿cambia también el estado de la solución y viceversa? 
Esto se puede probar tanto para características numéricas como categóricas en el conjunto de datos dado. También es posible que deseemos determinar la correlación entre características distintas de la supervivencia para los objetivos posteriores y las etapas del flujo de trabajo. Correlacionar ciertas características puede ayudar a crear, completar o corregir características.

***Conversión (transformación)*** Para la etapa de modelado, es necesario preparar los datos. Dependiendo de la elección del algoritmo del modelo, se puede requerir que todas las características se conviertan a valores numéricos equivalentes. Por ejemplo, convertir valores categóricos de texto en valores numéricos.

***Datos faltantes*** La preparación de datos también puede requerir que estimemos los valores faltantes dentro de una característica. Los algoritmos de modelo pueden funcionar mejor cuando no faltan valores.

***Corrección de datos*** También podemos analizar el conjunto de datos de entrenamiento dado en busca de errores o posiblemente valores inexactos dentro de las características e intentar corregir estos valores o excluir las muestras que contienen los errores. Una forma de hacer esto es detectar cualquier valor atípico entre nuestras muestras o características. También podemos descartar por completo una característica si no contribuye al análisis o puede sesgar significativamente los resultados.

***Creación de datos*** ¿Podemos crear nuevas características basadas en una característica existente o un conjunto de características, de modo que la nueva característica siga los objetivos de correlación, conversión e integridad?

***Visualización Gráfica*** Cómo seleccionar los gráficos y diagramas de visualización correctos según la naturaleza de los datos y los objetivos de la solución.

### 2. Adquirir datos de entrenamiento y pruebas

In [None]:
# Librerias para análisis de datos
import pandas as pd
import numpy as np
import random as rnd

# Para visualizacion de datos
import seaborn as sns
import matplotlib.pyplot as plt
%matplotlib inline

# Para machine learning
from sklearn.linear_model import LogisticRegression
from sklearn.svm import SVC, LinearSVC
from sklearn.ensemble import RandomForestClassifier
from sklearn.neighbors import KNeighborsClassifier
from sklearn.naive_bayes import GaussianNB
from sklearn.linear_model import Perceptron
from sklearn.linear_model import SGDClassifier
from sklearn.tree import DecisionTreeClassifier


Los paquetes de Python Pandas nos ayudan a trabajar con nuestros conjuntos de datos. Comenzamos adquiriendo los conjuntos de datos de entrenamiento y prueba en Pandas DataFrames. También combinamos estos conjuntos de datos para ejecutar ciertas operaciones en ambos conjuntos de datos juntos.

In [None]:
train_df = pd.read_csv('data/train.csv')
test_df = pd.read_csv('data/test.csv')
data_df = [train_df, test_df]

### 3. Discutir, preparar, limpiar los datos

#### 3.1. Análisis exploratorio de los datos

In [None]:
print(train_df.columns.values)

In [None]:
train_df.info()

Deberemos preguntarnos y analizar:

* **¿Qué características son categóricas?**

Estos valores clasifican las muestras en conjuntos de muestras similares. Dentro de las características categóricas, ¿los valores se basan en valores nominales, ordinales, de razón o de intervalo? Entre otras cosas, esto nos ayuda a seleccionar los gráficos adecuados para la visualización.


* **¿Qué características son numéricas?**

¿Qué características son numéricas? Estos valores cambian de una muestra a otra. Dentro de las características numéricas, ¿los valores son discretos, continuos o basados en series temporales? Entre otras cosas, esto nos ayuda a seleccionar los gráficos adecuados para la visualización.


In [None]:
# previsualizacion de los datos
train_df.head()

* **¿Qué características son tipos de datos mixtos?**

Datos numéricos y alfanuméricos dentro de la misma función. Estos son candidatos para corregir la meta.

Ticket es una combinación de tipos de datos numéricos y alfanuméricos. La cabina es alfanumérica.

* **¿Qué funciones pueden contener errores o errores tipográficos?**

Esto es más difícil de revisar para un conjunto de datos grande, sin embargo, revisar algunas muestras de un conjunto de datos más pequeño puede decirnos directamente qué características pueden requerir corrección.

La función de nombre puede contener errores o errores tipográficos, ya que hay varias formas de describir un nombre, incluidos títulos, corchetes y comillas para nombres alternativos o cortos.

In [None]:
# previsualizacion de los datos
train_df.tail()

* **¿Qué características contienen valores en blanco, nulos o vacíos?**

Estos requerirán corrección.

Cabin > Age > Embarked contienen varios valores nulos en ese orden para el conjunto de datos de entrenamiento.

Cabin> Age están incompletos en el caso del conjunto de datos de prueba.

* **¿Cuáles son los tipos de datos para varias caracteristicas?**


*** Siete características son números enteros o flotantes. 

***  Seis en el caso de un conjunto de datos de prueba.

***  Cinco características son de tipo cadena (objeto).

In [None]:
# Analizamos informacion de los conjuntos de datos de entranamiento y prueba
train_df.info()
print('_'*40)
test_df.info()

**¿Cuál es la distribución de valores de características numéricas en las muestras?**

Esto nos ayuda a determinar, entre otras ideas iniciales, qué tan representativo es el conjunto de datos de entrenamiento del dominio del problema real.

* Las muestras totales son 891 o el 40% del número real de pasajeros a bordo del Titanic (2224).

* Survived es una característica categórica con valores 0 o 1.

* Alrededor del 38% de las muestras sobrevivieron representativa de la tasa de supervivencia real al 32%.

* La mayoría de los pasajeros (> 75%) no viajaron con padres o hijos.

* Casi el 30% de los pasajeros tenían hermanos y / o cónyuge a bordo.

* Las tarifas variaron significativamente y pocos pasajeros (<1%) pagaron hasta $ 512.

* Pocos pasajeros de edad avanzada (<1%) con edades comprendidas entre los 65 y los 80 años.

In [None]:
train_df.describe()
# Revisamos la tasa de supervivencia usando `percentiles=[.61, .62]` 
# conociendo que en la descripcion del problema menciona una tasa de 33% de supervivencia
# Revise la distribución de Parch usando `percentiles = [. 75, .8]`
# Distribución SibSp `[.68, .69]`
# Age y Fare `[.1, .2, .3, .4, .5, .6, .7, .8, .9, .99]`

**¿Cuál es la distribución de las características categóricas?**


* Los nombres son únicos en todo el conjunto de datos (count=unique=891)

* Variable de sexo como dos valores posibles con 65% de hombres (top=male, freq=577/count=891).

* Los valores de cabina tienen varios duplicados en las muestras. Alternativamente, varios pasajeros compartieron una cabina.

* Embarked toma tres valores posibles. Puerto S utilizado por la mayoría de los pasajeros (top=S)

* La variable ticket tiene una alta proporción (22%) de valores duplicados (unique=681).

In [None]:
train_df.describe(include=['O'])

#### 3.2. Determinar los supuestos basados en el análisis de los datos 

Llegamos a los siguientes supuestos basados en el análisis de datos realizado hasta ahora. Podemos validar estas suposiciones aún más antes de tomar las medidas adecuadas.

**Correlación**

Queremos saber qué tan bien se correlaciona cada característica con la caracteristica **Survival**. Queremos hacer esto al principio de nuestro proyecto y hacer coincidir estas correlaciones rápidas con correlaciones modeladas más adelante en el proyecto.

**Datos incompletos**

1. Es posible que deseemos completar la variable Edad (Age), ya que definitivamente está correlacionada con la supervivencia.

2. Es posible que deseemos completar la tambien la variable **Embarked**, ya que también puede correlacionarse con la supervivencia u otra característica importante.

**Datos incorrectos**

1. La variable Ticket puede eliminarse de nuestro análisis ya que contiene una alta proporción de duplicados (22%) y es posible que no haya una correlación entre Ticket y supervivencia.

2. La característica de cabina puede descartarse porque está muy incompleta o contiene muchos valores nulos tanto en el conjunto de datos de entrenamiento como de prueba.

3. PassengerId puede eliminarse del conjunto de datos de entrenamiento ya que no contribuye a la supervivencia.

4. La característica nombre (del pasajero) es relativamente no estándar, puede que no contribuya directamente a la supervivencia, por lo que tal vez se elimine.


**Creacion de nuevos datos**

1. Es posible que deseemos crear una nueva característica llamada **Familia** basada en Parch y SibSp para obtener el recuento total de miembros de la familia a bordo.

2. Es posible que deseemos diseñar la caracteristica Nombre para extraer el Title como una variable nueva.

3. Es posible que queramos crear una nueva variable para los niveles de edad. Esto convierte una característica numérica continua en una característica categórica ordinal.

4. También es posible que deseemos crear una variable de rango de tarifa si ayuda a nuestro análisis.

**Clasificación**

También podemos agregar a nuestras suposiciones basándonos en la descripción del problema mencionado anteriormente.

* Las mujeres (sexo = mujer) tenían más probabilidades de haber sobrevivido.

* Los niños (edad <?) Tenían más probabilidades de haber sobrevivido.

* Los pasajeros de clase alta (Pclass = 1) tenían más probabilidades de haber sobrevivido.


#### 3.3. Analizar mediante variables pivot

Para confirmar algunas de nuestras observaciones y suposiciones, podemos analizar rápidamente nuestras correlaciones de características haciendo pivotar las características entre sí. Solo podemos hacerlo en esta etapa para las características que no tienen valores vacíos. También tiene sentido hacerlo solo para características que son de tipo categórico (Sexo), ordinal (Pclass) o discreto (SibSp, Parch).

* **Pclass** Observamos una correlación significativa (> 0.5) entre Pclass = 1 y Survived (clasificación # 3). Decidimos incluir esta característica en nuestro modelo.

* **Sexo** Confirmamos la observación durante la definición del problema de que Sexo = mujer tuvo una tasa de supervivencia muy alta del 74% (clasificación n. ° 1).

* **SibSp** y **Parch** Estas características tienen una correlación cero para ciertos valores. Puede ser mejor derivar una característica o un conjunto de características a partir de estas características individuales (creación # 1).

In [None]:
train_df[['Pclass', 'Survived']].groupby(['Pclass'], as_index=False).mean().sort_values(by='Survived', ascending=False)

In [None]:
train_df[["Sex", "Survived"]].groupby(['Sex'], as_index=False).mean().sort_values(by='Survived', ascending=False)

In [None]:
train_df[["SibSp", "Survived"]].groupby(['SibSp'], as_index=False).mean().sort_values(by='Survived', ascending=False)

In [None]:
train_df[["Parch", "Survived"]].groupby(['Parch'], as_index=False).mean().sort_values(by='Survived', ascending=False)

#### 3.4. Analizar visualizando datos

Ahora podemos continuar confirmando algunas de nuestras suposiciones utilizando visualizaciones para analizar los datos.

**(a) Correlacionar características numéricas**

Comencemos por comprender las correlaciones entre las características numéricas y nuestro objetivo de solución (Survived).

Un gráfico de histograma es útil para analizar variables numéricas continuas como Edad, donde las bandas o rangos ayudarán a identificar patrones útiles. El histograma puede indicar la distribución de muestras utilizando contenedores definidos automáticamente o bandas de igual rango. Esto nos ayuda a responder preguntas relacionadas con bandas específicas (¿Tuvieron los bebés una mejor tasa de supervivencia?)

Hay que tener en cuenta que el eje x en las visualizaciones de historgram representa el recuento de muestras o pasajeros.

**Observaciones**

* Los bebés (edad <= 4) tuvieron una alta tasa de supervivencia.

* Los pasajeros más viejos (edad = 80) sobrevivieron.

* Un gran número de jóvenes de 15 a 25 años no sobrevivió.

* La mayoría de los pasajeros tienen entre 15 y 35 años.

**Decisiones**

Este simple análisis confirma nuestras suposiciones como decisiones para las etapas posteriores del flujo de trabajo.

* Deberíamos considerar la edad (nuestra clasificación de suposición n. ° 2) en nuestro modelo de entrenamiento.
* Completer los valores faltantes para la variable Age (Edad) para valores nulos (completando el n. ° 1).
* Deberíamos agrupar los grupos de edad (creando el n. ° 3).

In [None]:
g = sns.FacetGrid(train_df, col='Survived')
g.map(plt.hist, 'Age', bins=20)

**(b) Correlacionar características numéricas y ordinales**

Podemos combinar múltiples características para identificar correlaciones usando un solo gráfico. Esto se puede hacer con características numéricas y categóricas que tienen valores numéricos.

**Observaciones**

* Pclass = 3 tenía la mayoría de los pasajeros, sin embargo, la mayoría no sobrevivió. Confirma nuestro supuesto de clasificación n. ° 2.

* La mayoría de los pasajeros bebés de Pclass = 2 y Pclass = 3 sobrevivieron. Califica aún más nuestro supuesto de clasificación n. ° 2.

* La mayoría de los pasajeros de Pclass = 1 sobrevivieron. Confirma nuestro supuesto de clasificación n. ° 3.

* Pclass varía en términos de distribución por edad de los pasajeros.

**Decisiones**

Consideraremos **Pclass** para el entrenamiento de los modelos.

In [None]:
grid = sns.FacetGrid(train_df, col='Survived', row='Pclass', height=2.2, aspect=1.6)
grid.map(plt.hist, 'Age', alpha=.5, bins=20)
grid.add_legend();

**(c) Correlacionar características categóricas**

También es posible que deseemos correlacionar características categóricas (con valores no numéricos) y características numéricas. Podemos considerar correlacionar Embarked (categórico no numérico), Sex (categórico no numérico), Fare (numérico continuo), con Survived (categórico numérico).

**Observaciones**

* Los pasajeros que pagan tarifas más altas tienen una mejor supervivencia. Confirma nuestra suposición para crear (n. ° 4) rangos de tarifas.

* El puerto de embarque se correlaciona con las tasas de supervivencia. Confirma correlacionar (# 1) y completar (# 2).

**Decisiones**

Considerar la posibilidad de agregar niveles o rangos a la variable Fare (tarifa).

In [None]:
grid = sns.FacetGrid(train_df, row='Embarked', col='Survived',height=2.2, aspect=1.6)
grid.map(sns.barplot, 'Sex', 'Fare', alpha=.5, ci=None)
grid.add_legend()

In [None]:
grid = sns.FacetGrid(train_df, row='Embarked', height=2.2, aspect=1.6)
grid.map(sns.pointplot, 'Pclass', 'Survived', 'Sex', palette='deep')
grid.add_legend()

#### 3.5. Preparar y limpiar los datos

Hemos recopilado varias suposiciones y decisiones con respecto a nuestros conjuntos de datos y requisitos de solución. Hasta ahora no tuvimos que cambiar una sola característica o valor para llegar a estos. Ejecutemos ahora nuestras decisiones y suposiciones para corregir, crear y completar los datos.

**(a)Corregir eliminando características**

Al eliminar características, estamos tratando con menos datos. Acelera nuestro cálculo y facilita el análisis.

Basándonos en nuestras suposiciones y decisiones, queremos eliminar las características de Cabina (corrigiendo el n. ° 2) y Ticket (corrigiendo el n. ° 1).

Tener en cuenta que, cuando corresponda, realizaremos operaciones en conjuntos de datos de prueba y entrenamiento juntos para mantener la coherencia.

In [None]:
print("Antes", train_df.shape, test_df.shape, data_df[0].shape, data_df[1].shape)

# Eliminamos las caracteristicas Ticket y Cabina en cada dataset y los combinamos nuevamente

train_df = train_df.drop(['Ticket', 'Cabin'], axis=1)
test_df = test_df.drop(['Ticket', 'Cabin'], axis=1)
data_df = [train_df, test_df]

print("Despues", train_df.shape, test_df.shape, data_df[0].shape, data_df[1].shape)

#### (b) Crear nueva característica extraida de una existente 

Queremos analizar si la variable Nombre se puede utilizar para extraer Title (títulos) y probar la correlación entre títulos y supervivencia, antes de eliminar las variables Nombre y PassengerId.

En el siguiente código, extraeremos la característica de Título usando expresiones regulares. El patrón RegEx (\w+\.)coincide con la primera palabra que termina con un carácter de punto dentro de la variable Nombre. El parametro `expand=False` devuelve un DataFrame.

**Observaciones**

Cuando graficamos el título, la edad y los sobrevivientes, notamos las siguientes observaciones.

* La mayoría de los títulos clasifican los grupos de edad con precisión. Por ejemplo: el título de maestro tiene una edad media de 5 años.

* La supervivencia entre las bandas de Título de Edad varía ligeramente.

* Ciertos títulos sobrevivieron en su mayoría (Mme, Lady, Sir) o no (Don, Rev, Jonkheer).

**Decisión**

Decidimos conservar la nueva función de título para el entrenamiento de modelos.

In [None]:
for data in data_df:
    data['Title'] = data.Name.str.extract(' ([A-Za-z]+)\.', expand=False)

pd.crosstab(train_df['Title'], train_df['Sex'])

Podemos reemplazar muchos títulos con un nombre más común o clasificarlos como "Raro".

In [None]:
for data in data_df:
    data['Title'] = data['Title'].replace(['Lady', 'Countess','Capt', 'Col',\
     'Don', 'Dr', 'Major', 'Rev', 'Sir', 'Jonkheer', 'Dona'], 'Raro')

    data['Title'] = data['Title'].replace('Mlle', 'Miss')
    data['Title'] = data['Title'].replace('Ms', 'Miss')
    data['Title'] = data['Title'].replace('Mme', 'Mrs')
    
train_df[['Title', 'Survived']].groupby(['Title'], as_index=False).mean()

Podemos convertir los títulos categóricos a ordinales.

In [None]:
title_mapping = {"Mr": 1, "Miss": 2, "Mrs": 3, "Master": 4, "Rare": 5}
for data in data_df:
    data['Title'] = data['Title'].map(title_mapping)
    data['Title'] = data['Title'].fillna(0)

train_df.head()

Ahora podemos eliminar de forma segura la variable Nombre de los conjuntos de datos de entrenamiento y prueba. Tampoco necesitamos la variable PassengerId en el conjunto de datos de entrenamiento.

In [None]:
train_df = train_df.drop(['Name', 'PassengerId'], axis=1)
test_df = test_df.drop(['Name'], axis=1)
data_df = [train_df, test_df]
train_df.shape, test_df.shape

#### (c) Conversión de una característica categórica

Ahora podemos convertir características que contienen cadenas en valores numéricos. Esto es requerido por la mayoría de los algoritmos para crear modelos.

Comencemos por convertir la variable Sexo en una nueva variable llamada Género, donde mujer = 1 y hombre = 0

In [None]:
for data in data_df:
    data['Sex'] = data['Sex'].map( {'female': 1, 'male': 0} ).astype(int)

train_df.head()

#### (d) Completar datos faltantes en variables numericas continuas

Ahora deberíamos comenzar a estimar y completar características con valores faltantes o nulos. Primero haremos esto para la variable Age (Edad).

Podemos considerar tres métodos para completar una característica continua numérica.

1. Una forma sencilla es generar números aleatorios entre la media y la desviación estándar.

2. Una forma más precisa de adivinar los valores perdidos es utilizar otras características correlacionadas. En nuestro caso, notamos correlación entre Edad, Sexo y PClass. Adivinar los valores de Edad utilizando valores de mediana para Edad en conjuntos de combinaciones de características Pclass y Sexo. Entonces, la edad media para Pclass = 1 y Gender = 0, Pclass = 1 y Gender = 1, y así sucesivamente ...

3. Combinar los métodos 1 y 2. Entonces, en lugar de adivinar valores de edad basados en la mediana, utilizar números aleatorios entre la media y la desviación estándar, basados en conjuntos de combinaciones de Pclass y Gender.

Los métodos 1 y 3 introducirán ruido aleatorio en nuestros modelos. Los resultados de varias ejecuciones pueden variar. 

***Preferiremos el método 2***.

In [None]:
grid = sns.FacetGrid(train_df, row='Pclass', col='Sex', height=2.2, aspect=1.6)
grid.map(plt.hist, 'Age', alpha=.5, bins=20)
grid.add_legend()

Comencemos por preparar una matriz vacía para contener valores de edad adivinados basados en combinaciones de Pclass x Sex.

In [None]:
c_ages = np.zeros((2,3))
c_ages

Ahora iteramos sobre la variable Sex (0 o 1) y Pclass (1, 2, 3) para calcular los valores adivinados de Age (Edad) para las seis combinaciones.

In [None]:
for data in data_df:
    for i in range(0, 2):
        for j in range(0, 3):
            new_df = data[(data['Sex'] == i) & \
                          (data['Pclass'] == j+1)]['Age'].dropna()

            # age_mean = new_df.mean()
            # age_std = new_df.std()
            # age_guess = rnd.uniform(age_mean - age_std, age_mean + age_std)

            age_new = new_df.median()

            # Convertimos el valor flotante de edad aleatorio a la edad .5 más cercana
            c_ages[i,j] = int( age_new/0.5 + 0.5 ) * 0.5
            
    for i in range(0, 2):
        for j in range(0, 3):
            data.loc[ (data.Age.isnull()) & (data.Sex == i) & (data.Pclass == j+1),\
                    'Age'] = c_ages[i,j]

    data['Age'] = data['Age'].astype(int)

train_df.head()

Creemos niveles de edad y determinemos las correlaciones con la variable Survived (Sobrevivientes).

In [None]:
train_df['AgeRango'] = pd.cut(train_df['Age'], 5)
train_df[['AgeRango', 'Survived']].groupby(['AgeRango'], as_index=False).mean().sort_values(by='AgeRango', ascending=True)

Reemplacemos la variable Age con valores ordinales basados en estos rangos.

In [None]:
for data in data_df:    
    data.loc[ data['Age'] <= 16, 'Age'] = 0
    data.loc[(data['Age'] > 16) & (data['Age'] <= 32), 'Age'] = 1
    data.loc[(data['Age'] > 32) & (data['Age'] <= 48), 'Age'] = 2
    data.loc[(data['Age'] > 48) & (data['Age'] <= 64), 'Age'] = 3
    data.loc[ data['Age'] > 64, 'Age']
train_df.head()

Ahora podemos eliminar la variable AgeRango.

In [None]:
train_df = train_df.drop(['AgeRango'], axis=1)
data_df = [train_df, test_df]
train_df.head()

#### (e) Crear una nueva característica combinando características existentes 

Podemos crear una nueva variable para FamilySize que combine Parch y SibSp. Esto nos permitirá eliminar Parch y SibSp de nuestros conjuntos de datos.

In [None]:
for datas in data_df:
    datas['FamilySize'] = data['SibSp'] + data['Parch'] + 1

train_df[['FamilySize', 'Survived']].groupby(['FamilySize'], as_index=False).mean().sort_values(by='Survived', ascending=False)

Podemos crear otra característica llamada **IsAlone**.

In [None]:
for data in data_df:
    data['IsAlone'] = 0
    data.loc[data['FamilySize'] == 1, 'IsAlone'] = 1

train_df[['IsAlone', 'Survived']].groupby(['IsAlone'], as_index=False).mean()

Eliminemos las características Parch, SibSp y FamilySize en favor de **IsAlone**.

In [None]:
train_df = train_df.drop(['Parch', 'SibSp', 'FamilySize'], axis=1)
test_df = test_df.drop(['Parch', 'SibSp', 'FamilySize'], axis=1)
data_df = [train_df, test_df]

train_df.head()

También podemos crear una variable artificial combinando Pclass y Age.

In [None]:
for data in data_df:
    data['Age*Class'] = data.Age * data.Pclass

train_df.loc[:, ['Age*Class', 'Age', 'Pclass']].head(10)

#### (f) Completar datos faltantes en variables categóricas

La característica **Embarked** toma valores S, Q, C según el puerto de embarque. Nuestro conjunto de datos de entrenamiento tiene dos valores perdidos. Simplemente los llenamos con la ocurrencia más común.

In [None]:
freq_port = train_df.Embarked.dropna().mode()[0]
freq_port

In [None]:
for data in data_df:
    data['Embarked'] = data['Embarked'].fillna(freq_port)
    
train_df[['Embarked', 'Survived']].groupby(['Embarked'], as_index=False).mean().sort_values(by='Survived', ascending=False)

#### (g) Conversión de características categóricas a numéricas

Ahora podemos convertir la función Embarked a partir de una nueva variable de puerto (numérico).

In [None]:
for data in data_df:
    data['Embarked'] = data['Embarked'].map( {'S': 0, 'C': 1, 'Q': 2} ).astype(int)

train_df.head()

#### (h) Completar y convertir rápidamente una característica numérica

Ahora podemos completar la variable Fare (Tarifa) para el valor faltante único en el conjunto de datos de prueba usando "la moda" para obtener el valor que ocurre con más frecuencia para esta columna. Hacemos esto en una sola línea de código.

Tener en cuenta que no estamos creando una nueva característica intermedia ni realizando ningún análisis adicional de correlación para adivinar la característica faltante, ya que solo reemplazamos un valor. El objetivo de finalización logra el requisito deseado para que el algoritmo del modelo opere con valores no nulos.

También es posible que deseemos redondear la tarifa a dos decimales, ya que representa la moneda.

In [None]:
test_df['Fare'].fillna(test_df['Fare'].dropna().median(), inplace=True)
test_df.head()

Ahora podemos crear un rango de tarifas en la variable FareRango.

In [None]:
train_df['FareRango'] = pd.qcut(train_df['Fare'], 4)
train_df[['FareRango', 'Survived']].groupby(['FareRango'], as_index=False).mean().sort_values(by='FareRango', ascending=True)

Convertimos la variable tarifa a valores ordinales basados en el rango de la tarifa.

In [None]:
for data in data_df:
    data.loc[ data['Fare'] <= 7.91, 'Fare'] = 0
    data.loc[(data['Fare'] > 7.91) & (data['Fare'] <= 14.454), 'Fare'] = 1
    data.loc[(data['Fare'] > 14.454) & (data['Fare'] <= 31), 'Fare']   = 2
    data.loc[ data['Fare'] > 31, 'Fare'] = 3
    data['Fare'] = data['Fare'].astype(int)

#Eliminamos la variable de rango de tarifa FareRango
train_df = train_df.drop(['FareRango'], axis=1)
combine = [train_df, test_df]
    
train_df.head(10)

Y el conjunto de datos de prueba.

In [None]:
test_df.head(10)

### 5. Modelizar, predecir y resolver el problema

Ahora estamos listos para entrenar un modelo y predecir la solución requerida. Hay más de 60 algoritmos de modelado predictivo para elegir. Debemos comprender el tipo de problema y el requisito de solución para limitarnos a unos pocos modelos seleccionados que podamos evaluar. Nuestro problema es un problema de clasificación y regresión. Queremos identificar la relación entre la salida (sobrevivido o no) con otras variables o características (género, edad, puerto ...). También estamos realizando una categoría de aprendizaje automático que se llama aprendizaje supervisado, ya que entrenamos nuestro modelo con un conjunto de datos determinado. Con estos dos criterios: aprendizaje supervisado más clasificación y regresión, podemos reducir nuestra elección de modelos a unos pocos. Estos incluyen:

* Regresión logística (Logistic Regression)
* KNN o k-Vecinos más cercanos (KNN or k-Nearest Neighbors)
* Máquinas de vectores de soporte (Support Vector Machines o SVM)
* Clasificador ingenuo de Bayes (Naive Bayes classifier)
* Árbol de decisión (Decision Tree)
* Bosque aleatorio (Random Forrest)
* Perceptrón
* Red neuronal artificial (Artificial neural network o ANN)
* RVM o máquina de vectores de relevancia (Relevance Vector Machine)

In [None]:
# Trabajaremos con variables X,Y de entranamiento y X para prueba
# X contendra todas las variables independientes, menos Survived (la variable dependiente)
# Y sera la variable dependiente Survived

X_train = train_df.drop("Survived", axis=1)
Y_train = train_df["Survived"]
# Eliminamos el Id del pasajero en el conjunto de datos de prueba
X_test  = test_df.drop("PassengerId", axis=1).copy()

X_train.shape, Y_train.shape, X_test.shape

#### Algoritmo de Regresión Logística

La regresión logística es un modelo útil para ejecutar al principio del flujo de trabajo. La regresión logística mide la relación entre la variable dependiente categórica (característica) y una o más variables independientes (características) mediante la estimación de probabilidades utilizando una función logística, que es la distribución logística acumulativa. Referencia [Wikipedia](https://en.wikipedia.org/wiki/Logistic_regression).

Tener en cuenta la puntuación de confianza generada por el modelo en función de nuestro conjunto de datos de entrenamiento.

In [None]:
# Regresión logística

logreg = LogisticRegression()
logreg.fit(X_train, Y_train)
Y_pred = logreg.predict(X_test)
acc_log = round(logreg.score(X_train, Y_train) * 100, 2)
acc_log

Podemos utilizar la regresión logística para validar nuestras suposiciones y decisiones para crear caracteristicas y conseguir los objetivos. Esto se puede hacer calculando el coeficiente de las características en la función de decisión.

Los coeficientes positivos aumentan las probabilidades logarítmicas de la respuesta (y por lo tanto aumentan la probabilidad) y los coeficientes negativos disminuyen las probabilidades logarítmicas de la respuesta (y por lo tanto disminuyen la probabilidad).

* El sexo es el coeficiente positivo más alto, lo que implica que a medida que aumenta el valor de Sexo (hombre: 0 a mujer: 1), la probabilidad de Sobrevivir = 1 aumenta más.

* A la inversa, a medida que aumenta Pclass, la probabilidad de Sobrevivir = 1 es la que más disminuye.

* De esta manera, Edad * Clase es una buena característica artificial para modelar, ya que tiene la segunda correlación negativa más alta con Survived.

* También lo es el título como la segunda correlación positiva más alta.

In [None]:
coeff_df = pd.DataFrame(train_df.columns.delete(0))
coeff_df.columns = ['Caracteristica']
coeff_df["Correlacion"] = pd.Series(logreg.coef_[0])

coeff_df.sort_values(by='Correlacion', ascending=False)

A continuación, modelamos utilizando Support Vector Machines, que son modelos de aprendizaje supervisado con algoritmos de aprendizaje asociados que analizan los datos utilizados para el análisis de clasificación y regresión. Dado un conjunto de muestras de entrenamiento, cada una marcada como perteneciente a una u otra de dos categorías , un algoritmo de entrenamiento de SVM crea un modelo que asigna nuevas muestras de prueba a una categoría u otra, convirtiéndolo en un clasificador lineal binario no probabilístico. Referencia [Wikipedia](https://en.wikipedia.org/wiki/Support_vector_machine).

#### Algoritmo Support Vector Machines

In [None]:
# Support Vector Machines

svc = SVC()
svc.fit(X_train, Y_train)
Y_pred = svc.predict(X_test)
acc_svc = round(svc.score(X_train, Y_train) * 100, 2)
acc_svc

#### Algoritmo KNN o k-Vecinos más cercanos

En el reconocimiento de patrones, el algoritmo k-Vecinos más cercanos (o k-NN para abreviar) es un método no paramétrico utilizado para clasificación y regresión. Una muestra se clasifica por mayoría de votos de sus vecinos, y la muestra se asigna a la clase más común entre sus k vecinos más cercanos (k es un número entero positivo, típicamente pequeño). Si k = 1, entonces el objeto simplemente se asigna a la clase de ese único vecino más cercano. Referencia [Wikipedia](https://en.wikipedia.org/wiki/K-nearest_neighbors_algorithm).

La puntuación de confianza KNN es mejor que la regresión logística.

In [None]:
knn = KNeighborsClassifier(n_neighbors = 3)
knn.fit(X_train, Y_train)
Y_pred = knn.predict(X_test)
acc_knn = round(knn.score(X_train, Y_train) * 100, 2)
acc_knn

#### Algoritmo Naive Bayes

En el aprendizaje automático, los clasificadores de Bayes ingenuos son una familia de clasificadores probabilísticos simples basados en la aplicación del teorema de Bayes con supuestos de independencia sólidos (ingenuos) entre las características. Los clasificadores Naive Bayes son altamente escalables y requieren un número de parámetros lineales en el número de variables (características) en un problema de aprendizaje. Referencia [Wikipedia](https://en.wikipedia.org/wiki/Naive_Bayes_classifier).

El puntaje de confianza generado por el modelo es el más bajo entre los modelos evaluados hasta ahora.

In [None]:
# Gaussian Naive Bayes

gaussian = GaussianNB()
gaussian.fit(X_train, Y_train)
Y_pred = gaussian.predict(X_test)
acc_gaussian = round(gaussian.score(X_train, Y_train) * 100, 2)
acc_gaussian

#### Algoritmo Arbol de Decision

Este modelo utiliza un árbol de decisiones como modelo predictivo que asigna características (ramas de árboles) a conclusiones sobre el valor objetivo (hojas de árboles). Los modelos de árbol en los que la variable de destino puede tomar un conjunto finito de valores se denominan árboles de clasificación; en estas estructuras de árbol, las hojas representan etiquetas de clase y las ramas representan conjunciones de características que conducen a esas etiquetas de clase. Los árboles de decisión en los que la variable de destino puede tomar valores continuos (normalmente números reales) se denominan árboles de regresión. Referencia [Wikipedia](https://en.wikipedia.org/wiki/Decision_tree_learning).

El puntaje de confianza del modelo es el más alto entre los modelos evaluados hasta ahora.

In [None]:
# Decision Tree

decision_tree = DecisionTreeClassifier()
decision_tree.fit(X_train, Y_train)
Y_pred = decision_tree.predict(X_test)
acc_decision_tree = round(decision_tree.score(X_train, Y_train) * 100, 2)
acc_decision_tree

#### Algoritmo Random Forrest

El siguiente modelo de bosques aleatorios es uno de los más populares. Los bosques aleatorios o los bosques de decisión aleatorios son un método de aprendizaje por conjuntos para la clasificación, regresión y otras tareas, que operan mediante la construcción de una multitud de árboles de decisión (n_estimators = 100) en el momento del entrenamiento y dando salida a la clase que es el modo de las clases (clasificación) o predicción media (regresión) de los árboles individuales. Referencia [Wikipedia](https://en.wikipedia.org/wiki/Random_forest).

El puntaje de confianza del modelo es el más alto entre los modelos evaluados hasta ahora. Decidimos utilizar la salida de este modelo (Y_pred) para crear la presentación de resultados de nuestra competencia.

In [None]:
# Random Forest

random_forest = RandomForestClassifier(n_estimators=100)
random_forest.fit(X_train, Y_train)
Y_pred = random_forest.predict(X_test)
random_forest.score(X_train, Y_train)
acc_random_forest = round(random_forest.score(X_train, Y_train) * 100, 2)
acc_random_forest

#### Algoritmo del Perceptrón

El perceptrón es un algoritmo para el aprendizaje supervisado de clasificadores binarios (funciones que pueden decidir si una entrada, representada por un vector de números, pertenece a alguna clase específica o no). Es un tipo de clasificador lineal, es decir, un algoritmo de clasificación que hace sus predicciones basándose en una función de predicción lineal que combina un conjunto de pesos con el vector de características. El algoritmo permite el aprendizaje en línea, ya que procesa los elementos del conjunto de entrenamiento de uno en uno. Referencia  [Wikipedia](https://en.wikipedia.org/wiki/Perceptron).

In [None]:
# Perceptron
perceptron = Perceptron()
perceptron.fit(X_train, Y_train)
Y_pred = perceptron.predict(X_test)
acc_perceptron = round(perceptron.score(X_train, Y_train) * 100, 2)
acc_perceptron

In [None]:
X_train

### Evaluación del modelo

Ahora podemos clasificar nuestra evaluación de todos los modelos para elegir el mejor para nuestro problema. Si bien tanto el árbol de decisiones como el bosque aleatorio obtienen la misma puntuación, elegimos usar el bosque aleatorio, ya que corrigen el hábito de los árboles de decisión de adaptarse en exceso a su conjunto de entrenamiento.

In [None]:
modelos = pd.DataFrame({
    'Model': ['Support Vector Machines', 'KNN', 'Logistic Regression', 
              'Random Forest', 'Naive Bayes', 'Perceptron', 'Decision Tree'],
    'Score': [acc_svc, acc_knn, acc_log, 
              acc_random_forest, acc_gaussian, acc_perceptron, 
              acc_decision_tree]})
modelos.sort_values(by='Score', ascending=False)

### Referencias 

Este notebook ha sido creado en base a un gran trabajo realizado resolviendo la competencia Titanic y otras fuentes.

- [A journey through Titanic](https://www.kaggle.com/omarelgabry/titanic/a-journey-through-titanic)
- [Getting Started with Pandas: Kaggle's Titanic Competition](https://www.kaggle.com/c/titanic/details/getting-started-with-random-forests)
- [Titanic Best Working Classifier](https://www.kaggle.com/sinakhorami/titanic/titanic-best-working-classifier)