![SolidQ](https://www.solidq.com/wp-content/uploads/2015/06/Logo-SolidQ-Web.gif)
# Analizando los datos del hundimiento del Titanic


A lo largo de este laboratorio analizaremos el conjunto de datos del hundimiento del Titanic. En la [web de Kaggle](https://www.kaggle.com/c/titanic) podremos encontrar más información sobre las diferentes variables que contiene el dataset. 

En esta primera toma de contacto con el Conjunto de Datos nos centraremos en:

 1. Primeros pasos con el dataset
 2. Exploración del dataset y generación de estadísticas
 3. Presentación de resultados

### Cargando el conjunto de datos y obteniendo información básica:
El objetivo de esta sección es que nos familiarizemos con Pandas y seamos capaces de manipular el dataset a nuestro interés.

utilizaremos para este caso el fichero titanic_data.csv

In [0]:
import pandas

input_file = 'titanic_data.csv'
separador = ","
dataset = pandas.read_csv(filepath_or_buffer=input_file, sep=separador)

Ahora que ya tenemos el conjunto de datos cargado en memoria vamos a analizarlo un poco. En esta tarea intenta generar el código necesario para responder a las siguiente preguntas:

 * ¿Cuantas filas y columnas contiene el dataset?
 * ¿Cual es el nombre de las columnas que incluye el dataset?
 * ¿Qué información contiene la primera fila del dataset?¿Y la última?


In [0]:
print "El numero de filas y columnas que incluye el dataset es: ",dataset.shape
print "\nLos nombres de las columnas son: \n",dataset.columns
print "\nLa primera fila del dataset es: \n",dataset.head(1)
print "\nLa última fila del dataset es: \n",dataset.tail(1)

El numero de filas y columnas que incluye el dataset es:  (1045, 12)

Los nombres de las columnas son: 
Index([u'PassengerId', u'Survived', u'Pclass', u'Name', u'Sex', u'Age',
       u'SibSp', u'Parch', u'Ticket', u'Fare', u'Cabin', u'Embarked'],
      dtype='object')

La primera fila del dataset es: 
   PassengerId  Survived  Pclass                     Name   Sex   Age  SibSp  \
0            1         0       3  Braund, Mr. Owen Harris  male  22.0      1   

   Parch     Ticket  Fare Cabin Embarked  
0      0  A/5 21171  7.25   NaN        S  

La última fila del dataset es: 
      PassengerId  Survived  Pclass                          Name   Sex   Age  \
1044         1307         0       3  Saether, Mr. Simon Sivertsen  male  38.5   

      SibSp  Parch              Ticket  Fare Cabin Embarked  
1044      0      0  SOTON/O.Q. 3101262  7.25   NaN        S  


Vamos a operar con nuestro dataset. Por ejemplo vamos a seleccionar las columnas: Name, Sex, Age y las filas de la 3 a la 5:

In [0]:

print "Imprimir las filas 3 a 5 y columnas Name, Sex, Age\n", dataset.loc[[3,4,5],['Name','Sex','Age']]

Sin embargo, ahora quiero seleccionar las 4 primeras filas del dataset y la tercera y cuarta columnas:

In [0]:
print "Imprimir las 4 primeras filas y columnas tercera y cuarta\n", dataset.iloc[:4,[2,3]]

Perfecto!, ya sabemos seleccionar filas y columnas!, ahora el objetivo es hacer modificaciones. Por ejemplo cambiemos a Allen, Mr. William Henry su edad (actualmente 54 años) por 260. Para ello tendremos que seleccionar la fila en la que la columna 'Name' sea igual a 'Allen, Mr. William Henry', de la siguiente manera:

Para modificar este valor, tendremos que asignarle el que queremos (260):

In [0]:
# Asignar nueva edad al pobre Allen:
print "Edad de Allen, Mr. William Henry:\n ", dataset.loc[dataset['Name'].isin(['Allen, Mr. William Henry']),'Age']
dataset.loc[dataset['Name']=='Allen, Mr. William Henry','Age'] = 260


¿Cual es ahora la edad de Allen?

In [0]:
print "La nueva edad de Allen, Mr. William Henry:\n ", dataset.loc[dataset['Name']=='Allen, Mr. William Henry','Age']

Como vemos, ya hemos editado su edad!. Aunque le devolveremos a los 54 años, a estas alturas ya sabemos seleccionar subsets de datos y editarlos si lo necesitamos.

In [0]:
# Devolvamos a Allen su edad:
dataset.loc[dataset['Name']=='Allen, Mr. William Henry','Age'] = 54

### Exploración del dataset y generación de estadísticas
¿Qué sabemos por ahora de nuestros datos? Practicamente nada!. Vamos a utilizar una serie de funciones que se incluyen en Pandas para obtener facilmente valiosa información de los mismos. 

El primera información que se ha de obtener cuando por primera vez se trabaja con un dataset es la cantidad de ```NAN``` incluidos en el mismo, para ello utilizaremos la función ```.info()``` de Pandas:

In [0]:
# Obtener información sobre el número de valores NAN que se incluyen en el dataset:
print dataset.info()


¿Qué columnas incluyen valores nulos?: Cabin incluye 272 valores no NAN y Embarked 2 NANs

OK OK, vamos a empezar a mirar el dataset de manera que podamos responder a nuestra pregunta principal: ¿Qué factores influyeron en la supervivencia del Titanic?

Pues bien, Pandas incluye la función ```.describe()``` la cual permite obtener estadísticas básicas sobre las distintas columans del dataset: 

In [0]:
print "Imprimir estadísticas básicas del dataset: \n", dataset.describe()

Aquí ya tenemos información útil!!!, ya podemos responder a las siguientes preguntas:
 * ¿Qué porcentaje de supervivientes hubo? %
 * ¿Cual era la media de edad? 
 * ¿Cual fue el ticket (Fare) más caro pagado?¿Y el que menos?  y 
 * ¿Cuantas clases (Pclass) incluye el barco?

No echais de menos una columna? 'Sex' no esta incluida en este análisis, porque? Si os fijais en la información de ```.info()``` aquí solo se han incluido las columnas numéricas (float o int64). vamos a echar un vistazo a 'Sex' para entender el formato que tiene:

In [0]:
print dataset.Sex.head()

Como vemos "male" y "female" son los valores incluidos, comprobemos que estos son los únicos valores que se incluyen para todo el dataset

In [0]:
# Imprimimos todos los valores de Sex en el dataset:
print dataset.Sex.unique()

Como este formato nos impide trabajar con la función ```.describe()```, vamos a transformar esta columna en otros valores que nos sean de más utilidad. 

In [0]:
# definir functión que haga el cambio:
def gender_number(gender):
    if gender == 'male': return 0.
    return 1.

# Aplicar el cambio a todas las filas con la función Apply:
dataset.Sex = dataset.Sex.apply(lambda x:gender_number(x))

¿Que aspecto tiene ahora 'Sex'?

In [0]:
# Imprimimos todos los valores de Sex en el dataset:
print dataset.Sex.unique()

Bien!, ejecutemos ahora ```.describe()``` de nuevo sobre la columna 'Sex'

In [0]:
# Obtengamos estadísticas de 'Sex'
print dataset.Sex.describe()

Vaya, parece que no ayuda a entender como están distribuidos los sexos? Parece que no.

In [0]:
# Obtener el recuento de hombres y mujeres en el barco:
print dataset.groupby('Sex').count().iloc[:,1]

¿Cuantos hombres y mujeres había? 388 mujeres y 657 hombres

Hagamos una cosa ahora, con el objetivo de entender como están distribuidos los pasajeros por edades vamos a crear una nueva columna llamada 'Age_ranges' que incluya el rango de edad a la que cada pasajero corresponde. El objetivo será obtener cuantos pasajeros hay en el rango [0-10), [10,20) .... 

In [0]:
# Function para generar los rangos de edad:
def age_ranges(x):
    return '[{0}-{1})'.format(10*int(x/10), 10 +10*int(x/10))

# Crear nueva columna:
dataset['Age_ranges'] = np.nan

# Asignar los valores rangos de edad correspondientes:
dataset['Age_ranges'] = dataset.Age.apply(lambda x: age_ranges(x))

# Comprobar que las cosas funcionan como se espera:
print dataset[['Age_ranges','Age']].head(10)

¿Cómo están distribuidos los pasajeros por rangos de edad en el barco?

In [0]:
# Imprimir distribución de rangos de edad en el barco:
print dataset.groupby('Age_ranges').count().iloc[:,1]

¿Cuantos niños menores de 10 años hay incluidos? 82

Y ahora... ¿Quien sabría decir como están distribuidos los pasajeros por edades y sexos?

In [0]:
# Imprimir distribución de rangos de edad en el barco por sexo:
print dataset.groupby(['Sex','Age_ranges']).count().iloc[:,1]


Creo que llegados a este punto, ya no deberíamos tener problemas en sacar los factores que influyeron en la supervivencia de los pasajeros en el Titanic. Por ejemplo, ¿como se distribuyen los supervivientes por sexo?, ¿y por edades, clase, precio del billete, etc?

In [0]:
# Distribución de supervivientes por edades:
print dataset.groupby(['Survived','Age_ranges']).count().iloc[:,1]
# Distribución de supervivientes por sexo:
print dataset.groupby(['Survived','Sex']).count().iloc[:,1]
# Distribución de supervivientes por clase:
print dataset.groupby(['Survived','Pclass']).count().iloc[:,1]

Bueno, ya tenemos el número de pasajeros que sobrevivieron por edad, sexo y clase, pero lo ideal (y esperado) es tener el porcentage de supervivencia por edad, sexo, clase, etc. 

Por ejemplo, el porcentaje de superviviencia por edades lo podemos calcular de la siguiente manera:

**NOTA**: Un pasajero que sobrevive tiene valor 1, con lo cual, si sobreviven 5 pasajeros de 10, la media será igual al porcentaje de supervivencia.

In [0]:
# Porcentaje de supervivientes por edad:
print dataset.groupby('Age_ranges').mean().loc[:,'Survived']


OK, ¿Cuales son los porcentajes de superviviencia por edades, edades y sexos, y demás combinaciones que se te ocurran? 

In [0]:
# Porcentaje de supervivientes por Sexo:
print dataset.groupby('Sex').mean().loc[:,'Survived']
# Porcentaje de supervivientes por Pclass:
print dataset.groupby('Pclass').mean().loc[:,'Survived']
# Porcentaje de supervivientes por Sexo y edad:
print dataset.groupby(['Sex','Age_ranges']).mean().loc[:,'Survived']
# Porcentaje de supervivientes por Sexo y Pclass:
print dataset.groupby(['Sex','Pclass']).mean().loc[:,'Survived']
# Porcentaje de supervivientes por Sexo y Age_ranges:
print dataset.groupby(['Pclass','Age_ranges']).mean().loc[:,'Survived']

Ahora si!, ¿Que factores influyeron principalmente en la supervivencia de los pasajeros?
* 
* 
* 

### Presentación de resultados
Es muy importante no sólo saber analizar los datos con los que se trabaja y obtener conclusiones, sino también comunicar de una manera efectiva y clara los resultados a los usuarios para que estos puedan entender las conclusiones y el trabajo realizado. Por esta razón, vamos a practicar con una serie de gráficas que sirvan para representar de una manera clara y contundente los resultados de nuestro analisis.

El primer tipo de gráficas que vamos a generar será para describir las variables que incluye el dataset, por ejemplo representar como se distribuyen los pasajeros por clases, por sexos, por edades....

In [0]:
# Devolvamos el campo gender a sus valores originales....
# definir functión que haga el cambio:
def numbertogender(gender):
    if gender == 0.: return 'male'
    return 'female'

# Aplicar el cambio a todas las filas con la función Apply:
dataset.Sex = dataset.Sex.apply(lambda x:numbertogender(x))

In [0]:
import matplotlib.pyplot as plt
%matplotlib inline

# Seleccionamos el estilo de las gráficas:
plt.style.use('ggplot')

# Generamos el Boxplot:
dataset.boxplot(return_type='axes')

# Representamos la gráfica:
plt.show()




¿Qué podemos conclusiones podemos sacar a partir de esta representación?
* Mediana (rojo)
* Primer y tercer quartil
* Outliers

In [0]:
# Generamos el Boxplot, quitando la columna 'PassengerId','Survived','Pclass','SibSp','Parch':
dataset.loc[:,~dataset.columns.isin(['PassengerId','Survived','Pclass','SibSp','Parch'])].boxplot(return_type='axes')

# Añadimos título y etiquetas:
plt.title('Variables del dataset Titanic')
plt.xlabel('Variables')
plt.ylim([0,300])

# Representamos la gráfica:
plt.show()

¿Cómo se genera un historgrama de cualquier variable?, A continuación muestro como se genera el histograma de la columna 'Age':

In [0]:
# Generamos el histograma de Age:


# Añadimos título y etiquetas:


# Representamos la gráfica:


¿Podrías generar un histograma para la columna ```Fare```?

In [0]:
# Generamos el histograma de Fare:
dataset.loc[:,'Fare'].hist(bins=15)

# Añadimos título y etiquetas:
plt.title('Distribucion de Precios de ticket en el Titanic')
plt.xlabel('Precios')
plt.ylabel('Frecuencias')

# Representamos la gráfica:
plt.show()


¿Podriamos ver como se distribuyen los pasajeros por edades y por otra variable (género, supervivencia, clase....)? 

In [0]:
# Generamos el histograma de Age por Sex:
dataset.loc[:,['Age','Sex']].hist(bins=15,by='Sex',sharey=True)

# Representamos la gráfica:
plt.show()


In [0]:
#Otra opción
# Generamos el histograma de Age por Sex:
dataset.loc[dataset.Sex=='male','Age'].hist(bins=15,color='blue',alpha=0.5,label='male')
dataset.loc[dataset.Sex=='female','Age'].hist(bins=15,color='red',alpha=0.5,label='female')

# Añadimos título y etiquetas:
plt.title('Distribucion de Edades por Sexo en el Titanic')
plt.xlabel('Edades')
plt.ylabel('Frecuencias')
plt.legend()

# Representamos la gráfica:
plt.show()

¿Cómo se distribuyen los pasajeros por edad y por clase? (selecciones [colores](http://html-color-codes.info/) para cada una de las clases)

In [0]:
# Generamos el histograma de Age por clase:
dataset.loc[dataset.Pclass==3,'Age'].hist(bins=15,color='#40FF00',alpha=0.5,label='Tercera')
dataset.loc[dataset.Pclass==2,'Age'].hist(bins=15,color='#00FFFF',alpha=0.5,label='Segunda')
dataset.loc[dataset.Pclass==1,'Age'].hist(bins=15,color='#610B5E',alpha=0.5,label='Primera')

# Añadimos título y etiquetas:
plt.title('Distribucion de Edades por Clases en el Titanic')
plt.xlabel('Edades')
plt.ylabel('Frecuencias')
plt.legend()

# Representamos la gráfica:
plt.show()

Ahora vamos a empezar a generar gráficas para demostrar como se distribuyen los supervivientes por Sexo, Clase y Edad. Antes vimos que esta información la obteniamos haciendo agrupaciones sobre el dataset. En este caso repetiremos el proceso y lo representaremos, por ejemplo el siguiente proceso muestra como se distribuyen los pasajeros por sexo y los porcentajes de superviviencia asociados a los mismos:

In [0]:
# Vamos a crear una figura con dos subplots:
f, axarr = plt.subplots(1,2,figsize=(10,7))
f.suptitle('Distribucion y probabilidad de Supervivencia\n de pasajeros por Sexo', fontsize=14, fontweight='bold')

# En la gráfica de la izquierda vamos a representar la cantidad de pasajeros por Sexo
dataset.groupby('Sex').count().iloc[:,1].plot.pie(ax=axarr[0],colors=['red','blue'],autopct='%1.1f%%')
axarr[0].set_ylabel('Distribucion por Sexos de Pasajeros')

# En la gráfica de la derecha vamos a representar la probabilidad de superviviencia por Sexo
dataset.groupby('Sex').mean().iloc[:,1].plot.bar(ax=axarr[1],color=['red','blue'],alpha=0.5)
axarr[1].set_ylabel('Probabilidad de Supervivencia')
axarr[1].set_ylim([0,1])

plt.show()




¿Podriamos hacer lo mismo con 'Age_ranges' o 'Pclass'?

In [0]:
# Vamos a crear una figura con dos subplots:
f, axarr = plt.subplots(1,2,figsize=(10,7))
f.suptitle('Distribucion y probabilidad de Supervivencia\n de pasajeros por Clase', fontsize=14, fontweight='bold')

# En la gráfica de la izquierda vamos a representar la cantidad de pasajeros por Clase
dataset.groupby('Pclass').count().iloc[:,1].plot.pie(ax=axarr[0],labels=['Primera','Segunda','Tercera']\
                                                     ,autopct='%1.1f%%',colors=['#610B5E','#00FFFF','#40FF00'])
axarr[0].set_ylabel('Distribucion por Clase de Pasajeros')

# En la gráfica de la derecha vamos a representar la probabilidad de superviviencia por Clase
dataset.groupby('Pclass').mean().iloc[:,1].plot.bar(ax=axarr[1],color=['#610B5E','#00FFFF','#40FF00']\
                                                    ,alpha=0.5)
axarr[1].set_ylabel('Probabilidad de Supervivencia')
axarr[1].set_ylim([0,1])

plt.show()


In [0]:
# Vamos a crear una figura con dos subplots:
f, axarr = plt.subplots(1,2,figsize=(10,7))
f.suptitle('Distribucion y probabilidad de Supervivencia\n de pasajeros por Rango de Edad', fontsize=14, fontweight='bold')

# En la gráfica de la izquierda vamos a representar la cantidad de pasajeros por Sexo
dataset.groupby('Age_ranges').count().iloc[:,1].plot.pie(ax=axarr[0],autopct='%1.1f%%',colors=['#610B5E','#00FFFF','#40FF00'])
axarr[0].set_ylabel('Distribucion por Rangos de Edad de Pasajeros')

# En la gráfica de la derecha vamos a representar la probabilidad de superviviencia por Sexo
dataset.groupby('Age_ranges').mean().iloc[:,1].plot.bar(ax=axarr[1],alpha=0.5)
axarr[1].set_ylabel('Probabilidad de Supervivencia')
axarr[1].set_ylim([0,1])

f.tight_layout()
plt.show()


Por último, vamos a comprobar como se distribuye la probabilidad de supervivencia por Sexo y por Clase, para ello. Utiliza pivot_table.

In [0]:
# Este es el dataframe que vamos a representar:
print dataset.groupby(['Sex','Pclass']).mean().reset_index().pivot(index='Pclass',columns='Sex',values='Survived')

In [0]:
dataset.groupby(['Sex','Pclass']).mean().reset_index().pivot(
    index='Pclass',columns='Sex',values='Survived').plot.bar(color=['red','blue'],alpha=0.5)

# Añadimos título y etiquetas:
plt.title('Probabilidad de supervivencia\n por Sexo y Clases en el Titanic')
plt.xlabel('Clase')
plt.ylabel('Prob. de Supervivencia')
plt.xticks(range(3), ['Primera', 'Segunda', 'Tercera'], color='black')
plt.legend()

plt.show()


Felicidades!, llegados a este punto ya hemos representado visualemente las conclusiones que obtuvimos en un primer momento. Hemos demostrado que la probabilidad de superviviencia viene mayormente determinada por el Sexo, Clase y en menor medida por la Edad (y probablemente sea también factor de otras variables que no hemos analizado en este ejercicio

# Creando el Modelo

En esta seción vamos a trabajar en la creación de un modelo que sirva para determinar si un pasajero va a sobrevivir o no. Lo primero que haremos será crear nuestro propio modelo en función de las conclusiones que hemos sacado, y después lo compararemos con un árbol de decision que entrenaremos con el dataset.

Lo primero que vamos a definir es el score accuracy para medir la calidad de nuestros resultados:



In [0]:
def accuracy_score(truth, pred):
    """ Devuelve accuracy score comparando valores predichos (pred) contra reales (truth). """
    
    # Ensure that the number of predictions matches number of outcomes
    if len(truth) == len(pred): 
        
        # Calculate and return the accuracy as a percent
        return "Predicciones tienen un accuracy de {:.2f}%.".format((truth == pred).mean()*100)
    
    else:
        return "El número de predicciones no es igual al numero de valores reales!"

Lo siguiente que vamos a hacer es eliminar la columa 'Survived' del dataset y marcarla como outcome

In [0]:
# 'Survived' será nuestra etiqueta y el valor que queremos predecir:

# Representar las primeras 5 filas para comprobar los cambios


Podríamos mejorar el siguiente modelo?

In [0]:
# Predecir la supervivencia del pasajero
# 1 significa que el pasajero sobrevive
# 0 significa que el pasajero no sobrevive
    
    
    
 


# Crear predicciones




# Obtener resultado:
accuracy_score(outcomes, predictions)

Por otro lado vamos a entrenar un árbol de decisión

In [0]:
# Crear un conjunto de datos que sirvan entrenar el árbol de decision (train) y un conjunto de datos de validacion (test)
from sklearn.cross_validation import StratifiedShuffleSplit

# Definir el arbol de decision
from sklearn import tree

# Entrenarlo con los datos de train


# Crear predicciones


# Obtener resultado:


Representamos el árbol de decisión

In [0]:
from sklearn.externals.six import StringIO
import pydot 
print data.columns
dot_data = StringIO() 
tree.export_graphviz(clf, out_file=dot_data,  
                         feature_names=data.columns,
                         class_names=['No sobrevive','Sobrevive'], 
                         filled=True, rounded=True,
                         proportion = True,
                         special_characters=True)  
graph = pydot.graph_from_dot_data(dot_data.getvalue())  
Image(graph.create_png())