# Minería de datos descriptiva: Titanic

En esta primera práctica de Pandas vamos a implementar unos ejemplos de análisis de datos con un dataset muy sencillo (y muy típico para el aprendizaje) que contiene la información de los datos del Titanic.

Una vez importado el módulo pandas, vamos a echar un vistazo al dataset titanic: cuántas filas tiene, cuántas columnas, qué indica cada columna, etc.

In [1]:
import pandas as pd

En primer lugar se importa una librería para realizar las comparaciones entre los resultados obtenidos y los que se deberían obtener a lo largo de la práctica. De este modo podéis saber en muchos apartados si el resultado es correcto.

In [2]:
from test_helper import Test

Lee los datos contenidos en el archivo titanic.csv. Para ello utiliza la función read_csv. Muestra el número de filas y columnas del dataset.

In [3]:
titanic = pd.read_csv('titanic.csv') 

In [8]:
Test.assertEquals(titanic.shape, (891, 12), 'Dimensiones incorrectas')

1 test passed.


Muestra toda la información de los 5 primeros pasajeros.

In [10]:
titanic.head()

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.25,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7.925,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.05,,S


Muestra los nombres de las columnas (es el índice de las mismas)

In [16]:
list(titanic.columns) 

['PassengerId',
 'Survived',
 'Pclass',
 'Name',
 'Sex',
 'Age',
 'SibSp',
 'Parch',
 'Ticket',
 'Fare',
 'Cabin',
 'Embarked']

A continuación puedes leer una descripción de cada una de las columnas que forman parte del dataset

-	PassengerId: identificador del pasajero
-	Survided: superviviente. 0 (no superviviente); 1 (superviviente)
-	Pclass: clase del pasajero. 1 (primera clase); 2 (segunda clase); 3 (tercera clase)
-	Name: Nombre del pasajero
-	Sex: Sexo del pasajero
-	Age: Edad del pasajero
-	SibSp: Número de hermanos / cónyuge embarcados
-	Parch: Número de padres / hijos embarcados
-	Ticket: Número de ticket del pasajero
-	Cabin: Cabina del pasajero
-	Embarked: Puerto de embarque. C (Cherbourg); Q (Queenstown); S (Southhampton)
-   Fare: precio del billete del pasajero

Vamos a comenzar con al primera exploración de los datos

Muestra el nombre de los 10 primeros pasajeros que aparezcan en el dataset.

In [63]:
nombres = titanic.head(10).Name

In [64]:
Test.assertEquals(list(nombres.values[0:3]), ['Braund, Mr. Owen Harris', 'Cumings, Mrs. John Bradley (Florence Briggs Thayer)', 'Heikkinen, Miss. Laina'], 'Nombres incorrectos')

1 test passed.


Muestra el nombre, el sexo y la edad de los 10 primeros pasajeros que aparezcan en el dataset.

In [65]:
info= titanic.head(10)[['Name','Sex', 'Age']]

In [66]:
Test.assertEquals(list(info.loc[0]),['Braund, Mr. Owen Harris', 'male', 22.0], 'Datos incorrectos')

1 test passed.


Por último, realiza las mismas operaciones pero con los 10 últimos pasajeros

In [67]:
nombres = titanic.tail(10).Name

In [68]:
Test.assertEquals(list(nombres.values[0:3]), ['Markun, Mr. Johann', 'Dahlberg, Miss. Gerda Ulrika', 'Banfield, Mr. Frederick James'], 'Nombres incorrectos')

1 test passed.


In [69]:
info= titanic.tail(10)[['Name','Sex', 'Age']]

In [70]:
Test.assertEquals(list(info.iloc[-1]),['Dooley, Mr. Patrick', 'male', 32.0], 'Datos incorrectos')

1 test passed.


Mostrar el nombre, sexo y edad de los pasajeros mayores de 60 años (22 en total).

In [77]:
mayores60 = titanic[['Name','Sex', 'Age']][titanic.Age>60]

In [78]:
Test.assertEquals(mayores60.shape,(22, 3), 'Dimensiones incorrectas')
Test.assertEquals(list(mayores60.iloc[0]),['Wheadon, Mr. Edward H', 'male', 66.0], 'Datos incorrectos')

1 test passed.
1 test passed.


Obtener un listado de los nombres de las mujeres que viajaron en primera clase (94 en total).

In [88]:
mujeresPrimera = titanic[['Name']][(titanic.Pclass) == 1 & (titanic.Sex == 'female')]

In [89]:
Test.assertEquals(list(mujeresPrimera.values[:5]),['Cumings, Mrs. John Bradley (Florence Briggs Thayer)', 'Futrelle, Mrs. Jacques Heath (Lily May Peel)', 'Bonnell, Miss. Elizabeth', 'Spencer, Mrs. William Augustus (Marie Eugenie)', 'Harper, Mrs. Henry Sleeper (Myna Haxtun)'], 'Nombres incorrectos')

1 test passed.


Para facilitar el procesado, vamos a cambiar el contenido de la columna Sex: los ‘male’ van a pasar a ser ‘M’ y los female van a pasar a ser ‘F’. Para ello, primero debéis crear una función que reciba un parámetro de entrada y devuelva el carácter ‘M’ si la entrada es ‘male’ o ‘F’ si la entrada es ‘female’. Después, debéis utilizar la función apply para cambiar el dataset.

In [80]:
def cambioNombre(nombre):
    if nombre == 'female':
        return 'F'
    else:
        return 'M'

In [81]:
titanic.Sex = titanic.Sex.apply(cambioNombre)

In [82]:
Test.assertEquals(list(titanic.Sex[:10]),['M', 'F', 'F', 'F', 'M', 'M', 'M', 'M', 'F', 'F'], 'Sexo cambiado incorrectamente')

1 test passed.


Calcular la edad media de los hombre y de las mujeres. Utilizar la función groupby.

In [85]:
mediasFM = titanic.groupby(['Sex']).mean().Age

In [86]:
Test.assertEquals(list(mediasFM.index),['F', 'M'], 'Valores de sexo incorectos')
Test.assertEquals(list(map(lambda x: round(x,3), mediasFM.values)),[27.916, 30.727], 'Medias por sexo incorectas')

1 test passed.
1 test passed.


Calcular la edad máxima y mínima de los hombre y de las mujeres. Utilizar la función groupby.

In [69]:
edadMaxFM = titanic.groupby(['Sex']).max().Age

In [72]:
Test.assertEquals(list(map(lambda x: round(x,3), edadMaxFM.values)),[63.0, 80.0], 'Máximos por sexo incorrectos')

1 test passed.


In [73]:
edadMinFM = titanic.groupby(['Sex']).min().Age

In [74]:
Test.assertEquals(list(map(lambda x: round(x,3), edadMinFM.values)),[0.75, 0.42], 'Mínimos por sexo incorrectos')

1 test passed.


Queremos saber desde qué puerto era desde el que se montaba un mayor número de pasajeros. 

In [65]:
conteoPuertos = titanic.groupby(['Embarked']).count().PassengerId

In [66]:
Test.assertEquals(list(conteoPuertos.index),['C', 'Q', 'S'], 'Puertos incorectos')
Test.assertEquals(list(conteoPuertos.values),[168, 77, 644], 'Conteos por puerto incorrectos')

1 test passed.
1 test passed.


Mostrar, además el número de embarques de cada clase en cada puerto. 

In [153]:
conteoPuertosClase = titanic.groupby(['Embarked','Pclass']).count()
conteoPuertosClase = conteoPuertosClase.PassengerId

In [151]:
Test.assertEquals(list(conteoPuertosClase.values),[85, 17, 66, 2, 3, 72, 127, 164, 353], 'Conteos por puerto y clase incorrectos')

1 test passed.


Realiza el ejercicio anterior pero utilizando una pivot table.

In [132]:
conteoPuertosClasePT = pd.pivot_table(titanic, values='PassengerId', index=['Pclass'], columns=['Embarked'], aggfunc='count')

In [133]:
Test.assertEquals(list(conteoPuertosClasePT.index),[1, 2, 3], 'Categorias (filas) incorrectas')
Test.assertEquals(list(conteoPuertosClasePT.columns),['C', 'Q', 'S'], 'Puertos (columnas) incorrectos')
Test.assertEquals(list(conteoPuertosClasePT.values.ravel()),[85, 2, 127, 17, 3, 164, 66, 72, 353], 'Conteos por puerto y clase incorrectos')

1 test passed.
1 test passed.
1 test passed.


Queremos conocer cuánto costaban los tickets del Titanic. Para ello, calcular la tarifa media de los pasajes. 

In [48]:
mediaBillete = titanic.Fare.mean()

In [49]:
Test.assertEquals(round(mediaBillete, 3),32.204, 'Media de precio de billete incorrecta')

1 test passed.


A continuación, mostar la media de las tarifas en función de la clase. ¿Cuánto costaba de media un pasaje de primera clase? ¿Y de segunda? ¿Y de tercera? 

In [60]:
mediaBilleteClase = titanic.groupby(['Pclass']).mean().Fare

In [61]:
Test.assertEquals(list(map(lambda x: round(x,3), list(mediaBilleteClase.values))),[84.155, 20.662, 13.676], 'Medias de precios de billete por calse incorrectas')

1 test passed.


¿Murió mucha gente en el Titanic? Para ello, calcula el porcentaje de pasajeros que se salvaron. 

In [123]:
porcentajeSupervivientes = (titanic.Survived.sum()/titanic.Survived.size) * 100

In [125]:
Test.assertEquals(round(porcentajeSupervivientes, 3),38.384, 'Porcentaje de supervivientes incorrecto')

1 test passed.


¿Es cierto que los botes salvavidas se reservaron para los pasajeros de primera clase? Obtén el porcentaje de pasajeros que se salvaron de cada clase. 

In [128]:
porcentajeSupervivientesClases = (titanic.groupby(['Pclass']).Survived.sum()/titanic.groupby(['Pclass']).Survived.count())*100

In [129]:
Test.assertEquals(list(map(lambda x: round(x, 3), porcentajeSupervivientesClases.values)),[62.963, 47.283, 24.236], 'Porcentaje de supervivientes por clase incorrecto')

1 test passed.


Y eso de primero niños y mujeres, ¿es cierto? Calcula el porcentaje de mujeres y de hombres que se salvaron.

In [130]:
porcentajeSupervivientesSexo = (titanic.groupby(['Sex']).Survived.sum()/titanic.groupby(['Sex']).Survived.count())*100

In [131]:
Test.assertEquals(list(map(lambda x: round(x, 3), porcentajeSupervivientesSexo.values)),[74.204, 18.891], 'Porcentaje de supervivientes por sexo incorrecto')

1 test passed.


De los pasajeros que se salvaron de cada clase, ¿Qué porcentaje eran hombres y mujeres? Utiliza una pivot table como paso auxiliar para ello.

In [158]:
tabla = pd.pivot_table(titanic, values='Survived', index=['Pclass'], columns=['Sex'], aggfunc='sum')
porcentajeSupervivientesSexoClase.columns = tabla.apply(lambda row: (row.iloc[0])/row.iloc[1]*100, axis=1)

Sex,F,M
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,91,45
2,70,17
3,72,47


In [143]:
Test.assertEquals(list(porcentajeSupervivientesSexoClase.index),[1, 2, 3], 'Clases (filas) incorrectas')
Test.assertEquals(list(porcentajeSupervivientesSexoClase.columns),['F', 'M'], 'Sexo (columnas) incorrecto')
Test.assertEquals(list(map(lambda x: round(x, 3),porcentajeSupervivientesSexoClase.values.ravel())),[66.912, 33.088, 80.46, 19.54, 60.504, 39.496], 'Porcentajes de supervivientes por clase y sexo incorrectos')

1 test passed.
1 test passed.
1 test failed. Porcentajes de supervivientes por clase y sexo incorrectos


Exception: Porcentajes de supervivientes por clase y sexo incorrectos