# Minería de datos descriptiva: Titanic

En esta primera práctica de Pandas vamos a implementar unos ejemplos de análisis de datos con un dataset muy sencillo (y muy típico para el aprendizaje) que contiene la información de los datos del Titanic.

Una vez importado el módulo pandas, vamos a echar un vistazo al dataset titanic: cuántas filas tiene, cuántas columnas, qué indica cada columna, etc.

In [2]:
import pandas as pd

En primer lugar se importa una librería para realizar las comparaciones entre los resultados obtenidos y los que se deberían obtener a lo largo de la práctica. De este modo podéis saber en muchos apartados si el resultado es correcto.

In [3]:
from test_helper import Test

Lee los datos contenidos en el archivo titanic.csv. Para ello utiliza la función read_csv. Muestra el número de filas y columnas del dataset.

In [4]:
# titanic = <RELLENAR>
titanic = pd.read_csv('titanic.csv',delimiter=',')

In [5]:
Test.assertEquals(titanic.shape, (891, 12), 'Dimensiones incorrectas')

1 test passed.


Muestra toda la información de los 5 primeros pasajeros.

In [6]:
# <RELLENAR>
print(titanic[:5])

   PassengerId  Survived  Pclass  \
0            1         0       3   
1            2         1       1   
2            3         1       3   
3            4         1       1   
4            5         0       3   

                                                Name     Sex   Age  SibSp  \
0                            Braund, Mr. Owen Harris    male  22.0      1   
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0      1   
2                             Heikkinen, Miss. Laina  female  26.0      0   
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0      1   
4                           Allen, Mr. William Henry    male  35.0      0   

   Parch            Ticket     Fare Cabin Embarked  
0      0         A/5 21171   7.2500   NaN        S  
1      0          PC 17599  71.2833   C85        C  
2      0  STON/O2. 3101282   7.9250   NaN        S  
3      0            113803  53.1000  C123        S  
4      0            373450   8.0500   NaN        S  


Muestra los nombres de las columnas (es el índice de las mismas)

In [7]:
# <RELLENAR>
print(titanic.columns)

print(list(titanic))

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')
['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp', 'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked']


A continuación puedes leer una descripción de cada una de las columnas que forman parte del dataset

-	PassengerId: identificador del pasajero
-	Survided: superviviente. 0 (no superviviente); 1 (superviviente)
-	Pclass: clase del pasajero. 1 (primera clase); 2 (segunda clase); 3 (tercera clase)
-	Name: Nombre del pasajero
-	Sex: Sexo del pasajero
-	Age: Edad del pasajero
-	SibSp: Número de hermanos / cónyuge embarcados
-	Parch: Número de padres / hijos embarcados
-	Ticket: Número de ticket del pasajero
-	Cabin: Cabina del pasajero
-	Embarked: Puerto de embarque. C (Cherbourg); Q (Queenstown); S (Southhampton)
-   Fare: precio del billete del pasajero

Vamos a comenzar con al primera exploración de los datos

Muestra y almacena el nombre de los 10 primeros pasajeros que aparezcan en el dataset.

In [8]:
# nombres = <RELLENAR>

print(titanic.loc[0:9,'Name'])
print('\n')
print(titanic['Name'].head(10))

nombres = titanic.loc[0:9,'Name']


0                              Braund, Mr. Owen Harris
1    Cumings, Mrs. John Bradley (Florence Briggs Th...
2                               Heikkinen, Miss. Laina
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                             Allen, Mr. William Henry
5                                     Moran, Mr. James
6                              McCarthy, Mr. Timothy J
7                       Palsson, Master. Gosta Leonard
8    Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)
9                  Nasser, Mrs. Nicholas (Adele Achem)
Name: Name, dtype: object


0                              Braund, Mr. Owen Harris
1    Cumings, Mrs. John Bradley (Florence Briggs Th...
2                               Heikkinen, Miss. Laina
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)
4                             Allen, Mr. William Henry
5                                     Moran, Mr. James
6                              McCarthy, Mr. Timothy J
7                       Palsson, Mast

In [9]:
Test.assertEquals(list(nombres.values[0:3]), ['Braund, Mr. Owen Harris', 'Cumings, Mrs. John Bradley (Florence Briggs Thayer)', 'Heikkinen, Miss. Laina'], 'Nombres incorrectos')

1 test passed.


Muestra y almacena el nombre, el sexo y la edad de los 10 primeros pasajeros que aparezcan en el dataset.

In [10]:
# info = <RELLENAR>
info = titanic.loc[0:9,['Name','Sex','Age']]

print(info)

                                                Name     Sex   Age
0                            Braund, Mr. Owen Harris    male  22.0
1  Cumings, Mrs. John Bradley (Florence Briggs Th...  female  38.0
2                             Heikkinen, Miss. Laina  female  26.0
3       Futrelle, Mrs. Jacques Heath (Lily May Peel)  female  35.0
4                           Allen, Mr. William Henry    male  35.0
5                                   Moran, Mr. James    male   NaN
6                            McCarthy, Mr. Timothy J    male  54.0
7                     Palsson, Master. Gosta Leonard    male   2.0
8  Johnson, Mrs. Oscar W (Elisabeth Vilhelmina Berg)  female  27.0
9                Nasser, Mrs. Nicholas (Adele Achem)  female  14.0


In [11]:
Test.assertEquals(list(info.loc[0]),['Braund, Mr. Owen Harris', 'male', 22.0], 'Datos incorrectos')

1 test passed.


Por último, realiza las mismas operaciones pero con los 10 últimos pasajeros. Primero los nombres.

In [12]:
# nombres = <RELLENAR>
nombres = titanic.iloc[-10:]['Name']

print(nombres)

881                          Markun, Mr. Johann
882                Dahlberg, Miss. Gerda Ulrika
883               Banfield, Mr. Frederick James
884                      Sutehall, Mr. Henry Jr
885        Rice, Mrs. William (Margaret Norton)
886                       Montvila, Rev. Juozas
887                Graham, Miss. Margaret Edith
888    Johnston, Miss. Catherine Helen "Carrie"
889                       Behr, Mr. Karl Howell
890                         Dooley, Mr. Patrick
Name: Name, dtype: object


In [13]:
Test.assertEquals(list(nombres.values[0:3]), ['Markun, Mr. Johann', 'Dahlberg, Miss. Gerda Ulrika', 'Banfield, Mr. Frederick James'], 'Nombres incorrectos')

1 test passed.


Ahora el nombre, el sexo y la edad

In [14]:
# info =  <RELLENAR>
info = titanic[['Name','Sex','Age']].tail(10)

In [15]:
Test.assertEquals(list(info.iloc[-1]),['Dooley, Mr. Patrick', 'male', 32.0], 'Datos incorrectos')

1 test passed.


Mostrar y almacena el nombre, sexo y edad de los pasajeros mayores de 60 años (22 en total).

In [16]:
# mayores60 = <RELLENAR>
mayores60 = titanic[titanic['Age'] >60][['Name','Sex','Age']]

print(titanic.loc[titanic['Age'] > 60, ['Name','Sex','Age']])


                                          Name     Sex   Age
33                       Wheadon, Mr. Edward H    male  66.0
54              Ostby, Mr. Engelhart Cornelius    male  65.0
96                   Goldschmidt, Mr. George B    male  71.0
116                       Connors, Mr. Patrick    male  70.5
170                  Van der hoef, Mr. Wyckoff    male  61.0
252                  Stead, Mr. William Thomas    male  62.0
275          Andrews, Miss. Kornelia Theodosia  female  63.0
280                           Duane, Mr. Frank    male  65.0
326                  Nysveen, Mr. Johan Hansen    male  61.0
438                          Fortune, Mr. Mark    male  64.0
456                  Millet, Mr. Francis Davis    male  65.0
483                     Turkula, Mrs. (Hedwig)  female  63.0
493                    Artagaveytia, Mr. Ramon    male  71.0
545               Nicholson, Mr. Arthur Ernest    male  64.0
555                         Wright, Mr. George    male  62.0
570                     

In [17]:
Test.assertEquals(mayores60.shape,(22, 3), 'Dimensiones incorrectas')
Test.assertEquals(list(mayores60.iloc[0]),['Wheadon, Mr. Edward H', 'male', 66.0], 'Datos incorrectos')

1 test passed.
1 test passed.


Obtener un listado de los nombres de las mujeres que viajaron en primera clase (94 en total).

In [18]:
# mujeresPrimera = <RELLENAR>
mujeresPrimera = titanic.loc[(titanic['Sex'] == 'female') & (titanic['Pclass'] == 1),['Name']]
print(mujeresPrimera)

                                                  Name
1    Cumings, Mrs. John Bradley (Florence Briggs Th...
3         Futrelle, Mrs. Jacques Heath (Lily May Peel)
11                            Bonnell, Miss. Elizabeth
31      Spencer, Mrs. William Augustus (Marie Eugenie)
52            Harper, Mrs. Henry Sleeper (Myna Haxtun)
..                                                 ...
856         Wick, Mrs. George Dennick (Mary Hitchcock)
862  Swift, Mrs. Frederick Joel (Margaret Welles Ba...
871   Beckwith, Mrs. Richard Leonard (Sallie Monypeny)
879      Potter, Mrs. Thomas Jr (Lily Alexenia Wilson)
887                       Graham, Miss. Margaret Edith

[94 rows x 1 columns]


In [19]:
Test.assertEquals(list(mujeresPrimera.values[:5]),['Cumings, Mrs. John Bradley (Florence Briggs Thayer)', 'Futrelle, Mrs. Jacques Heath (Lily May Peel)', 'Bonnell, Miss. Elizabeth', 'Spencer, Mrs. William Augustus (Marie Eugenie)', 'Harper, Mrs. Henry Sleeper (Myna Haxtun)'], 'Nombres incorrectos')

1 test passed.


Para facilitar el procesado, vamos a cambiar el contenido de la columna Sex: los ‘male’ van a pasar a ser ‘M’ y los female van a pasar a ser ‘F’. Para ello, primero debéis crear una función que reciba un string como parámetro de entrada y devuelva el carácter ‘M’ si la entrada es ‘male’ o ‘F’ si la entrada es ‘female’. Después, debéis utilizar la función apply para cambiar el dataset.

In [20]:
#Modificar 'female' por 'F' y 'male' por 'M'
def cambio(genero):
    if genero == 'male':
        return 'M'
    else:
        return 'F'

# Uso de la función anterior para cambiar los datos de sexo
# titanic.Sex = <RELLENAR>
titanic.Sex = titanic['Sex'].apply(cambio)

In [21]:
Test.assertEquals(list(titanic.Sex[:10]),['M', 'F', 'F', 'F', 'M', 'M', 'M', 'M', 'F', 'F'], 'Sexo cambiado incorrectamente')

1 test passed.


Calcular la edad media de los hombre y de las mujeres. Utilizar la función groupby.

In [22]:
# mediasFM = <RELLENAR>
objeto = titanic.groupby('Sex')
print(objeto.Age.mean())
mediasFM = objeto.Age.mean()

Sex
F    27.915709
M    30.726645
Name: Age, dtype: float64


In [23]:
Test.assertEquals(list(mediasFM.index),['F', 'M'], 'Valores de sexo incorectos')
Test.assertEquals(list(map(lambda x: round(x,3), mediasFM.values)),[27.916, 30.727], 'Medias por sexo incorectas')

1 test passed.
1 test passed.


Calcular la edad máxima y mínima de los hombre y de las mujeres. Utilizar la función groupby.

In [24]:
# edadMaxFM = <RELLENAR>
obj = titanic.groupby('Sex')
edadMaxFM = obj.Age.max()

In [25]:
Test.assertEquals(list(map(lambda x: round(x,3), edadMaxFM.values)),[63.0, 80.0], 'Máximos por sexo incorrectos')

1 test passed.


In [26]:
# edadMinFM = <RELLENAR>
edadMinFM = obj.Age.min()

In [27]:
Test.assertEquals(list(map(lambda x: round(x,3), edadMinFM.values)),[0.75, 0.42], 'Mínimos por sexo incorrectos')

1 test passed.


Queremos saber desde qué puerto era desde el que se montaba un mayor número de pasajeros. 

In [28]:
# conteoPuertos = <RELLENAR>
print(titanic.columns)
obj = titanic.groupby('Embarked')
conteoPuertos = obj.size()
print(conteoPuertos)

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')
Embarked
C    168
Q     77
S    644
dtype: int64


In [29]:
Test.assertEquals(list(conteoPuertos.index),['C', 'Q', 'S'], 'Puertos incorectos')
Test.assertEquals(list(conteoPuertos.values),[168, 77, 644], 'Conteos por puerto incorrectos')

1 test passed.
1 test passed.


Mostrar, además, el número de embarques de cada clase en cada puerto. 

In [30]:
# conteoPuertosClase = <RELLENAR>
obj = titanic.groupby(['Embarked','Pclass'])

conteoPuertosClase = obj.size()

In [31]:
Test.assertEquals(list(conteoPuertosClase.values),[85, 17, 66, 2, 3, 72, 127, 164, 353], 'Conteos por puerto y clase incorrectos')

1 test passed.


Realiza el ejercicio anterior pero utilizando una pivot table.

In [32]:
# conteoPuertosClasePT = <RELLENAR>

conteoPuertosClasePT = titanic.pivot_table(values='PassengerId',index='Pclass',columns='Embarked', aggfunc='count') 

In [33]:
Test.assertEquals(list(conteoPuertosClasePT.index),[1, 2, 3], 'Categorias (filas) incorrectas')
Test.assertEquals(list(conteoPuertosClasePT.columns),['C', 'Q', 'S'], 'Puertos (columnas) incorrectos')
Test.assertEquals(list(conteoPuertosClasePT.values.ravel()),[85, 2, 127, 17, 3, 164, 66, 72, 353], 'Conteos por puerto y clase incorrectos')

1 test passed.
1 test passed.
1 test passed.


Queremos conocer cuánto costaban los tickets del Titanic. Para ello, calcular la media, la desviación estándar, el mínimo y el máximo de las tarifas de los pasajes. 

In [41]:
print(titanic.columns)

mediaBillete = titanic.Fare.mean()
desvBillete = titanic.Fare.std()
minBillete = titanic.Fare.min()
maxBillete = titanic.Fare.max()

Index(['PassengerId', 'Survived', 'Pclass', 'Name', 'Sex', 'Age', 'SibSp',
       'Parch', 'Ticket', 'Fare', 'Cabin', 'Embarked'],
      dtype='object')


In [42]:
Test.assertEquals(round(mediaBillete, 3),32.204, 'Media de precio de billete incorrecta')
Test.assertEquals(round(desvBillete, 3),49.693, 'Media de precio de billete incorrecta')
Test.assertEquals(round(minBillete, 3),0.000, 'Media de precio de billete incorrecta')
Test.assertEquals(round(maxBillete, 3),512.329, 'Media de precio de billete incorrecta')

1 test passed.
1 test passed.
1 test passed.
1 test passed.


A continuación, mostar la media de las tarifas en función de la clase. ¿Cuánto costaba de media un pasaje de primera clase? ¿Y de segunda? ¿Y de tercera? 

In [43]:
obj = titanic.groupby('Pclass')
mediaBilleteClase = obj.Fare.mean()

In [44]:
Test.assertEquals(list(map(lambda x: round(x,3), list(mediaBilleteClase.values))),[84.155, 20.662, 13.676], 'Medias de precios de billete por calse incorrectas')

1 test passed.


¿Murió mucha gente en el Titanic? Para ello, calcula el porcentaje de pasajeros que se salvaron. 

In [50]:
porcentajeSupervivientes = (titanic.Survived.sum() * 100)/ titanic.PassengerId.count()

In [51]:
Test.assertEquals(round(porcentajeSupervivientes, 3),38.384, 'Porcentaje de supervivientes incorrecto')

1 test passed.


¿Es cierto que los botes salvavidas se reservaron para los pasajeros de primera clase? Para cada clase, obtén el porcentaje de pasajeros que se salvaron. 

In [52]:
obj = titanic.groupby('Pclass')
porcentajeSupervivientesClases = (obj.Survived.sum() * 100) / obj.Survived.count()

In [53]:
Test.assertEquals(list(map(lambda x: round(x, 3), porcentajeSupervivientesClases.values)),[62.963, 47.283, 24.236], 'Porcentaje de supervivientes por clase incorrecto')

1 test passed.


Y eso de primero niños y mujeres, ¿es cierto? Calcula el porcentaje de mujeres y de hombres que se salvaron.

In [54]:
obj = titanic.groupby('Sex')
porcentajeSupervivientesSexo = (obj.Survived.sum() * 100) / obj.Survived.count()

In [55]:
Test.assertEquals(list(map(lambda x: round(x, 3), porcentajeSupervivientesSexo.values)),[74.204, 18.891], 'Porcentaje de supervivientes por sexo incorrecto')

1 test passed.


De los pasajeros que se salvaron de cada clase, ¿Qué porcentaje eran hombres y mujeres? Utiliza una pivot table como paso auxiliar para ello.

In [75]:
supervivientes = titanic.pivot_table(values='Survived', index='Pclass', columns='Sex', aggfunc='sum')

porcentajeSupervivientesSexoClase =  supervivientes.apply(lambda x: (x *100)/ x.sum(), axis=1)

print(porcentajeSupervivientesSexoClase)


Sex             F          M
Pclass                      
1       66.911765  33.088235
2       80.459770  19.540230
3       60.504202  39.495798


In [73]:
Test.assertEquals(list(porcentajeSupervivientesSexoClase.index),[1, 2, 3], 'Clases (filas) incorrectas')
Test.assertEquals(list(porcentajeSupervivientesSexoClase.columns),['F', 'M'], 'Sexo (columnas) incorrecto')
Test.assertEquals(list(map(lambda x: round(x, 3),porcentajeSupervivientesSexoClase.values.ravel())),[66.912, 33.088, 80.46, 19.54, 60.504, 39.496], 'Porcentajes de supervivientes por clase y sexo incorrectos')

1 test passed.
1 test passed.
1 test passed.
