# Análisis de la lista de pasajeros del Titanic

---



Utilizando la lista de pasajeros del titanic como dataset, vamos a obtener información estadística que nos puede ser útil en la fase de análisis de los datos. Para ello utilizaremos las librerias NumPy y Pandas de Python.

*   En primer lugar, importamos librerias NumPy y Pandas de Python.

In [0]:
import numpy as np
import pandas as pd

* En segundo lugar, leemos el fichero en el que se encuentra el dataset, la información del fichero .csv ahora se copiará a una variable o instancia DataFrame de Pandas.

In [0]:
data = pd.read_csv('titanic.csv')

* Después podemos visualizar nuestro DataFrame de Pandas que hemos obtenido del fichero .csv.

In [3]:
data

Unnamed: 0,PassengerId,Survived,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked
0,1,0,3,"Braund, Mr. Owen Harris",male,22.0,1,0,A/5 21171,7.2500,,S
1,2,1,1,"Cumings, Mrs. John Bradley (Florence Briggs Th...",female,38.0,1,0,PC 17599,71.2833,C85,C
2,3,1,3,"Heikkinen, Miss. Laina",female,26.0,0,0,STON/O2. 3101282,7925.0000,,S
3,4,1,1,"Futrelle, Mrs. Jacques Heath (Lily May Peel)",female,35.0,1,0,113803,53.1000,C123,S
4,5,0,3,"Allen, Mr. William Henry",male,35.0,0,0,373450,8.0500,,S
...,...,...,...,...,...,...,...,...,...,...,...,...
886,887,0,2,"Montvila, Rev. Juozas",male,27.0,0,0,211536,13.0000,,S
887,888,1,1,"Graham, Miss. Margaret Edith",female,19.0,0,0,112053,30.0000,B42,S
888,889,0,3,"Johnston, Miss. Catherine Helen ""Carrie""",female,,1,2,W./C. 6607,23.4500,,S
889,890,1,1,"Behr, Mr. Karl Howell",male,26.0,0,0,111369,30.0000,C148,C


* También podemos utilizar métodos y atributos asociados a la variable o instancia del Dataframe, por ejemplo para visualizar el número de filas y columnas.

In [4]:
data.shape

(891, 12)

A continuación, vamos a realizar una serie de preguntas sobre los pasajeros del Titanic para aprender a utilizar las librerias Numpy y Pandas de Python:


### 1. ¿Cuántos hombres y mujeres había embarcados?

In [5]:
(data['Sex'] == 'male').sum(), (data['Sex'] == 'female').sum()

(577, 314)

In [6]:
data['Sex'].value_counts()

male      577
female    314
Name: Sex, dtype: int64

### 2. Imprime la distribución de la feature 'PClass' por sexo. ¿Cuántos hombres había en primera clase?

In [7]:
pd.crosstab(data['Pclass'], data['Sex'], margins=True)

Sex,female,male,All
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,94,122,216
2,76,108,184
3,144,347,491
All,314,577,891


### 3. ¿Cuál es el precio del billete más caro y el más barato?

In [8]:
(round(data['Fare'].max(), 2), round(data['Fare'].min(), 2))

(262375.0, 0.0)

### 4. ¿ Cuál es la media de edad de los pasajeros que sobrevivieron y los que murieron?

In [9]:
data.groupby('Survived')['Age'].mean()

Survived
0    30.626179
1    28.343690
Name: Age, dtype: float64

### 5. ¿Cuál es el porcentaje de supervivencia de los pasajeros menores de 30 años y el de los pasajeros mayores de 60 años?



In [10]:
jovenes = data.loc[data['Age'] < 30, 'Survived']
mayores = data.loc[data['Age'] > 60, 'Survived']

(round(100 * jovenes.mean(), 1), round(100 * mayores.mean(), 1))

(40.6, 22.7)

### 6. ¿Cuál es el porcentaje de supervivencia de los hombres y de las mujeres?

In [11]:
hombres1 = data[data['Sex'] == 'male']['Survived']
mujeres1 = data[data['Sex'] == 'female']['Survived']

(round(100 * hombres1.mean(), 1), round(100 * mujeres1.mean(), 1))

(18.9, 74.2)

### 7. ¿Cuál es el nombre de pila mas común en la lista de pasajeros?

In [12]:
nombres = data.loc[data['Sex'] == 'male', 'Name'].apply(lambda nombre_completo: nombre_completo.split(',')[1].split()[1])
nombres.value_counts().head()

William    35
John       25
George     14
Charles    13
Thomas     13
Name: Name, dtype: int64

### 8. ¿Cuál es la edad media de hombres y mujeres de cada clase? 

In [13]:
pd.crosstab(data['Pclass'], data['Sex'], values=data['Age'], aggfunc=np.mean)

Sex,female,male
Pclass,Unnamed: 1_level_1,Unnamed: 2_level_1
1,34.611765,41.281386
2,28.722973,30.740707
3,21.75,26.507589
