# EDA del Naufragio del Titanic

<ul>
    <li>Disponemos de una serie de datos relativos a los *pasajeros que se embarcaron en el Titanic, así como un flag que nos indica si sobrevivieron o no*.</li>
    <li>Estos datos se encuentran en los siguientes ficheros:
        <ul>
            <li><b>Pasajeros:</b> ./data/titanic/pasajeros.csv</li>
            <li><b>Supervivientes:</b> ./data/titanic/supervivientes.csv</li>
        </ul>
    </li>
    <li>Los <b>campos que hay en el fichero de Pasajeros</b> son los siguientes:
        <ul>
            <li>PassengerId: identificador de pasajero</li>
            <li>Pclass: clase en la que viajaba 1 = 1st, 2 = 2nd, 3 = 3rd</li>
            <li>Name</li>
            <li>Sex</li>
            <li>Age</li>
            <li>SibSp: hermanos o conyujes abordo</li>
            <li>Parch: padres o hijos abordo</li>
            <li>Ticket: id del ticket</li>
            <li>Fare</li>
            <li>Cabin: id de la cabina</li>
            <li>Embarked: Puerto de embarcación C = Cherbourg, Q = Queenstown, S = Southampton</li>
        </ul>
    </li>
    <li>Los <b>campos que hay en el fichero de Supervivientes</b> son los siguientes:
        <ul>
            <li>PassengerId: identificador de pasajerov</li>
            <li>Survived: 1: sobrevivio, 0: murió</li>
        </ul>
    </li>
</ul>
</ul>

## Para este ejercicio se pide:

<ul>
    <li>Dado un DataFrame (df) ya cargado con los datos de los pasajeros y si sobrevivieron o no:
        <ol>
            <a id='ejercicio1'><li><b>Crear una nueva columna en el DataFrame (df) llamada puerto, que contenga el Nombre del puerto</b> (No el identificador del puerto)</li></a>
            <a id='ejercicio2'><li><b>Obtener el número de pasajeros que embarcaron en cada puerto</b> (Cherbourg, Queenstown, Southampton)</li></a>
            <a id='ejercicio3'><li><b>Obtener cuantos hombres y mujeres embarcaron</b></li></a>
            <a id='ejercicio4'><li><b>Obtener la edad media de los hombres y mujeres que sobrevivieron y murieron</b></li></a>
            <a id='ejercicio5'><li><b>Obtener cuantos muertos hubo por rango de edad</b> (< 18 años: jovenes, 18-65 años: adultos, 65 >: Anciano)</li></a>
            <a id='ejercicio6'><li><b>Obtener el número de muertos por clase y genero</b></li></a>
            <a id='ejercicio7'><li><b>Obtener el número de muertos y supervivientes por ciudad de origen</b></li></a>
        </ol>
    </li>
</ul>

## Puesta a punto del entorno

<ul>
    <li>Importamos la librería de pandas</li>
    <li>Cargamos los ficheros y los pasamos a un DataFrame</li>
    <li>Creamos el DataFrame para realizar los ejercicios, realizando un <b>inner join</b> por el campo 'PassengerId'</li>
</ul>

In [2]:
import pandas as pd

# Cargamos los ficheros
df_pasajeros = pd.read_csv('C:/Users/Vadillo/data/titanic/pasajeros.csv', header=0)
df_supervivientes = pd.read_csv('C:/Users/Vadillo/data/titanic/supervivientes.csv', header=0)

# Join
df = pd.merge(df_pasajeros, df_supervivientes, on='PassengerId', how='inner')

df.sample(5)

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Survived
443,444,2,"Reynaldo, Ms. Encarnacion",female,28.0,0,0,230434,13.0,,S,1.0
641,642,1,"Sagesser, Mlle. Emma",female,24.0,0,0,PC 17477,69.3,B35,C,1.0
1171,1172,3,"Oreskovic, Miss. Jelka",female,23.0,0,0,315085,8.6625,,S,1.0
1288,1289,1,"Frolicher-Stehli, Mrs. Maxmillian (Margaretha ...",female,48.0,1,1,13567,79.2,B41,C,1.0
319,320,1,"Spedden, Mrs. Frederic Oakley (Margaretta Corn...",female,40.0,1,1,16966,134.5,E34,C,1.0


[<b>1 - Crear una nueva columna en el DataFrame (df) llamada puerto, que contenga el Nombre del puerto</b> (No el identificador del puerto)](#ejercicio1)

In [3]:
df['Port'] = (df['Embarked']
                .apply(lambda x: 'Cherbourg' if x == 'C'
                                  else ('Queenstown' if x == 'Q'
                                        else 'Southampton')))
df.sample(5)

Unnamed: 0,PassengerId,Pclass,Name,Sex,Age,SibSp,Parch,Ticket,Fare,Cabin,Embarked,Survived,Port
103,104,3,"Johansson, Mr. Gustaf Joel",male,33.0,0,0,7540,8.6542,,S,0.0,Southampton
1287,1288,3,"Colbert, Mr. Patrick",male,24.0,0,0,371109,7.25,,Q,0.0,Queenstown
488,489,3,"Somerton, Mr. Francis William",male,30.0,0,0,A.5. 18509,8.05,,S,0.0,Southampton
928,929,3,"Cacic, Miss. Manda",female,21.0,0,0,315087,8.6625,,S,1.0,Southampton
915,916,1,"Ryerson, Mrs. Arthur Larned (Emily Maria Borie)",female,48.0,1,3,PC 17608,262.375,B57 B59 B63 B66,C,1.0,Cherbourg


[<b>2 - Obtener el número de pasajeros que embarcaron en cada puerto</b>(Cherbourg, Queenstown, Southampton)](#ejercicio2)

In [38]:
(df
.groupby(['Port'])['Port']
.agg(['count'])
.reset_index())

Unnamed: 0,Port,count
0,Cherbourg,269
1,Queenstown,123
2,Southampton,917


[<b>3 - Obtener cuantos hombres y mujeres embarcaron</b>](#ejercicio3)

In [39]:
(df
 .groupby(['Sex'])['Sex']
 .agg(['count'])
.reset_index())

Unnamed: 0,Sex,count
0,female,466
1,male,843


[<b>4 - Obtener la edad media de los hombres y mujeres que sobrevivieron y murieron</b>](#ejercicio4)

In [46]:
(df
.groupby(['Survived', 'Sex'])['Age']
.agg(['mean'])
.reset_index())

Unnamed: 0,Survived,Sex,mean
0,0.0,female,25.046875
1,0.0,male,31.129929
2,1.0,female,29.406142
3,1.0,male,27.276022


[<b>5 - Obtener cuantos muertos hubo por rango de edad</b> (< 18 años: jovenes, 18-65 años: adultos, 65 >: Anciano](#ejercicio5)

In [74]:
# Creamos una nueva columna para el rango de edad
df['AgeRange'] = (df['Age']
                    .apply(lambda x: 'Young' if x < 18 
                           else ('Old' if x > 65 
                                 else ('Adult' if x >= 18 and x <=65 else 'Null'))))

(df[(df['Survived'] == 0) & (df['AgeRange'] != 'Null')]
.groupby(['AgeRange'])['AgeRange']
.agg(['count']))

Unnamed: 0_level_0,count
AgeRange,Unnamed: 1_level_1
Adult,545
Old,8
Young,76


[<b>6 - Obtener el número de muertos por clase y genero</b>](#ejercicio6)

In [82]:
(df[(df['Survived'] == 0)]
.groupby(['Sex', 'Pclass'])['Survived']
.agg(['count'])
.reset_index())

Unnamed: 0,Sex,Pclass,count
0,female,1,3
1,female,2,6
2,female,3,72
3,male,1,134
4,male,2,154
5,male,3,446


[<b>7 - Obtener el número de muertos y supervivientes por ciudad de origen</b>](#ejercicio7)

In [83]:
(df
.groupby(['Survived', 'Port'])['Survived']
.agg(['count'])
.reset_index())

Unnamed: 0,Survived,Port,count
0,0.0,Cherbourg,137
1,0.0,Queenstown,69
2,0.0,Southampton,609
3,1.0,Cherbourg,132
4,1.0,Queenstown,54
5,1.0,Southampton,308
