<a href="https://colab.research.google.com/github/soydarius/Preguntas-Frecuentes-Data-Science-Machine-Learning/blob/main/An%C3%A1lisis_de_Datos_Exploratorio_Titanic.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Exploración de datos del Titanic

En este notebook, contestaremos preguntas alrededor de los datos disponibles del Titanic. Repasaremos los temas de cómo crear funciones, cómo manipular datos con Pandas y repasaremos conceptos sobre valores duplicados y valores ausentes.

Empecemos importando los datos y viendo las primeras filas de este dataset.

Si le das doble click a cada recuadro de texto, aparecerá un tip sobre cómo resolver el problema. Inténtalo sobre este recuadro de texto.

<!--
Este es un tip!
-->

In [None]:
import seaborn as sns

titanic_df = sns.load_dataset('titanic')
titanic_df.head(5)
titanic_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 891 entries, 0 to 890
Data columns (total 15 columns):
 #   Column       Non-Null Count  Dtype   
---  ------       --------------  -----   
 0   survived     891 non-null    int64   
 1   pclass       891 non-null    int64   
 2   sex          891 non-null    object  
 3   age          714 non-null    float64 
 4   sibsp        891 non-null    int64   
 5   parch        891 non-null    int64   
 6   fare         891 non-null    float64 
 7   embarked     889 non-null    object  
 8   class        891 non-null    category
 9   who          891 non-null    object  
 10  adult_male   891 non-null    bool    
 11  deck         203 non-null    category
 12  embark_town  889 non-null    object  
 13  alive        891 non-null    object  
 14  alone        891 non-null    bool    
dtypes: bool(2), category(2), float64(2), int64(4), object(5)
memory usage: 80.7+ KB


In [None]:
#survival - Survival (0 = No; 1 = Yes)
#class - Passenger Class (1 = 1st; 2 = 2nd; 3 = 3rd)
#name - Name
#sex - Sex
#age - Age
#sibsp - Number of Siblings/Spouses Aboard
#parch - Number of Parents/Children Aboard
#ticket - Ticket Number
#fare - Passenger Fare
#cabin - Cabin
#embarked - Port of Embarkation (C = Cherbourg; Q = Queenstown; S = Southampton)
#boat - Lifeboat (if survived)
#body - Body number (if did not survive and body was recovered)

Una breve descripción sobre cada columna es muy útil para entender el contexto del problema. Este es un link donde podrán encontrar dicha información: https://github.com/awesomedata/awesome-public-datasets/issues/351.

<!--
Tip: Recuerda que la función .head() arroja las primeras líneas de un DataFrame.
-->

In [None]:
# Arroja las primeras 5 líneas de este dataset
titanic_df.head(5)

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.25,S,Third,man,True,,Southampton,no,False
1,1,1,female,38.0,1,0,71.2833,C,First,woman,False,C,Cherbourg,yes,False
2,1,3,female,26.0,0,0,7.925,S,Third,woman,False,,Southampton,yes,True
3,1,1,female,35.0,1,0,53.1,S,First,woman,False,C,Southampton,yes,False
4,0,3,male,35.0,0,0,8.05,S,Third,man,True,,Southampton,no,True


## Valores nulos

Algo que es común preguntar es si los datos tienen valores nulos. A continuación, arroja cuántos valores nulos tiene cada columna.

<!---
Tip: Usa la función .isna() junto con con la función sum() para obtener el resultado.
-->

In [None]:
# Arroja los valores nulos por columna

titanic_df.isnull().sum()

survived         0
pclass           0
sex              0
age            177
sibsp            0
parch            0
fare             0
embarked         2
class            0
who              0
adult_male       0
deck           688
embark_town      2
alive            0
alone            0
dtype: int64

¿Existirá algún patrón sobre los valores ausentes en las columnas `age` y `deck`? Intentemos calcular los valores ausentes por grupos.

Escribe un pedazo de código que calcule los valores nulos en `deck` por grupos en las columnas `sex`, `survived` y `class`.

Dado que vamos a estar repitiendo el mismo proceso de contar valores nulos por grupos en diferentes columnas, escribamos una función para no repetir el mismo código sobre cada una de las columnas. ¿Qué argumentos debería de aceptar la función?

<!--
Tip: los argumentos de una función es algo que va a "variar" para hacer el cálculo de manera diferente. Aquí lo que va a variar es la columna usada para formar los grupos.
Tip: recuerda usar primero el método .groupby() para hacer este cálculo. 
-->

In [None]:
# Escribe una función para calcular la cantidad de valores nulos por grupo en una columna.
titanic_df.loc[titanic_df['deck'].isna(),:]

titanic_df.groupby['sex', 'class']

Unnamed: 0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
0,0,3,male,22.0,1,0,7.2500,S,Third,man,True,,Southampton,no,False
2,1,3,female,26.0,0,0,7.9250,S,Third,woman,False,,Southampton,yes,True
4,0,3,male,35.0,0,0,8.0500,S,Third,man,True,,Southampton,no,True
5,0,3,male,,0,0,8.4583,Q,Third,man,True,,Queenstown,no,True
7,0,3,male,2.0,3,1,21.0750,S,Third,child,False,,Southampton,no,False
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
884,0,3,male,25.0,0,0,7.0500,S,Third,man,True,,Southampton,no,True
885,0,3,female,39.0,0,5,29.1250,Q,Third,woman,False,,Queenstown,no,False
886,0,2,male,27.0,0,0,13.0000,S,Second,man,True,,Southampton,no,True
888,0,3,female,,1,2,23.4500,S,Third,woman,False,,Southampton,no,False


In [None]:
# Usa tu función para arrojar la cantidad de valores nulos en 'deck' para grupos de 'sex', 'survived' y 'class'

titanic_df.isna().groupby(titanic_df['sex']).sum()


Unnamed: 0_level_0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
sex,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1
female,0,0,0,53,0,0,0,2,0,0,0,217,2,0,0
male,0,0,0,124,0,0,0,0,0,0,0,471,0,0,0


In [None]:
titanic_df_deck = titanic_df.loc[titanic_df['deck']]

In [None]:
titanic_df_deck.groupby(['sex','class','survived']).count()[["age"]]

NameError: ignored

¿Existe algún patrón visible? ¿Crees que sea necesario rellenar esta columna de alguna manera?

In [None]:
# Usa la función que acabas de escribir para hacer más exploraciones

Ahora hagamos lo mismo para la columna `age`. ¿Existe algún patrón visible entre valores nulos de esta columna y valores de alguno de los grupos dentro de `sex`, `survived` o `class`?

En caso de que no, ¿habrá alguna columna con el que podamos descubrir si existe hay algún patrón?

In [None]:
# Usa la función que acabas de escribir para calcular los valores nulos por grupos de columnas
titanic_df.isna().groupby([titanic_df['class'], titanic_df['survived']]).sum()

Unnamed: 0_level_0,Unnamed: 1_level_0,survived,pclass,sex,age,sibsp,parch,fare,embarked,class,who,adult_male,deck,embark_town,alive,alone
class,survived,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1
First,0,0,0,0,16,0,0,0,0,0,0,0,22,0,0,0
First,1,0,0,0,14,0,0,0,2,0,0,0,19,2,0,0
Second,0,0,0,0,7,0,0,0,0,0,0,0,94,0,0,0
Second,1,0,0,0,4,0,0,0,0,0,0,0,74,0,0,0
Third,0,0,0,0,102,0,0,0,0,0,0,0,366,0,0,0
Third,1,0,0,0,34,0,0,0,0,0,0,0,113,0,0,0


## Valores ausentes

En caso de que sea necesario, rellenemos la columna `age` con algún valor como la media o la mediana.

Usa el método `.apply()` para rellenar con la media o la mediana los valores nulos en `age`. Aquí hay un link donde puedes encontrar la respuesta sobre cómo usar este método.

[Respuesta de Stack Overflow](https://stackoverflow.com/questions/19966018/pandas-filling-missing-values-by-mean-in-each-group)

El método `.transform()` es muy similar al método `.apply()`. En este ejemplo, puedes intercambiar entre ambos métodos sin perjuicio.

[Diferencias entre `.transform()` y `.apply()`](https://stackoverflow.com/questions/27517425/apply-vs-transform-on-a-group-object)

<!--
Tip: aquí el tip es revisar la respuesta en Stack Overflow
-->



In [None]:
# Rellena los valores nulos en 'age' usando el método .apply()

## Análisis exploratorio

Una de las preguntas más frecuentes que le hacemos a este dataset es ver si hay una relación entre alguna de las variables y la probabilidad de supervivencia en el Titanic.

¿Cuál columna indica si un pasajero sobrevivió el accidente o no?

Una manera de calcular una probabilidad es tomando una frecuencia relativa (número de eventos de interés / número de eventos totales). Con un número suficientemente grande de eventos totales, la frecuencia relativa debería de converger a la probabilidad de que suceda el evento de interés.

Veamos si existe una relación entre alguna de las variables incluidas en el dataset y la probabilidad de supervivencia.

Usemos el método `pivot_table()` para calcular frecuencias relativas. Construyamos una función que ejecute este método para calcular las frecuencias relativas por grupos de alguna o varias columnas.

<!--
Tip: Una frecuencia relativa es la división entre el conteo de eventos de interés y los eventos totales, o sea, un sum() dividido por un count().
-->

In [None]:
# Contruye una función que calcule las frecuencias relativas por grupos de una columna

In [None]:
# Explora las probabilidades de supervivencia por diferentes grupos de una o varias columnas 

## Extra - Presentando resultados

La mejor manera de presentar resultados es siempre visualizando los resultados. Usa la librería de tu preferencia para mostrar resultados interesantes que hayas encontrado.

La documentación de librerías para visualizar datos tienen muchos ejemplos de visualizaciones que puedes crear. Aquí hay unos links para explorar estas librerías:

- [Matplotlib](https://matplotlib.org/stable/gallery/)
- [Seaborn](https://seaborn.pydata.org/examples/index.html)