# **Visualización de datos con *Python***
---

Esta es una tarea para practicar las habilidades adquiridas usando *Matplotlib* y *Seaborn* en la construcción de visualizaciones de información. Utilizaremos el *dataset* de pasajeros del ***Titanic***, uno de los *dataset* más populares en el área de la ciencia de datos, disponible en plataformas como [Kaggle](https://www.kaggle.com/c/titanic/data?select=train.csv). Este conjunto de datos está disponible en la librería *Seaborn*.

El conjunto de datos cuenta con información personal de los pasajeros del *Titanic* y datos acerca de su supervivencia en el trágico evento:

| Variable | Definición	| Valores | 
| --- | --- | --- |
| survived \| alive | 	Sobreviviente  | 	[0\|no] = No, [1\|yes] = Sí |
| pclass \| class	| Clase del tiquete | 	1 = [1\|First], 2 = [2\|Second], 3 = [3\|Third]
| sex 	| Sexo 	| 'male', 'female' |
| Age |	Edad en años 	| |
| sibsp |	# de hermanos / cónyuge abordo del Titanic 	| |
| parch |	# de padres / hijos abordo del Titanic 	| |
| fare 	| Costo del ticket | |	
| embarked |	Puerto de embarque |	C = Cherbourg, Q = Queenstown, S = Southampton |
| who |	Si es hombre, mujer o niño. | 'man', 'woman', 'child'  |	
| adult_male 	| Si es un hombre mayor de edad. | True, False	|
| deck |	Identificación de la cubierta/cabina.| 'A', 'B', 'C', 'D', 'E', 'F', 'G' |
| alone |	Si había embarcado solo.| True, False |


In [1]:
#Importar librerías
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
%matplotlib inline
# plt.rcParams['figure.dpi'] = 110    

## **0.  Leer el archivo de datos**
---


In [None]:
# Creando los datos  (EJECUTE ESTA CELDA SIN MODIFICARLA)
titanic = sns.load_dataset('titanic', data_home='/data')
titanic.head()

In [None]:
#TEST_CELL
titanic.info()

En los siguientes ejercicios deberá replicar las figuras que se presentan a continuación usando las librerías mencionadas. No se preocupe por replicar exactamente los mismos colores, sino las figuras como tal. La mayoría de figuras se puede recrear usando solamente una o dos líneas de código. Preste especial atención a las etiquetas $x$ y $y$ de los ejes pues no se le brindará mucha más información. 

In [None]:
sns.set_style('whitegrid') #Se usará este estilo en los casos de ejemplo que utilicen Seaborn.

## **1. Correlación entre variables numéricas**
---

Inicialmente queremos conocer la correlación entre las variables numéricas del *dataset*. Para esto, no solamente calcularemos la matriz de correlación lineal entre cada una, sino que **graficaremos un mapa de calor** con el resultado.

En este ejercicio deberá recrear el mapa de calor presentado a continuación utilizando la librería *Seaborn*. 
> Para la imagen de referencia utilizamos el *colormap* **`coolwarm`**

Almacene el resultado de la función de visualización en la variable **`titanic_corr_matrix`**.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pistas</b></font>
</summary>

* Para este ejercicio deberá utilizar conceptos usados en las unidades anteriores. Primero es necesario calcular la matriz de correlación y después graficar el mapa de calor.
* Ponga especial atención a los detalles. Teniendo en cuenta que los valores de los coeficientes de correlación están en el rango $-1.0$ a $1.0$, fijaremos estos valores como el mínimo (`vmin`) y máximo (`vmax`) en el mapa de calor, respectivamente.
* Tenga presente la documentación de las funciones de visualización. Según la función que utilice, los argumentos a utilizar para definir los parámetros podrían variar.
* Deberá agregar el título de la gráfica por su cuenta. Para esto, utilice métodos de objetos **`Axes`** de *Matplotlib* como **`set_title`** sobre el objeto **`titanic_corr_matrix`**.

* La cadena de texto exacta usada en este ejercicio es:
  * **Título**: `'Correlation heatmap'`

In [None]:
## VARIABLE CALIFICADA: titanic_corr_matrix
### ESCRIBA SU CÓDIGO AQUÍ ### (~ 1-2 líneas de código)

titanic_corr_matrix = None
### FIN DEL CÓDIGO ###

titanic_corr_matrix

**Salida esperada:**
 

 ```
<matplotlib.axes._subplots.AxesSubplot at 0x____________>
```
![corr matrix](images/prac3_1.jpg)

## **2 Distribución de la tarifa**
---

Primero deberá representar gráficamente la distribución de la tarifa del tiquete de ingreso de los pasajeros a bordo del *Titanic* por medio de un **histograma**. 

> * Para la imagen de referencia utilizamos el color naranja (**`orange`**).
* Para este ejercicio deberá utilizar $10$ intervalos de clase (**`bins`**).

Almacene el resultado de la función de visualización en la variable **`titanic_dist_tarifa`**.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pistas</b></font>
</summary>

* Deberá seleccionar los datos de la tarifa (**`fare`**) y después representar su distribución por medio de un histograma usando *Seaborn* o *Matplotlib*.
* Tenga presente la documentación de las funciones de visualización. 
* En este ejercicio **SÍ** se evaluará el color de la figura. Utilice el nombre del color **`orange`**.
* Deberá agregar el título y etiquetas de los ejes por su cuenta. Para esto, utilice métodos de objetos **`Axes`** de *Matplotlib* como **`set_title`** y **`set_xlabel`** sobre el objeto **`titanic_dist_tarifa`**.
* Las cadenas de texto exactas usadas en este ejercicio son:
  * **Título**: `'Fare distribution'`
  * **Etiqueta del eje X**: `'Fare'`
  * **Etiqueta del eje Y**: `'Passenger count'`


In [None]:
## VARIABLE CALIFICADA: titanic_dist_tarifa
### ESCRIBA SU CÓDIGO AQUÍ ### (~ 1 línea de código)
titanic_dist_tarifa = None
### FIN DEL CÓDIGO ###

titanic_dist_tarifa

**Salida esperada:**

```
<matplotlib.axes._subplots.AxesSubplot at 0x____________>
```
 
![fare_hist](images/prac3_2.jpg)

## **3 Tarifa del tiquete y edad**
---

En muchas ocasiones las tarifas están claramente diferenciadas entre niños, adultos, y adultos mayores. ¿Era éste el caso del transatlántico?

En esta tarea deberá representar gráficamente la relación entre la tarifa del tiquete de ingreso y la edad de los pasajeros a bordo del *Titanic* como se presenta a continuación. 

> Esta vez no se personalizaron los estilos de la gráfica con la ayuda de sus argumentos.

Almacene el resultado de la función de visualización en la variable **`titanic_edad_tarifa`**.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pistas</b></font>
</summary>
<p>

* Construya el gráfico de distribuciones conjuntas de *Seaborn* para explorar la relación entre las edades (**`age`**) de los pasajeros y sus tarifas (**`fare`**). 
* Para este ejercicio no debe hacer ninguna modificación especial. Es suficiente con identificar la función de visualización apropiada y usar los argumentos de datos correctos.


</p>

In [None]:
## VARIABLE CALIFICADA: titanic_edad_tarifa
### ESCRIBA SU CÓDIGO AQUÍ ### (~ 1 línea de código)
titanic_edad_tarifa = None
### FIN DEL CÓDIGO ###

titanic_edad_tarifa

**Salida esperada:**

```
<seaborn.axisgrid.JointGrid at 0x____________>
```
 
![corr matrix](images/prac3_3.jpg)

## **4 Distribución de edad de mujeres y hombres**
---

Primero, exploraremos la distribución de edades para mujeres y hombres en dos gráficas.

En esta tarea deberá representar mediante dos **histogramas** la edad de los pasajeros en dos gráficas en la misma figura, usando para discriminar las distribuciones la variable categórica sexo (**`sex`**) como se muestra a continuación: 

> * Los diagramas son construidos como un **`FacetGrid`** de *Seaborn*.
* La paleta de color usada en el ejemplo es el *colormap* **`cool`**.

Almacene el resultado de la función de visualización en la variable **`titanic_sex_dist`**.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pistas</b></font>
</summary>
<p>

* La solución tiene que realizarse con **`FacetGrid`** de *Seaborn* junto con la función de visualización de *Matplotlib* para graficar histogramas. No utilice el método **`displot`** ni **`histplot`** en el proceso y utilice los *bins* por defecto.
* Para la imagen de referencia utilizamos el *colormap* **`cool`** como paleta de color. Este *colormap* se define al generar el **`FacetGrid`** vacío.
* Para este ejercicio, tanto el color como la columna son usados para diferenciar entre las dos categorías.
</p>

In [None]:
## VARIABLE CALIFICADA: titanic_sex_dist
### ESCRIBA SU CÓDIGO AQUÍ ### (~ 2 líneas de código)
titanic_sex_dist = None

### FIN DEL CÓDIGO ###

**Salida esperada:**

``` 
<seaborn.axisgrid.FacetGrid at 0x____________>
```

![gender hist](images/prac3_4.jpg)

## **5 Usando diagramas de cajas**
---

En este ejercicio deberá representar gráficamente la distribución y medidas de posición de las edades de los pasajeros a bordo del *Titanic* en cada clase utilizando una **diagramas de cajas** como se presenta a continuación: 

> Para la imagen de referencia utilizamos el *colormap* **`afmhot`** como paleta de color.

Almacene el resultado de la función de visualización en la variable **`titanic_clase_cajas`**. 

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pistas</b></font>
</summary>


* Al construir el diagrama de cajas puede seleccionar una variable categórica en el eje *x* para conocer las distribuciones de cada grupo independientemente.
* Fíjese en los nombres de las variables que va a utilizar. Algunas columnas son muy similares pero el resultado obtenido no es el mismo.
* Deberá agregar el título y etiquetas de los ejes por su cuenta. Para esto, utilice métodos de objetos **`Axes`** de *Matplotlib* como **`set_title`** y **`set_xlabel`** sobre el objeto **`titanic_clase_cajas`**.
* Las cadenas de texto exactas usadas en este ejercicio son:
  * **Título**: `'Age distribution by class'`
  * **Etiqueta del eje X**: `'Passenger travel class (I, II, III)'`
  * **Etiqueta del eje Y**: `'Age (years)'`


In [None]:
## VARIABLE CALIFICADA: titanic_clase_cajas
### ESCRIBA SU CÓDIGO AQUÍ ### (~ 1 línea de código)
titanic_clase_cajas = sns.boxplot(data=titanic,x='class',y='age',palette='afmhot')
titanic_clase_cajas.set_title('Age distribution by class')
titanic_clase_cajas.set_xlabel('Passenger travel class (I, II, III)')
titanic_clase_cajas.set_ylabel('Age (years)')
### FIN DEL CÓDIGO ###

titanic_clase_cajas

**Salida esperada:**

``` 
<matplotlib.axes._subplots.AxesSubplot at 0x____________>
```

![corr matrix](images/prac3_5.png)

## **6 Usando gráficas de enjambre**
---

En este ejercicio deberá representar gráficamente la distribución de las edades de los pasajeros a bordo del *Titanic* en cada clase utilizando una **gráfica de enjambre o *swarm plot***, además, deberá diferenciar entre los que sobrevivieron y los que no, así:

> * La paleta de colores usada para la imagen de referencia es **`Set1`**. 
* El radio de los puntos es de $2$ unidades.


Almacene el resultado de la función de visualización en la variable **`titanic_clase_swarm`**.

<details>    
<summary>
    <font size="3" color="darkgreen"><b>Pistas</b></font>
</summary>

* Use la función **`swarmplot`** de *Seaborn* para generar el diagrama de enjambre.
* En esta gráfica las dos categorías (sobrevivientes / no sobrevivientes) deben estar bien diferenciadas entre sí. Use el parámetro **`dodge`** para conseguirlo.
* Si el anterior punto es correcto, debería usar los mismos nombres de variables.
* Configure el tono del color de acuerdo al valor de la variable categórica **`survived`**.
* Deberá agregar el título y etiquetas de los ejes por su cuenta. Para esto, utilice métodos de objetos **`Axes`** de *Matplotlib* como **`set_title`** y **`set_xlabel`** sobre el objeto **`titanic_clase_swarm`**.
* Las cadenas de texto exactas usadas en este ejercicio son:
  * **Título**: `'Age distribution by class'`
  * **Etiqueta del eje X**: `'Passenger travel class (I, II, III)'`
  * **Etiqueta del eje Y**: `'Age (years)'`


In [None]:
## VARIABLE CALIFICADA: titanic_clase_swarm
### ESCRIBA SU CÓDIGO AQUÍ ### (~ 1 línea de código)
titanic_clase_swarm = None
### FIN DEL CÓDIGO ###

titanic_clase_swarm

**Salida esperada:**

``` 
<matplotlib.axes._subplots.AxesSubplot at 0x____________>
```

![corr matrix](images/prac3_6.png)