# Seminario «Fundamentales de visualización en Python» <a name="introduction"></a>






## Índice de contenidos

1. Matplotlib
2. Seaborn
3. Plotly Express
4. Missingno
5. Ejercicios

# Matplotlib

Matplotlib es la librería más básica para visualización en Python.

In [None]:
# Importar matplotlib
import matplotlib.pyplot as plt

# Importar modulos básicos
import pandas as pd
import numpy as np

In [None]:
# Importar datos
datos = pd.read_csv('https://raw.githubusercontent.com/jgchaparro/visualizacion_ironhack_19_01_2023/main/Datasets/PIB%20per%20capita%20largo%20(d%C3%B3lares%20de%202010).csv')

# Utilizar datos de España
españa = datos[datos['country'] == 'Spain']
españa.head(5)

## Partes de una imagen en matplotlib.pyplot

Cada imagen tiene tres partes principales:
* Figure: la imagen en su conjunto.
* Axes: cada una de las cajas que contienen gráficas.
* Axis: ejes vertical y horizontal.

![Figure and axes](https://raw.githubusercontent.com/jgchaparro/visualizacion_ironhack_19_01_2023/main/img/matplolib_figure_and_axes.png "Figure and axes")

Otros objetos menores, aunque bastante usados, son los títulos, las etiquetas (labels) o los ticks. Cada gráfica cuenta con multitud de objetos personalizables.

![Figure anatomy](https://raw.githubusercontent.com/jgchaparro/visualizacion_ironhack_19_01_2023/main/img/matplotlib_figure_anatomy.png 'Figure anatomy')

### Formas de crear gráficos

Matplotlib cuenta con dos métodos para crear los gráficos. La sintaxis concreta dependerá de que se use uno u otro.

- **Método explícito, orientado a objetos**: algo más lento de escribir, pero aporta más control y replica el comportamiento de otros objetos de Matplotlib. Recomendado para visualizaciones más complejas o detalladas.

Algunos objetos de Matplotlib son los siguientes:

- Figure
- Artist
- Axes
- Axis
- Text
- Polygon

In [None]:
...

- **Método implícito de Pyplot**: más rápido y compacto. Recomendado para plots simples.

In [None]:
...

Recuerda añadir `;` al final de la última línea para evitar que se imprima el objeto y dar un aspecto más limpio.

In [None]:
plt.plot([1, 2, 3, 5])

## Personalizando los gráficos

### Básicos

Matplotlib ofrece multitud de argumentos para personalizar el gráfico que deben pasarse como kwargs al crear el gráfico. Cada gráfico tiene su lista de argumentos particular, aunque muchos se comparten.

In [None]:
plt.figure(figsize = (10, 5))

# Añade transparencia
plt.plot('year', 'value', data = españa[españa['year'].between(1960, 1970)], )

# Cambia el color a rojo
plt.plot('year', 'value', data = españa[españa['year'].between(1970, 1980)], )
# Utiliza un código de color hexadecimal
plt.plot('year', 'value', data = españa[españa['year'].between(1970, 1980)], ) # Color rojo

# Cambia el tipo de línea
plt.plot('year', 'value', data = españa[españa['year'].between(1980, 1990)], )

# Cambia el grosor de la línea
plt.plot('year', 'value', data = españa[españa['year'].between(1990, 2000)], )

plt.xlabel('Año')
plt.ylabel('PIB per cápita');

#### Limitar el rango del gráfico

In [None]:
fig, ax = plt.subplots(figsize = (10, 5))
ax.plot('year', 'value', data = españa)

# Límite horizontal
...

# Límite vertical
...

# Fijar ambos límites a la vez
...

#### Modificar los ticks

In [None]:
fig, ax = plt.subplots(figsize = (10, 5))
ax.plot('year', 'value', data = españa)

# Cambiar los ticks horizontales
...

# Ticks verticales
...

# Ocultar los ticks
...

#### Añadir títulos y leyendas

In [None]:
fig, ax = plt.subplots(figsize = (10, 5))
line, = ax.plot('year', 'value', data = españa, color = 'darkblue', linewidth = 2)

# Título general
...

# Añadir leyenda
...

# Título en el eje horizontal
...

# Título en el eje horizontal vertical
...

#### Guardar imagen

In [None]:
fig.savefig(
    'imagen_de_ejemplo.png', 
    transparent = True # Usar fondo transparente
    )

### Otras modificaciones


#### Modificar el fondo y los bordes del gráfico

In [None]:
fig, ax = plt.subplots(
    figsize = (10, 5), 
    facecolor = 'yellow',
    edgecolor = 'blue', # Borde de la imagen
    linewidth = 10 # Grosor del borde
    ) 
ax.plot('year', 'value', data = españa);

#### Añadir líneas

In [None]:
fig, ax = plt.subplots(figsize = (10, 5))
line, = ax.plot('year', 'value', data = españa, color = 'darkblue', linewidth = 2)

# Añade una línea horizontal
ax.axhline(10000, 
    color = 'red', 
    linestyle = '-', 
    alpha = 0.5, 
    xmin = 0.1, # Punto de inicio como proporción del gráfico
    xmax = 0.9, # Punto final como proporción del gráfico
    marker = 'P', # Marcador para el borde de la línea
    markersize = 9, # Tamaño del marcador
    fillstyle = 'top' # Relleno del marcador
    )

# Añade una línea vertical
ax.axvline(1976, color = 'green', alpha = 0.5);

#### Añadir texto, flechas y rejillas

In [None]:
fig, ax = plt.subplots(figsize = (10, 5))
line, = ax.plot('year', 'value', data = españa, color = 'darkblue', linewidth = 2)

# Añade texto al gráfico
ax.text(1977, 16000, '1976: 14 350 $')

# Anotación con flecha
ax.annotate(
    '1995: 20 000 $', 
    xy = (1995, 20000), # ¿A dónde apunta la flecha?
    arrowprops = {'facecolor' : 'black'}, # Características de la flecha 
    xytext = (1995, 10000), xycoords = 'data' # ¿Dónde se coloca el texto?
    )

# Añade una rejilla
ax.grid(True, linestyle = '--')

## Gráficos básicos en Matplotlib

### Gráfico de barras (barplot)

In [None]:
fig, ax = plt.subplots(figsize = (10, 5))

# Seleccionar países
paises = ['Spain', 'Portugal', 'France', 'Germany', 'Italy']
seleccion = datos[(datos['year'] == 2020) & (datos['country'].isin(paises))]

colores = ['black', 'yellow', 'blue', 'red', 'green']

# Crear gráfico
...
ax.set_title('PIB per capita en 2020 para países seleccionados');

In [None]:
# Gráfico de barras horizontal
# Útil cuando hay muchas etiquetas y largas
fig, ax = plt.subplots(figsize = (10, 5))

# Crear gráfico
...
ax.set_title('PIB per capita en 2020 para países seleccionados');

### Interpretación de un boxplot


![Interpretación de un boxplot](https://raw.githubusercontent.com/jgchaparro/visualizacion_ironhack_19_01_2023/main/img/matplotlib_boxplot_interpretation.png "Figure and axes")

In [None]:
# Elegir países
europa_occidental = ['Spain', 'Portugal', 'France', 'Germany', 'Italy', 'United Kingdom']
europa_oriental = ['Greece', 'Romania', 'Bulgaria', 'Poland', 'Hungary', 'Slovakia', 'Albania']

# Extraer información para esos países
pib_occidental = datos[(datos['year'] == 2020) & (datos['country'].isin(europa_occidental))]['value'].values
pib_oriental = datos[(datos['year'] == 2020) & (datos['country'].isin(europa_oriental))]['value'].values

# Incluir ambas listas de información en una sola lista
# El boxplot exige que estén en una sola lista (lista de listas)
pib_europa = [pib_occidental, pib_oriental]

# Crea el boxplot
fig, ax = plt.subplots(figsize = (5, 5))
...
ax.set_title('PIB per capita en Europa occidental y oriental')
ax.set_xticklabels(['Europa occidental', 'Europa oriental']);

### Histograma


In [None]:
# Obtener datos para todos los países en 2020
datos_2020 = datos[datos['year'] == 2020]
pib_2020 = datos_2020['value']

# Seleccionar países con un PIB per cápita de menos de 20 000 dólares
pib_2020_seleccion = list(filter(lambda x: x < 20000, pib_2020))

# Crear el histograma
fig, ax = plt.subplots(figsize = (10, 5))
...
ax.set_title('PIB de países en desarrollo en 2020')
ax.set_ylabel('Número de países')
ax.set_xlabel('Dólares internacionales');

#### Gráfico de violín (violinplot)

Similar a un boxplot, pero mostrando la distribución

In [None]:
# Datos para todos los países en desarrollo en 2020
pib_2020 = datos[(datos['year'] == 2020) & (datos['value'] < 15000)]['value']

# Crea el boxplot
fig, ax = plt.subplots(figsize = (5, 5))
...
ax.set_title('PIB de países en desarrollo en el 2020')
ax.set_ylabel('Dólares internacionales')
ax.set(xticklabels = []);

### Gráfico circular (pie chart)

[Piensa primero si usar un gráfico circular es buena idea](https://www.data-to-viz.com/caveat/pie.html)

In [None]:
# Datos sobre PIB en los países del G7
g7 = ['Germany', 'Italy', 'United States', 'United Kingdom', 'Japan', 'France', 'Canada']

pib_g7 = {
        pais : datos[(datos['year'] == 2020) & (datos['country'] == pais)]['value'].iloc[0] for pais in g7
}

# Crear el gráfico circular
# Importante: ¡utiliza el argumento 'facecolor' o el fondo será transparente!
fig, ax = plt.subplots(figsize = (10, 5), facecolor = 'white')
...
ax.set_title('PIB per cápita aportado por cada país del G7 en 2020')
ax.axis('equal');

### Gráficos extra

#### Gráfico de barras apilado

In [None]:
fig, ax = plt.subplots(figsize = (3, 5))

etiquetas = ['2010', '2020']
españa = datos[(datos['year'].isin([2010, 2020])) & (datos['country'] == 'Spain')]
portugal = datos[(datos['year'].isin([2010, 2020])) & (datos['country'] == 'Portugal')]

...
...

ax.set_title('PIB en Portugal y España')
ax.legend(loc = 'lower center');

#### Gráfico de área apilado

In [None]:
fig, ax = plt.subplots(figsize = (10, 5))

años = [i for i in range(2010, 2021)]
valores = {
    'España' : datos[(datos['year'].between(2010, 2020)) & (datos['country'] == 'Spain')]['value'],
    'Portugal' : datos[(datos['year'].between(2010, 2020)) & (datos['country'] == 'Portugal')]['value']
}
 
...
...

ax.set_title('PIB en Portugal y España')
ax.legend(loc = 'upper left');

## Gráficos multiples en una sola imagen (subplots)

#### Subplots básicos

In [None]:
n_filas = 3
n_columnas = 2

# Crear los subplots
...

# Utiliza tight layout para evitar superposiciones
...

#### Modificando subplots

In [None]:
n_filas = 3
n_columnas = 2

# Crear los subplots
...
 
...

# Cambiar uno de los gráficos
...

# Poner un título común
...


### Gráficos múltiples avanzados: mosaicos con subplots

Es posible generar composiciones complejas pasando una cadena de texto con números en la disposición deseada.

#### Mosaico con subplots

In [None]:
mosaico_simple = """
112
332
"""

fig, axs = plt.subplot_mosaic(mosaico_simple, layout = 'constrained')
fig.suptitle('Mosaico simple');

In [None]:
mosaico_complejo = """
11222
33222
45555
"""

fig, axs = plt.subplot_mosaic(mosaico_complejo, layout = 'constrained')
fig.suptitle('Mosaico complejo');

## Extras

### Ajustes por defecto

Los rc (runtime configuration) settings son un diccionario que contiene los ajustes por defecto para la visualización de los gráficos. A diferencia de la mayoría de objetos utilizados aquí, este diccionario se debe importar del modulo matplotlib y no matplotlib.pyplot.

In [None]:
# Importar matplotlib
import matplotlib as mpl

mpl.rcParams['lines.linestyle'] = ':'

# Restaurar los parámetros por defecto
mpl.rcParams.update(mpl.rcParamsDefault)

### Estilos

Los estilos modifican los parámetros por defecto contenidos en rcParams.

[Lista completa de estilos](https://matplotlib.org/stable/gallery/style_sheets/style_sheets_reference.html)

In [None]:
# Mostrar estilos disponibles
styles = plt.style.available
print(styles[:5])

# Activar un estilo
plt.style.use('dark_background')

plt.plot('year', 'value', data = españa)

# Resetear al estilo por defecto
mpl.rcParams.update(mpl.rcParamsDefault);

## Casos prácticos con Matplotlib

In [None]:
# Visualizar los datos
españa.head()

### 1) Muestra el PIB de España con un gráfico de línea

- Usa la variable `datos`

Ejemplo de solucción:

<center> <img src=https://raw.githubusercontent.com/jgchaparro/visualizacion_ironhack_19_01_2023/main/img/exercise_solutions/matplotlib_ex_1.png> </img></center>

In [None]:
datos = españa

...

### 2) Muestra el PIB de España con un gráfico de barras

- Usa la variable `datos`
- Cambia el color de las barras a rojo

Ejemplo de solucción:

<center> <img src=https://raw.githubusercontent.com/jgchaparro/visualizacion_ironhack_19_01_2023/main/img/exercise_solutions/matplotlib_ex_2.png> </img></center>

In [None]:
datos = españa

...

#### 3) Une los dos gráficos anteriores en subplots

- Usa las variables `datos_pre_1976` y `datos_post_1976`
- Crea una imagen con 4 subplots: 2 por fila y 2 por columna.
- Los gráficos de la primera columna deben ir en naranja; los de la segunda, en naranja.

Ejemplo de solucción:

<center> <img src=https://raw.githubusercontent.com/jgchaparro/visualizacion_ironhack_19_01_2023/main/img/exercise_solutions/matplotlib_ex_3.png> </img></center>

In [None]:
datos_pre_1976 = españa[españa['year'] <= 1976].copy()
datos_post_1976 = españa[españa['year'] > 1976].copy()

datos_pre_1976['year'] = datos_pre_1976['year'].astype(int)
datos_post_1976['year'] = datos_post_1976['year'].astype(int)

datos_pre_1976['crecimiento'] = datos_pre_1976['value'].diff()
datos_post_1976['crecimiento'] = datos_post_1976['value'].diff()

# Crea los subplots
...


# Grafica los datos anteriores a 1976
...

# Grafica los datos posteriores a 1976
...

# Añadir títulos
...

# Añadir etiquetas a los ejes
...

# ADICIONAL: Corregir floats en primera columna
...

# ADICIONAL: compartir ejes por filas
...

# Aplica tight_layout() para evitar superposiciones
...

# Seaborn

Seaborn es una librería de visualización construida sobre Matplotlib y muy integrada con Pandas.

In [None]:
# Importaciones
import seaborn as sns

# Cambiar el estilo por defecto
sns.set_theme()

<center> <img src=https://raw.githubusercontent.com/jgchaparro/visualizacion_ironhack_19_01_2023/main/img/seaborn_iris.png> </img></center>

In [None]:
# Importar el conjunto de datos de prueba
iris = sns.load_dataset('iris')
print(iris['species'].unique())
iris.head()

## Gráficos de ejes (axis-level) y gráficos de imagen (figure-level)

En Seaborn, hay dos tipos de gráficos:
* Gráficos de ejes: solo ocupan un eje. Aceptan el argumento `ax` y pueden usarse en subplots. Funcionan como los gráficos de Matplotlib. Representadas en las cajas pequeñas en la imagen.

* Gráficos de imagen: ocupan todo el espacio de la imagen. En consecuencia, no aceptan el argumento `ax` y no pueden agruparse en subplots. Contienen todas las funciones de ejes de una categoría, seleccionables a través del parámetro `kind`. Se gestionan a través de un objeto especial, `FacetGrid`. Representadas en las cajas grandes en la imagen. Permiten crear imágenes con múltiples gráficas rápidamente. Similares a sus contrapartidas de eje, pero con algunos cambios. Por ejemplo, la leyenda se coloca fuera de la imagen. 
    
<center> <img src=https://raw.githubusercontent.com/jgchaparro/visualizacion_ironhack_19_01_2023/main/img/seaborn_figure_axis_functions.png> </img></center>

Las cajas grandes representan las funciones para generar gráficos de imagen, que contienen las funciones para gráficos de eje, recogidas en las cajas pequeñas.




In [None]:
# Agrupando gráficos de eje
fig, axs = plt.subplots(1, 2, figsize = (10, 5))
...
...
fig.tight_layout();

In [None]:
# Accediendo y modificando gráficos de imagen
# Personalización más limitada
...
fig.set_axis_labels('Largo del pétalo', 'Ancho del pétalo');

###  Modificando el tamaño en gráficos de imagen

El tamaño de los subplots utiliza los parámetros `height` y `aspect` en lugar de `width` y `height` de Matplotlib. Se mide en pulgadas (1 pulgada = 2,5 cm). 

El tamaño de la imagen se calcula automáticamente en función del número de subplots y su tamaño.


In [None]:
fig = sns.FacetGrid(iris, col = 'species', height = 6, aspect = 1.5);

## Gráficos básicos

### Gráfico de línea

Si para un punto hay más de una instancia, Seaborn computará automáticamente intervalos de confianza.

In [None]:
...

### Gráfico de dispersión (scatterplot)

* `hue` («matiz»): separa por colores en función de la variable introducida.

In [None]:
...

### Gráfico de regresión (regplot)

Similar al gráfico de dispersión, pero añade una regresión lineal.

In [None]:
...

### Gráfico de barras

* `dodge`: evita separaciones anómalas.

La línea negra sobre las barras indica  la media de la variable indicada y su desviación típica.

In [None]:
...
fig.set_ylabel('Media del largo del pétalo');

In [None]:
...

fig.set_xlabel('Media del largo del pétalo');

### Histogramas

- `bins`: número de barras en las que se divide el gráfico. [¿Cómo elegir el número de bins?](https://www.statisticshowto.com/choose-bin-sizes-statistics/)
- `kde`: estimación de la distribución subyacente que genera los datos.

In [None]:
...

In [None]:
# Distinguir según especie
...


### Mapa de calor (heatmap)

In [None]:
...

### Mapa de calor jerarquizado (clustered heatmap)

In [None]:
sns.clustermap(
    data = iris.corr(), # Correlaciones entre variables
    annot = True, # Mostrar valores de la tabla. En este caso, las correlaciones
    vmin = -1, # Valor máximo
    vmax = 1, # Valor mínimo
    figsize = (5, 5), # Cambiar tamaño de gráfico
    cmap = 'RdBu'
    );

### Gráfico de cajas (boxplot)

In [None]:
...

### Gráficos de violín (swarmplot)

In [None]:
...

### Gráficos de enjambre (swarmplot)

In [None]:
...

### Stripplot

In [None]:
# Cambiar a formato largo
# especie - variable - valor
iris_long = pd.melt(iris, 'species', var_name = 'measurement')
iris_long.head()

In [None]:
...

## Gráficos especiales

Los `jointplot` y `pairplot` combinan características de gráficos de relación y distribución en un solo gráfico de imagen.

In [None]:
# Jointplot
# Util para ver relaciones y distribuciones a la vez
...

In [None]:
# Pairplot
...

# Paletas de colores

Seaborn cuenta con tres tipos de paletas de colores:
- Paletas cualitativas: para datos categóricos.
- Paletas secuenciales: para datos numéricos.
- Paletas divergentes: para datos numéricos con límites o puntos de referencia. 

## Paletas cualitativas

Utilizadas para representar un número limitado de categorías.

<center> <img src=https://raw.githubusercontent.com/jgchaparro/visualizacion_ironhack_19_01_2023/main/img/seaborn_qualitative_colormaps.png> </img></center>

In [None]:
# Usa la paleta 'bright'
sns.barplot(x = list(range(1, 9)), y = [1] * 8, palette = 'Dark2');

## Paletas secuenciales

Contienen una escala continua de valores

<center> <img src=https://raw.githubusercontent.com/jgchaparro/visualizacion_ironhack_19_01_2023/main/img/seaborn_sequential_palettes.png> </img></center>

In [None]:
sns.heatmap(
    data = iris.corr(), # Correlación entre métricas
    ... # Elegir paleta. Añade '_r' para invertir
    );

## Paletas divergentes

Similares a las continuas, pero con un punto de referencia a partir del cual nacen dos escalas continuas con colores distintos. Basado en el [modelo de color HSL](https://es.wikipedia.org/wiki/Modelo_de_color_HSL), requieren indicar el matiz del color de ambos extremos. Seaborn elegirá automáticamente la saturación y la intensidad. Por defecto, estos son 75 y 50, respectivamente.

In [None]:
sns.diverging_palette(220, 20, as_cmap=True)

In [None]:
# Parámetros opcionales para las paletas divergentes
sns.diverging_palette(
    ...
)

## Casos prácticos para Seaborn

#### Vista de los datos

In [None]:
from plotly.express.data import gapminder
data = gapminder()
data.head(10)

### 1) Grafica el PIB per cápita de España por años con un gráfico de línea en Seaborn

- Utiliza la variable `datos`
- Añade un título al gráfico y a los ejes horizontal y vertical
- Cambia el color de la línea

Ejemplo de solución:

<center> <img src=https://raw.githubusercontent.com/jgchaparro/visualizacion_ironhack_19_01_2023/main/img/exercise_solutions/seaborn_ex_1.png> </img></center>

In [None]:
datos = data.query('country == "Spain"')

...

### 2) Grafica la correlacción entre variables con un heatmap en Seaborn

- Utiliza la variable `datos`
- Utiliza `paleta` como argumento para el parámetro `cmap` del heatmap
- Define los parámetros `vmin` y `vmax` como -1 y 1
- Muestra la correlación en número dentro de la celda
- Tamaño recomendado: (10, 8) 

Ejemplo de solución:

<center> <img src=https://raw.githubusercontent.com/jgchaparro/visualizacion_ironhack_19_01_2023/main/img/exercise_solutions/seaborn_ex_2.png> </img></center>

In [None]:
datos = data.corr()
paleta = sns.diverging_palette(220, 20, as_cmap=True) # Paleta roja y azul

...

### 3) Grafica la dsitribución de la esperanza de vida en 2007 con Seaborn 

- Utiliza el tamaño de imagen (5, 5)
- Usa 15 bins

Ejemplo de solución:

<center> <img src=https://raw.githubusercontent.com/jgchaparro/visualizacion_ironhack_19_01_2023/main/img/exercise_solutions/seaborn_ex_3.png> </img></center>

In [None]:
datos = data.query('year == 2007')

...

### 4) Grafica la distribución de la esperanza de vida en 2007 separando por continente con Seaborn 

Tendrás que utilizar el gráfico de imagen `sns.displot`

- Utiliza la variable `datos`
- Pon cada plot en una columna distinta
- Pon un color distinto a cada continente
- Prueba a añadir la estimación de la densidad de distribución (`kde`)

Ejemplo de solución:

<center> <img src=https://raw.githubusercontent.com/jgchaparro/visualizacion_ironhack_19_01_2023/main/img/exercise_solutions/seaborn_ex_4.png> </img></center>

In [None]:
datos = data.query('year == 2007')

...

# Plotly Express

In [None]:
# Importar Plotly
import plotly.express as px

In [None]:
# Obtener datos
data = px.data.gapminder()

# Crear columna para PIB (GDP)
data['gdp'] = data['pop'] * data['gdpPercap']

data.head()

## Plotly Express vs. Plotly Graph Objects

Todos los gráficos de Plotly tienen la estructura de diccionario. El módulo graph_objects contiene todas los objetos individuales de un gráfico. Pueden acumularse unos sobre otros desde sus partes más pequeñas hasta construir la imagen final, como en la siguiente celda.

In [None]:
import plotly.graph_objects as go

dict_of_fig = dict({
    "data": [{"type": "bar",
              "x": [1, 2, 3],
              "y": [1, 3, 2]}],
    "layout": {"title": {"text": "Gráfico construido con objetos individuales"}}
})

fig = go.Figure(dict_of_fig)

fig.show()

Por su parte, Plotly Express permite crear gráficos rápidamente indicando solo algunos datos y dando valores por defecto al resto de características.

Se recomienda utilizar Plotly Express para generar las imágenes y, después, modificar los objetos individuales que generan el gráfico.

In [None]:
# Crear objeto con Express
...

# Cambiar etiqueta del eje Y
...

In [None]:
fig['layout']

## Gráficos en Plotly

### Gráfico de linea

In [None]:
...

fig.show()

#### Personalizando el gráfico

* **Tamaño**: a diferencia de Matplotlib y Seaborn, en Plotly puede indicarse el tamaño directamente al crear la imagen con los parámetros `width` y `height`.
  
* **Etiquetas**: requiere un diccionario que indique con qué términos se deben reemplazar los valores por defecto.
  
* **Color**: dos métodos:
  * `color_discrete_sequence`: asigna colores en función del orden en el que aparecen los datos.
  * `color_discrete_map`: asigna colores directamente uno a uno.


In [None]:
# Personalizando el gráfico
...

### Gráfico de barras

In [None]:
...

### Gráfico de área

In [None]:
...

### Gráficos de caja

In [None]:
...

### Gráfico de dispersión (scattermap)

In [None]:
...

### Gráfico circular (piechart)

In [None]:
...

### Treemap

In [None]:
...

### Sunburst

In [None]:
...

### Animaciones

In [None]:
px.scatter(
    data,
    x = 'pop',
    log_x = True,
    y = 'lifeExp',
    range_y = [30, 85],
    color = 'continent',
    hover_name = 'country',
    facet_col= 'continent',

    # Parámetros para animar
    ...


    )

In [None]:
px.bar(
    data, 
    x = "continent", 
    y="pop", range_y=[0,4000000000],
    color="continent",

  ...
)

## Casos prácticos para Plotly

### 1) Grafica el PIB per cápita de Alemania por años con un gráfico de barras (barplot) en Plotly

* Utiliza la variable `datos`
* Añade un título
* Cambia las etiquetas de los ejes horizontal y vertical
* Centra el título del gráfico 

Ejemplo de solución:

<center> <img src=https://raw.githubusercontent.com/jgchaparro/visualizacion_ironhack_19_01_2023/main/img/exercise_solutions/plotly_ex_1.png> </img></center>

In [None]:
datos = data.query('country == "Germany"')

...

### 2) Grafica la distribución de la esperanza de vida por continente en 2007 con un gráfico de cajas (boxplot) en Plotly

- Cambia las etiquetas de los ejes horizontal y vertical
- Pon un color distinto a cada continente

Ejemplo de solución:

<center> <img src=https://raw.githubusercontent.com/jgchaparro/visualizacion_ironhack_19_01_2023/main/img/exercise_solutions/plotly_ex_2.png> </img></center>

In [None]:
datos = data.query('year == 2007')

...

#### 3) Añade una animación al gráfico anterior

- Utiliza la variable `datos`, que contiene datos históricos
- Limita el rango del eje Y a 30 y 90
 
 Ejemplo de solución:

 <center> <img src=https://raw.githubusercontent.com/jgchaparro/visualizacion_ironhack_19_01_2023/main/img/exercise_solutions/plotly_ex_3_corrected.png> </img></center>

In [None]:
datos = data

...

# Missingno

Missingno es una librería orientada al análisis visual de datos faltantes. Muy útil en las etapas iniciales de los análisis.

Para esta demo, utilizaremos los datos de Gapminder que ofrece Plotly

In [None]:
# Importaciones
!pip install missingno
import missingno as msno

In [None]:
# Cargar datos desde Plotly
# Obtener datos
data = px.data.gapminder()

# Crear columna para PIB (GDP)
data['gdp'] = data['pop'] * data['gdpPercap']

data.head()

In [None]:
# Pasar los datos a formato ancho
data_ancho = pd.pivot(data, index = 'country', columns = 'year', values = 'gdpPercap')
data_ancho.head(10)

In [None]:
# Detectar nulos en data_ancho
...

In [None]:
# Eliminar algunos datos en data_ancho
data_ancho.iloc[23:41, 3:7] = np.nan
data_ancho.iloc[102:109, 6:9] = np.nan

En Missingno, las celdas con datos no nulos se marcan en negro. Si hay datos faltantes, aparecen en blanco,
La línea de la derecha indica en número de celdas con datos válidos en cada fila. Los números indican las filas con la máxima y mínima cantidad de datos válidos.

In [None]:
# Detectar nulos en data_ancho
...

También puede verse fácilmente a través del gráfico de barras.

In [None]:
...

En ocasiones y si el estudio lo permite, ordenar las filas en función del número de nulos ayuda a detectar
patrones. Esto puede lograrse fácilmente con la siguiente función:

In [None]:
def msno_matriz_ordenada(datos):

  # Ordenar los datos según número de nulos
  indices_filas_nulos = datos.isnull().sum(axis = 1).sort_values(ascending = False).index
  indices_columnas_nulos = datos.isnull().sum(axis = 0).sort_values(ascending = False).index
  datos_ordenados_nans = datos.loc[indices_filas_nulos, indices_columnas_nulos]

  # Generar matriz final
  matriz = msno.matrix(datos_ordenados_nans, figsize = (15, 7))
  return matriz

msno_matriz_ordenada(data_ancho);

El dendograma describe las relaciones entre los datos faltantes. En este caso, vemos que une en un mismo grupo todas las columnas sin datos faltantes, y separa en tres los restantes: dos para los que solo carecen de un dato y otro extra para 1982, que contiene dos nulos. 

In [None]:
...

El mapa de calor (heatmap) muestra la correlación entre los **datos faltantes**, no entre el valor de las celdas en sí: 
* 1 indica que si un dato está presente en una columna, estará también en otra la otra columna.
* -1 indica que si un dato no está en una columna, sí estará en la otra columna, y viceversa.

In [None]:
...

# Enlaces de interés

### Matplotlib

- [Programación explícita frente a implícita](https://matplotlib.org/stable/users/explain/api_interfaces.html#api-interfaces)
- [Cheatsheets para Matplotlib](https://matplotlib.org/cheatsheets/)
- [Selector de códigos hexadecimales para colores](https://htmlcolorcodes.com/es/)
- [Argumentos para texto en Matplotlib](https://matplotlib.org/stable/api/text_api.html#matplotlib.text.Text)

### Seaborn
* [Galería de ejemplos de Seaborn](https://seaborn.pydata.org/examples/index.html)
* [Selector de colores HSL](https://www.w3schools.com/colors/colors_hsl.asp)

### Plotly

* [Introducción a Plotly Express](https://plotly.com/python/plotly-express/)
* [Documentación de Plotly](https://plotly.com/python-api-reference/)
* [Galería de ejemplos de Plotly](https://plotly.com/python/)

### Missingno

* [Repositorio original y documentación de Missingno](https://github.com/ResidentMario/missingno)