In [None]:
# setup en google colab
# coméntalo y no lo ejecutes si lo tienes montado en local o en otro entorno
!git clone https://github.com/koldLight/python-data-ull
%cd python-data-ull

# Gráficos con seaborn

Vamos a profundizar más en el uso de esta librería. Para la mayoría de los ejemplos, usaremos el dataset de diamantes.

Puedes consultar la documentación completa de seaborn [aquí](https://seaborn.pydata.org/). O un resumen de las funciones más importantes [aquí](https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_Seaborn_Cheat_Sheet.pdf)

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
# Esto solo me sirve para que se vean algo más grandes los gráficos
# en el notebook

from matplotlib import rcParams

rcParams['figure.figsize'] = 14, 10
sns.set_context('talk')

In [None]:
diamonds = sns.load_dataset('diamonds')

Para que los gráficos sean más rápidos en cargar, y algunos ejemplos más claros, cojo solamente un subconjunto de los datos (2000 filas de unas 54000)

In [None]:
dat = diamonds.sample(2000, random_state=1234).copy()
dat.head()

## Scatter plot

Para pintar una característica frente a otra en un [scatterplot](https://seaborn.pydata.org/generated/seaborn.scatterplot.html), p.e. precio vs quilates:

In [None]:
out = sns.scatterplot(x='price', y='carat', data=dat)

Consultando la documentación, vemos que podemos cambiar diferentes propiedades de este scatteplot. Vamos a cambiar el tamaño de los puntos según la propiedad `x` (longitud en mm).

In [None]:
out = sns.scatterplot(x='price', y='carat', size='x', data=dat)

#### Ejercicio

Cambia la forma de los puntos según la propiedad `clarity` sobre el scatterplot básico.

#### Ejercicio

Colorea los puntos según la propiedad `cut` sobre el scatterplot básico que acabamos de mostrar.

Una vez hecho, ordena en la leyenda los cortes de forma ascendente por calidad, es decir, 'Fair', 'Good', 'Very Good', 'Premium', 'Ideal'.

#### Ejercicio

Prueba a colorear los puntos ahora por una propiedad numérica. ¿Cuál es la diferencia que observas en la paleta de colores con respecto a `cut`, que es categórica?

Aunque este comportamiento por defecto suele ser el adecuado, en este caso concreto, no lo es, ya que "Fair, Good, Very Good, Premium, Ideal" no es una categórica, sino que tiene un orden implícito; su naturaleza es secuencial. Podemos sobrescribir la paleta para que sea coherente con esto:

In [None]:
cut_order = ['Fair', 'Good', 'Very Good', 'Premium', 'Ideal']
out = sns.scatterplot(data=dat, x='price', y='carat', hue='cut', hue_order=cut_order, palette="YlGnBu")

Si queremos utilizar un scatter plot con una variable categórica, podemos usar efecto `jitter` sobre los puntos que irían unos encima de otros (es decir, aplicar un poco de desplazamiento para ver nubes de puntos). Para hacer esto, tenemos `stripplot` y `swarmplot`. Como ejercicio, descubre la diferencia entre ambos métodos.

Un ejemplo:

In [None]:
out = sns.stripplot(x='cut', y='price', data=dat, alpha=.3)

#### Ejercicio

Pinta este mismo gráfico con `scatterplot` y `swarmplot`. Explica las diferencias.

#### Ejercicio

* Pinta el mismo gráfico con _violines_ en lugar de con puntos
* Ídem con boxplots

¿Cuál te parece más intuitivo?

## Bar plot

Otro estilo de gráfico muy habitual son los de barras. Ten en cuenta que:

* Si representamos una variable en el eje x, y el eje y es el conteo, estamos hablando de [`countplot`](https://seaborn.pydata.org/generated/seaborn.countplot.html)
* Si representamos una variable en el eje x y otra en el eje y, hablamos de [`barplot`](https://seaborn.pydata.org/generated/seaborn.barplot.html)

In [None]:
# Un countplot
ax = sns.countplot(x='clarity', hue='cut', data=dat)

In [None]:
# un barplot sobre el precio medio
avg_price = dat.groupby(['clarity', 'cut'], observed=True).price.mean().reset_index()
out = sns.barplot(data=avg_price, x='clarity', y='price', hue='cut')

## Histogramas / Conteos

Para representar la distribución de una variable podemos usar:

* [`histplot`](https://seaborn.pydata.org/generated/seaborn.histplot.html): para variables continuas.
* [`countplot`](https://seaborn.pydata.org/generated/seaborn.countplot.html): para variables categóricas.

Pasando como argumento la columna de interés.

In [None]:
out = sns.histplot(dat.price, kde=True)

#### Ejercicio

* Lee los datos del economista (`dat/economist-countries-data.csv`), con indicadores de desarrollo y corrupción por países
    * HDI: Human Development Index (1: más desarrollado)
    * CPI: Corruption Perception Index (10: menos corrupto)
* Crea un gráfico que:
    * Cada país sea un punto
    * El eje x indique CPI, el y HDI
    * El color del punto indique la región
    * Su tamaño sea proporcional al ranking HDI
* ¿Qué conclusiones extraes del gráfico?

## Escalas

Podemos cambiar la escala de los ejes:

In [None]:
out = sns.scatterplot(x='price', y='carat', data=dat)

# Esta instrucción es de matplotlib, y altera el gráfico actual
plt.xscale('log')

#### Ejercicio

Investiga cómo cambiar las paletas de colores por alguna de nuestra elección de [colorbrewer](http://colorbrewer2.org), y pinta dos scatterplots de precio vs quilates. Cada uno usará como color una propiedad diferente, que consideres de naturaleza secuencial y cualitativa respectivamente.

#### Ejercicio

Investiga cómo cambiar las etiquetas de los ejes y el título global del gráfico. Hazlo sobre uno de tus gráficos.

## Facets

Los facets son composiciones de gráficos para comparar datos sobre distintas propiedades. [Aquí](https://seaborn.pydata.org/tutorial/axis_grids.html) tienes una buena referencia sobre cómo generarlos desde seaborn.

Podemos comprar todas nuestras variables numéricas rápidamente con `pairplot`. Opcionalmente, agrupando (coloreando) por alguna categórica:

In [None]:
out = sns.pairplot(dat, hue='cut')

#### Ejercicio

Investiga el uso de [`FacetGrid`](https://seaborn.pydata.org/tutorial/axis_grids.html) y pinta estos gráficos:

* Los histogramas de `carat` por cada valor de `cut`.
* Un scatterplot de `carat` en x frente a `price` en y, por cada valor de `cut`.
* Un scatterplot de `carat` en x frente a `price` en y, por cada valor de `cut` y `clarity`.