# Gráficos con seaborn

Vamos a profundizar más en el uso de esta librería. Para la mayoría de los ejemplos, usaremos el dataset de diamantes.

Puedes consultar la documentación completa de seaborn [aquí](https://seaborn.pydata.org/). O un resumen de las funciones más importantes [aquí](https://s3.amazonaws.com/assets.datacamp.com/blog_assets/Python_Seaborn_Cheat_Sheet.pdf)

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
# Esto solo me sirve para que se vean algo más grandes los gráficos
# en el notebook

from matplotlib import rcParams

rcParams['figure.figsize'] = 14, 10
sns.set_context('talk')

In [None]:
diamonds = sns.load_dataset('diamonds')

Para que los gráficos sean más rápidos en cargar, y algunos ejemplos más claros, cojo solamente un subconjunto de los datos (2000 filas de unas 54000)

In [None]:
dat = diamonds.sample(2000, random_state=1234).copy()
dat.head()

## Scatter plot

Para pintar una característica frente a otra en un [scatterplot](https://seaborn.pydata.org/generated/seaborn.scatterplot.html), p.e. precio vs quilates:

In [None]:
out = sns.scatterplot(x='price', y='carat', data=dat)

#### Ejercicio

Cambia el tamaño de los puntos según la propiedad `x` (longitud en mm) sobre el scatterplot básico.

#### Ejercicio

Cambia la forma de los puntos según la propiedad `clarity` sobre el scatterplot básico.

#### Ejercicio

Colorea los puntos según la propiedad `cut` sobre el scatterplot básico que acabamos de mostrar.

Una vez hecho, ordena en la leyenda los cortes de forma ascendente por calidad, es decir, 'Fair', 'Good', 'Very Good', 'Premium', 'Ideal'.

#### Ejercicio

Prueba a colorear los puntos ahora por una propiedad numérica. ¿Cuál es la diferencia que observas en la paleta de colores con respecto a `cut`, que es categórica?

Si queremos utilizar un scatter plot con una variable categórica, podemos usar efecto `jitter` sobre los puntos que irían unos encima de otros (es decir, aplicar un poco de desplazamiento para ver nubes de puntos). Para hacer esto, tenemos `stripplot` y `swarmplot`. Como ejercicio, descubre la diferencia entre ambos métodos.

Un ejemplo:

In [None]:
out = sns.stripplot(x='cut', y='price', data=dat)

#### Ejercicio

Pinta este mismo gráfico con `scatterplot` y `swarmplot`. Explica las diferencias.

#### Ejercicio

* Pinta el mismo gráfico con _violines_ en lugar de con puntos
* Ídem con boxplots

¿Cuál te parece más intuitivo?

## Bar plot

Otro estilo de gráfico muy habitual son los de barras. Ten en cuenta que:

* Si representamos una variable en el eje x, y el eje y es el conteo, estamos hablando de [`countplot`](https://seaborn.pydata.org/generated/seaborn.countplot.html)
* Si representamos una variable en el eje x y otra en el eje y, hablamos de [`barplot`](https://seaborn.pydata.org/generated/seaborn.barplot.html)

In [None]:
# Un countplot
out = sns.countplot(x='clarity', hue='cut', data=dat)

## Histograma

Para representar la distribución de una variable podemos usar [`distplot`](https://seaborn.pydata.org/generated/seaborn.distplot.html), pasando como argumento la columna de interés.

In [None]:
out = sns.distplot(dat.price)

#### Ejercicio

* Lee los datos del economista (`dat/economist-countries-data.csv`), con indicadores de desarrollo y corrupción por países
    * HDI: Human Development Index (1: más desarrollado)
    * CPI: Corruption Perception Index (10: menos corrupto)
* Crea un gráfico que:
    * Cada país sea un punto
    * El eje x indique CPI, el y HDI
    * El color del punto indique la región
    * Su tamaño sea proporcional al ranking HDI
* ¿Qué conclusiones extraes del gráfico?

## Escalas

Podemos cambiar la escala de los ejes:

In [None]:
out = sns.scatterplot(x='price', y='carat', data=dat)

# Esta instrucción es de matplotlib, y altera el gráfico actual
plt.xscale('log')

#### Ejercicio

Investiga cómo cambiar las paletas de colores por alguna de nuestra elección de [colorbrewer](http://colorbrewer2.org), y pinta dos scatterplots de precio vs quilates. Cada uno usará como color una propiedad diferente, que consideres de naturaleza secuencial y cualitativa respectivamente.

#### Ejercicio

Investiga cómo cambiar las etiquetas de los ejes y el título global del gráfico. Hazlo sobre uno de tus gráficos.

## Facets

Los facets son composiciones de gráficos para comparar datos sobre distintas propiedades. [Aquí](https://seaborn.pydata.org/tutorial/axis_grids.html) tienes una buena referencia sobre cómo generarlos desde seaborn.

Podemos comprar todas nuestras variables numéricas rápidamente con `pairplot`. Opcionalmente, agrupando (coloreando) por alguna categórica:

In [None]:
out = sns.pairplot(dat, hue='cut')

#### Ejercicio

Investiga el uso de [`FacetGrid`](https://seaborn.pydata.org/tutorial/axis_grids.html) y pinta estos gráficos:

* Los histogramas de `carat` por cada valor de `cut`.
* Un scatterplot de `carat` en x frente a `price` en y, por cada valor de `cut`.
* Un scatterplot de `carat` en x frente a `price` en y, por cada valor de `cut` y `clarity`.

## Ejercicio exploración avistamientos de OVNIs

Vamos a explorar un conjunto de datos sobre avistamientos de OVNIs, disponible en este repositorio en `dat/ufos.csv`. 

Lee los datos y límpialos. Luego, haz un análisis gráfico de los datos contestando a las siguientes preguntas:

* ¿Cómo evoluciona la cantidad de avistamientos a lo largo de los años?
* ¿Cuáles son las formas de OVNI avistadas más frecuentes (y cuál es esa frecuencia)? Con forma me refiero a: luz, óvalo, triángulo, ...
* ¿Hay meses del año en los que es más probable que se produzca un avistamiento? ¿Hay alguna forma que se vea claramente más frecuentemente en algún momento del año?
* ¿Qué países aparecen en el dataset? ¿Cuál tiene mayor número de avistamientos?
* ¿Cómo se distribuye la duración de los avistamientos?
* ¿Cómo se distribuye el tiempo pasado entre el momento del avistamiento (`datetime`) y la fecha de publicación (`date_posted`)?
* Opcional: crea una nube de palabras sobre los comentarios, para ver qué palabras son las más comunes. Puedes usar el paquete [`WordCloud`](https://github.com/amueller/word_cloud) para ello.
* Piensa otras preguntas, intenta ver posibles interacciones entre variables, y pinta los gráficos correspondientes