In [None]:
# setup en google colab
# coméntalo y no lo ejecutes si lo tienes montado en local o en otro entorno
!git clone https://github.com/koldLight/python-data-ull
%cd python-data-ull

# Visualización de datos

## ¿Para qué sirve la visualización?

Durante las asignaturas previas, has aprendido a manejar datos en tablas. A filtrarlos, agruparlos, sacar estadísticas, transformarlos... Pero una de las herramientas más potentes que tenemos para explorar y comunicar propiedades de nuestro dataset es la visualización.

## ¿Qué elementos podemos utilizar en una visualización?

En un gráfico tenemos marcadores (que pueden ser puntos, líneas o áreas) y propiedades. Estos tienen propiedades que podemos utilizar para mostrar de forma efectiva las características de los datos. Algunas de estas propiedades son:

* La posición
* El color
* El tamaño
* La forma

## ¿Cómo hacer buenos gráficos?

Aunque todo puede tener su excepción, en líneas generales podemos seguir una serie de recomendaciones en los gráficos que diseñemos.

### No a la distorsión

Los efectos 3D, los sombreados o decoración innecesaria de los gráficos hace más complicada la interpretación de los gráficos.

Aquí un gráfico horrible que no nos transmite nada:

![](images/banana.png)

### No a los gráficos de sectores

También conocidos como tartas / quesos (o su equivalente con agujero, el donut). El cerebro interpreta mucho mejor la diferencia relativa entre alturas que entre ángulos, por lo que es recomendable usar gráficos de barras en su lugar.

Como ejemplo, mira estos dos gráficos: ambos representan la misma información, la producción por distrito. ¿Cuál entiendes mejor?

![](images/pie_vs_bar.png)

### La importancia del cero en el eje

Hay dos formas habituales de representar el valor mínimo del eje (aquel dónde se cortan X e Y): poner el inicio en el cero de los datos, o en un valor cercano al mínimo. La primera opción sirve para, además contextualizar el tamaño de esos valores. La segunda se centra únicamente entre las diferencias relativas entre una y otra.

![](images/zero.png)

Es habitual encontrarnos con gráficos que nos intentar _mentir_ utilizando este truco, p.e. para exagerar las diferencias relativas entre dos datos sin ponerlos en contexto.

> Lee el [siguiente artículo](https://en.wikipedia.org/wiki/Misleading_graph) sobre más recursos que suelen utilizar los _gráficos mentirosos_.

### Elección de la escala

La mayoría de nuestros datos tendrán una naturaleza lineal, pero en algunos casos nos encontraremos casos que necesiten de otras. P.e. la logarítmica es útil cuando los datos crecen exponencialmente y queremos apreciar las diferencias.

![](images/log.jpg)

> Fíjate en los valores del eje Y. ¿Qué pasaría si intentaras representar este mismo gráfico con una escala lineal?

### Elección de la escalas de color

Las escalas de color a utilizar en nuestro gráfico deben ser coherentes con la naturaleza de estos. Podemos distinguir los siguientes tres tipos:

* Secuencial / contínua: refleja progresivamente las diferencias entre poco y mucho. Por ejemplo, los ingresos mensuales medios por barrio.
* Divergente: tiene naturaleza secuencial, pero interesa destacar los extremos y el punto medio. Por ejemplo, el mapa de intención de voto demócrata vs republicano en EEUU.
* Cualitativa: refleja categóricas sin orden. Por ejemplo, hombres vs mujeres.

Es muy complicado elegir bien los colores concretos que componen una escala. Usa herramientas que ya las proporcionan, como [colorbrewer](http://colorbrewer2.org/).

### Elección del tipo de gráfico

Dependiendo de lo que queramos comunicar o analizar en el gráfico, utilizaremos un tipo u otro.

![](images/chart_type.png)

Algunos de los más comunes son:

#### Gráficos de puntos

Útiles para analizar la relación entre dos variables contínuas.

![](images/scatterplot.jpg)

#### Gráficos de líneas

Se suelen usar para observar la evolución de un valor o su tendencia a lo largo del tiempo.

![](images/lineplot.png)

#### Gráficos de barras

Los gráficos de barras suelen representar cantidades a comprar entre distintas categorías, periodos de tiempo u otra variable.

![](images/barplot.jpg)

Existen variaciones como:

* Las barras apiladas, cuando el total también es relevante
* Las barras apiladas al 100%, cuando lo que queremos analizar es la diferencia en la proporción

![](images/stacked.jpg)

![](images/stacked100.jpg)

#### Histogramas

Utilizados para observar la distribución de una determinada variable.

![](images/bmi.svg)

#### Boxplots

Son comunes para ver la distribución de una variable en base a otra. Tienen varios elementos:

* La línea central de la caja, indicando la mediana (o lo que es lo mismo, el cuartil 2, o percentil 50)
* La línea inferior de la caja, indicando el cuartil 1 (equivalente al percentil 25).
* La línea superior de la caja, para el cuartil 3 (equivalente al percentil 75).
* Las barras, que llegan hasta el último valor dentro del rango intercuartílico (IQR)
* Los puntos de los outliers, para aquellos valores que están más allá del IQR.

El rango itercuartílico (IQR) es el valor del cuartil 3 menos el del cuartil 1.

![](images/boxplot.png)

## Ejercicios

Extrae las cosas que están haciendo mal los siguientes gráficos y propón una alternativa mejor.

### Gráfico 1

Extraído del Informe Reporta 2011, que evalúa la calidad de la información que sobre su actividad publican las empresas cotizadas en las bolsas españolas.

![](images/graficaca_1.png)

### Gráfico 2

Extraído de [una noticia de El Mundo](https://www.elmundo.es/grafico/economia/2015/03/15/5505ceb4268e3ea24c8b456e.html), muestra el IEH (impuesto de hidrocarburos) en diferentes CCAAs.

![](images/graficaca_2.png)

### Gráfico 3

Extraído del telediario de RTVE sobre el paro.

![](images/graficaca_3.jpg)

### Gráfico 4

Extraído de un documento del CSIC.

![](images/graficaca_4.png)

### Gráfico 5

Extraído de una noticia de El Confidencial sobre ejecuciones hipotecarias.

![](images/graficaca_5.jpg)

### Gráfico 6

Extraído de [una noticia de nadaesgratis](https://nadaesgratis.es/santos/las-entidades-de-credito-y-los-prestamos-al-sector-publico-y-privado-un-grafico), un blog de economía.

![](images/graficaca_6.gif)

# Librerías

Existen varias librerías en Python para crear gráficos.  Algunas populares y sus utilidades principales son:

* `matplotlib`: gráficos estáticos y básicos, interfaz de bajo nivel.
* `pandas plot`: construido sobre matplotlib, simplifica la construcción de gráficos basados en DataFrames. Básicos.
* `seaborn`: construido sobre matplotlib, proporciona una interfaz de más alto nivel.
* `bokeh` / `plotly`: gráficos html, añadiendo cierto nivel de interacción.
* `dash` / `streamlit`: para dashboards, con selectores y otros elementos de interacción.

# Una pequeña intro a gráficos dinámicos y frameworks para crear dashboards interactivos

### Plotly

Plotly tiene `plotly.express`, que es más alto nivel y más básico, o `plotly` "normal".

Vamos a pintar un gráfico con `plotly`. Un gráfico de líneas, una línea por distrito, que muestre la evolución año a año (filtra para quedarte sólo con el dato del primer cuatrimestre).

Consulta [la documentación](https://plotly.com/python/line-charts/) como guía.

In [3]:
import pandas as pd
import plotly.express as px
import plotly.io as pio

# Esto es para que se renderice bien dentro de un notebook
pio.renderers.default = 'iframe'

In [10]:
df = pd.read_csv("dat/alquiler-madrid-distritos.csv")
df = data[data.quarter == 1]

px.line(data, x="ano", y="precio", title="Evolución precios por distritos", color="distrito")

## Dash y streamlit

Son frameworks para construir aplicaciones web de análisis de datos.

Dash usa React con Plotly para el frontend, y Flask para el backend, de forma transparente.

Ambas herramientas nos permiten crear fácilmente dashboards complejos únicamente usando Python, sin necesidad de saber Javascript.

Necesitan un servidor que corra la aplicación.

Para ver ejemplos y más información, consulta la [web de Dash](https://plot.ly/products/dash/) y la de [streamlit](https://streamlit.io/).