# 4.1. Visualización de datos.

- Las visualizaciones son muy relevantes, no sólo para mostrar correctamente resultados o transmitir una idea, sino también para ayudarnos en el proceso de estudio de los datos: durante el análisis descriptivo, a la hora de escoger un modelo o de mostrar sus resultados.

- Las librerías más importantes de visualización son las siguientes (pincha en el nombre para ir a la documentación, con ejemplos):
 -  __[Matplotlib](http://www.scipy-lectures.org/intro/matplotlib/index.html)__ :diseñado para ser similar a Matlab, es el motor real de otras librerías, como Pandas y Seaborn. 
 - __[Pandas](http://pandas.pydata.org/pandas-docs/stable/visualization.html#visualization)__ : Es útil para visualizaciones sencillas por su rapidez, dada su integración con las Series y Dataframes.
 - __[Seaborn](https://seaborn.pydata.org/tutorial.html)__ :Reduce las líneas de código necesarias para construir un gráfico más estético.
- Puede ser necesario instalar con: *!pip install matplotlib* y *!pip install seaborn*

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## Introducción a matplotlib

In [None]:
data = np.arange(10)
data

Las figuras que grafiquemos en notebook se pueden ver diréctamente. Depende del ID que usemos, podremos ver las figuras directamente, o tendremos que guardarlas en un fichero.

In [None]:
plt.plot(data)

Generamos dos vectores de datos para graficarlos de distintas maneras

In [None]:
x = np.linspace(0, np.pi, 10) # de 0 a pi, en 10 intervalos.
y = np.sin(x)

In [None]:
plt.plot(x, y)

Scater es en puntos

In [None]:
plt.scatter(x, y)

Bar, en barras

In [None]:
plt.bar(x, y)

Si en una misma celda ponemos dos instrucciones para dibujar con matplotlib, lo que hace es poner el resultado en un mismo gráfico.

In [None]:
plt.scatter(x, y)
plt.scatter(y, x)

### Figures y Subplots
- Tenemos varias formas de añadir varios gráficos a una misma figura.

1) Con plt.figure() y fig.add_subplot: para añadir distintas figuras en un mismo gráfico

In [None]:
fig = plt.figure() # Creas una figura

ax1 = fig.add_subplot(2, 2, 1) # Creas un "eje", donde graficar la figura. 2 filas, 2 columnas, 1ª figura.
ax1.hist(np.random.randn(100), bins=20, color='k', alpha=0.3) # Gráfico que queremos pintar

ax2 = fig.add_subplot(2, 2, 2)
ax2.scatter(np.arange(30), np.arange(30) + 3 * np.random.randn(30))

ax3 = fig.add_subplot(2, 2, 3)
ax3.plot(np.arange(30), np.arange(30) + 3 * np.random.randn(30))

ax4 = fig.add_subplot(2, 2, 4)
ax4.plot(np.random.randn(50).cumsum(), 'k--')

2) Con plt.subplots y usando los axes. Definimos el número de figuras desde el inicio. Es la opción recomendada.

In [None]:
fig, axs = plt.subplots(2, 2)

Los "ejes" ya están creados de manera automática. No es necesario que los crees tú.

In [None]:
axs

In [None]:
fig, ((ax1, ax2),(ax3, ax4)) = plt.subplots(2, 2)

ax1.hist(np.random.randn(100), bins=20, color='k', alpha=0.3)

ax2.scatter(np.arange(30), np.arange(30) + 3 * np.random.randn(30))
ax2.plot(np.arange(30), np.arange(30) + 3 * np.random.randn(30))

ax3.plot(np.arange(30), np.arange(30) + 3 * np.random.randn(30))

ax4.plot(np.random.randn(50).cumsum(), 'k--')

Ajustamos el tamaño de la figura con figsize

In [None]:
fig, ((ax1, ax2),(ax3, ax4)) = plt.subplots(2, 2, figsize=(20, 10))

ax1.hist(np.random.randn(100), bins=20, color='k', alpha=0.3)
ax2.scatter(np.arange(30), np.arange(30) + 3 * np.random.randn(30))
ax3.plot(np.arange(30), np.arange(30) + 3 * np.random.randn(30))
ax4.plot(np.random.randn(50).cumsum(), 'k--')

### Colors, Markers, y Line Styles

Tenemos múltiples opciones para cambiar el estilo de la línea:
http://scipy-lectures.org/intro/matplotlib/index.html#quick-references

In [None]:
from numpy.random import randn

In [None]:
plt.plot(randn(30).cumsum(), 
         color='k', # Línea de color negro
         linestyle='dashed', # Línea discontinua
         marker='o') # Con circulos

### Modos de interpolación

In [None]:
data = np.random.randn(30).cumsum()

A la hora de graficar precios, podemos indicar cómo hemos pasado de un precio al siguiente. 

Matplotlib, lo que hace por defecto, es poner una línea entre ambos precios. 

Pero podemos indicar cómo queremos hacer la transición. Por ejemplo, drawstyle es que la transición la haga con escalones.

In [None]:
plt.plot(data, 'k-', 
         drawstyle='steps-post',
         label='steps-post')

plt.plot(data, 'r-', 
         drawstyle='steps-pre', 
         label='steps-pre')

plt.plot(data, '*-', 
         label='Default')

### Propiedades de la figura
Podemos cambiar cualquier elemento de una figura
<center>
<img src="imgs/anatom.png"  alt="drawing" width="500"/>
</center>

#### Título, axis labels, ticks, y ticklabels

Generamos una figura con datos aleatorios

In [None]:
fig, ax = plt.subplots(figsize=(10, 7))

ax.plot(np.random.randn(1000).cumsum())

Añadir elementos al gráfico es muy sencillo

In [None]:
fig, ax = plt.subplots(figsize=(10,7))
ax.plot(np.random.randn(1000).cumsum())

ticks = ax.set_xticks([0, 250, 500, 750, 1000]) # Establecemos los "ticks" que se muestran en el eje X
ax.set_title('My first matplotlib plot') # Añadimos el título al gráfico
ax.set_xlabel('Stages') # Añadimos el título al eje X
ax.set_ylabel('Y') # Añadimos el título al eje Y

#### Añadiendo legends.

In [None]:
fig, ax = plt.subplots(1, figsize=(10,7))

ax.plot(np.random.randn(1000).cumsum(), 'k', label='one') # Label es la etiqueta que se añadirá a la leyenda
ax.plot(np.random.randn(1000).cumsum(), 'r--', label='two')
ax.plot(np.random.randn(1000).cumsum(), 'b.', label='three')

ax.legend() # Incluímos la leyenda en el gráfico. Se coloca automáticamente donde menos molesta.

### Anotaciones  y Dibujos en un subplot

In [None]:
# Generamos los datos a graficar
x = np.linspace(0, 2*np.pi, 100)
y = np.sin(x)

# Graficamos
fig, ax = plt.subplots(1, figsize=(10,7))
ax.plot(x, y, label='one')

# Añadimos una anotación en el gráfico
ax.annotate('En x= $\pi$', # Qué es lo que queremos añadir
            xy=(np.pi, 0.01), # Posición en el gráfico
            xytext=(np.pi, 0.3), # Distancia con respecto a la posición, para escribir
            arrowprops=dict(facecolor='black', headwidth=4, width=2, headlength=4), # propiedades de la flecha
            horizontalalignment='left',
            verticalalignment='top')

Podemos añadir figuras

In [None]:
fig, ax = plt.subplots(figsize=(12, 6))

rect = plt.Rectangle((0.2, 0.75), 0.4, 0.15, color='k', alpha=0.3)
circ = plt.Circle((0.7, 0.2), 0.15, color='b', alpha=0.3)
pgon = plt.Polygon([[0.15, 0.15], [0.35, 0.4], [0.2, 0.6]], color='g', alpha=0.5)

ax.add_patch(rect)
ax.add_patch(circ)
ax.add_patch(pgon)

### Guadar el gráfico a un fichero

In [None]:
x = np.linspace(0, 2*np.pi, 100)
y = np.sin(x)

Sobre la figura (fig), usamos savefig para guardar el gráfico en un fichero

In [None]:
fig, ax = plt.subplots()
ax.plot(x, y)
fig.savefig('figura_2.png')

Si quisieras guardarla como jpg, tendrías que usar savefig.jpeg_quality

## Plotting con pandas

### Line Plots

Con pandas es aún más fácil

Generamos los datos a graficar, en una serie

In [None]:
s = pd.Series(np.random.randn(10).cumsum(), index=np.arange(0, 100, 10))
s

Y los graficamos

In [None]:
s.plot()

Lo hacemos igual si tenemos un dataframe

In [None]:
df = pd.DataFrame(np.random.randn(10, 4).cumsum(0),
                  columns=['A', 'B', 'C', 'D'],
                  index=np.arange(0, 100, 10))
df

In [None]:
df.plot()

Podemos poner cada variable en un gráfico con subplots

In [None]:
df.plot(subplots=True)

Podemos cambiar el tamaño de los gráficos

In [None]:
df.plot(subplots=True, figsize=(10, 7))

### Bar Plots

Funciona igual para gráficos de barras

Nos creamos unos datos para graficar

In [None]:
data = pd.Series(np.random.rand(16), index=list('abcdefghijklmnop')) # Generamos un índice para las columnas
data

Graficamos los datos en un gráfico de barras

In [None]:
data.plot.bar(color='k', alpha=0.7) # Alpha indica el grado de transparencia

Si queremos poner dos gráficos, uno debajo de otro. Primero usamos matplotlib para indicar la distribución, y luego graficamos

In [None]:
fig, axes = plt.subplots(2, 1, figsize=(10, 7)) # 2 líneas y 1 columna

data.plot.bar(ax=axes[0], color='k', alpha=0.7) # axes[0] es el primer gráfico
data.plot.barh(ax=axes[1], color='k', alpha=0.7) # axes[1] es el segundo gráfico

Generamos nuevos datos a graficar

In [None]:
df = pd.DataFrame(np.random.rand(6, 4),
                  index=['one', 'two', 'three', 'four', 'five', 'six'],
                  columns=pd.Index(['A', 'B', 'C', 'D'], name='Genus'))
df

Por defecto, te asigna los colores

In [None]:
df.plot.bar()

barh grafica en horizontal

In [None]:
df.plot.barh(stacked=True, alpha=0.5) # stacked acumula (true) y alpha es el grado de transparencia

Para seguir utilizaremos una base de datos de propinas en resturantes:

In [None]:
tips = pd.read_csv('tips.csv')
tips.head()

In [None]:
tips.shape

Podemos hacer una tabla cruzada con crosstab

In [None]:
party_counts = pd.crosstab(tips['day'], tips['size'])
party_counts

Fri 16 size 2, significa que en viernes han tenido 16 mesas de 2 comensales

Para el ejecicio, quitamos los registros de 1 y 6 comensales

In [None]:
party_counts = party_counts.loc[:, 2:5]
party_counts

Normalizamos para que sume 1, para cada día

In [None]:
party_pcts = party_counts.div(party_counts.sum(1), axis=0)
party_pcts

Y graficamos, para ver el resultado

In [None]:
party_pcts.plot.bar()

Como podemos ver, la gran mayoría de mesas que atendían eran de 2 comensales

Con boxplot podemos ver la mediana, 1er y 3er cuartil, así como los outliers

In [None]:
tips[['total_bill', 'tip']].boxplot()

Podemos pasar un ax para modificar y hacer varios subplots, en función de lo que necesitemos

In [None]:
fig, (ax1, ax2) = plt.subplots(2,1, figsize=(13,7)) # 2 filas, 1 columna

party_pcts.plot.bar(ax=ax1)
ax1.set_title('Bars')

tips[['total_bill', 'tip']].boxplot(ax=ax2)
ax2.set_title('Box')

## Ploting con seaborn
Gráficos diferentes, mirar la documentación: https://seaborn.pydata.org/tutorial.html

In [None]:
import seaborn as sns

In [None]:
tips.head()

Creamos una nueva columna: porcentaje de la propina

In [None]:
tips['tip_pct'] = tips['tip'] / (tips['total_bill'] - tips['tip'])
tips.head()

Y lo graficamos con seaborn

La línea es el intervalo de confianza que tenemos en cada variable

In [None]:
sns.barplot(x='tip_pct', y='day', data=tips, orient='h') 

In [None]:
sns.barplot(x='tip_pct', y='day', hue='time', data=tips, orient='h') # hue es el color. Quiero ver si es en la comida, o en la cena.

Lo mismo con boxplot

In [None]:
sns.boxplot(x='tip_pct', y='day', data=tips)

### Histograms y Density Plots

Hacemos un histograma con Pandas

In [None]:
tips['tip_pct'].plot.hist(bins=50) # bins es el número de barras

Muy similar, el gráfico de densidad de probabilidad

In [None]:
tips['tip_pct'].plot.density()

Distplot es muy útil. Muestra la densidad + histograma + una "muesca" para cada dato

In [None]:
sns.distplot(tips['tip_pct'], rug=True)

Podemos limitar los datos a mostrar en el eje X

In [None]:
fig, ax = plt.subplots()
sns.distplot(tips['tip_pct'], rug=True, ax=ax)

_ = ax.set_xlim([0,1]) # Muestra solo los datos desde el 0 hasta el 1

Podemos concatenar series y graficarlas

In [None]:
# Generamos los datos
comp1 = np.random.normal(0, 1, size=200)
comp2 = np.random.normal(10, 2, size=200)

# Las concatenamos y graficamos
values = pd.Series(np.concatenate([comp1, comp2]))
sns.distplot(values, bins=100, color='k')

### Ploting de datos financieros

Leemos los datos de un csv

In [None]:
aapl_montly_candle = pd.read_csv('aapl_montly_candle.csv',
                                 parse_dates=True,
                                 index_col=0)

- Usamos la librería mplfinance para hacer plots de velas. 
- Podemos ver la documentación de la libreria en: https://github.com/matplotlib/mplfinance
- Algunos estilos de velas en: https://github.com/matplotlib/mplfinance/blob/master/examples/hollow_and_filled_candles.ipynb

In [None]:
# Para instalar:
!pip install --upgrade mplfinance

In [None]:
import mplfinance as mpf

Y graficamos

In [None]:
mpf.plot(aapl_montly_candle, style='yahoo', type='candle')

___
# Ejercicios

**4.1.1.** Usando:

In [None]:
x = np.arange(0,100)
y = x*2
z = x**2

Crea el gráfico de x contra y.

**4.1.2.** Crea un gráfico de dos columnas y una fila con (x, y) y (x, z), añade una leyenda a cada gráfico y utiliza un estilo distinto de línea y marker para cada uno.

**4.1.3.** Aumenta el gráfico anterior de tamaño.

**4.1.4.** Guardalo en un fichero.

**4.1.5.** Genera 4 gráficos en la misma figura:

- Genera un histograma con datos1 = np.random.randn(100)
- Genera un scatter con datos2: x = np.arange(30), y= np.arange(30) + 3 * np.random.randn(30)
- Genera un gráfico de líneas con datos3: x = np.arange(30), y= np.arange(30) + 3 * np.random.randn(30)
- Genera un gráfico de líneas discontínuas con datos4 = np.random.randn(50).cumsum()

**4.1.6.** Genera un gráfico de línea discontínua, con los siguientes datos = randn(30).cumsum(), que la línea sea de color oro y que marque los datos con rombos.

**4.1.7.** Importa el fichero aapl_montly_candle y grafica los datos de 2009 y 2010 en un gráfico de velas con la librería mplfinance