# 4.1. Visualización de datos.

- Las visualizaciones son muy relevantes, no sólo para mostrar correctamente resultados o transmitir una idea, sino también para ayudarnos en el proceso de estudio de los datos: durante el análisis descriptivo, a la hora de escoger un modelo o de mostrar sus resultados.

- Las librerías más importantes de visualización son las siguientes:
 -  __[Matplotlib](http://www.scipy-lectures.org/intro/matplotlib/index.html)__ :diseñado para ser similar a Matlab, es el motor real de otras librerías, como Pandas y Seaborn. 
 - __[Pandas](http://pandas.pydata.org/pandas-docs/stable/visualization.html#visualization)__ : Es útil para visualizaciones sencillas por su rapidez, dada su integración con las Series y Dataframes.
 - __[Seaborn](https://seaborn.pydata.org/tutorial.html)__ :Reduce las líneas de código necesarias para construir un gráfico más estético.
- Puede ser necesario instalar con: *!pip install matplotlib* y *!pip install seaborn*

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

## Introducción a matplotlib

In [None]:
data = np.arange(10)
data

In [None]:
plt.plot(data)

In [None]:
x = np.linspace(0, np.pi, 10)
y = np.sin(x)

In [None]:
plt.plot(x, y)

In [None]:
plt.scatter(x, y)

In [None]:
plt.bar(x, y)

In [None]:
plt.scatter(x, y)
plt.scatter(y, x)

### Figures y Subplots
- Varias formas de añadir varios gráficos a una misma figura.
  * Con plt.figure() y fig.add_subplot
  * Con plt.subplots y usando los axes. Es la opción recomendada.

In [None]:
fig = plt.figure()
ax1 = fig.add_subplot(2, 2, 1)
ax1.hist(np.random.randn(100), bins=20, color='k', alpha=0.3)
ax2 = fig.add_subplot(2, 2, 2)
ax2.scatter(np.arange(30), np.arange(30) + 3 * np.random.randn(30))
ax3 = fig.add_subplot(2, 2, 3)
ax3.plot(np.arange(30), np.arange(30) + 3 * np.random.randn(30))
ax4 = fig.add_subplot(2, 2, 4)
ax4.plot(np.random.randn(50).cumsum(), 'k--')

In [None]:
fig, axs = plt.subplots(2, 2)

In [None]:
axs

In [None]:
fig, ((ax1, ax2),(ax3, ax4)) = plt.subplots(2, 2)
ax1.hist(np.random.randn(100), bins=20, color='k', alpha=0.3)
ax2.scatter(np.arange(30), np.arange(30) + 3 * np.random.randn(30))
ax2.plot(np.arange(30), np.arange(30) + 3 * np.random.randn(30))
ax3.plot(np.arange(30), np.arange(30) + 3 * np.random.randn(30))
ax4.plot(np.random.randn(50).cumsum(), 'k--')

In [None]:
#### ajustar el tamaño de la figura
fig, ((ax1, ax2),(ax3, ax4)) = plt.subplots(2, 2, figsize=(20, 10))
ax1.hist(np.random.randn(100), bins=20, color='k', alpha=0.3)
ax2.scatter(np.arange(30), np.arange(30) + 3 * np.random.randn(30))
ax3.plot(np.arange(30), np.arange(30) + 3 * np.random.randn(30))
ax4.plot(np.random.randn(50).cumsum(), 'k--')

### Colors, Markers, y Line Styles

Múltiples opciones, usando un único string o con propiedas individuales.
- ax.plot(x, y, 'g--')
- ax.plot(x, y, linestyle='--', color='g')

In [None]:
from numpy.random import randn
plt.plot(randn(30).cumsum(), 'ko--')

In [None]:
# Lo mismo que la anterior
plt.plot(randn(30).cumsum(), 
         color='k',
         linestyle='dashed',
         marker='o')

### Modos de interpolación

In [None]:
data = np.random.randn(30).cumsum()

In [None]:
plt.plot(data, 'k-', 
         drawstyle='steps-post', 
         label='steps-post')
plt.plot(data, 'r-', 
         drawstyle='steps-pre', 
         label='steps-pre')
plt.plot(data, '*-', 
         label='Default')
# plt.legend(loc='best')

### Propiedades de la figura
<center>
<img src="imgs/anatom.png"  alt="drawing" width="500"/>
</center>

#### Título, axis labels, ticks, y ticklabels

In [None]:
fig, ax = plt.subplots(figsize=(10, 7))
ax.plot(np.random.randn(1000).cumsum())

In [None]:
fig, ax = plt.subplots(figsize=(10,7))
ax.plot(np.random.randn(1000).cumsum())
ticks = ax.set_xticks([0, 250, 500, 750, 1000])
#labels = ax.set_xticklabels(['one', 'two', 'three', 'four', 'five'],
#                            rotation=30, fontsize='small')
ax.set_title('My first matplotlib plot')
ax.set_xlabel('Stages')
ax.set_ylabel('Y')

#### Añadiendo legends.

In [None]:
fig, ax = plt.subplots(1, figsize=(10,7))
ax.plot(np.random.randn(1000).cumsum(), 'k', label='one')
ax.plot(np.random.randn(1000).cumsum(), 'k--', label='two')
ax.plot(np.random.randn(1000).cumsum(), 'k.', label='three')
ax.legend()

### Anotaciones  y Dibujos en un subplot

In [None]:
x = np.linspace(0, 2*np.pi, 100)
y = np.sin(x)


fig, ax = plt.subplots(1, figsize=(10,7))
ax.plot(x, y, label='one')
ax.annotate('En x= $\pi$', 
            xy=(np.pi, 0.01),
            xytext=(np.pi, 0.3),
            arrowprops=dict(facecolor='black', headwidth=4, width=2,
                                headlength=4),
            horizontalalignment='left',
            verticalalignment='top')

- Podemos poner figuras.

In [None]:
fig, ax = plt.subplots(figsize=(12, 6))
rect = plt.Rectangle((0.2, 0.75), 0.4, 0.15, color='k', alpha=0.3)
circ = plt.Circle((0.7, 0.2), 0.15, color='b', alpha=0.3)
pgon = plt.Polygon([[0.15, 0.15], [0.35, 0.4], [0.2, 0.6]],
                   color='g', alpha=0.5)
ax.add_patch(rect)
ax.add_patch(circ)
ax.add_patch(pgon)

### Guadar el gráfico a un fichero

In [None]:
x = np.linspace(0, 2*np.pi, 100)
y = np.sin(x)

In [None]:
fig, ax = plt.subplots()
ax.plot(x, y)
fig.savefig('figura_2.png')

## Plotting con pandas

### Line Plots

In [None]:
s = pd.Series(np.random.randn(10).cumsum(), index=np.arange(0, 100, 10))
s

In [None]:
s.plot()

In [None]:
df = pd.DataFrame(np.random.randn(10, 4).cumsum(0),
                  columns=['A', 'B', 'C', 'D'],
                  index=np.arange(0, 100, 10))
df

In [None]:
df.plot()

In [None]:
df.plot(subplots=True)

In [None]:
_ = df.plot(subplots=True, figsize=(10, 7))

### Bar Plots

In [None]:
data = pd.Series(np.random.rand(16), index=list('abcdefghijklmnop'))
data

In [None]:
data.plot.bar(color='k', alpha=0.7)

In [None]:
fig, axes = plt.subplots(2, 1, figsize=(10, 7))
data.plot.bar(ax=axes[0], color='k', alpha=0.7)
data.plot.barh(ax=axes[1], color='k', alpha=0.7)

In [None]:
df = pd.DataFrame(np.random.rand(6, 4),
                  index=['one', 'two', 'three', 'four', 'five', 'six'],
                  columns=pd.Index(['A', 'B', 'C', 'D'], name='Genus'))
df

In [None]:
df.plot.bar()

In [None]:
df.plot.barh(stacked=True, alpha=0.5)

- Para seguir utilizaremos una base de datos de propinas en resturantes:

In [None]:
tips = pd.read_csv('tips.csv')
tips.head()

In [None]:
tips.shape

In [None]:
party_counts = pd.crosstab(tips['day'], tips['size'])
party_counts

In [None]:
# Not many 1- and 6-person parties
party_counts = party_counts.loc[:, 2:5]
party_counts

In [None]:
# Normalize to sum to 1
party_pcts = party_counts.div(party_counts.sum(1), axis=0)
party_pcts

In [None]:
party_pcts.plot.bar()

In [None]:
# boxplot
tips[['total_bill', 'tip']].boxplot()

- Podemos pasar un ax para modificar y hacer subplots.

In [None]:
fig, (ax1, ax2) = plt.subplots(2,1, figsize=(13,7))
party_pcts.plot.bar(ax=ax1)
ax1.set_title('Bars')
tips[['total_bill', 'tip']].boxplot(ax=ax2)
ax2.set_title('Box')

## Ploting con seaborn
- Gráficos diferentes, mirar la documentación

In [None]:
import seaborn as sns

In [None]:
tips.head()

In [None]:
tips['tip_pct'] = tips['tip'] / (tips['total_bill'] - tips['tip'])
tips.head()

In [None]:
sns.barplot(x='tip_pct', y='day', data=tips, orient='h')

In [None]:
sns.barplot(x='tip_pct', y='day', hue='time', data=tips, orient='h')

In [None]:
sns.boxplot(x='tip_pct', y='day', data=tips)

### Histograms y Density Plots

In [None]:
tips['tip_pct'].plot.hist(bins=50)

In [None]:
tips['tip_pct'].plot.density()

In [None]:
sns.distplot(tips['tip_pct'], rug=True)

In [None]:
fig, ax = plt.subplots()
sns.distplot(tips['tip_pct'], rug=True, ax=ax)
_ = ax.set_xlim([0,1])

In [None]:
comp1 = np.random.normal(0, 1, size=200)
comp2 = np.random.normal(10, 2, size=200)
values = pd.Series(np.concatenate([comp1, comp2]))
sns.distplot(values, bins=100, color='k')

### Ploting de datos financieros

- Obtenemos datos financires de un csv

In [None]:
aapl_montly_candle = pd.read_csv('aapl_montly_candle.csv',
                                 parse_dates=True,
                                 index_col=0)

- Para obtener gráficos de velas usamos la librería mpl_finance.

In [None]:
!pip install mpl_finance

In [None]:
from mpl_finance import candlestick_ohlc
import matplotlib.dates as mdates

def plot_candle(df, width=.5, figsize=(10, 7), tick_formater='%Y-%m'):        
    m_data = df[['open', 'high', 'low', 'close']].values
    days_m_dates_format = mdates.date2num(df.index.values) 
    data_plot = np.column_stack((days_m_dates_format, m_data))
        
    fig, ax = plt.subplots(figsize=figsize)
    _ = candlestick_ohlc(ax,
                         data_plot,
                         width=width,
                         colorup='green',
                         colordown='red')
    _ = ax.xaxis.set_major_formatter(mdates.DateFormatter(tick_formater))
    return fig, ax

In [None]:
plot_candle(aapl_montly_candle, width=3)

In [None]:
plot_candle(aapl_montly_candle.loc['2009':], width=10)

___
# Ejercicios

**4.1.1.** Usando:

In [None]:
x = np.arange(0,100)
y = x*2
z = x**2

Crea el gráfico de x contra y.

**4.1.2.** Crea un gráfico de dos columnas y una fila con (x, y) y (x, z), añade una leyende a cada gráfico y utiliza un estilo distinto de línea y marker para cada uno.

**4.1.3.** Aumenta el gráfico anterior de tamaño.

**4.1.4.** Guardalo en un fichero.