# Visualización de Datos 

## Lecturas importantes:

1. [Recursos para comprender la Visualización de Datos](http://www.analyticsvidhya.com/blog/2015/05/data-visualization-resource/).

En el mundo de Python, hay múltiples opciones para visualizar datos. En este cuaderno ilustraremos el uso de esas herramientas, en diversas situaciones

1. [Matplotlib](http://matplotlib.org/).
2. [seaborn](http://stanford.edu/~mwaskom/software/seaborn/).
3. [ggplot2](http://ggplot.yhathq.com/).
4. [Bokeh](http://bokeh.pydata.org/en/latest/).
5. [pygal](http://www.pygal.org/en/latest/).
6. [Plotly](https://plot.ly/).
7. [Pandas](http://pandas.pydata.org/).

In [49]:
from matplotlib import pyplot as plt
fechas = [1944, 1954, 1983, 1986, 1988, 1992, 1997]
gdp =[300.2, 567.3, 1075.3, 2789.4, 5965.5, 10345.5, 14897.2]

# Creamos un gráfico de linea, con fechas en el eje X, gdp en el eje Y

plt.plot(fechas, gdp, color='red', marker='o', linestyle='solid')

# Agregamos un título
plt.title("Grafico de Linea")

# Agregamos una etiqueta al eje Y 
plt.ylabel("Ganancias en $")
plt.show()

### Gráfico de Barras 

In [50]:
peliculas = ["Annie Hall", "Ben-Hur", "Casablanca", "Gandhi", "West Side Story"]
num_oscars = [5, 11, 3, 8, 10]

# Centremos las barras
xs = [i + 0.1 for i, _ in enumerate(peliculas)]

plt.bar(xs, num_oscars)

plt.ylabel("# de Oscars")
plt.title("Peliculas Galardonadas con el Oscar")

# Etiquetamos el eje X con el nombre de las peliculas en el centro de las barras

plt.xticks([i + 0.5 for i, _ in enumerate(peliculas)], peliculas)

plt.show()

## Seaborn 

[Seaborn](http://stanford.edu/~mwaskom/software/seaborn/) es una librería de visualización basada en matplotlib y creada para hacer visualizaciones de datos  mucho más atractivos visualmente e informativos. Seaborn ofrece varias características como  el construido en temas, paletas de colores, funciones y herramientas para visualizar regresiones lineales univariadad y bivariadad, matrices de datos,  series temporales en estadística, etc, que nos permiten construir visualizaciones complejas. También se integra  bien con Pandas.

Para una breve introducción a las ideas detrás del paquete, se puede leer las [notas introductorias ](http://stanford.edu/~mwaskom/software/seaborn/introduction.html#introduction).

In [51]:
import seaborn as sns 

In [60]:
df1 = pd.read_csv('te_2014.tsv', delimiter="\t", names=["time", "exterior"])
df1.time = pd.to_datetime(df1.time.values, unit="s").tz_localize('UTC').tz_convert('Europe/Stockholm')
df1 = df1.set_index("time").resample("10min")
df2 = pd.read_csv('ti_2014.tsv', delimiter="\t", names=["time", "interior"])
df2.time = pd.to_datetime(df2.time.values, unit="s").tz_localize('UTC').tz_convert('Europe/Stockholm')
df2 = df2.set_index("time").resample("10min")
df_temp = pd.concat([df1, df2], axis=1)

In [62]:
fig, ax = plt.subplots(1, 1, figsize=(8, 4))
df_temp.resample("D").plot(y=["exterior", "interior"], ax=ax)
fig.tight_layout()
fig.savefig("plot-seaborn.pdf")

La principal habilidad  de la biblioteca Seaborn, aparte de generar gráficos vistosos, es su colección de gráficos estadísticos. Ejemplos de estos es [**kdeplot**](http://stanford.edu/~mwaskom/software/seaborn/generated/seaborn.kdeplot.html) que muestra  el [KDE](https://en.wikipedia.org/wiki/Kernel_density_estimation), una manera no paramétrica para estimar la densidad de una variable aleatoria y [**distplot**](http://stanford.edu/~mwaskom/software/seaborn/generated/seaborn.distplot.html?highlight=distplot) que muestra una distribución univariada de observaciones  respectivamente. Por ejemplo, las siguientes dos líneas de código producen el gráfico donde  las líneas azules y verdes son el KDE calculado.

In [63]:
sns.distplot(df_temp.to_period("M")["exterior"]["2014-04"].dropna().values, bins=50);
sns.distplot(df_temp.to_period("M")["interior"]["2014-04"].dropna().values, bins=50);

plt.savefig("seaborn-distplot.pdf")