# Visualización de Datos 

## Lecturas importantes:

1. [Recursos para comprender la Visualización de Datos](http://www.analyticsvidhya.com/blog/2015/05/data-visualization-resource/).
2. [Visualización usando Bokeh de Python](http://www.analyticsvidhya.com/blog/2015/08/interactive-data-visualization-library-python-bokeh/).

En el mundo de Python, hay múltiples opciones para visualizar datos. En este cuaderno ilustraremos el uso de esas herramientas, en diversas situaciones

1. [Matplotlib](http://matplotlib.org/).
2. [seaborn](http://stanford.edu/~mwaskom/software/seaborn/).
3. [ggplot2](http://ggplot.yhathq.com/).
4. [Bokeh](http://bokeh.pydata.org/en/latest/).
5. [pygal](http://www.pygal.org/en/latest/).
6. [Plotly](https://plot.ly/).
7. [Pandas](http://pandas.pydata.org/).

In [None]:
## Matplotlib

In [10]:
from matplotlib import pyplot as plt
fechas = [1944, 1954, 1983, 1986, 1988, 1992, 1997]
gdp =[300.2, 567.3, 1075.3, 2789.4, 5965.5, 10345.5, 14897.2]

# Creamos un gráfico de linea, con fechas en el eje X, gdp en el eje Y

plt.plot(fechas, gdp, color='red', marker='o', linestyle='solid')

# Agregamos un título
plt.title("Grafico de Linea")

# Agregamos una etiqueta al eje Y 
plt.ylabel("Ganancias en $")
plt.show()

### Gráfico de Barras 

In [2]:
peliculas = ["Annie Hall", "Ben-Hur", "Casablanca", "Gandhi", "West Side Story"]
num_oscars = [5, 11, 3, 8, 10]

# Centremos las barras
xs = [i + 0.1 for i, _ in enumerate(peliculas)]

plt.bar(xs, num_oscars)

plt.ylabel("# de Oscars")
plt.title("Peliculas Galardonadas con el Oscar")

# Etiquetamos el eje X con el nombre de las peliculas en el centro de las barras

plt.xticks([i + 0.5 for i, _ in enumerate(peliculas)], peliculas)

plt.show()

### Gráfico de Líneas 

In [9]:
varianza= [1,2,4,8,16,32,64,128,256]
bs_2= [256,128,64,32,16,8,4,2,1]
total_error = [x + y for x, y in zip(varianza, bs_2)]
xs = range(len(varianza))

# Podemos llamar a plt.plot varias veces para mostrar
# un grupo de figuras del mismo 'grafico'

plt.plot(xs, varianza,     'g-',  label='varianza')    
plt.plot(xs, bs_2, 'r-.', label='bias^2')      
plt.plot(xs, total_error,  'b:',  label='total error') 

# Podemos asignas lebels s ese grupo de figuras
# Contamos con una leyenda para el grafico resultante
# loc=9 significa "top center"
    
plt.legend(loc=9)
plt.xlabel("Modelo de  complexidad")
plt.title("Bias-Varianza")
plt.show()

### Gráficos de dispersión

In [12]:
fr = [45, 78, 67, 89, 71, 68, 60, 74, 65]
minu = [145, 167, 132, 156, 143, 122, 114, 183, 143]
labels = ['a', 'b', 'c', 'd','e','f','g', 'h','i']
    
plt.scatter(fr, minu)

# Etiquetamos cada punto
for label, f_c, m_c in zip(labels, fr, minu):
    plt.annotate(label,
                 xy = (f_c, m_c),
                 xytext = (-5, 5),
                 textcoords='offset points')
    
    
plt.title("Minutos diarios-Numero de amigos")
plt.xlabel("Numero de amigos")
plt.ylabel("Minutos diarios en el sitio ")
plt.show()


## Seaborn 

[Seaborn](http://stanford.edu/~mwaskom/software/seaborn/) es una librería de visualización basada en matplotlib y creada para hacer visualizaciones de datos  mucho más atractivos visualmente e informativos. Seaborn ofrece varias características como  el construido en temas, paletas de colores, funciones y herramientas para visualizar regresiones lineales univariadad y bivariadad, matrices de datos,  series temporales en estadística, etc, que nos permiten construir visualizaciones complejas. También se integra  bien con Pandas.

Para una breve introducción a las ideas detrás del paquete, se puede leer las [notas introductorias ](http://stanford.edu/~mwaskom/software/seaborn/introduction.html#introduction).

In [8]:
import seaborn as sns 
import pandas as pd

In [9]:
df1 = pd.read_csv('te_2014.tsv', delimiter="\t", names=["time", "exterior"])
df1.time = pd.to_datetime(df1.time.values, unit="s").tz_localize('UTC').tz_convert('Europe/Stockholm')
df1 = df1.set_index("time").resample("10min")
df2 = pd.read_csv('ti_2014.tsv', delimiter="\t", names=["time", "interior"])
df2.time = pd.to_datetime(df2.time.values, unit="s").tz_localize('UTC').tz_convert('Europe/Stockholm')
df2 = df2.set_index("time").resample("10min")
df_temp = pd.concat([df1, df2], axis=1)

In [10]:
fig, ax = plt.subplots(1, 1, figsize=(8, 4))
df_temp.resample("D").plot(y=["exterior", "interior"], ax=ax)
fig.tight_layout()
fig.savefig("plot-seaborn.pdf")

La principal habilidad  de la biblioteca Seaborn, aparte de generar gráficos vistosos, es su colección de gráficos estadísticos. Ejemplos de estos es [**kdeplot**](http://stanford.edu/~mwaskom/software/seaborn/generated/seaborn.kdeplot.html) que muestra  el [KDE](https://en.wikipedia.org/wiki/Kernel_density_estimation), una manera no paramétrica para estimar la densidad de una variable aleatoria y [**distplot**](http://stanford.edu/~mwaskom/software/seaborn/generated/seaborn.distplot.html?highlight=distplot) que muestra una distribución univariada de observaciones  respectivamente. Por ejemplo, las siguientes dos líneas de código producen el gráfico donde  las líneas azules y verdes son el KDE calculado.

In [12]:
sns.distplot(df_temp.to_period("M")["exterior"]["2014-04"].dropna().values, bins=50);
sns.distplot(df_temp.to_period("M")["interior"]["2014-04"].dropna().values, bins=50);

plt.savefig("seaborn-distplot.pdf")

## ggplot

[ggplot](http://ggplot.yhathq.com/), es similar a Seaborn en que se construye basado en matplotlib y tiene como objetivo mejorar el atractivo de las visualizaciones matplotlib de una manera sencilla. Diverge de  Seaborn en que se trata de un puerto de [ggplot2](http://ggplot2.org/) de  R. Dado a esto  parte de la API no es sólo Python, lo que no implica que no sea  muy poderoso.


In [5]:
from matplotlib import pyplot as plt
from ggplot import *

p = ggplot(mtcars, aes('cyl'))
print (p + geom_bar())

plt.show(1)

<ggplot: (8784434663856)>




## Bokeh

[Bokeh](http://bokeh.pydata.org/en/latest/) es una biblioteca de visualización interactiva de Python para el manejo de grandes conjuntos de datos que  utilizan las últimas tecnologías web. Su objetivo es proporcionar una  elegante construcción, concisa de nuevos gráficos al estilo de [Protovis](http://mbostock.github.io/protovis/) o [D3](http://d3js.org/). Bokeh utiliza Canvas en lugar de SVG y tiene múltiples lenguajes enlazados 'bindings' como Python, Lua, R y Julia. Estos producen un archivo JSON, el cual trabaja como una entrada para [BokehJS](http://bokeh.pydata.org/en/latest/docs/dev_guide/bokehjs.html)(una librería de Java Script) que a su vez presenta los datos a los navegadores web.

In [14]:
from bokeh.io import output_notebook, show
from bokeh.plotting import figure
output_notebook()

In [15]:
# Creamos un grafico con herramientas por defecto, usando figure
p = figure(plot_width=400, plot_height=400)

# Agregamos un circulo con ciertas propiedades
p.circle([1, 2, 3, 4, 5], [6, 7, 2, 4, 5], size=15, line_color="navy", fill_color="orange", fill_alpha=0.5)

show(p) # Muestra los resultados

<bokeh.io._CommsHandle at 0x5e10c91d30>

## Pygal

[Pygal](http://www.pygal.org/en/latest/) se utiliza para la creación de gráficos SVG. Si se han instalado las dependencias adecuadas, también se puede guardar un archivo en formato  *png*. Los archivos SVG son bastante útiles para hacer  gráficos interactivos. Mayor información en [documentación de pygal](http://www.pygal.org/en/latest/documentation/index.html).

In [6]:
import pygal
# http://blog.codeeval.com/codeevalblog/2014
data = [
  ["Python", 30.3],
  ["Java", 22.2],
  ["C++", 13],
  ["Ruby", 10.6],
  ["Javascript", 5.2],
  ["C#", 5],
  ["C", 4.1],
  ["PHP", 3.3],
  ["Perl", 1.6],
  ["Go", 1.5],
  ["Haskell", 1.2],
  ["Scala", 1],
  ["Objective-C", 0.4],
  ["Clojure", 0.2],
  ["Bash", 0.1],
  ["Lua", 0.04],
  ["TCL", 0.03]
]
    

# Hacemos un gráfico circular en Pygal
pie_chart = pygal.Pie()

# Agregando un título
pie_chart.title = "CodeEval: Lenguajes de Programación Populares del 2014 "

# agregamos los datos 
for label, data_points in data:
    pie_chart.add(label, data_points)

# Enviamos el grafico a formato svg
pie_chart.render_to_file('Ranking_Programas.svg')


## Plotly

[plot.ly](https://plot.ly/) se diferencia por ser una herramienta en línea para hacer el análisis y la visualización de datos. Tiene una  API que incluye a python, Excel y R. En el  sitio web de esta herramientas, se pueden encontrar  muchos  gráficos de alta calidad  e interactivos. Gracias a su  excelente [documentación](https://plot.ly/python/user-guide/), crear un  gráfico de barras es relativamente simple.

Plotly se integra a la perfección con  [pandas](http://pandas.pydata.org/). 



