# Visualización de Datos 

[Visualización de datos](https://es.wikipedia.org/wiki/Visualizaci%C3%B3n_de_datos), es una herramienta fundamental, para todo aquel que se dedica al [Análisis de Datos](https://es.wikipedia.org/wiki/An%C3%A1lisis_de_datos) y es parte fundamental de la BigData que consiste en representar de manera general comprensible y medible  los datos. 

De wikipedia:

Los procedimientos que engloban la visualización de datos son varios:

1. En primer lugar es necesario analizar los datos para compendiar aquellos útiles para el conocimiento del tema y descartar los inconexos. 

2. En segundo lugar es necesario interpretar los datos seleccionados de tal forma que sean comprensibles de forma exacta y detallada. Antes de continuar es imprescindible contrastar estos datos con otros vinculados y estudiar todos ellos para no cometer errores y saber discernir los verdaderamente significativos. 

3. El último paso en este proceso es saber comunicar la información obtenida, de tal forma que el usuario adquiera los conocimientos necesarios para comprender correctamente los datos facilitados. 

Así se puede decir que hay dos usos primarios para la visualización:

1. Para explorar datos.
2. Para comunicar datos.


En el mundo de Python, hay múltiples opciones para visualizar datos. En este cuaderno ilustraremos el uso de esas herramientas, en diversas situaciones

1. [Matplotlib](http://matplotlib.org/).
2. [seaborn](http://stanford.edu/~mwaskom/software/seaborn/).
3. [ggplot2](http://ggplot.yhathq.com/).
4. [Bokeh](http://bokeh.pydata.org/en/latest/).
5. [pygal](http://www.pygal.org/en/latest/).
6. [Plotly](https://plot.ly/).
7. [Pandas](http://pandas.pydata.org/).

## Matplotlib

[Matplotlib](http://matplotlib.org/) es una biblioteca de visualización que produce gráficos de alta calidad, en una variedad de formatos impresos y entornos interactivos a través de diversas plataformas. Puede generar, histogramas, gráficos de barras,diagramas de dispersión, etc, con sólo unas pocas líneas de código. Pese a ello, hacer en Matplotlib  visualización estadística sofisticada es más o menos dificil , por que  a menudo requiere una gran cantidad de código repetitivo. 

Matplotlib,pese a ello, destaca entre otras por sus expresiones y textos en Latex, que mejora considerablemente los gráficos en publicaciones científicas.

In [17]:
import warnings
warnings.filterwarnings("ignore")

### Gráfico de Líneas 

Los gráficos de líneas muestran una serie como un conjunto de puntos conectados mediante una sola línea. Los gráficos de líneas se usan para representar grandes cantidades de datos que tienen lugar durante un período continuado de tiempo.

In [18]:
import numpy as np
import matplotlib.mlab as mlab
from matplotlib import pyplot as plt

fechas = [1944, 1954, 1983, 1986, 1988, 1992, 1997]
gdp =[300.2, 567.3, 1075.3, 2789.4, 5965.5, 10345.5, 14897.2]

# Creamos un gráfico de linea, con fechas en el eje X, gdp en el eje Y

plt.plot(fechas, gdp, color='red', marker='o', linestyle='solid')

# Agregamos un título
plt.title("Grafico de Linea")

# Agregamos una etiqueta al eje Y 
plt.ylabel("Ganancias en $")
plt.show()

### Diagrama  de Barras 

Un diagrama de barras,  es una forma de representar gráficamente un conjunto de datos o valores, y está conformado por barras rectangulares de longitudes proporcionales a los valores representados. Los gráficos de barras son usados para comparar dos o más valores. Las barras pueden orientarse verticalmente u horizontalmente (Wikipedia). Un ejemplo usando Matplotlib es:

In [19]:
peliculas = ["Annie Hall", "Ben-Hur", "Casablanca", "Gandhi", "West Side Story"]
num_oscars = [5, 11, 3, 8, 10]

# Centremos las barras
xs = [i + 0.1 for i, _ in enumerate(peliculas)]

plt.bar(xs, num_oscars)

plt.ylabel("# de Oscars")
plt.title("Peliculas Galardonadas con el Oscar")

# Etiquetamos el eje X con el nombre de las peliculas en el centro de las barras

plt.xticks([i + 0.5 for i, _ in enumerate(peliculas)], peliculas)

plt.show()

### Gráfico de varias  líneas 

Es posible tener varios gráficos con diversas características en Matplotlib.

In [20]:
varianza= [1,2,4,8,16,32,64,128,256]
bs_2= [256,128,64,32,16,8,4,2,1]
total_error = [x + y for x, y in zip(varianza, bs_2)]
xs = range(len(varianza))

# Podemos llamar a plt.plot varias veces para mostrar
# un grupo de figuras del mismo 'grafico'

plt.plot(xs, varianza,     'g-',  label='varianza')    
plt.plot(xs, bs_2, 'r-.', label='bias^2')      
plt.plot(xs, total_error,  'b:',  label='total error') 

# Podemos asignas lebels s ese grupo de figuras
# Contamos con una leyenda para el grafico resultante
# loc=9 significa "top center"
    
plt.legend(loc=9)
plt.xlabel("Modelo de  complexidad")
plt.title("Bias-Varianza")
plt.show()

### Gráficos de dispersión

Los gráficos de dispersión también son conocidos como gráficos XY y su función principal es la de mostrar la relación que existe entre los valores numéricos de diferentes series de datos sobre los ejes de coordenadas XY. Veamos un ejemplo:

In [21]:
fr = [45, 78, 67, 89, 71, 68, 60, 74, 65]
minu = [145, 167, 132, 156, 143, 122, 114, 183, 143]
labels = ['a', 'b', 'c', 'd','e','f','g', 'h','i']
    
plt.scatter(fr, minu)

# Etiquetamos cada punto
for label, f_c, m_c in zip(labels, fr, minu):
    plt.annotate(label,
                 xy = (f_c, m_c),
                 xytext = (-5, 5),
                 textcoords='offset points')
    
    
plt.title("Minutos diarios-Numero de amigos")
plt.xlabel("Numero de amigos")
plt.ylabel("Minutos diarios en el sitio ")
plt.show()


### Histogramas 

Un histograma es una representación gráfica de una variable en forma de barras. Un ejemplo en Matplotlib, sería:

In [22]:
mu = 100  # media de la distribución
sigma = 15   # desviación estándar de la distribución
x = mu + sigma * np.random.randn(10000)
    
num_bins = 50
 # El histograma de la data

n, bins, patches = plt.hist(x, num_bins, normed=1, facecolor='green', alpha=0.5)

 # agregamos una mejor 'linea de ajuste ' 
y = mlab.normpdf(bins, mu, sigma)
plt.plot(bins, y, 'r--')
plt.xlabel('Habilidades')
plt.ylabel('Probabilidad')
plt.title(r'Histograma de IQ: $\mu=100$, $\sigma=15$')

# Ajustando el espaciado en la figura
plt.subplots_adjust(left=0.15)
plt.show()

## Seaborn 

[Seaborn](http://stanford.edu/~mwaskom/software/seaborn/) es una librería de visualización basada en matplotlib y creada para hacer visualizaciones de datos  mucho más atractivos visualmente e informativos. Seaborn ofrece varias características como  el construido en temas, paletas de colores, funciones y herramientas para visualizar regresiones lineales univariadad y bivariadad, matrices de datos,  series temporales en estadística, etc, que nos permiten construir visualizaciones complejas. También se integra  bien con Pandas.

Para una breve introducción a las ideas detrás del paquete, se puede leer las [notas introductorias ](http://stanford.edu/~mwaskom/software/seaborn/introduction.html#introduction).

Vemos algunos ejemplos del uso de Seaborn. Empezemos por un simple gráfico:

In [23]:
# Las funciones seno y coseno graficadas con seaborn

import matplotlib.pyplot as plt
import seaborn as sns 
import pandas as pd
import numpy as np


sns.set()
x = np.linspace(0, 10, 1000)
plt.plot(x, np.sin(x), x, np.cos(x))
plt.show()

A menudo, en la visualización de datos estadísticos, se quiere  dibujar histogramas y distribuciones conjuntas de las variables. Seaborn ofrece herramientas sencillas para que esto suceda:

In [24]:
# Podemos dibujar un estimado de la distribución usando Kernel Density Estimation (KDE)

data = np.random.multivariate_normal([0, 0], [[5, 2], [2, 2]], size=2000)
data = pd.DataFrame(data, columns=['x', 'y'])

for col in 'xy':
    sns.kdeplot(data[col], shade=True)
plt.show()
    

A veces la mejor manera de ver los datos es a través de histogramas de subconjuntos. Los [**FacetGrid**](https://stanford.edu/~mwaskom/software/seaborn/tutorial/axis_grids.html) de Seaborn hace que esto es muy  simple. Vamos a echar un vistazo a algunos datos que muestra la cantidad que el personal de un  restaurante reciben de  propinas en base a diversos datos:

In [25]:
tips = sns.load_dataset('tips')
tips.head()
tips['tip_pct'] = 100 * tips['tip'] / tips['total_bill']

grid = sns.FacetGrid(tips, row="sex", col="time", margin_titles=True)
grid.map(plt.hist, "tip_pct", bins=np.linspace(0, 40, 15));
plt.show()


Al generalizar gráficos para conjuntos de datos de mayores dimensiones, se termina en **pair plots**. Esto es muy útil para explorar correlaciones entre los datos multidimensionales. Vemos esto con el conocido conjunto de datos *iris*, que enumera las medidas de pétalos y sépalos de tres especies de iris:

In [26]:
iris = sns.load_dataset("iris")
iris.head()
sns.pairplot(iris, hue="species", size=2.5)

plt.show()

En este  ejemplo, consideramos  los datos en términos de series de tiempo de la temperatura interior y exterior y el gráfico producido por Pandas, la importación de la librería de seaborn cambian la apariencia de este gráfico. El código es el siguiente:

In [27]:
# Un ejemplo más avanzado

df1 = pd.read_csv('te_2014.tsv', delimiter="\t", names=["time", "exterior"])
df1.time = pd.to_datetime(df1.time.values, unit="s").tz_localize('UTC').tz_convert('Europe/Stockholm')
df1 = df1.set_index("time").resample("10min")
df2 = pd.read_csv('ti_2014.tsv', delimiter="\t", names=["time", "interior"])
df2.time = pd.to_datetime(df2.time.values, unit="s").tz_localize('UTC').tz_convert('Europe/Stockholm')
df2 = df2.set_index("time").resample("10min")
df_temp = pd.concat([df1, df2], axis=1)

fig, ax = plt.subplots(1, 1, figsize=(8, 4))
df_temp.resample("D").plot(y=["exterior", "interior"], ax=ax)
fig.tight_layout()
fig.savefig("plot-seaborn.pdf")

La principal habilidad  de la biblioteca Seaborn, aparte de generar gráficos vistosos, es su colección de gráficos estadísticos. Ejemplos de estos es [**kdeplot**](http://stanford.edu/~mwaskom/software/seaborn/generated/seaborn.kdeplot.html) que muestra  el [KDE](https://en.wikipedia.org/wiki/Kernel_density_estimation), una manera no paramétrica para estimar la densidad de una variable aleatoria y [**distplot**](http://stanford.edu/~mwaskom/software/seaborn/generated/seaborn.distplot.html?highlight=distplot) que muestra una distribución univariada de observaciones  respectivamente. Por ejemplo, las siguientes dos líneas de código producen el gráfico donde  las líneas azules y verdes son el KDE calculado.

In [28]:
sns.distplot(df_temp.to_period("M")["exterior"]["2014-04"].dropna().values, bins=50);
sns.distplot(df_temp.to_period("M")["interior"]["2014-04"].dropna().values, bins=50);

plt.show()

Usamos la función jointplot para graficar  la distribución conjunta para dos conjuntos de datos independientes.

In [29]:

with sns.axes_style("white"):
    sns.jointplot(df_temp.resample("H")["exterior"].values,
                  df_temp.resample("H")["interior"].values, kind="hex");

plt.show()
#plt.savefig("seaborn-jointplot.pdf")

La función kdeplot también puede operar sobre datos bidimensionales, utilizando las funciones kdeplot y jointplot mostramos   la correlación de series de datos de *temperatura interior y exterior*, mediante un gráfico

In [30]:
sns.kdeplot(df_temp.resample("H")["exterior"].dropna().values,
            df_temp.resample("H")["interior"].dropna().values, shade=False);

plt.show()

## ggplot

[ggplot](http://ggplot.yhathq.com/), es similar a Seaborn en que se construye basado en matplotlib y tiene como objetivo mejorar el atractivo de las visualizaciones matplotlib de una manera sencilla. Diverge de  Seaborn en que se trata de un puerto de [ggplot2](http://ggplot2.org/) de  R. Dado a esto  parte de la API no es sólo Python, lo que no implica que no sea  muy poderoso. Muchos [ejemplos](http://ggplot.yhathq.com/docs/index.html) del uso de ggplot en áreas como estadística o geometría.


In [31]:
from matplotlib import pyplot as plt
from ggplot import *

p = ggplot(mtcars, aes('cyl'))
print (p + geom_bar())

plt.show(1)

<ggplot: (8784193832438)>


stat_bin: binwidth defaulted to range/30.
    Use 'binwidth = x' to adjust this.


In [36]:
# Ejemplo de ggplot en funciones estadísticas

import scipy
import numpy as np
import pandas as pd
from ggplot import *
def dnorm(x, mean, var):
    return scipy.stats.norm(mean,var).pdf(x)
data = pd.DataFrame({'x':np.arange(-5,6)})
ggplot(aes(x='x'),data=data) + \
    stat_function(fun=dnorm,color="blue",
                  args={'mean':0.0,'var':0.2}) + \
    stat_function(fun=dnorm,color="red",
                  args={'mean':0.0,'var':1.0}) + \
    stat_function(fun=dnorm,color="yellow",
                  args={'mean':0.0,'var':5.0}) + \
    stat_function(fun=dnorm,color="green",
                  args={'mean':-2.0,'var':0.5})

<ggplot: (8784182820321)>

## Bokeh

[Bokeh](http://bokeh.pydata.org/en/latest/) es una biblioteca de visualización interactiva de Python para el manejo de grandes conjuntos de datos que  utilizan las últimas tecnologías web. Su objetivo es proporcionar una  elegante construcción, concisa de nuevos gráficos al estilo de [Protovis](http://mbostock.github.io/protovis/) o [D3](http://d3js.org/). Bokeh utiliza Canvas en lugar de SVG y tiene múltiples lenguajes enlazados 'bindings' como Python, Lua, R y Julia. Estos producen un archivo JSON, el cual trabaja como una entrada para [BokehJS](http://bokeh.pydata.org/en/latest/docs/dev_guide/bokehjs.html)(una librería de Java Script) que a su vez presenta los datos a los navegadores web.

In [33]:
from bokeh.io import output_notebook, show
from bokeh.plotting import figure
output_notebook()

In [34]:
# Creamos un grafico con herramientas por defecto, usando figure
p = figure(plot_width=400, plot_height=400)

# Agregamos un circulo con ciertas propiedades
p.circle([1, 2, 3, 4, 5], [6, 7, 2, 4, 5], size=15, line_color="navy", fill_color="orange", fill_alpha=0.5)

show(p) # Muestra los resultados

<bokeh.io._CommsHandle at 0x7fd3a0ff1b38>

Veamos un ejemplo de como utilizar el [Bokeh server](http://bokeh.pydata.org/en/latest/docs/user_guide/server.html). Hay muchas ventajas en usar el Bokeh server:

1. Los gráficos se pueden publicar con mayor audiencia.
2. Visualización de grandes datos interactivamente.
3. Construcción de desarrollo de aplicaciones (apps).

## Pygal

[Pygal](http://www.pygal.org/en/latest/) se utiliza para la creación de gráficos SVG. Si se han instalado las dependencias adecuadas, también se puede guardar un archivo en formato  *png*. Los archivos SVG son bastante útiles para hacer  gráficos interactivos. Mayor información en [documentación de pygal](http://www.pygal.org/en/latest/documentation/index.html).

In [35]:
import pygal
# http://blog.codeeval.com/codeevalblog/2014
data = [
  ["Python", 30.3],
  ["Java", 22.2],
  ["C++", 13],
  ["Ruby", 10.6],
  ["Javascript", 5.2],
  ["C#", 5],
  ["C", 4.1],
  ["PHP", 3.3],
  ["Perl", 1.6],
  ["Go", 1.5],
  ["Haskell", 1.2],
  ["Scala", 1],
  ["Objective-C", 0.4],
  ["Clojure", 0.2],
  ["Bash", 0.1],
  ["Lua", 0.04],
  ["TCL", 0.03]
]
    

# Hacemos un gráfico circular en Pygal
pie_chart = pygal.Pie()

# Agregando un título
pie_chart.title = "CodeEval: Lenguajes de Programación Populares del 2014 "

# agregamos los datos 
for label, data_points in data:
    pie_chart.add(label, data_points)

# Enviamos el grafico a formato svg
pie_chart.render_to_file('Ranking_Programas.svg')


## Plotly

[plot.ly](https://plot.ly/) se diferencia por ser una herramienta en línea para hacer el análisis y la visualización de datos. Tiene una  API que incluye a python, Excel y R. En el  sitio web de esta herramientas, se pueden encontrar  muchos  gráficos de alta calidad  e interactivos. Gracias a su  excelente [documentación](https://plot.ly/python/user-guide/), crear un  gráfico de barras es relativamente simple.

Plotly se integra a la perfección con  [pandas](http://pandas.pydata.org/). 





## Lecturas importantes:


1. Una lectura interesante acerca de este tema es el artículo de Ignasi Alcalde [Visualización de datos, retos y mitos](http://www.ignasialcalde.es/visualizacion-de-datos-retos-y-mitos/).

2. [Recursos para comprender la Visualización de Datos](http://www.analyticsvidhya.com/blog/2015/05/data-visualization-resource/).
3. [Visualización usando Bokeh de Python](http://www.analyticsvidhya.com/blog/2015/08/interactive-data-visualization-library-python-bokeh/).
4. [Uso de seaborn en Visualización de datos](https://www.oreilly.com/learning/data-visualization-with-seaborn).