___


# Visualización de datos con Pandas

En este Notebook aprenderemos acerca de las funcionalidades de Visualización de datos en Pandas. 

** Aunque estas carácterísticas están construídas sobre otra librería que se llama Matplotlib, se integran en Pandas para facilitar su uso. **



## Importar

In [None]:
import numpy as np
import pandas as pd

# Para que aparezcan las visualizaciones dentro del Notebook
%matplotlib inline

## Preparar los datos

Presentaremos los siguientes ejemplos con base a algunos datos falsos que se pueden cargar como DataFrames desde los archivos CSV de este directorio. 

In [None]:
df1 = pd.read_csv('df1.csv',index_col=0)
df2 = pd.read_csv('df2.csv')

# Tipos de gráficos (plots)

Hay varios tipos de gráficos que se pueden crear desde Pandas. La mayoría de ellos son estadísticos por naturaleza:

* df.plot.area     
* df.plot.bar      
* df.plot.barh     
* df.plot.hist     
* df.plot.line     
* df.plot.scatter
* df.plot.box      
* df.plot.hexbin   
* df.plot.pie
* df.plot.density  
* df.plot.kde      


También es posible usar la notación:
* df.plot(kind='hist'), configurando el argumento 'kind' de acuerdo al tipo de gráfico que queramos según la lista de arriba (por ejemplo: 'box','barh', etc..)
___


## Area

In [None]:
df2

In [None]:
df2.plot.area()

In [None]:
df2.plot.area(alpha=0.5)

___

## Barplots

In [None]:
df2.plot.bar()

In [None]:
df2.plot.bar(figsize=(14,3), title='Título de la Figura', grid=True)

In [None]:
df2.plot.bar(stacked=True)

In [None]:
df2.plot.barh()

___

## Histogramas

In [None]:
df1.info()

In [None]:
df1.head()

In [None]:
# Por defecto se usan 10 intervalos de clase (bins)
df1['A'].plot.hist()

In [None]:
# Aumentamos el número de intervalos de clase 
df1['A'].plot.hist(bins=50)

___

## Gráficos de línea (Line Plots)

In [None]:
df1.plot.line()

In [None]:
df1.plot.line(x=df1.index,y='B')

In [None]:
df1.plot.line(x=df1.index,y='B',figsize=(14,3),lw=0.7)

___

## Gráficos de dispersión (Scatter Plots)

In [None]:
# Se requieren 2 argumentos: 'x' y 'y'  
df1.plot.scatter(x='A',y='B')

Se puede cambiar el color de los puntos basado en el valor de otra columna mediante el parámetro 'c'. En este caso, se estaría presentando la información de 3 series de datos al mismo tiempo: X, Y, y el color. 

In [None]:
df1.plot.scatter(x='A',y='B',c='C')

También, se puede usar el parámetro cmap para cambiar el mapa de colores a usar. Ver: http://matplotlib.org/users/colormaps.html

In [None]:
df1.plot.scatter(x='A',y='B',c='C',cmap='coolwarm')

O incluso, se puede graficar cada punto con diferente tamaño para dar información adicional de otra columna mediante el parámetro 's'. Este parámetro necesita recibir un arreglo, y no solamente el nombre de la columna:

In [None]:
# Se multiplica por un factor para que quede más grande
df1.plot.scatter(x='A',y='B',s=df1['C']*100)

In [None]:
df1.plot.scatter(x='A',y='B',c='C',cmap='coolwarm',s=df1['C']*100)

___

## BoxPlots

Un diagrama de caja (boxplot), también conocido como diagrama de caja y bigotes, es un gráfico que está basado en cuartiles y mediante el cual se visualiza la distribución de un conjunto de datos. Está compuesto por un rectángulo (la «caja») y dos brazos (los «bigotes»).

Es un gráfico que suministra información sobre los valores mínimo y máximo, los cuartiles Q1, Q2 o mediana y Q3, y sobre la existencia de valores atípicos y la simetría de la distribución. Primero es necesario encontrar la mediana para luego encontrar los 2 cuartiles restantes.

![Boxplot](https://upload.wikimedia.org/wikipedia/commons/2/25/Boxplot.svg "BoxPlot")

** Información tomada de Wikipedia: https://es.wikipedia.org/wiki/Diagrama_de_caja **

In [None]:
df2

In [None]:
df2.plot.box() 

___

## Hexagonal Bin Plot

Es útil para datos bi-variados. Este tipo de diagrama es realmente útil si su diagrama de dispersión (scatter) es demasiado denso para ser interpretado. Ayuda a agrupar el área espacial del gráfico ya que la intensidad del color de cada hexágono puede interpretarse como una mayor concentración de puntos en esta área.


In [None]:
df = pd.DataFrame(np.random.randn(1000, 2), columns=['a', 'b'])
df.plot.hexbin(x='a',y='b')

In [None]:
df.plot.hexbin(x='a',y='b',gridsize=15,cmap='Oranges')

____

## Torta (Pie)


In [None]:
df2.head()

In [None]:
df2.plot.pie(y='a')

In [None]:
df2.plot.pie(subplots=True, figsize=(14,3))

____

## Gráfico de Estimación de Densidad de Kernel (Kernel Density Estimation - KDE)

* Ver: https://en.wikipedia.org/wiki/Kernel_density_estimation
* Ver explicación y su diferencia con los histogramas: https://mglerner.github.io/posts/histograms-and-kernel-density-estimation-kde-2.html?p=28 

In [None]:
df2['a'].plot.kde()

In [None]:
df2.plot.density()

## Hojas de estilos

Matplotlib tiene [hojas de estilo](http://matplotlib.org/gallery.html#style_sheets) que se pueden usar para hacer que sus figuras se vean un poco más agradables. Estas hojas de estilo incluyen:
* plot_bmh
* plot_fivethirtyeight
* plot_ggplot
* y más...

Básicamente, crean un conjunto de reglas de estilo que cumplen las gráficas. Se recomienda usarlas, ya que hacen que todas las Figuras tengan el mismo aspecto y parezcan más profesionales. Incluso se pueden crear estilos propios si se requiere uno particular para su empresa (aunque es un poco tedioso).


** Antes de usar hojas de estilo plt.style.use () las figuras se ven así:**

In [None]:
df1['A'].hist()

### Cambiando el estilo

** Primero hay que importar la librería: **

In [None]:
import matplotlib.pyplot as plt

**Ahora vamos a probar varios estilos y a graficar un histograma para probar:**

In [None]:
plt.style.use('ggplot')
df1['A'].hist()

In [None]:
plt.style.use('bmh')
df1['A'].hist()

In [None]:
plt.style.use('fivethirtyeight')
df1['A'].hist()

In [None]:
plt.style.use('dark_background')
df1['A'].hist()

** Por ahora, nos quedaremos con el estilo ggplot para presentar las funcionalidades de visualización de datos con Pandas! **

In [None]:
plt.style.use('ggplot')

### Las funcionalidades de visualización de Pandas son muy fáciles de usar, en comparación con **matplotlib**. Esto equilibra la facilidad de uso con el control sobre la figura. 
Muchas de las llamadas a 'plot' también aceptan argumentos adicionales que vale la pena explorar.