## Visualización desde Pandas

Si la información que queremos mostrar está almacenada en pandas, podemos analizar un análisis exploratorio de datos de manera sencilla

In [None]:
import pandas as pd
import numpy as np

#Creamos un dataFrame
np.random.seed(123)

df = pd.DataFrame({'A': np.random.randn(300).cumsum(0), 
                   'B': np.random.randn(300).cumsum(0) + 20,
                   'C': np.random.randn(300).cumsum(0) - 20}, 
                  index=np.arange(300))
df.head()

Si la información que queremos mostrar está almacenada en pandas, podemos simplificar una parte de la creación de los gráficos. No tenemos que llamar a las funciones de dibujar desde plt.____ sino que podemos hacerlo directamente desde el dataFrame. En este caso cada serie del dataFrame se considera una serie de datos, y todas ellas se dibujan directamente en la misma gráfica

In [None]:
%matplotlib notebook

df.plot()

Mediante la función plot podemos dibujar todos los tipos de gráficas disponibles. Para indicar cuál queremos utilizar podemos hacerlo con la propiedad kind o llamándolo como función. Por ejemplo df.plot('A','B',kind=scatter) es lo mismo que df.plot.scatter('A','B'). Los tipos de gráficos que tenemos disponibles son
* 'line' : gráfico de líneas (por defecto)
* 'bar' : gráfico de barras vertical
* 'barh' : gráfico de barras horizontal
* 'hist' : histograma
* 'box' : boxplot
* 'kde' : gráfico Kernel Density Estimation
* 'area' : gráfico de área
* 'pie' : gráfico circular
* 'scatter' : gráfico de dispersión
* 'hexbin' : histograma hexagonal

#### Gráficos de líneas

In [None]:
df.plot(color=['red','magenta','cyan'],marker='.',markevery=50,markersize=20)

Podemos dibujar los datos de cada una de las columnas del dataframe en un subgráfico distinto

In [None]:
df.plot(subplots=True)

Estos subgráficos se pueden colocar en cualquier otra disposición, y se pueden compartir los ejes si así lo queremos

In [None]:
df.plot(subplots=True,layout=[2,2],sharey=True,sharex=False)

#### Gráficos de áreas

La propiedad stacked por defecto es verdadera y de esta forma solo se pueden mostrar series que sean 
enteras positivas o negativas. Si tenemos de ambos signos, hay que ponerlo a False. Al ponerlo a falso, la transparencia
se ajusta automáticamente a 0.5

In [None]:
df.plot(kind='area')

In [None]:
df.plot(kind='area', stacked=False)

#### Gráfico de barras

In [None]:
df.plot.bar()

Como las etiquetas del eje x son muchas, no se llegan a ver. Podemos cambiar estos valores mediante xticks (en qué punto hay una etiqueta) y xticklabels (qué valor tiene la etiqueta).

In [None]:
import matplotlib.pyplot as plt
ax = plt.gca()

max_value = df.index.max()
min_value = df.index.min()
number_of_steps = 15
l = np.arange(min_value, max_value+1, number_of_steps)

ax.set(xticks=l, xticklabels=l);

Mediante la propiedad stacked podemos convertir el gráfico de barras en un gráfico de barras apiladas

In [None]:
df.plot.bar(stacked=True)

ax = plt.gca()

max_value = df.index.max()
min_value = df.index.min()
number_of_steps = 25
l = np.arange(min_value, max_value+1, number_of_steps)

ax.set(xticks=l, xticklabels=l)

#### Histograma

Podemos mostrar el histograma de una de las columnas del dataframe

In [None]:
plt.figure()
df['A'].plot.hist(bins=20)

También podemos mostrar el histograma del dataframe entero. Si los colores son completamente opacos, no es posible los tres histogramas.

In [None]:
df.plot.hist(bins=20)
#df.plot.hist(bins=20, alpha=0.5)

También podemos girar el histograma mediante la propiedad orientation.

In [None]:
df.plot.hist(bins=20, orientation='horizontal')

Hay veces en las que nos interesa complementar el histograma con un estimador de kernel de densidad. Lo podemos pintar mediante el tipo de gráfico kde

In [None]:
plt.figure()
parte1=np.random.normal(0,1,size=200)
parte2=np.random.normal(10,2,size=200)
valores=pd.Series(np.concatenate([parte1,parte2]))
valores.plot.hist(bins=25,alpha=0.25,normed=True)
valores.plot.kde(style='b--')

#### Gráfico de dispersión

En este tipo de gráficos solo podemos pintar dos series de datos, así que podemos enfrentar las diferentes series del dataframe de dos en dos

In [None]:
df.plot.scatter(x='A', y='B');

Si queremos añadir una tercera dimensión, podemos hacerlo a través del tamaño o el color de los puntos que dibujamos

In [None]:
#plt.figure()
df.plot.scatter(x='A', y='B', c='C');
#plt.figure
df.plot.scatter(x='A', y='C', s=df['B']*2)

#### Histograma hexagonal

In [None]:
df.plot.hexbin(x='A',y='B',gridsize=20,C='C',reduce_C_function=np.mean)

#### Boxplot

In [None]:
df.plot.box()