# Introducción

Visualizar los datos es fundamental para entender las carácterísticas y relaciones que existe entre las variables de nuestro problema. 

Con la visualización podemos entender a priori el problema con el que nos estamos enfrentando. Podemos hacer hipótesis sobre las variables que nos pueden ser útiles y sobre cuales no tener en cuenta ya que no presentan un patrón.


En este Notebook aprenderemos acerca de las funcionalidades de Visualización de datos en Pandas. 

**Aunque estas carácterísticas están construídas sobre otra librería que se llama Matplotlib, se integran en Pandas para facilitar su uso.**


Para empezar carguemos un conjunto de datos del tipo de flor 'Iris'.


El conjunto iris, cuenta con 150 ejemplos de 3 tipos de flores 'Iris', los cuales son  "setosa", "virginica" y "versicolor".




![](https://drive.google.com/uc?export=view&id=1s2QWKbRZWkiWmd2DskCNsrcY_PnsYHOr)





Los atributos son:
* Longitud del sépalo en cm (Sepal.Length)
* Ancho del sépalo en cm (Sepal.Width)
* Longitud del pépalo en cm (Petal.Length)
* Ancho del pépalo en cm (Pepal.Width)
* Clase (Species)
 * 0 = Iris-Setosa
 * 1 = Iris-Versicolour
 * 2 = Iris-Virginica

![](https://drive.google.com/uc?export=view&id=195wM4wDyYYB5RWLWytbsop2OoZwLXsTl)

Carguemos el conjunto de datos

In [None]:
import pandas as pd

url="https://drive.google.com/uc?export=download&id=1Jf9XUQPJbyE7FYOwV32PQMLdO2k5-DRB"
df_iris = pd.read_csv(url)
# imprimir los tres primeros elementos del conjunto
df_iris.head(3)

Veamos una descripción del conjunto de datos.

In [None]:
df_iris.columns

In [None]:
print('Descripción de todo el dataframe')
df_iris.describe()

sepal length
sepal width
petal length
petal width

longitud del sépalo
ancho sepal
longitud del pétalo
ancho de pétalo

In [None]:
print('Descripción de la columna type')
print(df_iris['label'].describe())

Ahora para terminar dibujemos el comportamiento de la variable 'sepal_width'.

Con el resultado del "describe()" anterior vimos que para el largo del pétalo teníamos una valor medio de 3.6. Ahora gráficamente lo podemos ver con pandas y matplotlib.

Importemos los paquetes

In [None]:
import numpy as np
import pandas as pd

# Para que aparezcan las visualizaciones dentro del Notebook
%matplotlib inline

# 1. Tipos de gráficos (plots)

Para usar los tipos de graficas disponibles por pandas se puede llamar directamente la el tipo de grafica despues de la invocar la función plot sobre el dataframe o se invoca la función plot con el argumento 'kind' pasandole como argumento el tipo de gráfica.


Por ejemplo en la gráfica anterior usamos: 

df_iris.sepal_width.plot.hist()

Pero hubieramos podido usar esta sentencia:

df_iris.sepal_width.plot(kind='hist')

In [None]:
df_iris['sepal_width'].plot(kind='hist')

In [None]:
df_iris['sepal_width'].plot.hist()

In [None]:
df_iris['sepal_width'].plot.hist(bins=5)

In [None]:
df_iris.plot.hist(bins=25)

Otros tipos son:

* ‘bar’ o ‘barh’ para gráficas de barras
* ‘box’ para las gráficas de cajas
* ‘kde’ o ‘density’ para gráficas de densidad
* ‘area’ para gráficas de áreas
* ‘scatter’
* ‘pie’ para tortas

Para conocer todas las gráficas disponibles puede visitar el siguiente link.

https://pandas.pydata.org/pandas-docs/stable/visualization.html#other-plots


## Area

In [None]:
df_iris.plot(kind='area')

___

## Barplots

In [None]:
df_iris[0:10].plot(kind='bar')

In [None]:
df_iris[0:4].plot(kind='bar', figsize=(8,3), title='Título de la Figura', grid=False)

In [None]:
df_iris[0:5].plot(kind='bar', stacked=True)

In [None]:
df_iris[0:5].plot(kind='barh')

___

## Gráficos de línea (Line Plots)

In [None]:
df_iris[['sepal_width','sepal_length']].plot(kind='line')

In [None]:
df_iris.plot(y='sepal_length',kind='line', figsize=(10,3))

___

## Gráficos de dispersión (Scatter Plots)

In [None]:
# Se requieren 2 argumentos: 'x' y 'y'  
df_iris.plot(kind='scatter', x='sepal_length',y='sepal_width')

In [None]:
df_iris.plot(kind='scatter', x='sepal_length',y='petal_width')

Se puede cambiar el color de los puntos basado en el valor de otra columna mediante el parámetro 'c'. En este caso, se estaría presentando la información de 3 series de datos al mismo tiempo: X, Y, y el color. 

In [None]:
# Convertimos los 3 labels a valores entre 0 y 2
df_iris.loc[df_iris['label']=='Iris-setosa','label'] = 0
df_iris.loc[df_iris['label']=='Iris-virginica','label'] = 1
df_iris.loc[df_iris['label']=='Iris-versicolor','label'] = 2


In [None]:
df_iris.plot(kind='scatter', x='sepal_length',y='sepal_width', c='label')

También, se puede usar el parámetro cmap para cambiar el mapa de colores a usar. Ver: http://matplotlib.org/users/colormaps.html

In [None]:
df_iris.plot(kind='scatter', x='sepal_length',y='petal_width',c='label',cmap='magma')

O incluso, se puede graficar cada punto con diferente tamaño para dar información adicional de otra columna mediante el parámetro 's'. Este parámetro necesita recibir un arreglo, y no solamente el nombre de la columna:

In [None]:
# Se multiplica por un factor para que quede más grande
df_iris.plot(kind='scatter', x='sepal_length',y='sepal_width',c='label',cmap='magma',s=df_iris['petal_width']*50)

___

## BoxPlots

Un diagrama de caja (boxplot), también conocido como diagrama de caja y bigotes, es un gráfico que está basado en cuartiles y mediante el cual se visualiza la distribución de un conjunto de datos. Está compuesto por un rectángulo (la «caja») y dos brazos (los «bigotes»).

Es un gráfico que suministra información sobre los valores mínimo y máximo, los cuartiles Q1, Q2 o mediana y Q3, y sobre la existencia de valores atípicos y la simetría de la distribución. Primero es necesario encontrar la mediana para luego encontrar los 2 cuartiles restantes.

![Boxplot](https://upload.wikimedia.org/wikipedia/commons/2/25/Boxplot.svg "BoxPlot")

**Información tomada de Wikipedia: https://es.wikipedia.org/wiki/Diagrama_de_caja**

In [None]:
df_iris.plot(kind='box') 

## BoxPlot Agrupado

In [None]:
df_iris.boxplot(column='petal_width',by='label')

___

## Hexagonal Bin Plot

Es útil para datos bi-variados. Este tipo de diagrama es realmente útil si su diagrama de dispersión (scatter) es demasiado denso para ser interpretado. Ayuda a agrupar el área espacial del gráfico ya que la intensidad del color de cada hexágono puede interpretarse como una mayor concentración de puntos en esta área.


In [None]:
df_iris.plot.hexbin(x='petal_length',y='petal_width')

In [None]:
df_iris.plot.hexbin(x='petal_length',y='petal_width',gridsize=15,cmap='Blues')

____

## Torta (Pie)


In [None]:
df_iris.groupby('label').count().plot(kind='pie', y='petal_width')

____

## Gráfico de Estimación de Densidad de Kernel (Kernel Density Estimation - KDE)

KDE es un método no-parametrico para estimar la función de densidad de probabilidad de una variable aleatoria.

De esta manera podríamos aproximar la distribución de 'sepal_width' y graficarla como en el siguiente ejemplo. 


* Ver: https://en.wikipedia.org/wiki/Kernel_density_estimation
* Ver explicación y su diferencia con los histogramas: https://mglerner.github.io/posts/histograms-and-kernel-density-estimation-kde-2.html?p=28 

In [None]:
df_iris['sepal_width'].plot(kind='hist')

In [None]:
df_iris['sepal_width'].plot(kind='kde')

# 2. Hojas de estilos

Matplotlib tiene [hojas de estilo](http://matplotlib.org/gallery.html#style_sheets) que se pueden usar para hacer que sus figuras se vean un poco más agradables. Estas hojas de estilo incluyen:
* plot_bmh
* plot_fivethirtyeight
* plot_ggplot
* y más...

Básicamente, crean un conjunto de reglas de estilo que cumplen las gráficas. Se recomienda usarlas, ya que hacen que todas las Figuras tengan el mismo aspecto y parezcan más profesionales. Incluso se pueden crear estilos propios si se requiere uno particular para su empresa (aunque es un poco tedioso).


**Antes de usar hojas de estilo plt.style.use () las figuras se ven así:**

In [None]:
df_iris['sepal_width'].plot(kind='hist')

### Cambiando el estilo

** Primero hay que importar la librería: **

In [None]:
import matplotlib.pyplot as plt

**Ahora vamos a probar varios estilos y a graficar un histograma para probar:**

In [None]:
plt.style.use('ggplot')
df_iris['sepal_width'].plot(kind='hist')

In [None]:
plt.style.use('bmh')
df_iris['sepal_width'].plot(kind='hist')

In [None]:
plt.style.use('fivethirtyeight')
df_iris['sepal_width'].plot(kind='hist')

In [None]:
plt.style.use('dark_background')
df_iris['sepal_width'].plot(kind='hist')