# Visualización de Datos

## Objectivos

Después de completar este laboratorio será capas de:

*   Crear una visualización de Datos con Python
*   Usar varias bibliotecas de Python para visualización


## Introducción

El objetivo de este laboratorio es introducir a la visualización de datos con *Python* de manera concreta y consistente utilizando las bibliotecas disponibles hasta la fecha.

Se quiere dejar en claro que no existe una biblioteca de visualización en *Python* que sea ***"la mejor"***. Por este motivo, se hablará de diferentes bibliotecas y se mostrará, dependiendo de la disponibilidad, sus beneficios de acuerdo al concepto de visualización que se esté tratando en algún tópico en específico. Se espera que el estudiante obtenga la información necesaria de estas bibliotecas para que pueda tomar la decisión de que técnica o herramienta de visualización utilizar para un problema o audiencia en particular.

**Nota**: La mayoría de los gráficos y visualizaciones serán generados utilizando datos almacenados en **dataframes** de **pandas**. Por este motivo, en este laboratorio se dará un rápido repaso de algunas características de **pandas**.

***


## Tabla de Contenidos


1. [Explorando Conjunto de Datos con *pandas*](#0)
    1. [El Conjunto de Datos: Inmigración a Canada desde 1980 a 2013](#2)
    1. [Conceptos Básicos de *pandas*](#4)
    1. [Conceptos Intermedios de *pandas*](#6)
1. [Visualizando Datos usando Matplotlib](#8)
    1. [Matplotlib: Biblioteca Estándar de Visualización en Python](#10)
1. [Gráficos de Línea](#12)


# Explorando Conjunto de Datos con *pandas* <a id="0"></a>

*pandas* es una herramienta de análisis de datos esencial para *Python*. En la [página web](http://pandas.pydata.org) de **pandas** dice:

> **pandas** is a fast, powerful, flexible and easy to use open source data analysis and manipulation tool, built on top of the Python programming language.

El curso se utiliza en gran medida **pandas** para la manipulación, el análisis y la visualización de datos. Se recomienda dedicar un tiempo a familiarice con la referencia de la API de **pandas** en: [http://pandas.pydata.org/pandas-docs/stable/api.html](https://pandas.pydata.org/pandas-docs/stable/reference/index.html).


## El Conjunto de Datos: Inmigración a Canada desde 1980 a 2013 <a id="2"></a>


Fuente del Conjunto de Datos: [International migration flows to and from selected countries - The 2015 revision](http://www.un.org/en/development/desa/population/migration/data/empirical2/migrationflows.asp).

El Conjunto de Datos contiene datos anuales sobre el flujo de inmigrantes internacionales registrado por los países de destino. Los datos presentan tanto los flujos de entradas como los flujos de salidas según el lugar de nacimiento, ciudadanía o lugar de residencia anterior/próxima tanto para extranjeros como para nacionales. La versión actual presenta datos pertenecientes a 45 países.

En este laboratorio se trabajará sobre los datos de inmigración del país de Canadá.

El conjunto de datos de inmigración de Canadá se puede obtener de [aquí](datos/Canada.xlsx).

***


## Conceptos Básicos de *pandas* <a id="4"></a>


Lo primero que hay que realizar es la instalación de **openpyxl** (antiguamente conocido como **xlrd**) que es un módulo que **pandas** requiere para leer archivos Excel.


In [None]:
!pip install openpyxl

A continuación, se procederá a cargar los dos módulos claves para hacer análisis de datos **pandas** y
 **numpy**.


In [None]:
import numpy as np  # util para computación científica en Python
import pandas as pd # biblioteca que contienen la estructura de datos de uso principal

Ahora, se carga el conjunto de datos con los datos de la inmigración en Canadá usando el método de **pandas** `read_excel()`.


In [None]:
df_can = pd.read_excel(
    'datos/Canada.xlsx',
    sheet_name='Canada by Citizenship',
    skiprows=range(20),
    skipfooter=2)

print('Datos leídos y cargados en un dataframe de pandas!')

Mostrar las primeras 5 filas del conjunto de datos usando la función `head()`.


In [None]:
df_can.head()
# Consejo: Se puede especificar el número de filas que se desee observar agregando un parametro con la cantidad: df_can.head(10) 

También se pueden ver loa 5 últimas filas del conjunto de datos usando la función `tail()`.


In [None]:
df_can.tail()

Cuando se analizan conjuntos de datos, siempre es una buena idea partir por conocer la información básica acerca del **dataframe** en que se está trabajando. Esto se puede hacer usando el método `info()`.

Este método se puede utilizar para obtener u breve resumen del **dataframe**.


In [None]:
df_can.info(verbose=False)

Para tener la lista de los encabezados de las columnas se puede consultar al atributo del **dataframe** `columns`.


In [None]:
df_can.columns

De manera similar, para tener la lista de los índices de las filas se utiliza el atributo del **dataframe** `.index`.


In [None]:
df_can.index

Nota: El tipo por defecto de las variables `index` y `columns` **NO SON** `list`.


In [None]:
print(type(df_can.columns))
print(type(df_can.index))

Para convertir los atributos *index* y *columns* a listas, se puede utilizar el método `tolist()`.


In [None]:
df_can.columns.tolist()

In [None]:
df_can.index.tolist()

In [None]:
print(type(df_can.columns.tolist()))
print(type(df_can.index.tolist()))

Para ver la dimensión del **dataframe**, se puede utilizar el atributo `shape`.


In [None]:
# dimensión del dataframe (rows, columns)
df_can.shape    

**Nota**: Los principales tipos de datos utilizados en los objetos en *pandas* son `float`, `int`, `bool`, `datetime64[ns]`, `datetime64[ns, tz]`, `timedelta[ns]`, `category`, and `object` (para cadena de caracteres). Además, estos dtypes también tienen un tamaño, e.g. `int64` and `int32`.


Ahora se puede empezar a limpiar el conjunto de datos removiendo las columnas que se consideran que son innecesarias. Para hacer esto se utiliza el método de *pandas* `drop()`.


In [None]:
# en pandas axis=0 represents las filas (por defecto) y axis=1 representa las columnas.
df_can.drop(['AREA','REG','DEV','Type','Coverage'], axis=1, inplace=True)
df_can.head(2)

Continuando con la limpieza, se procede a renombrar las columnas que su nombre no sea correcto o auto-descriptivo. Para hacer esto se usa el método `rename()` pasándole como argumento un diccionario con los nombres antiguos y nuevos.


In [None]:
df_can.rename(columns={'OdName':'Country', 'AreaName':'Continent', 'RegName':'Region'}, inplace=True)
df_can.columns

Aquí, se puede considerar de utilidad tener la suma total de los inmigrantes por país en el periodo total del estudio entre 1980 y 2013.


In [None]:
df_can['Total'] = df_can.sum(axis=1, numeric_only=True)
df_can

Para verificar cuantos objetos nulos se tiene en el conjunto de datos se puede realizar lo siguiente:


In [None]:
df_can.isnull().sum()

Finalmente, para ver un resumen rápido de cada columna en el **dataframe** se puede usar el método `describe()`.


In [None]:
df_can.describe()

***

## Conceptos Intermedios de *pandas*<a id="6"></a>


### Seleccionar Columna

**Existen dos formas de filtrar columnas basados en su nombre:**

Método 1: Rápido y fácil, pero sólo funciona si el nombre de la columna no contiene espacios o caracteres especiales.

```python
    df.nombre_columna               # devuelve una serie con los valores de la columna
```

Método 2: Más robusto, y se pueden filtrar varias columnas a la vez.

```python
    df['columna']                  # devuelve una serie con los valores de la columna
```

```python
    df[['columna 1', 'columna 2']]  # devuelve una dataframe con los valores de las columnas
```

***


Ejemplo: Se filtrará la lista de países de la columna ('Country').


In [None]:
df_can.Country  # devuelve una serie con los valores de la columna

Ahora, se procederá a filtrar la listas de países del la columna ('Country') y los datos de los años: 1980 - 1985.


In [None]:
df_can[['Country', 1980, 1981, 1982, 1983, 1984, 1985]] # devuelve una dataframe con los valores de las columnas
# Notar que el encabezado de 'Country' es una cadena de caracteres y que los encabezados de los años son enteros. 
# Para una mayor consistencoa, posteriormente se convertirán todos los nombres de las columnas a cadena de caracteres.

### Seleccionar Filas

Existen dos maneras de seleccionar filas:

```python
    df.loc[etiqueta]  # filtra por la etiqueta del índice/columna
    df.iloc[indice]   # filtra por la posición del índice/columna
```


Antes de proceder, notar que por defecto el índice del conjunto de datos es un número en el rango de 0 a 194. Esto hace algo dificultoso el realizar una consulta para un país en específico. Por ejemplo, para buscar los datos de Japón, se necesita conocer el valor del índice correspondiente a la fila donde está Japón.

Esto se puede arreglar de una manera sencilla al definir a la columna 'Country' como índice utilizando el método `set_index()`.


In [None]:
df_can.set_index('Country', inplace=True)
# consejo: Lo opuesto a set es reset. Así para resetear el índice, se puede usar el método df_can.reset_index()

In [None]:
df_can.head(3)

In [None]:
# opcional: para remover el nombre de encabezado del índice se puede hacer lo siguiente:
df_can.index.name = None
df_can.head(3)

Ejemplo: Mostrar el número de inmigrantes desde Japón (fila 87) para los siguientes escenarios:
1. El total de los datos de la fila (todas las columnas)
2. Para el año 2013
3. Para los años 1980 a 1985


In [None]:
# 1. El total de los datos de la fila (todas las columnas)
df_can.loc['Japan']

In [None]:
# métodos alternativos
df_can.iloc[87]

In [None]:
df_can[df_can.index == 'Japan']

In [None]:
# 2. Para el año 2013
df_can.loc['Japan', 2013]

In [None]:
# método alternativo
# año 2013 es la última columna, con un índice posicional en 36
df_can.iloc[87, 36]

In [None]:
# 3. Para los años 1980 a 1985
df_can.loc['Japan', [1980, 1981, 1982, 1983, 1984, 1984]]

In [None]:
# método alternativo
df_can.iloc[87, [3, 4, 5, 6, 7, 8]]

Los nombres de columnas que son del tipo entero (como pasa con los campos con años) podría inducir a alguna confusión. Por ejemplo, cuando se está referenciando al año 2013, alguien se podría confundir pensando que se está haciendo referencia a la comuna en la posición 2013.

Para evitar esta ambigüedad, se recomienda convertir los nombres de las columnas a cadena de caracteres: '1980' a '2013'.


In [None]:
df_can.columns = list(map(str, df_can.columns))
[print (type(x)) for x in df_can.columns.values]

Ahora que los encabezados de los años ha sido convertidos a cadena de caracteres, se puede declarar una variable que permita recorrer el rango completo de años de manera fácil generando una lista usando la función map al convertir una rango de valores a string:


In [None]:
# useful for plotting later on
years = list(map(str, range(1980, 2014)))
years

### Filtrado basado en un criterio

Para filtrar el **dataframe** basado en alguna condición, simplemente se debe pasar la condición como un vector booleano.

Por ejemplo, filtrar el **dataframe** para mostrar los datos en los países de Asia (Continent = Asia).


In [None]:
# 1. Crear la serie condicional booleana
condicion = df_can['Continent'] == 'Asia'
print(condicion)

In [None]:
# 2. pasar esta condición al dataframe
df_can[condicion]

In [None]:
# se puede pasar múltiples criterios en la misma línea.
# Filtrar por Continent = Asia y Region = Southern Asia

df_can[(df_can['Continent']=='Asia') & (df_can['Region']=='Southern Asia')]

# nota: cuando se usa los operadores 'and' y 'or', pandas requiere que se utilice '&' y '|' en vez de 'and' y 'or'
# no olvidar encerrar cada condiciones entre parentesis

Antes de seguir avanzando: revisar los cambios realizados al **dataframe**.


In [None]:
print('Dimensión de los Datos:', df_can.shape)
print(df_can.columns)
df_can.head(2)

***

# Visualizando Datos usando Matplotlib<a id="8"></a>


## Matplotlib: Biblioteca Estándar de Visualización en Python<a id="10"></a>

La biblioteca de visualización principal que se va a estudiar en este curso/capítulo es [Matplotlib](http://matplotlib.org/).  Como dice en su sitio web:

> **Matplotlib** is a comprehensive library for creating static, animated, and interactive visualizations in Python. **Matplotlib** makes easy things easy and hard things possible.

Si el objetivo que se persigue es crear visualizaciones impactantes con *Python*, **Matplotlib** es una herramienta esencial que se debe tener a disposición.


### Matplotlib.Pyplot

Uno de los aspectos centrales de **Matplotlib** es `matplotlib.pyplot`. Recordar que esta es una colección de comandos con funciones de estilos que hacen que **Matplotlib** trabaje como **MATLAB**. Cada función de `pyplot` realiza algunos cambios a una figura: crear una figura, crear una área de gráficos en una figura, trazar algunas líneas en un gráfico de áreas, complementar un gráfico con etiquetas, entre otros. En este laboratorio, se trabajará con la capa de secuencias de comandos para aprender a como generar diagramas de líneas. En los siguientes laboratorios, se trabajará con la capa Artística, como también, experimentar cómo esta capa difiere del nivel de secuencia de comandos.


Lo primero que hay que hacer es importa `matplotlib` y `matplotlib.pyplot` como se muestra a continuación:


In [None]:
# se hará uso del despliegue de figuras en línea o dentro de Jupyter Notebook
%matplotlib inline 

import matplotlib as mpl
import matplotlib.pyplot as plt

*opcional: verifica si **Matplotlib** está cargado.


In [None]:
print('Versión de Matplotlib: ', mpl.__version__)

*opcional: aplicar un estilo a **Matplotlib**.


In [None]:
print(plt.style.available)
mpl.style.use(['ggplot']) # opcional: para un estilo como ggplot

### Graficar en *pandas*

Afortunadamente, **pandas** tiene una implementación incorporada de **Matplotlib** que puede ser usado. Graficar en *pandas* es un tan simple como agregar el método `.plot()` a una **serie** o un **dataframe**.

Documentación:

*   [Graficar con Series](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.Series.plot.html)<br>
*   [Graficar con Dataframes](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.plot.html)


# Gráficos de Línea <a id="12"></a>


**¿Qué es un gráfico de líneas y por qué utilizarlo?**

Un gráfico de líneas es un tipo de gráficos el cual despliega la información como una serie de puntos de datos 'marcas' conectados por un segmento de línea recta. Este es un tipo de gráfico básico comúnmente usado en muchos campos o disciplinas.
Se puede usar un gráfico de líneas cuando se dispone de un conjunto de datos continuo. Estos gráficos son más adecuados para visualizaciones de datos basadas en tendencias durante un período de tiempo.


**Veamos un caso de estudio:**

En 2010, Haití sufrió una catástrofe debido a un terremoto de magnitud 7.0. El movimiento telúrico causó una devastación y pérdida de vidas generalizada. Alrededor de 3 millones de personas fueron afectadas por este desastre natural. Como parte del esfuerzo humanitario de Canadá, el gobierno de Canadá intensificó sus esfuerzos para aceptar refugiados de Haití. Rápidamente se puede visualizar este esfuerzo usando un gráfico de líneas:

**Pregunta:** Trazar un gráfico de líneas de la inmigración desde Haití usando `df.plot()`.


Primero, hay que extraer la serie de datos relacionada con Haití.


In [None]:
haiti = df_can.loc['Haiti', years] # utilizar variable years con nombres de columnas en el rango 1980 - 2013
haiti.head()

A continuación, se trazará un gráfico de líneas agregando el método `.plot()` al dataframe `haiti`.


In [None]:
haiti.plot()

*pandas* automáticamente completa el **eje x** con el valor índice de los años, y el **eje y** con los valores de población de las columnas. Se podría dar el caso que los años no fuesen desplegados porque ellos son del tipo cadena de caracteres o *string*. Por lo tanto, se recomienda cambiar el tipo del valor índice de los años a entero o *integer* para su trazado.

También, se etiquetarán los ejes x e y usando `plt.title()`, `plt.ylabel()`, y `plt.xlabel()` como se muestra a continuación:


In [None]:
haiti.index = haiti.index.map(int) # cambia el valor índice de Haiti al tipo entero para su trazado
haiti.plot(kind='line')

plt.title('Inmigración desde Haití')
plt.ylabel('Numbero de inmigrantes')
plt.xlabel('Años')

plt.show() # este comando se necesita para mostrar los cambios realizados  en la figura

En este gráfico se puede apreciar claramente como el número de inmigrantes desde Haití a Canadá se disparó a partir del 2010 impulsado por su esfuerzo en aceptar refugiados desde Haití. Se puede enfatizar este salto en el gráfico usando el método `plt.text()`.


In [None]:
haiti.plot(kind='line')

plt.title('Inmigración desde Haití')
plt.ylabel('Numbero de inmigrantes')
plt.xlabel('Años')

# anotar el terremoto del 2010. 
# sintaxis: plt.text(x, y, label)
plt.text(2000, 6000, 'Terremoto 2010') # ver nota abajo

plt.show() 

Con pocas líneas de código es posible, rápidamente, identificar y visualizar el aumento en la inmigración.

Una nota rápida en la posición **x** e **y** con `plt.text(x, y, label)`:

```
 Como el eje x (años) son del tipo entero, se puede especificar x como un año. El eje y (número de inmigrantes) es del tipo entero, así se puede especificar el valor de y = 6000.
```

```python
    plt.text(2000, 6000, 'Terremoto 2010') # años almacenados como del tipo entero
```

```
Si los años estuvieran almacenados como cadena de caracteres, Se debe especificar x como la posición índice de los años. Por ejemplo, el índice 20 corresponde al año 2000 dado que es el vigésimo año a partir del año de 1980.
```

```python
    plt.text(20, 6000, 'Terremoto 2010') # años almacenados como del tipo cadena de caracteres
```

```
Se abarcarán más métodos de anotación avanzados en módulos posteriores.
```


Ahora, se podría, fácilmente, agregar más paises al gráfico de líneas para para hacer comparaciones significativas de la inmigración de diferentes países.

**Pregunta:** Compare el número de inmigrantes desde India y China desde 1980 al 2013.


Paso 1: Obtener los datos del conjunto de datos para China e India, y desplegar el dataframe generado.


In [None]:
### Escriba su código a continuación y presione Shift+Enter para ejecutarlo



Doble click **aquí** para ver la solución

<!--

    #La respuesta correcta es:
    df_CI = df_can.loc[['India', 'China'], years]
    df_CI

-->

paso 2: Trace el gráfico. Se debe explicitar espécificamente el estilo de gráfico de líneas en el parámetro `kind` del método `plot()`.


In [None]:
### Escriba su código a continuación y presione Shift+Enter para ejecutarlo



Doble click **aquí** para ver la solución

<!--

    #La respuesta correcta es:
    df_CI.plot(kind='line')

-->

Esto al parecer no se ve muy bien ...

Recordar que *pandas* traza los índices en el eje x y las columnas como líneas individuales en el eje y. Dado que `df_CI` es un dataframe con el `country` como índice y `years` como columnas, primero debemos transponer el dataframe usando el método `transpose()` para intercambiar la fila y las columnas.

In [None]:
df_CI = df_CI.transpose()
df_CI.head()

*pandas* graficará automáticamente los dos países en el mismo gráfico. Continúe y trace el nuevo marco de datos transpuesto. Asegúrese de agregar un título a la gráfica y etiquetar los ejes.

In [None]:
### Escriba su código a continuación y presione Shift+Enter para ejecutarlo



Doble click **aquí** para ver la solución

<!--

#La respuesta correcta es:
df_CI.index = df_CI.index.map(int) # cambia el valor del índice de df_CI al tipo entero para graficarlo
df_CI.plot(kind='line')

plt.title('Inmigrantes desde China e India')
plt.ylabel('Número de Inmigrantes')
plt.xlabel('Años')

plt.show()

-->

Del gráfico anterior, podemos observar que China e India tienen tendencias de inmigración muy similares a lo largo de los años.

*Nota*: ¿Cómo es que no necesitábamos transponer el marco de datos de Haití antes de trazar (como hicimos para df_CI)?

Esto se debe a que `haiti` es una serie en lugar de un marco de datos, y tiene los años como índices, como se muestra a continuación.

In [None]:
print(type(haiti))
print(haiti.head(5))

El gráfico de líneas es una herramienta útil para mostrar varias variables dependientes contra una variable independiente. Sin embargo, se recomienda no más de 5 a 10 líneas en un solo gráfico; más que eso y se vuelve difícil de interpretar.

**Pregunta:** Compare la tendencia de los 5 principales países que más contribuyeron a la inmigración a Canadá.


In [None]:
### Escriba su código a continuación y presione Shift+Enter para ejecutarlo



Doble click **aquí** para ver la solución

<!--

#La respuesta correcta es:    
#Paso 1: Obtenga el conjunto de datos. Recuerde que creamos una columna Total que calcula la inmigración acumulada por país.
#Ordenaremos en esta columna Total para obtener nuestros 5 países principales usando el método pandas sort_values().
    
inplace = True # este parámetro guarda los cambios en el dataframe df_can original
df_can.sort_values(by='Total', ascending=False, axis=0, inplace=True)

# obtener las 5 mejores entradas
df_top5 = df_can.head(5)

# transponer el marco de datos
df_top5 = df_top5[years].transpose() 

print(df_top5)


#Paso 2: Graficar el dataframe. Para que la gráfico sea más legible, se cambia el tamaño usando el parámetro `figsize`.
df_top5.index = df_top5.index.map(int) # se cambia los valores de índice de df_top5 para escribir un número entero para graficar
df_top5.plot(kind='line', figsize=(14, 8)) # pasar un tamaño en la tupla (x, y)

plt.title('Tendencia de inmigración de los países Top 5')
plt.ylabel('Número of Inmigrantes')
plt.xlabel('Años')

plt.show()

-->

### Otros Gráficos

Felicitaciones!, ya se ha aprendido como preparar datos con *python* y crear un gráfico de líneas con **Matplotlib**. Existen muchos otros estilos de gráficos que están disponibles aparte de los gráficos de líneas, Estos pueden ser utilizados pasando la palabra clave del tipo de gráfico al parámetro `kind` del método `plot()`. La lista completa de gráficos disponibles se muestra a continuación:

*   `bar` para gráficos de barras verticales
*   `barh` para gráficos de barras horizontales
*   `hist` para gráficos de histográmas
*   `box` para gráficos de caja y bigote
*   `kde` o `density` para gráficos de densidad
*   `area` for area plots
*   `pie` para gráficos de torta
*   `scatter` para gráficos de puntos
*   `hexbin` para gráficos de contenedor hexagonal
