# Obtención, análisis y visualización de datos

**Módulo 14: Storytelling en ciencia de datos**

**Diplomado en Ciencia de Datos**

**DGTIC, Universidad Nacional Autónoma de México**

This tutorial by Luis M. de la Cruz Salas is licensed under <a href="https://creativecommons.org/licenses/by-nc-nd/4.0?ref=chooser-v1">Attribution-NonCommercial-NoDerivatives 4.0 International</a>

## Objetivo
Obtener un conjunto de datos de UNdata y realizar una práctica de visualización usando las bibliotecas de `maplotlib` y `pandas`.

## Obtención de un conjunto de datos.

[UNdata](http://data.un.org) es un servicio de datos basado en web para la comunidad global de usuarios. Pone las bases de datos estadísticas internacionales al alcance de los usuarios a través de un único punto de entrada. Los usuarios pueden buscar y descargar una variedad de recursos estadísticos compilados por el sistema estadístico de las Naciones Unidas (ONU) y otras agencias internacionales. Las numerosas bases de datos o tablas conocidas colectivamente como *datamarts* contienen más de 60 millones de puntos de datos y cubren una amplia gama de temas estadísticos, incluidos:
<font color="LimeGreen">agricultura</font>, <font color="Crimson">delincuencia</font>, <font color="DeepPink">comunicación</font>, <font color="BlueViolet">asistencia para el desarrollo</font>, <font color="Blue">educación</font>, <font color="Brown">energía</font>, <font color="DarkSlateGray">medio ambiente</font>, <font color="OrangeRed">finanzas</font>, <font color="Fuchsia">género</font>, <font color="DarkOrange">salud</font>, <font color="YellowGreen">mercado laboral</font>, <font color="Black">manufactura</font>, <font color="DarkRed">cuentas nacionales</font>, <font color="RebeccaPurple">población y migración</font>, <font color="Indigo">ciencia y tecnología</font>, <font color="Green">turismo</font>, <font color="OrangeRed">transporte y comercio.</font>


Al entrar al sitio de [UNdata](http://data.un.org) veremos lo siguiente:

<img src="../Figuras/undata01.png" width="500">

En el espacio de texto vamos a teclear 'measles' y luego el botón de *search* para hacer una búsqueda de conjuntos de datos que tienen que ver con sarampión. Obtendremos algo similar a lo siguiente:

<img src="../Figuras/undata02.png" width="500">

Vamos a elegir el primer resultado (Measles - number of reported cases). Obtendremos lo siguiente:

<img src="../Figuras/undata03.png" width="500">

Seleccionamos todos los años (2012, 2011, 2010 y 2009). Posteriomente, hacemos clic en *Download* para bajar los datos como se muestra en la siguiente figura:

<img src="../Figuras/undata04.png" width="500">

Elegimos el formato CSV. El archivo descargado tendrá un nombre similar a `UNdata_Export_20211228_203459765.zip`

## Lectura del conjunto de datos

Lo primero es importar Pandas y Matplotlib:

In [None]:
#import numpy as np
import matplotlib.pyplot as plt
import pandas as pd

Usaremos la biblioteca Pandas para leer el archivo CSV (comprimido) como sigue:

In [None]:
# Lectura del archivo
measles = pd.read_csv('../Datos/UNdata_Export_20211228_203459765.zip')

**Observación**: Usted debe verificar el nombre del archivo que descargó de UNdata y modificar la cadena del nombre en la celda de código anterior.

## Análisis exploratorio del conjunto de datos

### Despliegue del DataFrame

La etiqueta `measles` hace referencia a un objeto de tipo *DataFrame*. El contenido de este objeto se puede analizar fácilmente como sigue: 

In [None]:
# Imprime información del DataFrame: renglón inicial y final
measles.index

In [None]:
# Imprime el principio y final del DataFrame
measles 

In [None]:
# Imprime los primeros renglones del DataFrame
measles.head()

In [None]:
# Imprime los últimos renglones del DataFrame
measles.tail()

In [None]:
# Imprime los identificadores de cada columna del DataFrame
measles.columns

### Acceso a renglones con la función `iloc`

In [None]:
# Imprime información del renglón 45
measles.iloc[45]

La función iloc permite hacer operaciones de *slicing* sobre el DataFrame. Por ejemplo:

In [None]:
measles.iloc[0,0] # Primer elemento del primer renglón

In [None]:
measles.iloc[:,0] # Todos los elementos de la primera columna

In [None]:
measles.iloc[:,0:3] # Acceso a las columnas 0, 1 y 2

In [None]:
measles.iloc[[0,23,146]] # Los renglones 0, 23 y 146

In [None]:
measles.iloc[:,[0,2]] # Las columnas 0 y 2

### Acceso a renglones con la función `loc`

In [None]:
measles.loc[:,'Country or Area'] # Se puede usar el identificador de la columna

In [None]:
measles.loc[:,['Country or Area', 'Value']] # Varias columnas

In [None]:
es_mexico = measles.loc[:,'Country or Area'] == 'Mexico' # Operaciones lógica
es_mexico                                                # regresa una serie booleana

In [None]:
mexico = measles.loc[es_mexico] # Podemos usar la serie boolena para construir un DataFrame
type(mexico)

In [None]:
mexico # Contenido del nuevo DataFrame

#### <font color="red"> <strong>Ejercicio 1.</strong></font>
Usando la función `loc` realice lo siguiente:
1. Construya la serie booleana `es_2012` que filtre solo información para el año 2012.
2. Usando la serie `es_2012` construya el DataFrame `solo_2012` con la información de 2012.
3. Usando el DataFrame `solo_2012` construya la seria boolena `es_no_cero` para 'Value' > 0.
4. Usando la serie `es_no_cero` construya el DataFrame `solo_2012_no_cero` que contenga información de 2012 con 'Value' > 0.

El contenido del DataFrame `solo_2012_no_cero` debe ser como el que se muestra en la siguiente figura:

<img src="../Figuras/solo_2012_no_cero.png" width="500">

### Agrupaciones usando `groupby`

Dado que en este conjunto de datos se tiene información por país y por año, es conveniente realizar agrupaciones para un mejor manejo de los datos. Para ello hacemos lo siguiente:

In [None]:
# Creamos la agrupación 'measles_paises' usando la columna que determina la región geográfica
measles_paises = measles.groupby('Country or Area') 
type(measles_paises)

Como se puede observar, `measles_paises` no es un DataFrame, de tal manera que no es posible usar las funciones de exploración antes revisadas sobre ella. Una manera de explorar la información es convetir la agrupación en un DataFrame mediante un *casting* simple, veamos:

In [None]:
# Conversión de la agrupación a un DataFrame
measles_paises_df = pd.DataFrame(measles_paises)

Ahora es posible revisar la información sobre el DataFrame `measles_paises_df` recién creado usando lo que ya conocemos: 

In [None]:
measles_paises_df.index

In [None]:
measles_paises_df.columns

In [None]:
measles_paises_df

In [None]:
measles_paises_df[0]

In [None]:
measles_paises_df[measles_paises_df[0] == 'Mexico']

In [None]:
measles_paises_df.iloc[109][1]

#### La función `describe`

También es posible usar la función `describe` sobre la agrupación `measles_paises` para obtener información estadística:

In [None]:
measles_paises.describe()

#### La función `get_group`

La ventaja de tener una agrupación por país es que es fácil obtener información de cada subgrupo, es decir, de cada país:

In [None]:
afg = measles_paises.get_group('Afghanistan') # Obtenemos la información de Afganistán.
afg                                           # El resultado es un DataFrame con la información deseada

In [None]:
afg.columns

#### Graficación con la función `plot`

Ya que tenemos la información de un país en un DataFrame, podemos usar la función `plot` para hacer unos primero gráficos:

In [None]:
afg.plot()

Muchos de los tipos de datos que ofrecen bibliotecas con Pandas, Xarray y otras, contienen una función `plot` que realiza gráficas de manera automática. Casi todas están basadas en Matplotlib. Cada una de esas herramientas tiene sus propias funcionalidades y parámentros que pueden modificarse para mejorar las gráficas resultantes. Por ejemplo:

In [None]:
afg.plot(x='Year(s)', y='Value')

Es posible combinar esta función con las herramientas de Matplotlib, por ejemplo:

In [None]:
afg.plot(x='Year(s)', y='Value', marker='o')

xticks = [2009, 2010, 2011, 2012]
plt.xticks(ticks=xticks)
plt.xlabel('Años')
plt.ylabel('Número de casos')
plt.suptitle('Número de casos con sarampión', y=1.0)
plt.title('2009-2012')

In [None]:
# Existen muchos tipos de gráficas:
afg.plot.area(stacked=True, colormap='winter')

## Visualización con `matplotlib`

Para tener un mayor control, usaremos ahora Matplotlib para visualizar los datos de la agrupación `measles_paises`. La documentación más reciente de Matplotlib la puede encontrar [aquí](https://matplotlib.org/). Se recomienda revisar los [ejemplos](https://matplotlib.org/stable/plot_types/index.html) y las [cheatsheats](https://matplotlib.org/cheatsheets/). 

Primero vamos a obtener la información de otro país, en este caso de Yemen:

In [None]:
yem = measles_paises.get_group('Yemen')
yem

En la siguiente celda hacemos uso de Matplotlib para construir una gráfica de los dos países (analice con detalle los argumentos que se usan en cada función):

In [None]:
# Definición de la figura (el canvas donde se hará todo el gráfico)
fig = plt.figure(figsize=(10,5)) 

# Definimos colores para las curvas de cada país
afg_color = 'blue'   
yem_color = 'orange'

# Graficamos dos curvas, una para cada país
plt.plot(afg['Year(s)'], afg['Value'], lw=1.0, color=afg_color, marker='o')
plt.plot(yem['Year(s)'], yem['Value'], lw=1.0, color=yem_color, marker='o') 

# Definimos los 'ticks' del eje horizontal (x)
plt.xticks(ticks=xticks)

# Definimos una rejilla para visualizar mejor los datos
plt.grid(ls='--', lw=0.5) 

# Información adicional y títulos
plt.title('Años: 2009-2012', loc='left', fontsize=10)
plt.title('fuente: http://data.un.org', loc='right', fontstyle='italic', fontsize=10)
plt.suptitle('Casos reportados de sarampión',y = 1.0, fontsize=14)

# Muestra la gráfica (opcional en Jupyter Notebook)
plt.show()

Dado que ahora tenemos dos gráficas, sería conveniente identificar a qué país pertenece cada una. Esto se logra usando la función `legend`: 

In [None]:
fig = plt.figure(figsize=(10,5)) 

afg_color = 'blue'   
yem_color = 'orange'

# Observe que se agrega el argumento 'label' para cada gráfica
plt.plot(afg['Year(s)'], afg['Value'], lw=1.0, color=afg_color, marker='o', label='Afganistan')
plt.plot(yem['Year(s)'], yem['Value'], lw=1.0, color=yem_color, marker='o', label='Yemen')

plt.xticks(ticks=xticks)
plt.grid(ls='--', lw=0.5) 
plt.title('Años: 2009-2012', loc='left', fontsize=10)
plt.title('fuente: http://data.un.org', loc='right', fontstyle='italic', fontsize=10)
plt.suptitle('Casos reportados de sarampión',y = 1.0, fontsize=14)

# Agregamos las leyendas para identificar las curvas
plt.legend()

plt.show()

Un problema con este tipo de leyendas es que primero vemos los gráficos, identificamos los colores y las marcas; después buscamos la leyenda y relacionamos los colores y las marcas con los de las líneas para discernir con claridad la información. Esto implica mover la vista varias veces entre las líneas y la leyenda lo cual puede dificultar entender la información que se presenta y en ocasiones cansado cuando son muchas líneas. 

Una estrategia que es útil en algunos casos es poner etiquetas directamente sobre las líneas, eso evitará el movimiento de la vista entre leyanda y gráficos. Esto se puede hacer como sigue:

In [None]:
fig = plt.figure(figsize=(10,5)) 

afg_color = 'blue'   
yem_color = 'orange'
plt.plot(afg['Year(s)'], afg['Value'], lw=1.0, color=afg_color, marker='o')
plt.plot(yem['Year(s)'], yem['Value'], lw=1.0, color=yem_color, marker='o') 
plt.xticks(ticks=xticks)
plt.grid(ls='--', lw=0.5) 
plt.title('Años: 2009-2012', loc='left', fontsize=10)
plt.title('fuente: http://data.un.org', loc='right', fontstyle='italic', fontsize=10)
plt.suptitle('Casos reportados de sarampión',y = 1.0, fontsize=14)

# Obtenemos el valor de los casos de cada país para el año 2012
afg_val = afg['Value'].iloc[0] 
yem_val = yem['Value'].iloc[0]

# Agregamos un texto al final de cada curva con la información necesaria para identificar a cada país.
plt.text(x = 2012, y = afg_val, s = ' Afg {:5.0f}'.format(afg_val), color = afg_color, weight = 'bold')
plt.text(x = 2012, y = yem_val, s = ' Yem {:5.0f}'.format(yem_val), color = yem_color, weight = 'bold')

plt.show()

Cuando se observa esta última gráfica inmediatamente sabemos a que país corresponde cada línea y no se necesario hacer una búsqueda adicional en una leyenda. 

Finalmente, observamos que los textos se salen del recuadro de la gráfica. Observe también que las líneas de recuadro tienen mucho protagonismo y en realidad no aportan mucha información. Por esta razón es conveniente eliminarlas; esto se hace como sigue:

In [None]:
fig = plt.figure(figsize=(10,5)) 

afg_color = 'blue'   
yem_color = 'orange'
plt.plot(afg['Year(s)'], afg['Value'], lw=1.0, color=afg_color, marker='o')
plt.plot(yem['Year(s)'], yem['Value'], lw=1.0, color=yem_color, marker='o')

# Ajustamos los límites del eje horizontal
plt.xlim(2008.5,2012.5)     

plt.xticks(ticks=xticks)
plt.grid(ls='--', lw=0.5) 
plt.title('Años: 2009-2012', loc='left', fontsize=10)
plt.title('fuente: http://data.un.org', loc='right', fontstyle='italic', fontsize=10)
plt.suptitle('Casos reportados de sarampión',y = 1.0, fontsize=14)

# Textos para las curvas
afg_val = afg['Value'].iloc[0] 
yem_val = yem['Value'].iloc[0]
plt.text(x = 2012, y = afg_val, s = ' Afg {:5.0f}'.format(afg_val), color = afg_color, weight = 'bold')
plt.text(x = 2012, y = yem_val, s = ' Yem {:5.0f}'.format(yem_val), color = yem_color, weight = 'bold')

# Ajuste de las líneas del recuadro de la gráfica (spines)
ejes = plt.gca()
ejes.spines['right'].set_visible(False)
ejes.spines['top'].set_visible(False)
ejes.spines['left'].set_visible(False)
ejes.spines['bottom'].set_visible(False)

# Se puede guardar la gráfica en PDF (por ejemplo)
plt.savefig('dospaises.pdf')

plt.show()

Esta gráfica es mucho más limpia, se entiende mejor y está lista para contar la historia de los casos reportados de sarampión en Afganistán y en Yemen. 

Observe que hemos agregado la función `savefig` que permite guardar la imagen en algún formato estándar, en este caso en PDF. Se pude usar .png, .jpg. .svg, .ps, aunque eso depende del *backend* que esté usando Matplotlib, véase [what is a backend?](https://matplotlib.org/2.0.2/faq/usage_faq.html#what-is-a-backend)

#### <font color="red"> <strong>Ejercicio 2.</strong></font>
Agregue a la gráfica anterior los siguientes casos:
1. México, 
2. Estados Unidos
3. China. 

Observe como se mueven las escalas cuando se agrega cada uno de estos tres países y en algunos casos no se alcanza a distinguir toda la información presentada.

Debería obtener gráficos como los siguientes:

 <table>
  <tr>
    <td><img src="../Figuras/afg_yem_mex.png"></td>
    <td><img src="../Figuras/afg_yem_mex_usa.png"></td>
    <td><img src="../Figuras/afg_yem_mex_usa_chn.png"></td>
  </tr>
</table> 

**hint**: Primero obtenga la información de los países requeridos. Posteriormente copie el código de la celda que hace la gráfica de Afganistán y Yemen, y agregue lo necesario para dibujar cada país (la línea y el texto).

#### <font color="red"> <strong>Ejercicio 3.</strong></font>

Obtenga un conjunto de datos de [UNdata](http://data.un.org)  para alguno de los siguientes temas: <font color="LimeGreen">agricultura</font>, <font color="Crimson">delincuencia</font>, <font color="DeepPink">comunicación</font>, <font color="BlueViolet">asistencia para el desarrollo</font>, <font color="Blue">educación</font>, <font color="Brown">energía</font>, <font color="DarkSlateGray">medio ambiente</font>, <font color="OrangeRed">finanzas</font>, <font color="Fuchsia">género</font>, <font color="DarkOrange">salud</font>, <font color="YellowGreen">mercado laboral</font>, <font color="Black">manufactura</font>, <font color="DarkRed">cuentas nacionales</font>, <font color="RebeccaPurple">población y migración</font>, <font color="Indigo">ciencia y tecnología</font>, <font color="Green">turismo</font>, <font color="OrangeRed">transporte y comercio.</font>. 

Realice un primer análisis exploratorio de los datos obtenidos y unos primeros gráficos como los realizados en esta práctica. Durante la clase sincrónica del 8 de Enero de 2022, en equipo decidirán cuál conjunto de datos son los que usarán para contar una historia; este será el proyecto del Módulo 14. Por lo anterior, es importante que tenga claro a qué se refieren los datos que obtuvo y la mejor forma de visualizarlos.