# Práctica 1: Análisis de la población mundial

**Módulo 14: Storytelling en ciencia de datos**

**Diplomado en Ciencia de Datos**

**DGTIC, Universidad Nacional Autónoma de México**

This tutorial by Luis M. de la Cruz Salas is licensed under <a href="https://creativecommons.org/licenses/by-nc-nd/4.0?ref=chooser-v1">Attribution-NonCommercial-NoDerivatives 4.0 International</a>

## Introducción

Para lograr una excelente visualización de datos se debe tener: **mucha curiosidad** e interés en **muchos temas variados** que pueden parecer poco relacionados entre ellos: matemáticas, demografía, epidemiología, economía, deportes, ventas por internet, historia, psicología y muchos etcéteras.

Durante el proceso de esta visualización la vida tenderá a convertirse en un **caos intelectual**, pero **sistemático y emocionante**.

La **visualización de datos** es muy importante, pues es posible que sea **lo único que vean tus interlocutores**: cliente, colega, jefe, tutor, jurado, lectores de un periódico, público en una conferencia, ... y probablemente a ellos no les interese mucho los datos numéricos o los algoritmos usados en su análisis.

El público a quien deseas transmitir tus hallazgos olvidarán muy pronto los numéros; <font color="Blue">pero si introduces tus hallazgos mediante un relato que cuente la historia de los datos, es posible que ellos se lleven un buen sabor de boca y recuerden la información recibida por mucho más tiempo e incluso tomen acciones.</font>

---
### El apocalipsis demográfico.

<center>
<img src="../Figuras/tfr06.png" width="500">
</center>

- Algunas historias apocalípticas cuentan que el incremento en el nacimiento de seres humanos en diferentes regiones del mundo, <font color="DeepPink"> sobre todo en aquellas con poco desarrollo económico</font>, hará que en las próximas dos décadas tengamos que convivir con 9 mil millones de personas  en nuestro planeta.

- También dicen que esa es la razón de que la tierra tenga que soportar hoy en día 7.8 mil millones de personas. Vea por ejemplo: <a href="https://www.worldometers.info/es/poblacion-mundial/">población mundial actual</a>.

- ¡¿El crecimiento seguirá de manera exponencial?!

---
### Tasas de fertilidad y reemplazo

- La <font color="DeepPink">tasa de fertilidad</font> (TFR: *The total fertility rate*) es una variable demográfica que muestra el número promedio de hijos que nacerían por mujer si todas las mujeres vivieran hasta el final de sus años fértiles y dieran a luz de acuerdo con la tasa de fecundidad promedio para cada edad. Véase [Total Fertility Rate](https://en.wikipedia.org/wiki/Total_fertility_rate).

- La <font color="DeepPink">fecundidad de reemplazo</font> (NR: *Net replacement rate*) se refiere a la fecundidad mínima necesaria para que una población cerrada se mantenga indefinidamente en el tiempo sin disminuir su volumen, suele tener un valor de 2.1 hijos por mujer como promedio. Véase [Sub-replacement fertility](https://en.wikipedia.org/wiki/Sub-replacement_fertility)
    - Si este número es mucho menor que 2.1, entonces la población se reduce con el tiempo. 
    - Pero si es mucho mayor que 2.1, se tendrá a mucha gente joven, lo cual podría causar problemas, como violencia y crimen. 

---
- En el libro *The rational optimist: How prosperity evolves* de Math Ridley (2010), se dice:
    - "En promedio, la fertilidad en los países ricos es baja, pero en años anteriores ha tenido un incremento. En países pobres se muestra un decrecimiento en la fertilidad. Estas dos tendencias complementarias indican que la **razón de fertilidad se va a estabilizar en 2.1 en pocas décadas**, de tal manera que la población **no pasará de 9 mil millones**." (soportado con datos de la UN y The world bank)
    
<center>
<table>
  <tr>
    <td><img src="../Figuras/tfr07.png" width="500"></td>
  </tr>    
  <tr>
    <td>Gráfica del libro de *The rational optimist: How prosperity evolves*, Math Ridley (2010)</td>
  </tr>
</table> 
</center>



---
##  Objetivo
- Extraer información importante de un conjunto de datos y resaltarla mediante algunas técnicas de visualización.

- Construir una visualización que permita comparar el cambio en el Total Fertility Rate (TFR) en función del tiempo.

- Con esta visualización tratar de responder las siguientes preguntas:
    1. ¿Los países ricos están recuperando su TFR?
    2. ¿Cómo es el FR en países con un bajo PIB per cápita?
    3. ¿Países en desarrollo como China y Brasil están estabilizando sus poblaciones?
    4. ¿Cómo ha sido la evolución de la población en México con respecto de otros países? 
    
    <br>
- Usar Pandas y Matplotlib.

## Importar las bibliotecas
Incluir las bibliotecas necesarias para la lectura de datos y para la visualización.

In [None]:
import matplotlib.pyplot as plt
import pandas as pd

## Descarga de los datos

<table>
  <tr>
    <td>1. Obtener la información de <a href="http://data.un.org/">UNdata</a> con la búsqueda 'fertility rate' </td>
    <td> </td>
    <td>2. Seleccionar la opción 'Total fertility rate (live births per woman)':</td>
  </tr>    
  <tr>
    <td><img src="../Figuras/tfr01.png" width="500"></td>
    <td> $\longrightarrow $ </td>
    <td><img src="../Figuras/tfr02.png" width="500"></td>
  </tr>
</table> 

<table>
  <tr>
    <td>3. Seleccionar los rangos de años desde 1950-1955 hasta 2015-2020 </td>
    <td> </td>
    <td>4. Hacer clic en 'Apply Filters' para obtener lo siguiente</td>
  </tr>    
  <tr>
    <td><img src="../Figuras/tfr03.png" width="500"></td>
    <td> $\longrightarrow $ </td>
    <td><img src="../Figuras/tfr04.png" width="500"></td>
  </tr>
</table> 



<table>
  <tr>
    <td>5. Finalmente descargar el archivo en formato CSV (comprimido)</td>
  </tr>    
  <tr>
    <td><img src="../Figuras/tfr05.png" width="500"></td>
  </tr>
</table> 

## Lectura del archivo.

In [None]:
# Lectura del archivo
TFR = pd.read_csv('../Datos/UNdata_Export_20211229_175420412.zip')

Observe que se puede leer directamente el archivo comprimido. Si descomprime el archivo ZIP obtendrá el archivo en formato CSV el cual también puede leerse como arriba solo cambiando la extensión (`TFR = pd.read_csv('../Datos/UNdata_Export_20211229_175420412.csv')`).

Veamos que contiene el DataFrame:

In [None]:
TFR # Despliega la parte inicial y final el DataFrame. 

Observe que el número total de renglones es de **4046** y se tienen **4** columnas de datos. 

Podemos desplegar solamente el principio o solamente el final:

In [None]:
TFR.head() # Despliega los primeros renglones del DataFrame

In [None]:
TFR.tail() # Despliega los últimos renglones del DataFrame

## Agrupar por países
Vamos a organizar el DataFrame por países para que su análisis sea más sencillo.

In [None]:
# Primero se agrupa por país 
paises = TFR.groupby('Country or Area')

In [None]:
print(type(paises)) # paises es un objeto de tipo DataFrameGroupBy

### Exploración de la agrupación por países

Vamos a ver que tiene el grupo `países` transformándolo a un DataFrame:

In [None]:
dummy = pd.DataFrame(paises) # Casting
dummy.index

Obsérvese que la agrupación `dummy` solo contiene 286 renglones, lo que indica que tenemos 286 regiones ('Country or Area')

In [None]:
dummy

El DataFrame `dummy` contiene dos columnas: la 0 y la 1. La 0 nos da el nombre del país o región geográfica y la 1 la información del país. 

Vamos a explorar este DataFrame:

In [None]:
dummy[0] # Imprime la columa correspondiente. Cambie el 0 por 1 y vea lo que sucede

In [None]:
print(type(dummy[0]), type(dummy[1])) # Veamos el tipo de las columas

In [None]:
dummy.iloc[0] # Con la función iloc accedemos a un renglón particular usando un entero

In [None]:
dummy.iloc[0][0] # Columna correspondiente del renglón, cambie el segundo 0 por 1 y vea el resultado

In [None]:
print(type(dummy.iloc[0][0]), type(dummy.iloc[0][1])) # tipos de las columnas

¿Cómo podemos acceder a la información de un país?

### <font color="DeepPink">Ejercicio 0.</font>

A continuación el instructor usará España y Suecia como países de trabajo en esta práctica. Usted deberá elegir otros dos países diferentes. **NOTA**: No elija España, Suecia, Yemen ni China.

Para listar los países disponibles haga lo siguiente: 

In [None]:
paises.groups.keys()

### Usando `get_group()`

Otra manera de extraer los datos de cada país es usando la función `get_group()`.

Por ejemplo, vamos a obtener la información de dos países con un *PIB per cápita* por arriba de México, por ejemplo España y Suecia. Veáse [Países por PIB (nominal) per cápita](https://es.wikipedia.org/wiki/Anexo:Pa%C3%ADses_por_PIB_(nominal)_per_c%C3%A1pita)

In [None]:
# Se obtienen los datos de España y Suecia
spa = paises.get_group('Spain')
swe = paises.get_group('Sweden')

In [None]:
print(type(spa), type(swe))

In [None]:
spa

In [None]:
swe

## Graficación usando .plot de DataFrame

Pandas provee de la función plot para hacer un gráfico rápido del DataFrame. Veamos como funciona:

In [None]:
spa.plot()
swe.plot()

Muchos de los tipos de datos que ofrecen bibliotecas con Pandas, Xarray y otras contienen una función plot que realiza gráficas de manera automática. Casi todas están basadas en Matplotlib. Cada una de esas funciones tiene sus propias funcionalidades y parámentros que pueden modificarse para mejorar las gráficas resultantes.

¿Podría agregar más información a la gráfica anterior?

## Visualización con Matplotlib.

Usando Matplotlib podemos realizar las gráficas España y Suecia como sigue:

In [None]:
# Se usa la función plot() de Matplotlib
plt.plot(spa['Year(s)'], spa['Value'])
plt.plot(swe['Year(s)'], swe['Value'])

plt.show()

Como se puede observar ambas gráficas aparecen en una sola figura. Pero tenemos muchos problemas para entenderla, empezando con las etiquetas en el eje $x$ (`xtics` y `xlabels`) que aparecen amontonadas.

### Rotación de las etiquetas en el eje $x$.

Rotar los `xtics` para apreciarlos mejor.

In [None]:
plt.plot(spa['Year(s)'], spa['Value'])
plt.plot(swe['Year(s)'], swe['Value'])
plt.xticks(rotation=70) # Rotación de 70 grados con respecto al eje x, en sentido horario.

plt.show()

Se observa en el eje $x$ la información de mayor (2015-2020) a menor (1950-1955).

### Invertir los datos del eje $x$


In [None]:
plt.plot(spa['Year(s)'], spa['Value'])
plt.plot(swe['Year(s)'], swe['Value'])
plt.xticks(rotation=70)
plt.gca().invert_xaxis() # La función gca() obtiene el objeto que controla los 
                         # ejes. Una vez teniendo el objeto de los ejes es 
                         # posible usar la función invert_xaxis().
plt.show()

Ahora la información es un poco más clara y observamos que el comportamiento del TFR desde los años 50's hasta nuestra epoca.

### <font color="DeepPink">Ejercicio 1.</font>
Describa lo que ve en la gráfica que acaba de obtener.

### Resaltar el valor de reemplazo.

Graficamos una línea recta en el valor 2.1, que es considerado el valor de reemplazo (NR).

In [None]:
plt.plot(spa['Year(s)'], spa['Value'])
plt.plot(swe['Year(s)'], swe['Value'])
#YOUR CODE HERE    # Línea punteada horizontal en y=2.1
plt.xticks(rotation=70)
plt.gca().invert_xaxis() 

plt.show()

### Decoración de la gráfica.
Decoramos la gráfica para tener una primera versión de esta visualización.

In [None]:
fig = plt.figure(figsize=(10,5)) # Definimos el tamaño de la figura

# Agregamos el ancho de las líneas (lw) y la etiqueta para distinguirlas (label)
plt.plot(spa['Year(s)'], spa['Value'], lw=4.0, label='España')
plt.plot(swe['Year(s)'], swe['Value'], lw=4.0, label='Suecia')
plt.plot([-1,14],[2.1,2.1], 'k--', lw=1.0, label='Nivel de reemplazo: 2.1') 

plt.xticks(rotation=70) 
plt.gca().invert_xaxis()
plt.ylim(0,3)             # Límites en el eje y 
plt.yticks([0,1,2,3])     # Marcas en el eje y
plt.grid(ls='--', lw=0.5) # Rejilla

# Información adicional y títulos
plt.title('Promedio de número de hijos por mujer', loc='left', fontsize=10)
plt.title('fuente: http://data.un.org', loc='right', fontstyle='italic', fontsize=10)
plt.suptitle('Evolución del TFR (Total Fertility Rate)',y = 1.0, fontsize=14)

plt.legend() # Generación de la leyenda de la gráfica.

plt.show()

### <font color="DeepPink">Ejercicio 2.</font>

¿Qué opina de esta gráfica con respecto de la del ejercicio 1? ¿Puede detectar algunas *preattentive features* usadas en esta última visualización?


### Etiquetado de curvas.

Agregar un texto en el extremo derecho de cada curva para identificarla. El objetivo es eliminar las leyendas de las curvas, pues más adelante tendremos muchas graficas que serán difíciles de distinguir.

Adicionalmente, vamos a quitar protagonismo a las líneas del recuadro de la gráfica (spines), quitaremos dos de ellas.

In [None]:
fig = plt.figure(figsize=(10,5)) 

# Definimos colores para las curvas y quitamos las leyendas
spa_color = 'blue'   
swe_color = 'orange'

# Eliminados el label de las gráficas de los países y agregamos un color.
plt.plot(spa['Year(s)'], spa['Value'], lw=4.0, color=spa_color)
plt.plot(swe['Year(s)'], swe['Value'], lw=4.0, color=swe_color)
plt.plot([-1,14],[2.1,2.1], 'k--', lw=1.0, label='Nivel de reemplazo: 2.1') 

plt.xticks(rotation=70)
plt.gca().invert_xaxis()
plt.ylim(0,3)             
plt.yticks([0,1,2,3])     
plt.grid(ls='--', lw=0.5) 

# Información adicional y títulos
plt.title('Promedio de número de hijos por mujer', loc='left', fontsize=10)
plt.title('fuente: http://data.un.org', loc='right', fontstyle='italic', fontsize=10)
plt.suptitle('Evolución del TFR (Total Fertility Rate)',y = 1.0, fontsize=14)
plt.legend()

# Obtenemos el valor del FR y lo agregamos al final de cada curva
spa_val = spa['Value'].iloc[0] 
swe_val = swe['Value'].iloc[0]
plt.text(x = 0, y = spa_val, s = ' Esp {:1.2f}'.format(spa_val), color = spa_color, weight = 'bold')
plt.text(x = 0, y = swe_val, s = ' Sue {:1.2f}'.format(swe_val), color = swe_color, weight = 'bold')

# Quitamos la línea derecha y la de arriba del marco de los ejes
ejes = fig.axes
ejes[0].spines['right'].set_visible(False)
ejes[0].spines['top'].set_visible(False)

plt.show()

Esta última gráfica muestra como el número promedio de hijos por mujer se incrementó levemente de 1950 a 1965 para Suecia, para después reducirse por debajo del nivel de reemplazo (NR). Desde entonces ha oscilado un par de veces y parece que a partir de 2005 comienza a estabilizarse en un valor por debajo de 2.1. Algo similar sucede con España, donde el incremento fue un poco más notorio de 1950 hasta 1975, para después bajar y estabilizarse en la década pasada. 

¿Qué hechos historicos se podrían correlacionar con estos datos? 

A continuación deseamos mostrar que **la razón de nacimientos en todos los países se ha estabilizado**, lo cual nos puede llevar a que la población mundial realmente se estabilice en aproximadamente 9 mil millones de seres humanos. Esta podría ser la historia que se queremos contar.

## Agregar otros países al análisis.

Haremos el mismo análisis para México y Yemen, este último tiene un PIB per cápita por abajo de nuestro país.

In [None]:
# Extraer los datos de México y Yemen
mex = paises.get_group('Mexico')
yem = paises.get_group('Yemen')

### Valor máximo del TFR.
Obtener el valor máximo de TFR de ambos países para usarlo en los límites del eje $y$.

In [None]:
# Importamos la biblioteca ceil para redondear el valor máximo
from math import ceil

y_maximo = max(mex['Value'].max(), yem['Value'].max()) # El máximo entre dos países.
yticks = [i for i in range(0,ceil(y_maximo)+1)] # Lista de ticks para el eje y.
print(y_maximo, yticks)

### Graficación de la nueva información.

Graficar usando el mismo código que usamos para Suecia y España.

In [None]:
fig = plt.figure(figsize=(10,5)) 

# Usamos ahora la información de México y Yemen
mex_color = 'blue'
yem_color = 'orange'
plt.plot(mex['Year(s)'], mex['Value'], lw=4.0, c=mex_color)
plt.plot(yem['Year(s)'], yem['Value'], lw=4.0, c=yem_color)
plt.plot([-1,14],[2.1,2.1], 'k--', lw=1.0, label='Nivel de reemplazo: 2.1') 

plt.xticks(rotation=70)
plt.gca().invert_xaxis()
plt.ylim(0, y_maximo)    # Usamos el FR máximo   
plt.yticks(yticks)       # Usamos los yticks calculados antes
plt.grid(ls='--', lw=0.5) 

# Información adicional y títulos
plt.title('Promedio de número de hijos por mujer', loc='left', fontsize=10)
plt.title('fuente: http://data.un.org', loc='right', fontstyle='italic', fontsize=10)
plt.suptitle('Evolución del TFR (Total Fertility Rate)',y = 1.0, fontsize=14)
plt.legend()

# Agregamos el texto en cada curva
mex_val = mex['Value'].iloc[0]
yem_val = yem['Value'].iloc[0]
plt.text(x = 0, y = mex_val, s = ' Mex {:1.2f}'.format(mex_val), c = mex_color, weight = 'bold')
plt.text(x = 0, y = yem_val, s = ' Yem {:1.2f}'.format(yem_val), c = yem_color, weight = 'bold')

# Quitamos la línea derecha y la de arriba del marco de los ejes
ejes = fig.axes
ejes[0].spines['right'].set_visible(False)
ejes[0].spines['top'].set_visible(False)

plt.show()

Observamos en esta gráfica que el TFR en México y Yemen casi siempre han sido mayores al nivel de reemplazo.

¿Qué más se puede decir de estas curvas con respecto de las de España y Suecia?

### Visualización de la información de los cuatro países.

Graficamos los cuatro países juntos para comparar la información.

In [None]:
fig = plt.figure(figsize=(10,5))

# Definimos todos los colores y quitamos las leyendas
spa_color = 'blue'
swe_color = 'orange'
mex_color = 'red'
yem_color = 'green'
plt.plot(spa['Year(s)'], spa['Value'], lw=4.0, c=spa_color)
plt.plot(swe['Year(s)'], swe['Value'], lw=4.0, c=swe_color)
plt.plot(mex['Year(s)'], mex['Value'], lw=4.0, c=mex_color)
plt.plot(yem['Year(s)'], yem['Value'], lw=4.0, c=yem_color)
plt.plot([-1,14],[2.1,2.1], 'k--', lw=1.0, label='Nivel de reemplazo: 2.1') 

plt.xticks(rotation=70)
plt.gca().invert_xaxis()
plt.ylim(0,y_maximo)      # Límites en el eje y (usamos y_maximo)
plt.yticks(yticks)        # Marcas en el eje y
plt.grid(ls='--', lw=0.5) # Rejilla

# Información adicional y títulos
plt.title('Promedio de número de hijos por mujer', loc='left', fontsize=10)
plt.title('fuente: http://data.un.org', loc='right', fontstyle='italic', fontsize=10)
plt.suptitle('Evolución del TFR (Total Fertility Rate)',y = 1.0, fontsize=14)
plt.legend()

# Agregamos el texto en cada curva
spa_val = spa['Value'].iloc[0]
swe_val = swe['Value'].iloc[0]
mex_val = mex['Value'].iloc[0]
yem_val = yem['Value'].iloc[0]
plt.text(x = 0, y = spa_val, s = ' Esp {:1.2f}'.format(spa_val), c = spa_color, weight = 'bold')
plt.text(x = 0, y = swe_val, s = ' Sue {:1.2f}'.format(swe_val), c = swe_color, weight = 'bold')
plt.text(x = 0, y = mex_val, s = ' Mex {:1.2f}'.format(mex_val), c = mex_color, weight = 'bold')
plt.text(x = 0, y = yem_val, s = ' Yem {:1.2f}'.format(yem_val), c = yem_color, weight = 'bold')

# Quitamos la línea derecha y la de arriba del marco de los ejes
ejes = fig.axes
ejes[0].spines['right'].set_visible(False)
ejes[0].spines['top'].set_visible(False)

plt.show()

Al revisar esta visualización surgen muchas preguntas:

- ¿Cómo se comparan estas gráficas? 
- ¿Qué se puede pensar de los países que tienen un TFR que está por arriba del factor NR? 
- ¿Cómo podrían relacionarse los hechos históricos y geográficos de esos países con esta información? 
- ¿Qué más se observa en estas gráficas?

### Visualización de todos los países. 

Realizar las gráficas para todos los países de la base de datos.

In [None]:
# La lista de países se puede obtener usando la función: paises.groups.keys(). 
paises.groups.keys()

Como se puede observar, la información es amplia. Si observa con cuidado verá que también hay información definida por regiones geográficas y por otros criterios.

Para ver el total podemos hacer lo siguiente:

In [None]:
pd.DataFrame(paises).index # Primero transformamos el grupo en DataFrame y luego
                           # obtenemos todos sus índices (renglones)

Podríamos entonces graficar **286** curvas. ¿Será esta una buena estrategia?

Para lograr un buen resultado, primero vamos a crear algunas funciones.

#### Incialización del canvas

Primero vamos a definir una función para inicializar el entorno de la gráfica (el canvas).

In [None]:
def inicializaGrafica(y_maximo, yticks):
    """
    Inicializa algunos parámetros de la figura.
    
    Parameters
    ----------
    y_maximo : int
        Valor máximo para el eje y.
    
    yticks : list
        Lista de valores para los ticks en el eje y.
    """
    fig = plt.figure(figsize=(10,10)) 
    plt.xticks(rotation=70)
    plt.xlim(-2,14,1)
    plt.gca().invert_xaxis()
    plt.ylim(0,y_maximo)   
    plt.yticks(yticks)     # Marcas en el eje y
    plt.grid(ls='--', lw=0.5) # Rejilla

    # Información adicional y títulos
    plt.title('Promedio de número de hijos por mujer', loc='left', fontsize=10)
    plt.title('fuente: http://data.un.org', loc='right', fontstyle='italic', fontsize=10)
    plt.suptitle('Evolución del TFR (Total Fertility Rate)', y = 0.94, fontsize=14)

    # Se eliminan las líneas del marco de la gráfica
    ejes = fig.axes
    ejes[0].spines['right'].set_visible(False)
    ejes[0].spines['top'].set_visible(False)
    ejes[0].spines['left'].set_visible(False)
    ejes[0].spines['bottom'].set_visible(False)
    
    # Modificamos algunos parámetros de los ticks en el eje y
    ejes[0].tick_params(axis='y', width=1, length=25)

#### Función para graficar la información de todos los países.

Ahora definimos una función para graficar la información de cada país.

In [None]:
def graficaTFR(paises, parametros={}):
    """
    Realiza la gráfica de todos los países.
    
    Parameters
    ----------
    paises : DataFrameGroupBy
        Dataframe generado por GroupBy con la información de los países.
    
    parametros : dict
        Parámetros para generar la gráfica.
    """
    for p in paises.groups.keys():
        pais = paises.get_group(p)  # Se obtiene el DataFrame del país
        plt.plot(pais['Year(s)'], pais['Value'], **parametros)
    
    # Al final de todas las gráficas ponemos la del nivel de reemplazo 
    # para que apareza sobre todas ellas y se note mejor (también es posible usar zorder)
    plt.plot([-1,14],[2.1,2.1], 'k--', lw=1.0, label='Nivel de reemplazo: 2.1')
    plt.legend()

#### Resultado preliminar

Calculamos el máximo del valor del TFR de todos los países y lo usamos para generar los `yticks`

In [None]:
# Se obtiene el máximo a partir de la información original
y_maximo = TFR['Value'].max() 

# Se definen los yticks usando el y_maximo
yticks = [i for i in range(0,ceil(y_maximo)+1)]
print('TFR máximo: ', y_maximo)
print('Marcas para el eje y: ', yticks)

¿Cómo le haríamos para conocer el país o países que tienen el valor máximo de TFR?

In [None]:
# Graficamos todos los países.
inicializaGrafica(y_maximo, yticks)
graficaTFR(paises)

**¡Esta gráfica es bastante interesante y colorida!** Sin embargo poco útil. 

Aunque es posible identificar, si nos fijamos bien, grupos de países que inician con un TFR entre 5 y 7, que después bajan conforme pasan las décadas. 

Y otro grupo de países entre el 2 y 3 que se matienen al rededor del nivel de reemplazo (2.1). 

Como vimos en la celda anterior, Yemen es el país que tiene el máximo TFR, durante los años de 1985 a 1990. 

#### Primera mejora.

Haremos la misma gráfica, pero con las líneas más delgadas para intentar distinguir algo más.

In [None]:
inicializaGrafica(y_maximo, yticks)
graficaTFR(paises, {'lw':0.5})

Esta gráfica "desenreda" un poco la información, pero sigue siendo poco útil.

#### Segunda mejora.

Usaremos un mismo color muy tenue para graficar todos los países.

In [None]:
inicializaGrafica(y_maximo, yticks)
graficaTFR(paises, {'lw':0.5, 'c':'lightgrey'})

Esta gráfica es un canvas con toda la información necesaria para analizar cada país por separado. Veamos cómo.

## Resultado final
- Analizaremos los países de Suecia, España, México y Yemen, dentro de las gráficas de todos los países. 

- Igualmente se van a agregar algunos otros que sean de interés.

Definimos una función para graficar un solo país con parámetros que permitan realzar la curva 


In [None]:
def graficaTFR_Pais(paises, p, parametros={}):
    """
    Realiza la gráfica de un solo país.
    
    Parameters
    ----------
    paises : DataFrameGroupBy
        Dataframe generado por GroupBy con la información de los países.
    
    parametros : dict
        Parámetros para generar la gráfica.
    """
    pais = paises.get_group(p)
    
    # Graficamos el país con los parámetros requeridos
    plt.plot(pais['Year(s)'], pais['Value'], **parametros)
    
    # Ponemos un texto al final de la curva para mostrar el 
    # nombre del país y el valor final de FR
    pais_val = pais['Value'].iloc[0]
    plt.text(x = 0, y = pais_val, 
             s = ' {} {:1.2f}'.format(p, pais_val), 
             c = parametros['c'], weight = 'bold')
    
    # Ponemos el valor inicial de FR al principio de la curva.
    pais_val = pais['Value'].iloc[-1]    
    plt.text(x = 14, y = pais_val, 
             s = '{:1.2f} '.format(pais_val), 
             c = parametros['c'], weight = 'bold')


In [None]:
# Hacemos la gráfica base
inicializaGrafica(y_maximo, yticks)
graficaTFR(paises, {'lw':0.5, 'c':'lightgrey'})

# Graficamos para México con parámetros de realce (ancho 4 y color rojo)
par_mex = {'lw':4.0, 'c':'red'}
graficaTFR_Pais(paises, 'Mexico', par_mex)

Esta gráfica nos da mucho mayor información. Además de tener todo el contexto de los demás países, podemos observar como ha cambiado el número de hijos promedio por mujer en nuestro país, desde los años 50s que tenía un valor de 6.75 y en los años 70s comenzó su declive. Fue en el año de 1974 cuando se instaló la CONAPO (Consejo Nacional de Población) y uno de sus primeros lemas fue *“La familia pequeña vive mejor”* (aún recuerdo esos promocionales de la TV). Es muy probable que este hecho haya impactado en esa disminución de los hijos por familia durante las siguientes décadas. Actualmente el valor es de 2.14, apenas un poco arriba del NR y la tendencia es a la baja. En mi experiencia, al hablar con jóvenes en edad reproductiva, parece que para un porcentaje alto de ellos (no tengo los datos exactos), ya no es un objetivo de vida tener hijos, por lo que la espectativa es que el nivel de hijos pase por abajo del NR en nuestro país en los próximos años.

Finalmente hacemos la gráfica para varios países para hacer la comparación entre ellos.

**NOTA**: La base de datos también trae la información del número de hijos promedio de todo el mundo ('World') el cual graficamos para comparar.

In [None]:
# Hacemos la gráfica base
inicializaGrafica(y_maximo, yticks)
graficaTFR(paises, {'lw':0.5, 'c':'lightgrey'})

# Definimos colores y hacemos las gráficas de los países seleccionados
colores = ['C0', 'C1', 'C2', 'C3', 'C4', 'k']

paises_l = ['Mexico', 'Yemen', 'Spain', 'Sweden', 'China', 'World']
for p, c in zip(paises_l, colores):
    par = {'lw':2.0, 'c':c}
    graficaTFR_Pais(paises, p, par)

# Decidimos dibujar menos xticks para mayor claridad.
plt.xticks([13, 11, 9, 7, 5, 3, 1], rotation=0)

plt.savefig('TFR.pdf')

¿Puede Usted contar la historia de esta última gráfica?

¿Con este análisis es posible responder a las preguntas que hicimos al principio?

1. ¿Los países ricos están recuperando su TFR?
2. ¿Cómo es el TFR en países con un bajo PIB per cápita?
3. ¿Países en desarrollo como China y Brasil están estabilizando sus poblaciones?
4. ¿Cómo ha sido la evolución de la población en México con respecto de otros países? 

### <font color="DeepPink">Tarea para entrega en el Moodle.</font>

En documento de dos páginas agregue:
- Página 1 : 
    - La gráfica del ejercicio 1 y su respuesta a la pregunta.
    - La gráfica del ejercicio 2 y su respuesta a la pregunta.
- Página 2 : 
    - La gráfica final del TFR que Ud. obtuvo y una descripción de la misma.

Suba su documento en formato PDF al Moodle.

## Comentarios finales

En las visualizaciones que se muestran abajo se grafica el TFR y se compara con algunos factores de desarrollo para varios países de diferentes continentes y con el siguiente *GDP per capita* (en *US dollars*): 
- USA (63,413.5), 
- Alemania (46,208.4), 
- Japón (40,193.3), 
- Macao SAR (39,403.1), 
- Argentina (8,579.0), 
- Mexico (8,329.3), 
- Egipto (3,569.2), 
- Nigeria (2,097.1), 
- Yemen (758.1) 

(Fuente: [The World Data Bank](https://data.worldbank.org/indicator/NY.GDP.PCAP.CD?most_recent_value_desc=true&view=chart) ). 

Además, se utilizan algunas características para resaltar la visualización. Con esta información adicional ¿Ud. podría contar alguna historia?

<table>  
  <tr>
      <th>TFR para países con diferente PIB per cápita</th>
      <th> Algunas veces el fondo es importante (¡en otras NO!)</th>
  </tr>
  <tr>
    <td><img src="../Figuras/FR01.png" width="500"></td>
    <td><img src="../Figuras/FR02.png" width="500"></td>
  </tr>
  <tr>
      <th>TFR vs PIB per cápita</th>
      <th>TFR vs PIB per cápita vs Education</th>
  </tr>
  <tr>
    <td><img src="../Figuras/FR03.png" width="500"></td>
    <td><img src="../Figuras/FR04.png" width="500"></td>
  </tr>
  <tr>
    <th colspan="2">Animación del TFR de México (¡cuidado con las animaciones!)</th>
  </tr>    
  <tr>
    <td colspan="2"><img src="../Figuras/fert.gif" width="500"></td>
  </tr>
</table> 