# Práctica 2.
## Visualización de la información

### Prof. Luis Miguel de la Cruz Salas

Realizar un análisis complementario de la fertilidad mundial comparando con otros factores de desarrollo.

Usaremos la misma información de la práctica 1, así como los scripts que se desarrollaron en ella para continuar con esta práctica 2.

### Paso 1. 
Incluimos las bibliotecas necesarias para la lectura de datos y para la visualización.

In [None]:
import numpy as np
import matplotlib.pyplot as plt
import pandas as pd
%matplotlib inline

En esta práctica usaremos un estilo de fondo obscuro con texto y gráficos claros. Para ello haremos lo siguiente:

In [None]:
# Cambiamos el estilo a:
plt.style.use("seaborn-dark")

# Modificamos algunos parámetros generales de la gráfica:
for param in ['figure.facecolor', 'axes.facecolor', 'savefig.facecolor']:
    plt.rcParams[param] = '#202946'  # bluish dark grey

for param in ['text.color', 'axes.labelcolor', 'xtick.color', 'ytick.color']:
    plt.rcParams[param] = 'white'  # very light grey

### Paso 2. 
Usamos la misma información de la práctica 1.

In [None]:
fertilidad = pd.read_csv('../01/UNdata_Export_20200418_014346536.csv')

# Se agrupa por país 
paises = fertilidad.groupby('Country or Area')

### Paso 3. 
Ponemos todos los scripts de la práctica 1, con algunas modificacines, en funciones como sigue:

In [None]:
from math import ceil

def maxminTicks(paises):
    """
    Calcula el máximo y el mínimo de todos los países y los yticks.
    
    Parameters
    ----------
    paises : DataFrameGroupBy
        Dataframe generado por GroupBy con la información de los países.
        
    Returns
    -------
    p_max, y_max, yticks, p_min, y_min 
        El país con el máximo valor, el valor máximo, la lista para los yticks,
        el país con el valor mínimo y el valor mínimo.
    """
    y_max = 0
    y_min = 10
    for p in paises.groups.keys():
        temporal = paises.get_group(p)['Value'].max()
        if y_max < temporal:
            y_max = temporal
            p_max = p
            
        temporal = paises.get_group(p)['Value'].min()
        if y_min > temporal:
            y_min = temporal
            p_min = p        
        
    yticks = [i for i in range(0,ceil(y_max)+1)]
    return p_max, y_max, yticks, p_min, y_min

def inicializaGrafica(y_maximo, yticks):
    """
    Inicializa algunos parámetros de la figura (el canvas).
    
    Parameters
    ----------
    y_maximo : int
        Valor máximo para el eje y.
    
    yticks : list
        Lista de valores para los ticks en el eje y.
    """
    fig = plt.figure(figsize=(10,10)) # Cambiamos el tamaño de la figura
    plt.xticks(rotation=70, fontsize=10)
    plt.xlim(14,-2,-1)
    plt.ylim(0,y_maximo)   # Límites en el eje y (usamos y_maximo)
    plt.yticks(yticks)     # Marcas en el eje y
    plt.grid(ls='--', lw=0.5, c='#AAAAAA') # Rejilla en color adecuado para fondo negro.

    # Información adicional y títulos
    plt.title('Promedio de número de hijos por mujer', loc='left', fontsize=12)
    plt.title('fuente: http://data.un.org', loc='right', fontstyle='italic', fontsize=10, c='cyan')
    plt.suptitle(' Comparación de la fertilidad', y = 0.94, fontsize=14)

    ejes = plt.gca() # Obtenemos los ejes y eliminamos las spines
    ejes.spines['right'].set_visible(False)
    ejes.spines['top'].set_visible(False)
    ejes.spines['left'].set_visible(False)
    ejes.spines['bottom'].set_visible(False)
    
    # Modificamos algunos parámetros de los ticks en el eje y
    ejes.tick_params(axis='y', width=1, length=25)
    
    # Realizamos algunas anotaciones sobre el gráfico base
    plt.annotate('Nivel de \n reemplazo: \n promedio = 2.1', xy=(11.5, 2.095), xytext=(11.5, 1.0),
                 bbox=dict(boxstyle='round', facecolor='green', edgecolor='white', alpha=0.5, linewidth=0.75),
                 arrowprops=dict(arrowstyle='->', facecolor='white', edgecolor='white'),
                 fontsize=10, color='white', horizontalalignment='center')

    plt.text(2, 8.25, 'Cada línea representa la \n evolución del promedio  \n de hijos por mujer en un país',                   
             transform=plt.gca().transData, 
             horizontalalignment='center', color='white',
             bbox=dict(boxstyle='round', facecolor='green', edgecolor='white', alpha=0.5, linewidth=0.75))  
        
def graficaFertilidad(paises, parametros={}):
    """
    Realiza la gráfica de todos los países.
    
    Parameters
    ----------
    paises : DataFrameGroupBy
        Dataframe generado por GroupBy con la información de los países.
    
    parametros : dict
        Parámetros para generar la gráfica.
    """
    for p in paises.groups.keys():
        pais = paises.get_group(p)
        plt.plot(pais['Year(s)'], pais['Value'], **parametros) 
        
    # Al final de todas las gráficas ponemos la del nivel de reemplazo 
    plt.plot([14,-1],[2.1,2.1], 'w--', lw=2.0, zorder=1000)
        
def graficaFertilidadUnPais(paises, p, parametros={}, par_glow = None):
    """
    Realiza la gráfica de un solo país con realce para fondo negro.
    
    Parameters
    ----------
    paises : DataFrameGroupBy
        Dataframe generado por GroupBy con la información de los países.
    
    parametros : dict
        Parámetros para generar la gráfica.
    
    par_glow : dict
        Diccionario con los parámetros para resaltar las curvas con un "halo" 
        a su alrededor. Cuando par_glow = None (defalt) no se hace nada. En otro
        caso es conveniente pasar la transparencia y el color. Esta
        curva se dibuja por detrás de la curva principal, con un ancho mayor y el
        color definido
        Ejemplo:
                par_glow = {'alpha':0.4, 'c':'yellow'}
    """
    pais = paises.get_group(p)

    if par_glow:
    # Se grafica una curva con una línea 3 veces más ancha que la original
    # y transparente para resaltarla. 
        plt.plot(pais['Year(s)'], pais['Value'], lw=parametros['lw']*3, **par_glow)

    # Se grafica la curva del país con los parámetros necesarios.
    line = plt.plot(pais['Year(s)'], pais['Value'], **parametros)

    # Ponemos un texto al final de la curva para mostrar el 
    # nombre del país y el valor final de fertilidad
    pais_val = pais['Value'].iloc[0]
    plt.text(x = 0, y = pais_val, 
             s = ' {} {:1.2f}'.format(p, pais_val), 
             c = line[0].get_color(), weight = 'bold')
    
    # Ponemos el valor inicial de fertilidad al principio de la curva.
    pais_val = pais['Value'].iloc[-1] 
    plt.text(x = 13.75, y = pais_val, 
             s = '{:1.2f} '.format(pais_val), 
             c = line[0].get_color(), weight = 'bold')

### Paso 4. 
Calculamos el máximo en el eje $y$ y los `yticks` y posteriormente hacemos la gráfica base.

In [None]:
p_max, y_maximo, yticks, p_min, y_min = maxminTicks(paises)
print(p_max, y_maximo, yticks)
print(p_min, y_min)

In [None]:
# Hacemos la gráfica base
inicializaGrafica(y_maximo, yticks)
graficaFertilidad(paises, {'lw':0.5, 'c':'#AAAAAA'})

Este es ahora nuestro lienzo listo para agregar información.

### Paso 5.
Definimos un conjunto de países a ser graficados y sus colores correspondientes. Esta elección se basa en el  GDP (Gross Domestic Product), véase la siguiente figura:

<img src="./PerCapitaIncome.png"  style="width: 800px;"/>


De acuerdo con la gráfica anterior, vamos a elegir países con diferente GDP y diferente zona geográfica, en este caso serán: México, USA, Japón, Alemania, Egipto, Argentina, Nigeria. Además agregamos a los países que hayan tenido el máximo y el mínimo de fertilidad en el rango de tiempo estudiado. 

In [None]:
paises_colores = {
    'Mexico'                   : '#00ff41',  # matrix green
    p_max                      : 'red',     
    'United States of America' : 'blueviolet',
    'Japan'                    : '#FE53BB',  # pink
    'Germany'                  : '#F5D300',  # yellow
    p_min                      : '#08F7FE',  # teal/cyan
    'Egypt'                    : '#1986FE',
    'Argentina'                : 'salmon',
    'Nigeria'                  : 'yellow',
    'World'                    : '#EEEEEE'   # cuasi-blanco, Datos promedio mundiales
}

### Paso 6.
Realizamos las gráficas para estos países.

In [None]:
# Hacemos la gráfica base
inicializaGrafica(y_maximo, yticks)
graficaFertilidad(paises, {'lw':0.5, 'c':'#AAAAAA'})

# Hacemos la gráfica para los países definidos antes para hacer la comparación entre ellos.
for p, c in paises_colores.items():
    par = {'lw':3.0, 'c':c}
    graficaFertilidadUnPais(paises, p, par)

plt.savefig('fertilidad01.pdf')

Si puso atención, en la definición de la función `graficaFertilidadUnPais()` hay un parámetro
para resaltar las gráficas en el fondo obscuro. Usaremos ese parámetro como sigue:

In [None]:
# Hacemos la gráfica base
inicializaGrafica(y_maximo, yticks)
graficaFertilidad(paises, {'lw':0.5, 'c':'#AAAAAA'})

# Hacemos la gráfica para los países definidos antes para hacer la comparación entre ellos.
for p, c in paises_colores.items():
    par = {'lw':3.0, 'c':c, 'marker':'o'}
    par_glow = {'alpha':0.4, 'c':c}                   # Parámetros para poner "brillo" a las curvas
    graficaFertilidadUnPais(paises, p, par, par_glow) # Pasamos los parámetros a la función
    
plt.savefig('fertilidad02.pdf')

En esta visualización intentamos graficar países de los diferentes continentes y con un GDP (Gross Domestic Product, en miles de millones de dolares) diferente: USA (20,544), Japon (4,971), Alemania (3,948), Mexico (1,221), Argentina (519), Egipto (250), Macao SAR (55), Yemen (27), Nigeria (9). (Información tomada de https://data.worldbank.org/country). Observamos que no necesariamente entre menos GDP mayor fertilidad, véase por ejemplo el caso de Macao SAR. Sin embargo, en general si se observa que los países con mayor GDP tienden a bajar el número de hijos por mujer por debajo del NR. Los tres países que en esta visualización se ven com mayor fertilidad (Egipto, Yemen y Nigeria) tienen un GPD bajo, comparado con los otros países, pero todos han reducido su porcentaje de fertilidad. Nigeria es un caso particular, pues solo ha bajado de 6.35 en 1955 a 5.42 en 2020.  

### Paso 7.
Vamos ahora a complementar esta visualización con información del GPD per capita en cada país.

Obtenemos la información de los ingresos por persona en cada país de http://data.un.org haciendo la búsqueda como se muestra en la siguiente figura:

<img src="./PerCapita.png"  style="width: 800px;"/>

**Observación** : los datos son solo para el año 2010, que es el año en el que vamos a realizar la comparación. Por esta razón tomaremos los datos de la década 2005-2010 para el caso de la fertilidad (esta información se encuentra en el lugar 2 del arreglo de cada país, véanse las gráficas anteriores y recuérdese que el eje $x$ fue invertido).

In [None]:
# Leemos el archivo que obtiene en un DataFrame
per_capita_income = pd.read_csv('UNdata_Export_20200423_213109354.csv')
pd.set_option('display.max_rows', None) # Para poder ver todo el dataframe
per_capita_income

In [None]:
pd.set_option('display.max_rows', 15) # Regreso a un número limitado de renglones por despliegue de dataframe

### Paso 8.
Observamos que el número de países listados en los dos dataframes, el de fertilidad y el de ingresos, es diferente, así que necesitamos ajustarlos para poder hacer una comparación entre ellos.

In [None]:
# Se agrupa por país la información de los ingresos 
# (para acceder más fácil y de manera similar a como se hace con la info de fertilidad)
ingreso_pais = per_capita_income.groupby('Country or Area')

In [None]:
print(len(paises.groups.keys()), len(per_capita_income)) # La longitud es diferente para cada dataframe

In [None]:
# Se obtiene la lista de países a comparar:
lista_paises_final = []

for p in paises.groups.keys():     # Hacemos el recorrido usando el DataFrame de mayor longitud (paises)
    try:                           # Con este try aseguramos que se tiene la misma info en cada DataFrame
        ingreso_pais.get_group(p)  # Intentamos obtener el ingreso del país 'p', si no hay se lanza la excepción. 
        lista_paises_final.append(p) # Si se tuvo éxito en las dos líneas anteriores entonces se agrega el país a la lista final.
    except KeyError: # Aquí se captura la excepción de tipo KeyError, que es la que producen las líneas de arriba,
        continue     # Lo único que hacemos es saltarnos el país que no está en ambos DataFrames y continuar con el siguiente.
        
print('Lista final de países en ambos Dataframes : ', len(lista_paises_final), '\n')
print(lista_paises_final)

In [None]:
# Ahora creamos dos listas, una para la fertilidad y otra para el ingreso con los países a comparar:
l_fertilidad = []
l_ingreso = []
for p in lista_paises_final:
    l_fertilidad.append(paises.get_group(p)['Value'].iloc[2])  # El lugar 2 corresponde a los datos para 2010
    l_ingreso.append(ingreso_pais.get_group(p)['Value'].iloc[0]) # Solo se tiene el dato para 2010

print('\nFertilidad: \n', len(l_fertilidad), l_fertilidad)
print('\nIngresos: \n', len(l_ingreso), l_ingreso)

**Obsérvese** que se tienen `nan` en algunos lugares de la lista de fertilidad, lo que significa que no se tiene información completa para algunos países. Tomaremos esto en cuenta más adelante.

### Paso 9.
Ahora haremos la gráfica de esta información usando puntos en el plano.

In [None]:
fig = plt.figure(figsize=(10,6)) # Cambiamos el tamaño de la figura

# Graficamos el ingreso (eje $y$) en función de la fertilidad (eje $x$)
# Usamos un color gris tenue y con transparencia. En este caso, este
# será nuestro lienzo base para lo demás.
plt.scatter(l_fertilidad, l_ingreso, marker='o', color='#DEDEDE', alpha=0.5) 

# Información adicional y títulos
plt.title('fuente: http://data.un.org', loc='right', fontstyle='italic', fontsize=10, c='cyan')
plt.suptitle(' Fertilidad vs Ingreso ', y = 0.94, fontsize=14)
    
plt.grid(ls='--', lw=0.5, c='#AAAAAA')
plt.xlabel('Fertilidad [No. de hijos por mujer]')
plt.ylabel('Ingresos [USD/Año]')

Observamos en la visualización anterior que los puntos se aglomeran en ciertas zonas del espacio. Se puede ver un comportamiento exponencial decreciente conforme aumenta la fertilidad. Es decir, entre más ingresos, menor es la fertilidad. 

Vamos a completar la visualización anterior, resaltando los países que elegimos en el paso 5 (probablemente algunos no aparezcan debido a que ajustamos la información en el paso 8).

In [None]:
fig = plt.figure(figsize=(10,6)) # Cambiamos el tamaño de la figura

# Graficamos el ingreso (eje $y$) en función de la fertilidad (eje $x$)
# Usamos un color gris tenue y con transparencia. En este caso, esta 
# será nuestro lienzo base para lo demás.
plt.scatter(l_fertilidad, l_ingreso, marker='o', color='#DEDEDE', alpha=0.5) 

# Información adicional y títulos
plt.title('fuente: http://data.un.org', loc='right', fontstyle='italic', fontsize=10, c='cyan')
plt.suptitle(' Fertilidad vs Ingreso ', y = 0.94, fontsize=14)
    
plt.grid(ls='--', lw=0.5, c='#AAAAAA')
plt.xlabel('Fertilidad [No. de hijos por mujer]')
plt.ylabel('Ingresos [USD/Año]')

# Gráfica de los países elegidos en el paso 5 usando puntos de colores y resaltados.
for p, c in paises_colores.items():
    try:
        ip = lista_paises_final.index(p)
        plt.scatter(l_fertilidad[ip], l_ingreso[ip], 
                    marker='o', s=100,
                    facecolor=c, edgecolor='w', alpha=0.75,
                    zorder=1000, label=p)
    except ValueError:
        continue

plt.legend()

### Paso 10.
Dada la tendencia que se observa en esta gráfica, vamos a intentar ajustar una curva a los datos.

In [None]:
# Usaremos en este caso la función curve_fit.
from scipy.optimize import curve_fit

# La función que queremos ajustar: exponencial decreciente.
def func(x, a, b, c):
    return a * np.exp(-b * x) + c

# Vamos a limpiar los datos, pues existen algunos 'nan' en ellos, 
# particularmente en la fertilidad.
xdata = []
ydata = []
for lf, li in zip(l_fertilidad, l_ingreso):
    if ~np.isnan(lf):
        xdata.append(lf)
        ydata.append(li)
    
# Con las listas xdata y ydata ya podemos hacer el ajuste
popt, pcov = curve_fit(func, xdata, ydata)
perr = np.sqrt(np.diag(pcov))

In [None]:
# Graficamos el ajuste para ver cómo quedó
x = np.linspace(1,9,100)
y = func(x, *popt)
plt.plot(x, y, 'r-',label='fit: a={:5.3f}, b={:5.3}, c={:5.3f}'.format(popt[0], popt[1], popt[2]))
plt.legend()

Finalmente graficamos todo junto:

In [None]:
fig = plt.figure(figsize=(10,6)) # Cambiamos el tamaño de la figura

# Graficamos el ingreso (eje $y$) en función de la fertilidad (eje $x$)
# Usamos un color gris tenue y con transparencia. En este caso, esta 
# será nuestro lienzo base para lo demás.
plt.scatter(l_fertilidad, l_ingreso, marker='o', color='#DEDEDE', alpha=0.5) 

# Información adicional y títulos
plt.title('fuente: http://data.un.org', loc='right', fontstyle='italic', fontsize=10, c='cyan')
plt.suptitle(' Fertilidad vs Ingreso ', y = 0.94, fontsize=14)
    
plt.grid(ls='--', lw=0.5, c='#AAAAAA')
plt.xlabel('Fertilidad [No. de hijos por mujer]')
plt.ylabel('Ingresos [USD/Año]')

# Gráfica de los países elegido en el paso 5 usando puntos de colores y resaltados.
for p, c in paises_colores.items():
    try:
        ip = lista_paises_final.index(p)
        plt.scatter(l_fertilidad[ip], l_ingreso[ip], 
                    marker='o', s=100,
                    facecolor=c, edgecolor='w', alpha=0.75,
                    zorder=1000, label=p)
    except ValueError:
        continue

# Gráfica del ajuste resaltada!
plt.plot(x, y, 'r-', lw=8.0, alpha=0.4)
plt.plot(x, y, 'r-', lw=3.0, label='fit: a={:5.3f}, b={:5.3}, c={:5.3f}'.format(popt[0], popt[1], popt[2]))

plt.legend()
plt.savefig('fertilidad03_ajuste.pdf')

¿Que podría mejorar de esta visualización? (colores, dimensiones, anotaciones, leyendas, ajuste, etc.)

### Paso 11.
Vamos ahora realizar una visualización similar pero con información del nivel de educación en cada país.

Obtenemos la información de http://data.un.org haciendo la búsqueda que se muestra en la siguiente figura:

<img src="./Educacion.png"  style="width: 800px;"/>

**Observación** : igual que en el caso del ingreso, los datos son solo para el año 2010, que es el año en el que vamos a realizar la comparación.

In [None]:
# Leemos el archivo generado 
educacion = pd.read_csv('UNdata_Export_20200423_221351665.csv')
educacion

Observamos que la información viene para 'Female', 'Male' y 'All genders'.

In [None]:
# Organizamos la información por país y por sexo:
educacion_pais = educacion.groupby(['Reference Area', 'Sex'])

# Podemos por ejemplo revisar la información para México:
gender = 'Female' # Este parámetro permite elegir el sexo para la comparación.
educacion_pais.get_group(('Mexico',gender))

In [None]:
# Este pequeño script es similar a lo que se había realizado antes.
lista_paises_final2 = []
for p in paises.groups.keys():
    try:
        e = educacion_pais.get_group((p, gender))
        lista_paises_final2.append(p)
    except KeyError:
        continue
        
print('Lista final de países en ambos Dataframes : ', len(lista_paises_final2), '\n')
print(lista_paises_final2)

In [None]:
# Ahora creamos dos listas, una para la fertilidad y otra para el ingreso con los países a comparar:
l_fertilidad2 = []
l_educacion = []
for p in lista_paises_final2:
    l_fertilidad2.append(paises.get_group(p)['Value'].iloc[2])  # El lugar 2 corresponde a los datos para 2010
    
    e = educacion_pais.get_group((p, gender))
    l_educacion.append(e['Observation Value'].iloc[0]) # Solo se tiene el dato para 2010

print('\nFertilidad: \n', len(l_fertilidad2), l_fertilidad2)
print('\nEducacion: \n', len(l_educacion), l_educacion)

In [None]:
fig = plt.figure(figsize=(10,6)) # Cambiamos el tamaño de la figura

# Graficamos el nivel de eduación (eje $y$) en función de la fertilidad (eje $x$)
plt.scatter(l_fertilidad2, l_educacion, marker='o', color='#DEDEDE', alpha=0.5) 

# Información adicional y títulos
plt.title('fuente: http://data.un.org', loc='right', fontstyle='italic', fontsize=10, c='cyan')
plt.suptitle(' Fertilidad vs Educación (mujer) ', y = 0.94, fontsize=14)
    
plt.grid(ls='--', lw=0.5, c='#AAAAAA')
plt.xlabel('Fertilidad [No. de hijos por mujer]')
plt.ylabel('% en tercer nivel educativo ({})'.format(gender))

# Gráfica de los países elegido en el paso 5 usando puntos de colores y resaltados.
for p, c in paises_colores.items():
    try:
        ip = lista_paises_final2.index(p)
        plt.scatter(l_fertilidad[ip], l_educacion[ip], 
                    marker='o', s=100,
                    facecolor=c, edgecolor='w', alpha=0.75,
                    zorder=1000, label=p)
    except ValueError:
        continue

plt.legend()

- ¿Que podría mejorar de esta visualización? (colores, dimensiones, anotaciones, leyendas, etc)
- ¿Podría realizar un ajuste de una curva a estos datos?
- ¿Cree que los datos están correctos?

### Paso 12.
Combinar las tres variables: fertilidad, ingresos, educación, en una sola visualización.

In [None]:
# Creamos una lista de países que tengan la información de las tres variables.
lista_paises_final3 = []
for p in lista_paises_final:
    if p in lista_paises_final2:
        lista_paises_final3.append(p)

print(len(lista_paises_final3), lista_paises_final3)

In [None]:
# Ahora creamos tres listas para las variables fertilidad, ingreso y educación, para los 
# países de la lista anterior.
lf = []
li = []
le = []
for p in lista_paises_final3:
    lf.append(paises.get_group(p)['Value'].iloc[2])  # El lugar 2 corresponde a los datos para 2010
    li.append(ingreso_pais.get_group(p)['Value'].iloc[0]) # Solo se tiene el dato para 2010
    e = educacion_pais.get_group((p, gender))
    le.append(e['Observation Value'].iloc[0]) # Solo se tiene el dato para 2010
    
print('\nFertilidad: \n', len(lf), lf)
print('\nIngresos: \n', len(li), li)
print('\nEducación: \n', len(le), le)

Hacemos la visualización usando la variable eduación como un valor para el área de los círculos que se van a graficar.

In [None]:
fig = plt.figure(figsize=(10,6)) # Cambiamos el tamaño de la figura

# Eje x: Fertilidad
# Eje y: Ingresos
# Area y color: Educación
se = np.array(le) * 5
max_se = np.max(se)
color = [int(c) for c in se]
scatter = plt.scatter(lf, li, marker='o', c=se, alpha=0.5, s=se, cmap="spring") 

plt.title('fuente: http://data.un.org', loc='right', fontstyle='italic', fontsize=10, c='cyan')
plt.suptitle(' Fertilidad vs Ingreso vs Educación ', y = 0.94, fontsize=14)
    
plt.grid(ls='--', lw=0.5, c='#AAAAAA')
plt.xlabel('Fertilidad [No. de hijos por mujer]')
plt.ylabel('Ingresos [USD/Año]')

# Gráficamos el ajuste entre fertilidad e ingresos
plt.plot(x, y, '--', c='#AAFFFF', lw=1.5, zorder=0, alpha=0.75,
         label='fit: a={:5.3f}, b={:5.3}, c={:5.3f}'.format(popt[0], popt[1], popt[2]))

# Identificamos algunos países en el gráfico
ipm = lista_paises_final3.index('Mexico')
plt.annotate('México', xy=(lf[ipm], li[ipm]), xytext=(5, 30000),
             bbox=dict(boxstyle='round', facecolor='red', edgecolor='white', alpha=0.5, linewidth=1.1),
             arrowprops=dict(arrowstyle='->', facecolor='white', edgecolor='white'),
             fontsize=10, color='white', horizontalalignment='center')

ipn = lista_paises_final3.index('Niger')
plt.annotate('Nigeria', xy=(lf[ipn], li[ipn]), xytext=(7, 5000),
             bbox=dict(boxstyle='round', facecolor='yellow', edgecolor='white', alpha=0.75, linewidth=1.1),
             arrowprops=dict(arrowstyle='->', facecolor='white', edgecolor='white'),
             fontsize=10, color='black', horizontalalignment='center')

ipj = lista_paises_final3.index('China')
plt.annotate('China', xy=(lf[ipj], li[ipj]), xytext=(1.5, 1000),
             bbox=dict(boxstyle='round', facecolor='white', edgecolor='grey', alpha=0.75, linewidth=1.1),
             arrowprops=dict(arrowstyle='->', facecolor='white', edgecolor='white'),
             fontsize=10, color='red', horizontalalignment='center')

# Agregamos un poco más de información
plt.text(7, 40000, 'El área de cada círculo \n representa el nivel \n educativo del país',                   
             transform=plt.gca().transData, 
             horizontalalignment='center', color='white',
             bbox=dict(boxstyle='round', facecolor='green', edgecolor='white', alpha=0.5, linewidth=0.75)) 

# Usamos escala semilogarítmica
plt.yscale('log')
plt.ylim(1e2,1e5)
plt.xlim(0.5,8)

plt.savefig('fertilidad04_fert_ing_educ.pdf')