# Python. Trabajo final
## Causas de muerte en el mundo

### a) En las páginas de _Word in Data_ puedes encontrar una tabla _csv_ sobre el crecimiento del la poblacion mundial por países ( _Population growth by country_ ). Diseña una función que cargue dicha tabla y genere un diccionario, que para cada país y cada año, nos dé su población

En primer lugar, nos encontramos ante un fichero _csv_ que debemos no solo exportar al entorno de _Python_ , sino además __transformarlo__ en un diccionario, que permita indexar el total de población no sólo por país, sino además por año. Por ello, el apartado se compone de un total de tres funciones:

   1. __obtener_datos_fichero__: mediante la librería _Pandas_ , se realiza la lectura del fichero a través del método _read_csv_ , devolviendo el conjunto de las filas resultantes en un único DataFrame, excluyendo la columna _Code_ que contiene la abreviación del nombre del país. Cabe destacar que, en caso de que no exista el fichero indicado como parámetro, a través de un _assert_ devolverá un error indicando que el fichero no se encuentra en el directorio de trabajo actual.

In [102]:
import pandas as pd
import csv
import time

def obtener_datos_fichero(fichero):
    """
    Funcion que recupera cada una de las filas
    almacenadas en un fichero csv, salvo la cabecera
    
    Parameters
    ----------
    fichero: str
        Ruta del fichero csv
    
    Return
    ------
    DataFrame
        DataFrame con los campos de cada pais, incluyendo
        el nombre, anno y poblacion total
    
    Precondition
    ------------
    os.path.exists(fichero)
        El fichero debe estar situado en el directorio de
        trabajo actual
        
    Example
    -------
    >> obtener_datos_fichero(population.csv)
       Entity Year Total population
    0. Spain  1900    20134543
    1. Spain  1901    20554593
    2. Spain  1902    20994983       
    """
    assert os.path.exists(fichero), "El fichero no se encuentra en el directorio actual"
    filas = pd.read_csv(fichero)
    return filas[['Entity', 'Year', 'Total population (Gapminder, HYDE & UN)']]

In [95]:
# Prueba obtener_datos_fichero
# Si existe el fichero...
print(obtener_datos_fichero("population.csv"))

            Entity  Year  Total population (Gapminder, HYDE & UN)
0      Afghanistan  1800                                  3280000
1      Afghanistan  1801                                  3280000
2      Afghanistan  1802                                  3280000
3      Afghanistan  1803                                  3280000
4      Afghanistan  1804                                  3280000
...            ...   ...                                      ...
46878     Zimbabwe  2015                                 13815000
46879     Zimbabwe  2016                                 14030000
46880     Zimbabwe  2017                                 14237000
46881     Zimbabwe  2018                                 14439000
46882     Zimbabwe  2019                                 14645000

[46883 rows x 3 columns]


Se puede observar que existen, gracias a la anterior prueba, un total de __46.883__ filas en el fichero.

In [96]:
# Si no existe el fichero...
print(obtener_datos_fichero("population_2.csv"))

AssertionError: El fichero no se encuentra en el directorio actual

2. __obtener_crecimiento_pais__:  esta función devuelve, en forma de diccionario, el conjunto de parejas año, población (clave, valor) de un país dado como parámetro, junto con las filas recuperadas del DataFrame __pertenecientes a dicho país__.

In [105]:
def obtener_crecimiento_pais(pais, filas):
    """
    Funcion que devuelve un diccionario
    con las parejas anno, poblacion (clave, valor)
    segun el pais dado como parametro
    
    Parameters
    ----------
    pais: str
        Nombre del pais a consultar
    filas: list(int, int)
        Lista con el total de poblacion en
        cada anno
    
    Return
    ------
    dict{int : int}
        Diccionario formado por las parejas
        anno (clave) y poblacion (valor)
        
    Example
    -------
    >> obtener_crecimiento_pais("Spain", filas)
    {
        1900:20134543,
        1901:20554593,
        1902:20994983
    }      
    """
    return {int(fila[1]): int(fila[2]) for fila in filas}

3. __obtener_crecimiento_pais_anno__: función principal del apartado, recibiendo como parámetro el nombre del fichero. En primer lugar, recupera del _csv_ todas las filas almacenadas, gracias a la función _obtener_datos_fichero_ . A continuación, a través del método _unique_ de la librería _Pandas_ se obtienen los nombres de cada uno de los países, almacenándose en formato lista, gracias al método _tolist_.\
   Tras obtener el listado con los nombres de cada país, por medio de un bucle _for_ se crea un diccionario por cada uno de ellos, teniendo:
       - Key: nombre del país 
       - Value: un diccionario con los valores de población en cada año, obtenido gracias a la función obtener_crecimiento_pais.

    Con el objetivo de reducir la carga de trabajo, por cada llamada a _obtener_crecimiento_pais_ se filtra del DataFrame aquellas filas con el país correspondiente de cada iteración, de forma mucho más rápida a una lista o tupla convencional, como se muestra en el siguiente fragmento de código:
    
    ```
    obtener_crecimiento_pais(pais,filas[filas['Entity'] == pais].values.tolist()
    ```
    
    De este modo, una vez filtrado del DataFrame, se recuperan las filas y, finalmente, convertidas a una lista de valores. 

In [106]:
def obtener_crecimiento_pais_anno(fichero):
    """
    Funcion que devuelve un diccionario que contiene
    el valor de poblacion por cada pais y anno almacenado
    en el fichero
    
    Parameters
    ----------
    fichero: str
        Nombre del fichero a recuperar
    
    Return
    ------
    dict{str : dict(int, int)}
        Diccionario formado por las parejas
        pais (clave) y, como valor, un diccionario
        con el valor de poblacion por cada anno
        
    Example
    -------
    >> obtener_crecimiento_pais_anno('population.csv')
    {
        "Spain": {
            1900:20134543,
            1901:20554593,
            1902:20994983
        },
        "France": {
            1900:20934543,
            1901:21050194,
            1902:21764183
        }
    }      
    """
    filas = datos_fichero(fichero)
    paises = filas['Entity'].unique().tolist()
    
    crecimiento_annos = {pais: obtener_crecimiento_pais(pais,filas[filas['Entity'] == pais].values.tolist()) for pais in paises}
    return crecimiento_annos

Una vez creadas las funciones, realizamos las pruebas pertinentes que demuestren su correcto funcionamiento. En primer lugar, recuperamos el total del fichero, llamando a la función _obtener_crecimiento_pais_anno_ . Con el objetivo de mostrar el diccionario de forma __tabulada__ , mediante la librería _json_ se utiliza la función _dump_ que permite [codificar el diccionario a formato _json_ ](https://stackoverflow.com/questions/17167297/convert-this-python-dictionary-into-json-format), tal y como se muestra a continuación:

In [107]:
import json

datos_poblacion = obtener_crecimiento_pais_anno('population.csv')

# indent = 4 especifica que deben añadirse 4 espacios
# por cada nuevo campo en el diccionario
print(json.dumps(datos_poblacion, indent=4))

{
    "Afghanistan": {
        "1800": 3280000,
        "1801": 3280000,
        "1802": 3280000,
        "1803": 3280000,
        "1804": 3280000,
        "1805": 3280000,
        "1806": 3280000,
        "1807": 3280000,
        "1808": 3280000,
        "1809": 3280000,
        "1810": 3280000,
        "1811": 3280779,
        "1812": 3282342,
        "1813": 3284692,
        "1814": 3287834,
        "1815": 3291770,
        "1816": 3296506,
        "1817": 3302044,
        "1818": 3308390,
        "1819": 3315547,
        "1820": 3323519,
        "1821": 3332311,
        "1822": 3341926,
        "1823": 3352368,
        "1824": 3363642,
        "1825": 3375751,
        "1826": 3388701,
        "1827": 3402494,
        "1828": 3417136,
        "1829": 3432630,
        "1830": 3448982,
        "1831": 3466194,
        "1832": 3483492,
        "1833": 3500877,
        "1834": 3518348,
        "1835": 3535906,
        "1836": 3553552,
        "1837": 3571286,
        "1838": 3589109,
  

Dado que el conjunto de datos es demasiado elevado para comprobarlo, analicemos el número de elementos en el diccionario, con el objetivo de comprobar si equivale al número inicial de filas en el fichero (__46.883__), mediante una función denominada _numero_elementos_ que devuelve el número total de valores almacenados en un diccionario anidado.

Para ello, se obtiene la longitud de cada diccionario (anno, poblacion) recuperado de cada país, acumulando, mediante un bucle _for_ [__el sumatorio de cada una de las longitudes__](https://www.tutorialspoint.com/How-to-count-elements-in-a-nested-Python-dictionary):

In [108]:
def numero_elementos(datos_poblacion):
    """
    Funcion que devuelve el numero de elementos alojados en el diccionario
    
    Parameters
    ----------
    datos_poblacion: dict{str : dict{int: int}}
        Diccionario formado por las parejas
        pais (clave) y, como valor, un diccionario
        con el valor de poblacion en cada anno
    
    Return
    ------
    int
        Suma de las longitudes de cada valor
        del diccionario
        
    Example
    -------
    >> numero_elementos(datos_poblacion)
    46883 
    """
    return sum(len(fila) for fila in datos_poblacion.values())

In [109]:
# Prueba con numero_elementos
print("Total de filas: ", numero_elementos(datos_poblacion))

Total de filas:  46883
