## Dictionaries for data science

A continuación procederemos a hacer uso de la función **zip()** para convertir dos listas en un diccionario. 

In [1]:
#Nos creamos las dos listas
feature_names = ['CountryName','CountryCode','IndicatorName','IndicatorCode','Year','Value']
row_vals = ['Arab World','ARB','Adolescent fertility rate (births per 1,000 women ages 15-19)','SP.ADO.TFRT','1960',
            '133.56090740552298']

#Hacemos uso de la función zip
zipped_list = zip(feature_names, row_vals)

#Nos creamos el diccionario a partir de nuestro objeto zip
rs_dict = dict(zipped_list)

#Mostramos nuestro diccionario 
print(rs_dict)

{'CountryName': 'Arab World', 'CountryCode': 'ARB', 'IndicatorName': 'Adolescent fertility rate (births per 1,000 women ages 15-19)', 'IndicatorCode': 'SP.ADO.TFRT', 'Year': '1960', 'Value': '133.56090740552298'}


## Writing a function to help you

Supongamos que el proceso realizado anteriormente, lo queremos repetir para una gran cantidad de datos, en este caso la mejor forma de hacer esto es creándonos una función que nos permita realizar este proceso de una forma más adecuada.

In [2]:
def list2dict(list1, list2):
    '''Return a dictionary where the list1 are de keys and the list2 are the values'''
    zipped_list = zip(list1, list2)
    rs_dict = dict(zipped_list)
    return rs_dict

result = list2dict(feature_names, row_vals)
print(result)

{'CountryName': 'Arab World', 'CountryCode': 'ARB', 'IndicatorName': 'Adolescent fertility rate (births per 1,000 women ages 15-19)', 'IndicatorCode': 'SP.ADO.TFRT', 'Year': '1960', 'Value': '133.56090740552298'}


## Using a list comprehension

Ahora supongamos que el número de extacciones es realmente elevado, y deseamos obtener una lista de diccionarios para cada una de las extracciones, para poder hacer esto podemos utilizar las llamadas listas comprimidas.

In [3]:
#Nos creamos nuestros datos
row_lists = [['Arab World',
  'ARB',
  'Adolescent fertility rate (births per 1,000 women ages 15-19)',
  'SP.ADO.TFRT',
  '1960',
  '133.56090740552298'],
 ['Arab World',
  'ARB',
  'Age dependency ratio (% of working-age population)',
  'SP.POP.DPND',
  '1960',
  '87.7976011532547'],
 ['Arab World',
  'ARB',
  'Age dependency ratio, old (% of working-age population)',
  'SP.POP.DPND.OL',
  '1960',
  '6.634579191565161'],
 ['Arab World',
  'ARB',
  'Age dependency ratio, young (% of working-age population)',
  'SP.POP.DPND.YG',
  '1960',
  '81.02332950839141'],
 ['Arab World',
  'ARB',
  'Arms exports (SIPRI trend indicator values)',
  'MS.MIL.XPRT.KD',
  '1960',
  '3000000.0'],
 ['Arab World',
  'ARB',
  'Arms imports (SIPRI trend indicator values)',
  'MS.MIL.MPRT.KD',
  '1960',
  '538000000.0'],
 ['Arab World',
  'ARB',
  'Birth rate, crude (per 1,000 people)',
  'SP.DYN.CBRT.IN',
  '1960',
  '47.697888095096395'],
 ['Arab World',
  'ARB',
  'CO2 emissions (kt)',
  'EN.ATM.CO2E.KT',
  '1960',
  '59563.9892169935'],
 ['Arab World',
  'ARB',
  'CO2 emissions (metric tons per capita)',
  'EN.ATM.CO2E.PC',
  '1960',
  '0.6439635478877049'],
 ['Arab World',
  'ARB',
  'CO2 emissions from gaseous fuel consumption (% of total)',
  'EN.ATM.CO2E.GF.ZS',
  '1960',
  '5.041291753975099'],
 ['Arab World',
  'ARB',
  'CO2 emissions from liquid fuel consumption (% of total)',
  'EN.ATM.CO2E.LF.ZS',
  '1960',
  '84.8514729446567'],
 ['Arab World',
  'ARB',
  'CO2 emissions from liquid fuel consumption (kt)',
  'EN.ATM.CO2E.LF.KT',
  '1960',
  '49541.707291032304'],
 ['Arab World',
  'ARB',
  'CO2 emissions from solid fuel consumption (% of total)',
  'EN.ATM.CO2E.SF.ZS',
  '1960',
  '4.72698138789597'],
 ['Arab World',
  'ARB',
  'Death rate, crude (per 1,000 people)',
  'SP.DYN.CDRT.IN',
  '1960',
  '19.7544519237187'],
 ['Arab World',
  'ARB',
  'Fertility rate, total (births per woman)',
  'SP.DYN.TFRT.IN',
  '1960',
  '6.92402738655897'],
 ['Arab World',
  'ARB',
  'Fixed telephone subscriptions',
  'IT.MLT.MAIN',
  '1960',
  '406833.0'],
 ['Arab World',
  'ARB',
  'Fixed telephone subscriptions (per 100 people)',
  'IT.MLT.MAIN.P2',
  '1960',
  '0.6167005703199'],
 ['Arab World',
  'ARB',
  'Hospital beds (per 1,000 people)',
  'SH.MED.BEDS.ZS',
  '1960',
  '1.9296220724398703'],
 ['Arab World',
  'ARB',
  'International migrant stock (% of population)',
  'SM.POP.TOTL.ZS',
  '1960',
  '2.9906371279862403'],
 ['Arab World',
  'ARB',
  'International migrant stock, total',
  'SM.POP.TOTL',
  '1960',
  '3324685.0']]

In [4]:
#Aplicamos listas comprimidas para crearnos una lista de diccionarios
list_of_dicts = [list2dict(feature_names, sublist) for sublist in row_lists]

#Mostramos los resultados de las 2 primeras observaciones
print(list_of_dicts[0])
print(list_of_dicts[1])

{'CountryName': 'Arab World', 'CountryCode': 'ARB', 'IndicatorName': 'Adolescent fertility rate (births per 1,000 women ages 15-19)', 'IndicatorCode': 'SP.ADO.TFRT', 'Year': '1960', 'Value': '133.56090740552298'}
{'CountryName': 'Arab World', 'CountryCode': 'ARB', 'IndicatorName': 'Age dependency ratio (% of working-age population)', 'IndicatorCode': 'SP.POP.DPND', 'Year': '1960', 'Value': '87.7976011532547'}


## Turning this all into a DataFrame

Ahora que ya tenemos todas esta información organizada de una forma adecuada, podemos pasar esto a dataframe, que es el tipo de datos más común a la hora de trabajar con datos.

In [5]:
#Importamos librería pandas
import pandas as pd

#Pasamos a dataframe
df = pd.DataFrame(list_of_dicts)

#Vemos las primeras observaciones
print(df.head())

  CountryCode CountryName   IndicatorCode  \
0         ARB  Arab World     SP.ADO.TFRT   
1         ARB  Arab World     SP.POP.DPND   
2         ARB  Arab World  SP.POP.DPND.OL   
3         ARB  Arab World  SP.POP.DPND.YG   
4         ARB  Arab World  MS.MIL.XPRT.KD   

                                       IndicatorName               Value  Year  
0  Adolescent fertility rate (births per 1,000 wo...  133.56090740552298  1960  
1  Age dependency ratio (% of working-age populat...    87.7976011532547  1960  
2  Age dependency ratio, old (% of working-age po...   6.634579191565161  1960  
3  Age dependency ratio, young (% of working-age ...   81.02332950839141  1960  
4        Arms exports (SIPRI trend indicator values)           3000000.0  1960  


## Processing data in chunks (1)

En determinadas ocasiones los conjuntos de datos pueden ser de gran tamaño, de forma que almacenar el conjunto de datos completo se convierte en una tarea complicada. A continuación vamos a proceder a procesar las 1000 primeras filas de nuestro conjunto, de forma que nos crearemos un vector que nos indique el número de veces que aparece cada país. 

In [6]:
#Abrimos conexión con el fichero 
with open("world_ind_pop_data.csv") as file:
    #Saltamos la primera fila que contiene el nombre de las columnas
    file.readline()
    #inicializamos un diccionario vacío
    counts_dic = {}
    #Procesamos las primeras 1000 filas
    for j in range(0,1000):
        #Leemos la fila actual y la pasamos a tipo lista
        line = file.readline().split(",")
        #Obtenemos el valor de la primera columna
        first_col = line[0]
        if first_col in counts_dic.keys():
            counts_dic[first_col] += 1
        else:
            counts_dic[first_col] = 1

print(counts_dic)

{'Arab World': 5, 'Caribbean small states': 5, 'Central Europe and the Baltics': 5, 'East Asia & Pacific (all income levels)': 5, 'East Asia & Pacific (developing only)': 5, 'Euro area': 5, 'Europe & Central Asia (all income levels)': 5, 'Europe & Central Asia (developing only)': 5, 'European Union': 5, 'Fragile and conflict affected situations': 5, 'Heavily indebted poor countries (HIPC)': 5, 'High income': 5, 'High income: nonOECD': 5, 'High income: OECD': 5, 'Latin America & Caribbean (all income levels)': 5, 'Latin America & Caribbean (developing only)': 5, 'Least developed countries: UN classification': 5, 'Low & middle income': 5, 'Low income': 5, 'Lower middle income': 5, 'Middle East & North Africa (all income levels)': 5, 'Middle East & North Africa (developing only)': 5, 'Middle income': 5, 'North America': 5, 'OECD members': 5, 'Other small states': 5, 'Pacific island small states': 5, 'Small states': 5, 'South Asia': 5, 'Sub-Saharan Africa (all income levels)': 5, 'Sub-Saha

## Writing a generator to load data in chunks (2)

En el ejercicio anterior lo que hicimos fue procesar las 1000 primeras filas, línea por línea, sin embargo si queremos procesar el dataset completo quizás esto no sea lo más eficiente. En este caso quizás si que sea una buena opción hacer uso de los generadores. La forma de evaluar los datos por parte de los generadores es muy útil cuando tenemos que tratar con conjuntos de datos muy grande, ya que nos permiten generar valores de una forma eficiente al tratar los datos por trazos y no al completo.

In [7]:
def read_large_file(file_object):
    '''A generator function to read a large file lazaly'''
    #Generamos un bucle while que recorrerá el fichero al completo 
    while True:
        #Realizamos la lectura línea a línea
        data = file_object.readline()
        #Nos salimos del bucle si llegamos al final del fichero 
        if not data:
            break
        yield data

#Abrimos conexión con el fichero 
with open("world_ind_pop_data.csv") as file:
    #Creamos un objeto generador para el fichero 
    gen_file = read_large_file(file)
    #Mostramos las primeras tres líneas
    print(next(gen_file))
    print(next(gen_file))
    print(next(gen_file))

CountryName,CountryCode,Year,Total Population,Urban population (% of total)

Arab World,ARB,1960,92495902.0,31.285384211605397

Caribbean small states,CSS,1960,4190810.0,31.5974898513652



## Writing a generator to load data in chunks (3)

A continuación vamos a ver el número de veces que aparece cada uno de los países, pero en este caso no serán para las primeras 1000 filas, sino que será para el dataset completo.

In [11]:
#Nos creamos un diccionario vacío 
count_dict = {}

#Abrimos una conexión a nuestro fichero 
with open("world_ind_pop_data.csv") as file:
    for line in read_large_file(file):
        row = line.split(",")
        first_col = row[0]
        if first_col in count_dict.keys():
            count_dict[first_col] += 1
        else:
            count_dict[first_col] = 1
            
print(count_dict)

{'CountryName': 1, 'Arab World': 55, 'Caribbean small states': 55, 'Central Europe and the Baltics': 55, 'East Asia & Pacific (all income levels)': 55, 'East Asia & Pacific (developing only)': 55, 'Euro area': 55, 'Europe & Central Asia (all income levels)': 55, 'Europe & Central Asia (developing only)': 55, 'European Union': 55, 'Fragile and conflict affected situations': 55, 'Heavily indebted poor countries (HIPC)': 55, 'High income': 55, 'High income: nonOECD': 55, 'High income: OECD': 55, 'Latin America & Caribbean (all income levels)': 55, 'Latin America & Caribbean (developing only)': 55, 'Least developed countries: UN classification': 55, 'Low & middle income': 55, 'Low income': 55, 'Lower middle income': 55, 'Middle East & North Africa (all income levels)': 55, 'Middle East & North Africa (developing only)': 55, 'Middle income': 55, 'North America': 55, 'OECD members': 55, 'Other small states': 55, 'Pacific island small states': 55, 'Small states': 55, 'South Asia': 55, 'Sub-Sa

## Writing an iterator to load data in chunks (1)

Otra forma de leer datos que son demasiado grandes para ser almacenados en memoria, es hacer una lectura por trozos, por ejemplo la función **read_csv()** del paquete **pandas** nos permite leer nuestro dataframe en trozos, haciendo uso de la del parámetro **chunksize**. Lo que hace es crear un objeto de tipo iterable.

In [12]:
#Importamos la librería
import pandas as pd 

#Hacemos la lectura con un chuncksize de 10
df_reader = pd.read_csv("world_ind_pop_data.csv", chunksize = 10)

#Mostramos las dos primeras iteraciones, cada una de ellas será de tamaño 10
print(next(df_reader))
print(next(df_reader))

                                 CountryName CountryCode  Year  \
0                                 Arab World         ARB  1960   
1                     Caribbean small states         CSS  1960   
2             Central Europe and the Baltics         CEB  1960   
3    East Asia & Pacific (all income levels)         EAS  1960   
4      East Asia & Pacific (developing only)         EAP  1960   
5                                  Euro area         EMU  1960   
6  Europe & Central Asia (all income levels)         ECS  1960   
7    Europe & Central Asia (developing only)         ECA  1960   
8                             European Union         EUU  1960   
9   Fragile and conflict affected situations         FCS  1960   

   Total Population  Urban population (% of total)  
0      9.249590e+07                      31.285384  
1      4.190810e+06                      31.597490  
2      9.140158e+07                      44.507921  
3      1.042475e+09                      22.471132  
4      8

## Writing an iterator to load data in chunks (2)

A continuación vamos a proceder a realizar una lectura con un chunksize de 1000 y tras esto vamos a proceder a tratar esta información.

In [22]:
#Realizamos la lectura de los datos
df_reader = pd.read_csv("world_ind_pop_data.csv", chunksize = 1000)

#Almacenamos el primer trozo 
df_urb_pop = next(df_reader)

#Vemos las primeras observaciones
print(df_urb_pop.head())

                               CountryName CountryCode  Year  \
0                               Arab World         ARB  1960   
1                   Caribbean small states         CSS  1960   
2           Central Europe and the Baltics         CEB  1960   
3  East Asia & Pacific (all income levels)         EAS  1960   
4    East Asia & Pacific (developing only)         EAP  1960   

   Total Population  Urban population (% of total)  
0      9.249590e+07                      31.285384  
1      4.190810e+06                      31.597490  
2      9.140158e+07                      44.507921  
3      1.042475e+09                      22.471132  
4      8.964930e+08                      16.917679  


In [23]:
#Filtramos por los países que tienen un CountryCode igual a CEB
df_pop_ceb = df_urb_pop[df_urb_pop["CountryCode"] == "CEB"]

#Hacemo sun zip de las columnas Total Population y Urban population (% of total)
pops = zip(df_pop_ceb["Total Population"], df_pop_ceb["Urban population (% of total)"])

#Pasamos a tipo lista
list_pops = list(pops)

#Mostramos el resultado 
print(list_pops)

[(91401583.0, 44.507921139002597), (92237118.0, 45.206665319194002), (93014890.0, 45.866564696018003), (93845749.0, 46.5340927663649), (94722599.0, 47.208742980352604)]


## Writing an iterator to load data in chunks (3)

A continuación vamos a proceder a hacer uso de la listas comprimidas para generarnos una nueva columna en nuestro conjunto de datos.

In [25]:
#Importamos la librería
import matplotlib.pyplot as plt

#Nos creamos la nueva columna
df_pop_ceb["Total Urban Population"] = [int(tup[0] * tup[1] * 0.01) for tup in list_pops]

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  """
