In [64]:
import pandas as pd
import numpy as np
import itertools


In [65]:
df = pd.read_csv("../esi/downloads/esi2017.csv", sep = ';', usecols=['nac_migr', 'pais_prod', 'pais_res', 'can_jefm'])
# # remove whitespace across all column, both at the end and at the beginning of the string
df.columns = df.columns.str.strip()

isoc = pd.read_csv('../esi/files_support/ISOcodesEs.csv', sep = '\t', usecols=['País', 'iso2'])
countries = pd.read_csv('../esi/files_support/worldcountries.csv', sep = '\t', usecols=['country', 'latitude', 'longitude'])
cities = pd.read_csv('../esi/files_support/worldcities.csv', usecols=['city_ascii', 'lat', 'lng', 'country'])
cities_codes = pd.read_csv('../esi/files_support/cantones_codes.csv')



# Housekeeping
# must capitalize each worh in the CANTON column
cities_codes['CANTON'] = cities_codes['CANTON'].str.title()
# must filter to ecuadorian cities only in cities
cities = cities.loc[cities['country'] == 'Ecuador']

In [86]:
nac_migr = np.unique(df['nac_migr'])
pais_prod = np.unique(df['pais_prod'])
pais_res = np.unique(df['pais_res'])
can_jefm = np.unique(df['can_jefm'])

In [92]:
# Do nac_migr, pais_prod, pais_res all have the same country labels 
# `results` is a list of tuples for all elements that are identical in three lists. It builds upon itertools product which return cartesian product of inputs
results = list(filter(lambda x: x[0] == x[1] == x[2], itertools.product(nac_migr, pais_prod, pais_res)))
is_repeated = [x[0] for x in results]

nac_migr_not_repeated = [x for x in nac_migr if x not in is_repeated]
pais_prod_not_repeated = [x for x in pais_prod if x not in is_repeated]
pais_res_not_repeated = [x for x in pais_res if x not in is_repeated]

In [103]:
pd.DataFrame.from_dict(
    {'nac_migr_': nac_migr_not_repeated,
    'pais_prod_': pais_prod_not_repeated,
    'pais_res_': pais_res_not_repeated},
    orient = 'index'
)


print(len(nac_migr), len(pais_prod), len(pais_res))

222 227 234


In [105]:
# Which countries of nac_migr and pais_res do not appear in pais_prod so as to be included
# in original dictionary present in script

nac_migr_not_pais_prod = [x for x in nac_migr if x not in pais_prod]
pais_res_not_pais_prod = [x for x in pais_res if x not in pais_prod]

print(nac_migr_not_pais_prod, '-----', pais_res_not_pais_prod)

['Anguila', 'Comoras', 'Ecuador', 'Groenlandia', 'Islas Cook', 'Kosovo', 'Montserrat', 'Reunión', 'San Pedro y Miquelón'] ----- ['Anguila', 'Comoras', 'Ecuador', 'Guernsey', 'Isla Bouvet', 'Islas Cocos ó Keeling', 'Islas Cook', 'Islas Ultramarinas de EE UU', 'Islas Wallis y Futuna', 'Kosovo', 'Reunión', 'San Bartolomé', 'San Pedro y Miquelón']


In [66]:
# Create a dictionary with new names for the countries that weren't matched 
countries_dict = {
    'Antigua República Yugoslava de Macedonia': 'Macedonia del Norte',
    'Barein' : 'Bahrein',
    'Bielorrusia' : 'Belarús',
    'Bonaire, San Eustaquio y Saba' : 'Not',
    'Bosnia y Herzegovina' : '`Bosnia y Hercegovina`',
    'Brunei Darussalam' : 'Brunéi',
    'Camboya' : 'Cambodia',
    'Comoras' : 'Comores',
    'Curazao' : 'Curaçao',
    'Estados Unidos de América' : 'Estados Unidos',
    'Federación de Rusia' : 'Rusia',
    'Fiyi' : 'Fiji',
    'Guernsey' : 'Not',
    'Guinea-Bisau' : 'Guinea-Bissau',
    'Guyana' : 'Guayana',
    'Hong Kong (Región Administrativa Especial de China)' : 'Hong Kong',
    'Irak' : 'Iraq',
    'Isla de Navidad (Chistmas)' : 'Isla de Navidad',
    'Islas Aland' : 'Islas Åland',
    'Islas Georgias del Sur y Sándwich  del Sur' : 'Georgia del Sur y las Islas Sandwich del Sur',
    'Islas Heard y Mc Donald' : 'Islas Heard y McDonald',
    'Islas Malvinas (Falkland)' : 'Islas Malvinas',
    'Islas Marianas Septentrionales' : 'Islas Marianas del Norte',
    'Islas Norfolk' : 'Isla Norfolk',
    'Islas Ultramarinas de EE UU' : 'Not',
    'Islas Vírgenes Británicas' : 'Islas Vírgenes (UK)',
    'Islas Vírgenes de los Estados Unidos' : 'Islas Vírgenes Americanas',
    'Kazajistán' : 'Kazajstán',
    'Lesoto' : 'Lesotho',
    'Mauricio' : 'Isla Mauricio',
    'Micronesia (Estados Federados de)' : 'Estados Federados de Micronesia',
    'Mónaco' : 'Principado de Mónaco',
    'Nueva Zelanda' : 'Nueva Zelandia',
    'Pitcairn' : 'Islas Pitcairn',
    'Polinesia francesa' : 'Polinesia Francesa',
    'República Checa' : 'Chequia',
    'República Democrática Popular Lao' : 'Laos',
    'República Popular Democrática de Corea' : 'Corea del Norte',
    'República de Corea del Sur' : 'Corea del Sur',
    'República de Moldovia' : 'Moldavia',
    'República Árabe Siria' : 'Siria',
    'San Martín' : 'Sint Maarten',
    'San Martín (Parte francesa)' : 'Isla de San Martín',
    'Santa Sede (Vaticano)' : 'Ciudad del Vaticano',
    'Sint Maarten (Parte Holandesa)' : 'Sint Maarten',
    'Suazilandia' : 'Esuatini',
    'Taiwán (República de China)' : 'Taiwán',
    'Tanzania (República Unida de)' : 'Tanzania',
    'Tanzania (República Unida de) ' : 'Tanzania',
    'Timor-Leste' : 'Timor Oriental',
    'Islas Cocos ó Keeling' : 'Islas Cocos',
    'Islas Wallis y Futuna' : 'Wallis y Futuna'
}

# create dictionary to change can_jefm column in df
cantones_dict = {
    'Sucumbíos' : 'Nueva Loja',
    'San Lorenzo' : 'San Lorenzo de Esmeraldas',
    'Espíndola' : 'Loja', 
    'Chinchipe' : 'Zamora', 
    'Zapotillo' : 'Loja',
    'Puerto el Carmen del Putumayo' : 'Nueva Loja', 
    'Aguarico': 'Puerto Francisco de Orellana',
    'San Cristóbal' : 'Puerto Baquerizo Moreno', 
    'Isabela' : 'Puerto Villamil', 
    'Lago Agrio':'Nueva Loja',
}

print(df.shape)

# use dictionaries to replace columns' values.
# Important to get merge df with
df.replace({
    'pais_prod': countries_dict,
    'pais_res' : countries_dict,
    'nac_migr' : countries_dict,
    'can_jefm' : cantones_dict
}, inplace=True)

(6180175, 4)


In [68]:
print(df.shape)
df0 = pd.merge(df, cities, how = 'left', left_on='can_jefm', right_on='city_ascii')
print(df0.shape)
df1 = pd.merge(df0, isoc, how = 'left', left_on = 'nac_migr', right_on = 'País')
print(df1.shape)
df2 = pd.merge(df1, countries, how = 'left', left_on = 'iso2', right_on = 'country')
print(df2.shape)
df3 = pd.merge(df2, isoc, how = 'left', left_on = 'pais_prod', right_on = 'País', suffixes=('', '_pais_prod'))
print(df3.shape)
df4 = pd.merge(df3, countries, how = 'left', left_on = 'iso2_pais_prod', right_on = 'country',suffixes=('', '_pais_prod'))
print(df4.shape)

(6180175, 4)
(6180175, 8)
(6180175, 10)
(6180175, 13)
(6180175, 15)
(6180175, 18)


In [72]:
print(df.columns)
print(df0.columns)
print(df1.columns)
print(df2.columns)
print(df3.columns)
print(df4.columns)

Index(['nac_migr', 'pais_prod', 'pais_res', 'can_jefm'], dtype='object')
Index(['nac_migr', 'pais_prod', 'pais_res', 'can_jefm', 'city_ascii', 'lat',
       'lng', 'country'],
      dtype='object')
Index(['nac_migr', 'pais_prod', 'pais_res', 'can_jefm', 'city_ascii', 'lat',
       'lng', 'country', 'País', 'iso2'],
      dtype='object')
Index(['nac_migr', 'pais_prod', 'pais_res', 'can_jefm', 'city_ascii', 'lat',
       'lng', 'country_x', 'País', 'iso2', 'country_y', 'latitude',
       'longitude'],
      dtype='object')
Index(['nac_migr', 'pais_prod', 'pais_res', 'can_jefm', 'city_ascii', 'lat',
       'lng', 'country_x', 'País', 'iso2', 'country_y', 'latitude',
       'longitude', 'País_pais_prod', 'iso2_pais_prod'],
      dtype='object')
Index(['nac_migr', 'pais_prod', 'pais_res', 'can_jefm', 'city_ascii', 'lat',
       'lng', 'country_x', 'País', 'iso2', 'country_y', 'latitude',
       'longitude', 'País_pais_prod', 'iso2_pais_prod', 'country',
       'latitude_pais_prod', 'longitu

In [73]:
df0.head()

Unnamed: 0,nac_migr,pais_prod,pais_res,can_jefm,city_ascii,lat,lng,country
0,Sin especificar,Italia,Italia,Guayaquil,Guayaquil,-2.1833,-79.8833,Ecuador
1,Zambia,Estados Unidos,Estados Unidos,Quito,Quito,-0.2186,-78.5097,Ecuador
2,Zambia,Zambia,Zambia,Quito,Quito,-0.2186,-78.5097,Ecuador
3,Zambia,Zambia,Zambia,Guayaquil,Guayaquil,-2.1833,-79.8833,Ecuador
4,Zambia,Estados Unidos,Estados Unidos,Quito,Quito,-0.2186,-78.5097,Ecuador


In [58]:
df = df4.drop(['city_ascii', 'iso2', 'iso2_pais_prod', 'País', 'País_pais_prod'], axis=1)

refactor_dict = {
    'lat'                : 'lat_can_jefm',
    'lng'                : 'lng_can_jefm',
    'country'            : 'iso_nac_migr',
    'latitude'           : 'lat_nac_migr',
    'longitude'          : 'lng_nac_migr',
    'country_pais_prod'  : 'iso_pais_prod',
    'latitude_pais_prod' : 'lat_pais_prod',
    'longitude_pais_prod': 'lng_pais_prod'
}

df.rename(columns = refactor_dict, inplace=True)

In [60]:
print(df0.shape)
print(df1.shape)
print(df2.shape)
print(df3.shape)
print(df4.shape)


(6310372, 7)
(6310372, 9)
(6310372, 12)
(6310372, 14)
(6310372, 17)


Unnamed: 0,city_ascii,lat,lng,country
292,Guayaquil,-2.1833,-79.8833,Ecuador
388,Quito,-0.2186,-78.5097,Ecuador
1896,Cuenca,-2.8974,-79.0045,Ecuador
2238,Santo Domingo de los Colorados,-0.2542,-79.1719,Ecuador
2514,Machala,-3.2667,-79.9667,Ecuador
...,...,...,...,...
33643,Pillaro,-1.1667,-78.5333,Ecuador
38582,Pedro Vicente Maldonado,0.0853,-79.0511,Ecuador
38842,Archidona,-0.9167,-77.7833,Ecuador
40214,Puerto Villamil,-0.9333,-91.0167,Ecuador
