This scripts matches the naming conventions of IPYS data collection with the naming and codes from our geographic files. IPYS names were taken from [this spreadheet](https://docs.google.com/spreadsheets/d/1EbW1r-uiWH_2Vc2WZSUjFpgFHr_2U0OzvgdKnNhtWZw/edit?usp=sharing).

In [1]:
from fuzzymatcher import link_table, fuzzy_left_join
from fuzzywuzzy import fuzz, process
import geopandas as gpd
import pandas as pd

In [2]:
# Reads both files
ipys_names = pd.read_csv("../input/code-correspondence.csv")
geo_names = gpd.read_file("../output/level-2.geojson")

In [3]:
ipys_names.head()

Unnamed: 0,level_1_name,level_2_name,level_1_code,level_2_code
0,Amazonas,Alto Orinoco (La Esmeralda),,
1,Amazonas,Atabapo (San Fernando de Atabapo),,
2,Amazonas,Atures (Puerto Ayacucho),,
3,Amazonas,Autana (Isla Ratón),,
4,Amazonas,Manapiare (San Juan de Manapiare),,


In [4]:
geo_names.head()

Unnamed: 0,parent_code,parent_name,code,name,geometry
0,VE02,Amazonas,VE0202,Autónomo Atabapo,"POLYGON ((-66.33494 4.26540, -66.27128 4.22420..."
1,VE02,Amazonas,VE0207,Autónomo Rio Negro,"POLYGON ((-65.92352 2.88024, -65.92278 2.87806..."
2,VE02,Amazonas,VE0205,Autónomo Maroa,"POLYGON ((-67.43485 3.24847, -67.43485 3.24847..."
3,VE02,Amazonas,VE0204,Autónomo Autana,"POLYGON ((-66.41415 5.73555, -66.41180 5.72659..."
4,VE02,Amazonas,VE0203,Autónomo Atures,"POLYGON ((-67.43503 6.18680, -67.43404 6.18646..."


In [5]:
# Keeps only needed columns
geo_names = geo_names[['parent_name', 'parent_code', 'name', 'code']]

In [6]:
# Changes 'La Guaira' for 'Vargas' and standardizes Distrito Capital spelling
geo_names['parent_name'] = geo_names.parent_name.replace({'La Guaira': 'Vargas', 'Distrito Capital': 'Distrito capital'})

In [7]:
# Makes everything else lowercase
# ipys_names = ipys_names.apply(lambda x: x.str.lower(), axis=1)
# level_2 = level_2.apply(lambda x: x.str.lower(), axis=1)

In [8]:
geo_names

Unnamed: 0,parent_name,parent_code,name,code
0,Amazonas,VE02,Autónomo Atabapo,VE0202
1,Amazonas,VE02,Autónomo Rio Negro,VE0207
2,Amazonas,VE02,Autónomo Maroa,VE0205
3,Amazonas,VE02,Autónomo Autana,VE0204
4,Amazonas,VE02,Autónomo Atures,VE0203
...,...,...,...,...
361,Zulia,VE23,Cabimas,VE2303
362,Zulia,VE23,Lagunillas,VE2310
363,Zulia,VE23,Valmore Rodríguez,VE2321
364,Zulia,VE23,Mara,VE2312


In [9]:
# Let's try a quick and dirty fuzzy matcher
# https://stackoverflow.com/a/56315491

def fuzzy_merge(df_1, df_2, key1, key2, threshold=90, limit=2):
    """
    :param df_1: the left table to join
    :param df_2: the right table to join
    :param key1: key column of the left table
    :param key2: key column of the right table
    :param threshold: how close the matches should be to return a match, based on Levenshtein distance
    :param limit: the amount of matches that will get returned, these are sorted high to low
    :return: dataframe with boths keys and matches
    """
    s = df_2[key2].tolist()
    
    m = df_1[key1].apply(lambda x: process.extract(x, s, limit=limit))    
    df_1['matches'] = m
    
    m2 = df_1['matches'].apply(lambda x: ', '.join([i[0] for i in x if i[1] >= threshold]))
    df_1['matches'] = m2
    
    return df_1

In [10]:
# To improve accuracy, let's do it within each state and get the closet match.
# As we do it, let's also display the results so we can manually correct them later
new_df = []
for level_1_name in ipys_names.level_1_name.unique():
    
    subset_ipys = ipys_names[ipys_names.level_1_name==level_1_name].reset_index()
    subset_geo = geo_names[geo_names.parent_name==level_1_name].reset_index()
    
    #display(subset_ipys, subset_geo)
    
    # We will remove the parts of the name within the parenthesis of IPYS naming for easy matching
    subset_ipys['level_2_name_simplified'] = subset_ipys['level_2_name'].str.replace(r"\(.*\)","")
    
    merge = fuzzy_left_join(subset_ipys, subset_geo, 'level_2_name_simplified', 'name')
    #merge = fuzzy_merge(subset_ipys, subset_geo, 'level_2_name', 'name')
        
    # Renaming and filtering columns for clarity
    merge = merge[['level_1_name', 'level_2_name','parent_name', 'name',  'parent_code', 'code']]
    
    merge = merge.rename(columns={
        'level_1_name': 'IPYS_level_1_name',
        'level_2_name': 'IPYS_level_2_name',
        'parent_name': 'geo_level_1_name',
        'parent_code': 'geo_level_1_code',
        'name': 'geo_level_2_name',
        'code': 'geo_level_2_code'
    })
    
    new_df.append(merge)
    
    display(merge)

  subset_ipys['level_2_name_simplified'] = subset_ipys['level_2_name'].str.replace(r"\(.*\)","")


Unnamed: 0,IPYS_level_1_name,IPYS_level_2_name,geo_level_1_name,geo_level_2_name,geo_level_1_code,geo_level_2_code
0,Amazonas,Alto Orinoco (La Esmeralda),Amazonas,Autónomo Alto Orinoco,VE02,VE0201
1,Amazonas,Atabapo (San Fernando de Atabapo),Amazonas,Autónomo Atabapo,VE02,VE0202
2,Amazonas,Atures (Puerto Ayacucho),Amazonas,Autónomo Atures,VE02,VE0203
3,Amazonas,Autana (Isla Ratón),Amazonas,Autónomo Autana,VE02,VE0204
4,Amazonas,Manapiare (San Juan de Manapiare),Amazonas,Manapiare,VE02,VE0206
5,Amazonas,Maroa,Amazonas,Autónomo Maroa,VE02,VE0205
6,Amazonas,Río Negro (San Carlos de Río Negro),Amazonas,Autónomo Rio Negro,VE02,VE0207


  subset_ipys['level_2_name_simplified'] = subset_ipys['level_2_name'].str.replace(r"\(.*\)","")


Unnamed: 0,IPYS_level_1_name,IPYS_level_2_name,geo_level_1_name,geo_level_2_name,geo_level_1_code,geo_level_2_code
0,Anzoátegui,Anaco,Anzoátegui,Anaco,VE03,VE0301
1,Anzoátegui,Aragua (Aragua de Barcelona),Anzoátegui,Aragua,VE03,VE0302
2,Anzoátegui,Bolívar (Barcelona),Anzoátegui,Simón Bolívar,VE03,VE0318
3,Anzoátegui,Bruzual (Clarines),Anzoátegui,Manuel Ezequiel Bruzual,VE03,VE0312
4,Anzoátegui,Cajigal (Onoto),Anzoátegui,Juan Manuel Cajigal,VE03,VE0309
5,Anzoátegui,Diego Bautista Urbaneja (Lechería),Anzoátegui,Diego Bautista Urbaneja,VE03,VE0321
6,Anzoátegui,Freites (Cantaura),Anzoátegui,Pedro María Freites,VE03,VE0313
7,Anzoátegui,Guanipa (San José de Guanipa),Anzoátegui,San José de Guanipa,VE03,VE0315
8,Anzoátegui,Guanta (Guanta),Anzoátegui,Guanta,VE03,VE0306
9,Anzoátegui,Independencia (Soledad),Anzoátegui,Independencia,VE03,VE0307


  subset_ipys['level_2_name_simplified'] = subset_ipys['level_2_name'].str.replace(r"\(.*\)","")


Unnamed: 0,IPYS_level_1_name,IPYS_level_2_name,geo_level_1_name,geo_level_2_name,geo_level_1_code,geo_level_2_code
0,Apure,Achaguas (Achaguas),Apure,Achaguas,VE04,VE0401
1,Apure,Biruaca (Biruaca),Apure,Biruaca,VE04,VE0402
2,Apure,Muñoz (Bruzual),Apure,Muñoz,VE04,VE0403
3,Apure,Páez (Guasdualito),Apure,Páez,VE04,VE0404
4,Apure,Pedro Camejo (San Juan de Payara),Apure,Pedro Camejo,VE04,VE0405
5,Apure,Rómulo Gallegos (Elorza),Apure,Rómulo Gallegos,VE04,VE0406
6,Apure,San Fernando (San Fernando de Apure),Apure,San Fernando,VE04,VE0407


  subset_ipys['level_2_name_simplified'] = subset_ipys['level_2_name'].str.replace(r"\(.*\)","")


Unnamed: 0,IPYS_level_1_name,IPYS_level_2_name,geo_level_1_name,geo_level_2_name,geo_level_1_code,geo_level_2_code
0,Aragua,Bolívar (San Mateo),Aragua,Bolívar,VE05,VE0501
1,Aragua,Camatagua,Aragua,Camatagua,VE05,VE0502
2,Aragua,Francisco Linares Alcántara (Santa Rita),Aragua,Francisco Linares Alcántara,VE05,VE0517
3,Aragua,Girardot (Maracay),Aragua,Girardot,VE05,VE0503
4,Aragua,José Ángel Lamas (Santa Cruz),Aragua,José Ángel Lamas,VE05,VE0504
5,Aragua,José Félix Ribas (La Victoria),Aragua,José Félix Ribas,VE05,VE0505
6,Aragua,José Rafael Revenga (El Consejo),Aragua,José Rafael Revenga,VE05,VE0506
7,Aragua,Libertador (Palo Negro),Aragua,Libertador,VE05,VE0507
8,Aragua,Mario Briceño Iragorry (El Limón),Aragua,Mario Briceño Iragorri,VE05,VE0508
9,Aragua,Ocumare de la Costa de Oro (Ocumare de la Costa),Aragua,Ocumare de la Costa de Oro,VE05,VE0518


  subset_ipys['level_2_name_simplified'] = subset_ipys['level_2_name'].str.replace(r"\(.*\)","")


Unnamed: 0,IPYS_level_1_name,IPYS_level_2_name,geo_level_1_name,geo_level_2_name,geo_level_1_code,geo_level_2_code
0,Barinas,Alberto Arvelo Torrealba (Sabaneta),Barinas,Alberto Arvelo Torrealba,VE06,VE0601
1,Barinas,Andrés Eloy Blanco (El Cantón),Barinas,Andrés Eloy Blanco,VE06,VE0612
2,Barinas,Antonio José de Sucre (Socopó),Barinas,Antonio José de Sucre,VE06,VE0602
3,Barinas,Arismendi,Barinas,Arismendi,VE06,VE0603
4,Barinas,Barinas,Barinas,Barinas,VE06,VE0604
5,Barinas,Bolívar (Barinitas),Barinas,Bolívar,VE06,VE0605
6,Barinas,Cruz Paredes (Barrancas),Barinas,Cruz Paredes,VE06,VE0606
7,Barinas,Ezequiel Zamora (Santa Bárbara),Barinas,Ezequiel Zamora,VE06,VE0607
8,Barinas,Obispos,Barinas,Obispos,VE06,VE0608
9,Barinas,Pedraza (Ciudad Bolivia),Barinas,Pedraza,VE06,VE0609


  subset_ipys['level_2_name_simplified'] = subset_ipys['level_2_name'].str.replace(r"\(.*\)","")


Unnamed: 0,IPYS_level_1_name,IPYS_level_2_name,geo_level_1_name,geo_level_2_name,geo_level_1_code,geo_level_2_code
0,Bolívar,Angostura (Ciudad Piar),Bolívar,Bolivariano Angostura,VE07,VE0707
2,Bolívar,Cedeño (Caicara del Orinoco),Bolívar,Cedeño,VE07,VE0702
3,Bolívar,El Callao,Bolívar,El Callao,VE07,VE0703
4,Bolívar,Gran Sabana (Santa Elena de Uairén),Bolívar,Gran Sabana,VE07,VE0704
5,Bolívar,Heres (Ciudad Bolívar),,,,
6,Bolívar,Caroní (Ciudad Guayana),Bolívar,Caroní,VE07,VE0701
7,Bolívar,Padre Pedro Chien (El Palmar),Bolívar,Padre Pedro Chien,VE07,VE0711
8,Bolívar,Piar (Upata),Bolívar,Piar,VE07,VE0706
9,Bolívar,Roscio (Guasipati),Bolívar,Roscio,VE07,VE0708
10,Bolívar,Sifontes (Tumeremo),Bolívar,Sifontes,VE07,VE0709


  subset_ipys['level_2_name_simplified'] = subset_ipys['level_2_name'].str.replace(r"\(.*\)","")


Unnamed: 0,IPYS_level_1_name,IPYS_level_2_name,geo_level_1_name,geo_level_2_name,geo_level_1_code,geo_level_2_code
0,Carabobo,Bejuma,Carabobo,Bejuma,VE08,VE0801
1,Carabobo,Carlos Arvelo (Güigüe),Carabobo,Carlos Arvelo,VE08,VE0802
2,Carabobo,Diego Ibarra (Mariara),Carabobo,Diego Ibarra,VE08,VE0803
3,Carabobo,Guacara,Carabobo,Guacara,VE08,VE0804
4,Carabobo,Juan José Mora (Morón),Carabobo,Juan José Mora,VE08,VE0805
5,Carabobo,Libertador (Tocuyito),Carabobo,Libertador,VE08,VE0806
6,Carabobo,Los Guayos,Carabobo,Los Guayos,VE08,VE0807
7,Carabobo,Miranda,Carabobo,Miranda,VE08,VE0808
8,Carabobo,Montalbán,Carabobo,Montalbán,VE08,VE0809
9,Carabobo,Naguanagua,Carabobo,Naguanagua,VE08,VE0810


  subset_ipys['level_2_name_simplified'] = subset_ipys['level_2_name'].str.replace(r"\(.*\)","")


Unnamed: 0,IPYS_level_1_name,IPYS_level_2_name,geo_level_1_name,geo_level_2_name,geo_level_1_code,geo_level_2_code
0,Cojedes,Anzoátegui (Cojedes),Cojedes,Anzoátegui,VE09,VE0901
1,Cojedes,Ezequiel Zamora,Cojedes,Ezequiel Zamora,VE09,VE0908
2,Cojedes,Falcón (Tinaquillo),,,,
3,Cojedes,Girardot (El Baúl),Cojedes,Girardot,VE09,VE0903
4,Cojedes,Lima Blanco (Macapo),Cojedes,Lima Blanco,VE09,VE0904
5,Cojedes,Pao de San Juan Bautista (El Pao),Cojedes,Pao de San Juan Bautista,VE09,VE0905
6,Cojedes,Ricaurte (Libertad),Cojedes,Ricaurte,VE09,VE0906
7,Cojedes,Rómulo Gallegos,Cojedes,Rómulo Gallegos,VE09,VE0907
8,Cojedes,Tinaco,Cojedes,Tinaco,VE09,VE0909


  subset_ipys['level_2_name_simplified'] = subset_ipys['level_2_name'].str.replace(r"\(.*\)","")


Unnamed: 0,IPYS_level_1_name,IPYS_level_2_name,geo_level_1_name,geo_level_2_name,geo_level_1_code,geo_level_2_code
0,Delta Amacuro,Tucupita,Delta Amacuro,Tucupita,VE10,VE1004
1,Delta Amacuro,Antonio Díaz Curiapo (Curiapo),Delta Amacuro,Antonio Díaz,VE10,VE1001
2,Delta Amacuro,Casacoima (Sierra Imataca),Delta Amacuro,Casacoima,VE10,VE1002
3,Delta Amacuro,Pedernales,Delta Amacuro,Pedernales,VE10,VE1003


  subset_ipys['level_2_name_simplified'] = subset_ipys['level_2_name'].str.replace(r"\(.*\)","")


Unnamed: 0,IPYS_level_1_name,IPYS_level_2_name,geo_level_1_name,geo_level_2_name,geo_level_1_code,geo_level_2_code
0,Distrito capital,Parroquia 23 de enero,Distrito capital,23 de Enero,VE01,VE010122
1,Distrito capital,Parroquia Altagracia,Distrito capital,Altagracia,VE01,VE010101
2,Distrito capital,Parroquia Antímano,,,,
3,Distrito capital,Parroquia Candelaria,Distrito capital,Candelaria,VE01,VE010103
4,Distrito capital,Parroquia Caricuao,Distrito capital,Caricuao,VE01,VE010104
5,Distrito capital,Parroquia Catedral,Distrito capital,Catedral,VE01,VE010105
6,Distrito capital,Parroquia Coche,Distrito capital,Coche,VE01,VE010106
7,Distrito capital,Parroquia El Junquito,Distrito capital,El Junquito,VE01,VE010107
8,Distrito capital,Parroquia El Paraíso,Distrito capital,El Paraíso,VE01,VE010108
9,Distrito capital,Parroquia El Recreo,Distrito capital,El Recreo,VE01,VE010109


  subset_ipys['level_2_name_simplified'] = subset_ipys['level_2_name'].str.replace(r"\(.*\)","")


Unnamed: 0,IPYS_level_1_name,IPYS_level_2_name,geo_level_1_name,geo_level_2_name,geo_level_1_code,geo_level_2_code
0,Falcón,Acosta (San Juan de los Cayos),Falcón,Acosta,VE11,VE1101
1,Falcón,Bolívar (San Luis),Falcón,Bolívar,VE11,VE1102
2,Falcón,Buchivacoa (Capatárida),Falcón,Buchivacoa,VE11,VE1103
3,Falcón,Cacique Manaure (Yaracal),Falcón,Cacique Manaure,VE11,VE1104
4,Falcón,Carirubana (Punto Fijo),Falcón,Carirubana,VE11,VE1105
5,Falcón,Colina (La Vela de Coro),Falcón,Colina,VE11,VE1106
6,Falcón,Dabajuro (Dabajuro),Falcón,Dabajuro,VE11,VE1107
7,Falcón,Democracia (Pedregal),Falcón,Democracia,VE11,VE1108
8,Falcón,Falcón (Pueblo Nuevo),Falcón,Falcón,VE11,VE1109
9,Falcón,Federación (Churuguara),Falcón,Federación,VE11,VE1110


  subset_ipys['level_2_name_simplified'] = subset_ipys['level_2_name'].str.replace(r"\(.*\)","")


Unnamed: 0,IPYS_level_1_name,IPYS_level_2_name,geo_level_1_name,geo_level_2_name,geo_level_1_code,geo_level_2_code
0,Guárico,Ortíz,,,,
1,Guárico,Chaguaramas,Guárico,Chaguaramas,VE12,VE1202
2,Guárico,El Socorro,Guárico,El Socorro,VE12,VE1203
3,Guárico,Esteros de Camaguan,Guárico,Camaguan,VE12,VE1201
8,Guárico,Francisco de Miranda (Calabozo),Guárico,Francisco de Miranda,VE12,VE1208
9,Guárico,José Félix Ribas (Tucupido),Guárico,José Félix Ribas,VE12,VE1211
10,Guárico,José Tadeo Monagas (Altagracia de Orituco),Guárico,José Tadeo Monagas,VE12,VE1209
11,Guárico,Juan Germán Roscio (San Juan de Los Morros),Guárico,Juan Germán Roscio,VE12,VE1212
12,Guárico,Julián Mellado (El Sombrero),Guárico,Julián Mellado,VE12,VE1207
13,Guárico,Las Mercedes,Guárico,Las Mercedes,VE12,VE1206


  subset_ipys['level_2_name_simplified'] = subset_ipys['level_2_name'].str.replace(r"\(.*\)","")


Unnamed: 0,IPYS_level_1_name,IPYS_level_2_name,geo_level_1_name,geo_level_2_name,geo_level_1_code,geo_level_2_code
0,Lara,Andrés Eloy Blanco (Sanare),Lara,Andrés Eloy Blanco,VE13,VE1301
1,Lara,Crespo (Duaca),Lara,Crespo,VE13,VE1302
2,Lara,Iribarren (Barquisimeto),Lara,Iribarren,VE13,VE1303
3,Lara,Jiménez (Quibor),Lara,Jiménez,VE13,VE1304
4,Lara,Morán (El Tocuyo),,,,
5,Lara,Palavecino (Cabudare),Lara,Palavecino,VE13,VE1306
6,Lara,Simón Planas (Sarare),Lara,Simón Planas,VE13,VE1307
7,Lara,Torres (Carora),Lara,Torres,VE13,VE1308
8,Lara,Urdaneta (Siquisique),Lara,Urdaneta,VE13,VE1309


  subset_ipys['level_2_name_simplified'] = subset_ipys['level_2_name'].str.replace(r"\(.*\)","")


Unnamed: 0,IPYS_level_1_name,IPYS_level_2_name,geo_level_1_name,geo_level_2_name,geo_level_1_code,geo_level_2_code
0,Mérida,Alberto Adriani (El Vigía),Mérida,Alberto Adriani,VE14,VE1401
1,Mérida,Andrés Bello (La Azulita),Mérida,Andrés Bello,VE14,VE1402
2,Mérida,Aricagua,Mérida,Aricagua,VE14,VE1404
3,Mérida,Briceño (Torondoy),Mérida,Justo Briceño,VE14,VE1411
4,Mérida,Campo Elías (Ejido),Mérida,Campo Elías,VE14,VE1406
5,Mérida,Chacón (Canaguá),Mérida,Arzobispo Chacón,VE14,VE1405
6,Mérida,Dávila (Bailadores),Mérida,Rivas Dávila,VE14,VE1418
7,Mérida,Febres Cordero (Nueva Bolivia),Mérida,Tulio Febres Cordero,VE14,VE1422
8,Mérida,Guaraque (Guaraque),Mérida,Guaraque,VE14,VE1409
9,Mérida,Libertador (Mérida),Mérida,Libertador,VE14,VE1412


  subset_ipys['level_2_name_simplified'] = subset_ipys['level_2_name'].str.replace(r"\(.*\)","")


Unnamed: 0,IPYS_level_1_name,IPYS_level_2_name,geo_level_1_name,geo_level_2_name,geo_level_1_code,geo_level_2_code
0,Miranda,Acevedo (Caucagua),Miranda,Acevedo,VE15,VE1501
1,Miranda,Andrés Bello (San José de Barlovento),Miranda,Andrés Bello,VE15,VE1502
2,Miranda,Baruta,Miranda,Baruta,VE15,VE1503
3,Miranda,Brión (Higuerote),Miranda,Brión,VE15,VE1504
4,Miranda,Buroz (Mamporal),Miranda,Buroz,VE15,VE1505
5,Miranda,Carrizal,Miranda,Carrizal,VE15,VE1506
6,Miranda,Chacao,Miranda,Chacao,VE15,VE1507
7,Miranda,Cristóbal Rojas (Charallave),Miranda,Cristóbal Rojas,VE15,VE1508
8,Miranda,El Hatillo,Miranda,El Hatillo,VE15,VE1509
9,Miranda,Guaicaipuro (Los Teques),Miranda,Bolivariano Guaicaipuro,VE15,VE1510


  subset_ipys['level_2_name_simplified'] = subset_ipys['level_2_name'].str.replace(r"\(.*\)","")


Unnamed: 0,IPYS_level_1_name,IPYS_level_2_name,geo_level_1_name,geo_level_2_name,geo_level_1_code,geo_level_2_code
0,Monagas,Acosta (San Antonio de Capayacuar),Monagas,Acosta,VE16,VE1601
1,Monagas,Aguasay,Monagas,Aguasay,VE16,VE1602
2,Monagas,Bolívar (Caripito),Monagas,Bolívar,VE16,VE1603
3,Monagas,Caripe,Monagas,Caripe,VE16,VE1604
4,Monagas,Cedeño (Caicara de Maturín),Monagas,Cedeño,VE16,VE1605
5,Monagas,Libertador (Temblador),Monagas,Libertador,VE16,VE1607
6,Monagas,Maturín,Monagas,Maturín,VE16,VE1608
7,Monagas,Piar (Aragua de Maturín),Monagas,Piar,VE16,VE1609
8,Monagas,Punceres (Quiriquire),Monagas,Punceres,VE16,VE1610
9,Monagas,Santa Bárbara,Monagas,Santa Babara,VE16,VE1611


  subset_ipys['level_2_name_simplified'] = subset_ipys['level_2_name'].str.replace(r"\(.*\)","")


Unnamed: 0,IPYS_level_1_name,IPYS_level_2_name,geo_level_1_name,geo_level_2_name,geo_level_1_code,geo_level_2_code
0,Nueva Esparta,Antolín del Campo (La Plaza de Paraguachí),Nueva Esparta,Antolín del Campo,VE17,VE1701
1,Nueva Esparta,Arismendi (La Asunción),Nueva Esparta,Arismendi,VE17,VE1702
2,Nueva Esparta,Díaz (San Juan Bautista),Nueva Esparta,Díaz,VE17,VE1703
3,Nueva Esparta,García (El Valle del Espíritu Santo),Nueva Esparta,García,VE17,VE1704
4,Nueva Esparta,Gómez (Santa Ana),Nueva Esparta,Gómez,VE17,VE1705
5,Nueva Esparta,Maneiro (Pampatar),Nueva Esparta,Maneiro,VE17,VE1706
6,Nueva Esparta,Marcano (Juan Griego),Nueva Esparta,Marcano,VE17,VE1707
7,Nueva Esparta,Mariño (Porlamar),Nueva Esparta,Mariño,VE17,VE1708
8,Nueva Esparta,Península de Macanao (Boca de Río),Nueva Esparta,Macanao,VE17,VE1709
9,Nueva Esparta,Tubores (Punta de Piedras),Nueva Esparta,Tubores,VE17,VE1710


  subset_ipys['level_2_name_simplified'] = subset_ipys['level_2_name'].str.replace(r"\(.*\)","")


Unnamed: 0,IPYS_level_1_name,IPYS_level_2_name,geo_level_1_name,geo_level_2_name,geo_level_1_code,geo_level_2_code
0,Portuguesa,Agua Blanca,Portuguesa,Agua Blanca,VE18,VE1801
1,Portuguesa,Araure,Portuguesa,Araure,VE18,VE1802
2,Portuguesa,Esteller (Píritu),Portuguesa,Esteller,VE18,VE1803
3,Portuguesa,Guanare,Portuguesa,Guanare,VE18,VE1804
4,Portuguesa,Guanarito,Portuguesa,Guanarito,VE18,VE1805
5,Portuguesa,Monseñor José Vicenti de Unda (Chabasquén de U...,Portuguesa,Monseñor José Vicente de Und,VE18,VE1806
6,Portuguesa,Ospino,Portuguesa,Ospino,VE18,VE1807
7,Portuguesa,Páez (Acarigua),Portuguesa,Páez,VE18,VE1808
8,Portuguesa,Papelón,Portuguesa,Papelón,VE18,VE1809
9,Portuguesa,San Genaro de Boconoíto (Boconoíto),Portuguesa,San Genaro de Boconoito,VE18,VE1810


  subset_ipys['level_2_name_simplified'] = subset_ipys['level_2_name'].str.replace(r"\(.*\)","")


Unnamed: 0,IPYS_level_1_name,IPYS_level_2_name,geo_level_1_name,geo_level_2_name,geo_level_1_code,geo_level_2_code
0,Sucre,Andrés Eloy Blanco (Casanay),Sucre,Andrés Eloy Blanco,VE19,VE1901
1,Sucre,Andrés Mata (San José de Aerocuar),Sucre,Andrés Mata,VE19,VE1902
2,Sucre,Arismendi (Río Caribe),Sucre,Arismendi,VE19,VE1903
3,Sucre,Benítez (El Pilar),Sucre,Benítez,VE19,VE1904
4,Sucre,Bermúdez (Carúpano),Sucre,Bermúdez,VE19,VE1905
5,Sucre,Bolívar (Marigüitar),Sucre,Bolívar,VE19,VE1906
6,Sucre,Cajigal (Yaguaraparo),Sucre,Cajigal,VE19,VE1907
7,Sucre,Cruz Salmerón Acosta (Araya),Sucre,Cruz Salmerón Acosta,VE19,VE1908
8,Sucre,Libertador (Tunapuy),Sucre,Libertador,VE19,VE1909
9,Sucre,Mariño (Irapa).,Sucre,Mariño,VE19,VE1910


  subset_ipys['level_2_name_simplified'] = subset_ipys['level_2_name'].str.replace(r"\(.*\)","")


Unnamed: 0,IPYS_level_1_name,IPYS_level_2_name,geo_level_1_name,geo_level_2_name,geo_level_1_code,geo_level_2_code
0,Táchira,Andrés Bello (Cordero),Táchira,Andrés Bello,VE20,VE2001
1,Táchira,Antonio Rómulo Costa (Las Mesas),Táchira,Antonio Rómulo Costa,VE20,VE2002
2,Táchira,Ayacucho (Colón),Táchira,Ayacucho,VE20,VE2003
3,Táchira,Bolívar (San Antonio del Táchira),Táchira,Bolívar,VE20,VE2004
4,Táchira,Cárdenas (Táriba),Táchira,Cárdenas,VE20,VE2005
5,Táchira,Córdoba (Santa Ana de Táchira),Táchira,Córdoba,VE20,VE2006
6,Táchira,Fernández Feo (San Rafael del Piñal),Táchira,Fernández Feo,VE20,VE2007
7,Táchira,Francisco de Miranda (San José de Bolívar),Táchira,Francisco de Miranda,VE20,VE2008
8,Táchira,García de Hevia (La Fría),Táchira,García de Hevia,VE20,VE2009
9,Táchira,Guásimos (Palmira),,,,


  subset_ipys['level_2_name_simplified'] = subset_ipys['level_2_name'].str.replace(r"\(.*\)","")


Unnamed: 0,IPYS_level_1_name,IPYS_level_2_name,geo_level_1_name,geo_level_2_name,geo_level_1_code,geo_level_2_code
0,Trujillo,Andrés Bello (Santa Isabel),Trujillo,Andrés Bello,VE21,VE2101
1,Trujillo,Boconó,,,,
2,Trujillo,Bolívar (Sabana Grande),Trujillo,Bolívar,VE21,VE2103
3,Trujillo,Campos Elías,Trujillo,Juan Vicente Campo Elías,VE21,VE2108
4,Trujillo,Candelaria (Chejendé),Trujillo,Candelaria,VE21,VE2104
5,Trujillo,Carache,Trujillo,Carache,VE21,VE2105
6,Trujillo,Carvajal (Carvajal),Trujillo,San Rafael de Carvajal,VE21,VE2116
7,Trujillo,Escuque,Trujillo,Escuque,VE21,VE2106
8,Trujillo,La Ceiba (Santa Apolonia),Trujillo,La Ceiba,VE21,VE2109
9,Trujillo,Márquez Cañizales (El Paradero),Trujillo,José Felipe Márquez Cañizal,VE21,VE2107


  subset_ipys['level_2_name_simplified'] = subset_ipys['level_2_name'].str.replace(r"\(.*\)","")


Unnamed: 0,IPYS_level_1_name,IPYS_level_2_name,geo_level_1_name,geo_level_2_name,geo_level_1_code,geo_level_2_code
0,Vargas,Parroquia Caraballeda,Vargas,Caraballeda,VE24,VE240101
1,Vargas,Parroquia Carayaca,Vargas,Carayaca,VE24,VE240102
2,Vargas,Parroquia Carlos Soublette,Vargas,Carlos Soublette,VE24,VE240111
3,Vargas,Parroquia Caruao,Vargas,Caruao,VE24,VE240103
4,Vargas,Parroquia Catia La Mar,Vargas,Catia la Mar,VE24,VE240104
5,Vargas,Parroquia El Junko,Vargas,El Junko,VE24,VE240105
6,Vargas,Parroquia La Guaira,Vargas,La Guaira,VE24,VE240106
7,Vargas,Parroquia Macuto,Vargas,Macuto,VE24,VE240107
8,Vargas,Parroquia Maiquetía,Vargas,Maiquetía,VE24,VE240108
9,Vargas,Parroquia Naiguatá,,,,


  subset_ipys['level_2_name_simplified'] = subset_ipys['level_2_name'].str.replace(r"\(.*\)","")


Unnamed: 0,IPYS_level_1_name,IPYS_level_2_name,geo_level_1_name,geo_level_2_name,geo_level_1_code,geo_level_2_code
0,Yaracuy,Arístides Bastidas (San Pablo),Yaracuy,Arístides Bastidas,VE22,VE2201
1,Yaracuy,Bolívar (Aroa),Yaracuy,Bolívar,VE22,VE2202
2,Yaracuy,Bruzual (Chivacoa),Yaracuy,Bruzual,VE22,VE2203
3,Yaracuy,Cocorote,Yaracuy,Cocorote,VE22,VE2204
4,Yaracuy,Independencia,Yaracuy,Independencia,VE22,VE2205
5,Yaracuy,La Trinidad (Boraure),Yaracuy,La Trinidad,VE22,VE2207
6,Yaracuy,Monge (Yumare),Yaracuy,Manuel Monge,VE22,VE2208
7,Yaracuy,Nirgua,Yaracuy,Nirgua,VE22,VE2209
8,Yaracuy,Páez (Sabana de Parra),Yaracuy,José Antonio Páez,VE22,VE2206
9,Yaracuy,Peña (Yaritagua),Yaracuy,Peña,VE22,VE2210


  subset_ipys['level_2_name_simplified'] = subset_ipys['level_2_name'].str.replace(r"\(.*\)","")


Unnamed: 0,IPYS_level_1_name,IPYS_level_2_name,geo_level_1_name,geo_level_2_name,geo_level_1_code,geo_level_2_code
0,Zulia,Baralt (San Timoteo),Zulia,Baralt,VE23,VE2302
1,Zulia,Bolívar (Tía Juana),Zulia,Simón Bolívar,VE23,VE2319
2,Zulia,Cabimas,Zulia,Cabimas,VE23,VE2303
3,Zulia,Catatumbo (Encontrados),Zulia,Catatumbo,VE23,VE2304
4,Zulia,Colón (San Carlos del Zulia),,,,
5,Zulia,Guajira (Sinamaica),Zulia,Indígena Bolivariano Guajira,VE23,VE2315
6,Zulia,La Cañada de Urdaneta (Concepción),Zulia,La Cañada de Urdaneta,VE23,VE2309
7,Zulia,Lagunillas (Ciudad Ojeda),Zulia,Lagunillas,VE23,VE2310
8,Zulia,Lossada (La Concepción),Zulia,Jesús Enrique Lossada,VE23,VE2307
9,Zulia,Machiques,Zulia,Machiques de Perija,VE23,VE2311


In [11]:
new_df = pd.concat(new_df, ignore_index=True)

After processing, we will have the following entries to manually fix:
```
* Anzoátegui - McGregor (El Chaparro)
* Anzoátegui - Píritu
* Bolívar - Heres (Ciudad Bolívar)
* Cojedes - Falcón (Tinaquillo)
* Distrito Capital - Parroquia Antímano
* Falcón - Píritu (Falcón)
* Falcón - Tocópero
* Guárico - Ortíz 
* Lara - Morán (El Tocuyo)
* Mérida - Salas (Arapuey) 
* Portuguesa - Turén (Villa Bruzual)
* Táchira - Guásimos (Palmira) 
* Trujillo - Boconó
* Trujillo - Motatán
* Trujillo - Pampán
* Vargas - Parroquia Naiguatá
* Zulia - Colón (San Carlos del Zulia)
* Zulia - Semprún (Casigua El Cubo) 	
```

Notice that since all the erros are due to NOT MATCHING (as opposed to WRONG MATCHES), we can simply look at NaNs and we'll find them all.

In [12]:
new_df[new_df.geo_level_2_code.isna()]

Unnamed: 0,IPYS_level_1_name,IPYS_level_2_name,geo_level_1_name,geo_level_2_name,geo_level_1_code,geo_level_2_code
18,Anzoátegui,McGregor (El Chaparro),,,,
23,Anzoátegui,Píritu (Anzoátegui),,,,
69,Bolívar,Heres (Ciudad Bolívar),,,,
92,Cojedes,Falcón (Tinaquillo),,,,
105,Distrito capital,Parroquia Antímano,,,,
142,Falcón,Píritu (Falcón),,,,
146,Falcón,Tocópero,,,,
150,Guárico,Ortíz,,,,
169,Lara,Morán (El Tocuyo),,,,
193,Mérida,Salas (Arapuey),,,,


After manually inspecting the matches, those are the correspondences:

In [13]:
matches = {
	# On the left, the merged df index locator. On the right, the geographic file locator.
	18: 27,
	23: 8,
	69: 72, # I'm taking that Ciudad Bolívar, seat of the Heres municipality, is Angostura del Orinoco – as the website of https://www.alcaldiadeheres.gob.ve/ has a banner calling itself 'Angostura del Orinoco'
	92: 93,
	105: 107,
	142: 148,
	146: 137,
	150: 150,
	169: 179,
	193: 225, # Possible typo in geo_names, as the city is called Júlio Cesar Salas, with an extra S in the end
	255: 260,
	280: 325,
	301: 292,
	312: 300,
	313: 285,
    329: 171,
	349: 346,
	363: 359

}

In [14]:
for merged_loc, geo_loc in matches.items():
    
    
    for merged_column, geo_column in [
        ('geo_level_1_name', 'parent_name'), 
        ('geo_level_2_name',  'name'),
        ('geo_level_1_code', 'parent_code'),
        ('geo_level_2_code', 'code')
    ]:
        
        new_df.loc[merged_loc, merged_column] = geo_names.loc[geo_loc, geo_column]


Finally, saves to csv.

In [15]:
new_df.to_csv("../output/correspondence.csv", index=False, sep=";")