# Data cleaning - Part 2

When I wanted to export the tables generated to work on them in tableau, I noticed that it would cause me problems because the variables "cve_delegacion", "cve_subdelegacion" and "cve_entidad" are integers, and in the case of the variable "cve_municipio" although it is an object, it does not allow to identify the municipality in question, so the columns with the description of these variables are inserted from a catalog of keys and generated a new clean database called asegurados_final.csv.

In [1]:
import pandas as pd
import seaborn as sns

In [2]:
beneficiarios = pd.read_csv('https://drive.google.com/file/d/1rWIOeUmkWdUVzif-xFaOBySt_uozum77/view?usp=share_link')

In [3]:
display(beneficiarios.head())

Unnamed: 0,index,cve_delegacion,cve_subdelegacion,id_umf_rp,nombre_umf_rp,st_tit_fam,id_calidad,cve_sexo,cve_rango_edad,st_consultorio,tot_casos,period
0,0,27,70,31,UMF 031,2,13,1,E10,1,28,2013-01-31
1,1,27,70,31,UMF 031,2,2,1,E25,1,1,2013-01-31
2,2,27,70,31,UMF 031,2,14,2,E4,1,6,2013-01-31
3,3,27,70,31,UMF 031,2,12,2,E23,1,8,2013-01-31
4,4,27,70,31,UMF 031,2,16,2,E10,1,2,2013-01-31


In [4]:
location = pd.read_excel('https://docs.google.com/spreadsheets/d/1M5EN7LBUtdQWnaCOvfrJm3SAefH-kOSV/edit?usp=share_link&ouid=115518006083919622385&rtpof=true&sd=true')

  warn("""Cannot parse header or footer so it will be ignored""")


In [5]:
display(location.head())

Unnamed: 0,cve_delegacion,cve_subdelegacion,id_umf_rp,name_delegacion,name_subdelegacion,name_umf,cve_entidad,cve_municipio,name_entidad,name_municipio,cve_localidad,name_localidad
0,1,1,2,Aguascalientes,Aguascalientes Norte,UMF 2 Rincón de Romos,1,7,Aguascalientes,Rincón de Romos,1,Rincón de Romos
1,1,1,3,Aguascalientes,Aguascalientes Norte,UMF 3 Pabellón Arteaga,1,6,Aguascalientes,Pabellón de Arteaga,1,Pabellón de Arteaga
2,1,1,5,Aguascalientes,Aguascalientes Norte,UMF 5 Asientos,1,2,Aguascalientes,Asientos,1,Asientos
3,1,1,6,Aguascalientes,Aguascalientes Norte,UMF 6 Jesús María,1,5,Aguascalientes,Jesús María,1,Jesús María
4,1,1,7,Aguascalientes,Aguascalientes Norte,UMF 7 San Marcos,1,1,Aguascalientes,Aguascalientes,1,Aguascalientes


In [6]:
def get_dict_from_delegacion():
    d = {}
    for index, row in location.iterrows():
        id = row["cve_delegacion"]
        if id not in d:
            d[id] = row["name_delegacion"]
    return d

In [7]:
d = get_dict_from_delegacion()
print(d)

{1: 'Aguascalientes', 2: 'Baja California', 3: 'Baja California Sur', 4: 'Campeche', 5: 'Coahuila', 6: 'Colima', 7: 'Chiapas', 8: 'Chihuahua', 10: 'Durango', 11: 'Guanajuato', 12: 'Guerrero', 13: 'Hidalgo', 14: 'Jalisco', 15: 'Estado de México Oriente', 16: 'Estado de México Poniente', 17: 'Michoacán', 18: 'Morelos', 19: 'Nayarit', 20: 'Nuevo León', 21: 'Oaxaca', 22: 'Puebla', 23: 'Querétaro', 24: 'Quintana Roo', 25: 'San Luis Potosí', 26: 'Sinaloa', 27: 'Sonora', 28: 'Tabasco', 29: 'Tamaulipas', 30: 'Tlaxcala', 31: 'Veracruz Norte', 32: 'Veracruz Sur', 33: 'Yucatán', 34: 'Zacatecas', 39: 'Ciudad de México Sur', 40: 'Ciudad de México Sur'}


In [8]:
def get_delegacion_name(x):
    return d[x]
beneficiarios["name_delegacion"] = beneficiarios["cve_delegacion"].apply(get_delegacion_name)

In [9]:
beneficiarios.head()

Unnamed: 0,index,cve_delegacion,cve_subdelegacion,id_umf_rp,nombre_umf_rp,st_tit_fam,id_calidad,cve_sexo,cve_rango_edad,st_consultorio,tot_casos,period,name_delegacion
0,0,27,70,31,UMF 031,2,13,1,E10,1,28,2013-01-31,Sonora
1,1,27,70,31,UMF 031,2,2,1,E25,1,1,2013-01-31,Sonora
2,2,27,70,31,UMF 031,2,14,2,E4,1,6,2013-01-31,Sonora
3,3,27,70,31,UMF 031,2,12,2,E23,1,8,2013-01-31,Sonora
4,4,27,70,31,UMF 031,2,16,2,E10,1,2,2013-01-31,Sonora


In [10]:
def get_dict_from_subdelegacion():
    d = {}
    for index, row in location.iterrows():
        id = row["cve_subdelegacion"]
        if id not in d:
            d[id] = row["name_subdelegacion"]
    return d

In [11]:
d = get_dict_from_subdelegacion()
print(d)

{1: 'Aguascalientes Norte', 19: 'Aguascalientes Sur', 2: 'Tecate', 3: 'Ensenada', 4: 'San Luis Río Colorado', 5: 'Tijuana', 8: 'Cabo San Lucas', 9: 'Torreón', 11: 'Ciudad Acuña', 12: 'Piedras Negras', 17: 'Monclova', 23: 'Sabinas', 7: 'Tecomán', 10: 'Juárez 1', 22: 'Hidalgo del Parral', 60: 'Juárez 2', 13: 'Gómez Palacio', 14: 'Salamanca', 15: 'Ocotlán', 38: 'Hidalgo', 39: 'Libertad Reforma', 40: 'Juárez', 50: 'Puerto Vallarta', 6: 'Tlanepantla de Baz', 54: 'Ecatepec', 80: 'Los Reyes - La Paz', 27: 'Lázaro Cárdenas', 31: '2 Noreste', 32: '1 Noroeste', 33: '4 Sureste', 34: '3 Suroeste', 53: 'Santa María Huatulco', 51: 'Agua Prieta', 57: 'Nacozari de GarcÍa', 70: 'Ciudad Obregón', 18: 'Nuevo Laredo', 25: 'Lerdo de Tejada', 45: 'Coatzacoalcos', 16: '3 Polanco', 56: '4 Guerrero', 58: '6 Piedad Narvarte'}


In [12]:
def get_subdelegacion_name(x):
    return d[x]
beneficiarios["name_subdelegacion"] = beneficiarios["cve_subdelegacion"].apply(get_subdelegacion_name)

In [13]:
beneficiarios.head()

Unnamed: 0,index,cve_delegacion,cve_subdelegacion,id_umf_rp,nombre_umf_rp,st_tit_fam,id_calidad,cve_sexo,cve_rango_edad,st_consultorio,tot_casos,period,name_delegacion,name_subdelegacion
0,0,27,70,31,UMF 031,2,13,1,E10,1,28,2013-01-31,Sonora,Ciudad Obregón
1,1,27,70,31,UMF 031,2,2,1,E25,1,1,2013-01-31,Sonora,Ciudad Obregón
2,2,27,70,31,UMF 031,2,14,2,E4,1,6,2013-01-31,Sonora,Ciudad Obregón
3,3,27,70,31,UMF 031,2,12,2,E23,1,8,2013-01-31,Sonora,Ciudad Obregón
4,4,27,70,31,UMF 031,2,16,2,E10,1,2,2013-01-31,Sonora,Ciudad Obregón


In [14]:
def get_dict_from_entidad():
    d = {}
    for index, row in location.iterrows():
        id = row["cve_delegacion"]
        if id not in d:
            d[id] = row["name_entidad"]
    return d

In [15]:
d = get_dict_from_entidad()
print(d)

{1: 'Aguascalientes', 2: 'Baja California', 3: 'Baja California Sur', 4: 'Campeche', 5: 'Coahuila', 6: 'Colima', 7: 'Chiapas', 8: 'Chihuahua', 10: 'Durango', 11: 'Guanajuato', 12: 'Guerrero', 13: 'Hidalgo', 14: 'Jalisco', 15: 'México', 16: 'México', 17: 'Michoacán', 18: 'Morelos', 19: 'Nayarit', 20: 'Nuevo León', 21: 'Oaxaca', 22: 'Puebla', 23: 'Querétaro', 24: 'Quintana Roo', 25: 'San Luis Potosí', 26: 'Sinaloa', 27: 'Sonora', 28: 'Tabasco', 29: 'Tamaulipas', 30: 'Tlaxcala', 31: 'Veracruz de Ignacio de la Llave', 32: 'Veracruz de Ignacio de la Llave', 33: 'Yucatán', 34: 'Zacatecas', 39: 'Ciudad de México', 40: 'Ciudad de México'}


In [16]:
def get_entidad_name(x):
    return d[x]
beneficiarios["name_entidad"] = beneficiarios["cve_delegacion"].apply(get_entidad_name)

In [17]:
beneficiarios.head()

Unnamed: 0,index,cve_delegacion,cve_subdelegacion,id_umf_rp,nombre_umf_rp,st_tit_fam,id_calidad,cve_sexo,cve_rango_edad,st_consultorio,tot_casos,period,name_delegacion,name_subdelegacion,name_entidad
0,0,27,70,31,UMF 031,2,13,1,E10,1,28,2013-01-31,Sonora,Ciudad Obregón,Sonora
1,1,27,70,31,UMF 031,2,2,1,E25,1,1,2013-01-31,Sonora,Ciudad Obregón,Sonora
2,2,27,70,31,UMF 031,2,14,2,E4,1,6,2013-01-31,Sonora,Ciudad Obregón,Sonora
3,3,27,70,31,UMF 031,2,12,2,E23,1,8,2013-01-31,Sonora,Ciudad Obregón,Sonora
4,4,27,70,31,UMF 031,2,16,2,E10,1,2,2013-01-31,Sonora,Ciudad Obregón,Sonora


In [20]:
beneficiarios_final = beneficiarios.reset_index()

In [21]:
# beneficiarios_final.to_csv('../Data/cleaned/beneficiarios_final.csv', index=False)