# Data cleaning - Part 2

When I wanted to export the tables generated to work on them in tableau, I noticed that it would cause me problems because the variables "cve_delegacion", "cve_subdelegacion" and "cve_entidad" are integers, and in the case of the variable "cve_municipio" although it is an object, it does not allow to identify the municipality in question, so the columns with the description of these variables are inserted from a catalog of keys and generated a new clean database called asegurados_final.csv.

In [1]:
import pandas as pd
import seaborn as sns

In [2]:
asegurados = pd.read_csv('https://drive.google.com/file/d/1GX4VCwrpQ_xq3ROskylBFzJHB0iXPdvR/view?usp=share_link', low_memory=False)
entidad = pd.read_excel('https://docs.google.com/spreadsheets/d/1QlXJ9Xlz8SbAxmoRo6fcaDRO6b7TrDdJ/edit?usp=share_link&ouid=115518006083919622385&rtpof=true&sd=true')
delegacion = pd.read_excel('https://docs.google.com/spreadsheets/d/1j0ljUrNasufDNQn7yX0M6awNPawJFyks/edit?usp=share_link&ouid=115518006083919622385&rtpof=true&sd=true')

In [3]:
display(asegurados.head())

Unnamed: 0,index,cve_delegacion,cve_subdelegacion,cve_entidad,cve_municipio,sector_economico_1,tamano_patron,sexo,rango_edad,rango_salarial,asegurados,ta,tpu,period
0,30,1,1,1,A01,0.0,S1,1,E10,W2,1,1,0,2013-01-31
1,31,1,1,1,A01,0.0,S1,1,E10,W3,1,1,0,2013-01-31
2,32,1,1,1,A01,0.0,S1,1,E10,W8,1,1,1,2013-01-31
3,33,1,1,1,A01,0.0,S1,1,E11,W2,1,1,0,2013-01-31
4,34,1,1,1,A01,0.0,S1,1,E11,W3,1,1,0,2013-01-31


In [4]:
display(entidad.head())

Unnamed: 0,cve_delegacion,cve_entidad,name_entidad,cve_municipio,name_municipio
0,1,1,Aguascalientes,A01,Aguascalientes
1,1,1,Aguascalientes,A02,Jesús María
2,1,1,Aguascalientes,A03,Pabellón de Arteaga
3,1,1,Aguascalientes,A04,Rincón de Romos
4,1,1,Aguascalientes,H46,Calvillo


In [5]:
display(delegacion.head())

Unnamed: 0,cve_delegacion,name_delegacion,cve_subdelegacion,name_subdelegacion
0,1,Aguascalientes,1,Aguascalientes Norte
1,1,Aguascalientes,19,Aguascalientes Sur
2,2,Baja California,1,Mexicali
3,2,Baja California,2,Tecate
4,2,Baja California,3,Ensenada


In [6]:
def get_dict_from_delegacion():
    d = {}
    for index, row in delegacion.iterrows():
        id = row["cve_delegacion"]
        if id not in d:
            d[id] = row["name_delegacion"]
    return d

In [7]:
d = get_dict_from_delegacion()
print(d)

{1: 'Aguascalientes', 2: 'Baja California', 3: 'Baja California Sur', 4: 'Campeche', 5: 'Coahuila', 6: 'Colima', 7: 'Chiapas', 8: 'Chihuahua', 10: 'Durango', 11: 'Guanajuato', 12: 'Guerrero', 13: 'Hidalgo', 14: 'Jalisco', 15: 'Estado de México Oriente', 16: 'Estado de México Poniente', 17: 'Michoacán', 18: 'Morelos', 19: 'Nayarit', 20: 'Nuevo León', 21: 'Oaxaca', 22: 'Puebla', 23: 'Querétaro', 24: 'Quintana Roo', 25: 'San Luis Potosí', 26: 'Sinaloa', 27: 'Sonora', 28: 'Tabasco', 29: 'Tamaulipas', 30: 'Tlaxcala', 31: 'Veracruz Norte', 32: 'Veracruz Sur', 33: 'Yucatán', 34: 'Zacatecas', 39: 'Ciudad de México Norte ', 40: 'Ciudad de México Sur '}


In [8]:
def get_delegacion_name(x):
    return d[x]
asegurados["name_delegacion"] = asegurados["cve_delegacion"].apply(get_delegacion_name)

In [9]:
asegurados.head()

Unnamed: 0,index,cve_delegacion,cve_subdelegacion,cve_entidad,cve_municipio,sector_economico_1,tamano_patron,sexo,rango_edad,rango_salarial,asegurados,ta,tpu,period,name_delegacion
0,30,1,1,1,A01,0.0,S1,1,E10,W2,1,1,0,2013-01-31,Aguascalientes
1,31,1,1,1,A01,0.0,S1,1,E10,W3,1,1,0,2013-01-31,Aguascalientes
2,32,1,1,1,A01,0.0,S1,1,E10,W8,1,1,1,2013-01-31,Aguascalientes
3,33,1,1,1,A01,0.0,S1,1,E11,W2,1,1,0,2013-01-31,Aguascalientes
4,34,1,1,1,A01,0.0,S1,1,E11,W3,1,1,0,2013-01-31,Aguascalientes


In [10]:
def get_dict_from_subdelegacion():
    d = {}
    for index, row in delegacion.iterrows():
        id = row["cve_subdelegacion"]
        if id not in d:
            d[id] = row["name_subdelegacion"]
    return d

In [11]:
d = get_dict_from_subdelegacion()
print(d)

{1: 'Aguascalientes Norte', 19: 'Aguascalientes Sur', 2: 'Tecate', 3: 'Ensenada', 4: 'San Luis Río Colorado', 5: 'Tijuana', 8: 'Cabo San Lucas', 9: 'Torreón', 11: 'Ciudad Acuña', 12: 'Piedras Negras', 17: 'Monclova', 23: 'Sabinas', 7: 'Tecomán', 10: 'Juárez 1', 22: 'Hidalgo del Parral', 60: 'Juárez 2', 13: 'Gómez Palacio', 14: 'Salamanca', 15: 'Ocotlán', 38: 'Hidalgo', 39: 'Libertad Reforma', 40: 'Juárez', 50: 'Puerto Vallarta', 6: 'Tlanepantla de Baz', 54: 'Ecatepec', 80: 'Los Reyes - La Paz', 27: 'Lázaro Cárdenas', 31: 'Noreste ', 32: 'Noroeste ', 33: 'Sureste ', 34: 'Suroeste ', 53: 'Santa María Huatulco', 51: 'Agua Prieta', 57: 'Nacozari de GarcÍa', 70: 'Ciudad Obregón', 18: 'Nuevo Laredo', 25: 'Lerdo de Tejada', 45: 'Coatzacoalcos', 16: 'Polanco', 56: 'Guerrero', 58: 'Piedad Narvarte'}


In [12]:
def get_subdelegacion_name(x):
    return d[x]
asegurados["name_subdelegacion"] = asegurados["cve_subdelegacion"].apply(get_subdelegacion_name)

In [13]:
asegurados.head()

Unnamed: 0,index,cve_delegacion,cve_subdelegacion,cve_entidad,cve_municipio,sector_economico_1,tamano_patron,sexo,rango_edad,rango_salarial,asegurados,ta,tpu,period,name_delegacion,name_subdelegacion
0,30,1,1,1,A01,0.0,S1,1,E10,W2,1,1,0,2013-01-31,Aguascalientes,Aguascalientes Norte
1,31,1,1,1,A01,0.0,S1,1,E10,W3,1,1,0,2013-01-31,Aguascalientes,Aguascalientes Norte
2,32,1,1,1,A01,0.0,S1,1,E10,W8,1,1,1,2013-01-31,Aguascalientes,Aguascalientes Norte
3,33,1,1,1,A01,0.0,S1,1,E11,W2,1,1,0,2013-01-31,Aguascalientes,Aguascalientes Norte
4,34,1,1,1,A01,0.0,S1,1,E11,W3,1,1,0,2013-01-31,Aguascalientes,Aguascalientes Norte


In [14]:
def get_dict_from_entidad():
    d = {}
    for index, row in entidad.iterrows():
        id = row["cve_entidad"]
        if id not in d:
            d[id] = row["name_entidad"]
    return d

In [15]:
d = get_dict_from_entidad()
print(d)

{1: 'Aguascalientes', 2: 'Baja California', 3: 'Baja California Sur', 4: 'Campeche', 5: 'Coahuila de Zaragoza', 6: 'Colima', 7: 'Chiapas', 8: 'Chihuahua', 9: 'Ciudad de México', 10: 'Durango', 11: 'Guanajuato', 12: 'Guerrero', 13: 'Hidalgo', 14: 'Jalisco', 15: 'Estado México', 16: 'Michoacán de Ocampo', 17: 'Morelos', 18: 'Nayarit', 19: 'Nuevo León', 20: 'Oaxaca', 21: 'Puebla', 22: 'Querétaro', 23: 'Quintana Roo', 24: 'San Luis Potosí', 25: 'Sinaloa', 26: 'Sonora', 27: 'Tabasco', 28: 'Tamaulipas', 29: 'Tlaxcala', 30: 'Veracruz de Ignacio de la Llave', 31: 'Yucatán', 32: 'Zacatecas'}


In [16]:
def get_entidad_name(x):
    return d[x]
asegurados["name_entidad"] = asegurados["cve_entidad"].apply(get_entidad_name)

In [17]:
asegurados.head()

Unnamed: 0,index,cve_delegacion,cve_subdelegacion,cve_entidad,cve_municipio,sector_economico_1,tamano_patron,sexo,rango_edad,rango_salarial,asegurados,ta,tpu,period,name_delegacion,name_subdelegacion,name_entidad
0,30,1,1,1,A01,0.0,S1,1,E10,W2,1,1,0,2013-01-31,Aguascalientes,Aguascalientes Norte,Aguascalientes
1,31,1,1,1,A01,0.0,S1,1,E10,W3,1,1,0,2013-01-31,Aguascalientes,Aguascalientes Norte,Aguascalientes
2,32,1,1,1,A01,0.0,S1,1,E10,W8,1,1,1,2013-01-31,Aguascalientes,Aguascalientes Norte,Aguascalientes
3,33,1,1,1,A01,0.0,S1,1,E11,W2,1,1,0,2013-01-31,Aguascalientes,Aguascalientes Norte,Aguascalientes
4,34,1,1,1,A01,0.0,S1,1,E11,W3,1,1,0,2013-01-31,Aguascalientes,Aguascalientes Norte,Aguascalientes


In [18]:
def get_dict_from_municipio():
    d = {}
    for index, row in entidad.iterrows():
        id = row["cve_municipio"]
        if id not in d:
            d[id] = row["name_municipio"]
    return d

In [19]:
d = get_dict_from_municipio()
print(d)

{'A01': 'Aguascalientes', 'A02': 'Jesús María', 'A03': 'Pabellón de Arteaga', 'A04': 'Rincón de Romos', 'H46': 'Calvillo', 'H83': 'Asientos', 'H84': 'Cosío', 'H85': 'San José de Gracia', 'H86': 'Tepezalá', 'Y45': 'Aguascalientes', 'Y48': 'San Francisco de los Romo', 'Y49': 'El Llano', 'A05': 'Ensenada', 'A06': 'Mexicali', 'A07': 'Tecate', 'A08': 'Tijuana', 'Y94': 'Playas de Rosarito', 'Z31': 'Tijuana', 'Z32': 'Mexicali', 'Z47': 'San Quintín', 'Y35': 'Isla de Cedros', 'A09': 'La Paz', 'H81': 'Mulegé', 'M47': 'Comondú', 'M62': 'Los Cabos', 'Y71': 'Loreto', 'A10': 'Campeche', 'A11': 'Carmen', 'A12': 'Champotón', 'A13': 'Calkiní', 'A14': 'Hecelchakán', 'A15': 'Hopelchén', 'A16': 'Palizada', 'A17': 'Tenabo', 'X69': 'Escárcega', 'Y98': 'Calakmul', 'Y99': 'Candelaria', 'A18': 'Acuña', 'A19': 'Allende', 'A20': 'Arteaga', 'A21': 'Castaños', 'A22': 'Francisco I. Madero', 'A23': 'Frontera', 'A24': 'Guerrero', 'A25': 'Jiménez', 'A26': 'Matamoros', 'A27': 'Monclova', 'A28': 'Morelos', 'A29': 'Múzqu

In [20]:
def get_municipio_name(x):
    return d[x]
asegurados["name_municipio"] = asegurados["cve_municipio"].apply(get_municipio_name)

In [21]:
asegurados.head()

Unnamed: 0,index,cve_delegacion,cve_subdelegacion,cve_entidad,cve_municipio,sector_economico_1,tamano_patron,sexo,rango_edad,rango_salarial,asegurados,ta,tpu,period,name_delegacion,name_subdelegacion,name_entidad,name_municipio
0,30,1,1,1,A01,0.0,S1,1,E10,W2,1,1,0,2013-01-31,Aguascalientes,Aguascalientes Norte,Aguascalientes,Aguascalientes
1,31,1,1,1,A01,0.0,S1,1,E10,W3,1,1,0,2013-01-31,Aguascalientes,Aguascalientes Norte,Aguascalientes,Aguascalientes
2,32,1,1,1,A01,0.0,S1,1,E10,W8,1,1,1,2013-01-31,Aguascalientes,Aguascalientes Norte,Aguascalientes,Aguascalientes
3,33,1,1,1,A01,0.0,S1,1,E11,W2,1,1,0,2013-01-31,Aguascalientes,Aguascalientes Norte,Aguascalientes,Aguascalientes
4,34,1,1,1,A01,0.0,S1,1,E11,W3,1,1,0,2013-01-31,Aguascalientes,Aguascalientes Norte,Aguascalientes,Aguascalientes


In [22]:
asegurados_final = asegurados.reset_index()

In [23]:
# asegurados_final.to_csv('../Data/cleaned/asegurados_final.csv', index=False)