In [46]:
import pandas

df = pandas.read_csv("./3.0.csv")
df.head()

Unnamed: 0,entidadfederativa,sujetoobligado,nombre,denominacion,montoneto,cargo,area,montobruto,idInformacion,periodoreportainicio,periodoreportafin
0,Hidalgo,Jaltocán,Adolfo Hernandez Hernandez,Fontanero,4000.0,Fontanero,OBRAS PUBLICAS,4254.0,16311845,01/01/2018,30/06/2018
1,Ciudad de México,Secretaría de Salud,ARELY SAMANTA CLEOFAS VELASCO,"AUXILIAR DE ENFERMERIA ""A""",12177.86,"AUXILIAR DE ENFERMERIA ""A""",H.G. ENRIQUE CABRERA,16092.0,16480190,01/01/2018,31/03/2018
2,Ciudad de México,Secretaría de Seguridad Ciudadana,MELODY OLIMPIC GONZALEZ MONTES,POLICIA PRIMERO,11652.0,POLICIA PRIMERO,SUBSECRETARIA DE OPERACION POLICIAL,16030.0,17599078,01/01/2020,31/03/2020
3,Federación,Autoridad Educativa Federal en la Ciudad de Mé...,ANGEL ALLENDE PULIDO,APOYO Y ASISTENCIA A LA EDUCACION,10180.57,APOYO Y ASISTENCIA A LA EDUCACION,DIRECCIÓN GENERAL DE OPERACIONES DE SERVICIOS ...,2910.65,6514612,01/07/2018,31/12/2018
4,Aguascalientes,MUNICIPIO DE RINCÓN DE ROMOS,Yolanda Reyes Gonzalez,DIRECTOR,17004.4,DIRECTOR,ACCION CIVICA,6188.4,11927166,01/07/2019,31/12/2019


| What problems should we worry about?                         | What can we do about these problems?   |
| ------------------------------------------------------------ | -------------------------------------- |
| All field values are in Spanish and lowercase without spaces | Rename all to use English _snake_case_ |
| The order of columns is unintuitive                          | Sort them                              |
| `idInformation` should be the index                          | Set it to the index                    |
| `periodoreportafin` and `periodoreportainicio` aren't dates  | Convert them                           |
| Many unavailable `nombre` values should be normalized        | Replace                                |
| `"Ver nota"` and `"na"` as default values for `denominacion` | Replace with `NaN`                     |
| `cargo` and `denominacion` appear to be identical            | Drop one                               |


In [47]:
df[
    (df["denominacion"] != df["cargo"])
    & (df["denominacion"].notna() | df["cargo"].notna())
]

Unnamed: 0,entidadfederativa,sujetoobligado,nombre,denominacion,montoneto,cargo,area,montobruto,idInformacion,periodoreportainicio,periodoreportafin


In [48]:
df.drop(columns="denominacion", inplace=True)

In [49]:
df.rename(
    columns={
        "nombre": "name",
        "cargo": "position",
        "area": "department",
        "sujetoobligado": "authority",
        "entidadfederativa": "state",
        "montoneto": "net",
        "montobruto": "gross",
        "periodoreportainicio": "reporting_start",
        "periodoreportafin": "reporting_end",
        "idInformacion": "id_information",
    },
    inplace=True,
)
# English snake_case all columns

In [50]:
df = df[[
    "id_information",
    "name",
    "position",
    "department",
    "authority",
    "state",
    "net",
    "gross",
    "reporting_start",
    "reporting_end",
]]
df

Unnamed: 0,id_information,name,position,department,authority,state,net,gross,reporting_start,reporting_end
0,16311845,Adolfo Hernandez Hernandez,Fontanero,OBRAS PUBLICAS,Jaltocán,Hidalgo,4000.00,4254.00,01/01/2018,30/06/2018
1,16480190,ARELY SAMANTA CLEOFAS VELASCO,"AUXILIAR DE ENFERMERIA ""A""",H.G. ENRIQUE CABRERA,Secretaría de Salud,Ciudad de México,12177.86,16092.00,01/01/2018,31/03/2018
2,17599078,MELODY OLIMPIC GONZALEZ MONTES,POLICIA PRIMERO,SUBSECRETARIA DE OPERACION POLICIAL,Secretaría de Seguridad Ciudadana,Ciudad de México,11652.00,16030.00,01/01/2020,31/03/2020
3,6514612,ANGEL ALLENDE PULIDO,APOYO Y ASISTENCIA A LA EDUCACION,DIRECCIÓN GENERAL DE OPERACIONES DE SERVICIOS ...,Autoridad Educativa Federal en la Ciudad de Mé...,Federación,10180.57,2910.65,01/07/2018,31/12/2018
4,11927166,Yolanda Reyes Gonzalez,DIRECTOR,ACCION CIVICA,MUNICIPIO DE RINCÓN DE ROMOS,Aguascalientes,17004.40,6188.40,01/07/2019,31/12/2019
...,...,...,...,...,...,...,...,...,...,...
1978150,18698843,Nancy Fanny Rivera Martinez,Operativo,Sector 52,Policía Auxiliar,Ciudad de México,12119.57,13766.68,01/04/2019,30/06/2019
1978151,16658324,MONICA IGNACIA AGUILAR RODRIGUEZ,JEFE DE OFICINA ...,DIRECCION GENERAL DE LOS SERVICIOS ESTATALES D...,Secretaría de Educación Guerrero (SEG),Guerrero,,9882.12,01/01/2018,31/03/2018
1978152,11695594,SEBASTIAN GOMEZ SANTIZ,TECNICO EN ATENCION PRIMARIA A LA SALUD,OFICINA JURISDICCIONAL (PICHUCALCO),Secretaría/Instituto de Salud,Chiapas,7978.94,20300.52,01/01/2020,30/06/2020
1978153,12038916,Santana Reyes Gómez,Policía Segundo,División de la Policía de Servicios,Secretaría de Seguridad y Protección Ciudadana,Chiapas,6190.95,6190.95,01/04/2018,30/06/2018


In [51]:
df.set_index("id_information")

Unnamed: 0_level_0,name,position,department,authority,state,net,gross,reporting_start,reporting_end
id_information,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1
16311845,Adolfo Hernandez Hernandez,Fontanero,OBRAS PUBLICAS,Jaltocán,Hidalgo,4000.00,4254.00,01/01/2018,30/06/2018
16480190,ARELY SAMANTA CLEOFAS VELASCO,"AUXILIAR DE ENFERMERIA ""A""",H.G. ENRIQUE CABRERA,Secretaría de Salud,Ciudad de México,12177.86,16092.00,01/01/2018,31/03/2018
17599078,MELODY OLIMPIC GONZALEZ MONTES,POLICIA PRIMERO,SUBSECRETARIA DE OPERACION POLICIAL,Secretaría de Seguridad Ciudadana,Ciudad de México,11652.00,16030.00,01/01/2020,31/03/2020
6514612,ANGEL ALLENDE PULIDO,APOYO Y ASISTENCIA A LA EDUCACION,DIRECCIÓN GENERAL DE OPERACIONES DE SERVICIOS ...,Autoridad Educativa Federal en la Ciudad de Mé...,Federación,10180.57,2910.65,01/07/2018,31/12/2018
11927166,Yolanda Reyes Gonzalez,DIRECTOR,ACCION CIVICA,MUNICIPIO DE RINCÓN DE ROMOS,Aguascalientes,17004.40,6188.40,01/07/2019,31/12/2019
...,...,...,...,...,...,...,...,...,...
18698843,Nancy Fanny Rivera Martinez,Operativo,Sector 52,Policía Auxiliar,Ciudad de México,12119.57,13766.68,01/04/2019,30/06/2019
16658324,MONICA IGNACIA AGUILAR RODRIGUEZ,JEFE DE OFICINA ...,DIRECCION GENERAL DE LOS SERVICIOS ESTATALES D...,Secretaría de Educación Guerrero (SEG),Guerrero,,9882.12,01/01/2018,31/03/2018
11695594,SEBASTIAN GOMEZ SANTIZ,TECNICO EN ATENCION PRIMARIA A LA SALUD,OFICINA JURISDICCIONAL (PICHUCALCO),Secretaría/Instituto de Salud,Chiapas,7978.94,20300.52,01/01/2020,30/06/2020
12038916,Santana Reyes Gómez,Policía Segundo,División de la Policía de Servicios,Secretaría de Seguridad y Protección Ciudadana,Chiapas,6190.95,6190.95,01/04/2018,30/06/2018


In [52]:
print("% of non-null values")
df.count() / df.shape[0]

% of non-null values


id_information     1.000000
name               0.984016
position           0.973309
department         0.983208
authority          1.000000
state              1.000000
net                0.954920
gross              0.980071
reporting_start    1.000000
reporting_end      1.000000
dtype: float64

In [53]:
df.to_csv("./3.2.csv", index=False)

| What problems should we worry about?                         | What can we do about these problems?   |
| ------------------------------------------------------------ | -------------------------------------- |
| `periodoreportafin` and `periodoreportainicio` aren't dates  | Convert them                           |
| Many unavailable `nombre` values should be normalized        | Replace                                |
| `"Ver nota"` and `"na"` as default values for `denominacion` | Replace with `NaN`                     |
