Data sourced from https://www.kaggle.com/datasets/ivansabik/mexican-federal-government-salaries/

### How can we detect problems with the data?

-   Sample the data using `.head()` and look for problems
-   Use `.dtype` to verify datatypes
-   Use `.value_counts()` to find any non-NaN default values or common preceeding whitespace in values
-   Use `.duplicated()` to check that there are no duplicate values


In [7]:
import pandas

df = pandas.read_csv("./3.0.csv")
df.head()

Unnamed: 0,entidadfederativa,sujetoobligado,nombre,denominacion,montoneto,cargo,area,montobruto,idInformacion,periodoreportainicio,periodoreportafin
0,Hidalgo,Jaltocán,Adolfo Hernandez Hernandez,Fontanero,4000.0,Fontanero,OBRAS PUBLICAS,4254.0,16311845,01/01/2018,30/06/2018
1,Ciudad de México,Secretaría de Salud,ARELY SAMANTA CLEOFAS VELASCO,"AUXILIAR DE ENFERMERIA ""A""",12177.86,"AUXILIAR DE ENFERMERIA ""A""",H.G. ENRIQUE CABRERA,16092.0,16480190,01/01/2018,31/03/2018
2,Ciudad de México,Secretaría de Seguridad Ciudadana,MELODY OLIMPIC GONZALEZ MONTES,POLICIA PRIMERO,11652.0,POLICIA PRIMERO,SUBSECRETARIA DE OPERACION POLICIAL,16030.0,17599078,01/01/2020,31/03/2020
3,Federación,Autoridad Educativa Federal en la Ciudad de Mé...,ANGEL ALLENDE PULIDO,APOYO Y ASISTENCIA A LA EDUCACION,10180.57,APOYO Y ASISTENCIA A LA EDUCACION,DIRECCIÓN GENERAL DE OPERACIONES DE SERVICIOS ...,2910.65,6514612,01/07/2018,31/12/2018
4,Aguascalientes,MUNICIPIO DE RINCÓN DE ROMOS,Yolanda Reyes Gonzalez,DIRECTOR,17004.4,DIRECTOR,ACCION CIVICA,6188.4,11927166,01/07/2019,31/12/2019


In [8]:
df.dtypes

entidadfederativa        object
sujetoobligado           object
nombre                   object
denominacion             object
montoneto               float64
cargo                    object
area                     object
montobruto              float64
idInformacion             int64
periodoreportainicio     object
periodoreportafin        object
dtype: object

In [9]:
df.size

21759705

In [10]:
for column in df.columns:
    print(f"---- {column} ----")
    print(df[column].value_counts().head(5))
    if df[column].dtype == object:
        print("-- First characters --")
        print(df[column].str[0].value_counts().head(5))

---- entidadfederativa ----
Federación          676723
Ciudad de México    312648
Guerrero            141018
Aguascalientes      128410
Chiapas             108193
Name: entidadfederativa, dtype: int64
-- First characters --
F    676723
C    604055
G    179415
A    128410
B    124552
Name: entidadfederativa, dtype: int64
---- sujetoobligado ----
Instituto Mexicano del Seguro Social (IMSS)                   126635
Secretaría de Educación Guerrero (SEG)                        110388
INSTITUTO DE EDUCACIÓN DE AGUASCALIENTES                      106848
Autoridad Educativa Federal en la Ciudad de México (AEFCM)     96230
Secretaría de Educación                                        78678
Name: sujetoobligado, dtype: int64
-- First characters --
S    696701
I    401283
A    248081
C    212808
P    156358
Name: sujetoobligado, dtype: int64
---- nombre ----
RESERVADO RESERVADO RESERVADO                                                                                                             

In [11]:
df[df.duplicated()]

Unnamed: 0,entidadfederativa,sujetoobligado,nombre,denominacion,montoneto,cargo,area,montobruto,idInformacion,periodoreportainicio,periodoreportafin


| What problems should we worry about?                         | What can we do about these problems?   |
| ------------------------------------------------------------ | -------------------------------------- |
| All field values are in Spanish and lowercase without spaces | Rename all to use English _snake_case_ |
| `idInformation` isn't useful                                 | Drop it                                |
| `periodoreportafin` and `periodoreportainicio` aren't dates  | Convert them                           |
| Many unavailable `nombre` values should be normalized        | Replace                                |
| `"Ver nota"` and `"na"` as default values for `denominacion` | Replace with `NaN`                     |
| `cargo` and `denominacion` appear to be identical            | Drop one                               |
