# Mexican Federal Budget multi-year ingestion 

In [3]:
from pandas import read_csv

## Cuenta_Publica_YYYY.csv files
Import one file to check it out

In [4]:
mx_2010 = read_csv('Cuenta_Publica_2010.csv', encoding='iso-8859-1')

In [5]:
mx_2010.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 129014 entries, 0 to 129013
Data columns (total 25 columns):
Ciclo                                                      129014 non-null int64
Ramo                                                       129014 non-null int64
Descripción de Ramo                                        129014 non-null object
Unidad Responsable                                         129014 non-null object
Descripción de Unidad Responsable                          129014 non-null object
Finalidad                                                  129014 non-null int64
Descripción de Finalidad                                   129014 non-null object
Función                                                    129014 non-null int64
Descripción de Función                                     129014 non-null object
Subfunción                                                 129014 non-null int64
Descripción de Subfunción                                  129014 non-null

Okay all is good. Import allfiles.

In [7]:
cuenta_publica = {}

files = {
    2010: 'Cuenta_Publica_2010.csv',
    2011: 'Cuenta_Publica_2011.csv',
    2012: 'Cuenta_Publica_2012.csv',
    2013: 'Cuenta_Publica_2013_RA.csv',
    2014: 'Cuenta_Publica_2014_RA.csv',
    2015: 'Cuenta_Publica_2015_GF.csv',
}
for year, file in files.items():
    print(year)
    cuenta_publica[year] = read_csv(file, encoding='iso-8859-1')

2010
2011
2012


  interactivity=interactivity, compiler=compiler, result=result)


2013
2014
2015


  interactivity=interactivity, compiler=compiler, result=result)


## Type problems

* 2012: columns (3, 25) 
* 2015: columns (3, 25, 30)



In [9]:
print(cuenta_publica[2015].columns[3])
print(cuenta_publica[2015].columns[25])
print(cuenta_publica[2015].columns[30])

Unidad Responsable
Clave de cartera
Adefas


In [10]:
cuenta_publica[2015]['Unidad Responsable'].value_counts()[:30]

B00    15431
300    12764
200     9582
100     8693
200     5911
627     4159
AYB     3528
RHQ     3524
100     3515
635     3149
640     3135
644     3085
650     2998
110     2991
D00     2908
E00     2757
LAT     2737
G00     2673
416     2501
117     2412
636     2305
311     2272
211     2191
300     2021
632     1914
645     1826
K00     1756
115     1675
NHK     1661
312     1618
Name: Unidad Responsable, dtype: int64

In [11]:
cuenta_publica[2015]['Clave de cartera'].value_counts()[:30]

0              159235
0               37235
11071170002       644
14092100002       641
14092110001       601
14071170011       457
14092100002       446
14092110001       438
14071170013       289
0916B000243       154
15071170001       152
1216B000124       127
1216B000128       122
14071170012       101
1216B000127        88
1216B000122        82
14067120004        81
1316B000164        80
12096300011        76
14092100004        73
14092100004        73
1316B000165        71
10096440014        71
11096420007        70
11096360009        69
13096250003        65
1420G000003        63
0616B000034        55
14312000008        54
0816B000160        52
Name: Clave de cartera, dtype: int64

In [12]:
cuenta_publica[2015]['Adefas'].value_counts()[:30]

0.00          217214
0.0             9707
72,996.69         26
6.35              26
2,440.00          23
6,004.67          22
28,260.09         20
355.70            20
3,191.00          19
16.00             19
387.00            18
5,323.00          18
1,148.00          18
11,017.00         18
3,571.00          18
1,000.00          17
9,286.00          17
420.00            16
77,056.00         16
460.42            16
7,774.00          15
2,000.00          15
1,500.00          14
1,552.00          12
988.00            12
429.00            12
0.99              12
431,439.00        11
96,000.00         11
1,711.00          11
Name: Adefas, dtype: int64

Okay so nothing special, just use strings anyways. In fact, we really don't want to mess with the raw data. It's preferable to load everything as strings. So let's reload the data, forcing strings. 

In [15]:
for year, file in files.items():
    print(year, '- load with no type casting')
    temp_df = read_csv(file, encoding='iso-8859-1')
    casting_dict = {column: str for column in temp_df.columns}
    print(year, '- reload forcing all columns to be strings')
    cuenta_publica[year] = read_csv(file, encoding='iso-8859-1', dtype=casting_dict)    

print()
cuenta_publica[2010].info()

2010 - load with no type casting
2010 - reload forcing all columns to be strings
2011 - load with no type casting
2011 - reload forcing all columns to be strings
2012 - load with no type casting


  interactivity=interactivity, compiler=compiler, result=result)


2012 - reload forcing all columns to be strings
2013 - load with no type casting
2013 - reload forcing all columns to be strings
2014 - load with no type casting
2014 - reload forcing all columns to be strings
2015 - load with no type casting


  interactivity=interactivity, compiler=compiler, result=result)


2015 - reload forcing all columns to be strings

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 129014 entries, 0 to 129013
Data columns (total 25 columns):
Ciclo                                                      129014 non-null object
Ramo                                                       129014 non-null object
Descripción de Ramo                                        129014 non-null object
Unidad Responsable                                         129014 non-null object
Descripción de Unidad Responsable                          129014 non-null object
Finalidad                                                  129014 non-null object
Descripción de Finalidad                                   129014 non-null object
Función                                                    129014 non-null object
Descripción de Función                                     129014 non-null object
Subfunción                                                 129014 non-null object
Descripción de Subfu

Great.

## Column consistency
Check the column consistency against 2010.

In [16]:
def are_columns_the_same(dataframes, reference):
    for year, df in dataframes.items():
        if not set(dataframes[reference].columns) - set(df.columns):
            answer = 'yes'
        else:
            answer = 'no'
        print(year, answer)

In [17]:
are_columns_the_same(cuenta_publica, 2010)

2010 yes
2011 yes
2012 yes
2013 yes
2014 no
2015 no


What's the union of these columns?

In [19]:
union_of_columns(cuenta_publica)

{'ADEFAS',
 'Actividad Institucional',
 'Adefas',
 'Aprobado',
 'Ciclo',
 'Clave de cartera',
 'Descripción de Finalidad',
 'Descripción de Fuente de Financiamiento',
 'Descripción de Función',
 'Descripción de Grupo Funcional',
 'Descripción de Objeto del Gasto',
 'Descripción de Programa Presupuestario',
 'Descripción de Ramo',
 'Descripción de Subfunción',
 'Descripción de Tipo de Gasto',
 'Descripción de Unidad Responsable',
 'Descripción de la Actividad Institucional',
 'Descripción de la entidad federativa',
 'Descripción de la modalidad del programa presupuestario',
 'Devengado',
 'Ejercicio',
 'Ejercido',
 'Entidad Federativa',
 'Finalidad',
 'Fuente de Financiamiento',
 'Función',
 'Grupo Funcional',
 'Modalidad del Programa presupuestario',
 'Modificado',
 'Objeto del Gasto',
 'Pagado',
 'Programa Presupuestario',
 'Ramo',
 'Subfunción',
 'Tipo de Gasto',
 'Unidad Responsable',
 'Unnamed: 25',
 'Unnamed: 26',
 'Unnamed: 27',
 'Unnamed: 28',
 'Unnamed: 29',
 'Unnamed: 30',
 'U

## Typos

In [102]:
for year in range(2010, 2016):
    print(year, 'ADEFA:S' 'ADEFAS' in cuenta_publica[year].columns)
    print(year, 'Adefas', 'Adefas' in cuenta_publica[year].columns)
    print(year, 'Ejercicio', 'Ejercicio' in cuenta_publica[year].columns)
    print(year, 'Ejercido', 'Ejercido' in cuenta_publica[year].columns)
    print()

2010 ADEFA:S False
2010 Adefas False
2010 Ejercicio False
2010 Ejercido True

2011 ADEFA:S False
2011 Adefas False
2011 Ejercicio False
2011 Ejercido True

2012 ADEFA:S False
2012 Adefas False
2012 Ejercicio False
2012 Ejercido True

2013 ADEFA:S False
2013 Adefas False
2013 Ejercicio False
2013 Ejercido True

2014 ADEFA:S False
2014 Adefas True
2014 Ejercicio True
2014 Ejercido False

2015 ADEFA:S False
2015 Adefas True
2015 Ejercicio True
2015 Ejercido False



In [21]:
for year in range(2010, 2016):
    print(year, 'Adefas' in cuenta_publica[year].columns)

2010 False
2011 False
2012 False
2013 False
2014 False
2015 True


In [22]:
for year in range(2010, 2016):
    print(year, 'adefas' in map(lambda x: x.lower(), cuenta_publica[year].columns))

2010 False
2011 False
2012 False
2013 False
2014 True
2015 True


Okay so basically only 2014 and 2015 have the Adefas column and there's only a small inconsistency about caps. Let's fix that.

In [23]:
cuenta_publica[2014].rename(columns={'ADEFAS': 'Adefas'}, inplace=True)
set(cuenta_publica[2014].columns) - set(cuenta_publica[2015].columns)

set()

Fixed. Now unnammed columns...

## Unnammed columns
Where are these unamed columns coming from?

In [24]:
def print_unnamed_columns(df):
    for year in range(2010, 2016):
        unamned_columns = [column for column in df[year].columns if 'Unnamed' in column]
        print(year, unamned_columns)

In [25]:
print_unnamed_columns(cuenta_publica)

2010 []
2011 ['Unnamed: 25', 'Unnamed: 26', 'Unnamed: 27', 'Unnamed: 28', 'Unnamed: 29', 'Unnamed: 30', 'Unnamed: 31', 'Unnamed: 32', 'Unnamed: 33', 'Unnamed: 34', 'Unnamed: 35', 'Unnamed: 36', 'Unnamed: 37', 'Unnamed: 38', 'Unnamed: 39', 'Unnamed: 40', 'Unnamed: 41']
2012 []
2013 []
2014 []
2015 []


In [26]:
cuenta_publica[2011].head(2)

Unnamed: 0,Ciclo,Ramo,Descripción de Ramo,Unidad Responsable,Descripción de Unidad Responsable,Finalidad,Descripción de Finalidad,Función,Descripción de Función,Subfunción,...,Unnamed: 32,Unnamed: 33,Unnamed: 34,Unnamed: 35,Unnamed: 36,Unnamed: 37,Unnamed: 38,Unnamed: 39,Unnamed: 40,Unnamed: 41
0,2011,1,Poder Legislativo,100,Honorable Cámara de Diputados,1,Gobierno,0,Legislación,1,...,,,,,,,,,,
1,2011,1,Poder Legislativo,100,Honorable Cámara de Diputados,1,Gobierno,0,Legislación,1,...,,,,,,,,,,


In [27]:
cuenta_publica[2011].tail(2)

Unnamed: 0,Ciclo,Ramo,Descripción de Ramo,Unidad Responsable,Descripción de Unidad Responsable,Finalidad,Descripción de Finalidad,Función,Descripción de Función,Subfunción,...,Unnamed: 32,Unnamed: 33,Unnamed: 34,Unnamed: 35,Unnamed: 36,Unnamed: 37,Unnamed: 38,Unnamed: 39,Unnamed: 40,Unnamed: 41
138825,2011,38,Consejo Nacional de Ciencia y Tecnología,90E,Centro de Investigación en Materiales Avanzado...,3,Desarrollo Económico,7,Ciencia y Tecnología,1,...,,,,,,,,,,
138826,2011,38,Consejo Nacional de Ciencia y Tecnología,90E,Centro de Investigación en Materiales Avanzado...,3,Desarrollo Económico,7,Ciencia y Tecnología,1,...,,,,,,,,,,


They look like junk. Remove:

In [28]:
for i in range(25,42):
    unnamed = 'Unnamed: %s' % i
    try:
        del cuenta_publica[2011][unnamed]
    except KeyError:
        pass

In [29]:
union_columns = union_of_columns(cuenta_publica)
union_columns

{'Actividad Institucional',
 'Adefas',
 'Aprobado',
 'Ciclo',
 'Clave de cartera',
 'Descripción de Finalidad',
 'Descripción de Fuente de Financiamiento',
 'Descripción de Función',
 'Descripción de Grupo Funcional',
 'Descripción de Objeto del Gasto',
 'Descripción de Programa Presupuestario',
 'Descripción de Ramo',
 'Descripción de Subfunción',
 'Descripción de Tipo de Gasto',
 'Descripción de Unidad Responsable',
 'Descripción de la Actividad Institucional',
 'Descripción de la entidad federativa',
 'Descripción de la modalidad del programa presupuestario',
 'Devengado',
 'Ejercicio',
 'Ejercido',
 'Entidad Federativa',
 'Finalidad',
 'Fuente de Financiamiento',
 'Función',
 'Grupo Funcional',
 'Modalidad del Programa presupuestario',
 'Modificado',
 'Objeto del Gasto',
 'Pagado',
 'Programa Presupuestario',
 'Ramo',
 'Subfunción',
 'Tipo de Gasto',
 'Unidad Responsable'}

## Intersection of columns

In [66]:
def get_intersection_of_columns(df):
    intersection = union_of_columns(df)
    for year in range(2010, 2016):
        intersection = intersection & set(df[year].columns)
    return intersection

In [67]:
intersection_columns = get_intersection_of_columns(cuenta_publica)
intersection_columns

{'Actividad Institucional',
 'Aprobado',
 'Ciclo',
 'Descripción de Fuente de Financiamiento',
 'Descripción de Función',
 'Descripción de Objeto del Gasto',
 'Descripción de Programa Presupuestario',
 'Descripción de Ramo',
 'Descripción de Subfunción',
 'Descripción de Tipo de Gasto',
 'Descripción de Unidad Responsable',
 'Descripción de la Actividad Institucional',
 'Descripción de la modalidad del programa presupuestario',
 'Fuente de Financiamiento',
 'Función',
 'Modalidad del Programa presupuestario',
 'Objeto del Gasto',
 'Programa Presupuestario',
 'Ramo',
 'Subfunción',
 'Tipo de Gasto',
 'Unidad Responsable'}

Okay so that's basically I think that's what we're gonna be working with. There's no point trying to concatenate the union of the columns: that's just gonna produce a lot of NaNs, and won't make much sense for Babbage. So, conclusion: __the only *measure* column we're left with is the 'Approved' column__.

## Compare with existing schema
Import the latest mapping from Open-Spending

In [78]:
from json import loads
with open('/home/loic/data/mexican-federal-budget-iteration-2.json') as file:
    schema = loads(file.read())

reference_columns = set(sorted([column['slug'] for column in schema['resources'][0]['schema']['fields']]))
reference_columns

{'Actividad_Institucional',
 'Adefas',
 'Aprobado',
 'Ciclo',
 'Devengado',
 'Ejercicio',
 'Entidad_Federativa',
 'Finalidad',
 'Fuente_Financiamiento',
 'Funcion',
 'ID_AI',
 'ID_EF',
 'ID_FF',
 'ID_FIN',
 'ID_Funcion',
 'ID_Modalidad',
 'ID_OG',
 'ID_PP',
 'ID_Ramo',
 'ID_Subfuncion',
 'ID_UR',
 'Identificador_de_Clave_de_Cartera',
 'Modalidad',
 'Modificado',
 'Objeto_Gasto',
 'Pagado',
 'Programa_Presupuestario',
 'Ramo',
 'Subfuncion',
 'Tipo_Gasto',
 'Unidad_Responsible'}

In [86]:
reference_columns & intersection_columns

{'Aprobado', 'Ciclo', 'Ramo'}

Let's take the symmetric difference.

In [87]:
union_columns ^ reference_columns

{'Actividad Institucional',
 'Actividad_Institucional',
 'Clave de cartera',
 'Descripción de Finalidad',
 'Descripción de Fuente de Financiamiento',
 'Descripción de Función',
 'Descripción de Grupo Funcional',
 'Descripción de Objeto del Gasto',
 'Descripción de Programa Presupuestario',
 'Descripción de Ramo',
 'Descripción de Subfunción',
 'Descripción de Tipo de Gasto',
 'Descripción de Unidad Responsable',
 'Descripción de la Actividad Institucional',
 'Descripción de la entidad federativa',
 'Descripción de la modalidad del programa presupuestario',
 'Ejercido',
 'Entidad Federativa',
 'Entidad_Federativa',
 'Fuente de Financiamiento',
 'Fuente_Financiamiento',
 'Funcion',
 'Función',
 'Grupo Funcional',
 'ID_AI',
 'ID_EF',
 'ID_FF',
 'ID_FIN',
 'ID_Funcion',
 'ID_Modalidad',
 'ID_OG',
 'ID_PP',
 'ID_Ramo',
 'ID_Subfuncion',
 'ID_UR',
 'Identificador_de_Clave_de_Cartera',
 'Modalidad',
 'Modalidad del Programa presupuestario',
 'Objeto del Gasto',
 'Objeto_Gasto',
 'Programa Pre

Yep. There's some mapping to do.

## Mapping
Strictly this is not required because it's just about column labels, but let's do it (by hand) anyways as a quality assurance exercise.

In [90]:
mapping = {
    'Actividad_Institucional': 'Descripción de la Actividad Institucional',
    'Ciclo': 'Ciclo',
    'Entidad_Federativa': 'Descripción de la Entidad Federativa',
    'Finalidad': 'Descripción de Finalidad',
    'Fuente_Financiamiento': 'Descripción de Fuente de Financiamiento',
    'Funcion': 'Descripción de Función',
    'ID_AI': 'Actividad Institucional',
    'ID_EF': 'Entidad Federativa',
    'ID_FF': 'Fuente de Financiamiento',
    'ID_FIN': 'Finalidad',
    'ID_Funcion': 'Función',
    'ID_Modalidad': 'Modalidad del Programa presupuestario',
    'ID_OG': 'Objeto del Gasto',
    'ID_PP': 'Programa Presupuestario',
    'ID_Ramo': 'Ramo',
    'ID_Subfuncion': 'Subfunción',
    'ID_UR': 'Unidad Responsable',
    'Identificador_de_Clave_de_Cartera': 'Clave de cartera',
    'Modalidad': 'Descripción de la modalidad del programa presupuestario',
    'Objeto_Gasto': 'Descripción de Objeto del Gasto',
    'Programa_Presupuestario': 'Descripción de Programa Presupuestario',
    'Ramo': 'Descripción de Ramo',
    'Subfuncion': 'Descripción de Subfunción',
    'Tipo_Gasto': 'Descripción de Tipo de Gasto',
    'Unidad_Responsible': 'Descripción de Unidad Responsable',
    'Aprobado': 'Aprobado'
}

Double check that the mapping is complete.

In [92]:
crossover_columns = [item for item in mapping.values()]
intersection_columns - set(crossover_columns)

{'Tipo de Gasto'}

...okay this tells us that the 2015 test file that we've been using up until now was missing the "Tipo de Gasto" column, which is something that I had noticed. This is good news. So let's concatenate on the intersection of the columns.

## Concatenation

In [94]:
from pandas import concat

multi_year_cp = concat(cuenta_publica.values(), ignore_index=True)
for column in multi_year_cp.columns:
    if column not in intersection_columns:
        try:
            del multi_year_cp[column]
            print('deleted', column)
        except KeyError:
            pass

deleted Adefas
deleted Clave de cartera
deleted Descripción de Finalidad
deleted Descripción de Grupo Funcional
deleted Descripción de la entidad federativa
deleted Devengado
deleted Ejercicio
deleted Ejercido
deleted Entidad Federativa
deleted Finalidad
deleted Grupo Funcional
deleted Modificado
deleted Pagado


In [95]:
len(multi_year_cp)

1250200

Just over a million lines of data.

In [96]:
multi_year_cp.sample(n=10)

Unnamed: 0,Actividad Institucional,Aprobado,Ciclo,Descripción de Fuente de Financiamiento,Descripción de Función,Descripción de Objeto del Gasto,Descripción de Programa Presupuestario,Descripción de Ramo,Descripción de Subfunción,Descripción de Tipo de Gasto,...,Descripción de la modalidad del programa presupuestario,Fuente de Financiamiento,Función,Modalidad del Programa presupuestario,Objeto del Gasto,Programa Presupuestario,Ramo,Subfunción,Tipo de Gasto,Unidad Responsable
251791,4,111500.0,2011,Recursos fiscales,Turismo,Material de limpieza,Establecer y conducir la política de turismo,Turismo,Turismo,Gasto corriente,...,"Planeación, seguimiento y evaluación de políti...",1,6,P,21601,1,21,1,1,200
976560,1,23000.0,2014,Recursos fiscales,Coordinación de la Política de Gobierno,Otros materiales y artículos de construcción y...,Gestión Administrativa,Instituto Nacional Electoral,Organización de Procesos Electorales,Gasto corriente,...,Apoyo al proceso presupuestario y para mejorar...,1,3,M,24901,1,22,6,1,300
1179324,3,0.0,2015,Recursos fiscales,"Agropecuaria, Silvicultura, Pesca y Caza",Otros servicios relacionados con obras públicas,Infraestructura de riego y Temporal Tecnificado,Medio Ambiente y Recursos Naturales,Hidroagrícola,Gasto de obra pública,...,Proyectos de Inversión,1,2,K,62905,135,16,5,3,B00
813488,3,20000.0,2014,Recursos fiscales,Transporte,Artículos metálicos para la construcción,Reconstrucción y Conservación de Carreteras,Comunicaciones y Transportes,Transporte por Carretera,Gasto de obra pública,...,Proyectos de Inversión,1,5,K,24701,32,9,1,3,623
142152,10,1418851.0,2011,Recursos fiscales,Gobernación,Impuesto sobre nóminas,Proteccion de Datos Personales en Posesión de ...,Hacienda y Crédito Público,Acceso a la Información Pública Gubernamental,Gasto corriente,...,Prestación de Servicios Públicos,1,4,E,39801,7,6,8,1,HHE
1160548,4,94.0,2015,Recursos fiscales,"Agropecuaria, Silvicultura, Pesca y Caza",Mantenimiento y conservación de mobiliario y e...,Implementación de políticas enfocadas al medio...,"Desarrollo Agrario, Territorial y Urbano",Agropecuaria,Gasto corriente,...,"Planeación, seguimiento y evaluación de políti...",1,2,P,35201,1,15,1,1,123
701159,4,240000.0,2013,Recursos fiscales,Justicia,Productos alimenticios para el personal en las...,Investigar y perseguir los delitos del orden f...,Procuraduría General de la República,Procuración de Justicia,Gasto corriente,...,Prestación de Servicios Públicos,1,2,E,22104,2,17,2,1,339
225982,3,2804.0,2011,Recursos fiscales,Desarrollo Agropecuario y Forestal,Servicio de agua,Programa de gestión hídrica,Medio Ambiente y Recursos Naturales,Hidroagrícola,Gasto corriente,...,Regulación y supervisión,1,2,G,31301,10,16,5,1,B25
209513,24,64632.0,2011,Recursos fiscales,Ciencia y Tecnología,Asignaciones adicionales al sueldo,Investigación y desarrollo tecnológico en salud,Salud,Investigación Científica,Gasto corriente,...,Prestación de Servicios Públicos,1,7,E,15403,22,12,1,1,W00
407272,6,317751.0,2012,Recursos fiscales,Seguridad Nacional,Aportaciones al ISSSTE,Desarrollo y dirección de la política y estrat...,Marina,Marina,Gasto corriente,...,Funciones de las Fuerzas Armadas,1,6,A,14101,8,13,2,1,100


This gives us a clean dataset, that we can save.

In [99]:
multi_year_cp.to_csv('cuenta_publica_2008_to_2015.intersection_of_columns.csv', index=False)

In [100]:
!ls -lh

total 3.8G
-rw-rw-r-- 1 loic loic 513M Aug  4 13:12 cuenta_publica_2008_to_2015.csv
-rw-rw-r-- 1 loic loic 513M Aug  4 13:14 cuenta_publica_2008_to_2015.intersection_of_columns.csv
-rw-rw-r-- 1 loic loic 607M Aug  4 07:07 cuenta_publica_2008_to_2015.union_of_columns.csv
-rwxr--r-- 1 loic loic  55M Aug  3 10:16 Cuenta_Publica_2010.csv
-rw-rw-r-- 1 loic loic 436K Aug  4 11:18 Cuenta_Publica_2010.sample.csv
-rw-rw-r-- 1 loic loic 607M Aug  3 20:30 cuenta_publica_2010_to_2015.csv
-rw-rw-r-- 1 loic loic 495K Aug  4 11:33 cuenta_publica_2010_to_2015.sample.csv
-rwxr--r-- 1 loic loic  61M Aug  3 10:18 Cuenta_Publica_2011.csv
-rwxr--r-- 1 loic loic 123M Aug  3 10:26 Cuenta_Publica_2012.csv
-rwxr--r-- 1 loic loic 106M Aug  3 10:23 Cuenta_Publica_2013_RA.csv
-rwxr--r-- 1 loic loic 120M Aug  3 10:26 Cuenta_Publica_2014_RA.csv
-rwxr--r-- 1 loic loic 118M Aug  3 10:25 Cuenta_Publica_2015_GF.csv
-rw-rw-r-- 1 loic loic 128K Aug  4 13:13 mexican_federal_budget_ingestion_preparation.ipynb

The file weighs 607MB.

## PEF files

Approved budgets. Repeat the exact same process.

In [39]:
from pandas import read_csv 

pef = {}

for year in range(2008, 2017):
    print(year)
    pef[year] = read_csv('PEF%s_AC01.csv' % year, encoding='iso-8859-1')

2008


  interactivity=interactivity, compiler=compiler, result=result)


2009
2010
2011
2012
2013
2014
2015


  interactivity=interactivity, compiler=compiler, result=result)


2016


In [40]:
print(pef[2008].columns[1])
print(pef[2015].columns[25])
print(pef[2015].columns[3])

Ramo
Clave de Cartera
Unidad Responsable


In [41]:
pef[2008]['Ramo'].value_counts()

9      9813
11     5430
12     4732
16     3571
8      2760
10     2671
6      2459
20     1990
17     1959
33     1698
GYN    1436
4      1298
15     1278
32     1087
14     1064
22      977
5       975
36      935
27      902
18      844
14      677
35      669
7       669
21      648
13      551
38      467
GYR     413
TOQ     408
2       392
T1O     176
3       175
1       166
31      151
28      128
37      110
23       98
TZZ      60
25       32
19       19
24       19
34       10
30        1
Name: Ramo, dtype: int64

In [42]:
casting = {
    'Unidad Responsable': str,
    'Clave de cartera': str,
    'Ramo': str,
}

for year in range(2008, 2017):
    pef[year] = read_csv('PEF%s_AC01.csv' % year, encoding='iso-8859-1', dtype=casting)

  interactivity=interactivity, compiler=compiler, result=result)


In [43]:
pef[2015].head()

Unnamed: 0,Ciclo,Ramo,Descripción de Ramo,Unidad Responsable,Descripción de Unidad Responsable,Finalidad,Descripción de Finalidad,Función,Descripción de Función,Subfunción,...,Objeto del Gasto,Descripción de Objeto del Gasto,Tipo de Gasto,Descripción de Tipo de Gasto,Fuente de Financiamiento,Descripción de Fuente de Financiamiento,Entidad Federativa,Descripción de Entidad Federativa,Clave de Cartera,Importe Presupuesto de Egresos de la Federación (PEF)
0,2015,1,Poder Legislativo,100,H. Cámara de Diputados,1,Gobierno,1,Legislación,1,...,6200,Obra pública en bienes propios,3,Gasto de obra pública,1,Recursos fiscales,9,Distrito Federal,0,"$11,397,536.00"
1,2015,1,Poder Legislativo,100,H. Cámara de Diputados,1,Gobierno,1,Legislación,1,...,6200,Obra pública en bienes propios,3,Gasto de obra pública,1,Recursos fiscales,9,Distrito Federal,0,"$166,970,738.00"
2,2015,1,Poder Legislativo,100,H. Cámara de Diputados,1,Gobierno,1,Legislación,1,...,1100,Remuneraciones al personal de carácter permanente,1,Gasto corriente,1,Recursos fiscales,9,Distrito Federal,0,"$632,268,000.00"
3,2015,1,Poder Legislativo,100,H. Cámara de Diputados,1,Gobierno,1,Legislación,1,...,1100,Remuneraciones al personal de carácter permanente,1,Gasto corriente,1,Recursos fiscales,9,Distrito Federal,0,"$356,286,670.00"
4,2015,1,Poder Legislativo,100,H. Cámara de Diputados,1,Gobierno,1,Legislación,1,...,1200,Remuneraciones al personal de carácter transit...,1,Gasto corriente,1,Recursos fiscales,9,Distrito Federal,0,"$878,543,868.00"


### Column consistency

In [44]:
are_columns_the_same(pef, 2010)

2016 no
2008 no
2009 no
2010 yes
2011 yes
2012 yes
2013 no
2014 no
2015 no


In [45]:
union_of_columns(pef)

{' Importe Presupuesto de Egresos de la Federación (PEF) ',
 'Actividad Institucional',
 'Ciclo',
 'Clave de Cartera',
 'Descripción de Entidad Federativa',
 'Descripción de Finalidad',
 'Descripción de Fuente de Financiamiento',
 'Descripción de Función',
 'Descripción de Objeto del Gasto',
 'Descripción de Programa Presupuestario',
 'Descripción de Ramo',
 'Descripción de Subfunción',
 'Descripción de Tipo de Gasto',
 'Descripción de Unidad Responsable',
 'Descripción de la Actividad Institucional',
 'Descripción del Identificador del Programa Presupuestario',
 'Entidad Federativa',
 'Finalidad',
 'Fuente de Financiamiento',
 'Función',
 'Identificador del Programa Presupuestario',
 'Importe Presupuesto de Egresos de la Federación (PEF)',
 'Objeto del Gasto',
 'Programa Presupuestario',
 'Ramo',
 'Subfunción',
 'Tipo de Gasto',
 'Unidad Responsable',
 'Unnamed: 24',
 'Unnamed: 25',
 'Unnamed: 26',
 'Unnamed: 27',
 'Unnamed: 28',
 'Unnamed: 29',
 'Unnamed: 30'}

In [46]:
print_unnamed_columns(pef)

2010 ['Unnamed: 24', 'Unnamed: 25', 'Unnamed: 26', 'Unnamed: 27', 'Unnamed: 28', 'Unnamed: 29', 'Unnamed: 30']
2011 ['Unnamed: 24', 'Unnamed: 25', 'Unnamed: 26', 'Unnamed: 27', 'Unnamed: 28', 'Unnamed: 29', 'Unnamed: 30']
2012 ['Unnamed: 24', 'Unnamed: 25', 'Unnamed: 26', 'Unnamed: 27', 'Unnamed: 28', 'Unnamed: 29', 'Unnamed: 30']
2013 []
2014 []
2015 []


In [47]:
pef[2010].head(2)

Unnamed: 0,Ciclo,Ramo,Descripción de Ramo,Unidad Responsable,Descripción de Unidad Responsable,Finalidad,Descripción de Finalidad,Función,Descripción de Función,Subfunción,...,Fuente de Financiamiento,Descripción de Fuente de Financiamiento,Importe Presupuesto de Egresos de la Federación (PEF),Unnamed: 24,Unnamed: 25,Unnamed: 26,Unnamed: 27,Unnamed: 28,Unnamed: 29,Unnamed: 30
0,2010.0,1,Poder Legislativo,100,H. Cámara de Diputados,1.0,Gobierno,0.0,Legislación,1.0,...,1.0,Recursos fiscales,17642688.0,,,,,,,
1,2010.0,1,Poder Legislativo,100,H. Cámara de Diputados,1.0,Gobierno,0.0,Legislación,1.0,...,1.0,Recursos fiscales,863642461.0,,,,,,,


In [48]:
def delete_empty_columns(years):
    for year in years:
        for i in range(24,31):
            unnamed = 'Unnamed: %s' % i
            try:
                del pef[year][unnamed]
            except KeyError:
                pass

In [65]:
delete_empty_columns([2010, 2011, 2012])
pef[2010].head()

Unnamed: 0,Ciclo,Ramo,Descripción de Ramo,Unidad Responsable,Descripción de Unidad Responsable,Finalidad,Descripción de Finalidad,Función,Descripción de Función,Subfunción,...,Descripción del Identificador del Programa Presupuestario,Programa Presupuestario,Descripción de Programa Presupuestario,Objeto del Gasto,Descripción de Objeto del Gasto,Tipo de Gasto,Descripción de Tipo de Gasto,Fuente de Financiamiento,Descripción de Fuente de Financiamiento,Importe Presupuesto de Egresos de la Federación (PEF)
0,2010.0,1,Poder Legislativo,100,H. Cámara de Diputados,1.0,Gobierno,0.0,Legislación,1.0,...,Proyectos de Inversión,27.0,Mantenimiento de Infraestructura,6100.0,Obras Públicas por Contrato,3.0,Gasto de obra pública,1.0,Recursos fiscales,17642688.0
1,2010.0,1,Poder Legislativo,100,H. Cámara de Diputados,1.0,Gobierno,0.0,Legislación,1.0,...,Específicos,1.0,Actividades derivadas del Trabajo Legislativo,1100.0,Remuneraciones al Personal de Carácter Permanente,1.0,Gasto corriente,1.0,Recursos fiscales,863642461.0
2,2010.0,1,Poder Legislativo,100,H. Cámara de Diputados,1.0,Gobierno,0.0,Legislación,1.0,...,Específicos,1.0,Actividades derivadas del Trabajo Legislativo,1200.0,Remuneraciones al Personal de Carácter Transit...,1.0,Gasto corriente,1.0,Recursos fiscales,417754061.0
3,2010.0,1,Poder Legislativo,100,H. Cámara de Diputados,1.0,Gobierno,0.0,Legislación,1.0,...,Específicos,1.0,Actividades derivadas del Trabajo Legislativo,1300.0,Remuneraciones Adicionales y Especiales,1.0,Gasto corriente,1.0,Recursos fiscales,311260420.0
4,2010.0,1,Poder Legislativo,100,H. Cámara de Diputados,1.0,Gobierno,0.0,Legislación,1.0,...,Específicos,1.0,Actividades derivadas del Trabajo Legislativo,1400.0,Erogaciones del Gobierno Federal por Concepto ...,1.0,Gasto corriente,1.0,Recursos fiscales,176055727.0


In [66]:
union_of_columns(pef)

{'Actividad Institucional',
 'Ciclo',
 'Clave de Cartera',
 'Descripción de Entidad Federativa',
 'Descripción de Finalidad',
 'Descripción de Fuente de Financiamiento',
 'Descripción de Función',
 'Descripción de Objeto del Gasto',
 'Descripción de Programa Presupuestario',
 'Descripción de Ramo',
 'Descripción de Subfunción',
 'Descripción de Tipo de Gasto',
 'Descripción de Unidad Responsable',
 'Descripción de la Actividad Institucional',
 'Descripción del Identificador del Programa Presupuestario',
 'Entidad Federativa',
 'Finalidad',
 'Fuente de Financiamiento',
 'Función',
 'Identificador del Programa Presupuestario',
 'Importe Presupuesto de Egresos de la Federación (PEF)',
 'Objeto del Gasto',
 'Programa Presupuestario',
 'Ramo',
 'Subfunción',
 'Tipo de Gasto',
 'Unidad Responsable'}

In [67]:
len(union_of_columns(pef))

27

In [52]:
for year in range(2008, 2017):
    print(year, ' Importe Presupuesto de Egresos de la Federación (PEF) ' in pef[year].columns)

2008 False
2009 False
2010 False
2011 False
2012 False
2013 False
2014 True
2015 True
2016 False


In [53]:
new_name = {
    ' Importe Presupuesto de Egresos de la Federación (PEF) ': 'Importe Presupuesto de Egresos de la Federación (PEF)'
}

pef[2014].rename(columns=new_name, inplace=True)
pef[2015].rename(columns=new_name, inplace=True)
union_of_columns(pef)

{'Actividad Institucional',
 'Ciclo',
 'Clave de Cartera',
 'Descripción de Entidad Federativa',
 'Descripción de Finalidad',
 'Descripción de Fuente de Financiamiento',
 'Descripción de Función',
 'Descripción de Objeto del Gasto',
 'Descripción de Programa Presupuestario',
 'Descripción de Ramo',
 'Descripción de Subfunción',
 'Descripción de Tipo de Gasto',
 'Descripción de Unidad Responsable',
 'Descripción de la Actividad Institucional',
 'Descripción del Identificador del Programa Presupuestario',
 'Entidad Federativa',
 'Finalidad',
 'Fuente de Financiamiento',
 'Función',
 'Identificador del Programa Presupuestario',
 'Importe Presupuesto de Egresos de la Federación (PEF)',
 'Objeto del Gasto',
 'Programa Presupuestario',
 'Ramo',
 'Subfunción',
 'Tipo de Gasto',
 'Unidad Responsable'}

In [61]:
from pandas import concat 
multi_year_pef = concat(pef.values(), ignore_index=True)

In [63]:
multi_year_pef.head()

Unnamed: 0,ACTIVIDAD_INST_DESCRIPCION,AI,Actividad Institucional,CLAVE_CARTERA,CONCEPTO,CONCEPTO_DESCRIPCION,Ciclo,Clave de Cartera,Descripción de Actividad Institucional,Descripción de Entidad Federativa,...,UNIDAD,UNIDAD_DESCRIPCION,Unidad Responsable,Unnamed: 24,Unnamed: 25,Unnamed: 26,Unnamed: 27,Unnamed: 28,Unnamed: 29,Unnamed: 30
0,Llevar a cabo el proceso Legislativo,4.0,,0,6200.0,Obra p£blica en bienes propios,2016.0,,,,...,100,H. C mara de Diputados,,,,,,,,
1,Llevar a cabo el proceso Legislativo,4.0,,0,1100.0,Remuneraciones al personal de car cter permanente,2016.0,,,,...,100,H. C mara de Diputados,,,,,,,,
2,Llevar a cabo el proceso Legislativo,4.0,,0,1200.0,Remuneraciones al personal de car cter transit...,2016.0,,,,...,100,H. C mara de Diputados,,,,,,,,
3,Llevar a cabo el proceso Legislativo,4.0,,0,1300.0,Remuneraciones adicionales y especiales,2016.0,,,,...,100,H. C mara de Diputados,,,,,,,,
4,Llevar a cabo el proceso Legislativo,4.0,,0,1400.0,Seguridad social,2016.0,,,,...,100,H. C mara de Diputados,,,,,,,,


Compare that to one of the original files:

In [64]:
cuenta_publica[2010].head()

Unnamed: 0,Ciclo,Ramo,Descripción de Ramo,Unidad Responsable,Descripción de Unidad Responsable,Finalidad,Descripción de Finalidad,Función,Descripción de Función,Subfunción,...,Programa Presupuestario,Descripción de Programa Presupuestario,Objeto del Gasto,Descripción de Objeto del Gasto,Tipo de Gasto,Descripción de Tipo de Gasto,Fuente de Financiamiento,Descripción de Fuente de Financiamiento,Aprobado,Ejercido
0,2010,1,Poder Legislativo,100,H. Cámara de Diputados,1,Gobierno,0,Legislación,1,...,27,Mantenimiento de Infraestructura,6108,Mantenimiento y rehabilitación de obras públicas,3,Gasto de obra pública,1,Recursos fiscales,17642688.0,12766210.0
1,2010,1,Poder Legislativo,100,H. Cámara de Diputados,1,Gobierno,0,Legislación,1,...,1,ACTIVIDADES DERIVADAS DEL TRABAJO LEGISLATIVO,1101,Dietas,1,Gasto corriente,1,Recursos fiscales,632948173.0,628200410.0
2,2010,1,Poder Legislativo,100,H. Cámara de Diputados,1,Gobierno,0,Legislación,1,...,1,ACTIVIDADES DERIVADAS DEL TRABAJO LEGISLATIVO,1103,Sueldos base,1,Gasto corriente,1,Recursos fiscales,230694288.0,259828444.0
3,2010,1,Poder Legislativo,100,H. Cámara de Diputados,1,Gobierno,0,Legislación,1,...,1,ACTIVIDADES DERIVADAS DEL TRABAJO LEGISLATIVO,1201,Honorarios,1,Gasto corriente,1,Recursos fiscales,399765592.0,559746856.0
4,2010,1,Poder Legislativo,100,H. Cámara de Diputados,1,Gobierno,0,Legislación,1,...,1,ACTIVIDADES DERIVADAS DEL TRABAJO LEGISLATIVO,1202,Sueldos base al personal eventual,1,Gasto corriente,1,Recursos fiscales,17988469.0,22721031.0


In [56]:
len(multi_year_pef)

822115

In [57]:
multi_year_pef.to_csv('pef_2008_to_2015.csv', index=False)

In [58]:
ls -lh

total 3.4G
-rw-rw-r-- 1 loic loic 607M Aug  4 10:47 cuenta_publica_2008_to_2015.csv
-rwxr--r-- 1 loic loic  55M Aug  3 10:16 [0m[01;32mCuenta_Publica_2010.csv[0m*
-rw-rw-r-- 1 loic loic 607M Aug  4 07:07 cuenta_publica_2010_to_2015.backup.csv
-rw-rw-r-- 1 loic loic 607M Aug  3 20:30 cuenta_publica_2010_to_2015.csv
-rwxr--r-- 1 loic loic  61M Aug  3 10:18 [01;32mCuenta_Publica_2011.csv[0m*
-rwxr--r-- 1 loic loic 123M Aug  3 10:26 [01;32mCuenta_Publica_2012.csv[0m*
-rwxr--r-- 1 loic loic 106M Aug  3 10:23 [01;32mCuenta_Publica_2013_RA.csv[0m*
-rwxr--r-- 1 loic loic 120M Aug  3 10:26 [01;32mCuenta_Publica_2014_RA.csv[0m*
-rwxr--r-- 1 loic loic 118M Aug  3 10:25 [01;32mCuenta_Publica_2015_GF.csv[0m*
-rw-rw-r-- 1 loic loic  52K Aug  4 10:47 mexican_federal_budget_ingestion_preparation.ipynb
-rwxr--r-- 1 loic loic  23M Aug  3 10:19 [01;32mPEF2008_AC01.csv[0m*
-rw-rw-r-- 1 loic loic 345M Aug  4 07:07 pef_2008_to_2015.backup.csv
-rw-rw-r-- 1 loic loic 345M Aug  4 10

345 MB

## Quality assurance
Take 1000 lines random sample for both files.

In [59]:
multi_year_cp.sample(n=1000).to_csv('cuenta_publica_2010_to_2015.sample.csv', index=False)
multi_year_pef.sample(n=1000).to_csv('pef_2008_to_2015.sample.csv', index=False)

In [60]:
ls -lh

total 3.4G
-rw-rw-r-- 1 loic loic 607M Aug  4 10:47 cuenta_publica_2008_to_2015.csv
-rwxr--r-- 1 loic loic  55M Aug  3 10:16 [0m[01;32mCuenta_Publica_2010.csv[0m*
-rw-rw-r-- 1 loic loic 607M Aug  4 07:07 cuenta_publica_2010_to_2015.backup.csv
-rw-rw-r-- 1 loic loic 607M Aug  3 20:30 cuenta_publica_2010_to_2015.csv
-rw-rw-r-- 1 loic loic 499K Aug  4 10:48 cuenta_publica_2010_to_2015.sample.csv
-rwxr--r-- 1 loic loic  61M Aug  3 10:18 [01;32mCuenta_Publica_2011.csv[0m*
-rwxr--r-- 1 loic loic 123M Aug  3 10:26 [01;32mCuenta_Publica_2012.csv[0m*
-rwxr--r-- 1 loic loic 106M Aug  3 10:23 [01;32mCuenta_Publica_2013_RA.csv[0m*
-rwxr--r-- 1 loic loic 120M Aug  3 10:26 [01;32mCuenta_Publica_2014_RA.csv[0m*
-rwxr--r-- 1 loic loic 118M Aug  3 10:25 [01;32mCuenta_Publica_2015_GF.csv[0m*
-rw-rw-r-- 1 loic loic  52K Aug  4 10:47 mexican_federal_budget_ingestion_preparation.ipynb
-rwxr--r-- 1 loic loic  23M Aug  3 10:19 [01;32mPEF2008_AC01.csv[0m*
-rw-rw-r-- 1 loic loic 345