# Mexican Federal Budget multi-year ingestion 

In [1]:
from pandas import read_csv

## Cuenta_Publica_YYYY.csv files
Import one file to check it out

In [2]:
mx_2010 = read_csv('Cuenta_Publica_2010.csv', encoding='iso-8859-1')

In [3]:
mx_2010.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 129014 entries, 0 to 129013
Data columns (total 25 columns):
Ciclo                                                      129014 non-null int64
Ramo                                                       129014 non-null int64
Descripción de Ramo                                        129014 non-null object
Unidad Responsable                                         129014 non-null object
Descripción de Unidad Responsable                          129014 non-null object
Finalidad                                                  129014 non-null int64
Descripción de Finalidad                                   129014 non-null object
Función                                                    129014 non-null int64
Descripción de Función                                     129014 non-null object
Subfunción                                                 129014 non-null int64
Descripción de Subfunción                                  129014 non-null

Okay all is good. Import allfiles.

In [4]:
cuenta_publica = {}

files = {
    2010: 'Cuenta_Publica_2010.csv',
    2011: 'Cuenta_Publica_2011.csv',
    2012: 'Cuenta_Publica_2012.csv',
    2013: 'Cuenta_Publica_2013_RA.csv',
    2014: 'Cuenta_Publica_2014_RA.csv',
    2015: 'Cuenta_Publica_2015_GF.csv',
}
for year, file in files.items():
    print(year)
    cuenta_publica[year] = read_csv(file, encoding='iso-8859-1')

2010
2011
2012


  interactivity=interactivity, compiler=compiler, result=result)


2013
2014
2015


  interactivity=interactivity, compiler=compiler, result=result)


## Type problems

* 2012: columns (3, 25) 
* 2015: columns (3, 25, 30)



In [5]:
print(cuenta_publica[2015].columns[3])
print(cuenta_publica[2015].columns[25])
print(cuenta_publica[2015].columns[30])

Unidad Responsable
Clave de cartera
Adefas


In [6]:
cuenta_publica[2015]['Unidad Responsable'].value_counts()[:30]

B00    15431
300    12764
200     9582
100     8693
200     5911
627     4159
AYB     3528
RHQ     3524
100     3515
635     3149
640     3135
644     3085
650     2998
110     2991
D00     2908
E00     2757
LAT     2737
G00     2673
416     2501
117     2412
636     2305
311     2272
211     2191
300     2021
632     1914
645     1826
K00     1756
115     1675
NHK     1661
312     1618
Name: Unidad Responsable, dtype: int64

In [7]:
cuenta_publica[2015]['Clave de cartera'].value_counts()[:30]

0              159235
0               37235
11071170002       644
14092100002       641
14092110001       601
14071170011       457
14092100002       446
14092110001       438
14071170013       289
0916B000243       154
15071170001       152
1216B000124       127
1216B000128       122
14071170012       101
1216B000127        88
1216B000122        82
14067120004        81
1316B000164        80
12096300011        76
14092100004        73
14092100004        73
1316B000165        71
10096440014        71
11096420007        70
11096360009        69
13096250003        65
1420G000003        63
0616B000034        55
14312000008        54
0816B000160        52
Name: Clave de cartera, dtype: int64

In [8]:
cuenta_publica[2015]['Adefas'].value_counts()[:30]

0.00          217214
0.0             9707
72,996.69         26
6.35              26
2,440.00          23
6,004.67          22
28,260.09         20
355.70            20
16.00             19
3,191.00          19
11,017.00         18
3,571.00          18
1,148.00          18
5,323.00          18
387.00            18
9,286.00          17
1,000.00          17
77,056.00         16
460.42            16
420.00            16
2,000.00          15
7,774.00          15
1,500.00          14
1,552.00          12
429.00            12
988.00            12
0.99              12
96,000.00         11
1,711.00          11
431,439.00        11
Name: Adefas, dtype: int64

Okay so nothing special, just use strings anyways. In fact, we really don't want to mess with the raw data. It's preferable to load everything as strings. So let's reload the data, forcing strings. 

In [9]:
for year, file in files.items():
    print(year, '- load with no type casting')
    temp_df = read_csv(file, encoding='iso-8859-1')
    casting_dict = {column: str for column in temp_df.columns}
    print(year, '- reload forcing all columns to be strings')
    cuenta_publica[year] = read_csv(file, encoding='iso-8859-1', dtype=casting_dict)    

print()
cuenta_publica[2010].info()

2010 - load with no type casting
2010 - reload forcing all columns to be strings
2011 - load with no type casting
2011 - reload forcing all columns to be strings
2012 - load with no type casting


  interactivity=interactivity, compiler=compiler, result=result)


2012 - reload forcing all columns to be strings
2013 - load with no type casting
2013 - reload forcing all columns to be strings
2014 - load with no type casting
2014 - reload forcing all columns to be strings
2015 - load with no type casting


  interactivity=interactivity, compiler=compiler, result=result)


2015 - reload forcing all columns to be strings

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 129014 entries, 0 to 129013
Data columns (total 25 columns):
Ciclo                                                      129014 non-null object
Ramo                                                       129014 non-null object
Descripción de Ramo                                        129014 non-null object
Unidad Responsable                                         129014 non-null object
Descripción de Unidad Responsable                          129014 non-null object
Finalidad                                                  129014 non-null object
Descripción de Finalidad                                   129014 non-null object
Función                                                    129014 non-null object
Descripción de Función                                     129014 non-null object
Subfunción                                                 129014 non-null object
Descripción de Subfu

Great.

## Column consistency
Check the column consistency against 2010.

In [3]:
def are_columns_the_same(dataframes, reference):
    for year, df in dataframes.items():
        if not set(dataframes[reference].columns) - set(df.columns):
            answer = 'yes'
        else:
            answer = 'no'
        print(year, answer)

In [11]:
are_columns_the_same(cuenta_publica, 2010)

2010 yes
2011 yes
2012 yes
2013 yes
2014 no
2015 no


What's the union of these columns?

In [2]:
def get_union_of_columns(df):
    union = set()
    for year in range(2010, 2016):
        union = union | set(df[year].columns)
    return union

In [13]:
get_union_of_columns(cuenta_publica)

{'ADEFAS',
 'Actividad Institucional',
 'Adefas',
 'Aprobado',
 'Ciclo',
 'Clave de cartera',
 'Descripción de Finalidad',
 'Descripción de Fuente de Financiamiento',
 'Descripción de Función',
 'Descripción de Grupo Funcional',
 'Descripción de Objeto del Gasto',
 'Descripción de Programa Presupuestario',
 'Descripción de Ramo',
 'Descripción de Subfunción',
 'Descripción de Tipo de Gasto',
 'Descripción de Unidad Responsable',
 'Descripción de la Actividad Institucional',
 'Descripción de la entidad federativa',
 'Descripción de la modalidad del programa presupuestario',
 'Devengado',
 'Ejercicio',
 'Ejercido',
 'Entidad Federativa',
 'Finalidad',
 'Fuente de Financiamiento',
 'Función',
 'Grupo Funcional',
 'Modalidad del Programa presupuestario',
 'Modificado',
 'Objeto del Gasto',
 'Pagado',
 'Programa Presupuestario',
 'Ramo',
 'Subfunción',
 'Tipo de Gasto',
 'Unidad Responsable',
 'Unnamed: 25',
 'Unnamed: 26',
 'Unnamed: 27',
 'Unnamed: 28',
 'Unnamed: 29',
 'Unnamed: 30',
 'U

## Typos

In [14]:
for year in range(2010, 2016):
    print(year, 'ADEFAS', 'ADEFAS' in cuenta_publica[year].columns)
    print(year, 'Adefas', 'Adefas' in cuenta_publica[year].columns)
    print(year, 'Ejercicio', 'Ejercicio' in cuenta_publica[year].columns)
    print(year, 'Ejercido', 'Ejercido' in cuenta_publica[year].columns)
    print()

2010 ADEFAS False
2010 Adefas False
2010 Ejercicio False
2010 Ejercido True

2011 ADEFAS False
2011 Adefas False
2011 Ejercicio False
2011 Ejercido True

2012 ADEFAS False
2012 Adefas False
2012 Ejercicio False
2012 Ejercido True

2013 ADEFAS False
2013 Adefas False
2013 Ejercicio False
2013 Ejercido True

2014 ADEFAS True
2014 Adefas False
2014 Ejercicio True
2014 Ejercido False

2015 ADEFAS False
2015 Adefas True
2015 Ejercicio True
2015 Ejercido False



In [15]:
for year in range(2010, 2016):
    print(year, 'adefas' in map(lambda x: x.lower(), cuenta_publica[year].columns))

2010 False
2011 False
2012 False
2013 False
2014 True
2015 True


Now fix the typos.

In [16]:
cuenta_publica[2014].rename(columns={'ADEFAS': 'Adefas'}, inplace=True)
cuenta_publica[2014].rename(columns={'Ejercicio': 'Ejercido'}, inplace=True)
cuenta_publica[2015].rename(columns={'Ejercicio': 'Ejercido'}, inplace=True)
union_columns = get_union_of_columns(cuenta_publica)
union_columns

{'Actividad Institucional',
 'Adefas',
 'Aprobado',
 'Ciclo',
 'Clave de cartera',
 'Descripción de Finalidad',
 'Descripción de Fuente de Financiamiento',
 'Descripción de Función',
 'Descripción de Grupo Funcional',
 'Descripción de Objeto del Gasto',
 'Descripción de Programa Presupuestario',
 'Descripción de Ramo',
 'Descripción de Subfunción',
 'Descripción de Tipo de Gasto',
 'Descripción de Unidad Responsable',
 'Descripción de la Actividad Institucional',
 'Descripción de la entidad federativa',
 'Descripción de la modalidad del programa presupuestario',
 'Devengado',
 'Ejercido',
 'Entidad Federativa',
 'Finalidad',
 'Fuente de Financiamiento',
 'Función',
 'Grupo Funcional',
 'Modalidad del Programa presupuestario',
 'Modificado',
 'Objeto del Gasto',
 'Pagado',
 'Programa Presupuestario',
 'Ramo',
 'Subfunción',
 'Tipo de Gasto',
 'Unidad Responsable',
 'Unnamed: 25',
 'Unnamed: 26',
 'Unnamed: 27',
 'Unnamed: 28',
 'Unnamed: 29',
 'Unnamed: 30',
 'Unnamed: 31',
 'Unnamed: 3

Fixed. Now unnammed columns...

## Unnammed columns
Where are these unamed columns coming from?

In [13]:
def print_unnamed_columns(df):
    for year in range(2010, 2016):
        unamned_columns = [column for column in df[year].columns if 'Unnamed' in column]
        print(year, unamned_columns)

In [18]:
print_unnamed_columns(cuenta_publica)

2010 []
2011 ['Unnamed: 25', 'Unnamed: 26', 'Unnamed: 27', 'Unnamed: 28', 'Unnamed: 29', 'Unnamed: 30', 'Unnamed: 31', 'Unnamed: 32', 'Unnamed: 33', 'Unnamed: 34', 'Unnamed: 35', 'Unnamed: 36', 'Unnamed: 37', 'Unnamed: 38', 'Unnamed: 39', 'Unnamed: 40', 'Unnamed: 41']
2012 []
2013 []
2014 []
2015 []


In [19]:
cuenta_publica[2011].head(2)

Unnamed: 0,Ciclo,Ramo,Descripción de Ramo,Unidad Responsable,Descripción de Unidad Responsable,Finalidad,Descripción de Finalidad,Función,Descripción de Función,Subfunción,...,Unnamed: 32,Unnamed: 33,Unnamed: 34,Unnamed: 35,Unnamed: 36,Unnamed: 37,Unnamed: 38,Unnamed: 39,Unnamed: 40,Unnamed: 41
0,2011,1,Poder Legislativo,100,Honorable Cámara de Diputados,1,Gobierno,0,Legislación,1,...,,,,,,,,,,
1,2011,1,Poder Legislativo,100,Honorable Cámara de Diputados,1,Gobierno,0,Legislación,1,...,,,,,,,,,,


In [20]:
cuenta_publica[2011].tail(2)

Unnamed: 0,Ciclo,Ramo,Descripción de Ramo,Unidad Responsable,Descripción de Unidad Responsable,Finalidad,Descripción de Finalidad,Función,Descripción de Función,Subfunción,...,Unnamed: 32,Unnamed: 33,Unnamed: 34,Unnamed: 35,Unnamed: 36,Unnamed: 37,Unnamed: 38,Unnamed: 39,Unnamed: 40,Unnamed: 41
138825,2011,38,Consejo Nacional de Ciencia y Tecnología,90E,Centro de Investigación en Materiales Avanzado...,3,Desarrollo Económico,7,Ciencia y Tecnología,1,...,,,,,,,,,,
138826,2011,38,Consejo Nacional de Ciencia y Tecnología,90E,Centro de Investigación en Materiales Avanzado...,3,Desarrollo Económico,7,Ciencia y Tecnología,1,...,,,,,,,,,,


They look like junk. Remove:

In [21]:
for i in range(25,42):
    unnamed = 'Unnamed: %s' % i
    try:
        del cuenta_publica[2011][unnamed]
    except KeyError:
        pass

In [22]:
get_union_of_columns(cuenta_publica)

{'Actividad Institucional',
 'Adefas',
 'Aprobado',
 'Ciclo',
 'Clave de cartera',
 'Descripción de Finalidad',
 'Descripción de Fuente de Financiamiento',
 'Descripción de Función',
 'Descripción de Grupo Funcional',
 'Descripción de Objeto del Gasto',
 'Descripción de Programa Presupuestario',
 'Descripción de Ramo',
 'Descripción de Subfunción',
 'Descripción de Tipo de Gasto',
 'Descripción de Unidad Responsable',
 'Descripción de la Actividad Institucional',
 'Descripción de la entidad federativa',
 'Descripción de la modalidad del programa presupuestario',
 'Devengado',
 'Ejercido',
 'Entidad Federativa',
 'Finalidad',
 'Fuente de Financiamiento',
 'Función',
 'Grupo Funcional',
 'Modalidad del Programa presupuestario',
 'Modificado',
 'Objeto del Gasto',
 'Pagado',
 'Programa Presupuestario',
 'Ramo',
 'Subfunción',
 'Tipo de Gasto',
 'Unidad Responsable'}

## Intersection of columns

In [23]:
def get_intersection_of_columns(df):
    intersection = get_union_of_columns(df)
    for year in range(2010, 2016):
        intersection = intersection & set(df[year].columns)
    return intersection

In [24]:
intersection_columns = get_intersection_of_columns(cuenta_publica)
intersection_columns

{'Actividad Institucional',
 'Aprobado',
 'Ciclo',
 'Descripción de Fuente de Financiamiento',
 'Descripción de Función',
 'Descripción de Objeto del Gasto',
 'Descripción de Programa Presupuestario',
 'Descripción de Ramo',
 'Descripción de Subfunción',
 'Descripción de Tipo de Gasto',
 'Descripción de Unidad Responsable',
 'Descripción de la Actividad Institucional',
 'Descripción de la modalidad del programa presupuestario',
 'Ejercido',
 'Fuente de Financiamiento',
 'Función',
 'Modalidad del Programa presupuestario',
 'Objeto del Gasto',
 'Programa Presupuestario',
 'Ramo',
 'Subfunción',
 'Tipo de Gasto',
 'Unidad Responsable'}

## Column situation
Let's produce a table specifying which year has which column, out of the union of the columns

In [25]:
from pandas import DataFrame

union_columns = get_union_of_columns(cuenta_publica)

table = []
for column in union_columns:
    row = {'Column': column}
    for year in range(2010, 2017):
        row.update({year: column in cuenta_publica[year].columns})
    table.append(row)
    

cuenta_publica_column_situation = DataFrame(table)
cuenta_publica_column_situation

Unnamed: 0,Column,2010,2011,2012,2013,2014,2015
0,Ciclo,True,True,True,True,True,True
1,Aprobado,True,True,True,True,True,True
2,Descripción de Finalidad,True,True,True,True,False,False
3,Modificado,False,False,False,False,True,True
4,Pagado,False,False,False,False,True,True
5,Descripción de Ramo,True,True,True,True,True,True
6,Devengado,False,False,False,True,True,True
7,Actividad Institucional,True,True,True,True,True,True
8,Descripción de Función,True,True,True,True,True,True
9,Entidad Federativa,False,False,True,True,True,True


save that to a file

In [26]:
cuenta_publica_column_situation.to_csv('cuenta_publica_column_situation.csv')

## Concatenation

Concatenate the file, using both the union and the intersection of columns.

In [30]:
from pandas import concat

multi_year_cp = {}
multi_year_cp.update(union=concat(cuenta_publica.values(), ignore_index=True))
multi_year_cp.update(intersection=concat(cuenta_publica.values(), ignore_index=True))

for column in multi_year_cp['union'].columns:
    if column not in intersection_columns:
        try:
            del multi_year_cp['intersection'][column]
            print('deleted', column)
        except KeyError:
            pass

deleted Adefas
deleted Clave de cartera
deleted Descripción de Finalidad
deleted Descripción de Grupo Funcional
deleted Descripción de la entidad federativa
deleted Devengado
deleted Entidad Federativa
deleted Finalidad
deleted Grupo Funcional
deleted Modificado
deleted Pagado


In [33]:
len(multi_year_cp['intersection']), len(multi_year_cp['union'])

(1250200, 1250200)

Just over a million lines of data.

In [34]:
len(multi_year_cp['intersection'].columns), len(multi_year_cp['union'].columns)

(23, 34)

In [35]:
multi_year_cp['union'].sample(n=10)

Unnamed: 0,Actividad Institucional,Adefas,Aprobado,Ciclo,Clave de cartera,Descripción de Finalidad,Descripción de Fuente de Financiamiento,Descripción de Función,Descripción de Grupo Funcional,Descripción de Objeto del Gasto,...,Grupo Funcional,Modalidad del Programa presupuestario,Modificado,Objeto del Gasto,Pagado,Programa Presupuestario,Ramo,Subfunción,Tipo de Gasto,Unidad Responsable
542011,6,,552171.0,2013,0.0,Gobierno,Recursos fiscales,Coordinación de la Política de Gobierno,,Otros servicios comerciales,...,,P,,33602,,1,4,2,1,217
815449,8,-,15000,2014,0.0,,Recursos fiscales,Transporte,Desarrollo Económico,Arrendamiento de maquinaria y equipo,...,3.0,G,4806.0,32601,4806.0,1,9,6,1,625
992099,7,-,-,2014,0.0,,Recursos fiscales,Educación,Desarrollo Social,Aportaciones federales a las entidades federat...,...,2.0,I,8262344.0,83104,8262344.0,8,33,2,2,416
335436,10,,500,2012,34426.0,Desarrollo Económico,Recursos fiscales,Transporte,,Materiales y útiles para el procesamiento en e...,...,,K,,21401,,31,9,1,3,634
411773,2,,36767952,2012,0.0,Gobierno,Recursos fiscales,Seguridad Nacional,,Otras prestaciones,...,,M,,15901,,1,13,2,1,312
320023,10,,3000,2012,10096250014.0,Desarrollo Económico,Recursos fiscales,Transporte,,Servicio de agua,...,,K,,31301,,31,9,1,3,625
647426,3,,3707362.0,2013,0.0,Desarrollo Social,"Gasto financiado con recursos del BID-BIRF, as...",Educación,,Congresos y convenciones,...,,E,,38301,,62,11,1,2,L6W
296123,6,,371071,2012,0.0,Gobierno,Recursos fiscales,Asuntos Financieros y Hacendarios,,Cuotas para el seguro de gastos médicos del pe...,...,,E,,14403,,3,6,2,1,610
901975,5,-,-,2014,13132160006.0,,Recursos fiscales,Seguridad Nacional,Gobierno,Equipos y aparatos de comunicaciones y telecom...,...,1.0,A,66001.0,56501,66001.0,4,13,2,2,216
72572,5,,-,2010,,Gobierno,Recursos fiscales,Seguridad Nacional,,Impuestos y derechos de importación,...,,A,,3405,,3,13,2,2,211


In [36]:
multi_year_cp['intersection'].sample(n=10)

Unnamed: 0,Actividad Institucional,Aprobado,Ciclo,Descripción de Fuente de Financiamiento,Descripción de Función,Descripción de Objeto del Gasto,Descripción de Programa Presupuestario,Descripción de Ramo,Descripción de Subfunción,Descripción de Tipo de Gasto,...,Ejercido,Fuente de Financiamiento,Función,Modalidad del Programa presupuestario,Objeto del Gasto,Programa Presupuestario,Ramo,Subfunción,Tipo de Gasto,Unidad Responsable
77786,4,14540.0,2010,Recursos fiscales,Temas Agrarios,Materiales y útiles de oficina,Implementación de políticas enfocadas al medio...,Reforma Agraria,Asuntos Agrarios,Gasto corriente,...,13746.0,1,8,P,2101,1,15,1,1,129
1111625,3,6960.00,2015,Recursos fiscales,"Asuntos Económicos, Comerciales y Laborales en...",Servicios de vigilancia,Atención a las solicitudes de servicios y prom...,Economía,Asuntos Económicos y Comerciales en General,Gasto corriente,...,6360.0,1,1,E,33801,9,10,1,1,124
791646,21,1593,2014,Recursos fiscales,Asuntos Financieros y Hacendarios,Materiales y útiles de impresión y reproducción,Asesoría jurídica y representación judicial y ...,Hacienda y Crédito Público,Asuntos Hacendarios,Gasto corriente,...,336.0,1,5,P,21201,4,6,2,1,513
790237,7,900,2014,Recursos fiscales,Asuntos Financieros y Hacendarios,"Materiales, accesorios y suministros médicos",Regulación del sector financiero,Hacienda y Crédito Público,Asuntos Financieros,Gasto corriente,...,58.0,1,5,G,25401,1,6,1,1,213
620374,3,108000.0,2013,Recursos fiscales,Transporte,Productos alimenticios para el personal que re...,Proyectos de infraestructura económica de carr...,Comunicaciones y Transportes,Transporte por Carretera,Gasto de obra pública,...,5490.2,1,5,K,22103,3,9,1,3,652
207158,24,380000,2011,Recursos fiscales,Ciencia y Tecnología,Servicio de energía eléctrica,Investigación y desarrollo tecnológico en salud,Salud,Investigación Científica,Gasto corriente,...,380000.0,1,7,E,31101,22,12,1,1,NDE
374300,7,-,2012,Recursos fiscales,"Asuntos Económicos, Comerciales y Laborales en...",Materiales y útiles de oficina,Prevención y corrección de prácticas abusivas ...,Economía,Asuntos Económicos y Comerciales en General,Gasto corriente,...,3998.0,1,1,E,21101,5,10,1,1,LAT
1103104,10,3000.00,2015,Recursos fiscales,Transporte,Materiales y útiles consumibles para el proces...,Conservación de infraestructura de caminos rur...,Comunicaciones y Transportes,Transporte por Carretera,Gasto de obra pública,...,0.0,1,5,K,21401,37,9,1,3,644
1190500,8,0.00,2015,Recursos fiscales,Protección Social,Mantenimiento y conservación de vehículos terr...,Definición y conducción de la política del des...,Desarrollo Social,Otros Grupos Vulnerables,Gasto corriente,...,116371.77,1,6,P,35501,2,20,8,1,127
805067,1,21600,2014,Recursos fiscales,Coordinación de la Política de Gobierno,"Combustibles, lubricantes y aditivos para vehí...",Apoyo a la Función Pública y Buen Gobierno,"Agricultura, Ganadería, Desarrollo Rural, Pesc...",Función Pública,Gasto corriente,...,18987.0,1,3,O,26104,1,8,4,1,149


Save both options.

In [39]:
for option in ('union', 'intersection'):
    multi_year_cp[option].to_csv('cuenta_publica_2008_to_2015.%s.csv' % option, index=False)

In [40]:
!ls -lh

total 4.9G
-rw-rw-r-- 1 loic loic 513M Aug  4 13:12 cuenta_publica_2008_to_2015.csv
-rw-rw-r-- 1 loic loic 525M Aug  4 15:47 cuenta_publica_2008_to_2015.intersection.csv
-rw-rw-r-- 1 loic loic 513M Aug  4 13:14 cuenta_publica_2008_to_2015.intersection_of_columns.csv
-rw-rw-r-- 1 loic loic 592M Aug  4 15:47 cuenta_publica_2008_to_2015.union.csv
-rw-rw-r-- 1 loic loic 607M Aug  4 07:07 cuenta_publica_2008_to_2015.union_of_columns.csv
-rwxr--r-- 1 loic loic  55M Aug  3 10:16 Cuenta_Publica_2010.csv
-rw-rw-r-- 1 loic loic 436K Aug  4 11:18 Cuenta_Publica_2010.sample.csv
-rw-rw-r-- 1 loic loic 607M Aug  3 20:30 cuenta_publica_2010_to_2015.csv
-rw-rw-r-- 1 loic loic 495K Aug  4 11:33 cuenta_publica_2010_to_2015.sample.csv
-rwxr--r-- 1 loic loic  61M Aug  3 10:18 Cuenta_Publica_2011.csv
-rwxr--r-- 1 loic loic 123M Aug  3 10:26 Cuenta_Publica_2012.csv
-rwxr--r-- 1 loic loic 106M Aug  3 10:23 Cuenta_Publica_2013_RA.csv
-rwxr--r-- 1 loic loic 120M Aug  3 10:26 Cuenta_Publica_2014_RA

The file weighs 607MB.

## PEF files

Approved budgets. Repeat the exact same process.

In [5]:
from pandas import read_csv 

pef = {}

for year in range(2008, 2017):
    print(year)
    pef[year] = read_csv('PEF%s_AC01.csv' % year, encoding='iso-8859-1')

2008


  interactivity=interactivity, compiler=compiler, result=result)


2009
2010
2011
2012
2013
2014
2015


  interactivity=interactivity, compiler=compiler, result=result)


2016


In [6]:
print(pef[2008].columns[1])
print(pef[2015].columns[25])
print(pef[2015].columns[3])

Ramo
Clave de Cartera
Unidad Responsable


In [7]:
pef[2008]['Ramo'].value_counts()

9      9813
11     5430
12     4732
16     3571
8      2760
10     2671
6      2459
20     1990
17     1959
33     1698
GYN    1436
4      1298
15     1278
32     1087
14     1064
22      977
5       975
36      935
27      902
18      844
14      677
7       669
35      669
21      648
13      551
38      467
GYR     413
TOQ     408
2       392
T1O     176
3       175
1       166
31      151
28      128
37      110
23       98
TZZ      60
25       32
19       19
24       19
34       10
30        1
Name: Ramo, dtype: int64

In [8]:
casting = {
    'Unidad Responsable': str,
    'Clave de cartera': str,
    'Ramo': str,
}

for year in range(2008, 2017):
    pef[year] = read_csv('PEF%s_AC01.csv' % year, encoding='iso-8859-1', dtype=casting)

  interactivity=interactivity, compiler=compiler, result=result)


In [9]:
pef[2015].head()

Unnamed: 0,Ciclo,Ramo,Descripción de Ramo,Unidad Responsable,Descripción de Unidad Responsable,Finalidad,Descripción de Finalidad,Función,Descripción de Función,Subfunción,...,Objeto del Gasto,Descripción de Objeto del Gasto,Tipo de Gasto,Descripción de Tipo de Gasto,Fuente de Financiamiento,Descripción de Fuente de Financiamiento,Entidad Federativa,Descripción de Entidad Federativa,Clave de Cartera,Importe Presupuesto de Egresos de la Federación (PEF)
0,2015,1,Poder Legislativo,100,H. Cámara de Diputados,1,Gobierno,1,Legislación,1,...,6200,Obra pública en bienes propios,3,Gasto de obra pública,1,Recursos fiscales,9,Distrito Federal,0,"$11,397,536.00"
1,2015,1,Poder Legislativo,100,H. Cámara de Diputados,1,Gobierno,1,Legislación,1,...,6200,Obra pública en bienes propios,3,Gasto de obra pública,1,Recursos fiscales,9,Distrito Federal,0,"$166,970,738.00"
2,2015,1,Poder Legislativo,100,H. Cámara de Diputados,1,Gobierno,1,Legislación,1,...,1100,Remuneraciones al personal de carácter permanente,1,Gasto corriente,1,Recursos fiscales,9,Distrito Federal,0,"$632,268,000.00"
3,2015,1,Poder Legislativo,100,H. Cámara de Diputados,1,Gobierno,1,Legislación,1,...,1100,Remuneraciones al personal de carácter permanente,1,Gasto corriente,1,Recursos fiscales,9,Distrito Federal,0,"$356,286,670.00"
4,2015,1,Poder Legislativo,100,H. Cámara de Diputados,1,Gobierno,1,Legislación,1,...,1200,Remuneraciones al personal de carácter transit...,1,Gasto corriente,1,Recursos fiscales,9,Distrito Federal,0,"$878,543,868.00"


## Clean-up column names

In [10]:
are_columns_the_same(pef, 2010)

2016 no
2008 no
2009 no
2010 yes
2011 yes
2012 yes
2013 no
2014 no
2015 no


In [11]:
get_union_of_columns(pef)

{' Importe Presupuesto de Egresos de la Federación (PEF) ',
 'Actividad Institucional',
 'Ciclo',
 'Clave de Cartera',
 'Descripción de Entidad Federativa',
 'Descripción de Finalidad',
 'Descripción de Fuente de Financiamiento',
 'Descripción de Función',
 'Descripción de Objeto del Gasto',
 'Descripción de Programa Presupuestario',
 'Descripción de Ramo',
 'Descripción de Subfunción',
 'Descripción de Tipo de Gasto',
 'Descripción de Unidad Responsable',
 'Descripción de la Actividad Institucional',
 'Descripción del Identificador del Programa Presupuestario',
 'Entidad Federativa',
 'Finalidad',
 'Fuente de Financiamiento',
 'Función',
 'Identificador del Programa Presupuestario',
 'Importe Presupuesto de Egresos de la Federación (PEF)',
 'Objeto del Gasto',
 'Programa Presupuestario',
 'Ramo',
 'Subfunción',
 'Tipo de Gasto',
 'Unidad Responsable',
 'Unnamed: 24',
 'Unnamed: 25',
 'Unnamed: 26',
 'Unnamed: 27',
 'Unnamed: 28',
 'Unnamed: 29',
 'Unnamed: 30'}

In [14]:
print_unnamed_columns(pef)

2010 ['Unnamed: 24', 'Unnamed: 25', 'Unnamed: 26', 'Unnamed: 27', 'Unnamed: 28', 'Unnamed: 29', 'Unnamed: 30']
2011 ['Unnamed: 24', 'Unnamed: 25', 'Unnamed: 26', 'Unnamed: 27', 'Unnamed: 28', 'Unnamed: 29', 'Unnamed: 30']
2012 ['Unnamed: 24', 'Unnamed: 25', 'Unnamed: 26', 'Unnamed: 27', 'Unnamed: 28', 'Unnamed: 29', 'Unnamed: 30']
2013 []
2014 []
2015 []


In [15]:
pef[2010].head(2)

Unnamed: 0,Ciclo,Ramo,Descripción de Ramo,Unidad Responsable,Descripción de Unidad Responsable,Finalidad,Descripción de Finalidad,Función,Descripción de Función,Subfunción,...,Fuente de Financiamiento,Descripción de Fuente de Financiamiento,Importe Presupuesto de Egresos de la Federación (PEF),Unnamed: 24,Unnamed: 25,Unnamed: 26,Unnamed: 27,Unnamed: 28,Unnamed: 29,Unnamed: 30
0,2010.0,1,Poder Legislativo,100,H. Cámara de Diputados,1.0,Gobierno,0.0,Legislación,1.0,...,1.0,Recursos fiscales,17642688.0,,,,,,,
1,2010.0,1,Poder Legislativo,100,H. Cámara de Diputados,1.0,Gobierno,0.0,Legislación,1.0,...,1.0,Recursos fiscales,863642461.0,,,,,,,


In [16]:
def delete_empty_columns(years):
    for year in years:
        for i in range(24,31):
            unnamed = 'Unnamed: %s' % i
            try:
                print('deleted', unnamed)
                del pef[year][unnamed]
            except KeyError:
                pass

In [17]:
delete_empty_columns([2010, 2011, 2012])
pef[2010].head()

deleted Unnamed: 24
deleted Unnamed: 25
deleted Unnamed: 26
deleted Unnamed: 27
deleted Unnamed: 28
deleted Unnamed: 29
deleted Unnamed: 30
deleted Unnamed: 24
deleted Unnamed: 25
deleted Unnamed: 26
deleted Unnamed: 27
deleted Unnamed: 28
deleted Unnamed: 29
deleted Unnamed: 30
deleted Unnamed: 24
deleted Unnamed: 25
deleted Unnamed: 26
deleted Unnamed: 27
deleted Unnamed: 28
deleted Unnamed: 29
deleted Unnamed: 30


Unnamed: 0,Ciclo,Ramo,Descripción de Ramo,Unidad Responsable,Descripción de Unidad Responsable,Finalidad,Descripción de Finalidad,Función,Descripción de Función,Subfunción,...,Descripción del Identificador del Programa Presupuestario,Programa Presupuestario,Descripción de Programa Presupuestario,Objeto del Gasto,Descripción de Objeto del Gasto,Tipo de Gasto,Descripción de Tipo de Gasto,Fuente de Financiamiento,Descripción de Fuente de Financiamiento,Importe Presupuesto de Egresos de la Federación (PEF)
0,2010.0,1,Poder Legislativo,100,H. Cámara de Diputados,1.0,Gobierno,0.0,Legislación,1.0,...,Proyectos de Inversión,27.0,Mantenimiento de Infraestructura,6100.0,Obras Públicas por Contrato,3.0,Gasto de obra pública,1.0,Recursos fiscales,17642688.0
1,2010.0,1,Poder Legislativo,100,H. Cámara de Diputados,1.0,Gobierno,0.0,Legislación,1.0,...,Específicos,1.0,Actividades derivadas del Trabajo Legislativo,1100.0,Remuneraciones al Personal de Carácter Permanente,1.0,Gasto corriente,1.0,Recursos fiscales,863642461.0
2,2010.0,1,Poder Legislativo,100,H. Cámara de Diputados,1.0,Gobierno,0.0,Legislación,1.0,...,Específicos,1.0,Actividades derivadas del Trabajo Legislativo,1200.0,Remuneraciones al Personal de Carácter Transit...,1.0,Gasto corriente,1.0,Recursos fiscales,417754061.0
3,2010.0,1,Poder Legislativo,100,H. Cámara de Diputados,1.0,Gobierno,0.0,Legislación,1.0,...,Específicos,1.0,Actividades derivadas del Trabajo Legislativo,1300.0,Remuneraciones Adicionales y Especiales,1.0,Gasto corriente,1.0,Recursos fiscales,311260420.0
4,2010.0,1,Poder Legislativo,100,H. Cámara de Diputados,1.0,Gobierno,0.0,Legislación,1.0,...,Específicos,1.0,Actividades derivadas del Trabajo Legislativo,1400.0,Erogaciones del Gobierno Federal por Concepto ...,1.0,Gasto corriente,1.0,Recursos fiscales,176055727.0


In [18]:
get_union_of_columns(pef)

{' Importe Presupuesto de Egresos de la Federación (PEF) ',
 'Actividad Institucional',
 'Ciclo',
 'Clave de Cartera',
 'Descripción de Entidad Federativa',
 'Descripción de Finalidad',
 'Descripción de Fuente de Financiamiento',
 'Descripción de Función',
 'Descripción de Objeto del Gasto',
 'Descripción de Programa Presupuestario',
 'Descripción de Ramo',
 'Descripción de Subfunción',
 'Descripción de Tipo de Gasto',
 'Descripción de Unidad Responsable',
 'Descripción de la Actividad Institucional',
 'Descripción del Identificador del Programa Presupuestario',
 'Entidad Federativa',
 'Finalidad',
 'Fuente de Financiamiento',
 'Función',
 'Identificador del Programa Presupuestario',
 'Importe Presupuesto de Egresos de la Federación (PEF)',
 'Objeto del Gasto',
 'Programa Presupuestario',
 'Ramo',
 'Subfunción',
 'Tipo de Gasto',
 'Unidad Responsable'}

In [19]:
len(get_union_of_columns(pef))

28

In [20]:
for year in range(2008, 2017):
    print(year, ' Importe Presupuesto de Egresos de la Federación (PEF) ' in pef[year].columns)

2008 False
2009 False
2010 False
2011 False
2012 False
2013 False
2014 True
2015 True
2016 False


In [21]:
new_name = {
    ' Importe Presupuesto de Egresos de la Federación (PEF) ': 'Importe Presupuesto de Egresos de la Federación (PEF)'
}

pef[2014].rename(columns=new_name, inplace=True)
pef[2015].rename(columns=new_name, inplace=True)
get_union_of_columns(pef)

{'Actividad Institucional',
 'Ciclo',
 'Clave de Cartera',
 'Descripción de Entidad Federativa',
 'Descripción de Finalidad',
 'Descripción de Fuente de Financiamiento',
 'Descripción de Función',
 'Descripción de Objeto del Gasto',
 'Descripción de Programa Presupuestario',
 'Descripción de Ramo',
 'Descripción de Subfunción',
 'Descripción de Tipo de Gasto',
 'Descripción de Unidad Responsable',
 'Descripción de la Actividad Institucional',
 'Descripción del Identificador del Programa Presupuestario',
 'Entidad Federativa',
 'Finalidad',
 'Fuente de Financiamiento',
 'Función',
 'Identificador del Programa Presupuestario',
 'Importe Presupuesto de Egresos de la Federación (PEF)',
 'Objeto del Gasto',
 'Programa Presupuestario',
 'Ramo',
 'Subfunción',
 'Tipo de Gasto',
 'Unidad Responsable'}

## Column situation

In [23]:
from pandas import DataFrame

table = []
for column in get_union_of_columns(pef):
    row = {'Column': column}
    for year in range(2008, 2017):
        row.update({year: column in pef[year].columns})
    table.append(row)

pef_column_situation = DataFrame(table)
pef_column_situation

Unnamed: 0,2008,2009,2015,2016,Column,2011,2012,2010,2014,2013
0,True,True,True,False,Programa Presupuestario,True,True,True,True,True
1,True,True,True,False,Descripción de Función,True,True,True,True,True
2,True,True,True,False,Descripción de Objeto del Gasto,True,True,True,True,True
3,True,True,True,False,Descripción de Ramo,True,True,True,True,True
4,True,True,True,False,Descripción de Programa Presupuestario,True,True,True,True,True
5,True,True,True,False,Función,True,True,True,True,True
6,True,False,True,False,Descripción de Tipo de Gasto,True,True,True,True,True
7,True,True,True,False,Unidad Responsable,True,True,True,True,True
8,True,True,True,False,Descripción de Unidad Responsable,True,True,True,True,True
9,True,True,True,False,Objeto del Gasto,True,True,True,True,True


In [25]:
pef[2016].columns

Index(['Ciclo', 'Ramo', 'RAMO_DESCRIPCION', 'UNIDAD', 'UNIDAD_DESCRIPCION',
       'GF', 'GRUPO_FUN_DESCRIPCION', 'FN', 'FUNCIONL_DESCRIPCION', 'SF',
       'SUBFUNCIONL_DESCRIPCION', 'RA', 'REASIGNACION_DESCRIPCION', 'AI',
       'ACTIVIDAD_INST_DESCRIPCION', 'MOD', 'MODALIDAD_DESCRIPCION', 'PP',
       'PROGR_PRES_DESCRIPCION', 'CONCEPTO', 'CONCEPTO_DESCRIPCION', 'TG',
       'TIPO_GASTO_DESCRIPCION', 'FF', 'FUENTE_FINAN_DESCRIPCION', 'EF',
       'ENTIDAD_FED_DESCRIPCION', 'CLAVE_CARTERA', 'PEF_2016'],
      dtype='object')

In [32]:
pef_column_situation.to_csv('pef_column_situation.2.csv', index=False)

In [33]:
pef[2015].columns

Index(['Ciclo', 'Ramo', 'Descripción de Ramo', 'Unidad Responsable',
       'Descripción de Unidad Responsable', 'Finalidad',
       'Descripción de Finalidad', 'Función', 'Descripción de Función',
       'Subfunción', 'Descripción de Subfunción', 'Actividad Institucional',
       'Descripción de la Actividad Institucional',
       'Identificador del Programa Presupuestario',
       'Descripción del Identificador del Programa Presupuestario',
       'Programa Presupuestario', 'Descripción de Programa Presupuestario',
       'Objeto del Gasto', 'Descripción de Objeto del Gasto', 'Tipo de Gasto',
       'Descripción de Tipo de Gasto', 'Fuente de Financiamiento',
       'Descripción de Fuente de Financiamiento', 'Entidad Federativa',
       'Descripción de Entidad Federativa', 'Clave de Cartera',
       'Importe Presupuesto de Egresos de la Federación (PEF)'],
      dtype='object')

In [67]:
ls

cuenta_publica_2008_to_2015.csv
cuenta_publica_2008_to_2015.intersection.csv
cuenta_publica_2008_to_2015.intersection_of_columns.csv
cuenta_publica_2008_to_2015.union.csv
cuenta_publica_2008_to_2015.union_of_columns.csv
[0m[01;32mCuenta_Publica_2010.csv[0m*
Cuenta_Publica_2010.sample.csv
cuenta_publica_2010_to_2015.csv
cuenta_publica_2010_to_2015.sample.csv
[01;32mCuenta_Publica_2011.csv[0m*
[01;32mCuenta_Publica_2012.csv[0m*
[01;32mCuenta_Publica_2013_RA.csv[0m*
[01;32mCuenta_Publica_2014_RA.csv[0m*
[01;32mCuenta_Publica_2015_GF.csv[0m*
cuenta_publica_column_situation.csv
mexican_federal_budget_ingestion_preparation.ipynb
Mexico.zip
[01;32mPEF2008_AC01.csv[0m*
PEF2008_AC01.sample.csv
pef_2008_to_2015.backup.csv
pef_2008_to_2015.csv
pef_2008_to_2015.sample.csv
[01;32mPEF2009_AC01.csv[0m*
[01;32mPEF2010_AC01.csv[0m*
[01;32mPEF2011_AC01.csv[0m*
[01;32mPEF2012_AC01.csv[0m*
[01;32mPEF2013_AC01.csv[0m*
[01;32mPEF2014_AC01.csv[0m*
[01;3

In [61]:
from pandas import concat 
multi_year_pef = concat(pef.values(), ignore_index=True)

In [63]:
multi_year_pef.head()

Unnamed: 0,ACTIVIDAD_INST_DESCRIPCION,AI,Actividad Institucional,CLAVE_CARTERA,CONCEPTO,CONCEPTO_DESCRIPCION,Ciclo,Clave de Cartera,Descripción de Actividad Institucional,Descripción de Entidad Federativa,...,UNIDAD,UNIDAD_DESCRIPCION,Unidad Responsable,Unnamed: 24,Unnamed: 25,Unnamed: 26,Unnamed: 27,Unnamed: 28,Unnamed: 29,Unnamed: 30
0,Llevar a cabo el proceso Legislativo,4.0,,0,6200.0,Obra p£blica en bienes propios,2016.0,,,,...,100,H. C mara de Diputados,,,,,,,,
1,Llevar a cabo el proceso Legislativo,4.0,,0,1100.0,Remuneraciones al personal de car cter permanente,2016.0,,,,...,100,H. C mara de Diputados,,,,,,,,
2,Llevar a cabo el proceso Legislativo,4.0,,0,1200.0,Remuneraciones al personal de car cter transit...,2016.0,,,,...,100,H. C mara de Diputados,,,,,,,,
3,Llevar a cabo el proceso Legislativo,4.0,,0,1300.0,Remuneraciones adicionales y especiales,2016.0,,,,...,100,H. C mara de Diputados,,,,,,,,
4,Llevar a cabo el proceso Legislativo,4.0,,0,1400.0,Seguridad social,2016.0,,,,...,100,H. C mara de Diputados,,,,,,,,


Compare that to one of the original files:

In [64]:
cuenta_publica[2010].head()

Unnamed: 0,Ciclo,Ramo,Descripción de Ramo,Unidad Responsable,Descripción de Unidad Responsable,Finalidad,Descripción de Finalidad,Función,Descripción de Función,Subfunción,...,Programa Presupuestario,Descripción de Programa Presupuestario,Objeto del Gasto,Descripción de Objeto del Gasto,Tipo de Gasto,Descripción de Tipo de Gasto,Fuente de Financiamiento,Descripción de Fuente de Financiamiento,Aprobado,Ejercido
0,2010,1,Poder Legislativo,100,H. Cámara de Diputados,1,Gobierno,0,Legislación,1,...,27,Mantenimiento de Infraestructura,6108,Mantenimiento y rehabilitación de obras públicas,3,Gasto de obra pública,1,Recursos fiscales,17642688.0,12766210.0
1,2010,1,Poder Legislativo,100,H. Cámara de Diputados,1,Gobierno,0,Legislación,1,...,1,ACTIVIDADES DERIVADAS DEL TRABAJO LEGISLATIVO,1101,Dietas,1,Gasto corriente,1,Recursos fiscales,632948173.0,628200410.0
2,2010,1,Poder Legislativo,100,H. Cámara de Diputados,1,Gobierno,0,Legislación,1,...,1,ACTIVIDADES DERIVADAS DEL TRABAJO LEGISLATIVO,1103,Sueldos base,1,Gasto corriente,1,Recursos fiscales,230694288.0,259828444.0
3,2010,1,Poder Legislativo,100,H. Cámara de Diputados,1,Gobierno,0,Legislación,1,...,1,ACTIVIDADES DERIVADAS DEL TRABAJO LEGISLATIVO,1201,Honorarios,1,Gasto corriente,1,Recursos fiscales,399765592.0,559746856.0
4,2010,1,Poder Legislativo,100,H. Cámara de Diputados,1,Gobierno,0,Legislación,1,...,1,ACTIVIDADES DERIVADAS DEL TRABAJO LEGISLATIVO,1202,Sueldos base al personal eventual,1,Gasto corriente,1,Recursos fiscales,17988469.0,22721031.0


In [56]:
len(multi_year_pef)

822115

In [57]:
multi_year_pef.to_csv('pef_2008_to_2015.csv', index=False)

In [58]:
ls -lh

total 3.4G
-rw-rw-r-- 1 loic loic 607M Aug  4 10:47 cuenta_publica_2008_to_2015.csv
-rwxr--r-- 1 loic loic  55M Aug  3 10:16 [0m[01;32mCuenta_Publica_2010.csv[0m*
-rw-rw-r-- 1 loic loic 607M Aug  4 07:07 cuenta_publica_2010_to_2015.backup.csv
-rw-rw-r-- 1 loic loic 607M Aug  3 20:30 cuenta_publica_2010_to_2015.csv
-rwxr--r-- 1 loic loic  61M Aug  3 10:18 [01;32mCuenta_Publica_2011.csv[0m*
-rwxr--r-- 1 loic loic 123M Aug  3 10:26 [01;32mCuenta_Publica_2012.csv[0m*
-rwxr--r-- 1 loic loic 106M Aug  3 10:23 [01;32mCuenta_Publica_2013_RA.csv[0m*
-rwxr--r-- 1 loic loic 120M Aug  3 10:26 [01;32mCuenta_Publica_2014_RA.csv[0m*
-rwxr--r-- 1 loic loic 118M Aug  3 10:25 [01;32mCuenta_Publica_2015_GF.csv[0m*
-rw-rw-r-- 1 loic loic  52K Aug  4 10:47 mexican_federal_budget_ingestion_preparation.ipynb
-rwxr--r-- 1 loic loic  23M Aug  3 10:19 [01;32mPEF2008_AC01.csv[0m*
-rw-rw-r-- 1 loic loic 345M Aug  4 07:07 pef_2008_to_2015.backup.csv
-rw-rw-r-- 1 loic loic 345M Aug  4 10

345 MB

## Quality assurance
Take 1000 lines random sample for both files.

In [59]:
multi_year_cp.sample(n=1000).to_csv('cuenta_publica_2010_to_2015.sample.csv', index=False)
multi_year_pef.sample(n=1000).to_csv('pef_2008_to_2015.sample.csv', index=False)

In [60]:
ls -lh

total 3.4G
-rw-rw-r-- 1 loic loic 607M Aug  4 10:47 cuenta_publica_2008_to_2015.csv
-rwxr--r-- 1 loic loic  55M Aug  3 10:16 [0m[01;32mCuenta_Publica_2010.csv[0m*
-rw-rw-r-- 1 loic loic 607M Aug  4 07:07 cuenta_publica_2010_to_2015.backup.csv
-rw-rw-r-- 1 loic loic 607M Aug  3 20:30 cuenta_publica_2010_to_2015.csv
-rw-rw-r-- 1 loic loic 499K Aug  4 10:48 cuenta_publica_2010_to_2015.sample.csv
-rwxr--r-- 1 loic loic  61M Aug  3 10:18 [01;32mCuenta_Publica_2011.csv[0m*
-rwxr--r-- 1 loic loic 123M Aug  3 10:26 [01;32mCuenta_Publica_2012.csv[0m*
-rwxr--r-- 1 loic loic 106M Aug  3 10:23 [01;32mCuenta_Publica_2013_RA.csv[0m*
-rwxr--r-- 1 loic loic 120M Aug  3 10:26 [01;32mCuenta_Publica_2014_RA.csv[0m*
-rwxr--r-- 1 loic loic 118M Aug  3 10:25 [01;32mCuenta_Publica_2015_GF.csv[0m*
-rw-rw-r-- 1 loic loic  52K Aug  4 10:47 mexican_federal_budget_ingestion_preparation.ipynb
-rwxr--r-- 1 loic loic  23M Aug  3 10:19 [01;32mPEF2008_AC01.csv[0m*
-rw-rw-r-- 1 loic loic 345