In [1]:
import pathlib
import shutil

import pandas as pd
import yaml

import dlsproc.extend
import dlsproc.hier

So that *all* the columns of a `pd.DataFrame` are shown:

In [2]:
pd.set_option('display.max_columns', None)

# Directories

The directory containing downloaded data:

In [3]:
data_directory = pathlib.Path.cwd().parent / 'data' / 'agregados'
assert data_directory.exists()
print(data_directory)

/home/manu/dlsproc/data/agregados


A `list` with all the *zip* files that are to be processed

In [4]:
new_zip_files = sorted(data_directory.glob('PlataformasAgregadasSinMenores_2022*.zip'))
new_zip_files

[PosixPath('/home/manu/dlsproc/data/agregados/PlataformasAgregadasSinMenores_202201.zip'),
 PosixPath('/home/manu/dlsproc/data/agregados/PlataformasAgregadasSinMenores_202202.zip'),
 PosixPath('/home/manu/dlsproc/data/agregados/PlataformasAgregadasSinMenores_202203.zip'),
 PosixPath('/home/manu/dlsproc/data/agregados/PlataformasAgregadasSinMenores_202204.zip'),
 PosixPath('/home/manu/dlsproc/data/agregados/PlataformasAgregadasSinMenores_202205.zip'),
 PosixPath('/home/manu/dlsproc/data/agregados/PlataformasAgregadasSinMenores_202206.zip')]

The final output file

In [5]:
output_file = data_directory / 'agregados_sin_menores_multiindex.parquet'
output_file

PosixPath('/home/manu/dlsproc/data/agregados/agregados_sin_menores_multiindex.parquet')

The historical file (in *parquet* format)

In [6]:
# history_file = pathlib.Path.cwd().parent / 'make' / '2018-2021.parquet'
history_file = data_directory / '2018-2021.parquet'
assert history_file.exists()
print(f'{history_file=}')

history_file=PosixPath('/home/manu/dlsproc/data/agregados/2018-2021.parquet')


# Files

The output file is in the beginning a copy of the *history file*

In [7]:
shutil.copy(history_file, output_file)

PosixPath('/home/manu/dlsproc/data/agregados/agregados_sin_menores_multiindex.parquet')

In [8]:
for i, zip_file in enumerate(new_zip_files):
    print(f'appending {zip_file}')
    dlsproc.extend.parquet_with_zip(output_file, zip_file, output_file)

appending /home/manu/dlsproc/data/agregados/PlataformasAgregadasSinMenores_202201.zip
appending /home/manu/dlsproc/data/agregados/PlataformasAgregadasSinMenores_202202.zip
appending /home/manu/dlsproc/data/agregados/PlataformasAgregadasSinMenores_202203.zip
appending /home/manu/dlsproc/data/agregados/PlataformasAgregadasSinMenores_202204.zip
appending /home/manu/dlsproc/data/agregados/PlataformasAgregadasSinMenores_202205.zip
appending /home/manu/dlsproc/data/agregados/PlataformasAgregadasSinMenores_202206.zip


In [9]:
%ls {output_file.parent}

2018-2021.parquet
2018-2021.pickle
agregados_sin_menores_multiindex.parquet
[0m[01;31mPlataformasAgregadasSinMenores_2018.zip[0m
[01;31mPlataformasAgregadasSinMenores_2019.zip[0m
[01;31mPlataformasAgregadasSinMenores_2020.zip[0m
[01;31mPlataformasAgregadasSinMenores_2021.zip[0m
[01;31mPlataformasAgregadasSinMenores_202201.zip[0m
[01;31mPlataformasAgregadasSinMenores_202202.zip[0m
[01;31mPlataformasAgregadasSinMenores_202203.zip[0m
[01;31mPlataformasAgregadasSinMenores_202204.zip[0m
[01;31mPlataformasAgregadasSinMenores_202205.zip[0m
[01;31mPlataformasAgregadasSinMenores_202206.zip[0m
[01;34mtmp[0m/


In [10]:
res_df = pd.read_parquet(output_file)
res_df.shape

(207088, 43)

An Excel file mapping *human-readable* fields to *multiindexed* columns. The latter was processed in `naming.ipynb` to get the file below.

In [15]:
data_scheme_file = pathlib.Path.cwd().parent / 'samples' / 'PLACE.yaml'
assert data_scheme_file.exists()

It provides (as a `dict`) a mapping from *human-readable* names to (maybe nested) fields in *Atom* files

In [16]:
with open(data_scheme_file) as yaml_data:
    data_scheme = yaml.load(yaml_data, Loader=yaml.FullLoader)

In [17]:
flattened_res_df = dlsproc.hier.flatten_columns_names(res_df, data_scheme)
flattened_res_df.head(2)

Unnamed: 0_level_0,Unnamed: 1_level_0,id,summary,title,updated,Número de Expediente,Estado,Nombre,Objeto del Contrato,Tipo de Contrato,Valor estimado del contrato,Presupuesto base sin impuestos,Clasificación CPV,Código de Subentidad Nacional,Plazo de Ejecución (Duración),Resultado,Número de Licitadores Participantes,Identificador (+ Tipo: mod schemeName),Nombre del Adjudicatario,Importe total ofertado (sin impuestos),Tipo de Procedimiento,Presentación de Oferta (Fecha),Presentación de Oferta (Hora),Pliego de cláusulas administrativas,Pliego de cláusulas administrativas (URI),Tipo de Anuncio,Medio de Publicación,Fecha de Publicación,Ubicación orgánica,Presentación de Solicitudes (Fecha),Presentación de Solicitudes (Hora),Pliego de Prescripciones técnicas,Pliego de Prescripciones técnicas (URI),ContractFolderStatus - LocatedContractingParty - ParentLocatedParty - ParentLocatedParty - PartyName - Name,Plazo de Ejecución (Comienzo),Plazo de Ejecución (Fin),ID,Lote,ContractFolderStatus - LocatedContractingParty - ParentLocatedParty - ParentLocatedParty - ParentLocatedParty - PartyName - Name,Presentación de Oferta,ContractFolderStatus - LocatedContractingParty - ParentLocatedParty - ParentLocatedParty - ParentLocatedParty - ParentLocatedParty - PartyName - Name,Presentación de Oferta (Observaciones),URL perfil de contratante,deleted_on
file name,entry,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1,Unnamed: 22_level_1,Unnamed: 23_level_1,Unnamed: 24_level_1,Unnamed: 25_level_1,Unnamed: 26_level_1,Unnamed: 27_level_1,Unnamed: 28_level_1,Unnamed: 29_level_1,Unnamed: 30_level_1,Unnamed: 31_level_1,Unnamed: 32_level_1,Unnamed: 33_level_1,Unnamed: 34_level_1,Unnamed: 35_level_1,Unnamed: 36_level_1,Unnamed: 37_level_1,Unnamed: 38_level_1,Unnamed: 39_level_1,Unnamed: 40_level_1,Unnamed: 41_level_1,Unnamed: 42_level_1,Unnamed: 43_level_1,Unnamed: 44_level_1
PlataformasAgregadasSinMenores_20180217_180137_1.atom,453,https://contrataciondelestado.es/sindicacion/P...,"Expediente: 1284/17, Entidad: Diputación Provi...",Refuerzo de Firme en la VP 3001 Renedo de Esgu...,2018-01-02 08:01:52.024000+00:00,1284/17,RES,Diputación Provincial de Valladolid,Refuerzo de Firme en la VP 3001 Renedo de Esgu...,3.0,89917.95,89917.95,[45233142.0],ES418,3.0,[8.0],[14.0],[A47082185],[CONSTRUCCIONES HERMANOS SASTRE S.A.],[60690.08],1.0,2017-11-02,23:59:00,,,[DOC_FORM],[Publicación del anuncio de formalización en u...,[2018-01-02],,2017-11-02,23:59:00,,,,,,L02000047,[1.0],,2017-11-02 23:59:00+00:00,,,,NaT
PlataformasAgregadasSinMenores_20180217_180137_1.atom,452,https://contrataciondelestado.es/sindicacion/P...,"Expediente: 1282/17, Entidad: Diputación Provi...",Refuerzo de Firme en la VP 6603 Mota del Marqu...,2018-01-02 08:02:24.833000+00:00,1282/17,RES,Diputación Provincial de Valladolid,Refuerzo de Firme en la VP 6603 Mota del Marqu...,3.0,175708.46,175708.46,[45233142.0],ES418,3.0,[8.0],[13.0],[A49012792],[CONTRATAS Y OBRAS SAN GREGORIO S.A.],[118919.49],1.0,2017-11-02,23:59:00,,,[DOC_FORM],[Publicación del anuncio de formalización en u...,[2018-01-02],,2017-11-02,23:59:00,,,,,,L02000047,[1.0],,2017-11-02 23:59:00+00:00,,,,NaT


In [20]:
flattened_res_df.to_parquet(output_file.with_stem('agregados_sin_menores_multiindex_plano'))