# Parquet Fundamentals

## Download dataset

**Conversion to Parquet and Schema Extraction**

Like other formats, Apache Parquet can be read and interpreted using the Pandas library in Python. We will convert the file `convocatorias-2020.csv` to Parquet. 

In [1]:
! mkdir -p /media/notebooks/argentina

# Download CSV file                        
! wget https://github.com/Vega90/datasets/raw/main/convocatorias-2020.csv \
-O /media/notebooks/argentina/convocatorias-2020.csv

--2024-11-10 15:32:37--  https://github.com/Vega90/datasets/raw/main/convocatorias-2020.csv
Resolving github.com (github.com)... 140.82.121.4
Connecting to github.com (github.com)|140.82.121.4|:443... connected.
HTTP request sent, awaiting response... 302 Found
Location: https://raw.githubusercontent.com/Vega90/datasets/main/convocatorias-2020.csv [following]
--2024-11-10 15:32:38--  https://raw.githubusercontent.com/Vega90/datasets/main/convocatorias-2020.csv
Resolving raw.githubusercontent.com (raw.githubusercontent.com)... 185.199.108.133, 185.199.109.133, 185.199.110.133, ...
Connecting to raw.githubusercontent.com (raw.githubusercontent.com)|185.199.108.133|:443... connected.
HTTP request sent, awaiting response... 200 OK
Length: 5675992 (5.4M) [text/plain]
Saving to: ‘/media/notebooks/argentina/convocatorias-2020.csv’


2024-11-10 15:32:39 (4.14 MB/s) - ‘/media/notebooks/argentina/convocatorias-2020.csv’ saved [5675992/5675992]



## Parquet file creation with Pandas

Now, Pandas allows us to directly write to Parquet format using `pd.to_parquet('path')`.

In [2]:
import pandas as pd

columnas = [
             'numero_procedimiento', 'nro_saf', 'descripcion_saf', 'nro_uoc', 
             'descripcion_uoc','tipo_de_procedimiento', 'modalidad', 'apartado_directa', 
             'ejercicio', 'fecha_de_publicacion', 'fecha_de_apertura', 'etapa', 'alcance', 
             'nombre_del_procedimiento', 'objeto_del_procedimiento', 'monto_estimado', 'tipo_de_operacion'
           ]

df_convocatorias = pd.read_csv('/media/notebooks/argentina/convocatorias-2020.csv', names=columnas)                       

df_convocatorias.head(3)

Unnamed: 0,numero_procedimiento,nro_saf,descripcion_saf,nro_uoc,descripcion_uoc,tipo_de_procedimiento,modalidad,apartado_directa,ejercicio,fecha_de_publicacion,fecha_de_apertura,etapa,alcance,nombre_del_procedimiento,objeto_del_procedimiento,monto_estimado,tipo_de_operacion
0,40/51-0159-LPR19,381,381 - Estado Mayor General de La Fuerza Aérea,40,Departamento Contrataciones Córdoba - UOC 40/51,Licitacion Privada,Sin Modalidad,,2019,02/01/2020 08:00:00 a.m.,10/01/2020 10:00:00 a.m.,Única,Nacional,“Adquisición de Elementos de Librería para el ...,“Adquisición de Elementos de Librería para el ...,1957142.84,Proceso de Compra
1,22-0041-CDI19,250,250 - Caja de Retiros Jubilaciones y Pensiones...,22,22 - Dpto de Compras y Suministros - Caja de R...,Contratación Directa,Sin Modalidad,Apartado 1: Compulsa Abreviada Por Monto,2019,02/01/2020 12:00:00 p.m.,13/01/2020 09:00:00 a.m.,Única,Nacional,Servicio de seguridad de información sensible ...,Servicio de seguridad de información sensible ...,119915.25,Proceso de Compra
2,40/51-0918-CDI19,381,381 - Estado Mayor General de La Fuerza Aérea,40,Departamento Contrataciones Córdoba - UOC 40/51,Contratación Directa,Sin Modalidad,Apartado 1: Compulsa Abreviada Por Monto,2019,02/01/2020 12:00:00 p.m.,13/01/2020 10:00:00 a.m.,Única,Nacional,“Servicio Médico Asistencial para Organismos V...,“Servicio Médico Asistencial para Organismos V...,99000.0,Proceso de Compra


We convert to parquet format:

In [4]:
# conversion to parquet of the first lines
df_convocatorias.to_parquet('/media/notebooks/argentina/convocatorias-2020.parq')

# Display parquet file
! cat /media/notebooks/argentina/convocatorias-2020.parq | tail

�ƨP��:�Ҩ5��z��9��:Z��<j����@j�*��Dj�j��Hj���.�Lj��>�Pj�*�N�T*}Z��y���z�b�Yꊪ�n�7�H��v�^�
���b*     &�ǵ
��monto_estimado����
&�Ӳ&�ڪ   �4��A       �    �4��A       � ,      PTL   (�   Proceso de Compra   Genera Recursos ��,��6 (Proceso de CompraGenera Recursos   �8   ��� �4H 4 � �8� � r �H> � B � �� �� �l �	DT x \ � �3 �. � ��6 � � L j z 	� D � �A �7 � �3 ��= �P ��� �c �1 �@ �1 � � �;4b $ � �>(v �
 Z/ �C �
��l 	� D �Dz @o0� � � &�е5 tipo_de_operacion���&�ʵ&�ɵ6 (Proceso de CompraGenera Recursos ,      �5 schema" %numero_procedimiento% L   %nro_saf %descripcion_saf% L   %nro_uoc %descripcion_uoc% L   %tipo_de_procedimiento% L   %	modalidad% L   %apartado_directa% L   %	ejercicio %fecha_de_pub

We can compare the size of both files to see how the Parquet file is now smaller than the CSV file. Although this file doesn't contain many rows, it gives us an idea of the significant advantage of using Parquet files.

In [5]:
print('The size of the CSV file is:')
! stat -c%s /media/notebooks/argentina/convocatorias-2020.csv

# Avro file size with snappy compression
print('The size of the AVRO file is:')
! stat -c%s /media/notebooks/argentina/convocatorias-2020.avro

print('The size of the PARQUET file is:')
! stat -c%s /media/notebooks/argentina/convocatorias-2020.parq

The size of the CSV file is:
5675992
The size of the AVRO file is:
stat: cannot statx '/media/notebooks/argentina/convocatorias-2020.avro': No such file or directory
The size of the PARQUET file is:
1498335


## Read Parquet file with Pandas

Additionally, Pandas can also read Parquet files and create a DataFrame from them. If we create the DataFrame and compare its content with the DataFrame created from the CSV file, we will see that they are identical.

In [6]:
# Create a dataFrame from the parquet file
dt_parquet = pd.read_parquet('/media/notebooks/argentina/convocatorias-2020.parq')
dt_parquet.head()

Unnamed: 0,numero_procedimiento,nro_saf,descripcion_saf,nro_uoc,descripcion_uoc,tipo_de_procedimiento,modalidad,apartado_directa,ejercicio,fecha_de_publicacion,fecha_de_apertura,etapa,alcance,nombre_del_procedimiento,objeto_del_procedimiento,monto_estimado,tipo_de_operacion
0,40/51-0159-LPR19,381,381 - Estado Mayor General de La Fuerza Aérea,40,Departamento Contrataciones Córdoba - UOC 40/51,Licitacion Privada,Sin Modalidad,,2019,02/01/2020 08:00:00 a.m.,10/01/2020 10:00:00 a.m.,Única,Nacional,“Adquisición de Elementos de Librería para el ...,“Adquisición de Elementos de Librería para el ...,1957142.84,Proceso de Compra
1,22-0041-CDI19,250,250 - Caja de Retiros Jubilaciones y Pensiones...,22,22 - Dpto de Compras y Suministros - Caja de R...,Contratación Directa,Sin Modalidad,Apartado 1: Compulsa Abreviada Por Monto,2019,02/01/2020 12:00:00 p.m.,13/01/2020 09:00:00 a.m.,Única,Nacional,Servicio de seguridad de información sensible ...,Servicio de seguridad de información sensible ...,119915.25,Proceso de Compra
2,40/51-0918-CDI19,381,381 - Estado Mayor General de La Fuerza Aérea,40,Departamento Contrataciones Córdoba - UOC 40/51,Contratación Directa,Sin Modalidad,Apartado 1: Compulsa Abreviada Por Monto,2019,02/01/2020 12:00:00 p.m.,13/01/2020 10:00:00 a.m.,Única,Nacional,“Servicio Médico Asistencial para Organismos V...,“Servicio Médico Asistencial para Organismos V...,99000.0,Proceso de Compra
3,92-0075-CDI19,116,116 - Biblioteca Nacional,92,92 - Departamento de Compras y Contrataciones- BN,Contratación Directa,Sin Modalidad,Apartado 1: Compulsa Abreviada Por Monto,2019,02/01/2020 03:00:00 p.m.,27/01/2020 11:00:00 a.m.,Única,Nacional,ADQUISICIÓN DE CAJAS Y REVISTEROS PARA LA DIRE...,ADQUISICIÓN DE CAJAS Y REVISTEROS PARA LA DIRE...,1450050.0,Proceso de Compra
4,46/1-0005-CDI20,604,604 - Dirección Nacional de Vialidad,46,46/01 - 19° Bahía Blanca - DNV,Contratación Directa,Sin Modalidad,Apartado 1: Compulsa Abreviada Por Monto,2020,02/01/2020 02:00:00 p.m.,08/01/2020 10:00:00 a.m.,Única,Nacional,SERVICIO DE ARMADO DE REFUGIO PEATONAL (SEGUND...,SERVICIO DE ARMADO DE REFUGIO PEATONAL,684000.0,Proceso de Compra


## Extract the Schema from a Parquet File

An important feature is knowing the schema of a Parquet file. We can use `fastparquet` to find this out, as this library will provide each field along with its associated type.

In [7]:
from fastparquet import ParquetFile

# Read the file with fastparquet
parquetFile = ParquetFile('/media/notebooks/argentina/convocatorias-2020.parq')

# Get the schema
esquema = parquetFile.schema
print(esquema)

- schema: REQUIRED
| - numero_procedimiento: BYTE_ARRAY, STRING, UTF8, OPTIONAL
| - nro_saf: INT64, OPTIONAL
| - descripcion_saf: BYTE_ARRAY, STRING, UTF8, OPTIONAL
| - nro_uoc: INT64, OPTIONAL
| - descripcion_uoc: BYTE_ARRAY, STRING, UTF8, OPTIONAL
| - tipo_de_procedimiento: BYTE_ARRAY, STRING, UTF8, OPTIONAL
| - modalidad: BYTE_ARRAY, STRING, UTF8, OPTIONAL
| - apartado_directa: BYTE_ARRAY, STRING, UTF8, OPTIONAL
| - ejercicio: INT64, OPTIONAL
| - fecha_de_publicacion: BYTE_ARRAY, STRING, UTF8, OPTIONAL
| - fecha_de_apertura: BYTE_ARRAY, STRING, UTF8, OPTIONAL
| - etapa: BYTE_ARRAY, STRING, UTF8, OPTIONAL
| - alcance: BYTE_ARRAY, STRING, UTF8, OPTIONAL
| - nombre_del_procedimiento: BYTE_ARRAY, STRING, UTF8, OPTIONAL
| - objeto_del_procedimiento: BYTE_ARRAY, STRING, UTF8, OPTIONAL
| - monto_estimado: DOUBLE, OPTIONAL
  - tipo_de_operacion: BYTE_ARRAY, STRING, UTF8, OPTIONAL
