# Uso de PICKLE, una alternativa al CSV

En este pequeño tutorial vamos a ver esta herramienta poderosa para almacenar en un archivo binario lo que quieras: un DataFrame, un modelo de ML, lo que sea.

Detalle, no comprime, para eso hace falta alguna herramienta extra como `bz2`

<small>Este tutotorial es de [Towards Data Science: ](https://towardsdatascience.com/stop-using-csvs-for-storage-pickle-is-an-80-times-faster-alternative-832041bbc199)</small>

In [2]:
import numpy as np
import pandas as pd
import pickle
import bz2

np.random.seed = 42
df_size = 10_000_000

df = pd.DataFrame({
    'a': np.random.rand(df_size),
    'b': np.random.rand(df_size),
    'c': np.random.rand(df_size),
    'd': np.random.rand(df_size),
    'e': np.random.rand(df_size)
})
df.head()

Unnamed: 0,a,b,c,d,e
0,0.96548,0.336206,0.759999,0.443869,0.021673
1,0.861033,0.363812,0.203951,0.662439,0.163381
2,0.90592,0.9951,0.479692,0.38468,0.799949
3,0.220156,0.509108,0.889104,0.89618,0.14261
4,0.412928,0.892887,0.36344,0.684153,0.156739


Guardar un DataFrame en un archivo pkl

In [5]:
with open('10M.pkl', 'wb') as f:
    pickle.dump(df, f)

Guardar un DF comprimiendo con BZ2 a un archivo `.pkl`

In [6]:
with open('10M_compressed.pkl', 'wb') as f:
    compressed_file = bz2.BZ2File(f, 'w')
    pickle.dump(df, compressed_file)

Abriendo un archivito `.pkl`

In [None]:
with open('10M_compressed.pkl', 'rb') as f:
    compressed_file = bz2.BZ2File(f, 'r')
    df = pickle.load(compressed_file)

# Comparando CSV versus PICKLE en términos de espacio de almacenado y tiempo de carga

Comparación en tiempo de escritura

![image.png](attachment:image.png)

Comparación en tiempo de lectura

![image.png](attachment:image.png)

Comparación en tiempo de espacio utilizado

![image.png](attachment:image.png)