In [2]:
import numpy as np
import pandas as pd
import time

In [3]:
matriz = np.random.randint(0, 101, (500000, 10))
matriz

array([[78, 73, 45, ..., 41, 85, 79],
       [84,  6, 22, ..., 75,  1, 83],
       [76, 38, 18, ..., 61, 43, 51],
       ...,
       [18, 97, 63, ..., 13, 71, 14],
       [51, 46, 80, ..., 64, 63,  9],
       [91, 56, 26, ..., 28, 97, 34]], shape=(500000, 10))

In [4]:
df = pd.DataFrame(matriz)

In [None]:
start = time.time()
df.to_csv('../Carga de Archivos/ArchivoCSV.csv')
end = time.time() - start
print(f'Tiempo de escritura en CSV: {end} segundos')

Tiempo de escritura en CSV: 1.1738879680633545 segundos


In [None]:
start = time.time()
df.to_excel('../Carga de Archivos/ArchivoExcel.xlsx', engine='openpyxl')
end = time.time() - start
print(f'Tiempo de escritura en Excel: {end} segundos')

Tiempo de escritura en Excel: 86.58673000335693 segundos


In [None]:
start = time.time()
df.to_parquet('../Carga de Archivos/ArchivoParquet.parquet', index=False, engine='pyarrow')
end = time.time() - start
print(f'Tiempo de escritura en Parquet: {end} segundos')

Tiempo de escritura en Parquet: 0.1525709629058838 segundos


## Multithreading

In [None]:
import time
from concurrent.futures import ThreadPoolExecutor, as_completed
from pathlib import Path

def run_csv():
    t0 = time.perf_counter()
    df.to_csv("../Carga de Archivos/ArchivoCSV.csv", index=False)
    return "CSV", time.perf_counter() - t0

def run_excel():
    t0 = time.perf_counter()
    df.to_excel("../Carga de Archivos/ArchivoExcel.xlsx", engine="openpyxl", index=False)
    return "Excel (openpyxl)", time.perf_counter() - t0

def run_parquet():
    t0 = time.perf_counter()
    df.to_parquet("../Carga de Archivos/ArchivoParquet.parquet", engine="pyarrow", index=False)
    return "Parquet (pyarrow)", time.perf_counter() - t0

t_wall = time.perf_counter()
with ThreadPoolExecutor(max_workers=3) as ex:
    futures = [ex.submit(run_csv), ex.submit(run_excel), ex.submit(run_parquet)]
    for f in as_completed(futures):
        etiqueta, t = f.result()
        print(f"{etiqueta}: {t:.3f} s")

print(f"Tiempo total (paralelo): {time.perf_counter() - t_wall:.3f} s")

Parquet (pyarrow): 0.282 s
CSV: 1.098 s
Excel (openpyxl): 65.076 s
Tiempo total (paralelo): 65.088 s
