In [1]:
import pandas as pd

# Numpy vs Pandas

Un punto al que mucha gente no presta atención, lo que lleva a un mal uso de pandas, es que esta biblioteca está construida en torno al formato de columnas.

**Pandas** se basa en `DataFrame`, un concepto inspirado en el Data Frame de **R**, que es una columna principal. Un `DataFrame` es una tabla bidimensional con filas y columnas.

En **NumPy**, se puede especificar el orden principal. Cuando se crea un `ndarray`, es de fila principal de forma predeterminada si no especifica el orden. Dado que Pandas usa por detras a NumPy, a veces se comete el error de tratar `DataFrame` de la misma manera que lo harían con `ndarray`, por ejemplo, intentando acceder a los datos por filas, generando que el procesamiento es lento.

In [2]:
df_wine = pd.read_csv("./winequality-red.csv")

En la siguientes celdas, se puede ver que acceder a un `DataFrame` por fila es mucho más lento que acceder al mismo `DataFrame` por columna.


In [3]:
%%timeit
# Iterando un DataFrame por columna
for col in df_wine.columns:
    for item in df_wine[col]:
        pass

685 µs ± 26.1 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [4]:
%%timeit
# Iterando un DataFrame por fila
n_rows = len(df_wine)
for i in range(n_rows):
    for item in df_wine.iloc[i]:
        pass

24.7 ms ± 985 µs per loop (mean ± std. dev. of 7 runs, 10 loops each)


In [5]:
time_col = 670 / 1000
time_row = 25
print("Hacer una iteración por fila lleva un", (time_row-time_col) * 100 / time_col, "% mas lento que por columna")

Hacer una iteración por fila lleva un 3631.3432835820895 % mas lento que por columna


 Si se convierte este mismo `DataFrame` a un NumPy `ndarray`, acceder a una fila se vuelve mucho más rápido, como vemos en las siguientes celdas:

In [6]:
array_wine = df_wine.to_numpy()
n_rows, n_cols = array_wine.shape

In [7]:
%%timeit
# Iterando un DataFrame por columna
for j in range(n_cols):
    for item in array_wine[:, j]:
        pass

407 µs ± 5.73 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [8]:
%%timeit
# Iterando un DataFrame por fila
for i in range(n_rows):
    for item in array_wine[i]:
        pass

903 µs ± 39.3 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)


In [9]:
time_col = 408
time_row = 903
print("Hacer una iteración por fila lleva un", (time_row-time_col) * 100 / time_col, "% mas lento que por columna")

Hacer una iteración por fila lleva un 121.32352941176471 % mas lento que por columna


----

## CSV vs Parquet

Cuando se almacena en formato CSV, el archivo de wine ocupa 101 KB. Pero cuando se almacena en Parquet, el mismo archivo ocupa 34 KB.

In [10]:
import os
csv_size = os.path.getsize("./winequality-red.csv")
parquet_size = os.path.getsize("./winequality-red.parquet")

In [11]:
print("El tamaño del CSV es", csv_size, "Bytes")
print("El tamaño del parquet es", parquet_size, "Bytes")
print("El tamaño del parquet es un", (csv_size-parquet_size) * 100 / csv_size, "% mas chico que el csv")

El tamaño del CSV es 100951 Bytes
El tamaño del parquet es 34359 Bytes
El tamaño del parquet es un 65.96467593188775 % mas chico que el csv
