In [1]:
import pandas as pd
import numpy as np

# Creando un DataFrame sin optimización de dtypes
np.random.seed(0)
data = {
    'enteros': np.random.randint(1, 10, 1000000),  # Números enteros
    'flotantes': np.random.randn(1000000),  # Números flotantes
    'texto': ['texto'] * 1000000  # Cadenas de texto
}
df_no_optimizado = pd.DataFrame(data)

# Diagnosticando el uso de memoria antes de la optimización
memoria_no_optimizada = df_no_optimizado.memory_usage(deep=True).sum()

# Optimizando dtypes
df_optimizado = df_no_optimizado.copy()
df_optimizado['enteros'] = df_optimizado['enteros'].astype('int8')
df_optimizado['flotantes'] = df_optimizado['flotantes'].astype('float32')
df_optimizado['texto'] = df_optimizado['texto'].astype('category')

# Diagnosticando el uso de memoria después de la optimización
memoria_optimizada = df_optimizado.memory_usage(deep=True).sum()

print(f"Memoria no optimizada: {memoria_no_optimizada} bytes")
print(f"Memoria optimizada: {memoria_optimizada} bytes")

Memoria no optimizada: 74000132 bytes
Memoria optimizada: 6000302 bytes


In [8]:
import time

# Calculando la suma de los números enteros en el dataframe no optimizado
inicio_no_optimizado = time.time()
suma_no_optimizada = df_no_optimizado['enteros'].sum()
tiempo_no_optimizado = time.time() - inicio_no_optimizado

# Calculando la suma de los números enteros en el dataframe optimizado
inicio_optimizado = time.time()
suma_optimizada = df_optimizado['enteros'].sum()
tiempo_optimizado = time.time() - inicio_optimizado

print(f"""------- No optimizado -------
Resultado de la suma: {suma_no_optimizada} - Tiempo de ejecucion: {tiempo_no_optimizado} segundos""")

print(f"""------- Optimizado -------
Resultado de la suma: {suma_optimizada} - Tiempo de ejecucion: {tiempo_optimizado} segundos""")


------- No optimizado -------
Resultado de la suma: 5001524 - Tiempo de ejecucion: 0.0019397735595703125 segundos
------- Optimizado -------
Resultado de la suma: 5001524 - Tiempo de ejecucion: 0.0011143684387207031 segundos
