<a href="https://colab.research.google.com/github/MarcoE25/Clases-Analisis-Datos/blob/main/Copia_de_02_Optimizacion_desempeno.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# ⚙️ Optimización de desempeño en Pandas
**Duración:** 1.5 horas


## Objetivos de la clase

- Identificar cuellos de botella en procesamiento de datos.
- Medir el tiempo y uso de memoria en operaciones.
- Optimizar tipos de datos (`dtypes`) para mejorar velocidad y reducir memoria.
- Aplicar buenas prácticas para análisis eficientes con Pandas.


## ⏱️ Medir el tiempo de ejecución con `%timeit`

In [None]:

import pandas as pd
import numpy as np

# Crear un DataFrame grande
df = pd.DataFrame({
    "col1": np.random.randint(0, 100, size=1_000_000),
    "col2": np.random.random(size=1_000_000)
})

# Medir tiempo de operación
%timeit df["col1"].mean()


7.07 ms ± 1.03 ms per loop (mean ± std. dev. of 7 runs, 100 loops each)


## 💾 Medir uso de memoria con `.memory_usage()`

In [None]:

df.memory_usage(deep=True)


Unnamed: 0,0
Index,132
col1,8000000
col2,8000000


## 📉 Optimización de tipos de datos (`dtypes`)

In [None]:

# Cambiar a tipos más eficientes
df["col1"] = df["col1"].astype("int16")
df["col2"] = df["col2"].astype("float32")

# Revisar memoria de nuevo
df.memory_usage(deep=True)


Unnamed: 0,0
Index,132
col1,2000000
col2,4000000


## 🧠 Uso de `category` para columnas repetidas

In [None]:

# Simular columna con repetición
df_cat = pd.DataFrame({
    "estado": np.random.choice(["CDMX", "Jalisco", "Nuevo León", "Yucatán"], size=1_000_000)
})

# Ver memoria sin optimizar
print(df_cat.memory_usage(deep=True))

# Convertir a categoría
df_cat["estado"] = df_cat["estado"].astype("category")

# Ver memoria optimizada
print(df_cat.memory_usage(deep=True))


Index          132
estado    76009621
dtype: int64
Index         132
estado    1000497
dtype: int64


## ➕ Uso eficiente de `.assign()` para evitar copias innecesarias

In [None]:

# Mala práctica (crea copias innecesarias)
df["col3"] = df["col1"] + df["col2"]

# Buena práctica
df = df.assign(col3 = df["col1"] + df["col2"])


## 🔄 Transformaciones con `.pipe()` para mantener el flujo limpio

In [None]:

# Función que normaliza una columna
def normalizar(df, columna):
    df[columna] = (df[columna] - df[columna].mean()) / df[columna].std()
    return df

# Aplicar con .pipe
df = df.pipe(normalizar, columna="col3")
df.head()


Unnamed: 0,col1,col2,col3
0,8,0.000501,-1.455604
1,77,0.934912,0.966119
2,7,0.576198,-1.470297
3,22,0.53699,-0.952227
4,74,0.817394,0.858164


In [1]:
!pip install kaggle



In [4]:
# Instala la librería si no está instalada
!pip install kagglehub[pandas-datasets]

import kagglehub
from kagglehub import KaggleDatasetAdapter

# Reemplaza "NOMBRE_DEL_ARCHIVO.csv" con el nombre exacto del archivo dentro del dataset
# Por ejemplo: "crocodiles.csv" o "species_data.csv"
file_path = "crocodile_dataset.csv"

# Carga el dataset usando el adaptador de Pandas
df = kagglehub.load_dataset(
    KaggleDatasetAdapter.PANDAS,
    "zadafiyabhrami/global-crocodile-species-dataset",
    file_path,
    # Puedes añadir un diccionario para pandas si lo necesitas:
    # pandas_kwargs={'encoding': 'latin1'}
)

print("First 5 records:", df.head())



  df = kagglehub.load_dataset(


Using Colab cache for faster access to the 'global-crocodile-species-dataset' dataset.
First 5 records:    Observation ID                         Common Name         Scientific Name  \
0               1                 Morelet's Crocodile    Crocodylus moreletii   
1               2                  American Crocodile       Crocodylus acutus   
2               3                   Orinoco Crocodile  Crocodylus intermedius   
3               4                 Morelet's Crocodile    Crocodylus moreletii   
4               5  Mugger Crocodile (Marsh Crocodile)    Crocodylus palustris   

         Family       Genus  Observed Length (m)  Observed Weight (kg)  \
0  Crocodylidae  Crocodylus                 1.90                  62.0   
1  Crocodylidae  Crocodylus                 4.09                 334.5   
2  Crocodylidae  Crocodylus                 1.08                 118.2   
3  Crocodylidae  Crocodylus                 2.42                  90.4   
4  Crocodylidae  Crocodylus            

In [5]:
df


Unnamed: 0,Observation ID,Common Name,Scientific Name,Family,Genus,Observed Length (m),Observed Weight (kg),Age Class,Sex,Date of Observation,Country/Region,Habitat Type,Conservation Status,Observer Name,Notes
0,1,Morelet's Crocodile,Crocodylus moreletii,Crocodylidae,Crocodylus,1.90,62.0,Adult,Male,31-03-2018,Belize,Swamps,Least Concern,Allison Hill,Cause bill scientist nation opportunity.
1,2,American Crocodile,Crocodylus acutus,Crocodylidae,Crocodylus,4.09,334.5,Adult,Male,28-01-2015,Venezuela,Mangroves,Vulnerable,Brandon Hall,Ago current practice nation determine operatio...
2,3,Orinoco Crocodile,Crocodylus intermedius,Crocodylidae,Crocodylus,1.08,118.2,Juvenile,Unknown,07-12-2010,Venezuela,Flooded Savannas,Critically Endangered,Melissa Peterson,Democratic shake bill here grow gas enough ana...
3,4,Morelet's Crocodile,Crocodylus moreletii,Crocodylidae,Crocodylus,2.42,90.4,Adult,Male,01-11-2019,Mexico,Rivers,Least Concern,Edward Fuller,Officer relate animal direction eye bag do.
4,5,Mugger Crocodile (Marsh Crocodile),Crocodylus palustris,Crocodylidae,Crocodylus,3.75,269.4,Adult,Unknown,15-07-2019,India,Rivers,Vulnerable,Donald Reid,Class great prove reduce raise author play mov...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
995,996,West African Crocodile,Crocodylus suchus,Crocodylidae,Crocodylus,2.55,112.3,Adult,Female,01-10-2015,Mauritania,Lakes,Least Concern,Karen Avery,Thousand position sense church out explain sig...
996,997,Hall's New Guinea Crocodile,Crocodylus halli,Crocodylidae,Crocodylus,2.27,80.3,Subadult,Female,25-01-2023,Papua New Guinea,Freshwater Wetlands,Least Concern,Sylvia Turner,Painting try talk like maintain serious style.
997,998,West African Slender-snouted Crocodile,Mecistops cataphractus,Crocodylidae,Mecistops,2.34,93.5,Adult,Male,07-02-2014,Côte d'Ivoire,Swamps,Critically Endangered,Kristin Fleming,Produce off light before majority garden milit...
998,999,West African Slender-snouted Crocodile,Mecistops cataphractus,Crocodylidae,Mecistops,2.82,147.6,Adult,Male,09-07-2010,Sierra Leone,Shaded Forest Rivers,Critically Endangered,Eric Petersen,Put everything our prove could party skin soon...


## 💼 Caso práctico: Análisis de base de datos electoral


Descarga una base de datos grande (INE, INEGI, etc.) y realiza:

1. Conversión de columnas a `categorical` donde sea útil.
2. Revisión y optimización de `dtypes`.
3. Medición de tiempos con y sin optimización.
4. Aplicación de funciones eficientes usando `.assign()` y `.pipe()`.


In [6]:
print(df.dtypes)


Observation ID            int64
Common Name              object
Scientific Name          object
Family                   object
Genus                    object
Observed Length (m)     float64
Observed Weight (kg)    float64
Age Class                object
Sex                      object
Date of Observation      object
Country/Region           object
Habitat Type             object
Conservation Status      object
Observer Name            object
Notes                    object
dtype: object


In [7]:
# Ver memoria sin optimizar
print(df.memory_usage(deep=True))

# Convertir a categoría
df_categorico=df.astype({
    "Common Name":"category",
    "Scientific Name":"category",
    "Family":"category",
    "Genus":"category",
    "Age Class":"category",
    "Sex":"category",
    "Country/Region":"category",
    "Habitat Type":"category",
    "Conservation Status":"category"
})
# Ver memoria optimizada
print(df_categorico.memory_usage(deep=True))

Index                      132
Observation ID            8000
Common Name              72728
Scientific Name          68923
Family                   61000
Genus                    58994
Observed Length (m)       8000
Observed Weight (kg)      8000
Age Class                55519
Sex                      54704
Date of Observation      59000
Country/Region           59860
Habitat Type             59222
Conservation Status      63637
Observer Name            62197
Notes                   112292
dtype: int64
Index                      132
Observation ID            8000
Common Name               2869
Scientific Name           2796
Family                    1169
Genus                     1285
Observed Length (m)       8000
Observed Weight (kg)      8000
Age Class                 1398
Sex                       1272
Date of Observation      59000
Country/Region            4835
Habitat Type              3828
Conservation Status       1485
Observer Name            62197
Notes                   11

## 🧠 Ejercicios propuestos


1. Compara el tiempo de ejecución de una operación con y sin optimizar los tipos de datos.
2. Convierte columnas repetitivas a `category` y mide el ahorro de memoria.
3. Usa `.pipe()` para encadenar dos transformaciones de un DataFrame.
4. Investiga cómo cargar solo ciertas columnas de un CSV usando `usecols` para reducir el uso de memoria.


In [8]:
print("--- TIEMPO DE EJECUCIÓN SIN OPTIMIZAR (TIPO object) ---")

# %timeit ejecuta el comando 7 veces (runs) y hace 10 repeticiones (loops) por corrida
%timeit df.groupby('Country/Region')['Age Class'].count()

--- TIEMPO DE EJECUCIÓN SIN OPTIMIZAR (TIPO object) ---
554 µs ± 12.7 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)


In [9]:
print("--- TIEMPO DE EJECUCIÓN OPTIMIZADO (TIPO category) ---")

# Se ejecuta el mismo comando, pero en el DataFrame optimizado
%timeit df_categorico.groupby('Country/Region')['Age Class'].count()

--- TIEMPO DE EJECUCIÓN OPTIMIZADO (TIPO category) ---




345 µs ± 71.8 µs per loop (mean ± std. dev. of 7 runs, 1000 loops each)
