![image.png](attachment:image.png)

# **Maestría en Inteligencia Artificial Aplicada**

## **Proyecto Integrador - TC5035**

## Semana 4: Avance 2 - Ingeniería de características

### Profesores
- Dra. Grettel Barceló Alonso
- Dr. Luis Eduardo Falcón Morales

### Asesor
- Dr. Gerardo Jesús Camacho González

### Patrocinadores
- Dr. Jorge Antonio Ascencio Gutiérrez
- Yanmei King Loeza

### Equipo 29
- Carolina Lucas Dophe  –  A01702450
- Juan Pablo López Sánchez   –   A01313663
- Víctor Hugo Soto Herrera   –   A01706446

### Fecha de entrega
Domingo 8 de febrero de 2026

### Tabla de contenido
[Introducción](#intro)

1. [Descripción de las fuentes de datos](#fuentes)
2. [Carga de librerías y configuración inicial](#config)
3. [Desagregación temporal de la oferta productiva](#desagregacion)
4. [Exportación de conjunto de datos](#exportacion)
5. [Preparación de los datos e ingeniería de características](#ingenieria)
6. [Selección y reducción de características](#reduccion)

[Conclusiones](#conclusiones)

[Referencias](#ref)

### <a class="anchor" id="intro">Introducción</a>

El presente *notebook* tiene como objetivo documentar y ejecutar la **fase de Preparación de los Datos**, con énfasis en la **ingeniería de características (Feature Engineering)**, dentro del marco metodológico **CRISP-ML**, como paso previo al desarrollo de modelos predictivos de la oferta productiva de aguacate en el estado de Jalisco.

En un entregable previo del proyecto se llevó a cabo la integración, limpieza y análisis exploratorio de datos (EDA) a nivel anual, a partir de diversas fuentes oficiales del Servicio de Información Agroalimentaria y Pesquera (SIAP). Como resultado de dicha etapa, se construyó un conjunto de datos anual consolidado y validado, el cual constituye el punto de partida para el presente análisis.

Dado que los modelos de series de tiempo y otras técnicas de aprendizaje automático se benefician de una mayor granularidad temporal, en este notebook se implementa de manera formal un proceso de **desagregación temporal** que permite estimar una serie mensual de producción a partir de la información anual disponible. Posteriormente, se desarrollan las transformaciones y decisiones propias de la ingeniería de características, las cuales serán justificadas en función del tipo de modelos que se pretenden emplear en etapas posteriores.

### <a class="anchor" id="fuentes">1. Descripción de las fuentes de datos</a>

Si bien el presente notebook hace uso directo de un conjunto de datos ya integrado y depurado, es importante documentar las fuentes originales a partir de las cuales dicho dataset fue construido en un entregable previo del proyecto. Esto garantiza la trazabilidad metodológica y la correcta interpretación de las variables utilizadas en las etapas posteriores de análisis y modelado.

* **Dataset maestro anual de producción de aguacate en Jalisco (1980–2024)**  
  Conjunto de datos integrado y depurado como resultado del entregable previo del proyecto, construido a partir de las fuentes oficiales del SIAP descritas anteriormente. Este dataset consolida la información anual a nivel estatal, por modalidad de producción, y constituye el insumo principal para la desagregación temporal y las etapas posteriores de preparación de datos.

* **Datos Abiertos SIAP – Nivel Estado (1980–2002)** **`+`**
* **Datos Abiertos SIAP – Nivel Municipio (2003–2024)** **`+`**
* **Anuario Estadístico SIAP (1980–2024)** **`+`**

* **Indicador de comercio exterior – Importaciones mensuales de aguacate a Estados Unidos (1996–2024)**  
  Información mensual proveniente del sistema de la U.S. International Trade Commission (USITC), utilizada como indicador auxiliar para capturar la distribución temporal intra–anual de la oferta productiva. Este indicador no se emplea como medida directa del nivel de producción, sino exclusivamente para determinar participaciones relativas mensuales en el proceso de desagregación temporal.[[3](#ref3)]

**`+`** Estas fuentes fueron empleadas durante la etapa previa de integración y EDA anual, y se mencionan aquí con fines de trazabilidad metodológica. [[1](#ref1)] [[2](#ref2)]

### <a class="anchor" id="config">2. Carga de librerías y configuración inicial</a>

En esta sección se cargan las librerías necesarias para el manejo, limpieza, integración y exploración de los datos, así como algunas configuraciones básicas para facilitar la visualización y el análisis posterior.

In [None]:
# Cargar librerías
import pandas as pd
import numpy as np

import matplotlib.pyplot as plt
import seaborn as sns

from pathlib import Path

In [None]:
# Configuración de visualización
pd.set_option("display.max_columns", None)
pd.set_option("display.float_format", "{:,.2f}".format)

sns.set_theme(style="whitegrid")
plt.rcParams["figure.figsize"] = (10, 5)

In [None]:
# Definición de rutas base
DATA_DIR = Path("data")
RAW_DATA_DIR = DATA_DIR / "raw"
PROCESSED_DATA_DIR = DATA_DIR / "processed"

# Definición de rutas de archivo generado en Avance 1
ANUAL_FILE = PROCESSED_DATA_DIR / "df_master_jalisco_aguacate_1980_2024.csv"

# Definición de rutas de archivo externo para hacer la estimación mensual
USITC_FILE = RAW_DATA_DIR / "usitc" / "usitc_imports_avocado_monthly.csv"

### <a class="anchor" id="desagregacion">3. Desagregación temporal de oferta productiva</a>

Esta sección presenta la metodología y el procedimiento empleados para desagregar la producción anual de aguacate a una frecuencia mensual, preservando los totales anuales y utilizando un indicador externo de mayor granularidad temporal.

#### Motivación y justificación metodológica

La información productiva disponible para el cultivo de aguacate en el estado de Jalisco se encuentra principalmente agregada a nivel anual, lo cual limita el análisis de dinámicas intra–anuales y la aplicación de modelos de series de tiempo que se benefician de una mayor granularidad temporal. Sin embargo, el objetivo del proyecto es modelar y analizar la evolución temporal de la oferta productiva, por lo que resulta conveniente contar con una aproximación mensual de dicha variable.

Dado que no se dispone de registros oficiales de producción mensual a nivel estatal, se adopta una estrategia de desagregación temporal que permite distribuir la producción anual en una serie mensual, preservando los totales anuales originales. Esta aproximación es común en estudios económicos y agrícolas cuando existen series de baja frecuencia para la variable de interés, pero se cuenta con indicadores auxiliares de mayor frecuencia que reflejan su comportamiento temporal.

#### Fuente del indicador

Como indicador auxiliar para la desagregación temporal se emplea información mensual de importaciones de aguacate de origen mexicano hacia Estados Unidos, obtenida del sistema de comercio internacional de la U.S. International Trade Commission (USITC)[[3](#ref3)]. Este indicador se selecciona debido a la alta correlación esperada entre los volúmenes exportados y la dinámica productiva nacional, considerando que México es el principal proveedor de aguacate al mercado estadounidense.

Si bien las importaciones reportadas no corresponden exclusivamente al estado de Jalisco, los principales estados productores y exportadores de aguacate (particularmente Jalisco y Michoacán) presentan condiciones agroclimáticas similares y ciclos productivos comparables. En este contexto, el indicador se utiliza únicamente en términos relativos, es decir, para capturar la distribución temporal mensual (% de participación por mes), y no como una medida directa del nivel de producción estatal.

#### Metodología de desagregación temporal (Denton proporcional)

La desagregación temporal de la serie anual de producción se realiza mediante un enfoque de tipo Denton proporcional en su variante de preservación de totales, una técnica ampliamente utilizada para distribuir series de baja frecuencia en series de mayor frecuencia utilizando un indicador externo. Este método permite preservar los totales anuales observados, al mismo tiempo que incorpora la estructura temporal del indicador mensual seleccionado.

En particular, la producción anual de aguacate se distribuye a nivel mensual de acuerdo con la participación relativa de cada mes en el indicador de importaciones, garantizando que la suma de los valores mensuales reproduzca exactamente el valor anual original. Esta estrategia corresponde a una forma pragmática de temporal disaggregation using indicators, adecuada cuando el objetivo principal es obtener una aproximación consistente de la dinámica intra–anual sin introducir supuestos adicionales sobre el nivel absoluto de la variable desagregada.

#### Construcción del dataset mensual

A partir del conjunto de datos anual consolidado, se construye un dataset de frecuencia mensual mediante la aplicación del esquema de desagregación temporal descrito en la sección anterior. Para ello, cada observación anual de producción se expande en doce registros mensuales, incorporando explícitamente la variable Mes y manteniendo las dimensiones originales del conjunto de datos, como el año y la modalidad de producción.

El proceso consiste en asignar a cada mes una fracción del volumen anual total, determinada por la participación relativa mensual del indicador externo. De esta manera, se obtiene una serie mensual de producción que reproduce exactamente los totales anuales originales y que refleja la estacionalidad implícita en el comportamiento del comercio exterior. Con fines de trazabilidad, las observaciones resultantes se identifican como datos estimados y se distingue explícitamente la frecuencia temporal de la información.

In [None]:
# Cargar datos anuales procesados
df_master_anual = pd.read_csv(ANUAL_FILE, encoding="utf-8-sig")
df_master_anual.shape

In [None]:
# Mostrar las primeras filas del DataFrame
df_master_anual.head()

In [None]:
# Mostrar información del DataFrame
df_master_anual.info()

In [None]:
# Cargar datos del USITC
df_indicador_raw = pd.read_csv(USITC_FILE, encoding="utf-8-sig")
df_indicador_raw.shape

In [None]:
# Mostrar las primeras filas del DataFrame
df_indicador_raw.head()

In [None]:
# Mostrar información del DataFrame
df_indicador_raw.info()

In [None]:
# Normalizar el indicador mensual para obtener participaciones relativas por año
df_indicador = (
    df_indicador_raw
    .rename(columns={
        "Year": "Anio",
        "Month": "Mes",
        "General First Unit of Quantity": "Volumen_importado"
    })
    [["Anio", "Mes", "Volumen_importado"]]
)

# Asegurar tipos
df_indicador["Anio"] = df_indicador["Anio"].astype(int)
df_indicador["Mes"] = df_indicador["Mes"].astype(int)
df_indicador["Volumen_importado"] = pd.to_numeric(
    df_indicador["Volumen_importado"],
    errors="coerce"
)

# Revisar el DataFrame final
df_indicador.info()

**`NOTA`**: Debido a la cobertura mensual incompleta del indicador en los primeros años disponibles, la desagregación temporal se aplica únicamente a los años con información mensual completa. En consecuencia, el análisis mensual se realiza a partir de **`1996`**, mientras que los años previos se conservan exclusivamente a nivel anual como referencia histórica.

In [None]:
# Definir año de inicio para análisis mensual
START_YEAR_MENSUAL = 1996

df_indicador = df_indicador[df_indicador["Anio"] >= START_YEAR_MENSUAL].copy()

# Checar años con cobertura mensual completa
valid_years = (
    df_indicador
    .groupby("Anio")["Mes"]
    .nunique()
    .loc[lambda x: x == 12]
    .index
)

df_indicador = df_indicador[df_indicador["Anio"].isin(valid_years)]

In [None]:
# Cálculo de Denton Proporcional en su variante de preservación de totales para desagregar series temporales

# Calcular participación mensual por año
df_indicador["share_mes"] = (
    df_indicador
    .groupby("Anio")["Volumen_importado"]
    .transform(lambda x: x / x.sum())
)

# Validación rápida: la suma por año debe ser 1
(
    df_indicador
    .groupby("Anio")["share_mes"]
    .sum()
    .describe()
)

In [None]:
# Filtrar df_master_anual para años con datos mensuales completos
df_master_anual_mensual = (
    df_master_anual
    [df_master_anual["Anio"].isin(valid_years)]
    .copy()
)

# Merge anual × mensual (por año)
df_mensual_raw = (
    df_master_anual_mensual
    .merge(
        df_indicador[["Anio", "Mes", "share_mes"]],
        on="Anio",
        how="inner"
    )
)

# Mostrar las primeras filas del DataFrame
df_mensual_raw.head()

In [None]:
# Deasignación mensual de las variables anuales
df_mensual_raw["Volumenproduccion"] = (
    df_mensual_raw["Volumenproduccion"] * df_mensual_raw["share_mes"]
)

In [None]:
# 
df_mensual_raw["Frecuencia"] = "Mensual"
df_mensual_raw["TipoDato"] = "Estimado"

# Ordenar para legibilidad
df_master_mensual = df_mensual_raw.sort_values(
    ["Anio", "Mes", "Nommodalidad"]
).reset_index(drop=True)

df_master_mensual.head(12)

In [None]:
# Reagregar mensual -> anual
check_totals = (
    df_master_mensual
    .groupby(["Anio", "Nommodalidad"], as_index=False)["Volumenproduccion"]
    .sum()
    .merge(
        df_master_anual_mensual,
        on=["Anio", "Nommodalidad"],
        suffixes=("_mensual", "_anual")
    )
)

check_totals["diff"] = (
    check_totals["Volumenproduccion_mensual"]
    - check_totals["Volumenproduccion_anual"]
)

check_totals["diff"].describe()

In [None]:
# Verificar información del DataFrame final
df_master_mensual.info()

**`NOTA`**: La serie mensual obtenida mediante este procedimiento debe interpretarse como una aproximación estimada de la dinámica temporal de la producción, utilizada con fines analíticos y de modelado, y no como una medición directa de producción observada a nivel mensual.

#### Validaciones y consistencia temporal

En esta sección se realizan validaciones cuantitativas y visuales para verificar la consistencia, coherencia y calidad de la serie mensual estimada a partir del proceso de desagregación temporal.

##### Preservación de totales anuales

Se verifica que la agregación de la serie mensual reproduzca exactamente los valores anuales originales de producción, condición fundamental del método de desagregación empleado.

In [None]:
# Agregar mensual -> anual
df_mensual_agregado = (
    df_master_mensual
    .groupby("Anio", as_index=False)["Volumenproduccion"]
    .sum()
    .rename(columns={"Volumenproduccion": "Volumen_mensual_agregado"})
)

# Filtrar anual al mismo rango temporal
df_anual_comp = (
    df_master_anual
    [df_master_anual["Anio"] >= 1996]
    .groupby("Anio", as_index=False)["Volumenproduccion"]
    .sum()
    .rename(columns={"Volumenproduccion": "Volumen_anual_observado"})
)

# Unir para comparación
df_check = df_anual_comp.merge(
    df_mensual_agregado,
    on="Anio",
    how="inner"
)

df_check.head()

In [None]:
# Gráfica de validación
plt.figure()
plt.plot(df_check["Anio"], df_check["Volumen_anual_observado"], label="Anual observado")
plt.plot(df_check["Anio"], df_check["Volumen_mensual_agregado"], label="Mensual agregado")
plt.xlabel("Año")
plt.ylabel("Volumen de producción")
plt.title("Preservación de totales anuales (validación Denton)")
plt.legend()
plt.show()

##### Estacionalidad mensual promedio

Se analiza la distribución promedio de la producción a lo largo del año con el fin de identificar patrones estacionales implícitos y validar que la estructura temporal resultante sea razonable.

In [None]:
# Calcular estacionalidad promedio
df_estacionalidad = (
    df_master_mensual
    .groupby("Mes", as_index=False)["share_mes"]
    .mean()
)

df_estacionalidad

In [None]:
# Gráfica de estacionalidad mensual promedio
plt.figure()
plt.bar(df_estacionalidad["Mes"], df_estacionalidad["share_mes"])
plt.xlabel("Mes")
plt.ylabel("Participación promedio mensual")
plt.title("Estacionalidad mensual promedio (indicador)")
plt.xticks(range(1, 13))
plt.show()

##### Revisión visual de la serie mensual completa

Se examina la serie mensual completa mediante visualización gráfica para detectar posibles discontinuidades, valores atípicos o comportamientos anómalos derivados del proceso de estimación.

In [None]:
# Crear columna de fecha para graficar
df_master_mensual["Fecha"] = pd.to_datetime(
    dict(year=df_master_mensual["Anio"], month=df_master_mensual["Mes"], day=1)
)

# Agregar por mes (si hay modalidad)
df_mensual_total = (
    df_master_mensual
    .groupby("Fecha", as_index=False)["Volumenproduccion"]
    .sum()
)

In [None]:
# Gráfica de la serie mensual estimada
plt.figure()
plt.plot(df_mensual_total["Fecha"], df_mensual_total["Volumenproduccion"])
plt.xlabel("Fecha")
plt.ylabel("Volumen de producción")
plt.title("Serie mensual estimada de la oferta productiva de aguacate")
plt.show()

### <a class="anchor" id="exportacion">4. Exportación de conjunto de datos</a>

Una vez concluida la etapa de integración y homologación de datos, el conjunto de datos resultante se exporta para su reutilización en las etapas posteriores de análisis exploratorio, ingeniería de características y modelado.

In [None]:
# Guardar DataFrame mensual maestro a CSV
df_master_mensual.to_csv(
    PROCESSED_DATA_DIR / "df_master_estimacion_mensual_jalisco_aguacate_1996_2024.csv",
    index=False
)

### <a class="anchor" id="ingenieria">5. Preparación de los datos e ingeniería de características</a>

En esta sección se documentan las decisiones metodológicas orientadas a transformar el conjunto de datos mensual en una representación adecuada para el modelado predictivo, incluyendo la depuración de variables, la generación de nuevas características y la aplicación de transformaciones estadísticas. El objetivo es mejorar la calidad, interpretabilidad y utilidad del dataset sin introducir sesgos o filtraciones de información hacia la variable objetivo.

#### Revisión estructural del dataset mensual

Se realiza una inspección general de la estructura del conjunto de datos mensual, incluyendo tipos de variables, dimensiones, frecuencia temporal y consistencia interna, con el fin de identificar diferencias relevantes respecto al dataset anual y establecer una base clara para las transformaciones posteriores.

In [None]:
# Vista inicial del dataset mensual
df = pd.read_csv(PROCESSED_DATA_DIR / "df_master_estimacion_mensual_jalisco_aguacate_1996_2024.csv")
df.head()

In [None]:
# Porcentaje de valores faltantes
num_rows = df.shape[0]
print("Valores nulos:\n")

for col in df.columns:
    na = ((df[col].notna().count() - num_rows) * 100) / num_rows
    print(f'{col}: {na}')

Para este dataset no se cuentan con datos faltantes en ninguna columna, lo cual es de mucha ayuda para ahorrarnos el proceso de imputar datos o deshacernos de columnas severamente dañadas.

In [None]:
# Información estructural del dataset
df.info()

En nuestro dataset se puede observar que en su mayoría está compuesto por variables numéricas, siendo `Anio` y `Mes`, las únicas columnas con valores numéricos enteros, mientras que el resto son valores con decimales. La columna `Nommodalidad` es la principal variable categórica del conjunto de datos, acompañada por variables descriptivas adicionales como `Frecuencia` y `TipoDato`.

In [None]:
# Estadísticas descriptivas de variables numéricas
df.describe().T

En las estadísticas generales de las variables numéricas, se puede observar que la variable `Siniestrada` solo tiene valores de 0, ya que tanto su mínimo como su máximo tienen el mismo valor de 0, lo que indica que en nuestro dataset no existen registros que contemplen cantidad de territorio dañado. Por esto mismo es que se eliminará esta variable por no aportar ningún valor a nuestro dataset.

Eso lo haremos en la siguiente sección.

#### Selección y depuración de variables

En esta etapa se realiza la selección y depuración de variables con el objetivo de conservar únicamente aquellas características que aportan información relevante para el modelado de la oferta productiva, evitando redundancias y posibles fugas de información hacia la variable objetivo.

Dado que el objetivo del proyecto es estimar el volumen de producción, se eliminan variables monetarias y derivadas que podrían introducir dependencia directa con la variable objetivo o no ser observables de forma exógena en un escenario real de predicción. Asimismo, se descartan variables administrativas o descriptivas que no aportan valor explicativo al proceso de modelado.

**Variables a eliminar:**

* `Valorproduccion`
  * Derivada directamente de `Volumenproduccion × Precio`.
* `Precio`
  * Variable monetaria, no determinante directa de la oferta física.
* `Siniestrada`
  * No presenta variabilidad (siempre es cero).
* `TipoDato`, `Frecuencia`
  * Metadatos del proceso de construcción del dataset.
* `share_mes`
  * Variable instrumental usada solo para la desagregación temporal.
* `Fecha`
  * Puede reconstruirse a partir de `Anio` y `Mes`.

In [None]:
# Copia del dataset para features engineering
df_fe = df.copy()

# Variables a eliminar
cols_to_drop = [
    "Valorproduccion",
    "Precio",
    "Siniestrada",
    "TipoDato",
    "Frecuencia",
    "share_mes"
]

# Eliminar columnas existentes
df_fe = df_fe.drop(columns=[c for c in cols_to_drop if c in df_fe.columns])

df_fe.info()

Tras la depuración, el conjunto de datos conserva únicamente variables productivas, temporales y categóricas directamente relacionadas con la dinámica de la oferta, reduciendo el riesgo de fuga de información y mejorando la interpretabilidad y robustez de los modelos a implementar.

Estas decisiones se alinean con un escenario realista de predicción, donde variables monetarias o agregadas ex post no estarían disponibles al momento de estimar la producción futura.

#### Tranformaciones de variables numéricas

Se aplican transformaciones estadísticas a las variables numéricas con el fin de reducir asimetrías, estabilizar la varianza y facilitar el aprendizaje de los modelos, retomando criterios identificados en el análisis exploratorio previo y adaptándolos al contexto de la serie mensual estimada.

In [None]:
# Código

#### Codificación y variables temporales

Las variables categóricas y temporales se transforman a representaciones numéricas adecuadas para su uso en modelos de aprendizaje automático y series de tiempo, incorporando información explícita sobre modalidad de producción y estacionalidad mensual.

In [None]:
# Código

#### Escalamiento / normalización

Se aplica el escalamiento de las variables numéricas en una versión paralela del dataset, con el objetivo de facilitar su uso en modelos sensibles a la magnitud de las variables, manteniendo al mismo tiempo una versión no escalada para técnicas que no requieren normalización.

In [None]:
# Código

### <a class="anchor" id="reduccion">6. Selección y reducción de características</a>

Texto sección

xxxx

In [None]:
# Codigo

## <a class="anchor" id="conclusiones">Conclusiones</a>

Pendiente

## <a class="anchor" id="ref">Referencias</a>

[<a class="anchor" id="ref1">1</a>] Secretaría de Agricultura y Desarrollo Rural, “Cierre agrícola,” *AGRICULTURA*, s.f. [En línea].
Disponible en: https://nube.agricultura.gob.mx/cierre_agricola/. Accedido: 26-ene.-2026.

[<a class="anchor" id="ref2">2</a>] Secretaría de Agricultura y Desarrollo Rural, “Datos abiertos del sector agrícola,” *AGRICULTURA*, s.f.
[En línea]. Disponible en: https://nube.agricultura.gob.mx/datosAbiertos/Agricola.php. Accedido: 26-
ene.-2026.

[<a class="anchor" id="ref3">3</a>] United States International Trade Commission (USITC), “DataWeb: Importaciones generales por HTS,” *USITC*, s. f. [En línea]. Disponible en: https://dataweb.usitc.gov/trade/search/GenImp/HTS. Accedido: 28-ene.-2026.

[<a class="anchor" id="ref4">4</a>]  *S. Galli, Python Feature Engineering Cookbook: Over 70 recipes for creating, engineering, and transforming features to build machine learning models*, 2nd ed. Birmingham, UK: Packt Publishing, 2022.