# Reporte de problemas fitosanitarios en plantaciones de agave
--------------------

## Equipo 36

| Nombre | Matrícula |
| ------ | --------- |
| André Martins Cordebello | A00572928 |
| Enrique Eduardo Solís Da Costa | A00572678 |
| Delbert Francisco Custodio Vargas | A01795613 |

## Avance 2: Feature engineering

- Crear nuevas características para mejorar el rendimiento de los modelos.
- Mitigar el riesgo de características sesgadas y acelerar la convergencia de algunos algoritmos.

# Feature Engineering

## EDA

Durante el avance 1 fue posible comprender ciertos comportamientos de nuestro dataset, así como la selección de columnas que sí aportaban información para entender de mejor manera las características de infección de gorgojos del agave en predios del mismo.

Con esto, usando como base los datasets compartidos por la CNIT fue posible obtener el dataset llamada `all_historic_captures.xlsx`, el cual contiene información del 2014 a Agosto de 2025 sobre el nivel de incidencia o infección encontrado  en predios de agave. Estas muestras se obtuvieron con base a las condiciones definidas en el **Manual Operativo de la campaña contra plagas reglamentadas del Agave**, disponible en https://www.gob.mx/cms/uploads/attachment/file/234136/Manual_Operativo_de_la_campa_a_contra_plagas_reglamentadas_del_agave_2017.compressed.pdf, lo cual fue confirmado por nuestro Sponsor (CNIT).

Por lo anterior, el objetivo principal de este proyecto integrador es el desarrollo de un ChatBot el cual:

- Pueda recibir reportes que incluyan ubicación, breve descripción de lo encontrado, fotografías y clasificación de riesgo de parte del cuerpo técnico y ciudadanía en general.
- Este ChatBot también debe tener la capacidad de responder y alertar a los usuarios sobre focos de infección reportados o confirmados en las cercanías.

La recepción de esta información es importante ya que permitirá tomar decisiones sobre lo que las brigadas de desinfección deben atacar primero.

Por lo anterior, durante nuestro EDA (análisis exploratorio) encontramos los siguientes hallazgos:

- La captura de gorgojos del agave en las trampas tiende a aumentar en épocas lluviosas.
- Los focos de infección severos y moderados tienen una dispersión geográfica menor.
- No es normal encontrar predios de más de 8 años de antiguedad, lo que nos da una idea de cuáles predios podrían estar posiblemente abandonados.
- La mayor densidad de trampas se encuentra en el estado de Jalisco.
- No es normal encontrar focos severos de infección, pero la presencia de éstos aumenta en la época lluviosa. Es posible confirmar que los casos severos de infección son casos atípicos, ya que el valor del percentil 95 se encuentra en 17.5 capturas por trampa.
- Durante la pandemia (2020 a 2024 aproximadamente), el muestreo de las trampas colocados no fue tan constante como en años posteriores o previos a la pandemia. Esto causa un efecto de sesgo en nuestro dataset.


Y al transformar un poco nuestro dataset obtuvimos estas columnas finales:

| Feature  | Tipo | Notas |
| -------  | ---- | ----- |
| tramp_id | object | Es el ID único que se le da a la trampa al colocarse en alguna parcela o predio. Una misma trampa puede colocarse en distintos predios, pero la identificación de la misma cambia acorde a dónde se colocó. |
| sampling_date | datetime64[ns] | Es la fecha en la que se llevó a cabo el conteo de cadáveres de gorgojo en la trampa.|
| lat y lon | float64 | La `latitud` y `longitud` permiten conocer la ubicación de donde se llevó a cabo el muestreo. |
| municipality | object | Municipio al que pertenecía la trampa al momento de hacer el muestreo. |
| square_area | float64 | Area que cubre el predio donde se colocó la trampa. |
| plantation_age | float64 | Años que una plantación de agave tiene desde la última purga. |
| capture_count | float64 | Cantidad de gorgojos del agave encontrados dentro de la trampa. |
| state | object | Estado de México donde se encontraba la trampa colocada. |
| severity | object | lLa severidad de la infestación encontrada durante el muestreo. Estos niveles fueron definidos por la SICAFI.|
| Month | int32 | Mes en que se llevó a cabo el muestreo de la trampa. |
| Year | int32 | Año en que se llevó a cabo el muestreo de la trampa. |
| MonthName | object | Nombre del   mes en que se llevó a cabo el muestreo de la trampa. |
| MonthYear | datetime64[ns] |  Combinación del año y mes en que se llevó a cabo el muestreo de la trampa. Esta ya es una característica creada a partir de otras columnas del Dataset. |

Con esto, estaremos trabajando la ingeniería de característiscas con base en estas columnas.

### Librerías  a importar

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from datetime import datetime
import os


plt.style.use('seaborn-v0_8-whitegrid')
sns.set_palette("Set2")
plt.rcParams['figure.figsize'] = (12, 8)
plt.rcParams['font.size'] = 12

### Características generales del dataset final

In [2]:
# Carga de dataset
all_historic_captures_df = pd.read_excel( "all_historic_captures.xlsx", sheet_name="historic_captures", header= 0)

In [3]:
# Eliminamos las columnas que usamos para llevar a cabo una mejor comprensión en el EDA,
# esto porque debemos decidir más adelante si serán necesarias para nuestro proceso de FE.
all_historic_captures_df.drop(labels=['Month', 'Year', 'MonthName', 'MonthYear', 'plantation_age_group', 'surface_group', 'no_area'],axis=1, inplace=True)

all_historic_captures_df.head(5)

Unnamed: 0,tramp_id,sampling_date,lat,lon,municipality,square_area,plantation_age,capture_count,state,severity
0,146_THUE13-11-023-0637T01,2022-07-21,20.401984,-101.702729,PÉNJAMO,1.75,0,8.0,GUANAJUATO,1-25
1,146_THUE13-11-023-0637T01,2022-04-19,20.401984,-101.702729,PÉNJAMO,1.75,0,5.0,GUANAJUATO,1-25
2,146_THUE13-11-023-0637T01,2022-02-25,20.401984,-101.702729,PÉNJAMO,1.75,0,5.0,GUANAJUATO,1-25
3,146_THUE13-11-023-0637T01,2022-02-14,20.401984,-101.702729,PÉNJAMO,1.75,0,4.0,GUANAJUATO,1-25
4,146_THUE13-11-023-0637T01,2022-05-18,20.401984,-101.702729,PÉNJAMO,1.75,0,6.0,GUANAJUATO,1-25


In [4]:
all_historic_captures_df.describe(include='number').T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
lat,827856.0,20.642391,0.728798,18.987685,20.161786,20.597498,20.884595,23.439659
lon,827856.0,-102.755748,1.30121,-114.108837,-103.721093,-102.65035,-102.184024,-98.662612
square_area,827856.0,5.020235,13.905933,0.0,0.0,0.51,3.9355,787.82
plantation_age,827856.0,2.428498,1.825808,0.0,1.0,2.0,4.0,19.0
capture_count,827856.0,4.264352,8.156295,0.0,0.0,2.0,5.0,427.0


In [5]:
all_historic_captures_df.describe(exclude='number').T

Unnamed: 0,count,unique,top,freq,mean,min,25%,50%,75%,max
tramp_id,827856.0,84063.0,716.0,125.0,,,,,,
sampling_date,827856.0,,,,2018-12-29 19:19:48.102277888,2014-01-01 00:00:00,2016-05-19 00:00:00,2017-11-10 00:00:00,2021-12-28 00:00:00,2025-08-31 00:00:00
municipality,827856.0,149.0,ARANDAS,61191.0,,,,,,
state,827856.0,6.0,JALISCO,442628.0,,,,,,
severity,827856.0,4.0,1-25,518659.0,,,,,,


In [6]:
all_historic_captures_df.isna().sum() / len(all_historic_captures_df) * 100

tramp_id          0.0
sampling_date     0.0
lat               0.0
lon               0.0
municipality      0.0
square_area       0.0
plantation_age    0.0
capture_count     0.0
state             0.0
severity          0.0
dtype: float64

### `Feature engineering` sobre `square_area`

Al revisar nuevamente los valores de `square_area` (o `Superficie (ha)` originalmente), es posible notar que casi el 48% de éstos es igual a `0.00`. Esto, como discutimos con anterioridad, indica que durante el proceso de muestreo de años previos a 2024 y 2025 no hubo un control de calidad para mitigar la falta de información en esta columna. Esto fue confirmado por nuestro Sponsor.

Pero como consideramos que esta información es importante, hemos decidido trabajar la siguiente estrategia de imputación:

- Reducir la cantidad de valores `0.00` por medio del `ID de cada trampa`. Como el ID de la trampa está en función del predio muestreado, es posible asumir que con que un ID de trampa contenga información del área, esta se puede replicar a las demás instancias de ese mismo ID de trampa en el tiempo.

- Luego de esto, usaremos un algoritmo conocido como K-NN (K nearest neighbour) para verificar cuales trampas con un registro de superficie distinto a `0.00` se encuentran cerca de otras trampas con un área distinta a `0.00`. La distancia entre éstas trampas debe ser de un mínimo de 100m hasta 500m en época de jima según el manual de operación.

- Después de usar K-NN, haremos uso también de `RadiusNeighborsRegressor`, el cual toma en cuenta la distancia entre los puntos para asumir si se encuentran cerca o no. 

- Por último, analizaremos cuántos registros quedan pendientes aún de tener un valor distinto a `0.00` y decidiremos más adelante qué hacer con ellos.

In [27]:
df = all_historic_captures_df

print(f"Trampas registradas con área mayor a 0.00: { (df['square_area'] > 0 ).sum()}")
print(f"Trampas registradas con área igual a 0.00: { (df['square_area'] == 0 ).sum()}")


Trampas registradas con área mayor a 0.00: 428434
Trampas registradas con área igual a 0.00: 399422


##### Usando el ID de trampa para llenar valores vacíos

In [33]:
def get_nearest_temporal_area_group(group_to_verify):

    # Casteamos datetime sobre sampling_date (fecha de muestreo)
    group = group_to_verify.copy()
    group['sampling_date_dt'] = pd.to_datetime(group['sampling_date'])
    
    # Tomamos solo las areas mayores a 0.00
    areas_known = group.loc[group['square_area'] > 0.00, ['sampling_date_dt', 'square_area']]
    if areas_known.empty:
        return pd.Series(np.nan, index=group.index)
    
    # Calculamos la diferencia de tiempo en dias
    diffs = np.abs(
        group['sampling_date_dt'].values[:, None] - areas_known['sampling_date_dt'].values[None, :]
    )
    
    # Tomamos la muestra con menor tiempo en comparación con la fecha que estamos revisando
    idxmin = diffs.argmin(axis=1)
    
    return pd.Series(areas_known['square_area'].iloc[idxmin].values, index=group.index)


# Generamos una copia de  la columna square_area
df['square_area_imputed'] = df['square_area'].copy()

# Generamos la columna de imputation_method: con lo siguiente:
# Si el area es mayor a 0.00, entonces colocamos 'original'
# Si el area es menor a 0.00, la marcamos para insertar valores
df['imputation_method'] = np.where(df['square_area'] > 0, 'original', 'none')

# Generamos una máscara para el dataframe
mask = df['square_area'] == 0

# Usamos la función para encontrar el area más próxuna a cada tramp_id con area 0.00
nearest_values = (
    df.groupby('tramp_id', group_keys=False)
      .apply(get_nearest_temporal_area_group)
)

# Insertamos los valores al dataframe original 
# Insertamos la forma en que se llenó la informacion del area
df.loc[mask, 'square_area_imputed'] = nearest_values[mask]
df.loc[mask & nearest_values.notna(), 'imputation_method'] = 'same_trap_id_temporal'

rows_affected = df[ df['imputation_method'] == 'same_trap_id_temporal']
print(f"Se llenaron { len(rows_affected) } registros usando el mismo ID de la trampa en el tiempo.")

Se llenaron 79287 registros usando nearest temporal area.


##### Ahora usaremos KNN para rellenar el resto de información

- `original`: son todas los registros de area que originalmente son distintos a 0.00
- `none`: son los registros que aún no hemos imputado
- `samte_trap_id_temporal`: son los registros que tienen un valor imputado en la columna `square_area_imputed` por medio de usar el `trap_id` y verificar la muestra más cercana en el tiempo que tenga area mayor a 0.00.

In [38]:
from sklearn.neighbors import KNeighborsRegressor
from sklearn.neighbors import RadiusNeighborsRegressor
import warnings

print("\nOrigen de los valores de la columna square_area_imputed:")
print(df['imputation_method'].value_counts())

# Ignoraremos warnings
warnings.filterwarnings('ignore')

# No debemos  sobre-escribir lo que ya imputamos anterioremente
# Entonces usaremos esos indexes como mascara
train_mask = df['imputation_method'].isin(['original', 'same_trap_id_temporal'])

# Tomamos los indexes que ya sabemos que en teoría están bien
X_train = df[train_mask][['lat', 'lon']].values
y_train = df[train_mask]['square_area_imputed'].values

# Nuestro test serán los registros de los que sabemos que tienen 0.00 en square_area
# y que no han sido imputados por el paso previo.
test_mask = df['imputation_method'] == 'none'
X_test = df[test_mask][['lat', 'lon']].values

print(f"Registros a predecir su quare_area: {len(X_test):,}")


Origen de los valores de la columna square_area_imputed:
imputation_method
original                 428434
none                     320135
same_trap_id_temporal     79287
Name: count, dtype: int64
Registros a predecir su quare_area: 320,135


In [39]:
# Usaremos Harversine para tomar en cuenta la curvatura de la tierra en la distancia que usemos para conocer cuales trampas están
# cerca unas de otras, y se necesita que las longitudes y latitudes estén en radianes
X_train_rad = np.radians(X_train)
X_test_rad = np.radians(X_test)


# Modelo 1: 4 trampas mas cercanas
knn_1 = KNeighborsRegressor(
    n_neighbors=4,
    weights='distance',
    metric='haversine',
    n_jobs=-1
)

knn_1.fit(X_train_rad, y_train)
predictions_1 = knn_1.predict(X_test_rad)

# Modelo 2: 5 trampas mas cercanas
knn_2 = KNeighborsRegressor(
    n_neighbors=5,
    weights='distance',
    metric='haversine',
    n_jobs=-1
)

knn_2.fit(X_train_rad, y_train)
predictions_2 = knn_2.predict(X_test_rad)

También entrenamos el modelo `RadiusNeighborsRegressor`.

In [40]:
# Modelo 3: las trampas contenidas en 500m a la redonda
knn_3 = RadiusNeighborsRegressor(
    radius = 0.250/6378, # 500 metros dentro de 6378 km del radio de la tierra
    weights='distance',
    metric='haversine' 
)

knn_3.fit(X_train_rad, y_train)
predictions_3 = knn_3.predict(X_test_rad)

In [41]:
def print_descriptive_stats_for_knn_model( title, preds ):
    
    print('='*70)
    print(f"{title}")
    print('='*70)
    print(f"Promedio: {np.nanmean(preds)}")
    print(f"Mediana: {np.nanmedian(preds)}")
    print(f"Desviacion estandar: {np.nanstd(preds)}")
    print(f"Valor maximo: {np.nanmax(preds)}")
    print(f"Valor mínimo: {np.nanmin(preds)}")
    print(f"Cantidad de trampas sin área registrada: {np.isnan(preds).sum()}\n")

print_descriptive_stats_for_knn_model('Estadísticas para el modelo #1 sobre el area:', predictions_1)
print_descriptive_stats_for_knn_model('Estadísticas para el modelo #2 sobre el area:', predictions_2)
print_descriptive_stats_for_knn_model('Estadísticas para el modelo #3 sobre el area:', predictions_3)

already_imputed_mask = df['imputation_method'].isin(['original', 'same_trap_id_temporal'])
print_descriptive_stats_for_knn_model('Estadísticas de los datos originales con area mayor a 0.00:', df[already_imputed_mask][df['square_area'] > 0.00000].square_area)

Estadísticas para el modelo #1 sobre el area:
Promedio: 11.716221848897428
Mediana: 5.933797917355816
Desviacion estandar: 16.74506939865329
Valor maximo: 294.428330125542
Valor mínimo: 0.0384
Cantidad de trampas sin área registrada: 0

Estadísticas para el modelo #2 sobre el area:
Promedio: 11.719764276551983
Mediana: 5.999999999999999
Desviacion estandar: 16.65718356129089
Valor maximo: 289.0736297284621
Valor mínimo: 0.041383444025189134
Cantidad de trampas sin área registrada: 0

Estadísticas para el modelo #3 sobre el area:
Promedio: 9.640752701065155
Mediana: 4.940517107486462
Desviacion estandar: 13.89220421396947
Valor maximo: 300.00000000000006
Valor mínimo: 0.15000000000000002
Cantidad de trampas sin área registrada: 57837

Estadísticas de los datos originales con area mayor a 0.00:
Promedio: 9.700518487656419
Mediana: 3.7473
Desviacion estandar: 18.117772785301234
Valor maximo: 787.82
Valor mínimo: 0.00469999993219971
Cantidad de trampas sin área registrada: 0



#### Justificación sobre uso de modelos #2 y #3 en conjunto

**Colocar justificacion aquí**

In [42]:
test_indices = df[test_mask].index

# Creamos otra máscara para insertar valores predecidos por los modelos #2 y #3
# Como el modelo #3 es el que tiene las características descriptivas más parecidas a los valores originales,
# usaremos ese de primero para insertar valores.
model3_valid_mask = ~np.isnan(predictions_3)
model3_nan_mask = np.isnan(predictions_3)

df.loc[test_indices[model3_valid_mask], 'square_area_imputed'] = predictions_3[model3_valid_mask]
df.loc[test_indices[model3_valid_mask], 'imputation_method'] = 'knn_radius'

# Luego insertaremos las predicciones hechas con el modelo KNN con 4 vecinos
df.loc[test_indices[model3_nan_mask], 'square_area_imputed'] = predictions_2[model3_nan_mask]
df.loc[test_indices[model3_nan_mask], 'imputation_method'] = 'knn_5'

# Imprimimos cuántos valores NaN o None nos quedan por rellenar aun
remaining_nan = df['square_area_imputed'].isna().sum()
remaining_none = (df['imputation_method'] == 'none').sum()

print(f"Valores NaN en square_area_imputed: {remaining_nan}")
print(f"Registros con método 'none': {remaining_none}")

if remaining_nan == 0 and remaining_none == 0:
    print("Todos los valores se han rellenado.")
else:
    print("\nSe deben rellenar aún más valores.\n\n")
    
df['imputation_method'].value_counts()

Valores NaN en square_area_imputed: 0
Registros con método 'none': 0
Todos los valores se han rellenado.


imputation_method
original                 428434
knn_radius               262298
same_trap_id_temporal     79287
knn_5                     57837
Name: count, dtype: int64

# Feature engineering