
Pipeline completo para la predicción del crecimiento de datos de biodiversidad en GBIF.

Este script implementa el flujo de trabajo de principio a fin para modelar datos de panel
de series temporales, incluyendo:
1.  Carga y limpieza de datos.
2.  Ingeniería de características temporales (lags y ventanas móviles).
3.  Un marco de validación cruzada robusto para series de tiempo (ventana expansiva).
4.  Preprocesamiento (imputación y escalado) dentro del bucle de validación para evitar fuga de datos.
5.  Entrenamiento y evaluación comparativa de cuatro modelos:
    - SARIMAX (línea base estadística, ajustado por país).
    - Random Forest.
    - XGBoost.
    - Red Neuronal LSTM (para modelado secuencial).
6.  Selección del mejor modelo basado en métricas de rendimiento (MAE, RMSE, R²).
7.  Reentrenamiento del modelo final y generación de pronósticos para Colombia hasta 2030
    bajo dos escenarios de políticas.

In [None]:
# =============================================================================
# 1. IMPORTACIÓN DE LIBRERÍAS Y CONFIGURACIÓN INICIAL
# =============================================================================
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import warnings
from tqdm import tqdm

# Preprocesamiento y modelado de Scikit-Learn
from sklearn.model_selection import TimeSeriesSplit
from sklearn.preprocessing import StandardScaler
from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import IterativeImputer
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, mean_squared_error, r2_score

# Modelos especializados
import xgboost as xgb
from statsmodels.tsa.statespace.sarimax import SARIMAX

# Modelado de Deep Learning con TensorFlow/Keras
import tensorflow as tf
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import LSTM, Dense, Dropout
from tensorflow.keras.callbacks import EarlyStopping

# Configuraciones generales
warnings.filterwarnings('ignore')
sns.set_style("whitegrid")
plt.rcParams['figure.figsize'] = (15, 7)

In [None]:
# =============================================================================
# 2. CARGA Y LIMPIEZA INICIAL DE DATOS
# =============================================================================
print("Paso 1: Cargando y limpiando los datos...")

# Cargar el conjunto de datos
try:
    df = pd.read_csv('Data_final.csv')
except FileNotFoundError:
    print("Error: 'Data_final.csv' no encontrado. Asegúrate de que el archivo esté en el mismo directorio.")
    exit()

# Limpieza básica y selección del marco temporal
df['year'] = pd.to_numeric(df['year'], errors='coerce')
df.dropna(subset=['year'], inplace=True)
df['year'] = df['year'].astype(int)
df = df[(df['year'] >= 2007) & (df['year'] <= 2022)].copy()

# Convertir variables categóricas a numéricas para los modelos
df['gbif_member'] = df['gbif_member'].apply(lambda x: 1 if x == 'Sí' else 0)
df['ogp_membership'] = df['ogp_membership'].apply(lambda x: 1 if x == 'Sí' else 0)

# Rellenar NaNs en la variable objetivo con 0, asumiendo que NaN significa sin publicaciones
df['occurrenceCount_publisher'].fillna(0, inplace=True)

# Ordenar los datos, crucial para el manejo de series de tiempo
df.sort_values(by=['country', 'year'], inplace=True)
df.reset_index(drop=True, inplace=True)

print("Datos cargados y limpiados. Rango de años: 2007-2022.")
print(f"Dimensiones del DataFrame: {df.shape}")

In [None]:
# =============================================================================
# 3. INGENIERÍA DE CARACTERÍSTICAS TEMPORALES
# =============================================================================
print("\nPaso 2: Realizando ingeniería de características temporales...")

def create_temporal_features(data):
    """
    Crea características de retardo (lag) y de ventana móvil para un DataFrame de panel.
    Las operaciones se agrupan por país para evitar la fuga de datos entre series.
    """
    data_copy = data.copy()
    
    # Lista de características para aplicar transformaciones
    features_to_lag =
    
    for feature in features_to_lag:
        # Crear características de retardo (lag)
        data_copy[f'{feature}_lag_1'] = data_copy.groupby('country')[feature].shift(1)
        
        # Crear características de ventana móvil
        data_copy[f'{feature}_rolling_mean_3'] = data_copy.groupby('country')[feature].rolling(window=3, min_periods=1).mean().reset_index(level=0, drop=True)
        data_copy[f'{feature}_rolling_std_3'] = data_copy.groupby('country')[feature].rolling(window=3, min_periods=1).std().reset_index(level=0, drop=True)

    return data_copy

df_featured = create_temporal_features(df)

# Rellenar NaNs generados por las transformaciones iniciales (ej. primer lag)
df_featured.fillna(method='bfill', inplace=True)

print("Ingeniería de características completada.")

In [None]:
# =============================================================================
# 4. PREPARACIÓN PARA EL MODELADO Y VALIDACIÓN
# =============================================================================
print("\nPaso 3: Preparando el marco de validación y los datos para el modelado...")

# Definir variables predictoras (X) y objetivo (y)
TARGET = 'occurrenceCount_publisher'
# Excluir identificadores y variables que podrían causar fuga de datos directa
features =]

X = df_featured[features]
y = df_featured

# Configurar la validación cruzada para series de tiempo
# Se divide por año para mantener la estructura de panel intacta en cada pliegue
unique_years = X['year'].unique()
n_splits = 5 # Usaremos 5 pliegues para la validación
tscv = TimeSeriesSplit(n_splits=n_splits)

# Diccionario para almacenar los resultados de cada modelo
results = {
    'SARIMAX':,
    'RandomForest':,
    'XGBoost':,
    'LSTM':
}

In [None]:
# =============================================================================
# 5. BUCLE DE ENTRENAMIENTO Y EVALUACIÓN DE MODELOS
# =============================================================================
print("\nPaso 4: Iniciando el bucle de entrenamiento y validación de modelos...")

for fold, (train_year_idx, test_year_idx) in enumerate(tscv.split(unique_years)):
    print(f"\n===== FOLD {fold + 1}/{n_splits} =====")
    
    # Identificar los años de entrenamiento y prueba
    train_years = unique_years[train_year_idx]
    test_years = unique_years[test_year_idx]
    print(f"Años de entrenamiento: {train_years.min()} - {train_years.max()}")
    print(f"Años de prueba: {test_years.min()} - {test_years.max()}")

    # Dividir los datos en entrenamiento y prueba según los años
    train_indices = X[X['year'].isin(train_years)].index
    test_indices = X[X['year'].isin(test_years)].index
    
    X_train, X_test = X.loc[train_indices], X.loc[test_indices]
    y_train, y_test = y.loc[train_indices], y.loc[test_indices]

    # --- Preprocesamiento DENTRO del bucle para evitar fuga de datos ---
    # Guardar los nombres de las columnas y los países para después
    X_train_countries = X_train['country']
    X_test_countries = X_test['country']
    X_train_columns = X_train.drop(columns=['country']).columns
    
    # Separar 'country' antes de imputar y escalar
    X_train_numeric = X_train.drop(columns=['country'])
    X_test_numeric = X_test.drop(columns=['country'])

    # Imputación de valores faltantes
    imputer = IterativeImputer(max_iter=10, random_state=42)
    X_train_imputed = imputer.fit_transform(X_train_numeric)
    X_test_imputed = imputer.transform(X_test_numeric)

    # Escalado de características
    scaler = StandardScaler()
    X_train_scaled = scaler.fit_transform(X_train_imputed)
    X_test_scaled = scaler.transform(X_test_imputed)
    
    # Convertir de nuevo a DataFrame para facilidad de uso
    X_train_processed = pd.DataFrame(X_train_scaled, columns=X_train_columns, index=X_train.index)
    X_test_processed = pd.DataFrame(X_test_scaled, columns=X_train_columns, index=X_test.index)
    
    # Añadir de nuevo la columna 'country'
    X_train_processed['country'] = X_train_countries
    X_test_processed['country'] = X_test_countries

    # --- Modelo 1: SARIMAX (Línea Base Estadística) ---
    print("Entrenando SARIMAX...")
    sarimax_preds =
    y_test_sarimax =
    
    # Se ajusta un modelo por cada país en el conjunto de prueba
    for country in tqdm(X_test_processed['country'].unique(), desc="SARIMAX per country"):
        train_country_data = df_featured[df_featured['country'] == country][df_featured['year'].isin(train_years)]
        test_country_data = df_featured[df_featured['country'] == country][df_featured['year'].isin(test_years)]
        
        if not train_country_data.empty and not test_country_data.empty:
            endog = train_country_data
            exog_cols = [c for c in features if c not in ['year', 'country']]
            exog_train = train_country_data[exog_cols]
            exog_test = test_country_data[exog_cols]
            
            try:
                # Usamos un orden simple (p,d,q)=(1,1,1) para la demostración
                model = SARIMAX(endog, exog=exog_train, order=(1, 1, 1), seasonal_order=(0, 0, 0, 0))
                results_sarimax = model.fit(disp=False)
                forecast = results_sarimax.get_forecast(steps=len(test_country_data), exog=exog_test)
                sarimax_preds.extend(forecast.predicted_mean.values)
                y_test_sarimax.extend(test_country_data.values)
            except Exception as e:
                # Si un modelo falla, predecimos la última observación conocida
                sarimax_preds.extend([endog.iloc[-1]] * len(test_country_data))
                y_test_sarimax.extend(test_country_data.values)

    if y_test_sarimax:
        mae = mean_absolute_error(y_test_sarimax, sarimax_preds)
        rmse = np.sqrt(mean_squared_error(y_test_sarimax, sarimax_preds))
        r2 = r2_score(y_test_sarimax, sarimax_preds)
        results.append({'MAE': mae, 'RMSE': rmse, 'R2': r2})
        print(f"SARIMAX - MAE: {mae:.2f}, RMSE: {rmse:.2f}, R2: {r2:.2f}")

    # --- Modelos de Machine Learning (usando datos procesados sin 'country') ---
    X_train_ml = X_train_processed.drop(columns=['country'])
    X_test_ml = X_test_processed.drop(columns=['country'])

    # --- Modelo 2: Random Forest ---
    print("Entrenando Random Forest...")
    rf_model = RandomForestRegressor(n_estimators=100, random_state=42, n_jobs=-1)
    rf_model.fit(X_train_ml, y_train)
    rf_preds = rf_model.predict(X_test_ml)
    mae = mean_absolute_error(y_test, rf_preds)
    rmse = np.sqrt(mean_squared_error(y_test, rf_preds))
    r2 = r2_score(y_test, rf_preds)
    results.append({'MAE': mae, 'RMSE': rmse, 'R2': r2})
    print(f"Random Forest - MAE: {mae:.2f}, RMSE: {rmse:.2f}, R2: {r2:.2f}")

    # --- Modelo 3: XGBoost ---
    print("Entrenando XGBoost...")
    xgb_model = xgb.XGBRegressor(n_estimators=100, random_state=42, n_jobs=-1)
    xgb_model.fit(X_train_ml, y_train)
    xgb_preds = xgb_model.predict(X_test_ml)
    mae = mean_absolute_error(y_test, xgb_preds)
    rmse = np.sqrt(mean_squared_error(y_test, xgb_preds))
    r2 = r2_score(y_test, xgb_preds)
    results.append({'MAE': mae, 'RMSE': rmse, 'R2': r2})
    print(f"XGBoost - MAE: {mae:.2f}, RMSE: {rmse:.2f}, R2: {r2:.2f}")

    # --- Modelo 4: LSTM ---
    print("Entrenando LSTM...")
    
    def create_lstm_dataset(X, y, countries, look_back=3):
        dataX, dataY =,
        for country in countries.unique():
            X_country = X[countries == country]
            y_country = y[countries == country]
            if len(X_country) > look_back:
                for i in range(len(X_country) - look_back):
                    a = X_country.iloc[i:(i + look_back)].values
                    dataX.append(a)
                    dataY.append(y_country.iloc[i + look_back])
        return np.array(dataX), np.array(dataY)

    look_back = 3
    X_train_lstm, y_train_lstm = create_lstm_dataset(X_train_ml, y_train, X_train_processed['country'], look_back)
    X_test_lstm, y_test_lstm = create_lstm_dataset(X_test_ml, y_test, X_test_processed['country'], look_back)

    if X_train_lstm.shape > 0 and X_test_lstm.shape > 0:
        # Definir la arquitectura del modelo LSTM
        lstm_model = Sequential(, X_train_lstm.shape[2])),
            Dropout(0.2),
            Dense(1)
        ])
        lstm_model.compile(optimizer='adam', loss='mean_squared_error')
        
        # Entrenar el modelo
        early_stopping = EarlyStopping(monitor='val_loss', patience=5, restore_best_weights=True)
        lstm_model.fit(X_train_lstm, y_train_lstm, epochs=50, batch_size=32, 
                       validation_data=(X_test_lstm, y_test_lstm), 
                       callbacks=[early_stopping], verbose=0)
        
        # Realizar predicciones
        lstm_preds = lstm_model.predict(X_test_lstm).flatten()
        
        mae = mean_absolute_error(y_test_lstm, lstm_preds)
        rmse = np.sqrt(mean_squared_error(y_test_lstm, lstm_preds))
        r2 = r2_score(y_test_lstm, lstm_preds)
        results.append({'MAE': mae, 'RMSE': rmse, 'R2': r2})
        print(f"LSTM - MAE: {mae:.2f}, RMSE: {rmse:.2f}, R2: {r2:.2f}")

In [None]:
# =============================================================================
# 6. ANÁLISIS COMPARATIVO Y SELECCIÓN DEL MODELO
# =============================================================================
print("\nPaso 5: Analizando y comparando los resultados de los modelos...")

# Convertir los resultados a un DataFrame para fácil visualización
summary_list =
for model_name, metrics_list in results.items():
    if metrics_list:
        df_metrics = pd.DataFrame(metrics_list)
        summary_list.append({
            'Model': model_name,
            'MAE_mean': df_metrics['MAE'].mean(),
            'MAE_std': df_metrics['MAE'].std(),
            'RMSE_mean': df_metrics.mean(),
            'RMSE_std': df_metrics.std(),
            'R2_mean': df_metrics.mean(),
            'R2_std': df_metrics.std()
        })

summary_df = pd.DataFrame(summary_list).set_index('Model')
print("\nResumen del rendimiento de los modelos (promedio de los pliegues de CV):")
print(summary_df)

# Seleccionar el mejor modelo (basado en el RMSE más bajo)
best_model_name = summary_df.idxmin()
print(f"\nMejor modelo seleccionado: {best_model_name}")

In [None]:
# =============================================================================
# 7. REENTRENAMIENTO DEL MODELO FINAL Y PRONÓSTICO PARA COLOMBIA
# =============================================================================
print(f"\nPaso 6: Reentrenando el modelo {best_model_name} con todos los datos...")

# Preparar todos los datos para el reentrenamiento
X_full_numeric = X.drop(columns=['country'])
imputer_final = IterativeImputer(max_iter=10, random_state=42)
X_full_imputed = imputer_final.fit_transform(X_full_numeric)
scaler_final = StandardScaler()
X_full_scaled = scaler_final.fit_transform(X_full_imputed)
X_full_processed = pd.DataFrame(X_full_scaled, columns=X_full_numeric.columns, index=X.index)

# Reentrenar el modelo XGBoost
final_model = xgb.XGBRegressor(n_estimators=100, random_state=42, n_jobs=-1)
final_model.fit(X_full_processed, y)

print("Modelo final entrenado. Generando pronósticos para Colombia...")

# --- Creación de escenarios futuros para Colombia ---
colombia_last_data = df_featured[df_featured['country'] == 'Colombia'].iloc[-1]
future_years = range(2023, 2031)
future_df = pd.DataFrame()

for year in future_years:
    future_row = colombia_last_data.copy()
    future_row['year'] = year
    future_df = pd.concat(, ignore_index=True)

# Escenario A: "Business as Usual" (extrapolación simple)
for col in:
    # Simple extrapolación lineal para la tendencia
    last_val = colombia_last_data[col]
    trend = (colombia_last_data[col] - df_featured[df_featured['country'] == 'Colombia'][col].iloc[-5:].mean()) / 5
    future_df[col] = [last_val + trend * i for i in range(1, len(future_years) + 1)]

# Escenario B: "Inversión Estratégica" (aumento del 10% en gasto en educación)
future_df_optimistic = future_df.copy()
future_df_optimistic['gasto_educacion_pib'] *= 1.10

# Función para predecir recursivamente
def generate_forecast(model, initial_data, future_template, scaler, imputer):
    history = initial_data.copy()
    predictions =
    
    for i in range(len(future_template)):
        # Preparar la fila para la predicción actual
        current_step_features = future_template.iloc[[i]]
        
        # Actualizar lags y rolling stats con el último dato conocido (de history)
        last_known = history.iloc[-1]
        for feature in features_to_lag:
            current_step_features[f'{feature}_lag_1'] = last_known[feature]
            # Para rolling stats, usamos los últimos datos de history
            rolling_window = pd.concat()])[feature]
            current_step_features[f'{feature}_rolling_mean_3'] = rolling_window.mean()
            current_step_features[f'{feature}_rolling_std_3'] = rolling_window.std()

        # Preprocesar la fila
        current_step_numeric = current_step_features[X_full_numeric.columns]
        current_step_imputed = imputer.transform(current_step_numeric)
        current_step_scaled = scaler.transform(current_step_imputed)
        
        # Predecir
        prediction = model.predict(current_step_scaled)
        predictions.append(prediction)
        
        # Actualizar 'history' con la nueva predicción para el siguiente paso
        new_row = current_step_features.copy()
        new_row = prediction
        history = pd.concat([history, new_row], ignore_index=True)
        
    return predictions

# Generar pronósticos para ambos escenarios
forecast_base = generate_forecast(final_model, df_featured[df_featured['country'] == 'Colombia'], future_df, scaler_final, imputer_final)
forecast_optimistic = generate_forecast(final_model, df_featured[df_featured['country'] == 'Colombia'], future_df_optimistic, scaler_final, imputer_final)

# --- Visualización de los resultados ---
plt.figure(figsize=(18, 9))
# Datos históricos
plt.plot(df_featured[df_featured['country'] == 'Colombia']['year'], 
         df_featured[df_featured['country'] == 'Colombia'], 
         label='Histórico - SiB Colombia', color='black', marker='o')
# Pronóstico Base
plt.plot(future_years, forecast_base, label='Pronóstico Base ("Business as Usual")', color='blue', marker='x', linestyle='--')
# Pronóstico Optimista
plt.plot(future_years, forecast_optimistic, label='Pronóstico Optimista (↑ Gasto Educación)', color='green', marker='^', linestyle='--')

plt.title('Pronóstico de Crecimiento de Publicación de Datos para SiB Colombia (2023-2030)', fontsize=16)
plt.xlabel('Año', fontsize=12)
plt.ylabel('Número de Registros Publicados (occurrenceCount_publisher)', fontsize=12)
plt.legend()
plt.grid(True, which='both', linestyle='--', linewidth=0.5)
plt.tight_layout()
plt.show()

print("\nProceso completado.")