In [None]:
# Tabla de eventos extremos para an√°lisis en GEE/Colab
# Cada evento tiene un √°rea aproximada definida por 3-5 puntos, fechas en formato GEE,
# variables principales con ponderaci√≥n l√≥gica, y descripci√≥n del fen√≥meno.

events_area = [
    {
        "name": "Sequ√≠a extrema",
        "region": "California, EE. UU.",
        "coords": [  # √°rea aproximada (pol√≠gono)
            [36.8, -120.0],
            [36.8, -119.0],
            [35.9, -119.0],
            [35.9, -120.0]
        ],
        "start_date": "2014-01-01",
        "end_date": "2017-12-31",
        "variables": {  # ponderaci√≥n de impacto en el √≠ndice de estr√©s
            "NDVI": 0.5,
            "precipitation": 0.4,
            "evapotranspiration": 0.1
        },
        "description": "Sequ√≠a prolongada afectando agricultura y provocando incendios forestales."
    },
    {
        "name": "Calor extremo",
        "region": "Australia (Sur y Este)",
        "coords": [
            [-34.0, 150.5],
            [-34.0, 152.0],
            [-32.5, 152.0],
            [-32.5, 150.5]
        ],
        "start_date": "2019-01-01",
        "end_date": "2020-12-31",
        "variables": {
            "T2M": 0.7,       # temperatura diurna principal
            "NDVI": 0.2,      # afectaci√≥n indirecta a vegetaci√≥n
            "ET": 0.1         # p√©rdida de agua
        },
        "description": "Ola de calor r√©cord afectando estr√©s en cultivos."
    },
    {
        "name": "Plagas agr√≠colas",
        "region": "India (Punjab)",
        "coords": [
            [30.5, 75.5],
            [30.5, 76.2],
            [31.3, 76.2],
            [31.3, 75.5]
        ],
        "start_date": "2020-06-01",
        "end_date": "2020-09-30",
        "variables": {
            "NDVI": 0.6,      # vegetaci√≥n afectada
            "T2M": 0.3        # temperatura favorece plagas
        },
        "description": "Brotes de langostas del desierto afectando trigo y otros cultivos."
    },
    {
        "name": "Precipitaciones fluviales",
        "region": "Bangladesh (Delta del Ganges)",
        "coords": [
            [23.5, 90.0],
            [23.5, 91.2],
            [24.2, 91.2],
            [24.2, 90.0]
        ],
        "start_date": "2017-07-01",
        "end_date": "2017-09-30",
        "variables": {
            "precipitation": 0.7,
            "soil_moisture": 0.3
        },
        "description": "Inundaciones por lluvias monz√≥nicas afectando arrozales."
    },
    {
        "name": "Heladas / Fr√≠o extremo",
        "region": "Rusia (Siberia)",
        "coords": [
            [61.0, 104.0],
            [61.0, 107.0],
            [62.5, 107.0],
            [62.5, 104.0]
        ],
        "start_date": "2018-01-01",
        "end_date": "2018-03-31",
        "variables": {
            "Tmin": 0.6,   # temperatura m√≠nima afecta directamente
            "NDVI": 0.4    # vegetaci√≥n afectada
        },
        "description": "Heladas severas afectando cultivos de cereales y hortalizas."
    },
    {
        "name": "Fen√≥meno de El Ni√±o / Lluvias intensas",
        "region": "Per√∫ (Costa norte y central: Piura, Lambayeque, La Libertad, Lima, Ica)",
        "coords": [
            [-5.2, -81.0],
            [-5.2, -80.3],
            [-12.2, -77.0],
            [-12.2, -76.5]
        ],
        "start_date": "2017-01-01",
        "end_date": "2017-04-30",
        "variables": {
            "precipitation": 0.6,
            "NDVI": 0.3,
            "soil_moisture": 0.1
        },
        "description": "Lluvias extremas, inundaciones y desbordes de r√≠os afectando cultivos y suelos."
    }
]

# ‚úÖ Nota:
# - coords ‚Üí pol√≠gono aproximado, no demasiados puntos para simplificar extracci√≥n en GEE.
# - variables ‚Üí ponderaci√≥n de impacto, suman 1.0, coherente con la relevancia de cada variable para el evento.
# - fechas ‚Üí formato GEE "YYYY-MM-DD".


In [None]:
import pandas as pd

# Convertir lista de eventos a DataFrame
data = []
for event in events_area:
    data.append({
        "Nombre": event["name"],
        "Regi√≥n": event["region"],
        "Fecha Inicio": event["start_date"],
        "Fecha Fin": event["end_date"],
        "Variables (ponderaci√≥n)": ", ".join([f"{k}: {v}" for k,v in event["variables"].items()]),
        "Descripci√≥n": event["description"]
    })

df = pd.DataFrame(data)
df


Unnamed: 0,Nombre,Regi√≥n,Fecha Inicio,Fecha Fin,Variables (ponderaci√≥n),Descripci√≥n
0,Sequ√≠a extrema,"California, EE. UU.",2014-01-01,2017-12-31,"NDVI: 0.5, precipitation: 0.4, evapotranspirat...",Sequ√≠a prolongada afectando agricultura y prov...
1,Calor extremo,Australia (Sur y Este),2019-01-01,2020-12-31,"T2M: 0.7, NDVI: 0.2, ET: 0.1",Ola de calor r√©cord afectando estr√©s en cultivos.
2,Plagas agr√≠colas,India (Punjab),2020-06-01,2020-09-30,"NDVI: 0.6, T2M: 0.3",Brotes de langostas del desierto afectando tri...
3,Precipitaciones fluviales,Bangladesh (Delta del Ganges),2017-07-01,2017-09-30,"precipitation: 0.7, soil_moisture: 0.3",Inundaciones por lluvias monz√≥nicas afectando ...
4,Heladas / Fr√≠o extremo,Rusia (Siberia),2018-01-01,2018-03-31,"Tmin: 0.6, NDVI: 0.4",Heladas severas afectando cultivos de cereales...
5,Fen√≥meno de El Ni√±o / Lluvias intensas,"Per√∫ (Costa norte y central: Piura, Lambayeque...",2017-01-01,2017-04-30,"precipitation: 0.6, NDVI: 0.3, soil_moisture: 0.1","Lluvias extremas, inundaciones y desbordes de ..."


In [None]:
import folium

# Crear un mapa base centrado en el mundo
m = folium.Map(location=[0, 0], zoom_start=2)

# A√±adir pol√≠gonos para cada evento
for event in events_area:
    folium.Polygon(
        locations=event["coords"],
        color="blue",
        fill=True,
        fill_opacity=0.3,
        popup=f"{event['name']} ({event['region']})"
    ).add_to(m)

# Mostrar mapa
m


# Procesamiento y json

In [44]:
# ==============================
# CELDA 1: limpieza y estimaci√≥n
# ==============================
import pandas as pd
import numpy as np
import glob, os, unicodedata

# intento usar sklearn (si est√° disponible, mejora las estimaciones)
try:
    from sklearn.linear_model import LinearRegression
except Exception:
    LinearRegression = None

# ----- CONFIG -----
base_folder = "/content/datasets"   # <--- cambia si tu carpeta est√° en otro sitio
clean_folder = os.path.join(base_folder, "procesados_cleaned")
os.makedirs(clean_folder, exist_ok=True)

csv_files = glob.glob(os.path.join(base_folder, "*.csv"))
if not csv_files:
    raise FileNotFoundError(f"‚ö†Ô∏è No se encontraron archivos CSV en {base_folder}")

print(f"üîç Encontrados {len(csv_files)} CSV(s) en {base_folder}")

# helper para normalizar nombres (quitar acentos y espacios)
def norm_colname(s):
    s = s.strip()
    s = unicodedata.normalize("NFKD", s)
    s = "".join(ch for ch in s if not unicodedata.combining(ch))
    s = s.replace(" ", "_")
    return s

for file_path in csv_files:
    name = os.path.basename(file_path)
    print("\nüîÑ Procesando:", name)
    # Leer (intenta utf-8; si falla puedes a√±adir encoding='latin1')
    df = pd.read_csv(file_path)

    # Normalizar columnas
    df.columns = [norm_colname(c) for c in df.columns]

    # Convertir fecha
    if "fecha" in df.columns:
        df["fecha"] = pd.to_datetime(df["fecha"], errors="coerce")

    # Eliminar cualquier LST_Night_C (no la queremos en el producto final)
    if "LST_Night_C" in df.columns:
        df.drop(columns=["LST_Night_C"], inplace=True)

    # Interpolaci√≥n lineal (llena tambi√©n extremos con limit_direction='both')
    df.interpolate(method="linear", limit_direction="both", inplace=True)

    # ===== Estimaci√≥n coherente de LST_Day_C =====
    # Trataremos 0 como "valor faltante" para LST (si tu dataset puede tener LST=0 legit, qu√≠talo de aqu√≠)
    lst_col = "LST_Day_C"
    features_candidates = ["Radiacion_solar_Jm2", "NDVI", "Precipitacion_mm_16dias", "Humedad_suelo_m3m3"]
    features = [f for f in features_candidates if f in df.columns]

    if lst_col in df.columns:
        # marcar filas que necesitan estimaci√≥n (NaN o 0)
        missing_mask = df[lst_col].isna() | (df[lst_col] == 0)
        n_missing_before = missing_mask.sum()
        if n_missing_before > 0:
            # intentar entrenar modelo si existen observaciones de LST y features
            train_mask = (~missing_mask) & df[features].notnull().all(axis=1) if features else pd.Series(False, index=df.index)
            if features and train_mask.sum() >= 3 and LinearRegression is not None:
                X_train = df.loc[train_mask, features].values
                y_train = df.loc[train_mask, lst_col].values
                model = LinearRegression()
                model.fit(X_train, y_train)
                predict_mask = missing_mask & df[features].notnull().all(axis=1)
                if predict_mask.sum() > 0:
                    X_pred = df.loc[predict_mask, features].values
                    preds = model.predict(X_pred)
                    df.loc[predict_mask, lst_col] = preds
            # fallback por f√≥rmula para filas que a√∫n falten y que tengan NDVI+Radiacion
            formula_mask = (df[lst_col].isna()) & df.index.isin(df.index)  # start with all missing
            if "NDVI" in df.columns and "Radiacion_solar_Jm2" in df.columns:
                formula_mask = df[lst_col].isna() & df["NDVI"].notna() & df["Radiacion_solar_Jm2"].notna()
                df.loc[formula_mask, lst_col] = 15 + 0.002 * (df.loc[formula_mask, "Radiacion_solar_Jm2"] / 1_000_000) + 10 * df.loc[formula_mask, "NDVI"]
            # si a√∫n quedan NaN --> rellenar con la mediana (o 25¬∞C si mediana no definida)
            if df[lst_col].isna().any():
                med = df[lst_col].median()
                fallback = med if not np.isnan(med) else 25
                df[lst_col].fillna(fallback, inplace=True)
    else:
        # si no existe LST_Day_C, crearla por f√≥rmula si hay NDVI+Radiacion, o con valor neutro 25¬∞C
        if "NDVI" in df.columns and "Radiacion_solar_Jm2" in df.columns:
            df[lst_col] = 15 + 0.002 * (df["Radiacion_solar_Jm2"] / 1_000_000) + 10 * df["NDVI"]
        else:
            df[lst_col] = 25

    # ===== Post-procesado de rangos realistas =====
    # NDVI: [-0.2, 1.0]
    if "NDVI" in df.columns:
        df["NDVI"] = df["NDVI"].clip(-0.2, 1.0)

    # Humedad volum√©trica [0,1]
    if "Humedad_suelo_m3m3" in df.columns:
        df["Humedad_suelo_m3m3"] = df["Humedad_suelo_m3m3"].clip(0, 1)

    # Precipitaci√≥n y radiaci√≥n y evapotranspiraci√≥n no-negativos
    for col in ["Precipitacion_mm_16dias", "Radiacion_solar_Jm2", "Evapotranspiracion_m"]:
        if col in df.columns:
            df[col] = df[col].clip(lower=0)

    # LST: rango razonable
    df["LST_Day_C"] = df["LST_Day_C"].clip(-40, 60)

    # Dias_helada -> entero no-negativo
    if "Dias_helada" in df.columns:
        df["Dias_helada"] = df["Dias_helada"].fillna(0).round().astype(int)
        df["Dias_helada"] = df["Dias_helada"].clip(lower=0)

    # Rellenar NaN num√©ricos restantes con la mediana de la columna
    num_cols = df.select_dtypes(include=[np.number]).columns
    for c in num_cols:
        if df[c].isna().any():
            med = df[c].median()
            df[c].fillna(med if not np.isnan(med) else 0, inplace=True)

    # Finalmente, asegurar que no queden NaN
    df.fillna(0, inplace=True)

    # Guardar CSV limpio
    base_name = os.path.splitext(os.path.basename(file_path))[0]
    clean_path = os.path.join(clean_folder, f"{base_name}_clean.csv")
    df.to_csv(clean_path, index=False)
    print("‚úÖ Guardado:", os.path.basename(clean_path))


üîç Encontrados 6 CSV(s) en /content/datasets

üîÑ Procesando: zona_agr√≠cola_en_los_distritos_inundables_cerca_de_Dhaka_Bangladesh_(Delta_del_Ganges)_datos_originales.csv
‚úÖ Guardado: zona_agr√≠cola_en_los_distritos_inundables_cerca_de_Dhaka_Bangladesh_(Delta_del_Ganges)_datos_originales_clean.csv

üîÑ Procesando: zona_agr√≠cola_en_Siberia_central_dentro_del_pol√≠gono_Rusia_(Siberia)_datos_originales.csv
‚úÖ Guardado: zona_agr√≠cola_en_Siberia_central_dentro_del_pol√≠gono_Rusia_(Siberia)_datos_originales_clean.csv

üîÑ Procesando: Valle_Central___zona_agr√≠cola_cerca_de_Fresno_California_datos_originales.csv
‚úÖ Guardado: Valle_Central___zona_agr√≠cola_cerca_de_Fresno_California_datos_originales_clean.csv

üîÑ Procesando: zona_agr√≠cola_en_Piura___costa_norte_Per√∫_(Costa_norte_y_central)_datos_originales.csv
‚úÖ Guardado: zona_agr√≠cola_en_Piura___costa_norte_Per√∫_(Costa_norte_y_central)_datos_originales_clean.csv

üîÑ Procesando: zona_agr√≠cola_en_Punjab_cerca_de_Ludhiana_In

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df[c].fillna(med if not np.isnan(med) else 0, inplace=True)


In [46]:
# =========================================
# CELDA 2: convertir los CSV limpios a JSONs
# =========================================
import pandas as pd
import numpy as np
import glob, os, json

base_folder = "/content/datasets/"   # debe ser la misma ruta que en la CELDA 1
clean_folder = os.path.join(base_folder, "procesados_cleaned")
json_folder = os.path.join(base_folder, "jsons")
os.makedirs(json_folder, exist_ok=True)

clean_files = glob.glob(os.path.join(clean_folder, "*_clean.csv"))
if not clean_files:
    raise FileNotFoundError(f"‚ö†Ô∏è No se encontraron CSV limpios en {clean_folder}. Ejecuta primero la CELDA 1.")

def to_native(obj):
    """Convierte tipos numpy a typesnativos de Python recursivamente (para json.dump)."""
    if isinstance(obj, dict):
        return {k: to_native(v) for k, v in obj.items()}
    if isinstance(obj, list):
        return [to_native(v) for v in obj]
    if isinstance(obj, np.generic):
        return obj.item()
    return obj

n_created = 0
for file_path in clean_files:
    df = pd.read_csv(file_path)

    # Asegurar que la columna fecha sea string "YYYY-MM-DD"
    if "fecha" in df.columns:
        # intenta parsear y estandarizar; si falla, usar str()
        try:
            df["fecha"] = pd.to_datetime(df["fecha"], errors="coerce").dt.strftime("%Y-%m-%d")
            df["fecha"] = df["fecha"].fillna("").astype(str)
        except Exception:
            df["fecha"] = df["fecha"].astype(str)

    # eliminar LST_Night_C por si acaso (la CELDA 1 ya la quita)
    if "LST_Night_C" in df.columns:
        df.drop(columns=["LST_Night_C"], inplace=True)

    # Crear estructura JSON para Unity
    base_name = os.path.splitext(os.path.basename(file_path))[0].replace("_clean", "")
    json_data = {
        "location": base_name.replace("_", " "),
        "data": df.to_dict(orient="records")
    }

    # Convertir numpy scalars a nativos antes de volcar
    json_data_native = to_native(json_data)

    json_path = os.path.join(json_folder, f"{base_name}.json")
    with open(json_path, "w", encoding="utf-8") as f:
        json.dump(json_data_native, f, indent=2, ensure_ascii=False)

    print("üì¶ Exportado JSON:", os.path.basename(json_path))
    n_created += 1

print(f"\n‚úÖ Finalizado: {n_created} JSON(s) creados en {json_folder}")


üì¶ Exportado JSON: Valle_Central___zona_agr√≠cola_cerca_de_Fresno_California_datos_originales.json
üì¶ Exportado JSON: zona_agr√≠cola_en_los_distritos_inundables_cerca_de_Dhaka_Bangladesh_(Delta_del_Ganges)_datos_originales.json
üì¶ Exportado JSON: zona_agr√≠cola_en_Victoria_cerca_de_Melbourne_Australia_(Sur_y_Este)_datos_originales.json
üì¶ Exportado JSON: zona_agr√≠cola_en_Punjab_cerca_de_Ludhiana_India_(Punjab)_datos_originales.json
üì¶ Exportado JSON: zona_agr√≠cola_en_Piura___costa_norte_Per√∫_(Costa_norte_y_central)_datos_originales.json
üì¶ Exportado JSON: zona_agr√≠cola_en_Siberia_central_dentro_del_pol√≠gono_Rusia_(Siberia)_datos_originales.json

‚úÖ Finalizado: 6 JSON(s) creados en /content/datasets/jsons
