In [1]:
import pandas as pd
from geopy.distance import geodesic
import numpy as np

# ============================================
# 1. Cargar datasets
# ============================================
df_clima = pd.read_csv("/content/sample_data/Biobio_2024_Normalizado.csv")
df_fire = pd.read_csv("/content/sample_data/Incendios_Chile.csv")

# Asegurar formato de fecha compatible
df_clima["date"] = pd.to_datetime(df_clima["date"]).dt.date
df_fire["date"] = pd.to_datetime(df_fire["acq_date"]).dt.date

# ============================================
# 2. Extraer coordenadas representativas por comuna
# ============================================
coords_comunas = df_clima[["comuna", "latitud", "longitud"]].drop_duplicates()

# ============================================
# 3. FunciÃ³n para asignar comuna al incendio por distancia mÃ­nima
# ============================================
def asignar_comuna(lat, lon):
    distancia_min = 999999
    comuna_sel = None

    for _, row in coords_comunas.iterrows():
        dist = geodesic((lat, lon), (row["latitud"], row["longitud"])).km
        if dist < distancia_min:
            distancia_min = dist
            comuna_sel = row["comuna"]

    return comuna_sel

# Aplicar a todos los incendios
df_fire["comuna"] = df_fire.apply(
    lambda x: asignar_comuna(x["latitude"], x["longitude"]),
    axis=1
)

# ============================================
# 4. Unir incendios con clima (1 a 1, preservando cada incendio)
# ============================================
df_merge = df_fire.merge(
    df_clima,
    on=["date", "comuna"],
    how="left"
)

# ============================================
# 5. Crear registros para dÃ­as sin incendios
# ============================================
df_comb = df_clima.merge(
    df_fire[["date", "comuna"]],
    on=["date", "comuna"],
    how="left",
    indicator=True
)

df_sin_incendios = df_comb[df_comb["_merge"] == "left_only"].drop(columns=["_merge"])

# Agregar columnas de incendios vacÃ­as
cols_incendios = [
    "latitude", "longitude", "bright_ti4", "bright_ti5", "scan", "track",
    "acq_time", "satellite", "confidence", "version", "frp", "daynight", "type"
]

for c in cols_incendios:
    df_sin_incendios[c] = None

# ============================================
# 6. Combinar ambos: con incendios y sin incendios
# ============================================
df_final = pd.concat([df_merge, df_sin_incendios], ignore_index=True)

# ============================================
# 7. Calcular distancia incendio â†” centro de comuna
# ============================================

coord_dict = {
    row["comuna"]: (row["latitud"], row["longitud"])
    for _, row in coords_comunas.iterrows()
}

def calcular_distancia(row):
    if pd.isna(row["latitude"]) or pd.isna(row["longitude"]):
        return np.nan
    lat_inc, lon_inc = row["latitude"], row["longitude"]
    lat_c, lon_c = coord_dict[row["comuna"]]
    return geodesic((lat_inc, lon_inc), (lat_c, lon_c)).km

df_final["distancia_km"] = df_final.apply(calcular_distancia, axis=1)

# ============================================
# 8. ClasificaciÃ³n del incendio segÃºn FRP
# ============================================

def clasificar_frp(frp):
    if pd.isna(frp):
        return "sin_incendio"
    if frp < 3:
        return "bajo"
    elif frp < 10:
        return "medio"
    else:
        return "alto"

df_final["categoria_incendio"] = df_final["frp"].apply(clasificar_frp)

# ============================================
# 9. Variables binarias
# ============================================

# Â¿Hubo incendio?
df_final["incendio"] = df_final["frp"].apply(lambda x: 0 if pd.isna(x) else 1)

# Dummies segÃºn categorÃ­a
df_final["incendio_bajo"] = (df_final["categoria_incendio"] == "bajo").astype(int)
df_final["incendio_medio"] = (df_final["categoria_incendio"] == "medio").astype(int)
df_final["incendio_alto"] = (df_final["categoria_incendio"] == "alto").astype(int)

# DÃ­a/noche
df_final["es_noche"] = df_final["daynight"].apply(lambda x: 1 if x == "N" else 0)

# ============================================
# 10. Ordenar columnas
# ============================================

cols_incendios_ext = [
    "latitude", "longitude", "bright_ti4", "bright_ti5", "scan", "track",
    "acq_time", "satellite", "confidence", "version", "frp", "daynight", "type",
    "distancia_km", "categoria_incendio", "incendio",
    "incendio_bajo", "incendio_medio", "incendio_alto", "es_noche"
]

columnas_finales = (
    [c for c in df_final.columns if c not in cols_incendios_ext] +
    cols_incendios_ext
)

df_final = df_final[columnas_finales]

# ============================================
# 11. Exportar archivo final
# ============================================
df_final.to_csv("Clima_Incendios_Detallado_Clasificado.csv",
                index=False, encoding="utf-8-sig")

print("ðŸŽ‰ Archivo final generado con Ã©xito")
print("Filas totales:", len(df_final))


  df_final = pd.concat([df_merge, df_sin_incendios], ignore_index=True)


ðŸŽ‰ Archivo final generado con Ã©xito
Filas totales: 187891


## Resumen final del proceso

Este notebook documenta el proceso metodolÃ³gico de integraciÃ³n entre datos de focos de incendio y variables climÃ¡ticas asociadas. Mediante etapas sucesivas de carga, normalizaciÃ³n temporal, depuraciÃ³n, integraciÃ³n espacio-temporal y validaciÃ³n, se construye un dataset coherente que vincula incendios con su contexto ambiental.

El resultado constituye un insumo robusto y reproducible para anÃ¡lisis exploratorios, modelos predictivos y sistemas de apoyo a la toma de decisiones en la gestiÃ³n del riesgo de incendios forestales.