# Obtenci√≥n, Procesamiento y Consolidaci√≥n de Datos Clim√°ticos  
## Regi√≥n del Biob√≠o (2020‚Äì2024)

Este notebook implementa un **pipeline de adquisici√≥n y preprocesamiento de datos clim√°ticos hist√≥ricos** para la **Regi√≥n del Biob√≠o**, cubriendo el per√≠odo **2020‚Äì2024**.

El objetivo principal es construir un **dataset clim√°tico estructurado y reproducible**, apto para su integraci√≥n con datos de incendios forestales en el contexto de an√°lisis y modelamiento mediante t√©cnicas de **Machine Learning**.

---

## Fuente de los datos

Los datos clim√°ticos utilizados en este notebook se obtienen desde la plataforma **Open-Meteo**, la cual proporciona informaci√≥n meteorol√≥gica hist√≥rica basada en:

- Rean√°lisis atmosf√©ricos
- Modelos num√©ricos de predicci√≥n
- Integraci√≥n de m√∫ltiples fuentes meteorol√≥gicas globales

Open-Meteo entrega datos de libre acceso mediante una **API p√∫blica**, lo que permite la descarga automatizada y reproducible de variables clim√°ticas sin necesidad de credenciales privadas.

---

## Descripci√≥n t√©cnica del proceso

El flujo de trabajo implementado en este notebook contempla las siguientes etapas:

### 1. Definici√≥n espacial del estudio
- Selecci√≥n de comunas pertenecientes a la Regi√≥n del Biob√≠o
- Asignaci√≥n de coordenadas geogr√°ficas representativas (latitud y longitud) por comuna
- Incorporaci√≥n de informaci√≥n administrativa (provincia y regi√≥n)

### 2. Descarga de datos clim√°ticos hist√≥ricos
- Consulta a la API de Open-Meteo para cada ubicaci√≥n definida
- Obtenci√≥n de series temporales hist√≥ricas para el per√≠odo 2020‚Äì2024
- Variables descargadas a nivel diario:
  - Temperatura media del aire a 2 metros
  - Humedad relativa media
  - Precipitaci√≥n diaria acumulada
  - Velocidad media del viento a 10 metros
  - Direcci√≥n media del viento a 10 metros

### 3. Preprocesamiento y limpieza
- Conversi√≥n de fechas a formato est√°ndar
- Verificaci√≥n de valores faltantes
- Normalizaci√≥n de nombres de columnas
- Consolidaci√≥n de registros por fecha y comuna

### 4. Estructuraci√≥n del dataset final
- Integraci√≥n de variables clim√°ticas con metadatos espaciales
- Organizaci√≥n del dataset en formato tabular
- Preparaci√≥n del archivo para an√°lisis exploratorio y modelamiento

### 5. Exportaci√≥n
- Generaci√≥n del archivo final en formato CSV:
  - `Condiciones_Clim√°ticas_Biobio_2020_2024.csv`
- Almacenamiento del archivo dentro del directorio `Datasets_base/Dataset_clima`

---

## Rol del dataset dentro del estudio

El dataset generado mediante este notebook cumple un rol fundamental en el estudio, ya que:

- Proporciona el **contexto clim√°tico** asociado a eventos de incendios forestales
- Permite la generaci√≥n de **variables explicativas** para modelos predictivos
- Facilita la creaci√≥n de **variables rezagadas (lags)** para an√°lisis temporal
- Sirve como base para estudios de correlaci√≥n clima‚Äìincendios

---

## Consideraciones metodol√≥gicas

- Los datos corresponden a **valores estimados y agregados**, no a mediciones directas de estaciones meteorol√≥gicas en terreno.
- La resoluci√≥n espacial est√° determinada por la representaci√≥n puntual de cada comuna.
- Se recomienda evaluar la sensibilidad de los modelos frente a estas aproximaciones espaciales.

---

## Contexto acad√©mico

Este notebook forma parte de la **Actividad ML2**, enfocada en el desarrollo de un pipeline de datos reproducible para el an√°lisis de incendios forestales mediante t√©cnicas de ciencia de datos y aprendizaje autom√°tico.



In [None]:
import requests
import pandas as pd
from sklearn.preprocessing import MinMaxScaler

# =====================================================
# 0. MAPEO COMUNA ‚Üí PROVINCIA + REGI√ìN + COORDENADAS
# =====================================================

provincia_map = {
    # Provincia Concepci√≥n
    "Concepci√≥n": "Concepci√≥n", "Talcahuano": "Concepci√≥n", "Hualp√©n": "Concepci√≥n",
    "San Pedro de la Paz": "Concepci√≥n", "Chiguayante": "Concepci√≥n", "Penco": "Concepci√≥n",
    "Tom√©": "Concepci√≥n", "Hualqui": "Concepci√≥n", "Florida": "Concepci√≥n",
    "Santa Juana": "Concepci√≥n", "Lota": "Concepci√≥n", "Coronel": "Concepci√≥n",

    # Provincia Arauco
    "Arauco": "Arauco", "Ca√±ete": "Arauco", "Contulmo": "Arauco",
    "Curanilahue": "Arauco", "Lebu": "Arauco", "Los √Ålamos": "Arauco", "Tir√∫a": "Arauco",

    # Provincia Biob√≠o
    "Los √Ångeles": "Biob√≠o", "Mulch√©n": "Biob√≠o", "Nacimiento": "Biob√≠o",
    "Negrete": "Biob√≠o", "Quilaco": "Biob√≠o", "Quilleco": "Biob√≠o",
    "San Rosendo": "Biob√≠o", "Santa B√°rbara": "Biob√≠o",
    "Tucapel": "Biob√≠o", "Antuco": "Biob√≠o", "Cabrero": "Biob√≠o",
    "Laja": "Biob√≠o", "Yumbel": "Biob√≠o", "Alto Biob√≠o": "Biob√≠o"
}

REGION_NAME = "Biob√≠o"

coords_manual = {
    "Alto Biob√≠o": (-37.8592, -71.4488)
}

# =====================================================
# 1. FUNCI√ìN PARA OBTENER COORDENADAS
# =====================================================
def get_coords(place):
    if place in coords_manual:
        return coords_manual[place]

    url = (
        "https://geocoding-api.open-meteo.com/v1/search?"
        f"name={place}&count=1&language=es&format=json"
    )
    r = requests.get(url).json()
    if "results" not in r:
        print(f"‚ö†Ô∏è No se encontraron coordenadas para {place}, se omite.")
        return None, None

    lat = r["results"][0]["latitude"]
    lon = r["results"][0]["longitude"]
    return lat, lon


# =====================================================
# 2. CLIMA HORARIO ‚Üí DIARIO (SOLO 5 VARIABLES)
# =====================================================
def get_weather_daily_from_hourly(lat, lon):
    url = (
        "https://archive-api.open-meteo.com/v1/archive?"
        f"latitude={lat}&longitude={lon}"
        "&start_date=2020-01-01&end_date=2024-12-31"
        "&hourly=temperature_2m,relativehumidity_2m,precipitation,"
        "windspeed_10m,winddirection_10m"
        "&timezone=America/Santiago"
    )

    r = requests.get(url).json()
    if "hourly" not in r:
        return pd.DataFrame()

    df = pd.DataFrame(r["hourly"])
    if df.empty:
        return df

    df["date"] = pd.to_datetime(df["time"]).dt.date

    # Convertir a num√©rico
    numeric_cols = ["temperature_2m", "relativehumidity_2m", "precipitation",
                    "windspeed_10m", "winddirection_10m"]

    for col in numeric_cols:
        df[col] = pd.to_numeric(df[col], errors="coerce")

    # Agregaci√≥n diaria
    agg_dict = {
        "temperature_2m": "mean",
        "relativehumidity_2m": "mean",
        "windspeed_10m": "mean",
        "winddirection_10m": "mean",
        "precipitation": "sum"
    }

    daily = df.groupby("date")[numeric_cols].agg(agg_dict).reset_index()

    daily.rename(columns={
        "temperature_2m": "temperature_2m_mean",
        "relativehumidity_2m": "relativehumidity_2m_mean",
        "windspeed_10m": "windspeed_10m_mean",
        "winddirection_10m": "winddirection_10m_mean",
        "precipitation": "precipitation_sum"
    }, inplace=True)

    return daily


# =====================================================
# 3. COMUNAS DEL BIOB√çO
# =====================================================
comunas_biobio = list(provincia_map.keys())


# =====================================================
# 4. LOOP PRINCIPAL
# =====================================================
all_data = []

for comuna in comunas_biobio:
    print(f"\nüìç Procesando comuna: {comuna}")

    lat, lon = get_coords(comuna)
    if lat is None:
        continue

    df_weather = get_weather_daily_from_hourly(lat, lon)

    if df_weather.empty:
        continue

    df = df_weather.copy()

    df["comuna"] = comuna
    df["provincia"] = provincia_map[comuna]
    df["region"] = REGION_NAME
    df["latitud"] = lat
    df["longitud"] = lon

    all_data.append(df)

# =====================================================
# 5. DATASET FINAL
# =====================================================
df_all = pd.concat(all_data, ignore_index=True)
df_all.to_csv("Biobio_2020_2024_Variables5.csv", index=False, encoding="utf-8-sig")
print("Archivo guardado: Biobio_2020_2024_Variables5.csv")

# =====================================================
# 6. NORMALIZACI√ìN
# =====================================================
df_norm = df_all.copy()
cols_to_norm = df_norm.select_dtypes(include=["float64", "int64"]).columns
cols_to_norm = [c for c in cols_to_norm if c not in ["latitud", "longitud"]]

scaler = MinMaxScaler()
df_norm[cols_to_norm] = scaler.fit_transform(df_norm[cols_to_norm])

df_norm.to_csv("Condiciones_Clim√°ticas_Biobio_2020_2024.csv",
               index=False, encoding="utf-8-sig")

print("Archivo guardado: Condiciones_Clim√°ticas_Biobio_2020_2024.csv")




üìç Procesando comuna: Concepci√≥n

üìç Procesando comuna: Talcahuano

üìç Procesando comuna: Hualp√©n

üìç Procesando comuna: San Pedro de la Paz

üìç Procesando comuna: Chiguayante

üìç Procesando comuna: Penco

üìç Procesando comuna: Tom√©

üìç Procesando comuna: Hualqui

üìç Procesando comuna: Florida

üìç Procesando comuna: Santa Juana

üìç Procesando comuna: Lota

üìç Procesando comuna: Coronel

üìç Procesando comuna: Arauco

üìç Procesando comuna: Ca√±ete

üìç Procesando comuna: Contulmo

üìç Procesando comuna: Curanilahue

üìç Procesando comuna: Lebu

üìç Procesando comuna: Los √Ålamos

üìç Procesando comuna: Tir√∫a

üìç Procesando comuna: Los √Ångeles

üìç Procesando comuna: Mulch√©n

üìç Procesando comuna: Nacimiento

üìç Procesando comuna: Negrete

üìç Procesando comuna: Quilaco

üìç Procesando comuna: Quilleco

üìç Procesando comuna: San Rosendo

üìç Procesando comuna: Santa B√°rbara

üìç Procesando comuna: Tucapel

üìç Procesando comuna: Antuc

# Diagrama de flujo del pipeline clim√°tico

Inicio
  ‚îÇ
  ‚ñº
Definici√≥n del √°rea de estudio
(Regi√≥n del Biob√≠o ‚Äì comunas y coordenadas)
  ‚îÇ
  ‚ñº
Configuraci√≥n de par√°metros temporales
(Periodo 2020‚Äì2024)
  ‚îÇ
  ‚ñº
Consulta a API Open-Meteo
(descarga de variables clim√°ticas hist√≥ricas)
  ‚îÇ
  ‚ñº
Recepci√≥n de series temporales
(datos diarios por ubicaci√≥n)
  ‚îÇ
  ‚ñº
Preprocesamiento de datos
- Formato de fechas
- Limpieza de valores
- Normalizaci√≥n de columnas
  ‚îÇ
  ‚ñº
Integraci√≥n espacial
- Regi√≥n
- Provincia
- Comuna
- Latitud / Longitud
  ‚îÇ
  ‚ñº
Consolidaci√≥n del dataset
(unificaci√≥n de todos los registros)
  ‚îÇ
  ‚ñº
Exportaci√≥n a CSV
Condiciones_Clim√°ticas_Biobio_2020_2024.csv
  ‚îÇ
  ‚ñº
Fin