# üåô Corrosion Insight  
### Modelo Predictivo de Riesgo de Corrosi√≥n a partir del Clima

Este notebook implementa un prototipo de **modelo de riesgo de corrosi√≥n ambiental** usando datos reales de clima obtenidos desde la API de **OpenWeather** (y, opcionalmente, su API de calidad de aire).

La idea es simular el tipo de pipeline que se podr√≠a usar en un contexto de **integridad de activos / mantenimiento predictivo** en energ√≠a u oil & gas:

---

## üîó Qu√© hace este notebook

- ‚òÅÔ∏è **Ingesta de datos**  
  - Pron√≥stico meteorol√≥gico cada 3 horas (temperatura, humedad, viento, nubes, presi√≥n).  
  

- üß™ **Construcci√≥n del dataset**  
  - Dataset temporal con variables ambientales.  
  - Features de calendario: hora del d√≠a, d√≠a de la semana, etc.

- ‚öôÔ∏è **Simulaci√≥n de la m√©trica de corrosi√≥n**  
  - Se genera una variable `corrosion_rate` que aumenta con:
    - mayor humedad,
    - mayor velocidad del viento,
    - mayor cobertura de nubes,  
    y se penaliza con temperaturas extremas.  

- üß† **Modelado y evaluaci√≥n**  
  - Entrenamiento de modelos de regresi√≥n supervisada:
    - `LinearRegression`
    - `RandomForestRegressor`
  - Evaluaci√≥n con **MAE (Mean Absolute Error)** para comparar desempe√±o.

- üìä **Visualizaci√≥n**  
  - Gr√°fico interactivo en modo oscuro (**Plotly**) comparando:
    - **corrosi√≥n real (simulada)** vs **corrosi√≥n predicha** a lo largo del tiempo.

---

> üí° **Nota importante**  
> En un entorno real, la columna `corrosion_rate` se reemplazar√≠a por datos industriales:
> - inspecciones,
> - estados de activos,
> - fallas,
> - potenciales de protecci√≥n, etc.  
> El pipeline ser√≠a el mismo y permitir√≠a:
> - priorizar inspecciones,  
> - disparar alertas ante condiciones cr√≠ticas,  
> - apoyar decisiones de **mantenimiento predictivo** en energ√≠a, oil & gas e infraestructura.

In [23]:
# Importaci√≥n de librer√≠as
import os                     #Liberia para traer funciones del os
from pathlib import Path      #Libreria encargada de la gestion de archivos
import numpy as np            #Libreria numpy para gestion de calculos matematicos
import pandas as pd           #Libreria pandas para gestion de DataFrames
import requests               #Libreria encargada de realizar las llamada al API

## üîß Configuraci√≥n inicial: ubicaci√≥n, API key y rutas de trabajo

En esta secci√≥n se define:

- La **ubicaci√≥n geogr√°fica** que se va a usar para consultar la API de OpenWeather (Cipolletti).
- La **API key** personal de OpenWeather, necesaria para autenticar las solicitudes.
- Las **rutas de trabajo** del proyecto:
  - carpeta ra√≠z del proyecto,
  - subcarpeta `data/` para almacenar archivos,
  - archivo `forecast.csv` donde se guarda un snapshot del pron√≥stico.

Esta configuraci√≥n deja listo el entorno para:
- reutilizar el mismo dataset sin llamar siempre a la API, y  
- mantener todos los datos organizados dentro de la carpeta `data/`.

In [None]:
# üìç Ubicaci√≥n consumida por el API
city_name = "Cipolletti, AR"
lat = -38.94
lon = -67.99

# üîë API key de OpenWeather
OPENWEATHER_API_KEY = "your_openweather_api_key_here"


# Chequeo defensivo: si la API key est√° vac√≠a, frenamos la ejecuci√≥n
if not OPENWEATHER_API_KEY:
    raise ValueError("OpenWeather API key not found")


# üìÇ Configuraci√≥n de rutas para guardar datos en disco

BASE_DIR = Path().resolve()          # Carpeta base del proyecto (directorio actual, en ruta absoluta)
DATA_DIR = BASE_DIR / "data"         # Subcarpeta 'data' dentro del proyecto
DATA_DIR.mkdir(exist_ok=True)         # Crea la carpeta 'data' si no existe (no falla si ya est√° creada)

FORECAST_CSV = DATA_DIR / "forecast.csv"    # Ruta completa al archivo donde se guardar√° el pron√≥stico

BASE_DIR, DATA_DIR, FORECAST_CSV            # Mostrar las rutas para ver que quedaron bien


(PosixPath('/content'),
 PosixPath('/content/data'),
 PosixPath('/content/data/forecast.csv'))

## üå§Ô∏è Funci√≥n de ingesta: consulta a OpenWeather y arma el DataFrame de clima

En esta secci√≥n se define la funci√≥n `fetch_openweather_forecast`, responsable de:

- Conectarse a la API **5-day / 3-hour forecast** de **OpenWeather** usando:
  - la **API key** configurada previamente,
  - la **latitud** y **longitud** de la ubicaci√≥n de inter√©s.
- Tomar la respuesta en formato **JSON** y transformar solo la informaci√≥n relevante en una estructura tabular:
  - ciudad y pa√≠s,
  - fecha y hora del pron√≥stico (`timestamp`),
  - temperatura (`temp`),
  - humedad (`humidity`),
  - velocidad y direcci√≥n del viento (`wind_speed`, `wind_deg`),
  - porcentaje de nubosidad (`clouds`).
- Devolver un **`pandas.DataFrame` ordenado temporalmente**, listo para ser utilizado en los siguientes pasos:
  - construcci√≥n del dataset de corrosi√≥n,
  - generaci√≥n de features adicionales,
  - entrenamiento de los modelos de regresi√≥n.

Esta funci√≥n encapsula toda la l√≥gica de ingesta desde la API, de modo que el resto del notebook pueda trabajar directamente con datos limpios sin preocuparse por el formato del JSON original.

In [26]:
#  Llama a la API 5-day/3-hour forecast de OpenWeather y devuelve un DataFrame con variables clim√°ticas clave.

def fetch_openweather_forecast(api_key: str, lat: float, lon: float) -> pd.DataFrame:

  if not api_key:
    raise ValueError("OpenWeather API no esta configurada")      # Si la API key est√° vac√≠a, corto la ejecuci√≥n con un error claro


  url = f"https://api.openweathermap.org/data/2.5/forecast"      # Par√°metros de la query: ubicaci√≥n, API key, unidades y lenguaje
  params = {
    "lat": lat,
    "lon": lon,
    "appid": api_key,
    "units": "metric",
    "lang":"es"}

  resp = requests.get(url, params=params)                        # Realiza la solicitud HTTP GET a la API con los par√°metros definidos
  resp.raise_for_status()                                        # Si la respuesta no es 200, lanza un error (defensivo)
  data = resp.json()                                             # Convierte la respuesta JSON

  records = []                                                   # Crea una lista vac√≠a para almacenar los registros del DataFrame

  for item in data.get("list",[]):                               # Recorre cada elemento de la lista de pron√≥sticos (cada 3 horas)
    main = item.get("main", {})
    wind = item.get("wind", {})
    clouds = item.get("clouds", {})
    weather = item.get("weather", [{}])[0]

    records.append({
        "city": data.get("city", {}).get("name"),                 # nombre de la ciudad (viene fuera de 'list')
        "country": data.get("city", {}).get("country"),           # pa√≠s
        "timestamp": pd.to_datetime(item.get("dt_txt")),          # fecha y hora del pron√≥stico
        "temp": main.get("temp"),                                 # temperatura en ¬∞C
        "humidity": main.get("humidity"),                         # humedad relativa (%)
        "wind_speed": wind.get("speed"),                          # velocidad del viento
        "wind_deg": wind.get("deg"),                              # direcci√≥n del viento (grados)
        "clouds": clouds.get("all"),                              # porcentaje de nubosidad
    })
  return pd.DataFrame(records).sort_values("timestamp").reset_index(drop=True)         # Retorno los valores en un DataFrame ordenados por tiempo

df = fetch_openweather_forecast(OPENWEATHER_API_KEY, lat, lon)                         # Llamada a la funci√≥n usando la API key y la ubicaci√≥n definida antes

display(df)


Unnamed: 0,city,country,timestamp,temp,humidity,wind_speed,wind_deg,clouds
0,Cipolletti,AR,2025-11-11 06:00:00,17.76,64,6.81,212,23
1,Cipolletti,AR,2025-11-11 09:00:00,16.24,51,12.25,230,12
2,Cipolletti,AR,2025-11-11 12:00:00,17.4,33,13.06,242,5
3,Cipolletti,AR,2025-11-11 15:00:00,19.73,33,13.93,244,0
4,Cipolletti,AR,2025-11-11 18:00:00,22.17,25,16.47,248,16
5,Cipolletti,AR,2025-11-11 21:00:00,20.58,28,14.98,247,12
6,Cipolletti,AR,2025-11-12 00:00:00,16.71,42,12.69,248,7
7,Cipolletti,AR,2025-11-12 03:00:00,15.04,47,11.56,251,0
8,Cipolletti,AR,2025-11-12 06:00:00,13.9,50,10.02,244,0
9,Cipolletti,AR,2025-11-12 09:00:00,12.96,52,8.19,239,0


## üíæ Funci√≥n de cach√©: usar el CSV local o llamar a la API

La funci√≥n `load_or_fetch_forecast` se encarga de gestionar **de d√≥nde** se obtienen los datos de clima:

- Si ya existe un archivo CSV con el pron√≥stico (`forecast.csv`) y **no** se fuerza la actualizaci√≥n:
  - carga directamente los datos desde el CSV,
  - evita hacer una nueva llamada a la API,
  - hace que el notebook sea **reproducible** y funcione incluso **sin conexi√≥n**.
- Si el CSV no existe, o se indica `force_refresh=True`:
  - llama a la API de OpenWeather a trav√©s de `fetch_openweather_forecast`,
  - guarda un **snapshot** del pron√≥stico en disco,
  - devuelve el DataFrame actualizado.

De esta forma, el resto del notebook puede trabajar siempre con un `DataFrame` llamado `df` (o `forecast_raw`) sin preocuparse de si los datos vinieron de disco o de la API.

In [54]:


# Carga el pron√≥stico desde un CSV local si est√° disponible, o, en caso contrario (o si se fuerza refresh), llama a la API y guarda un snapshot en disco.

def load_or_fetch_forecast(
    api_key: str,
    lat: float,
    lon: float,
    csv_path: Path = FORECAST_CSV,
    force_refresh: bool = False,
) -> pd.DataFrame:

    if csv_path.exists() and not force_refresh:                         # Caso 1: el archivo existe y NO queremos refrescar datos desde la API
        print(f"Cargando pron√≥stico desde {csv_path}")
        df = pd.read_csv(csv_path)
    else:
        print(f"Llamando a OpenWeather API y guardando snapshot...")    # Caso 2: el archivo no existe o queremos forzar actualizaci√≥n
        df = fetch_openweather_forecast(api_key, lat, lon)              # Obtenemos el DataFrame directamente desde la API
        df.to_csv(csv_path, index=False)                                # Guardamos un snapshot en disco para poder reutilizarlo luego
        print(f"Pron√≥stico guardado en {csv_path}")
    return df                                                           # Devolvemos siempre un DataFrame listo para usar

df = load_or_fetch_forecast(OPENWEATHER_API_KEY, lat, lon)              # Uso de la funci√≥n: obtengo el pron√≥stico ya sea desde CSV o desde la API
display(df)

Cargando pron√≥stico desde /content/data/forecast.csv


Unnamed: 0,city,country,timestamp,temp,humidity,wind_speed,wind_deg,clouds
0,Cipolletti,AR,2025-11-11 03:00:00,20.03,56,3.35,25,20
1,Cipolletti,AR,2025-11-11 06:00:00,19.09,54,6.81,212,23
2,Cipolletti,AR,2025-11-11 09:00:00,16.91,46,12.25,230,12
3,Cipolletti,AR,2025-11-11 12:00:00,17.4,33,13.06,242,5
4,Cipolletti,AR,2025-11-11 15:00:00,19.73,33,13.93,244,0
5,Cipolletti,AR,2025-11-11 18:00:00,22.17,25,16.47,248,16
6,Cipolletti,AR,2025-11-11 21:00:00,20.58,28,14.98,247,12
7,Cipolletti,AR,2025-11-12 00:00:00,16.71,42,12.69,248,7
8,Cipolletti,AR,2025-11-12 03:00:00,15.04,47,11.56,251,0
9,Cipolletti,AR,2025-11-12 06:00:00,13.9,50,10.02,244,0


## üìä Carga final del pron√≥stico y vista r√°pida del DataFrame

En este bloque se ejecuta el flujo completo de ingesta de datos:

- Se llama a `load_or_fetch_forecast` para obtener el pron√≥stico:
  - desde el archivo `forecast.csv` si ya existe y no se fuerza actualizaci√≥n, o
  - directamente desde la API de OpenWeather si es la primera vez o si se pide `force_refresh=True`.
- El resultado se guarda en el DataFrame `forecast_raw`, que contiene:
  - una fila por cada intervalo de 3 horas,
  - variables clim√°ticas listas para ser transformadas en un dataset de corrosi√≥n.
- Se imprime:
  - el **tama√±o** del DataFrame (`shape`) para ver cu√°ntas filas y columnas hay,
  - las primeras filas (`head()`) para inspeccionar visualmente que los datos se vean correctos.

A partir de `forecast_raw`, en los siguientes pasos se construir√° el dataset enriquecido con features de calendario y la tasa de corrosi√≥n simulada.

In [30]:
# Ejecuta la funci√≥n de cach√©/ingesta:

forecast_raw = load_or_fetch_forecast(
    api_key=OPENWEATHER_API_KEY,
    lat=lat,
    lon=lon,
    csv_path=FORECAST_CSV,
    force_refresh=False,)
print(forecast_raw.shape)
forecast_raw.head()

Cargando pron√≥stico desde /content/data/forecast.csv
(40, 8)


Unnamed: 0,city,country,timestamp,temp,humidity,wind_speed,wind_deg,clouds
0,Cipolletti,AR,2025-11-11 03:00:00,20.03,56,3.35,25,20
1,Cipolletti,AR,2025-11-11 06:00:00,19.09,54,6.81,212,23
2,Cipolletti,AR,2025-11-11 09:00:00,16.91,46,12.25,230,12
3,Cipolletti,AR,2025-11-11 12:00:00,17.4,33,13.06,242,5
4,Cipolletti,AR,2025-11-11 15:00:00,19.73,33,13.93,244,0


## üß™ Construcci√≥n del dataset de corrosi√≥n (`corrosion_df`)

A partir del DataFrame `forecast_raw` con el pron√≥stico clim√°tico cada 3 horas, en esta secci√≥n se construye el dataset enriquecido que va a alimentar al modelo de regresi√≥n.

Lo que se hace puntualmente:

- ‚úÖ **Copiar y normalizar el DataFrame base**
  - Se asegura que `timestamp` est√© en formato `datetime`.
  - Se agrega la columna `city` para identificar la serie.

- üïí **Features de calendario + tiempo c√≠clico**
  - `hour`: hora del d√≠a (0‚Äì23).
  - `dayofweek`: d√≠a de la semana (0 = lunes).
  - `hour_sin` y `hour_cos`: codificaci√≥n c√≠clica de la hora, para que el modelo entienda que 23:00 y 0:00 est√°n ‚Äúcerca‚Äù en el ciclo diario.

- üè≠ **√çndice sint√©tico de contaminaci√≥n (`pollution_index`)**
  - Se asume una zona industrial en una determinada direcci√≥n (por ejemplo, oeste = 270¬∞).
  - Se calcula qu√© tanto se alinea la direcci√≥n del viento con esa zona.
  - Se combina esa alineaci√≥n con la velocidad del viento.
  - El resultado es un `pollution_index` mayor cuando el viento viene ‚Äúdesde la zona industrial‚Äù y trae m√°s contaminantes hacia el activo.

- ‚öôÔ∏è **Simulaci√≥n de la tasa de corrosi√≥n (`corrosion_rate`)**
  - Se construye una base que aumenta con:
    - **humedad** (`humidity`),
    - **velocidad del viento** (`wind_speed`),
    - **nubosidad** (`clouds`),
    - **√≠ndice de contaminaci√≥n** (`pollution_index`),
    y se penaliza cuando la temperatura se aleja de ~20 ¬∞C.
  - Se agrega ruido aleatorio controlado para que la relaci√≥n no sea perfectamente determinista.
  - Se recorta a valores positivos y se redondea a 2 decimales.

El objetivo no es modelar corrosi√≥n real de forma exacta, sino generar una variable objetivo **coherente f√≠sicamente** con el clima y la presencia de contaminantes, suficiente para demostrar un pipeline completo de regresi√≥n aplicada a integridad de activos.

In [66]:
def build_corrosion_dataset(forecast_df: pd.DataFrame) -> pd.DataFrame:

    df = forecast_df.copy()

    df["timestamp"] = pd.to_datetime(df["timestamp"])
    df["city"] = df["city"].astype(str)

    df["hour"] = df["timestamp"].dt.hour                            # Features de calendario
    df["dayofweek"] = df["timestamp"].dt.dayofweek

    df["hour_sin"] = np.sin(2 * np.pi * df["hour"] / 24)            # Encoding c√≠clico de la hora (0‚Äì23)
    df["hour_cos"] = np.cos(2 * np.pi * df["hour"] / 24)


    # --- √çndice sint√©tico de contaminaci√≥n atmosf√©rica ---

    industrial_dir = 270                                                                # Suposici√≥n: hay una zona industrial al oeste (270¬∞).

    angle_diff = np.abs(((df["wind_deg"] - industrial_dir + 180 )% 360 ) - 180)         # # Distancia angular m√≠nima entre la direcci√≥n del viento y 270¬∞


    dir_factor = 1 - (angle_diff / 180.0)                                               # Mapeamos a [0,1]: 1 = viento desde la zona industrial (270¬∞), 0 = direcci√≥n opuesta
    dir_factor = dir_factor.clip(lower=0)                                               # Recortamos a [0,1] dejando solo valores positivos o 0

    df["pollution_index"] = (dir_factor * df["wind_speed"]).round(3)                    # Determinamos que tanto viento contaminado viene de la zona industrial


     # --- Simulaci√≥n de la tasa de corrosi√≥n ---

    base = (
        0.03 * df["humidity"]              # humedad alta favorece corrosi√≥n
        + 0.05 * df["wind_speed"]          # viento como transporte de contaminantes
        + 0.02 * df["clouds"]              # nubosidad ligada a condensaci√≥n
        - 0.02 * (df["temp"] - 20).abs()   # penaliza alejarse de temp moderadas
        + 0.4  * df["pollution_index"]     # aporte extra por contaminaci√≥n sint√©tica
    )


    # Ruido aleatorio para evitar una relaci√≥n determinista perfecta
    rng = np.random.default_rng(seed=42)
    noise = rng.normal(loc=0.0, scale=0.4, size=len(df))

    df["corrosion_rate"] = base + noise                                   # Sumamos un ruido aleatorio (media 0) para que los datos no sean perfectamente deterministas
    df["corrosion_rate"] = df["corrosion_rate"].clip(lower=0).round(3)    # Dejamos los valores positivos o en 0




    cols = [
        "timestamp",
        "city",
        "temp",
        "humidity",
        "wind_speed",
        "wind_deg",
        "clouds",
        "hour",
        "dayofweek",
        "pollution_index",
        "corrosion_rate",
        "hour_sin",
        "hour_cos",
        ]

    return df[cols].sort_values("timestamp").reset_index(drop=True)



build_corrosion_dataset(forecast_raw)

Unnamed: 0,timestamp,city,temp,humidity,wind_speed,wind_deg,clouds,hour,dayofweek,pollution_index,corrosion_rate,hour_sin,hour_cos
0,2025-11-11 03:00:00,Cipolletti,20.03,56,3.35,25,20,3,1,1.21,2.853,0.7071068,0.7071068
1,2025-11-11 06:00:00,Cipolletti,19.09,54,6.81,212,23,6,1,4.616,3.833,1.0,6.123234000000001e-17
2,2025-11-11 09:00:00,Cipolletti,16.91,46,12.25,230,12,9,1,9.528,6.282,0.7071068,-0.7071068
3,2025-11-11 12:00:00,Cipolletti,17.4,33,13.06,242,5,12,1,11.028,6.478,1.224647e-16,-1.0
4,2025-11-11 15:00:00,Cipolletti,19.73,33,13.93,244,0,15,1,11.918,5.668,-0.7071068,-0.7071068
5,2025-11-11 18:00:00,Cipolletti,22.17,25,16.47,248,16,18,1,14.457,7.112,-1.0,-1.83697e-16
6,2025-11-11 21:00:00,Cipolletti,20.58,28,14.98,247,12,21,1,13.066,7.095,-0.7071068,0.7071068
7,2025-11-12 00:00:00,Cipolletti,16.71,42,12.69,248,7,0,2,11.139,6.298,0.0,1.0
8,2025-11-12 03:00:00,Cipolletti,15.04,47,11.56,251,0,3,2,10.34,6.018,0.7071068,0.7071068
9,2025-11-12 06:00:00,Cipolletti,13.9,50,10.02,244,0,6,2,8.573,4.967,1.0,6.123234000000001e-17


## üìà Visualizaci√≥n del comportamiento de la corrosi√≥n simulada

Para entender mejor el dataset `corrosion_df`, definimos una funci√≥n `plot_corrosion`
que permite elegir entre tres visualizaciones:

1. **`"serie_tiempo"`**  
   Gr√°fico de l√≠nea de la `corrosion_rate` a lo largo del tiempo (`timestamp`).

2. **`"scatter_temp"`**  
   Dispersi√≥n de `temp` vs `corrosion_rate`, coloreado por `pollution_index`.  
   Sirve para ver c√≥mo cambia la corrosi√≥n con la temperatura y el nivel de contaminaci√≥n.

3. **`"box_hour"`**  
   Boxplot de `corrosion_rate` por `hour`, para ver en qu√© horas del d√≠a
   el ambiente resulta m√°s agresivo en promedio.

La funci√≥n recibe el DataFrame y un par√°metro `kind` con el nombre del gr√°fico, y muestra el gr√°fico seleccionado.

In [83]:
 # Importo la libreria plotly

import plotly.express as px
import plotly.io as pio

pio.templates.default = 'plotly_dark'        # Pongo el tema oscuro como estilo por defecto

def plot_corrosion(df: pd.DataFrame, kind: str = "serie_tiempo"):
# Gr√°fico 1: l√≠nea de tiempo de corrosion_rate

    if kind == "1":
      fig = px.line(
            df,
            x="timestamp",                                                   # Eje X: el tiempo
            y="corrosion_rate",                                              # Eje Y: la tasa de corrosi√≥n simulada
            title="Evolucion temporal de la tasa de corrosion simulada",
            markers = True,                                                  # Pongo puntitos en cada observaci√≥n
            hover_data = ["temp", "humidity", "pollution_index"],            # Las variables extras que se muestran al pasar el mouse
        )
      fig.update_layout(xaxis_title=None,
                        yaxis_title="Tasa de corrosi√≥n (unidades simuladas)")
      fig.show()

# Gr√°fico 2: scatter temperatura vs corrosi√≥n, coloreado por contaminaci√≥n

    elif kind == "2":
      fig = px.scatter(
          df,
          x = "temp",                                                      # Eje X: temperatura
          y = "corrosion_rate",                                            # Eje Y: tasa de corrosi√≥n
          color = "pollution_index",                                       # Color del punto seg√∫n √≠ndice de contaminaci√≥n
          title = "Corrosion vs temperatura (color = indice de contaminacion)",
          labels = {"temp": "Temperatura (¬∞C)",
                    "corrosion_rate": "Tasa de corrosi√≥n (unidades simuladas)",
                    "pollution_index": "√çndice de contaminaci√≥n",},
          hover_data=["humidity", "wind_speed", "clouds"],                 # Las variables extras que se muestran al pasar el mouse
        )
      fig.show()

# Gr√°fico 3: boxplot de corrosi√≥n por hora del d√≠a

    elif kind == "3":
      fig = px.box(
          df,
          x = "hour",                                                  # Eje X: hora del d√≠a (0, 3, 6, ...)
          y = "corrosion_rate",                                        # Eje Y: tasa de corrosi√≥n
          title = "Distribucion de corrosion por hora del dia",
          labels = {"hour": "Hora del d√≠a",
                    "corrosion_rate": "Tasa de corrosi√≥n (unidades simuladas)",},
          points='all',
      )
      fig.update_traces(boxmean="sd")

      fig.show()

# Opci√≥n 4: mostrar los tres gr√°ficos uno detr√°s de otro

    elif kind == "4":
      plot_corrosion(df, kind="1")
      plot_corrosion(df, kind="2")
      plot_corrosion(df, kind="3")



corrosion_df = build_corrosion_dataset(forecast_raw)         #  Ac√° construyo el DataFrame final de corrosi√≥n a partir del pron√≥stico

# Bucle infinito hasta que el usuario elija salir

while True:
    choice = input(
        "\n¬øQu√© gr√°fico deseas ver?\n"
        " 1 - Evoluci√≥n temporal de corrosi√≥n simulada\n"
        " 2 - Corrosi√≥n vs Temperatura (color = contaminaci√≥n)\n"
        " 3 - Distribuci√≥n de corrosi√≥n por hora del d√≠a\n"
        " 4 - Todos los gr√°ficos\n"
        " q - Salir\n"
        " Eleg√≠ 1, 2, 3, 4 o q: "
    ).strip().lower()

    if choice in ("q", "salir"):                              # Si el usuario escribe 'q' o 'salir', corto el bucle

        print("Saliendo del visor de gr√°ficos...")
        break

    try:
        plot_corrosion(corrosion_df, kind=choice)             # Intento dibujar el gr√°fico seg√∫n la opci√≥n elegida
    except ValueError as e:
        print(f"Opci√≥n inv√°lida: {e}")



¬øQu√© gr√°fico deseas ver?
 1 - Evoluci√≥n temporal de corrosi√≥n simulada
 2 - Corrosi√≥n vs Temperatura (color = contaminaci√≥n)
 3 - Distribuci√≥n de corrosi√≥n por hora del d√≠a
 4 - Todos los gr√°ficos
 q - Salir
 Eleg√≠ 1, 2, 3, 4 o q: 4



¬øQu√© gr√°fico deseas ver?
 1 - Evoluci√≥n temporal de corrosi√≥n simulada
 2 - Corrosi√≥n vs Temperatura (color = contaminaci√≥n)
 3 - Distribuci√≥n de corrosi√≥n por hora del d√≠a
 4 - Todos los gr√°ficos
 q - Salir
 Eleg√≠ 1, 2, 3, 4 o q: q
Saliendo del visor de gr√°ficos...


## üß± Preparaci√≥n de datos para el modelo

En esta secci√≥n tomo el DataFrame `corrosion_df` y lo separo en:

- **Variables de entrada (X)**:  
  Uso solo variables que vienen del clima y del tiempo:
  - `temp` (temperatura),
  - `humidity` (humedad),
  - `wind_speed` (velocidad del viento),
  - `clouds` (nubosidad),
  - `hour` (hora del d√≠a),
  - `dayofweek` (d√≠a de la semana),
  - `pollution_index` (√≠ndice sint√©tico de contaminaci√≥n).

- **Variable objetivo (y)**:  
  - `corrosion_rate`, la tasa de corrosi√≥n simulada que quiero predecir.

Como se trata de una serie temporal, no mezclo todo al azar:  
ordeno por tiempo y uso un **70% de los datos iniciales para entrenamiento** y el **30% final para test**, simulando ‚Äúentreno con el pasado, pruebo con el futuro‚Äù.

In [74]:
from sklearn.model_selection import train_test_split

corrosion_df = build_corrosion_dataset(forecast_raw)  # Partimos del df ya armado

feature_cols = [                                      # Definimos las variables independientes para predecir corrosion_rate
    "temp",
    "humidity",
    "wind_speed",
    "clouds",
    "hour",
    "dayofweek",
    "pollution_index",
    "hour_sin",
    "hour_cos",
  ]

x = corrosion_df[feature_cols]                        # Asignamos valores a x
y = corrosion_df["corrosion_rate"]                    # Asignamos valores a y

n = len(corrosion_df)                                 # Cantidad total de filas que tiene el DataFrame de corrosi√≥n
split_inx = int(n * 0.7)                              # √çndice de corte: uso el 70% de los datos para entrenar y el 30% final para test (si n = 40 ‚Üí 40 * 0.7 = 28 ‚Üí split_idx = 28)

x_train, x_test = x.iloc[:split_inx], x.iloc[split_inx:]    #  Separo las FEATURES (x) en train y test respetando el orden temporal
y_train, y_test = y.iloc[:split_inx], y.iloc[split_inx:]    # Separo la VARIABLE OBJETIVO (y) en train y test con el mismo corte
x_train.shape, x_test.shape                                 # Miro cu√°ntas filas tiene cada parte (train y test)

((28, 9), (12, 9))

## ü§ñ Modelado y evaluaci√≥n: regresi√≥n lineal vs Random Forest

Con los datos ya separados en `X_train`, `X_test`, `y_train` y `y_test`:

1. **Entreno dos modelos supervisados de regresi√≥n:**
   - `LinearRegression`: modelo lineal simple, sirve como baseline.
   - `RandomForestRegressor`: modelo m√°s flexible basado en muchos √°rboles de decisi√≥n.

2. **Eval√∫o ambos modelos en el conjunto de test** usando:
   - **MAE (Mean Absolute Error)**: error absoluto medio.  
     Indica cu√°nto se equivoca el modelo, en promedio, en unidades de `corrosion_rate`.
   - **R¬≤ (coeficiente de determinaci√≥n)**:  
     mide qu√© proporci√≥n de la variaci√≥n de la corrosi√≥n es explicada por el modelo (m√°s cerca de 1 es mejor).










In [73]:
# Importo librerias
from sklearn.linear_model import LinearRegression
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_absolute_error, r2_score

# =========================
# üîπ Modelo 1: Regresi√≥n lineal
# =========================


lin_reg = LinearRegression()                 # Creo el modelo de regresi√≥n lineal (la "cajita" vac√≠a)
lin_reg.fit(x_train, y_train)                # Le ense√±o al modelo usando los datos de entrenamiento

y_pred_lin = lin_reg.predict(x_test)         # El modelo trata de adivinar y_test a partir de X_test


# Calculo el error medio absoluto (MAE) y el R¬≤ para la regresi√≥n lineal

mae_lin = mean_absolute_error(y_test, y_pred_lin)      # promedio de cu√°nto se equivoca, en unidades de corrosi√≥n
r2_lin = r2_score(y_test, y_pred_lin)                  # qu√© porcentaje de la variaci√≥n explica el modelo


print("Regresi√≥n lineal")
print(" MAE:", round(mae_lin, 3))
print(" R¬≤ :", round(r2_lin, 3))


# =========================
# üîπ Modelo 2: Random Forest
# =========================


rf = RandomForestRegressor(
    n_estimators=200,        # cantidad de √°rboles en el bosque
    random_state=42,         # semilla para que los resultados sean reproducibles
    n_jobs=-1)               # usa todos los n√∫cleos disponibles para entrenar m√°s r√°pido


rf.fit(x_train, y_train)      # Entreno el bosque con los mismos datos de entrenamiento

y_pred_rf = rf.predict(x_test)  # El Random Forest hace sus predicciones sobre el set de test

# Calculo las mismas m√©tricas para el Random Forest
mae_rf = mean_absolute_error(y_test, y_pred_rf)
r2_rf = r2_score(y_test, y_pred_rf)

print("\nRandom Forest")
print(" MAE:", round(mae_rf, 3))
print(" R¬≤ :", round(r2_rf, 3))

Regresi√≥n lineal
 MAE: 0.777
 R¬≤ : 0.872

Random Forest
 MAE: 1.345
 R¬≤ : 0.539


## üìä Visualizaci√≥n del desempe√±o del modelo

Para el modelo final (regresi√≥n lineal) muestro dos gr√°ficos que se complementan:

1. **L√≠nea en el tiempo: corrosi√≥n real vs predicha**
   - Eje X: `timestamp` (tiempo).
   - Eje Y: `corrosion_rate`.
   - Una l√≠nea muestra la corrosi√≥n **real** y otra la **predicha** por el modelo.
   - Si las dos l√≠neas van bastante pegadas, significa que el modelo est√° siguiendo bien el comportamiento de la corrosi√≥n a lo largo del tiempo.

2. **Dispersi√≥n: corrosi√≥n real vs predicha + l√≠nea ideal**
   - Eje X: valores **reales** de `corrosion_rate`.
   - Eje Y: valores **predichos** por el modelo.
   - Cada punto es un instante.  
   - Se agrega una l√≠nea diagonal `y = x` que representa el modelo perfecto:
     - si un punto cae sobre la diagonal ‚Üí predicci√≥n exacta,
     - cuanto m√°s se aleja de la diagonal ‚Üí mayor error.
   - Esto permite ver de forma clara qu√© tan cerca est√°n las predicciones del valor ideal.

Con estos dos gr√°ficos puedo explicar visualmente c√≥mo se comporta el modelo, adem√°s de las m√©tricas num√©ricas (MAE y R¬≤).








In [79]:


# Armamos un DataFrame con la parte de TEST
results_df = corrosion_df.iloc[split_inx:].copy()
results_df["real"] = y_test.values      # valores reales de corrosi√≥n (y_test)
results_df["pred_lin"] = y_pred_lin     # valores predichos por la regresi√≥n lineal


# Gr√°fico de l√≠neas: real vs predicha en el tiempo ===
fig = px.line(
    results_df,
    x="timestamp",                                   # eje X: tiempo
    y=["real", "pred_lin"],                          # dos series: real y predicha
    title="Corrosi√≥n real vs predicha (Regresi√≥n lineal)",
    labels={"value": "Tasa de corrosi√≥n", "timestamp": "Tiempo"},
    template="plotly_dark",
)
fig.update_layout(legend_title_text="Serie")
fig.show()



# Buscamos el m√≠nimo y m√°ximo entre reales y predichos, y damos un margen de 1 unidad
lim_inf = min(y_test.min(), y_pred_lin.min()) - 1
lim_sup = max(y_test.max(), y_pred_lin.max()) + 1

# Gr√°fico de dispersi√≥n: valores reales (X) vs predichos (Y)
fig = px.scatter(x=y_test,                   # Eje X: valores reales
                 y=y_pred_lin,               # Eje Y: valores predichos
                 title = 'Comparaci√≥n entre valores reales y predichos',
                 template = 'plotly_dark',
                 )
# Agrego una traza de puntos CON NOMBRE y estilo (para la leyenda)
fig.add_scatter(
    x=y_test,
    y=y_pred_lin,                             # mismos datos para superponer estilo/leyenda
    mode='markers',
    name='Predicciones',                      # üîπ aparece en la leyenda
    marker=dict(color='royalblue', size=6)
)

# L√≠nea ideal (y = x)

fig.add_scatter(x=[lim_inf, lim_sup],        # extremos de la diagonal
                y=[lim_inf, lim_sup],
                mode='lines',
                name='L√≠nea ideal  (y = x)', # üîπ leyenda
                line=dict(color='orange', dash='dash'))

# Etiquetas y leyenda
fig.update_layout(
    xaxis_title='Corrosi√≥n real',
    yaxis_title='Corrosi√≥n predicha',
    showlegend=True
)

fig.show()

### ‚úÖ Conclusi√≥n del modelo

En estos gr√°ficos se ve que:

- La **l√≠nea de la regresi√≥n lineal** sigue bastante bien a la corrosi√≥n real en el tiempo.
- En el gr√°fico de dispersi√≥n, la mayor√≠a de los puntos queda **cerca de la diagonal** `y = x`, que representa el modelo perfecto (real = predicho).
- El error medio (MAE ‚âà 0.78) es menor a 1 unidad en un rango aproximado de 0 a 9, y el modelo explica cerca del 87% de la variaci√≥n (R¬≤ ‚âà 0.87).

Prob√© tambi√©n un modelo de **Random Forest**, pero en este dataset la corrosi√≥n simulada se construy√≥ casi como una combinaci√≥n lineal de las variables clim√°ticas. Por eso, la **regresi√≥n lineal resulta m√°s simple, interpretable y, en este caso, tambi√©n m√°s precisa**, as√≠ que enfoqu√© los gr√°ficos en ese modelo.