# **Librerias usadas**

In [216]:
import pandas as pd
import numpy as np
from meteostat import Stations, Daily
from datetime import datetime
import csv
import os
import requests
import re
import matplotlib.pyplot as plt
from math import radians, cos, sin, asin, sqrt
from selenium import webdriver
from selenium.webdriver.chrome.options import Options
from selenium.webdriver.common.desired_capabilities import DesiredCapabilities
import folium
import random

# **Web scraping**

## **Secci√≥n 1: Configuraci√≥n e Infraestructura (Scraping)**

Este bloque se encarga de obtener la lista maestra de estaciones.

In [220]:
# --- FUNCI√ìN DE EXTRACCI√ìN (WEB SCRAPING) ---
def extraer_desde_html():
    """
    Escanea la web del SENAMHI para extraer coordenadas ocultas de 969 estaciones.
    """
    print("üåê Iniciando Scraping de Infraestructura SENAMHI...")
    url = "https://www.senamhi.gob.pe/mapas/mapa-estaciones-2/"
    headers = {'User-Agent': 'Mozilla/5.0'}

    try:
        # 1. Petici√≥n a la web
        response = requests.get(url, headers=headers, timeout=10)
        contenido = response.text
        
        # 2. Extracci√≥n con Regex (Patr√≥n: nombre, latitud, longitud)
        regex = r'"nom"\s*:\s*"(.*?)".*?"lat"\s*:\s*(-?\d+\.?\d*).*?"lon"\s*:\s*(-?\d+\.?\d*)'
        matches = re.findall(regex, contenido)
        
        if matches:
            print(f"‚úÖ ¬°√âXITO! Se detectaron {len(matches)} estaciones activas.")
            # Guardamos en CSV para uso del sistema
            df = pd.DataFrame(matches, columns=["ESTACION", "LATITUD", "LONGITUD"])
            df["LATITUD"] = pd.to_numeric(df["LATITUD"])
            df["LONGITUD"] = pd.to_numeric(df["LONGITUD"])
            df.to_csv("SENAMHI_ESTACIONES_FINAL.csv", index=False)
            return df
        else:
            print("‚ö†Ô∏è No se encontraron patrones. Revisar estructura web.")
            return pd.DataFrame()

    except Exception as e:
        print(f"‚ùå Error de conexi√≥n: {e}")
        return pd.DataFrame()
        
if __name__ == "__main__":
    extraer_desde_html()

üåê Iniciando Scraping de Infraestructura SENAMHI...
‚úÖ ¬°√âXITO! Se detectaron 968 estaciones activas.


## **Secci√≥n 2: L√≥gica Geoespacial (Buscador de Vecinos)**

Este bloque recibe al avi√≥n y encuentra la estaci√≥n f√≠sica. Se ha fusionado la b√∫squeda con la validaci√≥n.

In [223]:
# --- BUSCADOR GEOD√âSICO Y AUDITOR√çA ---
def asegurar_infraestructura_senamhi():
    """
    Verifica si tenemos el cat√°logo de estaciones. Si no, ejecuta el Scraping.
    """
    archivo = "SENAMHI_ESTACIONES_FINAL.csv"
    try:
        df = pd.read_csv(archivo)
        print(f"‚úÖ Base de datos cargada: {len(df)} estaciones listas.")
        return df
    except FileNotFoundError:
        print("üåê Iniciando Scraping de Infraestructura SENAMHI...")
        url = "https://www.senamhi.gob.pe/mapas/mapa-estaciones-2/"
        try:
            response = requests.get(url, headers={'User-Agent': 'Mozilla/5.0'}, timeout=15)
            regex = r'"nom"\s*:\s*"(.*?)".*?"lat"\s*:\s*(-?\d+\.?\d*).*?"lon"\s*:\s*(-?\d+\.?\d*)'
            matches = re.findall(regex, response.text)
            
            if matches:
                df = pd.DataFrame(matches, columns=["ESTACION", "LATITUD", "LONGITUD"])
                df["LATITUD"] = pd.to_numeric(df["LATITUD"])
                df["LONGITUD"] = pd.to_numeric(df["LONGITUD"])
                df.to_csv(archivo, index=False)
                print(f"‚úÖ ¬°√âXITO! Se detectaron y guardaron {len(df)} estaciones.")
                return df
        except Exception as e:
            print(f"‚ùå Error cr√≠tico en scraping: {e}")
            return pd.DataFrame()


def encontrar_y_validar_estacion(lat_obj, lon_obj, df_estaciones):
    """
    Busca la estaci√≥n m√°s cercana (Vecino Pr√≥ximo) y audita la confianza.
    """
    # 1. C√°lculo Vectorial de Distancia
    df_estaciones['distancia'] = np.sqrt(
        (df_estaciones['LATITUD'] - lat_obj)**2 + 
        (df_estaciones['LONGITUD'] - lon_obj)**2
    ) * 111.1  # Conversi√≥n aprox de grados a km
    
    # 2. Ganadora
    mejor = df_estaciones.sort_values('distancia').iloc[0]
    dist_km = round(mejor['distancia'], 2)
    
    # 3. Sem√°foro de Confianza
    if dist_km <= 5.0: confianza = "üü¢ ALTA (Excelente)"
    elif dist_km <= 20.0: confianza = "üü° MEDIA (Aceptable)"
    else: confianza = "üî¥ BAJA (No Confiable)"
    
    return {
        "ESTACION": mejor['ESTACION'],
        "LAT": mejor['LATITUD'],
        "LON": mejor['LONGITUD'],
        "DIST_KM": dist_km,
        "CONFIANZA": confianza
    }

## **Secci√≥n 3: Inteligencia Clim√°tica (Meteostat + Feature Engineering)**

Este bloque descarga la historia real y calcula el riesgo operativo.

In [226]:
def obtener_inteligencia_climatica(lat, lon, inicio, fin):
    """
    Descarga historial real y calcula indicadores de riesgo operativo.
    """
    # 1. Descarga de Meteostat
    try:
        estaciones = Stations().nearby(lat, lon)
        estacion_id = estaciones.fetch(1).index[0]
        data = Daily(estacion_id, inicio, fin).fetch()
    except:
        return pd.DataFrame() # Retorna vac√≠o si falla la API

    if data.empty: return pd.DataFrame()
    
    # 2. Feature Engineering (C√°lculo de Indicadores)
    df = data.copy()
    # Limpieza
    df['wspd'] = df['wspd'].fillna(df['wspd'].median())
    df['pres'] = df['pres'].fillna(1013.0)
    df['prcp'] = df['prcp'].fillna(0)

    # Umbrales Din√°micos
    umbral_viento = df['wspd'].quantile(0.90) # Percentil 90
    
    # 3. Clasificador de Severidad (Pipeline L√≥gico)
    condiciones = []
    for _, row in df.iterrows():
        score = 0
        if row['wspd'] > umbral_viento: score += 1
        if row['prcp'] > 5.0: score += 1 # Lluvia fuerte
        
        # Detector Forense (Nieve/Aguanieve)
        if row['prcp'] > 0 and row['tmin'] <= 2.0:
            etiqueta = "‚ùÑÔ∏è RIESGO NIEVE"
        elif score >= 2:
            etiqueta = "üî¥ SEVERA (Tormenta)"
        elif score == 1:
            etiqueta = "üü° MODERADA"
        else:
            etiqueta = "üü¢ NORMAL"
        condiciones.append(etiqueta)

    df['RIESGO_OPERATIVO'] = condiciones
    return df[['tmin', 'tmax', 'prcp', 'wspd', 'pres', 'RIESGO_OPERATIVO']]

## **Secci√≥n 4: Visualizaci√≥n**

Genera una auditor√≠a forense visual mediante un mapa interactivo. Este bloque renderiza la ubicaci√≥n de la aeronave y la estaci√≥n SENAMHI validada, trazando el vector de distancia y el radio de confianza para certificar gr√°ficamente la precisi√≥n de los datos meteorol√≥gicos utilizados.

In [228]:
def generar_mapa_auditoria(lat_vuelo, lon_vuelo, datos_estacion):
    print("üé® Generando mapa de evidencia forense...")
    m = folium.Map(location=[lat_vuelo, lon_vuelo], zoom_start=13)
    
    # Marcadores
    folium.Marker([lat_vuelo, lon_vuelo], popup="AERONAVE", icon=folium.Icon(color="red", icon="plane", prefix="fa")).add_to(m)
    folium.Marker([datos_estacion['LAT'], datos_estacion['LON']], popup=f"SENAMHI: {datos_estacion['ESTACION']}", icon=folium.Icon(color="green", icon="cloud", prefix="fa")).add_to(m)
    
    # L√≠nea de conexi√≥n y Radio de Confianza
    folium.PolyLine([[lat_vuelo, lon_vuelo], [datos_estacion['LAT'], datos_estacion['LON']]], color="blue", dash_array='5, 10').add_to(m)
    folium.Circle([datos_estacion['LAT'], datos_estacion['LON']], radius=5000, color="green", fill=True, fill_opacity=0.1, popup="Radio Confianza 5km").add_to(m)
    
    m.save("MAPA_AUDITORIA_FINAL.html")
    print("‚úÖ Mapa guardado: MAPA_AUDITORIA_FINAL.html")

## **¬øQu√© tiempo hace en esas estaciones y qu√© tan peligroso es para volar?**

## **Secci√≥n 5: Ejecuci√≥n Maestra (Merge + An√°lisis de datos)**

Este es el √∫nico bloque que necesitas ejecutar al final para demostrar que todo funciona junto.

In [280]:
# ==============================================================================
# SECCI√ìN 5: EJECUCI√ìN MAESTRA (PIPELINE + EDA COMPLETO)
# ==============================================================================
if __name__ == "__main__":
    print("\nüöÄ INICIANDO PIPELINE DE INTEGRACI√ìN AERO-METEOROL√ìGICA...\n")

    # 1. INPUT (Simulaci√≥n de Vuelo en Aproximaci√≥n)
    lat_vuelo, lon_vuelo = -12.02, -77.11 
    print(f"üìç Aeronave detectada en coordenadas: {lat_vuelo}, {lon_vuelo}")

    # ---------------------------------------------------------
    # FASE 1: INFRAESTRUCTURA (Scraping)
    # ---------------------------------------------------------
    df_infra = asegurar_infraestructura_senamhi()

    if not df_infra.empty:
        # ---------------------------------------------------------
        # FASE 2: L√ìGICA ESPACIAL (Buscador Geod√©sico)
        # ---------------------------------------------------------
        resultado_geo = encontrar_y_validar_estacion(lat_vuelo, lon_vuelo, df_infra)
        print(f"\nüì° Estaci√≥n Vinculada: {resultado_geo['ESTACION']}")
        print(f"üìè Distancia al objetivo: {resultado_geo['DIST_KM']} km")
        print(f"üö¶ Auditor√≠a de Confianza: {resultado_geo['CONFIANZA']}")

        # ---------------------------------------------------------
        # FASE 3: INTELIGENCIA (Meteostat Real + Feature Engineering)
        # ---------------------------------------------------------
        print("\n‚ö° Descargando y Analizando Historial Operativo (2024)...")
        # Esta funci√≥n ya limpia y clasifica internamente
        df_riesgo = obtener_inteligencia_climatica(
            resultado_geo['LAT'], 
            resultado_geo['LON'], 
            datetime(2024, 1, 1), 
            datetime(2024, 12, 31)
        )

        if not df_riesgo.empty:
            # ---------------------------------------------------------
            # FASE 4: AN√ÅLISIS EXPLORATORIO DE DATOS (EDA COMPLETO)
            # ---------------------------------------------------------
            print("\n" + "="*50)
            print("üìä REPORTE T√âCNICO Y AN√ÅLISIS EXPLORATORIO (EDA)")
            print("="*50)

            print("\n1Ô∏è‚É£ VISTA PREVIA DE DATOS PROCESADOS (Head):")
            print(df_riesgo.head().to_string())

            print("\n2Ô∏è‚É£ ESTRUCTURA DEL DATASET (Info):")
            df_riesgo.info() # Se imprime directo en consola

            print("\n3Ô∏è‚É£ ESTAD√çSTICAS DESCRIPTIVAS (Describe):")
            print(df_riesgo.describe().to_string())

            print("\n4Ô∏è‚É£ DISTRIBUCI√ìN DE RIESGO OPERATIVO (Conteo):")
            print(df_riesgo['RIESGO_OPERATIVO'].value_counts().to_string())

            # ---------------------------------------------------------
            # FASE 5: ENTREGABLES FINALES (CSV + MAPA)
            # ---------------------------------------------------------
            print("\n" + "="*50)
            print("üì¶ GENERANDO ENTREGABLES FINALES")
            print("="*50)
            
            print("üìã Muestra de Clasificaci√≥n Final (√öltimos 5 d√≠as):")
            print(df_riesgo.tail(5)[['wspd', 'prcp', 'RIESGO_OPERATIVO']].to_string())
            
            # Guardar CSV
            df_riesgo.to_csv("senamhi_clima_indicadores.csv")
            print("\nüíæ Archivo CSV guardado: 'senamhi_clima_indicadores.csv'")
            
            # Generar Mapa
            generar_mapa_auditoria(lat_vuelo, lon_vuelo, resultado_geo)
            
        else:
            print("‚ùå Error: No se encontraron datos clim√°ticos en Meteostat para esta ubicaci√≥n.")
    else:
        print("‚ùå Fallo cr√≠tico en infraestructura: No se pudo cargar la base de datos.")


üöÄ INICIANDO PIPELINE DE INTEGRACI√ìN AERO-METEOROL√ìGICA...

üìç Aeronave detectada en coordenadas: -12.02, -77.11
‚úÖ Base de datos cargada: 968 estaciones listas.

üì° Estaci√≥n Vinculada: SAN MARTIN DE PORRES
üìè Distancia al objetivo: 3.09 km
üö¶ Auditor√≠a de Confianza: üü¢ ALTA (Excelente)

‚ö° Descargando y Analizando Historial Operativo (2024)...

üìä REPORTE T√âCNICO Y AN√ÅLISIS EXPLORATORIO (EDA)

1Ô∏è‚É£ VISTA PREVIA DE DATOS PROCESADOS (Head):
            tmin  tmax  prcp  wspd    pres RIESGO_OPERATIVO
time                                                       
2024-01-01  22.0  25.2   1.0  19.1  1014.0         üü¢ NORMAL
2024-01-02  22.0  26.0   0.0  20.9  1013.4       üü° MODERADA
2024-01-03  22.0  25.3   0.0  21.5  1013.5       üü° MODERADA
2024-01-04  21.8  26.0   0.0  16.4  1014.1         üü¢ NORMAL
2024-01-05  22.0  26.0   0.0  24.7  1013.2       üü° MODERADA

2Ô∏è‚É£ ESTRUCTURA DEL DATASET (Info):
<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 36