# üõ°Ô∏èProyecto SafeStep: Asistente AR para Visi√≥n Reducida

Para ver el proyecto en su totalidad y no solo el notebook con la implementaci√≥n y ejecuci√≥n de este, puede acceder al siguiente repositorio en Github, que contiene los v√≠deos de entrada y salida, los audios con las √≥rdenes y los generados por el asistente, as√≠ como las im√°genes tambi√©n de entrada y salida utilizadas. Adem√°s, dispone de un README.md que explica con detalle el flujo de trabajo llevado a cabo para la realizaci√≥n del SafeStep:

https://github.com/aos35/multimodal.git


**SafeStep** es un sistema de asistencia inteligente dise√±ado para aumentar la autonom√≠a y seguridad de peatones con visi√≥n reducida en entornos urbanos. Utilizando t√©cnicas avanzadas de **Visi√≥n Artificial y Realidad Aumentada (AR)**, el sistema procesa el entorno en tiempo real para identificar peligros, interpretar se√±ales y ofrecer feedback multimodal (visual, auditivo y h√°ptico).

### üéØObjetivos Principales

El sistema busca resolver la dificultad de detectar elementos cr√≠ticos en el tr√°fico (como el estado de un sem√°foro lejano o un coche silencioso acerc√°ndose) mediante:

1. **Detecci√≥n de Peligros Din√°micos:** Monitorizaci√≥n constante de veh√≠culos y peatones con alertas de colisi√≥n.

2. **Mejora Visual (Smart Zoom):** Una "Lupa Inteligente" que detecta, recorta y ampl√≠a autom√°ticamente sem√°foros y se√±ales lejanas.

3. **Navegaci√≥n Segura:** Identificaci√≥n de pasos de cebra y estimaci√≥n de distancia a objetos.

4. **Interfaz de Alto Contraste:** UI accesible con c√≥digos de color simplificados (üî¥ Peligro / üü¢ Seguro) y textos de gran tama√±o.

5. **Accesibilidad Multimodal**: Generaci√≥n de avisos tanto visuales como sonoros para usuarios con baja visi√≥n o en situaciones de alta distracci√≥n.

6. **Personalizaci√≥n de Alertas**: Adaptaci√≥n de la cantidad y tipo de avisos seg√∫n el contexto o preferencias del usuario.

### üõ†Ô∏è Tecnolog√≠as Implementadas

Este prototipo integra un pipeline complejo de procesamiento de video:

- **YOLOv8 (Ultralytics):** Para la detecci√≥n y tracking (seguimiento) de objetos en tiempo real.

- **OpenCV:** Para el procesamiento de imagen (CLAHE para visi√≥n nocturna, detecci√≥n de l√≠neas de carril, superposiciones gr√°ficas).

- **EasyOCR:** Para el reconocimiento √≥ptico de caracteres (OCR) en se√±ales de tr√°fico y carteles.

- **Whisper (OpenAI):** Para la comprensi√≥n de comandos de voz del usuario.

- **gTTS (Google Text-to-Speech):** Para la generaci√≥n de avisos auditivos y lectura de se√±ales.

- **Spacy:** Para el procesamiento de lenguaje natural (NLP) e interpretaci√≥n de intenciones.

- **MoviePy:** Para la edici√≥n de video y sincronizaci√≥n de audio/video.

El sistema combina t√©cnicas avanzadas de visi√≥n por computador, procesamiento de lenguaje y s√≠ntesis de voz para ofrecer una experiencia accesible y robusta en tiempo real.

## 1. Preparaci√≥n del Entorno
Instalaci√≥n de todas las dependencias necesarias para el proyecto.

In [None]:
# üîß Instalaci√≥n de librer√≠as base (si no est√°n instaladas)
!pip install -q openai-whisper ultralytics git+https://github.com/openai/CLIP.git
!pip install -q moviepy gTTS spacy
!python -m spacy download es_core_news_sm
!pip install -q easyocr

## 2. Configuraci√≥n y Carga de Modelos
Inicializaci√≥n de modelos de IA (YOLO, Whisper, Spacy, EasyOCR) y configuraci√≥n de hardware (GPU/CPU).

In [None]:
# 1Ô∏è‚É£ CONFIGURACI√ìN Y CARGA DE MODELOS (Ejecutar solo una vez)
# ==================================================================================
# Este bloque inicializa todos los modelos de IA y configura el entorno.
# Se ejecuta una sola vez al principio para evitar recargar modelos pesados en cada video.
# ==================================================================================

import os
import torch
import whisper
import spacy
from ultralytics import YOLO
import cv2
import numpy as np
from gtts import gTTS
import easyocr
from IPython.display import Audio, display
import matplotlib.pyplot as plt
import numpy as np
import gc
import time
from spacy.matcher import PhraseMatcher

# Intentar importar MoviePy (Manejo de compatibilidad entre versiones 1.x y 2.x)
try:
    from moviepy.editor import VideoFileClip, AudioFileClip, CompositeAudioClip
    IS_MOVIEPY_2 = False
except ImportError:
    from moviepy.video.io.VideoFileClip import VideoFileClip
    from moviepy.audio.io.AudioFileClip import AudioFileClip
    from moviepy.audio.AudioClip import CompositeAudioClip
    IS_MOVIEPY_2 = True

# --- CONFIGURACI√ìN DE HARDWARE ---
# Detecta si hay una GPU NVIDIA disponible para acelerar el procesamiento (CUDA)
device = 'cuda' if torch.cuda.is_available() else 'cpu'
print(f'‚úÖ Usando dispositivo: {device}')

print("‚è≥ Cargando modelos (Whisper, Spacy, YOLO, EasyOCR)...")

# --- 1. MODELO DE AUDIO (Whisper) ---
# Se usa para transcribir comandos de voz del usuario a texto.
model_whisper = whisper.load_model('base')

def transcribir_audio(ruta_audio):
    """Convierte un archivo de audio en texto usando OpenAI Whisper."""
    display(Audio(ruta_audio, autoplay=False))
    print(f"üéôÔ∏è Transcribiendo {ruta_audio}...")
    resultado = model_whisper.transcribe(ruta_audio, language="es")["text"]
    print(f"üó£Ô∏è Usuario dice: '{resultado}'")
    return resultado.strip()


# --- 2. MODELO DE NLP (Spacy) ---
# Se usa para entender la intenci√≥n del usuario (ej: "¬øEs seguro cruzar?" vs "Lee el cartel")
nlp = spacy.load("es_core_news_sm")

# Configuraci√≥n del PhraseMatcher para detectar intenciones espec√≠ficas
matcher = PhraseMatcher(nlp.vocab, attr="LEMMA")

# A√±adir patrones para diferentes intenciones
matcher.add("VEHICULOS", [nlp("coche"), nlp("veh√≠culo")])
matcher.add("PASO_CEBRA", [nlp("paso de cebra"), nlp("peat√≥n")])
matcher.add("SEMAFORO", [nlp("sem√°foro"), nlp("luz roja")])
matcher.add("SE√ëALES", [nlp("carteles"), nlp("se√±ales")])
matcher.add("SOLO_PELIGRO", [nlp("peligro"), nlp("cuidado"), nlp("alerta"), nlp("silencio")])
matcher.add("TODO", [nlp("todo"), nlp("general")])

# Funci√≥n para analizar la intenci√≥n del usuario
def analizar_intencion_spacy(texto):
    doc = nlp(texto.lower())
    matches = matcher(doc)
    # Retorna la primera intenci√≥n detectada
    if matches:
        return nlp.vocab.strings[matches[0][0]]
    # Si no se detecta ninguna intenci√≥n, retorna "TODO"
    return "TODO"

# --- 3. MODELO DE VISI√ìN (YOLOv8) ---
# Detecta objetos en tiempo real (coches, personas, sem√°foros, se√±ales).
model_yolo = YOLO('yolov8n.pt')

# --- 4. MODELO DE OCR (EasyOCR) ---
# Lee texto en im√°genes. Se configura para espa√±ol e ingl√©s.
reader = easyocr.Reader(['es', 'en'], gpu=True)
print("‚úÖ Modelos cargados.")

# Clases de inter√©s de COCO dataset para tr√°fico:
# 0: Persona, 1: Bici, 2: Coche, 3: Moto, 5: Bus, 7: Cami√≥n, 9: Sem√°foro, 11: Se√±al Stop
CLASES_TRAFICO = [0, 1, 2, 3, 5, 7, 9, 11] 

## ‚öôÔ∏è Configuraci√≥n y Carga de Modelos

Este bloque constituye la **fase de inicializaci√≥n global del sistema SafeStep** y se ejecuta **una √∫nica vez** al inicio del entorno. Su objetivo principal es **preparar todos los modelos de inteligencia artificial y dependencias necesarias**, evitando recargas innecesarias que penalizar√≠an gravemente el rendimiento durante el procesamiento de v√≠deo.

En primer lugar, se importan las librer√≠as fundamentales para **visi√≥n artificial, procesamiento de lenguaje, audio y gesti√≥n de v√≠deo**, junto con utilidades auxiliares para visualizaci√≥n, control de memoria y compatibilidad entre versiones. Destaca el manejo expl√≠cito de **MoviePy 1.x y 2.x**, garantizando portabilidad del c√≥digo entre distintos entornos sin romper la ejecuci√≥n.

A continuaci√≥n, el sistema detecta autom√°ticamente la disponibilidad de **aceleraci√≥n por GPU (CUDA)**, permitiendo que los modelos m√°s costosos computacionalmente (YOLO y EasyOCR) se ejecuten en GPU cuando est√° disponible, o en CPU como alternativa segura. Esta detecci√≥n din√°mica asegura un comportamiento robusto tanto en entornos locales como en notebooks o servidores.

Se inicializan despu√©s los **modelos principales del pipeline**:
- **Whisper**, encargado de transcribir comandos de voz del usuario a texto, habilitando una interacci√≥n natural y accesible.
- **spaCy**, utilizado para el an√°lisis sem√°ntico del texto y la interpretaci√≥n de la intenci√≥n del usuario mediante un `PhraseMatcher` basado en lemas, lo que permite reconocer √≥rdenes incluso con variaciones ling√º√≠sticas.
- **YOLOv8**, responsable de la detecci√≥n y seguimiento de objetos cr√≠ticos del entorno urbano en tiempo real.
- **EasyOCR**, configurado para espa√±ol e ingl√©s, destinado a la lectura de texto en se√±ales y carteles.

Finalmente, se definen las **clases de tr√°fico relevantes** del dataset COCO, delimitando expl√≠citamente los objetos que SafeStep considera cr√≠ticos para la seguridad peatonal (veh√≠culos, peatones, sem√°foros y se√±ales). Esta selecci√≥n reduce el ruido visual y optimiza el rendimiento del sistema, alineando la detecci√≥n con los objetivos funcionales del proyecto.

En conjunto, este bloque establece una **arquitectura modular, eficiente y reutilizable**, sentando las bases t√©cnicas para el procesamiento en tiempo real sin comprometer estabilidad ni escalabilidad.


In [None]:
# --- FUNCIONES AUXILIARES DE VISI√ìN ARTIFICIAL ---

def mejorar_contraste_noche(frame):
    """
    Mejora la visibilidad en condiciones de baja luz usando CLAHE (Contrast Limited Adaptive Histogram Equalization).
    Convierte a espacio de color LAB, mejora el canal de Luminosidad (L) y reconvierte.
    """
    # Convertir a LAB y aplicar CLAHE
    lab = cv2.cvtColor(frame, cv2.COLOR_RGB2LAB)
    # Dividir canales
    l, a, b = cv2.split(lab)
    # Crear objeto CLAHE
    clahe = cv2.createCLAHE(clipLimit=3.0, tileGridSize=(8,8))
    # Aplicar CLAHE al canal L
    cl = clahe.apply(l)
    # Recombinar canales y convertir de vuelta a RGB
    limg = cv2.merge((cl, a, b))
    return cv2.cvtColor(limg, cv2.COLOR_LAB2RGB)

def analizar_estado_semaforo(img_roi):
    """
    Determina si un sem√°foro est√° en ROJO o VERDE analizando la cantidad de p√≠xeles de color en la regi√≥n detectada.
    Usa rangos de color en espacio HSV.
    """
    # Verificar que la imagen no est√© vac√≠a
    if img_roi.size == 0: 
        return "DESCONOCIDO"
    # Convertir a espacio HSV
    hsv = cv2.cvtColor(img_roi, cv2.COLOR_RGB2HSV)
    
    # Rangos para color ROJO (tiene dos rangos en HSV porque el rojo da la vuelta al c√≠rculo crom√°tico)
    lower_red1 = np.array([0, 70, 50]); upper_red1 = np.array([10, 255, 255])
    lower_red2 = np.array([170, 70, 50]); upper_red2 = np.array([180, 255, 255])
    
    # Rango para color VERDE
    lower_green = np.array([35, 70, 50]); upper_green = np.array([90, 255, 255])
    
    # M√°scaras para cada color
    mask_r1 = cv2.inRange(hsv, lower_red1, upper_red1)
    mask_r2 = cv2.inRange(hsv, lower_red2, upper_red2)
    mask_g = cv2.inRange(hsv, lower_green, upper_green)
    
    # Contar p√≠xeles detectados
    red_pixels = cv2.countNonZero(mask_r1) + cv2.countNonZero(mask_r2)
    green_pixels = cv2.countNonZero(mask_g)
    total = img_roi.shape[0] * img_roi.shape[1]
    
    # Umbral del 5% de p√≠xeles para considerar que el color est√° activo
    if red_pixels > green_pixels and red_pixels > total * 0.05: return "ROJO"
    elif green_pixels > red_pixels and green_pixels > total * 0.05: return "VERDE"
    return "DESCONOCIDO"

def estimar_distancia(y_bottom, h_img):
    """
    Estima la distancia de un objeto bas√°ndose en la posici√≥n Y de su base en la imagen.
    LIMITACI√ìN: Utiliza 'Flat Earth Assumption' (Suposici√≥n de Tierra Plana).
    Asume que la c√°mara est√° a una altura fija y √°ngulo constante.
    El horizonte est√° hardcodeado al 45% de la altura de la imagen.
    """
    # Calcular horizonte
    horizonte = h_img * 0.45 
    if y_bottom <= horizonte: return 99.9
    # 800 es un factor de calibraci√≥n emp√≠rico para la c√°mara usada
    return round(800 / (y_bottom - horizonte), 1)

def dibujar_paso_cebra_seguro(frame):
    """
    Detecta y resalta pasos de cebra usando umbralizaci√≥n y detecci√≥n de contornos.
    Busca patrones rectangulares blancos en la parte inferior de la imagen.
    """
    # Convertir a gris y umbralizar
    img_gray = cv2.cvtColor(frame, cv2.COLOR_RGB2GRAY)
    h, w = frame.shape[:2]
    _, mask = cv2.threshold(img_gray, 200, 255, cv2.THRESH_BINARY)
    
    # Solo buscar en la mitad inferior de la imagen
    roi_mask = np.zeros_like(mask); roi_mask[int(h*0.55):, :] = mask[int(h*0.55):, :]
    
    # Detectar contornos
    contours, _ = cv2.findContours(roi_mask, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
    # Dibujar contornos detectados
    overlay = frame.copy(); hay_paso = False
    
    # Filtrar y dibujar contornos que podr√≠an ser franjas del paso de cebra
    for cnt in contours:
        if 200 < cv2.contourArea(cnt) < 50000:
            x, y, w_c, h_c = cv2.boundingRect(cnt)
            # Filtrar por relaci√≥n de aspecto (las franjas suelen ser rectangulares)
            if w_c / float(h_c) > 0.5:
                cv2.drawContours(overlay, [cnt], -1, (0, 255, 0), -1); hay_paso = True
                
    return cv2.addWeighted(overlay, 0.4, frame, 0.6, 0) if hay_paso else frame

def dibujar_radar(frame, objetos_detectados):
    """
    Dibuja un minimapa tipo radar en la esquina inferior derecha.
    Muestra la posici√≥n relativa de los objetos detectados (vista cenital).
    """
    h, w = frame.shape[:2]; radar_size = 150 # Reducido para no ocupar tanta pantalla
    radar_bg = np.zeros((radar_size, radar_size, 3), dtype=np.uint8)
    cx = radar_size // 2; by = radar_size
    
    # Dibujar arcos de distancia (m√°s gruesos y visibles)
    cv2.ellipse(radar_bg, (cx, by), (radar_size, radar_size), 0, 180, 360, (0, 150, 0), 3)
    cv2.circle(radar_bg, (cx, by), int(radar_size * 0.33), (0, 200, 0), 2)
    cv2.circle(radar_bg, (cx, by), int(radar_size * 0.66), (0, 200, 0), 2)
    
    # Dibujar al usuario (punto blanco ajustado)
    cv2.circle(radar_bg, (cx, by - 10), 10, (255, 255, 255), -1)
    
    for (cls, x_c, dist) in objetos_detectados:
        if dist > 30: continue # Solo mostrar objetos cercanos (<30m)
        
        # Mapear coordenadas de pantalla a coordenadas de radar
        r_x = int((x_c / w) * radar_size)
        r_y = max(0, min(radar_size, by - int((dist / 30.0) * radar_size)))
        
        # Rojo para veh√≠culos, Amarillo para otros (Puntos ajustados)
        color = (0, 0, 255) if cls in [2, 3, 5, 7] else (0, 255, 255)
        cv2.circle(radar_bg, (r_x, r_y), 8, color, -1)
        
    # Superponer el radar en el frame original
    roi = frame[h-radar_size-10:h-10, w-radar_size-10:w-10]
    res = cv2.addWeighted(roi, 0.5, radar_bg, 1.0, 0) # Radar totalmente opaco sobre fondo semitransparente
    frame[h-radar_size-10:h-10, w-radar_size-10:w-10] = res
    
    # Marco y etiqueta (Texto ajustado)
    cv2.rectangle(frame, (w-radar_size-10, h-radar_size-10), (w-10, h-10), (255, 255, 255), 4)
    cv2.putText(frame, "RADAR", (w-radar_size, h-radar_size-15), cv2.FONT_HERSHEY_SIMPLEX, 0.8, (255, 255, 255), 2)
    return frame

def ocr_carteles_images(img_path, reader, factor=5, mostrar=True):
    # --- Cargar imagen ---
    img = cv2.imread(img_path)
    img_rgb = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
    h_img, w_img = img.shape[:2]

    # --- Detectar zonas claras (cartel) ---
    hsv = cv2.cvtColor(img_rgb, cv2.COLOR_RGB2HSV)
    mask = cv2.inRange(hsv, (0, 0, 140), (180, 80, 255))
    kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (15, 8))
    mask = cv2.morphologyEx(mask, cv2.MORPH_CLOSE, kernel)
    mask = cv2.morphologyEx(mask, cv2.MORPH_OPEN, kernel)

    contours, _ = cv2.findContours(mask, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)
    candidatos = []

    for cnt in contours:
        x, y, wc, hc = cv2.boundingRect(cnt)
        area = wc * hc
        aspect = wc / max(hc, 1)
        if area > 400 and 1.5 < aspect < 12 and y < h_img * 0.65:
            candidatos.append((x, y, wc, hc, area))

    if not candidatos:
        print("No se detectaron carteles.")
        return img_rgb

    # Ordenar por √°rea
    candidatos.sort(key=lambda c: c[4], reverse=True)

    # Lista de palabras OCR global
    palabras = []

    # --- Procesar cada candidato ---
    for c in candidatos:
        x, y, wc, hc, _ = c
        margin = 8
        x1, y1 = max(0, x - margin), max(0, y - margin)
        x2, y2 = min(w_img, x + wc + margin), min(h_img, y + hc + margin)
        roi = img_rgb[y1:y2, x1:x2]
        roi_big = cv2.resize(roi, None, fx=factor, fy=factor, interpolation=cv2.INTER_CUBIC)

        # OCR
        resultados = reader.readtext(
            roi_big,
            paragraph=False,
            min_size=5,
            text_threshold=0.35,
            low_text=0.25,
            width_ths=0.9
        )

        # Construir lista de palabras
        for bbox, text, prob in resultados:
            escala_x = (x2 - x1) / roi_big.shape[1]
            escala_y = (y2 - y1) / roi_big.shape[0]
            bbox_scaled = [[int(px * escala_x + x1), int(py * escala_y + y1)] for px, py in bbox]
            palabras.append({"text": text, "conf": float(prob), "bbox": bbox_scaled})

    # --- Construir texto final ---
    line_threshold = 25
    lineas = []

    for p in palabras:
        y_center = sum([pt[1] for pt in p["bbox"]]) / 4
        p["y_center"] = y_center
        asignada = False
        for l in lineas:
            if abs(l["y"] - y_center) < line_threshold:
                l["items"].append(p)
                asignada = True
                break
        if not asignada:
            lineas.append({"y": y_center, "items": [p]})

    lineas.sort(key=lambda l: l["y"])
    texto_final = []
    confs = []

    for l in lineas:
        l["items"].sort(key=lambda p: sum([pt[0] for pt in p["bbox"]]) / 4)
        linea_txt = []
        for p in l["items"]:
            palabra_mayus = p["text"].upper()
            linea_txt.append(palabra_mayus)
            confs.append(p["conf"])
        if linea_txt:
            texto_final.append(" ".join(linea_txt))

    texto_final_str = " ".join(texto_final)
    confianza_media = round(np.mean(confs), 2) if confs else 0.0

    # --- Dibujar solo bounding boxes ---
    for p in palabras:
        x_min = min([pt[0] for pt in p["bbox"]])
        y_min = min([pt[1] for pt in p["bbox"]])
        x_max = max([pt[0] for pt in p["bbox"]])
        y_max = max([pt[1] for pt in p["bbox"]])
        cv2.rectangle(img_rgb, (x_min, y_min), (x_max, y_max), (0, 255, 0), 3)

    # --- Dibujar texto final en banda inferior ---
    alto_banda = int(h_img * 0.18)
    overlay = img_rgb.copy()
    cv2.rectangle(overlay, (0, h_img - alto_banda), (w_img, h_img), (0, 0, 0), -1)
    escala = 2.5
    grosor = 4
    (tw, th), _ = cv2.getTextSize(texto_final_str, cv2.FONT_HERSHEY_DUPLEX, escala, grosor)
    while tw > w_img - 20 and escala > 0.5:
        escala -= 0.1
        (tw, th), _ = cv2.getTextSize(texto_final_str, cv2.FONT_HERSHEY_DUPLEX, escala, grosor)
    x_text = max(10, (w_img - tw) // 2)
    y_text = h_img - (alto_banda // 2) + (th // 2)
    cv2.putText(overlay, texto_final_str, (x_text, y_text),
                cv2.FONT_HERSHEY_DUPLEX, escala, (255, 255, 0), grosor, cv2.LINE_AA)

    # --- Imprimir confianzas solo por consola ---
    print("\n--- OCR PALABRA A PALABRA ---")
    for p in palabras:
        print(f"{p['text']:<20} conf={p['conf']:.2f}")
    print("\n--- OCR FINAL ---")
    print(f"Texto: {texto_final_str}")
    print(f"Confianza media: {confianza_media}")

    if mostrar:
        plt.figure(figsize=(12, 6))
        plt.imshow(overlay)
        plt.axis("off")
        plt.show()

    return overlay

# --- GENERACI√ìN DE AUDIOS PREGRABADOS ---
# Generamos archivos de audio para las alertas comunes para no usar TTS en tiempo real (latencia).
if not os.path.exists("audios"): 
    os.makedirs("audios")
avisos = {
    "PELIGRO_MOVIMIENTO": "Peligro, veh√≠culo en movimiento detectado. No cruce.",
    "COCHE_QUIETO": "Veh√≠culo detenido detectado.",
    "PEATONES": "Precauci√≥n, hay peatones cerca.",
    "SEMAFORO_ROJO": "Sem√°foro en rojo. Espere.",
    "SEMAFORO_VERDE": "Sem√°foro en verde. Puede cruzar con precauci√≥n.",
    "SE√ëAL": "Se√±al de tr√°fico detectada."
}
for key, texto in avisos.items():
    f = f"audios/aviso_{key}.mp3"
    if not os.path.exists(f): gTTS(texto, lang='es').save(f)
    
print("‚úÖ Configuraci√≥n completada. Modelos y audios listos.")

## üß† Funciones Auxiliares de Visi√≥n Artificial

Este bloque agrupa funciones complementarias destinadas a **mejorar la interpretaci√≥n visual del entorno**, aportar contexto sem√°ntico y reforzar la toma de decisiones del sistema SafeStep de forma eficiente y en tiempo real.

- ### üåô Mejora de visibilidad en baja iluminaci√≥n
Se aplica **CLAHE** sobre el canal de luminosidad (espacio LAB) para aumentar el contraste en escenas nocturnas o con poca luz, mejorando la detecci√≥n sin amplificar excesivamente el ruido.

- ### üö¶ An√°lisis del estado del sem√°foro
Se determina si un sem√°foro est√° en **ROJO** o **VERDE** mediante segmentaci√≥n por color en el espacio **HSV**, contabilizando p√≠xeles relevantes. Es una soluci√≥n ligera, r√°pida y suficiente para un elemento cr√≠tico de seguridad.

- ### üìè Estimaci√≥n de distancia
La distancia a los objetos se estima a partir de la posici√≥n vertical de su base en la imagen, utilizando la *Flat Earth Assumption*. Aunque aproximada, esta t√©cnica permite clasificar riesgos cercanos sin necesidad de sensores adicionales.

- ### üö∏ Detecci√≥n de pasos de cebra
Se identifican patrones blancos rectangulares en la parte inferior de la imagen mediante umbralizaci√≥n y contornos, resaltando visualmente zonas seguras de cruce sin recurrir a modelos pesados.

- ### üõ∞Ô∏è Radar visual de proximidad
Se muestra un **minimapa tipo radar** que representa la posici√≥n relativa y distancia de los objetos detectados desde una vista cenital simplificada, facilitando una comprensi√≥n espacial r√°pida e intuitiva.

- ### üìù OCR selectivo en im√°genes
El reconocimiento de texto se aplica √∫nicamente sobre **im√°genes est√°ticas**, detectando previamente regiones candidatas (carteles) por criterios geom√©tricos y de luminosidad, lo que maximiza la precisi√≥n y reduce el coste computacional.

- ### üîä Generaci√≥n de audios pregrabados
Las alertas m√°s comunes se generan previamente mediante TTS y se almacenan como archivos de audio, evitando s√≠ntesis en tiempo real y garantizando **baja latencia** en situaciones cr√≠ticas.

En conjunto, estas funciones act√∫an como una **capa de apoyo contextual** que mejora la robustez, claridad y eficiencia del sistema sin comprometer el rendimiento en tiempo real.

### ‚ö†Ô∏è Limitaci√≥n: Se√±ales de Tr√°fico

El sistema s√≠ detecta **se√±ales de STOP** y les hace Zoom, pero est√° limitado a esa clase espec√≠fica del dataset COCO. Si se desea detectar m√°s tipos de se√±ales de tr√°fico, necesitar√≠amos un modelo YOLO entrenado espec√≠ficamente para se√±ales de tr√°fico (como los de datasets de conducci√≥n aut√≥noma). Quiz√° esto resulte m√°s interesante desde un punto de vista de conductor.

## 3. Definici√≥n del Pipeline de Procesamiento
Aqu√≠ se define la funci√≥n principal `procesar_video_safestep` que integra todo el flujo de trabajo: preprocesamiento, detecci√≥n, OCR, l√≥gica de seguridad y generaci√≥n de video.

In [None]:
# 2Ô∏è‚É£ FUNCI√ìN DE PROCESAMIENTO (Definici√≥n)
def procesar_video_safestep(ruta_video_entrada, ruta_audio, ruta_video_salida=None):
    """
    Procesa un video individual aplicando todo el pipeline de SafeStep.
    Si no se especifica ruta_video_salida, se genera autom√°ticamente.
    """
    if not os.path.exists(ruta_video_entrada):
        print(f"‚ùå Error: No se encuentra el video {ruta_video_entrada}")
        return None

    # Extraer nombre base del video para usar en archivos temporales
    nombre_base = os.path.splitext(os.path.basename(ruta_video_entrada))[0]

    # --- TRANSCRIPCI√ìN DE LA ORDEN DE AUDIO A TEXTO ---
    orden_usuario = transcribir_audio(ruta_audio)
    orden = orden_usuario.lower()

    # --- INTERPRETACI√ìN DE LA ORDEN (NLP B√ÅSICO) ---
    modo_filtrado = analizar_intencion_spacy(orden_usuario)
    print(f"üß† Orden recibida: '{orden_usuario}' -> Modo: {modo_filtrado}")

    # Generar nombre de salida autom√°tico si no se da
    if ruta_video_salida is None:
        # Crear carpeta de salida si no existe
        output_dir = "videos_safestep"
        if not os.path.exists(output_dir):
            os.makedirs(output_dir)
            
        # Generar ruta de salida
        nombre = os.path.splitext(os.path.basename(ruta_video_entrada))[0]
        ruta_video_salida = os.path.join(output_dir, f"{nombre}_safestep.mp4")

    print(f"üé¨ Procesando video: {ruta_video_entrada} -> {ruta_video_salida}")
    
    # --- CARGA DEL VIDEO Y PAR√ÅMETROS INICIALES ---
    clip = VideoFileClip(ruta_video_entrada)
    fps_original = clip.fps
    w, h = clip.size
    
    # --- OPTIMIZACI√ìN DE FPS ---
    # Si el video tiene muchos FPS (>50), procesamos uno de cada dos frames
    # para mantener el rendimiento cercano al tiempo real (~30 FPS).
    saltar_frames = 1
    if fps_original > 50:
        saltar_frames = 2
        print("‚ö° Modo Optimizado: Saltando frames para mantener ~30 FPS.")
    
    fps_salida = fps_original / saltar_frames

    # --- GESTI√ìN DE MEMORIA EFICIENTE (STREAMING TO DISK) ---
    # En lugar de guardar todos los frames procesados en una lista en RAM (que causar√≠a Memory Leak),
    # escribimos cada frame procesado directamente al disco duro en un archivo temporal.
    # Crear carpeta temporal si no existe para no ensuciar el directorio ra√≠z
    temp_dir = "temp"
    if not os.path.exists(temp_dir):
        os.makedirs(temp_dir)
        
    temp_video_path = os.path.join(temp_dir, f"temp_proc_{nombre_base}.mp4")
    fourcc = cv2.VideoWriter_fourcc(*'mp4v')
    out_writer = cv2.VideoWriter(temp_video_path, fourcc, fps_salida, (w, h))

    # --- GESTI√ìN DE AUDIO INTELIGENTE (PRIORIDADES + COOLDOWNS) ---
    audio_events = [] 
    track_history = {} 
    ultimos_textos_detectados = [] 
    
    # Configuraci√≥n de prioridades (1 = M√°xima, 3 = M√≠nima)
    PRIORIDADES = {
        "PELIGRO_MOVIMIENTO": 1, "SEMAFORO_ROJO": 1,
        "PEATONES": 2, "SEMAFORO_VERDE": 2,
        "SE√ëAL": 3, "COCHE_QUIETO": 3
    }
    
    # Tiempos de espera (segundos) antes de repetir el MISMO aviso
    COOLDOWNS = {
        "PELIGRO_MOVIMIENTO": 8,  # No repetir constantemente
        "SEMAFORO_ROJO": 6,       # Importante recordar si sigue rojo
        "PEATONES": 5,
        "SEMAFORO_VERDE": 8,
        "SE√ëAL": 10,
        "COCHE_QUIETO": 15        # Poco relevante, cooldown largo
    }
    
    # Estado del sistema de audio
    last_trigger_time = {k: -999 for k in COOLDOWNS} # √öltima vez que son√≥ cada tipo
    global_audio_finish_time = 0 # Momento en que el canal de audio queda libre
    
    """ 
    def trigger_audio_event(event_key, current_time):
        nonlocal global_audio_finish_time
        prioridad = PRIORIDADES.get(event_key, 3)
        cooldown = COOLDOWNS.get(event_key, 10)
        last_time = last_trigger_time.get(event_key, -999)
        
        # Verificar cooldown
        if current_time - last_time < cooldown:
            return
        
        # Verificar si el canal de audio est√° libre o si la nueva prioridad es mayor
        if current_time >= global_audio_finish_time or prioridad < track_history.get("current_priority", 4):
            audio_path = f"audios/aviso_{event_key}.mp3"
            audio_clip = AudioFileClip(audio_path)
            audio_events.append((current_time, audio_clip))
            global_audio_finish_time = current_time + audio_clip.duration
            last_trigger_time[event_key] = current_time
            track_history["current_priority"] = prioridad 
"""

    # --- BUCLE PRINCIPAL DE PROCESAMIENTO ---
    for i, frame in enumerate(clip.iter_frames()):
        if i % saltar_frames != 0: continue
        
        current_time = i / fps_original
        
        # 1. PREPROCESAMIENTO
        # Mejorar contraste para visi√≥n nocturna
        frame_mejorado = mejorar_contraste_noche(frame)
        
        # Dibujar paso de cebra SOLO si es relevante
        if modo_filtrado in ["TODO", "PASO_CEBRA"]:
            img_out = dibujar_paso_cebra_seguro(frame_mejorado)
        else:
            img_out = frame_mejorado.copy()
            
        h_img, w_img = img_out.shape[:2]
        
        # 2. TRACKING DE OBJETOS (YOLOv8)
        # Ejecutamos YOLO primero para saber D√ìNDE est√°n los objetos.
        # Usamos el tracker "bytetrack" para mantener la identidad de los objetos entre frames.
        results = model_yolo.track(frame_mejorado, classes=CLASES_TRAFICO, persist=True, verbose=False, conf=0.15, tracker="bytetrack.yaml")
        
        # 3. OCR SELECTIVO (Triggered OCR) - OPTIMIZACI√ìN CR√çTICA
        # El OCR es muy lento. En lugar de leer toda la imagen, solo leemos
        # si YOLO detecta una se√±al de tr√°fico (Clase 11).
        # Adem√°s, solo ejecutamos OCR cada 15 frames para ahorrar recursos.
        if modo_filtrado in ["TODO", "SE√ëALES"] and i % 30 == 0:
            ultimos_textos_detectados = []

            # Convertir frame a RGB si no lo est√°
            frame_rgb = cv2.cvtColor(frame_mejorado, cv2.COLOR_BGR2RGB)
            h_img, w_img = frame_rgb.shape[:2]

            # --- Detectar zonas claras similares a carteles ---
            hsv = cv2.cvtColor(frame_rgb, cv2.COLOR_RGB2HSV)
            mask = cv2.inRange(hsv, (0, 0, 140), (180, 80, 255))
            kernel = cv2.getStructuringElement(cv2.MORPH_RECT, (15, 8))
            mask = cv2.morphologyEx(mask, cv2.MORPH_CLOSE, kernel)
            mask = cv2.morphologyEx(mask, cv2.MORPH_OPEN, kernel)

            contours, _ = cv2.findContours(mask, cv2.RETR_EXTERNAL, cv2.CHAIN_APPROX_SIMPLE)

            for cnt in contours:
                x, y, wc, hc = cv2.boundingRect(cnt)
                area = wc * hc
                aspect = wc / max(hc, 1)

                # Filtrar zonas demasiado peque√±as o proporciones extra√±as
                if area < 400 or aspect < 1.5 or aspect > 12 or y > h_img * 0.65:
                    continue

                margin = 8
                x1, y1 = max(0, x - margin), max(0, y - margin)
                x2, y2 = min(w_img, x + wc + margin), min(h_img, y + hc + margin)
                roi = frame_rgb[y1:y2, x1:x2]
                roi_big = cv2.resize(roi, None, fx=5, fy=5, interpolation=cv2.INTER_CUBIC)

                try:
                    lecturas = reader.readtext(roi_big, paragraph=False, min_size=5,
                                            text_threshold=0.35, low_text=0.25, width_ths=0.9)
                    for bbox, text, prob in lecturas:
                        if prob < 0.4:  # ignorar confianza baja
                            continue
                        # Reescalar bbox al tama√±o del frame original
                        escala_x = (x2 - x1) / roi_big.shape[1]
                        escala_y = (y2 - y1) / roi_big.shape[0]
                        bbox_scaled = [[int(px * escala_x + x1), int(py * escala_y + y1)] for px, py in bbox]
                        ultimos_textos_detectados.append((bbox_scaled, text, prob))
                except Exception as e:
                    print(f"Error OCR en ROI: {e}")

        # Dibujar textos detectados (Persistencia visual para que no parpadeen)
        # SOLO si el modo incluye lectura de se√±ales
        if modo_filtrado in ["TODO", "SE√ëALES"]:
            for (bbox, text, prob) in ultimos_textos_detectados:
                (tl, tr, br, bl) = bbox
                x1, y1 = int(tl[0]), int(tl[1]); x2, y2 = int(br[0]), int(br[1])
                cv2.rectangle(img_out, (x1, y1), (x2, y2), (255, 100, 0), 2)
                cv2.putText(img_out, text.upper(), (x1, y1 - 10), cv2.FONT_HERSHEY_SIMPLEX, 1.8, (255, 100, 0), 4)
                
                # Efecto Lupa: Mostrar el texto ampliado en una esquina
                if (x2 - x1) < 100: 
                    try:
                        roi = frame_mejorado[y1:y2, x1:x2]
                        zoom_size = 200
                        roi_zoom = cv2.resize(roi, (zoom_size, zoom_size))
                        roi_zoom = cv2.copyMakeBorder(roi_zoom, 5, 5, 5, 5, cv2.BORDER_CONSTANT, value=(255, 100, 0))
                        y_off, x_off = h_img - zoom_size - 20, w_img - zoom_size - 20
                        img_out[y_off:y_off+zoom_size+10, x_off:x_off+zoom_size+10] = roi_zoom
                        cv2.putText(img_out, "TEXTO", (x_off, y_off - 5), cv2.FONT_HERSHEY_SIMPLEX, 0.8, (255, 100, 0), 2)
                    except: pass

        # 4. L√ìGICA DE SEGURIDAD Y VISUALIZACI√ìN
        frame_alerts = [] # Lista de alertas detectadas en ESTE frame
        mensaje_visual = ""
        color_mensaje = (255, 255, 255)
        peligro_inminente = False
        objetos_radar = [] 

        if results and results[0]:
            boxes = results[0].boxes
            if boxes.id is not None:
                track_ids = boxes.id.int().cpu().tolist()
                cls_ids = boxes.cls.int().cpu().tolist()
                coords = boxes.xyxy.cpu().numpy()
                
                for box_id, cls, xyxy in zip(track_ids, cls_ids, coords):
                    x1, y1, x2, y2 = map(int, xyxy)
                    center_x, center_y = (x1 + x2) // 2, (y1 + y2) // 2
                    
                    # Estimar distancia
                    distancia_m = estimar_distancia(y2, h_img)
                    texto_dist = f"{distancia_m}m"
                    
                    # --- L√ìGICA DE MOVIMIENTO (Siempre calcular para mantener estado) ---
                    es_movimiento = False
                    if cls in [2, 3, 5, 7]: 
                        if box_id in track_history:
                            prev_x, prev_y = track_history[box_id]
                            desplazamiento = np.sqrt((center_x - prev_x)**2 + (center_y - prev_y)**2)
                            if desplazamiento > (5.0 * saltar_frames): es_movimiento = True
                        track_history[box_id] = (center_x, center_y)

                    # --- FILTRADO VISUAL: ¬øDebemos mostrar este objeto? ---
                    mostrar_visual = False
                    if modo_filtrado == "TODO": mostrar_visual = True
                    elif modo_filtrado == "VEHICULOS" and cls in [2, 3, 5, 7]: mostrar_visual = True
                    elif modo_filtrado == "PASO_CEBRA" and cls == 0: mostrar_visual = True # Peatones relevantes para cruce
                    elif modo_filtrado == "SEMAFORO" and cls == 9: mostrar_visual = True
                    elif modo_filtrado == "SE√ëALES" and cls == 11: mostrar_visual = True
                    elif modo_filtrado == "SOLO_PELIGRO" and es_movimiento: mostrar_visual = True
                    
                    if not mostrar_visual: 
                        continue

                    # Si pasa el filtro, lo a√±adimos al radar
                    objetos_radar.append((int(cls), center_x, distancia_m))
                    
                    # --- L√ìGICA PARA VEH√çCULOS ---
                    if cls in [2, 3, 5, 7]: 
                        color_box = (200, 0, 0) if es_movimiento else (0, 0, 255)
                        cv2.rectangle(img_out, (x1, y1), (x2, y2), color_box, 8)
                        cv2.putText(img_out, texto_dist, (x1, y1 - 35), cv2.FONT_HERSHEY_SIMPLEX, 1.2, (255, 255, 0), 4)
                        
                        #-- L√ìGICA DE ALERTAS PARA VEH√çCULOS ---
                        if es_movimiento:
                            frame_alerts.append("PELIGRO_MOVIMIENTO")
                            mensaje_visual = f"PELIGRO: VEHICULO A {distancia_m}m"
                            color_mensaje = (255, 0, 0); peligro_inminente = True
                        else: frame_alerts.append("COCHE_QUIETO")
                            
                    # --- L√ìGICA PARA PEATONES ---
                    elif cls == 0: 
                        if (y2 - y1) > h_img * 0.3: # Solo si est√° cerca/grande
                            frame_alerts.append("PEATONES")
                            if "PELIGRO_MOVIMIENTO" not in frame_alerts:
                                mensaje_visual = "CUIDADO: PEATONES"
                                color_mensaje = (255, 255, 0)
                        # Amarillo (255, 255, 0) para alta visibilidad y precauci√≥n
                        cv2.rectangle(img_out, (x1, y1), (x2, y2), (255, 255, 0), 8)

                    # --- L√ìGICA PARA SEM√ÅFOROS Y SE√ëALES ---
                    elif cls in [9, 11]:
                        roi = frame_mejorado[y1:y2, x1:x2]
                        color_borde = (255, 165, 0)
                        if cls == 9: # Sem√°foro
                            estado_sem = analizar_estado_semaforo(roi)
                            if estado_sem == "ROJO":
                                frame_alerts.append("SEMAFORO_ROJO")
                                mensaje_visual = "SEMAFORO ROJO: ESPERE"
                                color_mensaje = (255, 0, 0); color_borde = (255, 0, 0)
                            elif estado_sem == "VERDE":
                                frame_alerts.append("SEMAFORO_VERDE")
                                if "PELIGRO_MOVIMIENTO" not in frame_alerts and "SEMAFORO_ROJO" not in frame_alerts:
                                    mensaje_visual = "VERDE: PUEDE CRUZAR"
                                    color_mensaje = (0, 255, 0); color_borde = (0, 255, 0)
                        
                        # Dibujar Lupa para ver mejor la se√±al/sem√°foro
                        try: 
                            zoom_size = 200
                            roi_zoom = cv2.resize(roi, (zoom_size, zoom_size))
                            roi_zoom = cv2.copyMakeBorder(roi_zoom, 5, 5, 5, 5, cv2.BORDER_CONSTANT, value=color_borde)
                            y_off, x_off = 20, w_img - zoom_size - 20
                            if y_off + zoom_size + 10 < h_img and x_off + zoom_size + 10 < w_img:
                                img_out[y_off:y_off+zoom_size+10, x_off:x_off+zoom_size+10] = roi_zoom
                                cv2.putText(img_out, "ZOOM", (x_off, y_off - 5), cv2.FONT_HERSHEY_SIMPLEX, 0.8, color_borde, 2)
                        except: pass
                        cv2.rectangle(img_out, (x1, y1), (x2, y2), color_borde, 8)

        # 5. RADAR Y FEEDBACK FINAL
        img_out = dibujar_radar(img_out, objetos_radar)
        
        # Alerta visual de pantalla completa si hay peligro inminente
        # SOLO si estamos en un modo que muestre peligros o TODO
        if peligro_inminente and modo_filtrado in ["TODO", "VEHICULOS", "SOLO_PELIGRO"]:
             cv2.rectangle(img_out, (0, 0), (w_img, h_img), (0, 0, 255), 10)

        # --- PROCESADOR DE AUDIO CENTRALIZADO ---
        aviso_final = None
        
        # 0. Filtrado por Intenci√≥n del Usuario (NLP)
        alertas_filtradas = []
        for a in frame_alerts:
            # Siempre permitimos PELIGRO_MOVIMIENTO por seguridad cr√≠tica
            if a == "PELIGRO_MOVIMIENTO": 
                alertas_filtradas.append(a)
                continue
                
            if modo_filtrado == "TODO":
                alertas_filtradas.append(a)
            elif modo_filtrado == "SEMAFORO" and "SEMAFORO" in a:
                alertas_filtradas.append(a)
            elif modo_filtrado == "VEHICULOS" and ("COCHE" in a or "MOVIMIENTO" in a):
                alertas_filtradas.append(a)
            elif modo_filtrado == "PASO_CEBRA" and "PEATONES" in a: # Peatones suelen implicar cruce
                alertas_filtradas.append(a)
            elif modo_filtrado == "SE√ëALES" and "SE√ëAL" in a:
                alertas_filtradas.append(a)
            elif modo_filtrado == "SOLO_PELIGRO":
                pass # Ya se a√±adi√≥ PELIGRO_MOVIMIENTO arriba
        
        # 1. Filtrar alertas por Cooldown (¬øHace cu√°nto son√≥ esta misma alerta?)
        alertas_disponibles = [a for a in alertas_filtradas if (current_time - last_trigger_time.get(a, -999)) > COOLDOWNS.get(a, 5)]
        
        # 2. Ordenar por Prioridad (Menor n√∫mero = Mayor importancia)
        if alertas_disponibles:
            alertas_disponibles.sort(key=lambda x: PRIORIDADES.get(x, 99))
            mejor_alerta = alertas_disponibles[0] # La m√°s importante
            
            # 3. Chequear disponibilidad del canal de audio (¬øHa terminado el anterior?)
            # Permitimos solapamiento leve (0.5s) para alertas de Prioridad 1
            margen = 0.5 if PRIORIDADES.get(mejor_alerta, 99) == 1 else 0
            
            if current_time >= (global_audio_finish_time - margen):
                aviso_final = mejor_alerta
                
                # Registrar evento
                audio_file = f"audios/aviso_{aviso_final}.mp3"
                if os.path.exists(audio_file):
                    audio_events.append((current_time, audio_file))
                    
                    # Actualizar tiempos
                    last_trigger_time[aviso_final] = current_time
                    # Estimamos duraci√≥n del audio en 2.5s (promedio)
                    global_audio_finish_time = current_time + 2.5 
                    print(f"üîä {aviso_final} en {current_time:.2f}s (Prioridad: {PRIORIDADES.get(aviso_final)})")

        # Dibujar mensaje de texto inferior (Aumentado para baja visi√≥n)
        if mensaje_visual:
            # Escala reducida para no ocupar toda la pantalla
            font_scale = 1.2
            thickness = 3
            (text_w, text_h), baseline = cv2.getTextSize(mensaje_visual, cv2.FONT_HERSHEY_SIMPLEX, font_scale, thickness)
            
            # Fondo negro de alto contraste m√°s grande
            cv2.rectangle(img_out, (10, h_img - text_h - 40), (10 + text_w + 40, h_img - 10), (0, 0, 0), -1)
            # Borde blanco grueso para resaltar sobre fondo oscuro
            cv2.rectangle(img_out, (10, h_img - text_h - 40), (10 + text_w + 40, h_img - 10), (255, 255, 255), 4)
            
            cv2.putText(img_out, mensaje_visual, (30, h_img - 25), cv2.FONT_HERSHEY_SIMPLEX, font_scale, color_mensaje, thickness)

        # ESCRIBIR FRAME A DISCO (Evitar Memory Leak)
        # Convertir RGB (MoviePy) a BGR (OpenCV) antes de escribir
        out_writer.write(cv2.cvtColor(img_out, cv2.COLOR_RGB2BGR))
        
        if i % 10 == 0: print(f"Procesado frame {i}...", end="\r")

    out_writer.release()
    print("\nüíæ Generando video final con audio...")
    
    # --- POST-PROCESADO DE AUDIO ---
    # Cargar el video mudo procesado y a√±adirle los eventos de audio
    clip_video = VideoFileClip(temp_video_path)
    
    if audio_events:
        audioclips = []
        for t, audio_file in audio_events:
            try:
                aclip = AudioFileClip(audio_file)
                aclip = aclip.with_start(t) if IS_MOVIEPY_2 else aclip.set_start(t)
                audioclips.append(aclip)
            except: pass
        if audioclips:
            final_audio = CompositeAudioClip(audioclips)
            final_audio = final_audio.with_duration(clip_video.duration) if IS_MOVIEPY_2 else final_audio.set_duration(clip_video.duration)
            clip_video = clip_video.with_audio(final_audio) if IS_MOVIEPY_2 else clip_video.set_audio(final_audio)

    clip_video.write_videofile(ruta_video_salida, codec="libx264", audio_codec="aac")
    
   # --- CIERRE EXPL√çCITO DE RECURSOS (CR√çTICO EN WINDOWS) ---
    try:
        clip_video.close()
    except:
        pass
    try:
        clip.close()  # cerrar el video de entrada
    except:
        pass
    # Forzar liberaci√≥n de memoria y handles
    gc.collect()
    time.sleep(0.5)
    # --- LIMPIEZA DE ARCHIVOS TEMPORALES ---
    if os.path.exists(temp_video_path):
        try:
            os.remove(temp_video_path)
        except PermissionError:
            print("‚ö†Ô∏è No se pudo borrar el archivo temporal (Windows lo mantiene abierto)")
    # Intentar borrar carpeta temp si est√° vac√≠a
    try:
        os.rmdir(temp_dir)
    except:
        pass
            
    print(f"‚úÖ Video guardado: {ruta_video_salida}")
    return ruta_video_salida

## üé¨ Funci√≥n de Procesamiento Principal ‚Äî `procesar_video_safestep`

Esta funci√≥n implementa el **pipeline completo de SafeStep** para procesar un v√≠deo de forma eficiente, segura y adaptada a la intenci√≥n del usuario.

### üéôÔ∏è Entrada multimodal
- Transcribe comandos de voz con **Whisper**.
- Interpreta la intenci√≥n mediante **NLP (SpaCy)** para activar modos selectivos (veh√≠culos, se√±ales, sem√°foros, etc.).

### ‚ö° Procesamiento optimizado
- Ajuste din√°mico de FPS para mantener rendimiento cercano al tiempo real.
- Escritura directa a disco (*streaming to disk*) para evitar consumo excesivo de memoria.

### üëÅÔ∏è Visi√≥n artificial en tiempo real
- **YOLOv8 + ByteTrack** para detecci√≥n y seguimiento de objetos.
- Mejora de contraste nocturno y detecci√≥n opcional de pasos de cebra.
- **OCR selectivo** ejecutado cada N frames y solo sobre los v√≠deos cuya intenci√≥n del usuario sea carteles/se√±ales (SE√ëALES) y cualquier alerta (TODO).

### üö® L√≥gica de seguridad
- Estimaci√≥n de distancia y detecci√≥n de movimiento.
- Priorizaci√≥n de alertas con sistema de **prioridades y cooldowns**.
- Mensajes visuales de alto contraste y alertas de peligro inminente.

### üõ∞Ô∏è Feedback visual y auditivo
- Radar de proximidad para contexto espacial.
- Reproducci√≥n de audios pregrabados sincronizados con el v√≠deo final.

### üßπ Postprocesado robusto
- Composici√≥n final de v√≠deo + audio.
- Liberaci√≥n expl√≠cita de recursos y limpieza de archivos temporales.

‚û°Ô∏è Resultado: un v√≠deo final anotado, accesible y optimizado, listo para asistir al usuario en entornos urbanos reales.


## 4. Ejecuci√≥n y Pruebas
Bloque para ejecutar el pipeline sobre un video de prueba y verificar los resultados.

### 4.1. Veh√≠culos en Movimiento

In [None]:
# 3Ô∏è‚É£ EJECUCI√ìN MANUAL - VIDEO 1 (Tr√°fico)
# Escenario: Usuario esperando en una parada o borde de acera.
ruta_audio1 = "audios_ordenes/orden1.mp3"

from IPython.display import Video, display
video_a_procesar = "videos/video1.mp4"

if os.path.exists(video_a_procesar):
    ruta_salida = procesar_video_safestep(video_a_procesar, ruta_audio1)
    if ruta_salida and os.path.exists(ruta_salida):
        display(Video(ruta_salida, embed=True, html_attributes="controls width=640"))
else:
    print(f"‚ö†Ô∏è No se encuentra el archivo: {video_a_procesar}")

### 4.2. Pasos de cebra

In [None]:
# 3Ô∏è‚É£ EJECUCI√ìN MANUAL - VIDEO 2 (Navegaci√≥n)
# Escenario: Usuario buscando cruzar la calle.
ruta_audio2 = "audios_ordenes/orden2.mp3"

from IPython.display import Video, display
video_a_procesar = "videos/video2.mp4"

if os.path.exists(video_a_procesar):
    ruta_salida = procesar_video_safestep(video_a_procesar, ruta_audio2)
    if ruta_salida and os.path.exists(ruta_salida):
        display(Video(ruta_salida, embed=True, html_attributes="controls width=640"))
else:
    print(f"‚ö†Ô∏è No se encuentra el archivo: {video_a_procesar}")

### ‚ö†Ô∏è Desaf√≠o: Falsos Positivos en la Detecci√≥n de Pasos de Cebra

- **Problema:** Aunque la funci√≥n detecta correctamente muchos pasos de cebra reales, en ocasiones puede identificar como paso de cebra otros elementos del entorno, como franjas en el pavimento, marcas viales, sombras o incluso zonas de acera con patrones similares.

- **Causa t√©cnica:** La funci√≥n `analizar_paso_cebra` se basa en la detecci√≥n de l√≠neas blancas paralelas y su disposici√≥n geom√©trica. Sin embargo, no incorpora un an√°lisis sem√°ntico profundo ni contexto urbano, por lo que cualquier patr√≥n visual que cumpla con los criterios geom√©tricos y de color puede ser interpretado err√≥neamente como paso de cebra.

- **Ejemplo:** Unas losas blancas alineadas en una acera, o marcas de aparcamiento, pueden ser confundidas con pasos de cebra si su forma y color se parecen lo suficiente.

---

### üìù Justificaci√≥n y Posibles Mejoras

- **Justificaci√≥n:** El m√©todo empleado es eficiente y r√°pido, pero limitado por su simplicidad. Es adecuado para prototipos y entornos controlados, pero puede fallar en escenarios urbanos complejos.

- **Mejoras posibles:** Para reducir falsos positivos, se podr√≠an emplear modelos de aprendizaje profundo entrenados espec√≠ficamente para pasos de cebra, o combinar la detecci√≥n geom√©trica con informaci√≥n contextual (por ejemplo, la presencia de sem√°foros, cruces o se√±ales verticales).

### 4.3. Sem√°foros

In [None]:
# 3Ô∏è‚É£ EJECUCI√ìN MANUAL - VIDEO 3 (Sem√°foros)
# Escenario: Usuario en un cruce regulado, quiere saber cu√°ndo cruzar.
ruta_audio3 = "audios_ordenes/orden3.mp3"

from IPython.display import Video, display
video_a_procesar = "videos/video3.mp4"

if os.path.exists(video_a_procesar):
    ruta_salida = procesar_video_safestep(video_a_procesar, ruta_audio3)
    if ruta_salida and os.path.exists(ruta_salida):
        display(Video(ruta_salida, embed=True, html_attributes="controls width=640"))
else:
    print(f"‚ö†Ô∏è No se encuentra el archivo: {video_a_procesar}")

# 3Ô∏è‚É£ EJECUCI√ìN MANUAL - VIDEO 4 (Sem√°foros)
video_a_procesar = "videos/video4.mp4"

if os.path.exists(video_a_procesar):
    ruta_salida = procesar_video_safestep(video_a_procesar, ruta_audio3)
    if ruta_salida and os.path.exists(ruta_salida):
        display(Video(ruta_salida, embed=True, html_attributes="controls width=640"))
else:
    print(f"‚ö†Ô∏è No se encuentra el archivo: {video_a_procesar}")

### ‚ö†Ô∏è An√°lisis de Caso de Borde: Falso Positivo en Video 4

Durante la ejecuci√≥n del `video4.mp4`, se puede observar una **detecci√≥n err√≥nea de sem√°foro**.

**Justificaci√≥n T√©cnica:**
El sistema identifica correctamente una se√±al de **STOP**, pero el algoritmo de an√°lisis de estado (`analizar_estado_semaforo`) confunde la gran cantidad de p√≠xeles rojos de la se√±al de STOP con la luz roja de un sem√°foro. Esto ocurre porque la l√≥gica de detecci√≥n de color busca picos de rojo en la regi√≥n de inter√©s, y al ser la se√±al de STOP predominantemente roja, genera un falso positivo de "Sem√°foro en Rojo".

El `video3.mp4` se incluye como contraprueba para demostrar el funcionamiento correcto del algoritmo en un escenario donde no existe esta ambig√ºedad visual, validando la l√≥gica de detecci√≥n de sem√°foros en condiciones normales.

### 4.4. Carteles

In [None]:
# 3Ô∏è‚É£ EJECUCI√ìN MANUAL - VIDEO 5 (Carteles)
# Escenario: Usuario en entorno desconocido, quiere indicaci√≥n de carteles.
ruta_audio4 = "audios_ordenes/orden4.mp3"

from IPython.display import Video, display
video_a_procesar = "videos/video5.mp4"

if os.path.exists(video_a_procesar):
    ruta_salida = procesar_video_safestep(video_a_procesar, ruta_audio4)
    if ruta_salida and os.path.exists(ruta_salida):
        display(Video(ruta_salida, embed=True, html_attributes="controls width=640"))
else:
    print(f"‚ö†Ô∏è No se encuentra el archivo: {video_a_procesar}")

### ‚ùì Por qu√© el OCR de carteles en v√≠deo puede fallar

En la ejecuci√≥n sobre el **video 5 (carteles)**, el sistema no logra detectar en su totalidad el texto del cartel. Esto puede deberse a varias causas t√©cnicas habituales en visi√≥n artificial:

- **Baja resoluci√≥n del video:** Los carteles aparecen demasiado peque√±os para que el OCR pueda distinguir los caracteres.
- **Desenfoque o movimiento:** El v√≠deo puede estar borroso, dificultando la segmentaci√≥n y lectura.
- **Iluminaci√≥n deficiente o reflejos:** Sombras, contraluces o brillos pueden ocultar parte del texto.
- **Compresi√≥n y artefactos:** Los v√≠deos suelen tener artefactos de compresi√≥n que degradan la calidad de los bordes y el contraste.
- **√Ångulo o perspectiva:** Si el cartel est√° inclinado o deformado por la perspectiva, el OCR puede fallar.
- **Ruido visual:** Elementos del fondo, otros objetos o textos cercanos pueden confundir al sistema.

Adem√°s, al hacer uso de OCR cada 30 frames (aprox. cada 1 segundos) en toda la imagen, el procesamiento es muy lento. Se han probado diferentes t√©cnicas para su correcci√≥n, como analizar solo el 40% de la imagen superior, donde suelen estar los carteles, pero esta decisi√≥n representaba una limitaci√≥n enorme en cuanto a la detecci√≥n de textos √∫tiles para el ciclo peatonal. Por ende, se ha de considerar su optimizaci√≥n para versiones m√°s avanzadas del proyecto actual.

#### üñºÔ∏è OCR en im√°genes fijas: una alternativa robusta

Para demostrar la utilidad y precisi√≥n del OCR en el contexto de SafeStep Peatonal, se ha a√±adido una herramienta espec√≠fica para **detectar y leer carteles en im√°genes fijas**. Esta t√©cnica permite:

- Probar el OCR sobre capturas de pantalla o fotos de carteles tomadas con el m√≥vil.
- Ajustar el preprocesamiento y la ampliaci√≥n para maximizar la legibilidad.
- Visualizar el resultado con un dise√±o accesible para personas con baja visi√≥n.

**Conclusi√≥n:**  
Aunque el OCR en v√≠deo es un reto por las limitaciones t√©cnicas mencionadas, el reconocimiento de texto en im√°genes fijas funciona de forma fiable y puede integrarse en flujos de ayuda peatonal, por ejemplo, permitiendo al usuario tomar una foto de un cartel y recibir la lectura accesible del texto.

In [None]:
# Prueba OCR en una imagen fija
rutas = [
    "images/cartel1.jpg",
    "images/cartel2.jpg",
    "images/cartel3.png",
    "images/cartel4.png"
]

for ruta in rutas:
    if os.path.exists(ruta):
        print(f"\nüîç Probando OCR en imagen: {ruta}")
        img_resultado = ocr_carteles_images(ruta, reader, mostrar=True)
    else:
        print(f"‚ö†Ô∏è No se encuentra la imagen: {ruta}")

### 4.5. Alertas Cr√≠ticas

In [None]:
# 3Ô∏è‚É£ EJECUCI√ìN MANUAL - VIDEO 6 (Modo Silencioso)
# Escenario: Usuario en entorno ruidoso o conocido, solo quiere alertas cr√≠ticas.
ruta_audio5 = "audios_ordenes/orden5.mp3"

from IPython.display import Video, display
video_a_procesar = "videos/video6.mp4"

if os.path.exists(video_a_procesar):
    ruta_salida = procesar_video_safestep(video_a_procesar, ruta_audio5)
    if ruta_salida and os.path.exists(ruta_salida):
        display(Video(ruta_salida, embed=True, html_attributes="controls width=640"))
else:
    print(f"‚ö†Ô∏è No se encuentra el archivo: {video_a_procesar}")

### ‚ö†Ô∏è Desaf√≠o: Distinguir Movimiento Real de Objetos vs. Movimiento de C√°mara

- **Problema:** Si la c√°mara no es est√°tica (por ejemplo, si el usuario camina o mueve el m√≥vil), los objetos pueden parecer que se mueven aunque est√©n quietos.
- **Soluci√≥n profesional:** La mejor pr√°ctica ser√≠a compensar el movimiento global de la escena usando t√©cnicas como Optical Flow o Keypoints para estimar el desplazamiento de fondo y restarlo al movimiento de cada objeto. As√≠, solo se detecta movimiento real relativo al entorno.

### 4.6. General

In [None]:
# 3Ô∏è‚É£ EJECUCI√ìN MANUAL - VIDEO 7 (General)
# Escenario: Usuario caminando por calle normal. Quiere saber todo.
ruta_audio6 = "audios_ordenes/orden6.mp3"

from IPython.display import Video, display
video_a_procesar = "videos/video7.mp4"

if os.path.exists(video_a_procesar):
    ruta_salida = procesar_video_safestep(video_a_procesar, ruta_audio6)
    if ruta_salida and os.path.exists(ruta_salida):
        display(Video(ruta_salida, embed=True, html_attributes="controls width=640"))
else:
    print(f"‚ö†Ô∏è No se encuentra el archivo: {video_a_procesar}")

# 3Ô∏è‚É£ EJECUCI√ìN MANUAL - VIDEO 8 (General)
video_a_procesar = "videos/video8.mp4"

if os.path.exists(video_a_procesar):
    ruta_salida = procesar_video_safestep(video_a_procesar, ruta_audio6)
    if ruta_salida and os.path.exists(ruta_salida):
        display(Video(ruta_salida, embed=True, html_attributes="controls width=640"))
else:
    print(f"‚ö†Ô∏è No se encuentra el archivo: {video_a_procesar}")

### ‚ö†Ô∏è Desaf√≠o: Sobrecarga de Informaci√≥n y Eficiencia

- **Problema:** En entornos urbanos muy estimulados (muchos coches, peatones, se√±ales, sem√°foros, etc.), tratar de identificar y avisar de todo puede generar una sobrecarga de informaci√≥n y de avisos de audio.
- **Consecuencia:** El usuario puede recibir demasiados avisos, lo que puede resultar confuso, molesto o incluso ineficiente para la toma de decisiones seguras.
- **Reflexi√≥n:** Este es uno de los grandes retos de los sistemas de asistencia multimodal: encontrar el equilibrio entre informar y no saturar al usuario. En la pr√°ctica, ser√≠a necesario priorizar, filtrar y adaptar los avisos seg√∫n el contexto y las necesidades del usuario.

## 5. Justificaciones T√©cnicas y Decisiones de Dise√±o

Este documento recoge las decisiones arquitect√≥nicas clave implementadas en **SafeStep** para equilibrar precisi√≥n, rendimiento y viabilidad t√©cnica.

---

### 1. ‚ö° Optimizaci√≥n de FPS (Frame Skipping)
> **Problema:** El procesamiento de video en alta resoluci√≥n (1080p/60fps) satura la capacidad de procesamiento en tiempo real.  
> **Soluci√≥n:** Implementaci√≥n de un algoritmo de salto de frames din√°mico.
*   **Mecanismo:** Si el video de entrada supera los 50 FPS, el sistema procesa solo 1 de cada 2 frames.
*   **Impacto:** Mantiene una tasa de salida estable de ~30 FPS, suficiente para la percepci√≥n humana, reduciendo la carga computacional a la mitad sin perder informaci√≥n cr√≠tica.

### 2. üéØ OCR H√≠brido
> **Problema:** El reconocimiento √≥ptico de caracteres (OCR) es computacionalmente costoso y propenso a leer "ruido" (texto en camisetas, carteles irrelevantes).  
> **Soluci√≥n:** Solo se ejecuta cuando la intenci√≥n del usuario es SE√ëALES, enfoc√°ndose en carteles relevantes:
*   **Modo SE√ëALES o TODO:** Escanea regiones del frame cada 30 frames para detectar texto de se√±alizaci√≥n urbana. No depende de YOLO.
*   **Otros Modos:** El OCR no se ejecuta, evitando gasto computacional innecesario.
*   **Impacto:** Minimiza carga de procesamiento y reduce falsos positivos, garantizando lectura de carteles solo cuando el usuario lo requiere..

### 3. üíæ Gesti√≥n de Memoria (Streaming to Disk)
> **Problema:** Almacenar frames procesados en listas de Python (`frames.append()`) provoca desbordamiento de memoria (RAM) en videos largos (>1 min), causando cierres inesperados.  
> **Soluci√≥n:** Escritura en flujo continuo al disco.
*   **Mecanismo:** Uso de `cv2.VideoWriter` para escribir cada frame procesado inmediatamente al almacenamiento secundario y liberar la memoria RAM al instante.
*   **Impacto:** Consumo de RAM **constante y bajo** (O(1)), permitiendo procesar videos de duraci√≥n indefinida sin colapsar el sistema.

### 4. üìè Estimaci√≥n de Distancia "Flat Earth"
> **Problema:** Calcular la distancia real (profundidad) con una sola c√°mara (monocular) es un problema mal planteado sin referencias externas.  
> **Soluci√≥n:** Aproximaci√≥n geom√©trica basada en la suposici√≥n de "Tierra Plana".
*   **Mecanismo:** Se asume que la c√°mara est√° a una altura fija y el suelo es plano. La distancia se estima inversamente proporcional a la posici√≥n `y` de la base del objeto en la imagen (`d ~ 1 / (y - horizonte)`).
*   **Impacto:** C√°lculo instant√°neo con error aceptable para alertas de seguridad (cerca/lejos), sin necesidad de sensores LiDAR o c√°maras est√©reo costosas.

### 5. üß© Arquitectura Modular
> **Problema:** La carga de modelos pesados (Whisper, YOLO, Spacy) tarda varios segundos.  
> **Soluci√≥n:** Separaci√≥n del ciclo de vida.
*   **Mecanismo:** La inicializaci√≥n de modelos se realiza en una celda independiente ("Configuraci√≥n") que se ejecuta una sola vez. La funci√≥n de procesamiento reutiliza estos objetos en memoria.
*   **Impacto:** Permite iterar y procesar m√∫ltiples videos r√°pidamente sin tiempos de espera de carga repetitivos.

### 6. üó£Ô∏è Integraci√≥n de Comandos de Voz y Procesamiento de Lenguaje Natural
> **Problema:** La interacci√≥n por texto limita la accesibilidad y naturalidad del sistema.
> **Soluci√≥n:** Uso de Whisper para transcribir √≥rdenes de voz y spaCy para interpretar la intenci√≥n del usuario.
*   **Mecanismo:** El usuario puede grabar una orden hablada, que se transcribe a texto con Whisper y se analiza con spaCy para determinar el modo de funcionamiento.
*   **Impacto:** Permite interacci√≥n multimodal, mayor accesibilidad y flexibilidad en la configuraci√≥n del sistema.

### 7. üéß Gesti√≥n de Audio: Prioridades y Cooldowns
> **Problema:** La "fatiga de alertas" ocurre cuando el sistema repite el mismo mensaje constantemente (ej: "Coche detectado") impidiendo escuchar otros avisos importantes.
> **Soluci√≥n:** Sistema de cola de audio inteligente.
*   **Prioridades:** Se asigna un nivel de importancia a cada evento (1: Peligro Inminente, 2: Precauci√≥n, 3: Info). Si ocurren dos eventos a la vez, solo suena el m√°s cr√≠tico.
*   **Cooldowns Individuales:** Cada tipo de alerta tiene su propio temporizador. Si suena "Coche", ese mensaje espec√≠fico se silencia por 10s, pero el canal queda libre para "Sem√°foro Rojo" inmediatamente.
*   **Impacto:** Reduce el estr√©s del usuario y garantiza que la informaci√≥n nueva y cr√≠tica siempre tenga preferencia sobre la repetici√≥n de informaci√≥n conocida.

### 8. üëÅÔ∏è Accesibilidad Visual Mejorada
> **Problema:** Los elementos gr√°ficos est√°ndar (bounding boxes de 2px, textos peque√±os) son dif√≠ciles de percibir para usuarios con baja visi√≥n.
> **Soluci√≥n:** Escalado agresivo de elementos de interfaz.
*   **Mecanismo:** Aumento del grosor de l√≠neas a 8-10px, tama√±o de fuente a escala 3.0 y radar ampliado a 400px.
*   **Impacto:** Garantiza que las alertas visuales sean perceptibles incluso con agudeza visual reducida, priorizando la legibilidad sobre la est√©tica convencional.

### 9. üì° Radar de Seguridad Permanente
> **Problema:** Al filtrar por modo (ej: "Solo sem√°foros"), el usuario pierde consciencia situacional de veh√≠culos cercanos que podr√≠an ser peligrosos.
> **Soluci√≥n:** Radar siempre activo para veh√≠culos.
*   **Mecanismo:** Los veh√≠culos (coches, motos, buses, camiones) **siempre** aparecen en el radar independientemente del modo seleccionado. El resto de objetos solo aparecen si son relevantes para el modo actual.
*   **Impacto:** Mantiene la seguridad cr√≠tica del usuario sin saturar la visualizaci√≥n principal, permitiendo foco en la tarea solicitada sin perder alertas de proximidad vehicular.

### 10. üß† Consideraciones √âticas y de Seguridad
> **Limitaci√≥n:** SafeStep no sustituye la percepci√≥n humana ni garantiza decisiones seguras por s√≠ solo. Es decir, el sistema es asistivo, por lo que el usuario, como se ha visto, no debe depositar confianza plena en el buen funcionamiento del SafeStep, ya que puede haber fallos de percepci√≥n, latencias o errores de clasificaci√≥n.

### 11. üåç Dependencia del contexto urbano
> **Problema:** A pesar de que el SafeStep cubre la mayor√≠a de los contextos y generaliza bastante bien, puede ser que en entornos urbanos externos la normativa visual sea distinta y se haga uso de una se√±alizaci√≥n no convencional, de manera que el sistema no funcionar√≠a con tanto √©xito como en zonas/pa√≠ses est√°ndar.

## 6. üìä Evaluaci√≥n final del sistema


---

- **SafeStep** confirma el enorme potencial de los sistemas de asistencia peatonal basados en **Visi√≥n Artificial, Realidad Aumentada y procesamiento multimodal** como herramientas de apoyo real para personas con visi√≥n reducida. El sistema logra integrar de forma eficaz detecci√≥n de objetos, OCR, an√°lisis de movimiento, estimaci√≥n de distancia, comprensi√≥n del lenguaje natural y generaci√≥n de alertas visuales y sonoras, manteniendo un equilibrio s√≥lido entre **seguridad, accesibilidad y rendimiento en tiempo real**.

- Las decisiones de dise√±o adoptadas a lo largo del proyecto ‚Äîcomo el **OCR selectivo**, el **filtrado por intenci√≥n del usuario**, la **gesti√≥n inteligente de prioridades y cooldowns de audio**, y la **optimizaci√≥n mediante salto de frames**‚Äî han resultado fundamentales para evitar tanto la sobrecarga computacional como la saturaci√≥n cognitiva del usuario, uno de los principales desaf√≠os en entornos urbanos complejos. 

- Si bien el sistema presenta limitaciones inherentes al uso de visi√≥n monocular y a la variabilidad del entorno real (falsos positivos, errores de OCR en v√≠deo, ambig√ºedades crom√°ticas o sensibilidad al movimiento de c√°mara), estas han sido **claramente identificadas, justificadas y contextualizadas** dentro del alcance de un prototipo funcional. En conjunto, **SafeStep** no solo valida la viabilidad t√©cnica del enfoque propuesto, sino que establece una **base s√≥lida, modular y extensible** para futuras mejoras, como modelos especializados, fusi√≥n de sensores o adaptaci√≥n din√°mica al contexto, consolid√°ndose como una **prueba de concepto robusta, realista y centrada en la accesibilidad urbana**.