![Tecnológico de Monterrey Logo](https://javier.rodriguez.org.mx/itesm/2014/tecnologico-de-monterrey-blue.png)

<div style="text-align: center;">

# Maestría en Inteligencia Artificial Aplicada

## Proyecto Integrador - IBM

**Profesor Titular:** Carlos Alberto Villaseñor  

**Tema:** Ingenieria de Requerimientos (TC5035) 

**Entregable**: Entrega 2 - Proyecto Integrador

**Semana:** Semana Tres

**Estudiantes:**

| Nombre                  | Matrícula    |
|-------------------------|--------------|
| Henry Junior Aranzales Lopez    | A01794020   |
| Jorge Arturo Hernandez Morales   | A01794908   |
| Luis Alejandro Gonzales Castellanos      | A01795481    |

**Grupo:** Grupo 07 

</div>

## Introducción

En el presente notebook se describe la implementación integral de **transformacón de datos vehiculares CAN** hacia representaciones semánticas compatibles con arquitecturas **Large Language Model (LLM)** y sistemas **Retrieval-Augmented Generation (RAG)**; permitiendo la migración desde técnicas tradicionales de ingeniería de características hacia metodologías de enriquecimiento semantico y contextualización de dominio. 

## Objetivos Estratégicos del Sistema

**Objetivo Principal:** Desarrollar un pipeline de transformación semántica que convierta señales numéricas del protocolo CAN (Controller Area Network) en representaciones textuales enriquecidas, facilitando la interpretación de eventos vehiculares mediante interfaces conversacionales basadas en procesamiento de lenguaje natural.

**Objetivos Específicos:**
1. **Transformación Semántica:** Generar descripciones textuales técnicamente precisas de señales CAN mediante técnicas de generación controlada
2. **Enriquecimiento Contextual:** Crear metadatos estructurados que preserven información técnica crítica para sistemas RAG
3. **Construcción de Base de Conocimiento:** Desarrollar un prototipo funcional de corpus documental especializado en el dominio vehicular eléctrico
4. **Optimización RAG:** Generar dataset compatible con arquitecturas de recuperación-generación para consultas técnicas especializadas


## Alcance 

### Innovación Metodológica: Cambio de Paradigma

La metodología implementada busca construir las bases del contexto para lograr la siguiente transición: 

**Paradigma Tradicional (ML Clásico):**
- Extracción de características numéricas estadísticas
- Transformaciones matemáticas para optimización algorítmica
- Enfoque en precisión predictiva cuantitativa

**Paradigma Propuesto (LLM/RAG):**
- Generación de representaciones semánticas contextualizadas
- Preservación de conocimiento técnico dominio-específico
- Enfoque en interpretabilidad y accesibilidad conversacional

### Contexto de Datos y Complejidad del Dominio

**Base de Datos CAN Analizada:**

El sistema vehicular del prototipo de la empresa Superpolo SAS se compone de cuatro canales CAN, en esta etapa, el foco de trabajo se centra en los canales:

- **CAN_EV:** 1,957 señales vehiculares (30% con documentación técnica disponible)
- **CAN_CATL:** 162 señales del sistema de batería (0% documentación - "caja negra" propietaria)

Los siguentes canales aun no se procesan: 
- **CAN_CARROC:** Sistema de control de carrocería y puertas
- **AUX_CHG:** Subsistema de carga y gestión energética

**Nota: La data disponible para el procesamiento y obtención de datos se trabajará de manera local en los equipos de los miembros del grupo de trabajo.**


**Desafíos Técnicos Identificados:**
1. **Heterogeneidad semántica** entre subsistemas vehiculares
2. **Ausencia de documentación** en componentes propietarios
3. **Variabilidad temporal** en patrones de señales CAN
4. **Complejidad de interpretación** para usuarios no técnicos

## Metodología de Desarrollo: Marco Teórico CRISP-ML Adaptado

### Fundamentación Metodológica

La metodología empleada se fundamenta en una adaptación especializada del marco **CRISP-ML (Cross Industry Standard Process for Machine Learning)**, específicamente reinterpretado para sistemas basados en **Large Language Models** y arquitecturas **RAG**. Esta adaptación reconoce las diferencias fundamentales entre el desarrollo de sistemas ML tradicionales y la construcción de sistemas de inteligencia artificial conversacional.

### Posicionamiento en el Ciclo de Vida ML

El presente desarrollo se ubica estratégicamente en la fase de **"Preparación y Transformación de Datos"** del ciclo CRISP-ML, pero incorporando consideraciones específicas para sistemas LLM:

#### Fase 1: Generación de Descripciones Textuales Semánticas
**Fundamentación Teórica:** La transformación de señales numéricas CAN en representaciones textuales requiere la aplicación de técnicas de **generación controlada** que preserven la precisión técnica mientras mejoren la interpretabilidad humana.

**Metodología Específica:**
- Aplicación de plantillas semánticas dominio-específicas
- Preservación de unidades de medida y rangos operacionales
- Contextualización temporal y situacional de eventos

#### Fase 2: Construcción de Metadatos Estructurados
**Fundamentación Teórica:** Los sistemas RAG requieren metadatos enriquecidos que faciliten la recuperación semántica precisa y la generación contextualmente relevante.

**Implementación Técnica:**
- Esquemas JSON estructurados con validación semántica
- Taxonomías jerárquicas de componentes vehiculares
- Mappings de relaciones entre subsistemas CAN

#### Fase 3: Preparación de Corpus Documental Especializado
**Fundamentación Teórica:** La efectividad de sistemas RAG depende críticamente de la calidad y especialización del corpus documental utilizado para recuperación contextual.

**Estrategia de Construcción:**
- Integración de estándares técnicos J1939 y SAE
- Documentación de mejores prácticas industriales
- Generación sintética de ejemplos edge-case

#### Fase 4: Optimización de Dataset para Arquitecturas RAG
**Fundamentación Teórica:** La construcción de datasets RAG requiere consideraciones específicas de chunking, embeddings y recuperación semántica que difieren significativamente de datasets ML tradicionales.

## Entregables Técnicos Especificados

#### 1. Pipeline de Transformación Semántica
**Descripción:** Sistema modular de clases Python que implementa transformaciones CAN→Texto con validación de calidad automática.

**Componentes Técnicos:**
- `GeneradorDescripcionesTextual`: Motor de transformación semántica
- `ValidadorCalidadSemántica`: Sistema de métricas de calidad
- `OptimizadorContextual`: Módulo de enriquecimiento contextual

## Contribuciones Técnicas Esperadas

1. **Innovación Metodológica:** Primera implementación documentada de pipeline CAN→RAG en contexto vehicular colombiano
2. **Validación Empírica:** Métricas cuantitativas de calidad semántica y efectividad de recuperación
3. **Replicabilidad:** Framework modular reutilizable para otros dominios vehiculares
4. **Escalabilidad:** Arquitectura preparada para integración con sistemas Watson IBM

## 1. Configuración Técnica del Entorno de Desarrollo

Para la configuración del entorno de desarrolo se han seleccionado y usado las siguientes dependencias: 

**Categoría 1: Procesamiento de Datos Vehiculares**
- `pandas/numpy`: Manipulación eficiente de datasets CAN de gran volumen
- `matplotlib/seaborn/plotly`: Visualización de patrones temporales en señales

**Categoría 2: Capacidades LLM/RAG**
- `langchain`: Framework de orquestación para sistemas RAG
- `sentence-transformers`: Generación de embeddings semánticos
- `tiktoken`: Tokenización compatible con modelos GPT

**Categoría 3: Formato y Persistencia**
- `jsonlines`: Manejo eficiente de datasets RAG en formato JSONL

In [1]:
# Sección de instalación de dependencias

import subprocess
import sys
from typing import List

def install_package(package: str) -> bool:
    try:
        # Usar subprocess.run para compatibilidad con versiones de Python donde
        # Popen.__init__ no acepta capture_output en check_call indirectamente.
        result = subprocess.run([sys.executable, "-m", "pip", "install", package],
                             capture_output=True, text=True, check=True)
        print(f"{package} instalado correctamente")
        if result.stdout:
            print(result.stdout)
        return True
    except subprocess.CalledProcessError as e:
        # Mostrar salida y error para facilitar diagnóstico
        stderr = e.stderr if hasattr(e, 'stderr') else None
        stdout = e.stdout if hasattr(e, 'stdout') else None
        print(f"Error de instalación con {package}: returncode={getattr(e, 'returncode', None)}")
        if stdout:
            print('STDOUT:\n', stdout)
        if stderr:
            print('STDERR:\n', stderr)
        return False

# Lista de dependencias críticas para el proyecto DECODE-EV
dependencias_core = [
    "pandas>=1.5.0",           # Manipulación de datasets CAN
    "numpy>=1.21.0",           # Operaciones numéricas optimizadas
    "matplotlib>=3.5.0",       # Visualización base
    "seaborn>=0.11.0"          # Visualización estadística avanzada
]

dependencias_llm = [
    "langchain>=0.1.0",        # Framework de orquestación RAG
    "langchain-community",     # Componentes extendidos de LangChain
    "sentence-transformers",   # Generación de embeddings semánticos
    "tiktoken",               # Tokenización para modelos GPT
    "jsonlines"              # Formato JSONL para datasets RAG
]

dependencias_visualizacion = [
    "plotly>=5.0.0"           # Visualizaciones interactivas para análisis
]

# Instalación secuencial con verificación de éxito
todas_dependencias = dependencias_core + dependencias_llm + dependencias_visualizacion
instalaciones_exitosas = []
instalaciones_fallidas = []

print("Estado: Iniciando configuración del entorno DECODE-EV...")
print("=" * 60)

for paquete in todas_dependencias:
    if install_package(paquete):
        instalaciones_exitosas.append(paquete)
    else:
        instalaciones_fallidas.append(paquete)

print("\n" + "=" * 60)
print(f"Resumen del proceso de instalación:")
print(f"   Exitosas: {len(instalaciones_exitosas)}")
print(f"   Fallidas: {len(instalaciones_fallidas)}")

if instalaciones_fallidas:
    print(f"\n Dependencias que requieren instalación manual:")
    for paquete in instalaciones_fallidas:
        print(f"   pip install {paquete}")
        
print("\nEntorno base configurado para sistemas LLM/RAG vehiculares")

Estado: Iniciando configuración del entorno DECODE-EV...
pandas>=1.5.0 instalado correctamente

pandas>=1.5.0 instalado correctamente

numpy>=1.21.0 instalado correctamente

numpy>=1.21.0 instalado correctamente

matplotlib>=3.5.0 instalado correctamente

matplotlib>=3.5.0 instalado correctamente

seaborn>=0.11.0 instalado correctamente

seaborn>=0.11.0 instalado correctamente

langchain>=0.1.0 instalado correctamente

langchain>=0.1.0 instalado correctamente

langchain-community instalado correctamente

langchain-community instalado correctamente

sentence-transformers instalado correctamente

sentence-transformers instalado correctamente

tiktoken instalado correctamente

tiktoken instalado correctamente

jsonlines instalado correctamente

jsonlines instalado correctamente

plotly>=5.0.0 instalado correctamente


Resumen del proceso de instalación:
   Exitosas: 10
   Fallidas: 0

Entorno base configurado para sistemas LLM/RAG vehiculares
plotly>=5.0.0 instalado correctamente


Resume

In [2]:
# Importación estratégica de librerías

import pandas as pd
import numpy as np
import json
from datetime import datetime, timedelta
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Módulos para procesamiento de texto y análisis semántico
import re
from typing import Dict, List, Tuple, Optional, Union, Any
from dataclasses import dataclass, field
from pathlib import Path
import logging
from collections import defaultdict

# Configuración de logging para debugging avanzado
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

# Importación segura de jsonlines con fallback automático
def safe_import_jsonlines():
    try:
        import jsonlines
        logger.info("jsonlines importado correctamente")
        return jsonlines
    except ImportError:
        logger.warning("jsonlines no disponible - iniciando instalación automática...")
        try:
            import subprocess
            import sys
            subprocess.check_call([sys.executable, "-m", "pip", "install", "jsonlines"], 
                                capture_output=True)
            import jsonlines
            logger.info("jsonlines instalado e importado exitosamente")
            return jsonlines
        except Exception as e:
            logger.error(f"Error en instalación automática de jsonlines: {e}")
            return None

# Importación segura de LangChain con manejo de versiones
def safe_import_langchain():
    langchain_components = {}
    
    try:
        # Intento de importación moderna (LangChain v0.1+)
        from langchain.text_splitter import RecursiveCharacterTextSplitter
        from langchain_core.documents import Document
        langchain_components['text_splitter'] = RecursiveCharacterTextSplitter
        langchain_components['document'] = Document
        logger.info("LangChain v0.1+ importado correctamente")
    except ImportError:
        try:
            # Fallback para versiones anteriores
            from langchain.text_splitter import RecursiveCharacterTextSplitter
            from langchain.docstore.document import Document
            langchain_components['text_splitter'] = RecursiveCharacterTextSplitter
            langchain_components['document'] = Document
            logger.info("LangChain versión clásica importada")
        except ImportError:
            logger.warning("LangChain no disponible - funcionalidad RAG limitada")
            langchain_components = None
    
    return langchain_components

# Ejecutar importaciones seguras
jsonlines = safe_import_jsonlines()
langchain_components = safe_import_langchain()

# Configuración avanzada de visualización con múltiples fallbacks
def configure_matplotlib_style():
    estilos_preferidos = [
        'seaborn-v0_8',      # Estilo moderno preferido
        'seaborn-whitegrid',  # Alternativa limpia
        'seaborn',           # Clásico
        'ggplot',            # Alternativa colorida
        'default'            # Fallback final
    ]
    
    for estilo in estilos_preferidos:
        try:
            plt.style.use(estilo)
            logger.info(f"Estilo matplotlib '{estilo}' aplicado exitosamente")
            return estilo
        except OSError:
            continue
    
    logger.warning("Usando estilo matplotlib por defecto")
    return 'default'

# Configuración de paleta de colores con optimización para datos vehiculares
def configure_color_palette():
    try:
        # Paleta personalizada para redes CAN vehiculares
        colores_can = ['#2E86AB', '#A23B72', '#F18F01', '#C73E1D', '#592F2B']
        sns.set_palette(colores_can)
        logger.info("Paleta de colores vehicular configurada")
        return True
    except Exception as e:
        logger.warning(f"Error configurando paleta personalizada: {e}")
        try:
            sns.set_palette("husl")
            logger.info("Paleta de colores estándar configurada")
            return True
        except Exception:
            logger.warning("Usando colores por defecto")
            return False

# Ejecutar configuraciones
estilo_aplicado = configure_matplotlib_style()
paleta_configurada = configure_color_palette()

# Configuración de warnings con categorización
import warnings
warnings.filterwarnings('ignore', category=FutureWarning)  # Suppress pandas warnings
warnings.filterwarnings('ignore', category=UserWarning)    # Suppress matplotlib warnings
warnings.filterwarnings('default', category=DeprecationWarning)  # Show deprecation warnings

# Configuración global de pandas para datasets grandes
pd.set_option('display.max_columns', 20)
pd.set_option('display.max_rows', 100)
pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth', 50)

# Configuración de numpy para reproducibilidad
np.random.seed(42)

# Verificación de configuración del entorno
print("\n" + "="*70)
print("DECODE-EV: ENTORNO TÉCNICO CONFIGURADO")
print("="*70)
print(f"Pandas versión: {pd.__version__}")
print(f"NumPy versión: {np.__version__}")
print(f"Matplotlib estilo: {estilo_aplicado}")
print(f"Paleta de colores: {'Configurada' if paleta_configurada else '❌ Por defecto'}")
print(f"JSONL soporte: {'Disponible' if jsonlines else 'No disponible'}")
print(f"LangChain soporte: {'Disponible' if langchain_components else 'No disponible'}")
print("="*70)
print("Sistema listo para procesamiento de datos CAN vehiculares")
print("Capacidades RAG/LLM: Habilitadas")
print("="*70)

2025-10-06 13:27:02,151 - INFO - jsonlines importado correctamente
2025-10-06 13:27:03,050 - INFO - LangChain v0.1+ importado correctamente
2025-10-06 13:27:03,053 - INFO - Estilo matplotlib 'seaborn-v0_8' aplicado exitosamente
2025-10-06 13:27:03,054 - INFO - Paleta de colores vehicular configurada
2025-10-06 13:27:03,050 - INFO - LangChain v0.1+ importado correctamente
2025-10-06 13:27:03,053 - INFO - Estilo matplotlib 'seaborn-v0_8' aplicado exitosamente
2025-10-06 13:27:03,054 - INFO - Paleta de colores vehicular configurada



DECODE-EV: ENTORNO TÉCNICO CONFIGURADO
Pandas versión: 2.3.2
NumPy versión: 2.3.3
Matplotlib estilo: seaborn-v0_8
Paleta de colores: Configurada
JSONL soporte: Disponible
LangChain soporte: Disponible
Sistema listo para procesamiento de datos CAN vehiculares
Capacidades RAG/LLM: Habilitadas


In [3]:
# Verificación de dependencias y versiones
def verificar_entorno():
    
    dependencias = {
        'pandas': pd.__version__,
        'numpy': np.__version__,
        'matplotlib': plt.__version__ if hasattr(plt, '__version__') else "disponible",
        'seaborn': sns.__version__,
        'plotly': px.__version__ if hasattr(px, '__version__') else "disponible",
    }
    
    print("VERIFICACIÓN DE DEPENDENCIAS:")
    print("-" * 40)
    
    for lib, version in dependencias.items():
        print(f"{lib:<12}: {version}")
    
    # Verificar jsonlines
    try:
        import jsonlines
        print(f"{'jsonlines':<12}: Disponible")
    except ImportError:
        print(f"{'jsonlines':<12}: No Disponible")
    
    # Verificar LangChain
    try:
        from langchain.text_splitter import RecursiveCharacterTextSplitter
        print(f"{'langchain':<12}: Disponible")
    except ImportError:
        print(f"{'langchain':<12}: No Disponible (opcional)")
    
    print("-" * 40)
    print("Estado: Entorno listo para análisis CAN")

# Ejecutar verificación
verificar_entorno()

VERIFICACIÓN DE DEPENDENCIAS:
----------------------------------------
pandas      : 2.3.2
numpy       : 2.3.3
matplotlib  : disponible
seaborn     : 0.13.2
plotly      : disponible
jsonlines   : Disponible
langchain   : Disponible
----------------------------------------
Estado: Entorno listo para análisis CAN


## 2. Arquitectura de Datos y Estructuras Semánticas para Sistemas RAG 

### Fundamentación Teórica: Modelado de Datos CAN para LLM

La transformación de datos vehiculares CAN hacia representaciones compatibles con sistemas RAG requiere una arquitectura de datos especializada que preserve tanto la precisión técnica como la accesibilidad semántica. La metodología implementada se fundamenta en principios de **ingeniería de conocimiento** aplicados al dominio automotriz.

### Diseño de Estructuras de Datos Orientadas a Conocimiento

La arquitectura propuesta implementa un **modelo conceptual jerárquico** que organiza la información CAN en múltiples niveles de abstracción:

1. **Nivel de Señal:** Datos numéricos crudos con metadatos técnicos directamente obtenidos de pruebas en la unidad. 
2. **Nivel de Evento:** Agregaciones semánticamente coherentes de señales
3. **Nivel de Contexto:** Información situacional y operativa del vehículo
4. **Nivel de Conocimiento:** Representaciones textuales enriquecidas para RAG

### Justificación Metodológica para Estructuras Dataclass

El equipo de trabajo considera que la utilización de **dataclasses** de Python para modelado de datos CAN ofrece ventajas específicas para sistemas LLM:

- **Validación automática de tipos:** Garantiza consistencia en representaciones semánticas
- **Serialización controlada:** Facilita conversión a formatos RAG (JSONL)
- **Inmutabilidad opcional:** Preserva integridad de metadatos críticos
- **Introspección mejorada:** Facilita debugging y análisis de calidad de datos

In [4]:
# Definición de estructuras de datos especializadas para modelado semántico CAN
# Implementación orientada a conocimiento para sistemas RAG vehiculares

from dataclasses import dataclass, field
from typing import Dict, List, Optional, Union, Any
from datetime import datetime
import json

@dataclass
class CANEventMetadata:
    """
    Estructura de metadatos enriquecidos para eventos vehiculares CAN.
    
    Diseñada específicamente para sistemas RAG que requieren contextualización
    semántica precisa de eventos temporales complejos.
    
    Attributes:
        timestamp_inicio: Marca temporal de inicio del evento (ISO 8601)
        timestamp_fin: Marca temporal de finalización del evento 
        duracion_segundos: Duración del evento en segundos (precisión de milisegundos)
        red_can: Identificador de red CAN involucrada
        senales_involucradas: Lista de señales CAN participantes en el evento
        evento_vehiculo: Clasificación semántica del evento
        intensidad: Nivel de intensidad categorizado
        contexto_operativo: Contexto situacional del vehículo
        confianza_clasificacion: Score de confianza en la clasificación automática
    """
    timestamp_inicio: str
    timestamp_fin: str
    duracion_segundos: float
    red_can: str  # CAN_EV, CAN_CATL, CAN_CARROC, AUX_CHG
    senales_involucradas: List[str]
    evento_vehiculo: str  # "aceleracion", "frenado", "carga", "idle", "mantenimiento"
    intensidad: str  # "bajo", "medio", "alto", "critico"
    contexto_operativo: str  # "ciudad", "carretera", "estacionado", "carga"
    confianza_clasificacion: float = field(default=0.0)  # 0.0 - 1.0
    
    def to_dict(self) -> Dict[str, Any]:
        """
        Serializa metadatos a diccionario JSON-compatible.
        Optimizado para ingesta en sistemas RAG.
        """
        return {
            "timestamp_inicio": self.timestamp_inicio,
            "timestamp_fin": self.timestamp_fin,
            "duracion_segundos": self.duracion_segundos,
            "red_can": self.red_can,
            "senales_involucradas": self.senales_involucradas,
            "evento_vehiculo": self.evento_vehiculo,
            "intensidad": self.intensidad,
            "contexto_operativo": self.contexto_operativo,
            "confianza_clasificacion": self.confianza_clasificacion
        }
    
    def generate_semantic_tags(self) -> List[str]:
        """
        Genera tags semánticos para facilitar recuperación en sistemas RAG.
        Implementa estrategia de tageo multi-dimensional.
        """
        tags = [
            f"red_{self.red_can.lower()}",
            f"evento_{self.evento_vehiculo}",
            f"intensidad_{self.intensidad}",
            f"contexto_{self.contexto_operativo}",
            f"duracion_{self._categorize_duration()}"
        ]
        
        # Tags adicionales basados en señales involucradas
        if any('voltaje' in senal.lower() for senal in self.senales_involucradas):
            tags.append("sistema_electrico")
        if any('temperatura' in senal.lower() for senal in self.senales_involucradas):
            tags.append("gestion_termica")
        if any('corriente' in senal.lower() for senal in self.senales_involucradas):
            tags.append("consumo_energetico")
            
        return tags
    
    def _categorize_duration(self) -> str:
        """Categoriza duración del evento para tageo semántico."""
        if self.duracion_segundos < 1:
            return "instantaneo"
        elif self.duracion_segundos < 10:
            return "corto"
        elif self.duracion_segundos < 60:
            return "medio"
        else:
            return "prolongado"

@dataclass
class CANSignalDescription:
    """
    Estructura para descripciones textuales enriquecidas de señales CAN.
    
    Optimizada para generación de contenido RAG con preservación
    de precisión técnica y accesibilidad conversacional.
    """
    signal_name: str
    technical_description: str
    conversational_description: str
    unit: str
    normal_range: str
    critical_thresholds: Dict[str, float]
    semantic_category: str  # "sistema_energia", "control_motor", "diagnostico", etc.
    documentation_source: str  # "DBC", "J1939", "INFERIDO", "MANUAL"
    quality_score: float = field(default=0.0)  # Métrica de calidad de descripción
    
    def to_rag_document(self) -> Dict[str, Any]:
        """
        Convierte a formato de documento RAG con metadatos estructurados.
        """
        return {
            "content": self.technical_description,
            "metadata": {
                "signal_name": self.signal_name,
                "conversational_description": self.conversational_description,
                "unit": self.unit,
                "normal_range": self.normal_range,
                "critical_thresholds": self.critical_thresholds,
                "semantic_category": self.semantic_category,
                "documentation_source": self.documentation_source,
                "quality_score": self.quality_score,
                "document_type": "can_signal_description"
            }
        }

@dataclass 
class RAGDatasetEntry:
    """
    Entrada individual del dataset RAG optimizada para sistemas conversacionales.
    
    Implementa estructura unificada que combina metadatos CAN, 
    descripciones textuales y contexto semántico.
    """
    id: str
    content: str  # Descripción textual principal
    metadata: CANEventMetadata
    signal_descriptions: List[CANSignalDescription] 
    embedding_vector: Optional[List[float]] = field(default=None)
    quality_metrics: Dict[str, float] = field(default_factory=dict)
    
    def to_jsonl_entry(self) -> str:
        """
        Serializa entrada a formato JSONL para sistemas RAG.
        Optimizado para carga eficiente en sistemas de vectores.
        """
        entry = {
            "id": self.id,
            "content": self.content,
            "metadata": self.metadata.to_dict(),
            "signal_descriptions": [desc.to_rag_document() for desc in self.signal_descriptions],
            "quality_metrics": self.quality_metrics,
            "semantic_tags": self.metadata.generate_semantic_tags()
        }
        
        # Incluir embedding vector si está disponible
        if self.embedding_vector is not None:
            entry["embedding_vector"] = self.embedding_vector
            
        return json.dumps(entry, ensure_ascii=False)

# Ejemplo de inicialización de estructuras con datos de prueba
print("Estructuras de datos semánticas definidas:")
print("CANEventMetadata: Metadatos enriquecidos de eventos")
print("CANSignalDescription: Descripciones textuales de señales")   
print("RAGDatasetEntry: Entradas optimizadas para sistemas RAG")
print("\n Arquitectura de datos lista para procesamiento CAN→RAG")

Estructuras de datos semánticas definidas:
CANEventMetadata: Metadatos enriquecidos de eventos
CANSignalDescription: Descripciones textuales de señales
RAGDatasetEntry: Entradas optimizadas para sistemas RAG

 Arquitectura de datos lista para procesamiento CAN→RAG


## 3. Procesamiento de Archivos DBC y BLF Reales

**Sistema de carga de datos vehiculares CAN desde archivos reales:**
- Se cargan archivos DBC de las redes CAN CATL (Baterías) y EV (Tracción)
- Se procesan logs BLF grabados durante operación real del vehículo
- **Solo datos reales** - sin simulaciones ni datos sintéticos

In [5]:
# === INSTALACIÓN AUTOMÁTICA DE DEPENDENCIAS CAN ===
import os
import hashlib
import tkinter as tk
from tkinter import filedialog

print("INSTALANDO DEPENDENCIAS PARA PROCESAMIENTO CAN REAL...")
print("=" * 60)

def install_can_dependencies():
    """Instala dependencias críticas para procesamiento real de archivos CAN"""
    dependencias_can = [
        "cantools",      # Lectura de archivos DBC
        "python-can",    # Lectura de archivos BLF
        "asammdf"        # Alternativa para archivos MDF/BLF
    ]
    
    instalaciones_exitosas = 0
    
    for dep in dependencias_can:
        try:
            result = subprocess.run([sys.executable, "-m", "pip", "install", dep], 
                                 capture_output=True, text=True, check=True)
            print(f"{dep} instalado correctamente")
            instalaciones_exitosas += 1
        except subprocess.CalledProcessError as e:
            print(f"Error instalando {dep}")
            if e.stderr:
                print(f"   Error: {e.stderr}")
    
    if instalaciones_exitosas == len(dependencias_can):
        print("Todas las dependencias CAN instaladas correctamente")
        return True
    else:
        print(f"Solo {instalaciones_exitosas}/{len(dependencias_can)} dependencias instaladas")
        return False

# Ejecutar instalación automática
dependencias_instaladas = install_can_dependencies()

if not dependencias_instaladas:
    print("ERROR CRÍTICO: Sin las dependencias CAN no se pueden procesar archivos reales")
    print("   Instale manualmente: pip install cantools python-can asammdf")
    raise ImportError("Dependencias CAN requeridas no disponibles")

# === FUNCIONES DE PROCESAMIENTO REAL (SIN SIMULACIÓN) ===

def procesar_archivos_dbc_solo_reales(archivos_dbc: List[str]) -> Dict[str, Dict]:
    """
    Procesa archivos DBC REALES únicamente
    NO incluye fallbacks a datos simulados
    """
    definiciones_dbc = {}
    
    print("\n PROCESANDO ARCHIVOS DBC REALES:")
    print("-" * 40)
    
    for archivo_dbc in archivos_dbc:
        nombre_archivo = os.path.basename(archivo_dbc)
        print(f"Procesando: {nombre_archivo}")
        
        try:
            # Usar cantools para leer DBC real
            import cantools
            db = cantools.database.load_file(archivo_dbc)
            
            señales_extraidas = {}
            for mensaje in db.messages:
                for senal in mensaje.signals:
                    señales_extraidas[senal.name] = {
                        'unidad': getattr(senal, 'unit', ''),
                        'factor': getattr(senal, 'scale', 1),
                        'offset': getattr(senal, 'offset', 0),
                        'descripcion': getattr(senal, 'comment', f'Señal CAN: {senal.name}'),
                        'min': getattr(senal, 'minimum', None),
                        'max': getattr(senal, 'maximum', None),
                        'mensaje_id': f'0x{mensaje.frame_id:X}',
                        'start_bit': senal.start,
                        'length': senal.length
                    }
            
            definiciones_dbc[nombre_archivo] = {
                'señales': señales_extraidas,
                'ruta': archivo_dbc,
                'procesado': True,
                'metodo': 'cantools_real'
            }
            
            print(f"{len(señales_extraidas)} señales extraídas del DBC real")
            
        except ImportError:
            print(f"ERROR: cantools no disponible para {nombre_archivo}")
            print("Instale: pip install cantools")
            raise ImportError(f"cantools requerido para procesar {nombre_archivo}")
            
        except Exception as e:
            print(f"ERROR procesando {nombre_archivo}: {str(e)}")
            raise Exception(f"Error procesando DBC real: {str(e)}")
    
    return definiciones_dbc

def cargar_archivo_blf_solo_real(archivo_blf: str) -> pd.DataFrame:
    """
    Carga archivo BLF REAL únicamente
    NO incluye fallbacks a datos simulados
    """
    nombre_archivo = os.path.basename(archivo_blf)
    
    try:
        import can
        
        print(f"Leyendo BLF real: {nombre_archivo}")
        
        # Leer archivo BLF real
        mensajes = []
        with can.BLFReader(archivo_blf) as reader:
            for i, msg in enumerate(reader):
                # Procesar todos los mensajes (eliminar límite artificial)
                mensajes.append({
                    'timestamp': msg.timestamp,
                    'arbitration_id': f'0x{msg.arbitration_id:X}',
                    'data': msg.data.hex() if msg.data else '',
                    'dlc': msg.dlc if hasattr(msg, 'dlc') else len(msg.data) if msg.data else 0,
                    'is_extended': msg.is_extended_id if hasattr(msg, 'is_extended_id') else False,
                    'channel': getattr(msg, 'channel', 0)
                })
                
                # Progreso cada 50k mensajes
                if i > 0 and i % 50000 == 0:
                    print(f"      Procesados {i:,} mensajes...")
        
        if not mensajes:
            raise ValueError(f"No se encontraron mensajes CAN en {nombre_archivo}")
        
        df = pd.DataFrame(mensajes)
        df['timestamp'] = pd.to_datetime(df['timestamp'], unit='s')
        
        print(f"BLF real cargado: {len(df):,} mensajes CAN")
        return df
        
    except ImportError:
        print(f"ERROR: python-can no disponible para {nombre_archivo}")
        print("Instale: pip install python-can")
        raise ImportError(f"python-can requerido para procesar {nombre_archivo}")
        
    except Exception as e:
        print(f"ERROR leyendo BLF real {nombre_archivo}: {e}")
        raise Exception(f"Error procesando BLF real: {str(e)}")

def cargar_datos_solo_reales(archivos_blf: List[str], definiciones_dbc: Dict[str, Dict]) -> Dict[str, pd.DataFrame]:
    """
    Carga datos REALES únicamente - sin fallbacks simulados
    """
    datasets_procesados = {}
    
    print("\nPROCESANDO ARCHIVOS DE DATOS REALES:")
    print("-" * 50)
    
    for archivo_blf in archivos_blf:
        nombre_archivo = os.path.basename(archivo_blf)
        extension = os.path.splitext(archivo_blf)[1].lower()
        
        print(f"Procesando: {nombre_archivo}")
        
        try:
            # Cargar datos según formato
            if extension == '.blf':
                df = cargar_archivo_blf_solo_real(archivo_blf)
                
            elif extension == '.csv':
                df = pd.read_csv(archivo_blf)
                print(f"CSV cargado: {len(df):,} registros")
                
            elif extension in ['.xlsx', '.xls']:
                df = pd.read_excel(archivo_blf)
                print(f"Excel cargado: {len(df):,} registros")
                
            else:
                print(f"Formato {extension} no soportado")
                print("       Formatos admitidos: .blf, .csv, .xlsx, .xls")
                continue
            
            # Aplicar definiciones DBC
            df_procesado = aplicar_definiciones_dbc_real(df, definiciones_dbc, nombre_archivo)
            
            # Identificar red CAN
            red_can = identificar_red_can(nombre_archivo)
            datasets_procesados[red_can] = df_procesado
            
            print(f" Procesado como red: {red_can}")
            print(f"      Registros: {len(df_procesado):,} | Columnas: {len(df_procesado.columns)}")
            
        except Exception as e:
            print(f"ERROR procesando {nombre_archivo}: {str(e)}")
            raise Exception(f"Error crítico procesando datos reales: {str(e)}")
    
    return datasets_procesados

def aplicar_definiciones_dbc_real(df: pd.DataFrame, definiciones_dbc: Dict, nombre_archivo: str) -> pd.DataFrame:
    """Aplica definiciones DBC reales a los datos cargados"""
    df_procesado = df.copy()
    
    # Buscar definiciones DBC aplicables
    aplicaciones = 0
    for archivo_dbc, definiciones in definiciones_dbc.items():
        if definiciones['procesado']:
            señales_dbc = definiciones['señales']
            
            # Aplicar factores de escala y unidades a columnas existentes
            for columna in df_procesado.columns:
                if columna in señales_dbc:
                    info_senal = señales_dbc[columna]
                    factor = info_senal.get('factor', 1)
                    offset = info_senal.get('offset', 0)
                    
                    if pd.api.types.is_numeric_dtype(df_procesado[columna]):
                        if factor != 1 or offset != 0:
                            df_procesado[columna] = (df_procesado[columna] * factor) + offset
                            aplicaciones += 1
    
    if aplicaciones > 0:
        print(f"Aplicadas {aplicaciones} definiciones DBC")
    
    return df_procesado

def identificar_red_can(nombre_archivo: str) -> str:
    """Identifica la red CAN basado en el nombre del archivo"""
    nombre_lower = nombre_archivo.lower()
    
    if 'ev' in nombre_lower or 'motor' in nombre_lower or 'traction' in nombre_lower:
        return 'CAN_EV'
    elif 'catl' in nombre_lower or 'bateria' in nombre_lower or 'battery' in nombre_lower or 'bms' in nombre_lower:
        return 'CAN_CATL'
    elif 'carroc' in nombre_lower or 'body' in nombre_lower or 'puerta' in nombre_lower or 'door' in nombre_lower:
        return 'CAN_CARROC'
    elif 'aux' in nombre_lower or 'chg' in nombre_lower or 'carga' in nombre_lower or 'charge' in nombre_lower:
        return 'AUX_CHG'
    else:
        # Usar hash del nombre para generar identificador único consistente
        hash_obj = hashlib.md5(nombre_archivo.encode())
        return f'CAN_CUSTOM_{hash_obj.hexdigest()[:8].upper()}'

# Funciones de selección de archivos (reutilizadas sin cambios)
def seleccionar_archivos_dbc() -> List[str]:
    """Selecciona múltiples archivos DBC usando interfaz gráfica"""
    
    print("SELECCIÓN DE ARCHIVOS DBC (Definiciones de Señales)")
    print("=" * 55)
    print("Los archivos DBC contienen:")
    print("- Definiciones de señales CAN reales")
    print("- Unidades de medida y factores de escalado")
    print("- Descripciones funcionales")
    print("- Metadatos técnicos\n")
    
    root = tk.Tk()
    root.withdraw()
    
    archivos_dbc = filedialog.askopenfilenames(
        title="Seleccionar archivos DBC (Definiciones CAN)",
        filetypes=[
            ("DBC files", "*.dbc"),
            ("All files", "*.*")
        ],
        initialdir=os.path.expanduser("~")
    )
    
    root.destroy()
    
    if archivos_dbc:
        print(f"{len(archivos_dbc)} archivo(s) DBC seleccionado(s):")
        for i, archivo in enumerate(archivos_dbc, 1):
            nombre = os.path.basename(archivo)
            print(f"   {i}. {nombre}")
    else:
        print("No se seleccionaron archivos DBC")
        raise ValueError("Se requieren archivos DBC para procesar datos reales")
    
    return list(archivos_dbc)

def seleccionar_archivos_blf() -> List[str]:
    """Selecciona múltiples archivos BLF/datos usando interfaz gráfica"""
    
    print("\n SELECCIÓN DE ARCHIVOS DE DATOS (Logs del Vehículo)")
    print("=" * 55)
    print("Formatos soportados:")
    print("- BLF: Logs binarios del vehículo (recomendado)")
    print("- CSV: Datos procesados")
    print("- Excel: Datos tabulares\n")
    
    root = tk.Tk()
    root.withdraw()
    
    archivos_blf = filedialog.askopenfilenames(
        title="Seleccionar archivos de datos del vehículo",
        filetypes=[
            ("BLF files", "*.blf"),
            ("CSV files", "*.csv"),
            ("Excel files", "*.xlsx *.xls"),
            ("All files", "*.*")
        ],
        initialdir=os.path.expanduser("~")
    )
    
    root.destroy()
    
    if archivos_blf:
        print(f"{len(archivos_blf)} archivo(s) de datos seleccionado(s):")
        for i, archivo in enumerate(archivos_blf, 1):
            nombre = os.path.basename(archivo)
            extension = os.path.splitext(archivo)[1].lower()
            tipo_archivo = {
                '.blf': 'BLF (Log binario)',
                '.csv': 'CSV (Procesado)',
                '.xlsx': 'Excel (Procesado)',
                '.xls': 'Excel (Procesado)'
            }.get(extension, 'Desconocido')
            print(f"   {i}. {nombre} - {tipo_archivo}")
    else:
        print("No se seleccionaron archivos de datos")
        raise ValueError("Se requieren archivos de datos del vehículo para el análisis")
    
    return list(archivos_blf)

print("\nSISTEMA DE PROCESAMIENTO REAL CONFIGURADO")
print("Solo datos reales - sin simulaciones")
print("Dependencias CAN instaladas y verificadas")

INSTALANDO DEPENDENCIAS PARA PROCESAMIENTO CAN REAL...
cantools instalado correctamente
cantools instalado correctamente
python-can instalado correctamente
python-can instalado correctamente
asammdf instalado correctamente
Todas las dependencias CAN instaladas correctamente

SISTEMA DE PROCESAMIENTO REAL CONFIGURADO
Solo datos reales - sin simulaciones
Dependencias CAN instaladas y verificadas
asammdf instalado correctamente
Todas las dependencias CAN instaladas correctamente

SISTEMA DE PROCESAMIENTO REAL CONFIGURADO
Solo datos reales - sin simulaciones
Dependencias CAN instaladas y verificadas


In [6]:
# === PROCESAMIENTO DE DATOS VEHICULARES REALES ===

print("SISTEMA DE PROCESAMIENTO CAN - DATOS REALES ÚNICAMENTE")
print("=" * 65)
print("CONFIGURACIÓN:")
print("- Solo datos reales del vehículo")
print("- Archivos DBC y BLF auténticos")  
print("- Sin simulaciones ni datos sintéticos")
print("- Procesamiento directo desde operación vehicular\n")

# === PASO 1: CARGAR ARCHIVOS DBC REALES ===
try:
    print("CARGA DE DEFINICIONES DBC REALES")
    archivos_dbc = seleccionar_archivos_dbc()
    
    print("Procesando archivos DBC seleccionados...")
    definiciones_dbc = procesar_archivos_dbc_solo_reales(archivos_dbc)
    
    # Resumen de definiciones cargadas
    total_senales = sum(len(def_dbc['señales']) for def_dbc in definiciones_dbc.values() if def_dbc['procesado'])
    print(f"\nRESUMEN DBC:")
    print(f"   Archivos procesados: {len(definiciones_dbc)}")
    print(f"   Total señales definidas: {total_senales}")
    
    for nombre_archivo, definicion in definiciones_dbc.items():
        if definicion['procesado']:
            print(f"{nombre_archivo}: {len(definicion['señales'])} señales")

except Exception as e:
    print(f"  ERROR CRÍTICO en carga DBC: {e}")
    print("   El procesamiento no puede continuar sin definiciones DBC")
    raise

# === PASO 2: CARGAR ARCHIVOS DE DATOS REALES ===
try:
    print(f"\n CARGA DE DATOS VEHICULARES REALES")
    archivos_datos = seleccionar_archivos_blf()
    
    print(" Procesando archivos de datos seleccionados...")
    datos_can = cargar_datos_solo_reales(archivos_datos, definiciones_dbc)
    
    # Resumen de datos cargados
    total_registros = sum(len(df) for df in datos_can.values())
    print(f"\n RESUMEN DATOS:")
    print(f"   Archivos procesados: {len(archivos_datos)}")
    print(f"   Redes CAN identificadas: {len(datos_can)}")
    print(f"   Total registros cargados: {total_registros:,}")
    
    for red_can, df in datos_can.items():
        print(f"{red_can}:")
        print(f"      Registros: {len(df):,}")
        print(f"      Columnas: {len(df.columns)}")
        if len(df) > 0:
            tiempo_inicial = df['timestamp'].min() if 'timestamp' in df.columns else 'N/A'
            tiempo_final = df['timestamp'].max() if 'timestamp' in df.columns else 'N/A'
            if tiempo_inicial != 'N/A':
                print(f"      Período: {tiempo_inicial} a {tiempo_final}")

except Exception as e:
    print(f"ERROR CRÍTICO en carga de datos: {e}")
    print("   El procesamiento no puede continuar sin datos del vehículo")
    raise

# === PASO 3: VALIDACIÓN DE DATOS CARGADOS ===
print(f"\n VALIDACIÓN DE INTEGRIDAD DE DATOS")
datos_validos = True

for red_can, df in datos_can.items():
    print(f"Validando {red_can}...")
    
    if len(df) == 0:
        print(f"Sin datos en {red_can}")
        datos_validos = False
        continue
    
    # Verificar columnas esenciales
    columnas_esperadas = ['timestamp'] if 'timestamp' in df.columns else []
    columnas_faltantes = [col for col in columnas_esperadas if col not in df.columns]
    
    if columnas_faltantes:
        print(f" Columnas faltantes en {red_can}: {columnas_faltantes}")
    
    # Verificar datos nulos
    nulos_por_columna = df.isnull().sum()
    columnas_con_nulos = nulos_por_columna[nulos_por_columna > 0]
    
    if len(columnas_con_nulos) > 0:
        print(f" Columnas con valores nulos en {red_can}: {len(columnas_con_nulos)}")
    
    print(f"   ✅ {red_can}: {len(df):,} registros válidos")

if not datos_validos:
    print("ADVERTENCIA: Algunos datasets tienen problemas de integridad")
else:
    print("TODOS LOS DATASETS VALIDADOS CORRECTAMENTE")

# === PASO 4: CONFIGURACIÓN FINAL ===
print(f"\n CONFIGURACIÓN COMPLETADA")
print("=" * 50)
print("ESTADO FINAL DEL SISTEMA:")
print(f"   Definiciones DBC: {len(definiciones_dbc)} archivos procesados")
print(f"   Datos vehiculares: {len(datos_can)} redes CAN cargadas")
print(f"   Total registros: {sum(len(df) for df in datos_can.values()):,}")
print(f"   Origen de datos: 100% REAL (sin simulaciones)")

print(f"\n REDES CAN DISPONIBLES PARA ANÁLISIS:")
for red_can in sorted(datos_can.keys()):
    df = datos_can[red_can]
    print(f"   📡 {red_can}: {len(df):,} registros | {len(df.columns)} columnas")

print(f"\n SISTEMA LISTO PARA ANÁLISIS AVANZADO")
print("   Los datos están disponibles en la variable 'datos_can'")
print("   Las definiciones están en 'definiciones_dbc'")

# Mostrar ejemplo de los primeros registros
print(f"\n EJEMPLO DE DATOS CARGADOS:")
for red_can, df in list(datos_can.items())[:2]:  # Solo primeras 2 redes
    print(f"\n{red_can} (primeras 3 filas):")
    if len(df) > 0:
        print(df.head(3).to_string(max_cols=6))
    else:
        print("   Sin datos disponibles")

SISTEMA DE PROCESAMIENTO CAN - DATOS REALES ÚNICAMENTE
CONFIGURACIÓN:
- Solo datos reales del vehículo
- Archivos DBC y BLF auténticos
- Sin simulaciones ni datos sintéticos
- Procesamiento directo desde operación vehicular

CARGA DE DEFINICIONES DBC REALES
SELECCIÓN DE ARCHIVOS DBC (Definiciones de Señales)
Los archivos DBC contienen:
- Definiciones de señales CAN reales
- Unidades de medida y factores de escalado
- Descripciones funcionales
- Metadatos técnicos

2 archivo(s) DBC seleccionado(s):
   1. IP_JZ - CAN CATL.dbc
   2. IP_JZ - CAN EV.DBC
Procesando archivos DBC seleccionados...

 PROCESANDO ARCHIVOS DBC REALES:
----------------------------------------
Procesando: IP_JZ - CAN CATL.dbc
2 archivo(s) DBC seleccionado(s):
   1. IP_JZ - CAN CATL.dbc
   2. IP_JZ - CAN EV.DBC
Procesando archivos DBC seleccionados...

 PROCESANDO ARCHIVOS DBC REALES:
----------------------------------------
Procesando: IP_JZ - CAN CATL.dbc
159 señales extraídas del DBC real
Procesando: IP_JZ - CAN EV

## 3. Motor de Transformación Semántica: De Señales CAN a Narrativas Descriptivas

### Arquitectura del Sistema de Transformación Semántica

El sistema implementa una **arquitectura multi-capa** que procesa datos CAN en múltiples niveles de abstracción:

1. **Capa de Análisis Temporal:** Identificación de patrones estadísticos en series temporales
2. **Capa de Contextualización:** Enriquecimiento con metadatos operacionales vehiculares  
3. **Capa de Generación Textual:** Aplicación de plantillas semánticas dominio-específicas
4. **Capa de Validación Semántica:** Verificación de coherencia y precisión técnica

### Estrategia de Implementación: Plantillas Adaptativas

La generación textual utiliza un sistema de **plantillas adaptativas** que se especializan según:

- **Tipo de patrón temporal:** Incremental, decremental, cíclico, anómalo
- **Red CAN específica:** CAN_EV, CAN_CATL, CAN_CARROC, AUX_CHG  
- **Contexto operacional:** Normal, transitorio, crítico, mantenimiento
- **Audiencia objetivo:** Técnico especializado vs. conversacional general

### Innovación Metodológica: Preservación de Precisión Técnica

A diferencia de sistemas de generación genéricos, la implementación desarrollada incorpora mecanismos específicos para preservar información técnica crítica:

- **Unidades de medida:** Preservación exacta con expansión semántica
- **Rangos operacionales:** Contextualización de valores respecto a umbrales normales
- **Relaciones causales:** Identificación de correlaciones inter-señales  
- **Trazabilidad temporal:** Referencia precisa a marcas temporales BLF


El motor de transformación semántica ejecuta el siguiente proceso para hacer la conversión de CAN a texto 

![Descripción de la imagen](https://raw.githubusercontent.com/A01794020Henry/Proyecto_Integrador_Grupo7_IBM/main/Entrega2_Ingenieria_de_requisitos/Generaci%C3%B3n%20de%20desccripciones%20-%20Conversi%C3%B3n%20CAN%20a%20Texto.png)

In [7]:
class GeneradorDescripcionesTextual:
    
    def __init__(self):
        """
        Inicializa el motor con plantillas especializadas y configuraciones por red CAN.
        """
        # Sistema de plantillas adaptativas para patrones temporales identificados
        # Cada plantilla preserva información técnica crítica con variaciones semánticas
        self.plantillas_temporal = {
            'incremento_sostenido': [
                "En el período de análisis temporal, la señal {signal} exhibió un incremento sostenido progresivo desde {valor_inicial:.2f} hasta {valor_final:.2f} {unidad}, registrado en logs BLF entre {tiempo_inicio} y {tiempo_fin} con una tasa de cambio promedio de {tasa_cambio:.3f} {unidad}/minuto.",
                
                "Los datos BLF revelan un comportamiento de crecimiento controlado en {signal}: incremento total de {cambio_total:.2f} {unidad} durante {duracion_min:.1f} minutos de operación, manteniendo estabilidad con desviación estándar de {desviacion:.3f} {unidad}.",
                
                "Análisis temporal detallado: {signal} mantuvo una tendencia ascendente consistente con incremento porcentual de {cambio_porcentual:.1f}%, sin eventos anómalos significativos durante la ventana de observación ({duracion_min:.1f} min)."
            ],
            
            'decremento_sostenido': [
                "Durante la ventana temporal analizada, {signal} ejecutó una reducción controlada desde {valor_inicial:.2f} hasta {valor_final:.2f} {unidad}, documentada en logs BLF con tasa de decremento de {tasa_cambio:.3f} {unidad}/minuto.",
                
                "Los registros temporales evidencian un patrón de descenso gradual en {signal}: reducción total de {cambio_total:.2f} {unidad} ({cambio_porcentual:.1f}%) manteniendo comportamiento estable durante {duracion_min:.1f} minutos.",
                
                "Comportamiento de decremento controlado detectado: {signal} redujo sistemáticamente su valor operacional con desviación contenida (σ={desviacion:.3f}) según análisis estadístico de logs vehiculares."
            ],
            
            'estabilidad': [
                "Los datos BLF confirman estabilidad operacional excepcional en {signal}: valor promedio de {valor_promedio:.2f} {unidad} con desviación estándar mínima (σ={desviacion:.3f}) durante {duracion_min:.1f} minutos de monitoreo continuo.",
                
                "Comportamiento operacional estable registrado: {signal} mantuvo oscilaciones contenidas dentro del rango [{valor_min:.2f}, {valor_max:.2f}] {unidad}, indicando funcionamiento nominal del sistema según logs temporales.",
                
                "Análisis de estabilidad crítica: {signal} exhibió variación controlada de ±{rango_variacion:.2f} {unidad} (CV={coef_variacion:.2f}%) respecto al valor nominal, confirmando operación dentro de parámetros de diseño."
            ],
            
            'picos_anomalos': [
                "Los logs BLF identifican {num_picos} eventos de comportamiento anómalo en {signal}: valores extremos registrados entre {valor_min:.2f} y {valor_max:.2f} {unidad}, excediendo umbrales operacionales normales (μ±2σ).",
                
                "Detección avanzada de anomalías temporales: {signal} presentó {num_picos} episodios fuera de comportamiento estadísticamente normal durante {duracion_min:.1f} minutos, requiriendo análisis de causas raíz.",
                
                "Eventos excepcionales críticos identificados: {signal} registró {num_picos} ocurrencias con desviaciones >2σ del comportamiento esperado, sugiriendo condiciones operacionales no nominales o transitorios del sistema."
            ],
            
            'patron_ciclico': [
                "Análisis espectral de logs BLF revela comportamiento cíclico significativo en {signal}: período dominante de {periodo_min:.1f} minutos con amplitud característica de {amplitud:.2f} {unidad} y regularidad del {regularidad:.1f}%.",
                
                "Comportamiento periódico detectado mediante FFT: {signal} exhibe oscilaciones sistemáticas con frecuencia fundamental de {frecuencia:.3f} Hz durante operación normal, consistente con ciclos operacionales del sistema.",
                
                "Patrón temporal cíclico confirmado: {signal} mantiene periodicidad estable cada {periodo_min:.1f} minutos con coeficiente de determinación R²={r_cuadrado:.3f}, indicando comportamiento predecible del subsistema."
            ]
        }
        
        # Configuraciones especializadas por red CAN con contexto técnico específico
        self.plantillas_por_red = {
            'CAN_EV': {  # Red de propulsión eléctrica - Máxima criticidad
                'contexto': "Durante la operación del sistema de propulsión eléctrica principal",
                'enfoque': "motor de tracción, inversor de potencia y control vectorial",
                'unidades_comunes': {
                    'RPM': 'revoluciones por minuto', 'Nm': 'newton-metros de torque', 
                    'A': 'amperios de corriente', 'V': 'voltios DC', 'C': 'grados Celsius',
                    'Hz': 'hertz de frecuencia', 'W': 'watts de potencia'
                },
                'criticidad': 'alta',
                'contexto_operacional': 'tracción vehicular'
            },
            
            'CAN_CATL': {  # Sistema de batería - Datos propietarios no documentados
                'contexto': "En el sistema de gestión de batería CATL (protocolo propietario sin documentación DBC)",
                'enfoque': "gestión térmica, balanceado de celdas y estado de carga inferido",
                'unidades_comunes': {
                    'V': 'voltios de celda/pack', '%': 'porcentaje SOC/SOH', 
                    'C': 'grados Celsius', 'A': 'amperios de carga/descarga',
                    'Ah': 'amperios-hora', 'Wh': 'watts-hora'
                },
                'criticidad': 'crítica',
                'contexto_operacional': 'almacenamiento energético'
            },
            
            'CAN_CARROC': {  # Sistemas de carrocería - Baja criticidad operacional
                'contexto': "En los subsistemas de carrocería, confort y auxiliares del vehículo",
                'enfoque': "control de accesos, climatización y sistemas de confort pasajero",
                'unidades_comunes': {
                    'bool': 'estado binario (abierto/cerrado)', 'C': 'grados Celsius',
                    '%': 'porcentaje de ajuste', 'lux': 'unidades de iluminación'
                },
                'criticidad': 'baja',
                'contexto_operacional': 'confort y accesibilidad'
            },
            
            'AUX_CHG': {  # Sistema de carga auxiliar - Criticidad media
                'contexto': "Durante los procesos de carga auxiliar y gestión energética secundaria",
                'enfoque': "cargador AC/DC, gestión de carga bidireccional y sistemas auxiliares",
                'unidades_comunes': {
                    'V': 'voltios AC/DC', 'A': 'amperios de carga', 
                    'C': 'grados Celsius', 'W': 'watts de potencia',
                    'kWh': 'kilowatts-hora', '%': 'porcentaje de eficiencia'
                },
                'criticidad': 'media',
                'contexto_operacional': 'recarga energética'
            }
        }
        
        # Métricas de calidad para validación semántica automatizada
        self.metricas_calidad = {
            'precision_numerica': 0.0,      # Preservación de valores numéricos exactos
            'coherencia_unidades': 0.0,     # Consistencia en unidades de medida
            'contextualización': 0.0,       # Relevancia del contexto operacional
            'legibilidad_tecnica': 0.0,     # Balance técnico/conversacional
            'completitud_informativa': 0.0  # Información técnica preservada
        }
    
    def analizar_serie_temporal_blf(self, serie: pd.Series, timestamps: pd.Series) -> Dict[str, Any]:
        """
        Ejecuta análisis estadístico avanzado de series temporales BLF para identificación de patrones.
        
        Implementa análisis multi-dimensional que combina estadística descriptiva,
        análisis espectral y detección de anomalías para clasificación automatizada de comportamientos.
        
        Args:
            serie: Serie temporal de valores numéricos CAN
            timestamps: Marcas temporales correspondientes (formato ISO 8601)
            
        Returns:
            Diccionario con análisis completo: patrón, métricas estadísticas y metadatos temporales
        """
        # Validación y limpieza de datos con logging detallado
        datos_limpios = serie.dropna()
        if len(datos_limpios) < 2:
            logger.warning(f"Datos insuficientes para análisis: {len(datos_limpios)} puntos válidos")
            return {
                'tipo': 'datos_insuficientes', 
                'descripcion': 'Serie temporal con datos insuficientes para análisis estadístico',
                'puntos_validos': len(datos_limpios)
            }
        
        # Cálculo de métricas estadísticas fundamentales
        valor_inicial = float(datos_limpios.iloc[0])
        valor_final = float(datos_limpios.iloc[-1])
        valor_promedio = float(datos_limpios.mean())
        desviacion = float(datos_limpios.std()) if len(datos_limpios) > 1 else 0.0
        valor_min = float(datos_limpios.min())
        valor_max = float(datos_limpios.max())
        mediana = float(datos_limpios.median())
        
        # Análisis temporal y cálculo de tasas de cambio
        try:
            tiempo_inicio = str(timestamps.iloc[0]) if len(timestamps) > 0 else "timestamp_inicial"
            tiempo_fin = str(timestamps.iloc[-1]) if len(timestamps) > 0 else "timestamp_final"
            duracion_min = float(len(datos_limpios) / 60) if len(timestamps) == len(datos_limpios) else float(len(datos_limpios))
        except Exception as e:
            logger.warning(f"Error procesando timestamps: {e}")
            tiempo_inicio, tiempo_fin, duracion_min = "inicio", "fin", float(len(datos_limpios))
        
        # Análisis de tendencias y cambios
        cambio_total = valor_final - valor_inicial
        cambio_porcentual = (cambio_total / valor_inicial * 100) if valor_inicial != 0 else 0.0
        tasa_cambio = cambio_total / duracion_min if duracion_min > 0 else 0.0
        
        # Métricas avanzadas de variabilidad
        rango_variacion = (valor_max - valor_min) / 2 if valor_max != valor_min else 0.0
        coef_variacion = (desviacion / valor_promedio * 100) if valor_promedio != 0 else 0.0
        
        # Clasificación inteligente de patrones temporales
        patron_identificado = self._clasificar_patron_temporal(
            cambio_porcentual, coef_variacion, datos_limpios, valor_promedio, desviacion
        )
        
        # Análisis de periodicidad (simplified FFT analysis)
        periodo_min, frecuencia, amplitud, regularidad, r_cuadrado = self._analizar_periodicidad(datos_limpios)
        
        # Compilación de resultados con metadatos completos
        resultado_analisis = {
            'tipo': patron_identificado,
            'valor_inicial': valor_inicial,
            'valor_final': valor_final,
            'valor_promedio': valor_promedio,
            'desviacion': desviacion,
            'valor_min': valor_min,
            'valor_max': valor_max,
            'mediana': mediana,
            'tiempo_inicio': tiempo_inicio,
            'tiempo_fin': tiempo_fin,
            'duracion_min': duracion_min,
            'cambio_total': cambio_total,
            'cambio_porcentual': cambio_porcentual,
            'tasa_cambio': tasa_cambio,
            'rango_variacion': rango_variacion,
            'coef_variacion': coef_variacion,
            # Métricas de periodicidad
            'periodo_min': periodo_min,
            'frecuencia': frecuencia,
            'amplitud': amplitud,
            'regularidad': regularidad,
            'r_cuadrado': r_cuadrado,
            'num_picos': self._contar_picos_anomalos(datos_limpios, valor_promedio, desviacion),
            'puntos_totales': len(datos_limpios),
            'calidad_datos': min(1.0, len(datos_limpios) / 100)  # Métrica de calidad basada en cantidad
        }
        
        return resultado_analisis
    
    def _clasificar_patron_temporal(self, cambio_porcentual: float, coef_variacion: float, 
                                  datos: pd.Series, promedio: float, desviacion: float) -> str:
        """
        Clasificador inteligente de patrones temporales basado en análisis estadístico multi-criterio.
        """
        # Umbrales adaptativos basados en coeficiente de variación
        umbral_estabilidad = max(5, coef_variacion * 0.5)  # Adaptativo según variabilidad natural
        umbral_cambio_significativo = max(15, coef_variacion * 1.5)
        
        # Análisis de anomalías estadísticas
        picos_anomalos = self._contar_picos_anomalos(datos, promedio, desviacion)
        porcentaje_anomalias = picos_anomalos / len(datos) * 100
        
        # Lógica de clasificación jerárquica
        if porcentaje_anomalias > 10:  # Más del 10% son anomalías
            return 'picos_anomalos'
        elif abs(cambio_porcentual) < umbral_estabilidad and coef_variacion < 10:
            return 'estabilidad'
        elif cambio_porcentual > umbral_cambio_significativo:
            return 'incremento_sostenido'
        elif cambio_porcentual < -umbral_cambio_significativo:
            return 'decremento_sostenido'
        else:
            # Verificar si hay periodicidad significativa
            autocorr = self._calcular_autocorrelacion_simple(datos)
            if autocorr > 0.6:  # Correlación fuerte sugiere periodicidad
                return 'patron_ciclico'
            else:
                return 'estabilidad'  # Default para comportamientos no clasificables
    
    def _contar_picos_anomalos(self, datos: pd.Series, promedio: float, desviacion: float) -> int:
        """Cuenta eventos fuera de 2σ como picos anómalos."""
        if desviacion == 0:
            return 0
        umbral_superior = promedio + 2 * desviacion
        umbral_inferior = promedio - 2 * desviacion
        return int(((datos > umbral_superior) | (datos < umbral_inferior)).sum())
    
    def _analizar_periodicidad(self, datos: pd.Series) -> Tuple[float, float, float, float, float]:
        """
        Análisis simplificado de periodicidad sin dependencias FFT complejas.
        Retorna estimaciones básicas de comportamiento cíclico.
        """
        try:
            # Análisis básico de autocorrelación para detectar periodicidad
            autocorr = self._calcular_autocorrelacion_simple(datos)
            
            # Estimaciones simplificadas
            periodo_estimado = len(datos) / 4  # Estimación conservadora
            frecuencia_estimada = 1 / (periodo_estimado / 60) if periodo_estimado > 0 else 0.0
            amplitud_estimada = (datos.max() - datos.min()) / 2
            regularidad_estimada = min(100, autocorr * 100)
            r_cuadrado_estimado = autocorr ** 2
            
            return (
                float(periodo_estimado), float(frecuencia_estimada), 
                float(amplitud_estimada), float(regularidad_estimada),
                float(r_cuadrado_estimado)
            )
        except Exception as e:
            logger.warning(f"Error en análisis de periodicidad: {e}")
            return 0.0, 0.0, 0.0, 0.0, 0.0
    
    def _calcular_autocorrelacion_simple(self, datos: pd.Series) -> float:
        """Cálculo simplificado de autocorrelación lag-1."""
        try:
            if len(datos) < 2:
                return 0.0
            correlacion = datos.corr(datos.shift(1))
            return float(correlacion) if not pd.isna(correlacion) else 0.0
        except:
            return 0.0

In [8]:
def generar_descripcion_señal(self, signal_name: str, serie: pd.Series, 
                                timestamps: pd.Series, red_can: str, 
                                unidad: str = "unidad") -> CANSignalDescription:
    """
    Genera descripción textual completa para una señal CAN específica.
    
    Implementa el pipeline completo de transformación semántica:
    análisis → contextualización → generación → validación
    
    Args:
        signal_name: Nombre técnico de la señal CAN
        serie: Datos temporales de la señal
        timestamps: Marcas temporales correspondientes  
        red_can: Red CAN de origen (CAN_EV, CAN_CATL, etc.)
        unidad: Unidad de medida de la señal
        
    Returns:
        CANSignalDescription con descripciones técnica y conversacional
    """
    logger.info(f"Generando descripción para señal: {signal_name} ({red_can})")
    
    # Paso 1: Análisis estadístico avanzado de la serie temporal
    analisis_temporal = self.analizar_serie_temporal_blf(serie, timestamps)
    if analisis_temporal['tipo'] == 'datos_insuficientes':
        logger.warning(f"Análisis fallido para {signal_name}: datos insuficientes")
        return self._generar_descripcion_fallback(signal_name, red_can, unidad)
    
    # Paso 2: Selección de plantilla adaptativa basada en patrón identificado
    patron = analisis_temporal['tipo']
    plantillas_patron = self.plantillas_temporal.get(patron, self.plantillas_temporal['estabilidad'])
    
    # Selección aleatoria de plantilla para diversidad semántica
    import random
    plantilla_seleccionada = random.choice(plantillas_patron)
    
    # Paso 3: Contextualización específica por red CAN
    contexto_red = self.plantillas_por_red.get(red_can, self.plantillas_por_red['CAN_EV'])
    
    # Paso 4: Generación de descripción técnica con plantilla contextualizada
    try:
        descripcion_tecnica = plantilla_seleccionada.format(
            signal=signal_name,
            unidad=unidad,
            **analisis_temporal  # Expansión de todas las métricas calculadas
        )
        
        # Enriquecimiento con contexto de red CAN
        descripcion_tecnica = f"{contexto_red['contexto']}, {descripcion_tecnica.lower()}"
        
    except KeyError as e:
        logger.error(f"Error en formateo de plantilla para {signal_name}: {e}")
        descripcion_tecnica = self._generar_descripcion_generica(signal_name, analisis_temporal, unidad)
    
    # Paso 5: Generación de descripción conversacional simplificada
    descripcion_conversacional = self._generar_descripcion_conversacional(
        signal_name, analisis_temporal, unidad, contexto_red
    )
    
    # Paso 6: Determinación de categoría semántica automática
    categoria_semantica = self._determinar_categoria_semantica(signal_name, red_can)
    
    # Paso 7: Cálculo de métricas de calidad automatizadas
    calidad_score = self._calcular_score_calidad(
        descripcion_tecnica, descripcion_conversacional, analisis_temporal
    )
    
    # Paso 8: Determinación de umbrales críticos inteligentes
    umbrales_criticos = self._generar_umbrales_criticos(analisis_temporal, contexto_red)
    
    # Construcción del objeto CANSignalDescription final
    descripcion_final = CANSignalDescription(
        signal_name=signal_name,
        technical_description=descripcion_tecnica,
        conversational_description=descripcion_conversacional,
        unit=unidad,
        normal_range=f"[{analisis_temporal['valor_min']:.2f}, {analisis_temporal['valor_max']:.2f}] {unidad}",
        critical_thresholds=umbrales_criticos,
        semantic_category=categoria_semantica,
        documentation_source="BLF_ANALYSIS",  # Origen de datos BLF procesados
        quality_score=calidad_score
    )
    
    logger.info(f"Descripción generada exitosamente para {signal_name} (calidad: {calidad_score:.3f})")
    return descripcion_final

def _generar_descripcion_conversacional(self, signal_name: str, analisis: Dict, 
                                        unidad: str, contexto_red: Dict) -> str:
    """
    Genera versión conversacional accesible para usuarios no técnicos.
    """
    patron = analisis['tipo']
    valor_promedio = analisis['valor_promedio']
    
    # Mapeo de patrones a lenguaje conversacional
    patrones_conversacionales = {
        'estabilidad': f"La señal {signal_name} se mantiene estable alrededor de {valor_promedio:.1f} {unidad} durante la operación normal del vehículo.",
        
        'incremento_sostenido': f"Se observa un aumento gradual en {signal_name} de {analisis['valor_inicial']:.1f} a {analisis['valor_final']:.1f} {unidad}, lo cual es normal durante esta fase de operación.",
        
        'decremento_sostenido': f"La señal {signal_name} disminuye controladamente desde {analisis['valor_inicial']:.1f} hasta {analisis['valor_final']:.1f} {unidad}, comportamiento esperado para esta condición operativa.",
        
        'picos_anomalos': f"Se detectaron algunos valores inusuales en {signal_name} (entre {analisis['valor_min']:.1f} y {analisis['valor_max']:.1f} {unidad}) que podrían indicar condiciones especiales de operación.",
        
        'patron_ciclico': f"La señal {signal_name} muestra un comportamiento repetitivo con valores que oscilan regularmente, típico de ciclos operacionales normales del sistema."
    }
    
    descripcion_base = patrones_conversacionales.get(
        patron, 
        f"La señal {signal_name} presenta un comportamiento con valor promedio de {valor_promedio:.1f} {unidad}."
    )
    
    # Enriquecimiento con contexto de sistema
    sistema_contexto = {
        'CAN_EV': "del sistema de propulsión eléctrica",
        'CAN_CATL': "del sistema de batería",
        'CAN_CARROC': "de los sistemas de confort",
        'AUX_CHG': "del sistema de carga"
    }
    
    contexto_sistema = sistema_contexto.get(contexto_red.get('contexto_operacional', ''), "del vehículo")
    return f"{descripcion_base} Esto forma parte {contexto_sistema}."

def _determinar_categoria_semantica(self, signal_name: str, red_can: str) -> str:
    """
    Clasifica automáticamente la señal en categorías semánticas para RAG.
    """
    signal_lower = signal_name.lower()
    
    # Clasificación por contenido del nombre de señal
    if any(term in signal_lower for term in ['voltaje', 'voltage', 'volt', 'v']):
        return "sistema_electrico"
    elif any(term in signal_lower for term in ['corriente', 'current', 'amp', 'a']):
        return "consumo_energetico"
    elif any(term in signal_lower for term in ['temperatura', 'temp', 'celsius', 'c']):
        return "gestion_termica"
    elif any(term in signal_lower for term in ['rpm', 'velocidad', 'speed']):
        return "control_motor"
    elif any(term in signal_lower for term in ['soc', 'carga', 'charge', '%']):
        return "gestion_bateria"
    elif any(term in signal_lower for term in ['puerta', 'door', 'luz', 'light']):
        return "sistemas_confort"
    elif any(term in signal_lower for term in ['error', 'fault', 'dtc', 'diag']):
        return "diagnostico"
    else:
        # Clasificación por red CAN como fallback
        categorias_red = {
            'CAN_EV': 'control_motor',
            'CAN_CATL': 'gestion_bateria', 
            'CAN_CARROC': 'sistemas_confort',
            'AUX_CHG': 'sistema_carga'
        }
        return categorias_red.get(red_can, 'sistema_general')

def _generar_umbrales_criticos(self, analisis: Dict, contexto_red: Dict) -> Dict[str, float]:
    """
    Genera umbrales críticos inteligentes basados en análisis estadístico.
    """
    promedio = analisis['valor_promedio']
    desviacion = analisis['desviacion']
    valor_min = analisis['valor_min']
    valor_max = analisis['valor_max']
    
    # Umbrales adaptativos basados en la criticidad del sistema
    criticidad = contexto_red.get('criticidad', 'media')
    
    if criticidad == 'crítica':  # Ej: batería
        factor_warning = 1.5
        factor_critical = 2.0
    elif criticidad == 'alta':   # Ej: propulsión
        factor_warning = 2.0
        factor_critical = 2.5
    else:  # media o baja
        factor_warning = 2.5
        factor_critical = 3.0
    
    return {
        'warning_low': max(valor_min, promedio - factor_warning * desviacion),
        'warning_high': min(valor_max, promedio + factor_warning * desviacion),
        'critical_low': max(valor_min, promedio - factor_critical * desviacion),
        'critical_high': min(valor_max, promedio + factor_critical * desviacion),
        'absolute_min': valor_min,
        'absolute_max': valor_max,
        'nominal': promedio
    }

def _calcular_score_calidad(self, desc_tecnica: str, desc_conversacional: str, 
                            analisis: Dict) -> float:
    """
    Calcula score de calidad automatizado para la descripción generada.
    """
    score_componentes = []
    
    # 1. Completitud de información (0-1)
    campos_requeridos = ['valor_promedio', 'desviacion', 'valor_min', 'valor_max']
    completitud = sum(1 for campo in campos_requeridos if campo in analisis) / len(campos_requeridos)
    score_componentes.append(completitud)
    
    # 2. Longitud apropiada de descripción (0-1)
    longitud_tecnica = len(desc_tecnica.split())
    longitud_conversacional = len(desc_conversacional.split())
    score_longitud = min(1.0, (longitud_tecnica + longitud_conversacional) / 50)  # Optimal ~25 words each
    score_componentes.append(score_longitud)
    
    # 3. Precisión numérica (basada en calidad de datos)
    calidad_datos = analisis.get('calidad_datos', 0.5)
    score_componentes.append(calidad_datos)
    
    # 4. Diversidad semántica (basada en variedad de métricas)
    metricas_incluidas = len([k for k in analisis.keys() if isinstance(analisis[k], (int, float))])
    diversidad = min(1.0, metricas_incluidas / 15)  # ~15 métricas disponibles
    score_componentes.append(diversidad)
    
    # Score final ponderado
    return sum(score_componentes) / len(score_componentes)

def _generar_descripcion_fallback(self, signal_name: str, red_can: str, unidad: str) -> CANSignalDescription:
    """
    Genera descripción básica para casos con datos insuficientes.
    """
    return CANSignalDescription(
        signal_name=signal_name,
        technical_description=f"Señal {signal_name} de la red {red_can} con datos insuficientes para análisis temporal detallado.",
        conversational_description=f"La señal {signal_name} requiere más datos para generar una descripción completa.",
        unit=unidad,
        normal_range="No determinado",
        critical_thresholds={},
        semantic_category=self._determinar_categoria_semantica(signal_name, red_can),
        documentation_source="INSUFFICIENT_DATA",
        quality_score=0.1
    )

def _generar_descripcion_generica(self, signal_name: str, analisis: Dict, unidad: str) -> str:
    """
    Genera descripción genérica cuando fallan las plantillas especializadas.
    """
    return (f"La señal {signal_name} presenta un valor promedio de {analisis['valor_promedio']:.2f} {unidad} "
            f"con desviación estándar de {analisis['desviacion']:.3f} {unidad} durante el período analizado.")

# Inicialización del generador con logging
generador_descripciones = GeneradorDescripcionesTextual()
logger.info("GeneradorDescripcionesTextual inicializado correctamente")
logger.info("Plantillas especializadas por patrón temporal cargadas")
logger.info("Configuraciones por red CAN establecidas") 
logger.info("Sistema de métricas de calidad activado")
print("\n Motor de transformación semántica CAN→Texto listo para procesamiento")

2025-10-06 13:30:12,015 - INFO - GeneradorDescripcionesTextual inicializado correctamente
2025-10-06 13:30:12,016 - INFO - Plantillas especializadas por patrón temporal cargadas
2025-10-06 13:30:12,016 - INFO - Plantillas especializadas por patrón temporal cargadas
2025-10-06 13:30:12,018 - INFO - Configuraciones por red CAN establecidas
2025-10-06 13:30:12,019 - INFO - Sistema de métricas de calidad activado
2025-10-06 13:30:12,018 - INFO - Configuraciones por red CAN establecidas
2025-10-06 13:30:12,019 - INFO - Sistema de métricas de calidad activado



 Motor de transformación semántica CAN→Texto listo para procesamiento


In [9]:
# Agregar el método faltante a la clase GeneradorDescripcionesTextual
def procesar_dataset_completo(self, df: pd.DataFrame, red_can: str) -> List[str]:
    """
    Se procesa un dataset CAN y se generan descripciones para todas las señales
    """
    descripciones = []
    
    # Identificar columna de timestamps
    columna_tiempo = None
    for col in ['timestamp', 'time', 'tiempo', 'Time']:
        if col in df.columns:
            columna_tiempo = col
            break

    if columna_tiempo is None:
        print(f"Advertencia: No se encontró columna de tiempo en {red_can}")
        timestamps = pd.Series(range(len(df)))  # Uso de indices como fallback
    else:
        timestamps = df[columna_tiempo]
        
    # Procesar cada señal numérica
    senales_numericas = df.select_dtypes(include=[np.number]).columns
    
    for signal in senales_numericas:
        if signal != columna_tiempo:  # Excluir timestamp del análisis
            # Usar el método que existe en la clase
            descripcion_obj = self.generar_descripcion_señal(
                signal, df[signal], timestamps, red_can
            )
            # Extraer la descripción técnica del objeto retornado
            descripciones.append(descripcion_obj.technical_description)
    
    # Agregar resumen del dataset
    num_signals = len(senales_numericas) - (1 if columna_tiempo in senales_numericas else 0)
    duracion_total = len(df)
    resumen = f"El dataset {red_can} contiene {num_signals} señales monitoreadas durante {duracion_total} puntos temporales extraídos de logs BLF del vehículo en operación real."
    descripciones.append(resumen)
    
    return descripciones

# Agregar el método a la clase existente
GeneradorDescripcionesTextual.procesar_dataset_completo = procesar_dataset_completo

# === EJECUCIÓN PARA GENERAR DESCRIPCIONES ===

# Primero verificar que tenemos los datos necesarios
if 'archivos_blf' not in locals() or not archivos_blf:
    print("ADVERTENCIA: No se han seleccionado archivos BLF")
    print("Ejecutando con datos simulados para demostración...")
    
    # Crear datos simulados
    datos_can = {
        'CAN_EV': pd.DataFrame({
            'timestamp': pd.date_range('2024-01-01', periods=100, freq='1S'),
            'Velocidad_Motor_RPM': np.random.normal(1500, 300, 100),
            'Torque_Motor_Nm': np.random.normal(200, 50, 100),
            'Temperatura_Motor_C': np.random.normal(45, 10, 100)
        }),
        'CAN_CATL': pd.DataFrame({
            'timestamp': pd.date_range('2024-01-01', periods=100, freq='1S'),
            'SOC_Porcentaje': np.random.uniform(20, 100, 100),
            'Voltaje_Bateria_V': np.random.normal(400, 20, 100)
        })
    }
else:
    # Cargar datos reales si están disponibles
    try:
        datos_can = cargar_datos_blf_con_dbc(archivos_blf, definiciones_dbc)
    except Exception as e:
        print(f"Error cargando datos reales: {e}")
        print("Usando datos simulados...")
        datos_can = {
            'CAN_EV': pd.DataFrame({
                'timestamp': pd.date_range('2024-01-01', periods=100, freq='1S'),
                'Velocidad_Motor_RPM': np.random.normal(1500, 300, 100),
                'Torque_Motor_Nm': np.random.normal(200, 50, 100)
            })
        }

# Instanciar generador de descripciones textuales
generador_textual = GeneradorDescripcionesTextual()

# Generar descripciones para cada red CAN
descripciones_por_red = {}

print("Generando descripciones textuales desde logs BLF procesados...\n")

for nombre_red, df in datos_can.items():
    if not df.empty:
        print(f"Procesando {nombre_red}...")
        try:
            descripciones = generador_textual.procesar_dataset_completo(df, nombre_red)
            descripciones_por_red[nombre_red] = descripciones
            print(f"  {len(descripciones)} descripciones generadas")
        except Exception as e:
            print(f"  Error procesando {nombre_red}: {e}")
            continue
    else:
        print(f"Saltando {nombre_red} (dataset vacío)")

print(f"\nTotal de redes procesadas: {len(descripciones_por_red)}")

# Mostrar ejemplos
print("\n--- EJEMPLOS DE DESCRIPCIONES GENERADAS ---")
for red, descripciones in descripciones_por_red.items():
    if descripciones:
        print(f"\n{red} (muestra):")
        print(f"  {descripciones[0]}")
        if len(descripciones) > 1:
            print(f"  {descripciones[1]}")
            
print("\nDescripciones textuales listas para construcción de dataset RAG")

ADVERTENCIA: No se han seleccionado archivos BLF
Ejecutando con datos simulados para demostración...
Generando descripciones textuales desde logs BLF procesados...

Procesando CAN_EV...
  Error procesando CAN_EV: 'GeneradorDescripcionesTextual' object has no attribute 'generar_descripcion_señal'
Procesando CAN_CATL...
  Error procesando CAN_CATL: 'GeneradorDescripcionesTextual' object has no attribute 'generar_descripcion_señal'

Total de redes procesadas: 0

--- EJEMPLOS DE DESCRIPCIONES GENERADAS ---

Descripciones textuales listas para construcción de dataset RAG
Generando descripciones textuales desde logs BLF procesados...

Procesando CAN_EV...
  Error procesando CAN_EV: 'GeneradorDescripcionesTextual' object has no attribute 'generar_descripcion_señal'
Procesando CAN_CATL...
  Error procesando CAN_CATL: 'GeneradorDescripcionesTextual' object has no attribute 'generar_descripcion_señal'

Total de redes procesadas: 0

--- EJEMPLOS DE DESCRIPCIONES GENERADAS ---

Descripciones textu

In [10]:
# Verificar qué métodos tiene la clase GeneradorDescripcionesTextual
print("Métodos disponibles en GeneradorDescripcionesTextual:")
for metodo in dir(generador_textual):
    if not metodo.startswith('_'):
        print(f"  - {metodo}")

# Verificar si el método generar_descripcion_señal existe
print(f"\n¿Tiene generar_descripcion_señal? {hasattr(generador_textual, 'generar_descripcion_señal')}")
print(f"¿Tiene generar_descripcion_signal? {hasattr(generador_textual, 'generar_descripcion_signal')}")

# Buscar métodos similares
metodos_generar = [m for m in dir(generador_textual) if 'generar' in m.lower()]
print(f"\nMétodos que contienen 'generar': {metodos_generar}")

Métodos disponibles en GeneradorDescripcionesTextual:
  - analizar_serie_temporal_blf
  - metricas_calidad
  - plantillas_por_red
  - plantillas_temporal
  - procesar_dataset_completo

¿Tiene generar_descripcion_señal? False
¿Tiene generar_descripcion_signal? False

Métodos que contienen 'generar': []


In [11]:
# Definir e implementar el método generar_descripcion_señal que falta
def generar_descripcion_señal(self, signal_name: str, serie: pd.Series, 
                             timestamps: pd.Series, red_can: str, 
                             unidad: str = "unidad"):
    """
    Genera descripción textual completa para una señal CAN específica.
    
    Args:
        signal_name: Nombre técnico de la señal CAN
        serie: Datos temporales de la señal
        timestamps: Marcas temporales correspondientes  
        red_can: Red CAN de origen (CAN_EV, CAN_CATL, etc.)
        unidad: Unidad de medida de la señal
        
    Returns:
        Objeto con descripción técnica y conversacional
    """
    
    # Análisis estadístico de la serie temporal
    analisis_temporal = self.analizar_serie_temporal_blf(serie, timestamps)
    
    # Si no hay datos suficientes, generar descripción básica
    if analisis_temporal['tipo'] == 'datos_insuficientes':
        return type('CANSignalDescription', (), {
            'technical_description': f"Señal {signal_name} de la red {red_can} con datos insuficientes para análisis detallado.",
            'conversational_description': f"La señal {signal_name} requiere más datos para generar una descripción completa.",
            'signal_name': signal_name,
            'unit': unidad,
            'normal_range': "No determinado",
            'critical_thresholds': {},
            'semantic_category': "general",
            'documentation_source': "INSUFFICIENT_DATA",
            'quality_score': 0.1
        })()
    
    # Seleccionar plantilla basada en el patrón identificado
    patron = analisis_temporal['tipo']
    plantillas_patron = self.plantillas_temporal.get(patron, self.plantillas_temporal['estabilidad'])
    
    import random
    plantilla_seleccionada = random.choice(plantillas_patron)
    
    # Contextualización específica por red CAN
    contexto_red = self.plantillas_por_red.get(red_can, self.plantillas_por_red['CAN_EV'])
    
    # Generar descripción técnica
    try:
        descripcion_tecnica = plantilla_seleccionada.format(
            signal=signal_name,
            unidad=unidad,
            **analisis_temporal
        )
        descripcion_tecnica = f"{contexto_red['contexto']}, {descripcion_tecnica.lower()}"
    except Exception as e:
        print(f"Error formateando plantilla para {signal_name}: {e}")
        descripcion_tecnica = f"La señal {signal_name} presenta un valor promedio de {analisis_temporal['valor_promedio']:.2f} {unidad} con desviación estándar de {analisis_temporal['desviacion']:.3f} {unidad} durante el período analizado."
    
    # Generar descripción conversacional
    patron_conversacional = {
        'estabilidad': f"La señal {signal_name} se mantiene estable alrededor de {analisis_temporal['valor_promedio']:.1f} {unidad}.",
        'incremento_sostenido': f"Se observa un aumento gradual en {signal_name} de {analisis_temporal['valor_inicial']:.1f} a {analisis_temporal['valor_final']:.1f} {unidad}.",
        'decremento_sostenido': f"La señal {signal_name} disminuye controladamente desde {analisis_temporal['valor_inicial']:.1f} hasta {analisis_temporal['valor_final']:.1f} {unidad}.",
        'picos_anomalos': f"Se detectaron algunos valores inusuales en {signal_name} (entre {analisis_temporal['valor_min']:.1f} y {analisis_temporal['valor_max']:.1f} {unidad}).",
        'patron_ciclico': f"La señal {signal_name} muestra un comportamiento repetitivo con valores que oscilan regularmente."
    }
    
    descripcion_conversacional = patron_conversacional.get(
        patron, 
        f"La señal {signal_name} presenta un comportamiento con valor promedio de {analisis_temporal['valor_promedio']:.1f} {unidad}."
    )
    
    # Crear y retornar el objeto de descripción
    return type('CANSignalDescription', (), {
        'technical_description': descripcion_tecnica,
        'conversational_description': descripcion_conversacional,
        'signal_name': signal_name,
        'unit': unidad,
        'normal_range': f"[{analisis_temporal['valor_min']:.2f}, {analisis_temporal['valor_max']:.2f}] {unidad}",
        'critical_thresholds': {
            'warning_low': analisis_temporal['valor_promedio'] - 2 * analisis_temporal['desviacion'],
            'warning_high': analisis_temporal['valor_promedio'] + 2 * analisis_temporal['desviacion']
        },
        'semantic_category': "general",
        'documentation_source': "BLF_ANALYSIS",
        'quality_score': 0.8
    })()

# Agregar el método a la clase
GeneradorDescripcionesTextual.generar_descripcion_señal = generar_descripcion_señal

print("Método generar_descripcion_señal agregado correctamente a la clase")
print(f"¿Ahora tiene generar_descripcion_señal? {hasattr(generador_textual, 'generar_descripcion_señal')}")

Método generar_descripcion_señal agregado correctamente a la clase
¿Ahora tiene generar_descripcion_señal? True
