![Tecnológico de Monterrey Logo](https://javier.rodriguez.org.mx/itesm/2014/tecnologico-de-monterrey-blue.png)

<div style="text-align: center;">

# Maestría en Inteligencia Artificial Aplicada

## Proyecto Integrador - IBM

**Profesor Titular:** Carlos Alberto Villaseñor  

**Tema:** Ingenieria de Requerimientos (TC5035) 

**Entregable**: Entrega 2 - Proyecto Integrador

**Semana:** Semana Tres

**Estudiantes:**

| Nombre                  | Matrícula    |
|-------------------------|--------------|
| Henry Junior Aranzales Lopez    | A01794020   |
| Jorge Arturo Hernandez Morales   | A01794908   |
| Luis Alejandro Gonzales Castellanos      | A01795481    |

**Grupo:** Grupo 07 

</div>

## Introducción

En el presente notebook se describe la implementación integral de **transformacón de datos vehiculares CAN** hacia representaciones semánticas compatibles con arquitecturas **Large Language Model (LLM)** y sistemas **Retrieval-Augmented Generation (RAG)**; permitiendo la migración desde técnicas tradicionales de ingeniería de características hacia metodologías de enriquecimiento semantico y contextualización de dominio. 

## Objetivos Estratégicos del Sistema

**Objetivo Principal:** Desarrollar un pipeline de transformación semántica que convierta señales numéricas del protocolo CAN (Controller Area Network) en representaciones textuales enriquecidas, facilitando la interpretación de eventos vehiculares mediante interfaces conversacionales basadas en procesamiento de lenguaje natural.

**Objetivos Específicos:**
1. **Transformación Semántica:** Generar descripciones textuales técnicamente precisas de señales CAN mediante técnicas de generación controlada
2. **Enriquecimiento Contextual:** Crear metadatos estructurados que preserven información técnica crítica para sistemas RAG
3. **Construcción de Base de Conocimiento:** Desarrollar un prototipo funcional de corpus documental especializado en el dominio vehicular eléctrico
4. **Optimización RAG:** Generar dataset compatible con arquitecturas de recuperación-generación para consultas técnicas especializadas


## Alcance 

### Innovación Metodológica: Cambio de Paradigma

La metodología implementada busca construir las bases del contexto para lograr la siguiente transición: 

**Paradigma Tradicional (ML Clásico):**
- Extracción de características numéricas estadísticas
- Transformaciones matemáticas para optimización algorítmica
- Enfoque en precisión predictiva cuantitativa

**Paradigma Propuesto (LLM/RAG):**
- Generación de representaciones semánticas contextualizadas
- Preservación de conocimiento técnico dominio-específico
- Enfoque en interpretabilidad y accesibilidad conversacional

### Contexto de Datos y Complejidad del Dominio

**Base de Datos CAN Analizada:**

El sistema vehicular del prototipo de la empresa Superpolo SAS se compone de cuatro canales CAN, en esta etapa, el foco de trabajo se centra en los canales:

- **CAN_EV:** 1,957 señales vehiculares (30% con documentación técnica disponible)
- **CAN_CATL:** 162 señales del sistema de batería (0% documentación - "caja negra" propietaria)

Los siguentes canales aun no se procesan: 
- **CAN_CARROC:** Sistema de control de carrocería y puertas
- **AUX_CHG:** Subsistema de carga y gestión energética

**Nota: La data disponible para el procesamiento y obtención de datos se trabajará de manera local en los equipos de los miembros del grupo de trabajo.**


**Desafíos Técnicos Identificados:**
1. **Heterogeneidad semántica** entre subsistemas vehiculares
2. **Ausencia de documentación** en componentes propietarios
3. **Variabilidad temporal** en patrones de señales CAN
4. **Complejidad de interpretación** para usuarios no técnicos

## Metodología de Desarrollo: Marco Teórico CRISP-ML Adaptado

### Fundamentación Metodológica

La metodología empleada se fundamenta en una adaptación especializada del marco **CRISP-ML (Cross Industry Standard Process for Machine Learning)**, específicamente reinterpretado para sistemas basados en **Large Language Models** y arquitecturas **RAG**. Esta adaptación reconoce las diferencias fundamentales entre el desarrollo de sistemas ML tradicionales y la construcción de sistemas de inteligencia artificial conversacional.

### Posicionamiento en el Ciclo de Vida ML

El presente desarrollo se ubica estratégicamente en la fase de **"Preparación y Transformación de Datos"** del ciclo CRISP-ML, pero incorporando consideraciones específicas para sistemas LLM:

#### Fase 1: Generación de Descripciones Textuales Semánticas
**Fundamentación Teórica:** La transformación de señales numéricas CAN en representaciones textuales requiere la aplicación de técnicas de **generación controlada** que preserven la precisión técnica mientras mejoren la interpretabilidad humana.

**Metodología Específica:**
- Aplicación de plantillas semánticas dominio-específicas
- Preservación de unidades de medida y rangos operacionales
- Contextualización temporal y situacional de eventos

#### Fase 2: Construcción de Metadatos Estructurados
**Fundamentación Teórica:** Los sistemas RAG requieren metadatos enriquecidos que faciliten la recuperación semántica precisa y la generación contextualmente relevante.

**Implementación Técnica:**
- Esquemas JSON estructurados con validación semántica
- Taxonomías jerárquicas de componentes vehiculares
- Mappings de relaciones entre subsistemas CAN

#### Fase 3: Preparación de Corpus Documental Especializado
**Fundamentación Teórica:** La efectividad de sistemas RAG depende críticamente de la calidad y especialización del corpus documental utilizado para recuperación contextual.

**Estrategia de Construcción:**
- Integración de estándares técnicos J1939 y SAE
- Documentación de mejores prácticas industriales
- Generación sintética de ejemplos edge-case

#### Fase 4: Optimización de Dataset para Arquitecturas RAG
**Fundamentación Teórica:** La construcción de datasets RAG requiere consideraciones específicas de chunking, embeddings y recuperación semántica que difieren significativamente de datasets ML tradicionales.

## Entregables Técnicos Especificados

#### 1. Pipeline de Transformación Semántica
**Descripción:** Sistema modular de clases Python que implementa transformaciones CAN→Texto con validación de calidad automática.

**Componentes Técnicos:**
- `GeneradorDescripcionesTextual`: Motor de transformación semántica
- `ValidadorCalidadSemántica`: Sistema de métricas de calidad
- `OptimizadorContextual`: Módulo de enriquecimiento contextual

## Contribuciones Técnicas Esperadas

1. **Innovación Metodológica:** Primera implementación documentada de pipeline CAN→RAG en contexto vehicular colombiano
2. **Validación Empírica:** Métricas cuantitativas de calidad semántica y efectividad de recuperación
3. **Replicabilidad:** Framework modular reutilizable para otros dominios vehiculares
4. **Escalabilidad:** Arquitectura preparada para integración con sistemas Watson IBM

## 1. Configuración Técnica del Entorno de Desarrollo

Para la configuración del entorno de desarrolo se han seleccionado y usado las siguientes dependencias: 

**Categoría 1: Procesamiento de Datos Vehiculares**
- `pandas/numpy`: Manipulación eficiente de datasets CAN de gran volumen
- `matplotlib/seaborn/plotly`: Visualización de patrones temporales en señales

**Categoría 2: Capacidades LLM/RAG**
- `langchain`: Framework de orquestación para sistemas RAG
- `sentence-transformers`: Generación de embeddings semánticos
- `tiktoken`: Tokenización compatible con modelos GPT

**Categoría 3: Formato y Persistencia**
- `jsonlines`: Manejo eficiente de datasets RAG en formato JSONL

In [7]:
# Sección de instalación de dependencias

import subprocess
import sys
from typing import List

def install_package(package: str) -> bool:
    try:
        # Usar subprocess.run para compatibilidad con versiones de Python donde
        # Popen.__init__ no acepta capture_output en check_call indirectamente.
        result = subprocess.run([sys.executable, "-m", "pip", "install", package],
                             capture_output=True, text=True, check=True)
        print(f"{package} instalado correctamente")
        if result.stdout:
            print(result.stdout)
        return True
    except subprocess.CalledProcessError as e:
        # Mostrar salida y error para facilitar diagnóstico
        stderr = e.stderr if hasattr(e, 'stderr') else None
        stdout = e.stdout if hasattr(e, 'stdout') else None
        print(f"Error de instalación con {package}: returncode={getattr(e, 'returncode', None)}")
        if stdout:
            print('STDOUT:\n', stdout)
        if stderr:
            print('STDERR:\n', stderr)
        return False

# Lista de dependencias críticas para el proyecto DECODE-EV
dependencias_core = [
    "pandas>=1.5.0",           # Manipulación de datasets CAN
    "numpy>=1.21.0",           # Operaciones numéricas optimizadas
    "matplotlib>=3.5.0",       # Visualización base
    "seaborn>=0.11.0"          # Visualización estadística avanzada
]

dependencias_llm = [
    "langchain>=0.1.0",        # Framework de orquestación RAG
    "langchain-community",     # Componentes extendidos de LangChain
    "sentence-transformers",   # Generación de embeddings semánticos
    "tiktoken",               # Tokenización para modelos GPT
    "jsonlines"              # Formato JSONL para datasets RAG
]

dependencias_visualizacion = [
    "plotly>=5.0.0"           # Visualizaciones interactivas para análisis
]

# Instalación secuencial con verificación de éxito
todas_dependencias = dependencias_core + dependencias_llm + dependencias_visualizacion
instalaciones_exitosas = []
instalaciones_fallidas = []

print("Estado: Iniciando configuración del entorno DECODE-EV...")
print("=" * 60)

for paquete in todas_dependencias:
    if install_package(paquete):
        instalaciones_exitosas.append(paquete)
    else:
        instalaciones_fallidas.append(paquete)

print("\n" + "=" * 60)
print(f"Resumen del proceso de instalación:")
print(f"   Exitosas: {len(instalaciones_exitosas)}")
print(f"   Fallidas: {len(instalaciones_fallidas)}")

if instalaciones_fallidas:
    print(f"\n Dependencias que requieren instalación manual:")
    for paquete in instalaciones_fallidas:
        print(f"   pip install {paquete}")
        
print("\nEntorno base configurado para sistemas LLM/RAG vehiculares")

Estado: Iniciando configuración del entorno DECODE-EV...
pandas>=1.5.0 instalado correctamente

pandas>=1.5.0 instalado correctamente

numpy>=1.21.0 instalado correctamente

numpy>=1.21.0 instalado correctamente

matplotlib>=3.5.0 instalado correctamente

matplotlib>=3.5.0 instalado correctamente

seaborn>=0.11.0 instalado correctamente
Collecting seaborn>=0.11.0
  Downloading seaborn-0.13.2-py3-none-any.whl.metadata (5.4 kB)
Downloading seaborn-0.13.2-py3-none-any.whl (294 kB)
Installing collected packages: seaborn
Successfully installed seaborn-0.13.2

seaborn>=0.11.0 instalado correctamente
Collecting seaborn>=0.11.0
  Downloading seaborn-0.13.2-py3-none-any.whl.metadata (5.4 kB)
Downloading seaborn-0.13.2-py3-none-any.whl (294 kB)
Installing collected packages: seaborn
Successfully installed seaborn-0.13.2

langchain>=0.1.0 instalado correctamente
Collecting langchain>=0.1.0
  Downloading langchain-0.3.27-py3-none-any.whl.metadata (7.8 kB)
Collecting langchain-core<1.0.0,>=0.3.72 (

In [8]:
# Importación estratégica de librerías

import pandas as pd
import numpy as np
import json
from datetime import datetime, timedelta
import matplotlib.pyplot as plt
import seaborn as sns
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots

# Módulos para procesamiento de texto y análisis semántico
import re
from typing import Dict, List, Tuple, Optional, Union, Any
from dataclasses import dataclass, field
from pathlib import Path
import logging
from collections import defaultdict

# Configuración de logging para debugging avanzado
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')
logger = logging.getLogger(__name__)

# Importación segura de jsonlines con fallback automático
def safe_import_jsonlines():
    try:
        import jsonlines
        logger.info("jsonlines importado correctamente")
        return jsonlines
    except ImportError:
        logger.warning("jsonlines no disponible - iniciando instalación automática...")
        try:
            import subprocess
            import sys
            subprocess.check_call([sys.executable, "-m", "pip", "install", "jsonlines"], 
                                capture_output=True)
            import jsonlines
            logger.info("jsonlines instalado e importado exitosamente")
            return jsonlines
        except Exception as e:
            logger.error(f"Error en instalación automática de jsonlines: {e}")
            return None

# Importación segura de LangChain con manejo de versiones
def safe_import_langchain():
    langchain_components = {}
    
    try:
        # Intento de importación moderna (LangChain v0.1+)
        from langchain.text_splitter import RecursiveCharacterTextSplitter
        from langchain_core.documents import Document
        langchain_components['text_splitter'] = RecursiveCharacterTextSplitter
        langchain_components['document'] = Document
        logger.info("LangChain v0.1+ importado correctamente")
    except ImportError:
        try:
            # Fallback para versiones anteriores
            from langchain.text_splitter import RecursiveCharacterTextSplitter
            from langchain.docstore.document import Document
            langchain_components['text_splitter'] = RecursiveCharacterTextSplitter
            langchain_components['document'] = Document
            logger.info("LangChain versión clásica importada")
        except ImportError:
            logger.warning("LangChain no disponible - funcionalidad RAG limitada")
            langchain_components = None
    
    return langchain_components

# Ejecutar importaciones seguras
jsonlines = safe_import_jsonlines()
langchain_components = safe_import_langchain()

# Configuración avanzada de visualización con múltiples fallbacks
def configure_matplotlib_style():
    estilos_preferidos = [
        'seaborn-v0_8',      # Estilo moderno preferido
        'seaborn-whitegrid',  # Alternativa limpia
        'seaborn',           # Clásico
        'ggplot',            # Alternativa colorida
        'default'            # Fallback final
    ]
    
    for estilo in estilos_preferidos:
        try:
            plt.style.use(estilo)
            logger.info(f"Estilo matplotlib '{estilo}' aplicado exitosamente")
            return estilo
        except OSError:
            continue
    
    logger.warning("Usando estilo matplotlib por defecto")
    return 'default'

# Configuración de paleta de colores con optimización para datos vehiculares
def configure_color_palette():
    try:
        # Paleta personalizada para redes CAN vehiculares
        colores_can = ['#2E86AB', '#A23B72', '#F18F01', '#C73E1D', '#592F2B']
        sns.set_palette(colores_can)
        logger.info("Paleta de colores vehicular configurada")
        return True
    except Exception as e:
        logger.warning(f"Error configurando paleta personalizada: {e}")
        try:
            sns.set_palette("husl")
            logger.info("Paleta de colores estándar configurada")
            return True
        except Exception:
            logger.warning("Usando colores por defecto")
            return False

# Ejecutar configuraciones
estilo_aplicado = configure_matplotlib_style()
paleta_configurada = configure_color_palette()

# Configuración de warnings con categorización
import warnings
warnings.filterwarnings('ignore', category=FutureWarning)  # Suppress pandas warnings
warnings.filterwarnings('ignore', category=UserWarning)    # Suppress matplotlib warnings
warnings.filterwarnings('default', category=DeprecationWarning)  # Show deprecation warnings

# Configuración global de pandas para datasets grandes
pd.set_option('display.max_columns', 20)
pd.set_option('display.max_rows', 100)
pd.set_option('display.width', 1000)
pd.set_option('display.max_colwidth', 50)

# Configuración de numpy para reproducibilidad
np.random.seed(42)

# Verificación de configuración del entorno
print("\n" + "="*70)
print("DECODE-EV: ENTORNO TÉCNICO CONFIGURADO")
print("="*70)
print(f"Pandas versión: {pd.__version__}")
print(f"NumPy versión: {np.__version__}")
print(f"Matplotlib estilo: {estilo_aplicado}")
print(f"Paleta de colores: {'Configurada' if paleta_configurada else '❌ Por defecto'}")
print(f"JSONL soporte: {'Disponible' if jsonlines else 'No disponible'}")
print(f"LangChain soporte: {'Disponible' if langchain_components else 'No disponible'}")
print("="*70)
print("Sistema listo para procesamiento de datos CAN vehiculares")
print("Capacidades RAG/LLM: Habilitadas")
print("="*70)

2025-10-06 08:36:57,355 - INFO - jsonlines importado correctamente
2025-10-06 08:37:00,762 - INFO - LangChain v0.1+ importado correctamente
2025-10-06 08:37:00,765 - INFO - Estilo matplotlib 'seaborn-v0_8' aplicado exitosamente
2025-10-06 08:37:00,766 - INFO - Paleta de colores vehicular configurada
2025-10-06 08:37:00,762 - INFO - LangChain v0.1+ importado correctamente
2025-10-06 08:37:00,765 - INFO - Estilo matplotlib 'seaborn-v0_8' aplicado exitosamente
2025-10-06 08:37:00,766 - INFO - Paleta de colores vehicular configurada



DECODE-EV: ENTORNO TÉCNICO CONFIGURADO
Pandas versión: 2.3.2
NumPy versión: 2.3.3
Matplotlib estilo: seaborn-v0_8
Paleta de colores: Configurada
JSONL soporte: Disponible
LangChain soporte: Disponible
Sistema listo para procesamiento de datos CAN vehiculares
Capacidades RAG/LLM: Habilitadas


In [11]:
# Verificación de dependencias y versiones
def verificar_entorno():
    
    dependencias = {
        'pandas': pd.__version__,
        'numpy': np.__version__,
        'matplotlib': plt.__version__ if hasattr(plt, '__version__') else "disponible",
        'seaborn': sns.__version__,
        'plotly': px.__version__ if hasattr(px, '__version__') else "disponible",
    }
    
    print("VERIFICACIÓN DE DEPENDENCIAS:")
    print("-" * 40)
    
    for lib, version in dependencias.items():
        print(f"{lib:<12}: {version}")
    
    # Verificar jsonlines
    try:
        import jsonlines
        print(f"{'jsonlines':<12}: Disponible")
    except ImportError:
        print(f"{'jsonlines':<12}: No Disponible")
    
    # Verificar LangChain
    try:
        from langchain.text_splitter import RecursiveCharacterTextSplitter
        print(f"{'langchain':<12}: Disponible")
    except ImportError:
        print(f"{'langchain':<12}: No Disponible (opcional)")
    
    print("-" * 40)
    print("Estado: Entorno listo para análisis CAN")

# Ejecutar verificación
verificar_entorno()

VERIFICACIÓN DE DEPENDENCIAS:
----------------------------------------
pandas      : 2.3.2
numpy       : 2.3.3
matplotlib  : disponible
seaborn     : 0.13.2
plotly      : disponible
jsonlines   : Disponible
langchain   : Disponible
----------------------------------------
Estado: Entorno listo para análisis CAN


## 2. Arquitectura de Datos y Estructuras Semánticas para Sistemas RAG 

### Fundamentación Teórica: Modelado de Datos CAN para LLM

La transformación de datos vehiculares CAN hacia representaciones compatibles con sistemas RAG requiere una arquitectura de datos especializada que preserve tanto la precisión técnica como la accesibilidad semántica. La metodología implementada se fundamenta en principios de **ingeniería de conocimiento** aplicados al dominio automotriz.

### Diseño de Estructuras de Datos Orientadas a Conocimiento

La arquitectura propuesta implementa un **modelo conceptual jerárquico** que organiza la información CAN en múltiples niveles de abstracción:

1. **Nivel de Señal:** Datos numéricos crudos con metadatos técnicos directamente obtenidos de pruebas en la unidad. 
2. **Nivel de Evento:** Agregaciones semánticamente coherentes de señales
3. **Nivel de Contexto:** Información situacional y operativa del vehículo
4. **Nivel de Conocimiento:** Representaciones textuales enriquecidas para RAG

### Justificación Metodológica para Estructuras Dataclass

El equipo de trabajo considera que la utilización de **dataclasses** de Python para modelado de datos CAN ofrece ventajas específicas para sistemas LLM:

- **Validación automática de tipos:** Garantiza consistencia en representaciones semánticas
- **Serialización controlada:** Facilita conversión a formatos RAG (JSONL)
- **Inmutabilidad opcional:** Preserva integridad de metadatos críticos
- **Introspección mejorada:** Facilita debugging y análisis de calidad de datos