# üß™ Pruebas del Servicio: IA Validador Multimodal Inteligente de Archivos

## üìå Prop√≥sito del Notebook

Este notebook tiene como objetivo probar de manera automatizada el funcionamiento del servicio **IA Validador Multimodal Inteligente de Archivos**, una soluci√≥n desarrollada por el equipo de Ciencia de Datos e Inteligencia Artificial de la OTI de la Superintendencia de Industria y Comercio (SIC).

El servicio permite validar archivos cargados por los ciudadanos en el formulario web de la SIC, evaluando su calidad y estructura. El sistema detecta autom√°ticamente el tipo de archivo (`pdf`, `docx`, `xlsx`, `txt`), lo enruta al microservicio correspondiente y devuelve una respuesta estructurada que incluye:

- ‚úÖ Formato detectado
- üß† Validaciones realizadas (estructura, peso, contenido, errores)
- ‚è±Ô∏è Tiempo de inicio y fin de la validaci√≥n
- ‚ö†Ô∏è Tipos de errores detectados (corrupci√≥n, vac√≠o, liviano, peso excedido, errores inesperados)
- üìÑ Informaci√≥n espec√≠fica del archivo (p√°ginas, p√°rrafos, l√≠neas, caracteres, etc.)

## üóÇÔ∏è Estructura del Notebook

1. **Configuraci√≥n inicial**
   - Cargar librer√≠as
   - Definir constantes de conexi√≥n al servicio gateway
   - Definir funciones auxiliares

2. **Carga de archivos de ejemplo**
   - Leer archivos desde una carpeta local
   - Mostrar nombres de archivo a procesar

3. **Env√≠o de archivos al gateway**
   - Detectar tipo de archivo autom√°ticamente
   - Enviar solicitud a `/validate-file` v√≠a HTTP
   - Almacenar la respuesta estructurada

4. **Visualizaci√≥n de resultados**
   - Conversi√≥n de respuestas a `pandas.DataFrame`
   - An√°lisis de errores por tipo
   - Visualizaci√≥n tabular de respuestas por archivo

## üì¶ Microservicios involucrados

- `gateway_service`: Encargado de detectar el tipo de archivo y redirigirlo.
- `pdf_service`: Valida archivos PDF (estructura, p√°ginas, peso).
- `docx_service`: Valida documentos Word.
- `xlsx_service`: Valida archivos Excel.
- `txt_service`: Valida archivos de texto plano.

---

Este notebook es parte del proceso de validaci√≥n funcional y de calidad del sistema en su versi√≥n **beta**, y permite anticipar mejoras, detectar errores de integraci√≥n, y verificar que el procesamiento y retorno de informaci√≥n se realiza correctamente.


## üß∞ Importaci√≥n de m√≥dulos necesarios

Se importan los siguientes m√≥dulos para llevar a cabo las pruebas del servicio `IA Validador Multimodal Inteligente de Archivos`:

- `requests`: permite realizar peticiones HTTP al microservicio gateway para validar los archivos.
- `pathlib.Path`: facilita el manejo de rutas de archivos de manera multiplataforma.
- `pandas`: utilizado para almacenar y visualizar los resultados de las validaciones en forma de tabla.
- `typing.List`: se usa para anotar listas en las definiciones de funciones, mejorando la legibilidad y mantenibilidad del c√≥digo.


In [10]:
# IA_Validador_Test.ipynb (c√≥digo para una celda de Jupyter Notebook)

import requests
from pathlib import Path
import pandas as pd
from typing import List


In [11]:
import plotly.express as px
import plotly.graph_objects as go


## ‚öôÔ∏è Funciones auxiliares para las pruebas
En esta secci√≥n se definen funciones reutilizables que permiten automatizar el flujo de pruebas del servicio IA Validador Multimodal Inteligente de Archivos a trav√©s del microservicio gateway.

In [12]:

def listar_nombres_archivos(directorio: str) -> List[str]:
    """
    Retorna una lista con los nombres de todos los archivos (no carpetas) dentro de un directorio dado.

    Args:
        directorio (str): Ruta al directorio.

    Returns:
        List[str]: Lista con los nombres de los archivos (no rutas completas).
    """
    ruta = Path(directorio)
    if not ruta.exists() or not ruta.is_dir():
        raise ValueError(f"El directorio '{directorio}' no existe o no es v√°lido.")

    return [f.name for f in ruta.iterdir() if f.is_file()]


In [13]:

def validar_archivos_gateway(lista_archivos: List[Path], gateway_url: str) -> List[dict]:
    resultados = []
    
    for archivo in lista_archivos:
        try:
            with open(archivo, "rb") as f:
                files = {"file": (archivo.name, f, "application/octet-stream")}
                response = requests.post(gateway_url, files=files, timeout=60)
                result_json = response.json()
                
                resultados.append({
                    "Tipo de archivo": archivo.suffix.lstrip(".").lower(),
                    "Nombre archivo": archivo.name,
                    "C√≥digo HTTP": response.status_code,
                    "FLAG_OK_file": result_json.get("FLAG_OK_file"),
                    "Tama√±o (MB)": result_json.get("weight_file"),
                    "Formato detectado": result_json.get("format"),
                    "Mensaje": result_json.get("message", ""),
                    "Respuesta completa": result_json
                })
        except Exception as e:
            resultados.append({
                "Tipo de archivo": archivo.suffix.lstrip(".").lower(),
                "Nombre archivo": archivo.name,
                "C√≥digo HTTP": "Error",
                "FLAG_OK_file": False,
                "Tama√±o (MB)": None,
                "Formato detectado": None,
                "Mensaje": str(e),
                "Respuesta completa": {}
            })
    
    return resultados


In [14]:

def resultados_a_dataframe(resultados: list) -> pd.DataFrame:
    filas = []
    for r in resultados:
        fila = {
            "Tipo de archivo": r.get("Tipo de archivo"),
            "Nombre archivo": r.get("Nombre archivo"),
            "C√≥digo HTTP": r.get("C√≥digo HTTP"),
            "FLAG_OK_file": r.get("FLAG_OK_file"),
            "Tama√±o (MB)": r.get("Tama√±o (MB)"),
            "Formato detectado": r.get("Formato detectado"),
            "Mensaje": r.get("Mensaje"),
        }

        respuesta = r.get("Respuesta completa", {})
        fila.update({
            "P√°ginas/Parrafos/Lineas": respuesta.get("pages") or respuesta.get("paragraph_count") or respuesta.get("line_count"),
            "error_type_01_file": respuesta.get("error_type_01_file"),
            "error_type_02_file": respuesta.get("error_type_02_file"),
            "error_type_03_file": respuesta.get("error_type_03_file"),
            "error_type_04_file": respuesta.get("error_type_04_file"),
            "error_type_09_file": respuesta.get("error_type_09_file"),
            "Inicio validaci√≥n": respuesta.get("time_val_file_init"),
            "Fin validaci√≥n": respuesta.get("time_val_file_end"),
        })
        filas.append(fila)

    return pd.DataFrame(filas)


## üõ†Ô∏è Configuraci√≥n de la prueba
En esta secci√≥n se definen los par√°metros necesarios para ejecutar las pruebas del servicio de validaci√≥n de archivos

Detalles:
* carpeta: especifica el directorio local donde se almacenan los archivos a validar.
* archivos: genera una lista de archivos encontrados en dicha carpeta.
* GATEWAY_URL: direcci√≥n del servicio FastAPI que expone el endpoint /validate-file del microservicio gateway, al cual se env√≠an los archivos.



In [32]:

# Ruta a la carpeta que contiene los archivos de prueba
carpeta = Path("C:\\Users\\anmmu\\OneDrive\\Proyectos\\data\\")

# Obtener todos los archivos
archivos = list(carpeta.glob("*"))

# URL del servicio Gateway
GATEWAY_URL = "http://localhost:8000/validate-file"


## ‚ñ∂Ô∏è Ejecuci√≥n de las pruebas
En esta etapa se ejecuta la validaci√≥n de cada archivo contra el servicio Gateway, y posteriormente se organiza la salida en un DataFrame para su an√°lisis.

Resultado esperado:
Una tabla con las siguientes columnas clave:
* Tipo de archivo
* Nombre archivo
* C√≥digo HTTP
* FLAG_OK_file
* Tama√±o (MB)
* Formato detectado
* Mensaje
* P√°ginas/P√°rrafos/L√≠neas
* Errores espec√≠ficos
* Tiempos de validaci√≥n

In [33]:

# Ejecutar la validaci√≥n
resultados = validar_archivos_gateway(archivos, GATEWAY_URL)

In [34]:
df_resultados = resultados_a_dataframe(resultados)
df_resultados.head()


Unnamed: 0,Tipo de archivo,Nombre archivo,C√≥digo HTTP,FLAG_OK_file,Tama√±o (MB),Formato detectado,Mensaje,P√°ginas/Parrafos/Lineas,error_type_01_file,error_type_02_file,error_type_03_file,error_type_04_file,error_type_09_file,Inicio validaci√≥n,Fin validaci√≥n
0,txt,19mb.txt,413,False,18.88,txt,Archivo demasiado grande. M√°ximo permitido: 10MB,,False,False,False,True,False,2025-07-06T21:07:51.018677,2025-07-06T21:07:51.063421
1,txt,ascii-art - Copy.txt,502,False,0.0,txt,Error HTTP al contactar microservicio especial...,,False,False,False,False,True,2025-07-06T21:07:51.090466,2025-07-06T21:07:51.159327
2,txt,ascii-art.txt,502,False,0.0,txt,Error HTTP al contactar microservicio especial...,,False,False,False,False,True,2025-07-06T21:07:51.165664,2025-07-06T21:07:51.198245
3,docx,Basic management resume.docx,200,True,0.02,docx,Validaci√≥n exitosa.,,False,False,False,False,False,2025-07-06T21:07:51.216419,2025-07-06T21:07:51.252291
4,docx,Bolet√≠n de regreso a la escuela.docx,200,True,0.94,docx,Validaci√≥n exitosa.,,False,False,False,False,False,2025-07-06T21:07:51.260104,2025-07-06T21:07:51.415635


## üìä An√°lisis Descriptivo de Resultados
Esta secci√≥n permite explorar de forma visual los resultados de la validaci√≥n de archivos procesados por el servicio IA Validador Multimodal Inteligente de Archivos. Se presentan estad√≠sticas y gr√°ficos interactivos construidos con Plotly para comprender mejor el comportamiento de los diferentes tipos de archivos evaluados.

### ‚úÖ Cantidad de archivos por tipo y validaci√≥n
Un histograma que muestra cu√°ntos archivos de cada tipo fueron validados correctamente (FLAG_OK_file = True) y cu√°ntos fallaron (False).

### üì¶ Tama√±o promedio de los archivos por tipo
Un gr√°fico de barras con el tama√±o promedio en megabytes (MB) para cada tipo de archivo. Esto permite detectar archivos sospechosamente livianos que podr√≠an ser inv√°lidos.

### ‚ùó Distribuci√≥n de errores detectados
Un gr√°fico circular que resume los errores m√°s frecuentes identificados por los microservicios:

* error_type_01_file: archivo corrupto
* error_type_02_file: archivo vac√≠o
* error_type_03_file: peso demasiado bajo
* error_type_04_file: peso excedido
* error_type_09_file: error inesperado en microservicio (500, 502, 504, etc.)

### ‚è±Ô∏è Tiempo de validaci√≥n por archivo
Un diagrama de caja que muestra la duraci√≥n (en segundos) que tom√≥ validar cada archivo, segmentado por tipo. Permite detectar diferencias de rendimiento entre microservicios.

In [35]:

# Cantidad de archivos por tipo
fig1 = px.histogram(df_resultados, x="Tipo de archivo", color="FLAG_OK_file", barmode="group",
                    title="Cantidad de archivos por tipo y validaci√≥n", text_auto=True)
fig1.update_layout(xaxis_title="Tipo de archivo", yaxis_title="Cantidad", legend_title="Validaci√≥n OK")
fig1.show()

# Tama√±o promedio por tipo de archivo
df_tamano = df_resultados.groupby("Tipo de archivo")["Tama√±o (MB)"].mean().reset_index()
fig2 = px.bar(df_tamano, x="Tipo de archivo", y="Tama√±o (MB)", title="Tama√±o promedio de archivo por tipo")
fig2.update_traces(texttemplate='%{y:.2f} MB', textposition='outside')
fig2.update_layout(yaxis_title="Tama√±o promedio (MB)")
fig2.show()

# Conteo de errores por tipo
errores = ["error_type_01_file", "error_type_02_file", "error_type_03_file", "error_type_04_file", "error_type_09_file"]
error_counts = df_resultados[errores].sum().reset_index()
error_counts.columns = ["Tipo de error", "Cantidad"]

fig3 = px.pie(error_counts, names="Tipo de error", values="Cantidad", title="Distribuci√≥n de errores detectados")
fig3.show()

# Tiempos de validaci√≥n (opcional si necesitas ver diferencias)
df_resultados["Inicio validaci√≥n"] = pd.to_datetime(df_resultados["Inicio validaci√≥n"])
df_resultados["Fin validaci√≥n"] = pd.to_datetime(df_resultados["Fin validaci√≥n"])
df_resultados["Duraci√≥n (s)"] = (df_resultados["Fin validaci√≥n"] - df_resultados["Inicio validaci√≥n"]).dt.total_seconds()

fig4 = px.box(df_resultados, x="Tipo de archivo", y="Duraci√≥n (s)", points="all",
              title="Tiempo de validaci√≥n por tipo de archivo")
fig4.show()
