<a href="https://colab.research.google.com/github/DEVjspf/ceu_facturas_tfa/blob/main/dev_facturas.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Proyecto: Extracción de datos de facturas eléctricas
## Objetivo:
Extraer y gestionar información clave de facturas eléctricas para optimizar la asesoría y gestión mensual.

In [1]:
# Instalación de librerías necesarias
#!pip install langchain langchain-community langchain-experimental ollama PyMuPDF pydantic sqlalchemy psycopg[binary] faiss-cpu chromadb

### 📘 1. Importación de librerías necesarias

In [2]:
import os
import fitz  # PyMuPDF
import re
import json
from typing import List
from pydantic import BaseModel
import pandas as pd
from sklearn.metrics import confusion_matrix, f1_score, recall_score
from sentence_transformers import SentenceTransformer
import numpy as np
import faiss
import requests

In [3]:
os.environ["TOGETHER_API_KEY"] = "tgp_v1_PHdIPUdwUiD4Br7N3HjeZbxeNJuEdTRpW9LrfkFWZe8"

In [4]:
import os

# Reemplaza la API key de Together por la de OpenAI
os.environ["OPENAI_API_KEY"] = "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"

### 📄 2. Cargar y leer texto desde el PDF

In [5]:
# prompt: comprobar si existe el path data/facturas/" si no existe crea las carpetas

if not os.path.exists('data/facturas/'):
    os.makedirs('data/facturas/')

In [6]:
from pathlib import Path

import fitz  # PyMuPDF

ruta_facturas = Path("data/facturas/")

def extraer_texto_pdf(pdf_path):
    with fitz.open(pdf_path) as pdf:
        texto_factura = ""
        for pagina in pdf:
            texto_factura += pagina.get_text()
    return texto_factura

for pdf_file in ruta_facturas.glob("*.pdf"):
    texto_factura = extraer_texto_pdf(pdf_file)
    print(f"\n📄 Archivo: {pdf_file.name}\n{'-'*40}")
    print(texto_factura[:500])
    print("-"*40)


📄 Archivo: Endesa Factura 08022024.pdf
----------------------------------------
VX10C02P-D-06/02/24 N0026249LNNNN
LARS TANKMAR TANKMAR
AVENIDA ONZE DE SETEMBRE 1 ESC-3 ATC-2
17255 BEGUR
GIRONA
Endesa Energía, S.A. Unipersonal. Inscrita en el Registro Mercantil de Madrid. Tomo 12.797, Libro 0, Folio 208,
 Sección 8ª, Hoja M-205.381, CIF A81948077. Domicilio Social: C/Ribera del Loira, nº60 28042 - Madrid.
Endesa Energía, S.A. Unipersonal.
CIF A81948077.
C/Ribera del Loira, nº 60 28042 - Madrid.
DATOS DE LA FACTURA
Nº factura: PMM401N0380480
Referencia: 012294855257/0412
Fech
----------------------------------------

📄 Archivo: Endesa Factura 06022025.pdf
----------------------------------------
VX10O020-D-11/02/25 N0016126LNNNN
LARS TANKMAR TANKMAR
AV ONZE DE SETEMBRE 1 3 ATC 2
17255 BEGUR
GERONA
Endesa Energía, S.A. Unipersonal. Inscrita en el Registro Mercantil de Madrid. Tomo 12.797, Libro 0, Folio 208,
 Sección 8ª, Hoja M-205.381, CIF A81948077. Domicilio Social: C/Ribera del Loira

### 🧾 3. Definir el esquema de los datos con Pydantic

In [7]:
from pydantic import BaseModel
from datetime import datetime
from typing import Optional

class FacturaElectrica(BaseModel):
    numero_factura: Optional[str]
    fecha_emision: Optional[datetime]
    periodo_inicio: Optional[datetime]
    periodo_fin: Optional[datetime]
    consumo_total_kwh: Optional[float]
    potencia_punta_kw: Optional[float]
    potencia_valle_kw: Optional[float]
    importe_total: Optional[float]


In [8]:
esquema_json = FacturaElectrica.schema_json(indent=2)
print(esquema_json)

{
  "properties": {
    "numero_factura": {
      "anyOf": [
        {
          "type": "string"
        },
        {
          "type": "null"
        }
      ],
      "title": "Numero Factura"
    },
    "fecha_emision": {
      "anyOf": [
        {
          "format": "date-time",
          "type": "string"
        },
        {
          "type": "null"
        }
      ],
      "title": "Fecha Emision"
    },
    "periodo_inicio": {
      "anyOf": [
        {
          "format": "date-time",
          "type": "string"
        },
        {
          "type": "null"
        }
      ],
      "title": "Periodo Inicio"
    },
    "periodo_fin": {
      "anyOf": [
        {
          "format": "date-time",
          "type": "string"
        },
        {
          "type": "null"
        }
      ],
      "title": "Periodo Fin"
    },
    "consumo_total_kwh": {
      "anyOf": [
        {
          "type": "number"
        },
        {
          "type": "null"
        }
      ],
      "title": 

<ipython-input-8-21c62e08e257>:1: PydanticDeprecatedSince20: The `schema_json` method is deprecated; use `model_json_schema` and json.dumps instead. Deprecated in Pydantic V2.0 to be removed in V3.0. See Pydantic V2 Migration Guide at https://errors.pydantic.dev/2.11/migration/
  esquema_json = FacturaElectrica.schema_json(indent=2)


### 🧩 5. Fragmentación semántica y generación de embeddings

In [9]:
import re
from typing import List
from sentence_transformers import SentenceTransformer

# 📌 Cargar modelo de embeddings
modelo_embeddings = SentenceTransformer("all-MiniLM-L6-v2")

# Nueva función para fragmentar texto por secciones específicas
def chunk_por_secciones(texto: str, secciones: List[str]) -> List[str]:
    # Crear patrón regex que detecte los títulos de secciones
    patron = '|'.join([re.escape(sec) for sec in secciones])
    indices = [m.start() for m in re.finditer(patron, texto)]
    indices.append(len(texto))  # Para el último chunk

    chunks = []
    for i in range(len(indices)-1):
        chunk = texto[indices[i]:indices[i+1]].strip()
        if chunk:
            chunks.append(chunk)
    return chunks

# Lista de secciones típicas en factura eléctrica
secciones = [
    "Datos de la factura",
    "Número de factura",
    "Fecha de emisión",
    "Periodo de facturación",
    "Consumo eléctrico",
    "Consumo total",
    "Potencia contratada",
    "Total"
]

# Fragmentar el texto de la factura por secciones
fragmentos = chunk_por_secciones(texto_factura, secciones)

# 📌 Generar embeddings a partir de los fragmentos obtenidos
embeddings = modelo_embeddings.encode(fragmentos, convert_to_tensor=False)


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


### 🧩 5. Guardar embeddings en ChromaDB

In [10]:
import chromadb

# Inicializar el cliente de ChromaDB (almacenamiento local por defecto)
client = chromadb.Client()

# Crear o obtener una colección
coleccion = client.get_or_create_collection("facturas_electricas")

# Guardar los embeddings y fragmentos en la colección
ids = [f"fragmento_{i}" for i in range(len(fragmentos))]
coleccion.add(
    embeddings=embeddings.tolist(),
    documents=fragmentos,
    ids=ids
)

print(f"Se han guardado {len(fragmentos)} fragmentos en ChromaDB.")

Se han guardado 3 fragmentos en ChromaDB.


## Paso 7: Consulta con modelo LLM usando API de Together

In [11]:
def buscar_contexto_chroma(pregunta: str, modelo_embedding, collection, top_k=3) -> str:
    embedding = modelo_embedding.encode(pregunta).tolist()

    resultados = collection.query(query_embeddings=[embedding], n_results=top_k)

    if not resultados['documents'] or not resultados['documents'][0]:
        return None

    return "\n".join(resultados['documents'][0])

def responder_pregunta_con_together_chroma(pregunta):
    contexto = buscar_contexto_chroma(pregunta, modelo_embeddings, coleccion)

    if not contexto:
        return "No se encontró información relevante en los documentos cargados."

    prompt = f"""Contesta la siguiente pregunta usando solo la información proporcionada en el contexto.
Si no está en el contexto, responde que no tienes suficiente información.

Contexto:
{contexto}

Pregunta: {pregunta}
Respuesta:"""

    response = requests.post(
        "https://api.together.xyz/v1/chat/completions",
        headers={
            "Authorization": f"Bearer {os.environ['TOGETHER_API_KEY']}",
            "Content-Type": "application/json"
        },
        json={
            "model": "mistralai/Mixtral-8x7B-Instruct-v0.1",
            "messages": [{"role": "user", "content": prompt}],
            "temperature": 0.3,
            "max_tokens": 512
        }
    )

    if response.status_code == 200:
        resultado = response.json()
        return resultado["choices"][0]["message"]["content"]
    else:
        return f"Error al generar respuesta: {response.status_code} - {response.text}"


In [12]:
respuesta = responder_pregunta_con_together_chroma("¿Cuál es el importe total en la factura?")
print(respuesta)

 El importe total en la factura es de 66,321 kWh.

The total amount in the bill is 66,321 kWh.


In [13]:
respuesta = responder_pregunta_con_together_chroma("¿Cuál es el periodo de facturación?")
print(respuesta)

 El periodo de facturación es del 31/12/2024 al 31/01/2025 (31 días).


In [14]:
respuesta = responder_pregunta_con_together_chroma("¿Cual es el consumo eléctrico?")
print(respuesta)

 El consumo eléctrico total es de 66,321 kWh según la información proporcionada en el contexto.


In [15]:
respuesta = responder_pregunta_con_together_chroma("¿Cuál es el número de factura?")
print(respuesta)

 El contexto no proporciona explícitamente el número de factura. Por lo tanto, no tengo suficiente información para responder a esta pregunta.


## Paso 8: Validación de JSON y evaluación con F1/Recall

In [16]:
from pydantic import BaseModel
from typing import Optional
from datetime import datetime
import json
import re

# ✅ Modelo de validación
class FacturaElectrica(BaseModel):
    numero_factura: Optional[str]
    fecha_emision: Optional[datetime]
    periodo_inicio: Optional[datetime]
    periodo_fin: Optional[datetime]
    consumo_total_kwh: Optional[float]
    potencia_punta_kw: Optional[float]
    potencia_valle_kw: Optional[float]
    importe_total: Optional[float]

# ✅ Prompt para LLM que solicita JSON
prompt_json = """
Extrae los siguientes datos de la factura eléctrica y devuélvelos en formato JSON válido.

Devuelve el resultado en este formato JSON:

{
  "numero_factura": "string",
  "fecha_emision": "YYYY-MM-DDTHH:MM:SS",
  "periodo_inicio": "YYYY-MM-DDTHH:MM:SS",
  "periodo_fin": "YYYY-MM-DDTHH:MM:SS",
  "consumo_total_kwh": float,
  "potencia_punta_kw": float,
  "potencia_valle_kw": float,
  "importe_total": float
}

Usa solo los datos que estén claramente presentes. Si no aparece algún dato, indica "No tengo suficiente información".

Devuelve exclusivamente el JSON, sin explicaciones.
"""

# ✅ Función para enviar el prompt al LLM
def extraer_datos_con_llm(prompt):
    contexto = buscar_contexto_chroma(prompt, modelo_embeddings, coleccion)
    prompt_final = f"""Contesta esta solicitud usando solo el contexto proporcionado.

Contexto:
{contexto}

{prompt}
"""
    response = requests.post(
        "https://api.together.xyz/v1/chat/completions",
        headers={
            "Authorization": f"Bearer {os.environ['TOGETHER_API_KEY']}",
            "Content-Type": "application/json"
        },
        json={
            "model": "mistralai/Mixtral-8x7B-Instruct-v0.1",
            "messages": [{"role": "user", "content": prompt_final}],
            "temperature": 0.3,
            "max_tokens": 512
        }
    )

    if response.status_code == 200:
        return response.json()["choices"][0]["message"]["content"]
    else:
        raise ValueError(f"❌ Error al llamar al modelo: {response.status_code} - {response.text}")

# ✅ Función para extraer el bloque JSON y corregir claves
def limpiar_y_validar_json(respuesta_texto):
    # Extraer bloque JSON del texto
    bloque = re.search(r"\{.*?\}", respuesta_texto, re.DOTALL)
    if not bloque:
        print("❌ No se encontró un bloque JSON.")
        return None

    try:
        datos = json.loads(bloque.group())

        # Corregir claves si el modelo devolvió otras (ej. "N factura" → "numero_factura")
        claves_corregidas = {
            "N factura": "numero_factura",
            "número_factura": "numero_factura",
            "fecha_emisión": "fecha_emision"
        }

        for original, corregida in claves_corregidas.items():
            if original in datos:
                datos[corregida] = datos.pop(original)

        # Reemplazar campos vacíos o con "No tengo información"
        for k, v in datos.items():
            if isinstance(v, str) and "no tengo" in v.lower():
                datos[k] = None

        # Validar con Pydantic
        factura = FacturaElectrica(**datos)
        print("✅ JSON válido y estructurado:")
        print(factura.model_dump_json(indent=2))
        return factura

    except Exception as e:
        print("❌ Error durante la validación:")
        print(e)
        print("Contenido JSON recibido:")
        print(bloque.group())
        return None

# ✅ Ejecutar flujo completo
respuesta_llm = extraer_datos_con_llm(prompt_json)
factura_validada = limpiar_y_validar_json(respuesta_llm)

✅ JSON válido y estructurado:
{
  "numero_factura": null,
  "fecha_emision": "2025-02-13T00:00:00",
  "periodo_inicio": "2024-12-31T00:00:00",
  "periodo_fin": "2025-01-31T00:00:00",
  "consumo_total_kwh": 66.321,
  "potencia_punta_kw": 6.928,
  "potencia_valle_kw": 6.928,
  "importe_total": 50.65
}


## Código para Paso 8: Evaluación con F1 y Recall

In [17]:
from sklearn.metrics import f1_score, recall_score
import pandas as pd

# ✅ Valores reales conocidos de la factura (puedes adaptarlos a cada documento)
valores_reales = {
    "numero_factura": "P25CON005526043",
    "fecha_emision": "2025-02-13T00:00:00",
    "periodo_inicio": "2024-12-31T00:00:00",
    "periodo_fin": "2025-01-31T00:00:00",
    "consumo_total_kwh": 66.321,
    "potencia_punta_kw": 6.928,
    "potencia_valle_kw": 6.928,
    "importe_total": 50.65
}

# ✅ Función de evaluación por campo
def evaluar_factura(extraida, reales):
    resultados = []

    for campo, valor_real in reales.items():
        try:
            valor_extraido = getattr(extraida, campo)

            # Evaluación binaria: ¿el valor está presente y es igual?
            y_true = [1]  # campo está presente en la realidad
            y_pred = [int(valor_extraido is not None and str(valor_extraido) == str(valor_real))]

            resultados.append({
                "campo": campo,
                "valor_real": valor_real,
                "valor_extraido": valor_extraido,
                "f1_score": f1_score(y_true, y_pred, zero_division=1),
                "recall": recall_score(y_true, y_pred, zero_division=1)
            })
        except Exception as e:
            resultados.append({
                "campo": campo,
                "valor_real": valor_real,
                "valor_extraido": "ERROR",
                "f1_score": 0,
                "recall": 0
            })

    return pd.DataFrame(resultados)

# ✅ Ejecutar evaluación y mostrar resultados
if factura_validada:
    df_resultados = evaluar_factura(factura_validada, valores_reales)
    print("📊 Evaluación de calidad por campo:")
    display(df_resultados)
else:
    print("❌ No se puede evaluar: JSON no válido.")

📊 Evaluación de calidad por campo:


Unnamed: 0,campo,valor_real,valor_extraido,f1_score,recall
0,numero_factura,P25CON005526043,,0.0,0.0
1,fecha_emision,2025-02-13T00:00:00,2025-02-13 00:00:00,0.0,0.0
2,periodo_inicio,2024-12-31T00:00:00,2024-12-31 00:00:00,0.0,0.0
3,periodo_fin,2025-01-31T00:00:00,2025-01-31 00:00:00,0.0,0.0
4,consumo_total_kwh,66.321,66.321,1.0,1.0
5,potencia_punta_kw,6.928,6.928,1.0,1.0
6,potencia_valle_kw,6.928,6.928,1.0,1.0
7,importe_total,50.65,50.65,1.0,1.0


## exportar los resultados a CSV y Excel

In [18]:
import os

# 📁 Crear carpeta de resultados si no existe
os.makedirs("resultados", exist_ok=True)

# 📄 Exportar a CSV
df_resultados.to_csv("resultados/evaluacion_factura.csv", index=False)

# 📊 Exportar a Excel (requiere openpyxl o xlsxwriter)
df_resultados.to_excel("resultados/evaluacion_factura.xlsx", index=False)

print("✅ Resultados exportados correctamente:")
print(" - resultados/evaluacion_factura.csv")
print(" - resultados/evaluacion_factura.xlsx")

✅ Resultados exportados correctamente:
 - resultados/evaluacion_factura.csv
 - resultados/evaluacion_factura.xlsx


# Paso 10: Evaluación con el segundo modelo (MPNet)


## 🔁 1. Chunking y generación de embeddings para modelo B

In [19]:
# Asegúrate de tener los textos de tus facturas
# Si no lo hiciste aún, esto carga todos los PDFs
from pathlib import Path
import fitz

ruta_facturas = Path("data/facturas/")

def extraer_texto_pdf(pdf_path):
    with fitz.open(pdf_path) as pdf:
        return "".join([pagina.get_text() for pagina in pdf])

textos_facturas_b = [extraer_texto_pdf(pdf) for pdf in ruta_facturas.glob("*.pdf")]

# Fragmentar los textos por secciones
secciones = [
    "Datos de la factura", "Número de factura", "Fecha de emisión",
    "Periodo de facturación", "Consumo eléctrico", "Consumo total",
    "Potencia contratada", "Total"
]

import re

def chunk_por_secciones(texto, secciones):
    patron = '|'.join([re.escape(sec) for sec in secciones])
    indices = [m.start() for m in re.finditer(patron, texto)]
    indices.append(len(texto))
    return [texto[indices[i]:indices[i+1]].strip() for i in range(len(indices)-1)]

# Aplicar chunking a cada factura
documentos_chunkeados_b = [chunk_por_secciones(texto, secciones) for texto in textos_facturas_b]

## 🤖 2. Generar embeddings con MPNet

In [20]:
from sentence_transformers import SentenceTransformer

# Modelo B
modelo_embeddings_b = SentenceTransformer("all-mpnet-base-v2")

# Embeddings por factura
documentos_embeddings_b = [
    modelo_embeddings_b.encode(chunks, convert_to_tensor=False)
    for chunks in documentos_chunkeados_b
]

## 🧠 3. Crear y poblar colección en ChromaDB para modelo B

In [21]:
import chromadb

# Inicializar cliente y borrar colección anterior si existe
client_b = chromadb.Client()
try:
    client_b.delete_collection("facturas_mpnet")
except:
    pass

coleccion_mpnet = client_b.get_or_create_collection("facturas_mpnet")

# Agregar todos los fragmentos de cada factura
for idx, (fragmentos_b, embeddings_b) in enumerate(zip(documentos_chunkeados_b, documentos_embeddings_b)):
    ids_b = [f"mpnet_factura{idx}_frag{i}" for i in range(len(fragmentos_b))]
    coleccion_mpnet.add(documents=fragmentos_b, embeddings=embeddings_b.tolist(), ids=ids_b)

print(f"✅ Se han guardado {len(documentos_chunkeados_b)} facturas en la colección MPNet.")

✅ Se han guardado 2 facturas en la colección MPNet.


## 🧠 1. Buscar contexto con MPNet

In [22]:
def buscar_contexto_chroma_b(pregunta: str, modelo_b, coleccion_b, top_k=3):
    embedding_b = modelo_b.encode(pregunta).tolist()
    resultados_b = coleccion_b.query(query_embeddings=[embedding_b], n_results=top_k)
    return "\n".join(resultados_b["documents"][0]) if resultados_b["documents"] and resultados_b["documents"][0] else ""

## 📩 2. Generar respuesta con Mistral (modelo B)

In [23]:
def responder_pregunta_b(pregunta: str):
    contexto_b = buscar_contexto_chroma_b(pregunta, modelo_embeddings_b, coleccion_mpnet)
    prompt_b = f"""Contesta esta pregunta solo con el contexto:\n\n{contexto_b}\n\nPregunta: {pregunta}\nRespuesta:"""

    response_b = requests.post(
        "https://api.together.xyz/v1/chat/completions",
        headers={
            "Authorization": f"Bearer {os.environ['TOGETHER_API_KEY']}",
            "Content-Type": "application/json"
        },
        json={
            "model": "mistralai/Mistral-7B-Instruct-v0.1",
            "messages": [{"role": "user", "content": prompt_b}],
            "temperature": 0.3,
            "max_tokens": 512
        }
    )

    if response_b.status_code == 200:
        return response_b.json()["choices"][0]["message"]["content"]
    else:
        print("❌ Error en la respuesta B:", response_b.status_code)
        return None

## 🧪 3. Prompt para extracción estructurada (mismo prompt_json de antes)

In [24]:
from sentence_transformers import SentenceTransformer

# ✅ Cargar modelo de embeddings B
modelo_embeddings_b = SentenceTransformer("all-mpnet-base-v2")

In [25]:
import chromadb

# ✅ Inicializar cliente y colección para modelo B
client_b = chromadb.Client()
try:
    client_b.delete_collection("facturas_mpnet")  # borra si ya existe
except:
    pass

coleccion_mpnet = client_b.get_or_create_collection("facturas_mpnet")

# ✅ Guardar los embeddings ya calculados
# Asegúrate de tener una lista `fragmentos_b` y `embeddings_b` para poblar
# (usa los mismos textos de las facturas)
fragmentos_b = documentos_chunkeados_b[0]  # por ejemplo, solo la primera factura
embeddings_b = modelo_embeddings_b.encode(fragmentos_b, convert_to_tensor=False)

ids_b = [f"bfrag_{i}" for i in range(len(fragmentos_b))]
coleccion_mpnet.add(
    embeddings=embeddings_b.tolist(),
    documents=fragmentos_b,
    ids=ids_b
)

In [26]:
# 📌 Valores reales que corresponden a la misma factura analizada por el modelo B
valores_reales_b = {
    "numero_factura": "4192",
    "fecha_emision": "2022-12-31T12:00:00",
    "periodo_inicio": "2022-12-31T00:00:00",
    "periodo_fin": "2023-01-01T00:00:00",
    "consumo_total_kwh": 64.82,
    "potencia_punta_kw": 0.0,
    "potencia_valle_kw": 0.0,
    "importe_total": 41.92
}

## 🧹 4. Validar JSON con Pydantic (versión modelo B)

In [27]:
def limpiar_y_validar_json_b(respuesta_texto_b):
    # 🔍 Extraer bloque JSON completo manualmente
    try:
        inicio = respuesta_texto_b.index('{')
        fin = respuesta_texto_b.rindex('}') + 1
        bloque_limpio = respuesta_texto_b[inicio:fin]
    except ValueError:
        print("❌ No se pudo detectar un bloque JSON.")
        return None

    try:
        # 🧹 Limpiar caracteres de escape como \_
        bloque_limpio = bloque_limpio.replace("\\_", "_")

        # ✅ Convertir a diccionario
        datos = json.loads(bloque_limpio)

        # 🔄 Reemplazar "no tengo suficiente información" por None
        for k, v in datos.items():
            if isinstance(v, str) and "no tengo" in v.lower():
                datos[k] = None

        # ✅ Validar con Pydantic
        factura_b = FacturaElectrica(**datos)
        print("✅ JSON B válido y estructurado:")
        print(factura_b.model_dump_json(indent=2))
        return factura_b

    except Exception as e:
        print("❌ Error en validación JSON B:", e)
        print("Contenido JSON limpio:", bloque_limpio)
        return None



In [28]:
respuesta_json_b = responder_pregunta_b(prompt_json)
factura_validada_b = limpiar_y_validar_json_b(respuesta_json_b)
print("📦 Respuesta completa del modelo B:\n")
print(respuesta_json_b)

✅ JSON B válido y estructurado:
{
  "numero_factura": "012294855257",
  "fecha_emision": "2024-02-12T00:00:00",
  "periodo_inicio": "2023-12-31T00:00:00",
  "periodo_fin": "2024-01-31T00:00:00",
  "consumo_total_kwh": 64.82,
  "potencia_punta_kw": 6.928,
  "potencia_valle_kw": 6.928,
  "importe_total": 41.92
}
📦 Respuesta completa del modelo B:

 {
"numero\_factura": "012294855257",
"fecha\_emision": "2024-02-12T00:00:00",
"periodo\_inicio": "2023-12-31T00:00:00",
"periodo\_fin": "2024-01-31T00:00:00",
"consumo\_total\_kwh": 64.82,
"potencia\_punta\_kw": 6.928,
"potencia\_valle\_kw": 6.928,
"importe\_total": 41.92
}


In [29]:
# 🧪 Ejecutar validación
factura_validada_b = limpiar_y_validar_json_b(respuesta_json_b)

✅ JSON B válido y estructurado:
{
  "numero_factura": "012294855257",
  "fecha_emision": "2024-02-12T00:00:00",
  "periodo_inicio": "2023-12-31T00:00:00",
  "periodo_fin": "2024-01-31T00:00:00",
  "consumo_total_kwh": 64.82,
  "potencia_punta_kw": 6.928,
  "potencia_valle_kw": 6.928,
  "importe_total": 41.92
}


## 📊 5. Evaluar precisión del modelo B

In [30]:
def evaluar_factura_b(extraida_b, reales):
    resultados_b = []

    for campo, valor_real in reales.items():
        valor_extraido_b = getattr(extraida_b, campo)
        y_true = [1]
        y_pred = [int(valor_extraido_b is not None and str(valor_extraido_b) == str(valor_real))]
        resultados_b.append({
            "campo": campo,
            "valor_real": valor_real,
            "valor_extraido_b": valor_extraido_b,
            "f1_score_b": f1_score(y_true, y_pred, zero_division=1),
            "recall_b": recall_score(y_true, y_pred, zero_division=1)
        })

    return pd.DataFrame(resultados_b)

if factura_validada_b:
    df_resultados_b = evaluar_factura_b(factura_validada_b, valores_reales_b)
    print("📊 Evaluación modelo B:")
    display(df_resultados_b)

📊 Evaluación modelo B:


Unnamed: 0,campo,valor_real,valor_extraido_b,f1_score_b,recall_b
0,numero_factura,4192,012294855257,0.0,0.0
1,fecha_emision,2022-12-31T12:00:00,2024-02-12 00:00:00,0.0,0.0
2,periodo_inicio,2022-12-31T00:00:00,2023-12-31 00:00:00,0.0,0.0
3,periodo_fin,2023-01-01T00:00:00,2024-01-31 00:00:00,0.0,0.0
4,consumo_total_kwh,64.82,64.82,1.0,1.0
5,potencia_punta_kw,0.0,6.928,0.0,0.0
6,potencia_valle_kw,0.0,6.928,0.0,0.0
7,importe_total,41.92,41.92,1.0,1.0
