In [1]:
from PyPDF2 import PdfReader
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import ElasticVectorSearch, Pinecone, Weaviate, FAISS
from langchain.prompts import PromptTemplate
from langchain.llms import OpenAI
import logging
from langchain.chains import LLMChain
import os
import time

# Configuración del logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

def tiempo_de_ejecucion(func):
    """
    Decorador que registra el tiempo de ejecución de una función.
    """
    def wrapper(*args, **kwargs):
        inicio = time.time()
        resultado = func(*args, **kwargs)
        fin = time.time()
        logging.info(f"{func.__name__} tomó {fin - inicio} segundos en ejecutarse.")
        return resultado
    return wrapper

In [2]:
# Example usage
os.environ['OPENAI_API_KEY'] = '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'
pdf_path = '/Users/adrianinfantes/Desktop/AIR/CollegeStudies/MachineLearningPath/Portfolio/NlpProjects/DecideSoluciones/data/data_test/factura_0.pdf'

In [3]:
class MiProcesadorNLP:
    def __init__(self, temperatura=0.5, max_tokens=100, top_p=1.0, frequency_penalty=0.0, presence_penalty=0.0):
        self.template = """{question}"""
        self.prompt = PromptTemplate(input_variables=["question"], template=self.template)
        self.llm = OpenAI(temperature=temperatura, max_tokens=max_tokens, top_p=top_p, frequency_penalty=frequency_penalty, presence_penalty=presence_penalty)
        self.chain = LLMChain(llm=self.llm, prompt=self.prompt)
        
    @tiempo_de_ejecucion
    def ejecutar(self, question):
        return self.chain.run(question=question)

In [4]:
procesador = MiProcesadorNLP()
resultado = procesador.ejecutar(question="¿Cuál es la capital de Francia?")
logging.info(f"Resultado: {resultado}")

  warn_deprecated(
  warn_deprecated(
2024-02-19 12:08:52,448 - INFO - ejecutar tomó 0.5965018272399902 segundos en ejecutarse.
2024-02-19 12:08:52,448 - INFO - Resultado: 

La capital de Francia es París.


In [5]:
from PyPDF2 import PdfReader
import logging

# Configuración del logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

class ProcesadorPDF:
    def __init__(self, ruta_archivo):
        self.ruta_archivo = ruta_archivo
    
    def extraer_texto(self):
        """
        Abre un PDF y extrae todo el texto.
        """
        try:
            reader = PdfReader(self.ruta_archivo)
            raw_text = ""
            for page in reader.pages:
                raw_text += page.extract_text() or ""  # Añade un string vacío si extract_text es None
            logging.info("Texto extraído del PDF con éxito.")
            return raw_text
        except Exception as e:
            logging.error(f"Error al extraer texto del PDF: {e}")
            return None

In [6]:
# Uso de ProcesadorPDF para leer y procesar el texto de un PDF

procesador_pdf = ProcesadorPDF(ruta_archivo=pdf_path)
texto_pdf = procesador_pdf.extraer_texto()

if texto_pdf:
    print(texto_pdf)
else:
    print("No se pudo extraer texto del PDF.")

2024-02-19 12:08:55,278 - INFO - Texto extraído del PDF con éxito.


 
 
 
   Hoja número  1 / 2 ELECTRICIDAD ELEIA S.L.  
FACTURA  DE ELECTRICIDAD  
Referencia  contrato  5060686185733  
Periodo  de facturación  29/01/1996  - 28/02/1996   
Fecha  factura  01 de marzo de 1996  
Nº factura  Y8423563212  
IMPORTE  FACTURA  148,04  € 
Remite: ELECTRICIDAD ELEIA S.L. Apartado de Correos XXXXX 28016 MADRID  
1 ADRIANA ORTIZ PINEDA  
 
Calle de Valencia  
 
33779 Santa Eulalia de Oscos (Asturias)  DATOS  DEL CLIENTE  
ADRIANA ORTIZ PINEDA  
NIF 34869317Y  
Calle de Valencia  
33779 Santa Eulalia de Oscos (Asturias)  
Forma  de pago  Domiciliada  
Fecha  límite de pago:  04 de marzo de 1996  
2 FACTURACIÓN  
EUROS  
ENERGÍA  
Potencia  contratada  ¿Cuál es el destino de lo que paga en su  
factura?  
De los 148,04  € de su factura, XX ,XX € 
están  destinados  al pago  de impuestos  y 
otros  recargos establecidos por la normativa 
en vigor,  ajenos  al suministro.  Los XX,XX € 
restantes  están  destinados  al pago  de la 
producción y suministro de la energí

In [7]:
from langchain.text_splitter import CharacterTextSplitter
import logging

class SeparadorTexto:
    def __init__(self, separator=".", chunk_size=1000, chunk_overlap=200):
        self.text_splitter = CharacterTextSplitter(
            separator=separator,
            chunk_size=chunk_size,
            chunk_overlap=chunk_overlap,
            length_function=len,
        )
    
    def dividir_texto(self, texto):
        """
        Divide el texto en segmentos más pequeños basados en la configuración inicial.
        """
        try:
            texts = self.text_splitter.split_text(texto)
            logging.info(f"Texto dividido en {len(texts)} segmentos.")
            return texts
        except Exception as e:
            logging.error(f"Error al dividir texto: {e}")
            return []

In [8]:
# Integración con el flujo de trabajo

if texto_pdf:
    separador = SeparadorTexto()
    segmentos_texto = separador.dividir_texto(texto_pdf)
    
    if segmentos_texto:
        # Procesar cada segmento con `MiProcesadorNLP` u otra lógica específica
        # Por ejemplo, imprimir el primer segmento
        print(segmentos_texto[0])
    else:
        print("No se pudo dividir el texto.")
else:
    print("No se pudo extraer texto del PDF.")

2024-02-19 12:09:03,763 - INFO - Texto dividido en 7 segmentos.


Hoja número  1 / 2 ELECTRICIDAD ELEIA S.L.  
FACTURA  DE ELECTRICIDAD  
Referencia  contrato  5060686185733  
Periodo  de facturación  29/01/1996  - 28/02/1996   
Fecha  factura  01 de marzo de 1996  
Nº factura  Y8423563212  
IMPORTE  FACTURA  148,04  € 
Remite: ELECTRICIDAD ELEIA S.L. Apartado de Correos XXXXX 28016 MADRID  
1 ADRIANA ORTIZ PINEDA  
 
Calle de Valencia  
 
33779 Santa Eulalia de Oscos (Asturias)  DATOS  DEL CLIENTE  
ADRIANA ORTIZ PINEDA  
NIF 34869317Y  
Calle de Valencia  
33779 Santa Eulalia de Oscos (Asturias)  
Forma  de pago  Domiciliada  
Fecha  límite de pago:  04 de marzo de 1996  
2 FACTURACIÓN  
EUROS  
ENERGÍA  
Potencia  contratada  ¿Cuál es el destino de lo que paga en su  
factura?  
De los 148,04  € de su factura, XX ,XX € 
están  destinados  al pago  de impuestos  y 
otros  recargos establecidos por la normativa 
en vigor,  ajenos  al suministro


In [9]:
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores import FAISS
import logging

class BuscadorDocumentos:
    def __init__(self):
        self.embeddings = OpenAIEmbeddings()
        self.docsearch = None  # Se inicializará después con los textos
    
    def inicializar_busqueda(self, texts):
        """
        Inicializa el motor de búsqueda FAISS con los textos proporcionados.
        """
        try:
            self.docsearch = FAISS.from_texts(texts, self.embeddings)
            logging.info("Motor de búsqueda FAISS inicializado con éxito.")
        except Exception as e:
            logging.error(f"Error al inicializar FAISS: {e}")
            self.docsearch = None
    
    def buscar(self, query, top_n=5, search_type='similarity'):
        """
        Realiza una búsqueda en el motor FAISS y devuelve los top_n resultados.
        Se espera que search_type sea 'similarity' o 'mmr'.
        """
        if not self.docsearch:
            logging.error("Motor de búsqueda FAISS no inicializado.")
            return []
        try:
            resultados = self.docsearch.search(query, top_n=top_n, search_type=search_type)
            logging.info(f"Búsqueda realizada con éxito. {len(resultados)} resultados encontrados.")
            return resultados
        except Exception as e:
            logging.error(f"Error durante la búsqueda: {e}")
            return []

In [10]:
# Integración con el flujo de trabajo
# Suponiendo que `segmentos_texto` contiene los textos divididos obtenidos anteriormente

buscador = BuscadorDocumentos()
buscador.inicializar_busqueda(segmentos_texto)

# Realizar una búsqueda de ejemplo
resultados_busqueda = buscador.buscar("Consulta de ejemplo", top_n=3)
if resultados_busqueda:
    print("Resultados de la búsqueda:", resultados_busqueda)
else:
    print("No se encontraron resultados.")

  warn_deprecated(
2024-02-19 12:09:09,184 - INFO - Loading faiss.
2024-02-19 12:09:09,291 - INFO - Successfully loaded faiss.
2024-02-19 12:09:09,301 - INFO - Motor de búsqueda FAISS inicializado con éxito.
2024-02-19 12:09:09,538 - INFO - Búsqueda realizada con éxito. 4 resultados encontrados.


Resultados de la búsqueda: [Document(page_content='300 \n150 \nkWh \nFb.   Ab.   Jn.   Ag.   Oc.   Dc.   Fb. \n12 13 \nConsumo  medio  bimestral:  XXX kWh \nPrecio  medio  (sin IVA) Mes actual:  X,XX €/kWh  \n5 INFORMACIÓN  DE UTILIDAD  \nEl Real  Decreto 1955/2000  obliga  a informar  a nuestros clientes  con carácter anual  sobre  el importe  \ncorrespondiente  a las tarifas  de acceso  a redes.  En su caso,  entre  las fechas  de lectura  de contadores  \nXX/XX/20XX y XX /XX/20XX, el coste, sin impuestos, ha ascendido a XXX,XX  EUR, distribuidos del  \nsiguiente  modo:  \n- Término  de energía:  XX,XX \n- Término  de potencia:  XXX,XX \n- Excesos  de potencia:  X \n- Energía  reactiva:  X \nA estos importes les son aplicables el Impuesto Eléctrico y el I.V.A sobre el total (Impuesto Eléctrico  \nincluido).  \nEstos  valores  son puramente  informativos  y no representan  ningún  incremento  de coste  para Vd. ya \nque están  englobados  en la factura  de energía  que recoge  los pre

In [11]:
from langchain.chains.question_answering import load_qa_chain
from langchain.llms import OpenAI


class ProcesadorQA:
    def __init__(self, buscador_documentos):
        self.buscador_documentos = buscador_documentos
        self.chain = load_qa_chain(OpenAI(), chain_type="stuff")
    
    def ejecutar_qa(self, query):
        """
        Ejecuta una consulta de preguntas y respuestas utilizando documentos
        relevantes obtenidos a través de una búsqueda de similitud.
        """
        try:
            # Realiza una búsqueda de similitud para encontrar documentos relevantes
            docs = self.buscador_documentos.docsearch.similarity_search(query)
            # Ejecuta la cadena QA con la pregunta y los documentos encontrados
            resultado = self.chain.run(question=query, input_documents=docs)
            logging.info("Consulta de QA ejecutada con éxito.")
            return resultado
        except Exception as e:
            logging.error(f"Error al ejecutar la consulta de QA: {e}")
            return None

In [12]:
# Creación y uso de ProcesadorQA
procesador_qa = ProcesadorQA(buscador)
resultado_qa = procesador_qa.ejecutar_qa(query="¿Cuál es el total de la factura?")

if resultado_qa:
    print("Resultado de la consulta QA:", resultado_qa)
else:
    print("No se pudo ejecutar la consulta de QA.")

2024-02-19 12:09:16,444 - INFO - Consulta de QA ejecutada con éxito.


Resultado de la consulta QA:  El total de la factura es de 148,04 euros.


In [13]:
# Otra consulta de ejemplo

resultado_qa_2 = procesador_qa.ejecutar_qa(query="¿Cual es la empresa que emite la factura?")
if resultado_qa_2:
    print("Resultado de la consulta QA:", resultado_qa_2)
else:
    print("No se pudo ejecutar la consulta de QA.")

2024-02-19 12:09:22,912 - INFO - Consulta de QA ejecutada con éxito.


Resultado de la consulta QA:  ELECTRICIDAD ELEIA S.L.


In [14]:
# Otra consulta de ejemplo

resultado_qa_3 = procesador_qa.ejecutar_qa(query="Haz un resumen completo de la factura.")
if resultado_qa_3:
    print("Resultado de la consulta QA:", resultado_qa_3)
else:
    print("No se pudo ejecutar la consulta de QA.")

2024-02-19 12:09:29,885 - INFO - Consulta de QA ejecutada con éxito.


Resultado de la consulta QA:  La factura es de la empresa ELECTRICIDAD ELEIA S.L. y corresponde al periodo de facturación del 29/01/1996 al 28/02/1996. La fecha de la factura es el 01 de marzo de 1996 y su número es Y8423563212. El importe a pagar es de 148,04 € y la forma de pago es domiciliada con fecha límite de pago el 04 de marzo de 1996. El destino de lo que se paga en la factura es el pago de impuestos y otros recargos establecidos por la normativa en vigor. La factura incluye información sobre el consumo medio bimestral (XXX kWh) y el precio medio por kWh (X,XX €/kWh). También se detalla el importe correspondiente a las tarifas de acceso a redes (XXX,XX EUR). La empresa se ha adherido al Sistema Arbitral de Consumo y los precios se han actualizado con la variación del IPC de 20XX. En la factura se incluyen además datos del contrato, como la potencia contratada, el CUPS y la tarifa, y el historial de consumo.


In [15]:
# Este diccionario acumulará las preguntas y sus respuestas

import json

# Realiza las consultas con ProcesadorQA
preguntas = [
    "¿Cuál es el nombre del cliente?",
    "¿Cuál es el DNI del cliente?",
    "¿Cuál es la calle del cliente?",
    "¿Cuál es el código postal del cliente?",
    "¿Cuál es la población del cliente?",
    "¿Cuál es la provincia del cliente?",
    "¿Cuál es el nombre de la empresa comercializadora?",
    "¿Cuál es el CIF de la comercializadora?",
    "¿Cuál es la dirección de la comercializadora?",
    "¿Cuál es el código postal de la comercializadora?",
    "¿Cuál es la población de la comercializadora?",
    "¿Cuál es la provincia de la comercializadora?",
    "¿Cuál es el número de factura?",
    "¿Cuál es el inicio del periodo de facturación?",
    "¿Cuál es el fin del periodo de facturación?",
    "¿Cuál es el importe de la factura?",
    "¿Cuál es la fecha del cargo?",
    "¿Cuál es el consumo en el periodo?",
    "¿Cuál es la potencia contratada?"
]

# Diccionario para almacenar las preguntas y sus respuestas
respuestas_dict = {}
for pregunta, i in zip(preguntas, range(len(preguntas))):
    respuesta = procesador_qa.ejecutar_qa(query=pregunta)
    respuestas_dict[i] = {"pregunta": pregunta, "respuesta": respuesta}
    
# Guarda las respuestas en un archivo JSON
with open("respuestas.json", "w") as f:
    json.dump(respuestas_dict, f, indent=4)
    
print("Respuestas guardadas en 'respuestas.json'.")

2024-02-19 12:10:07,004 - INFO - Consulta de QA ejecutada con éxito.
2024-02-19 12:10:07,938 - INFO - Consulta de QA ejecutada con éxito.
2024-02-19 12:10:08,659 - INFO - Consulta de QA ejecutada con éxito.
2024-02-19 12:10:09,727 - INFO - Consulta de QA ejecutada con éxito.
2024-02-19 12:10:10,571 - INFO - Consulta de QA ejecutada con éxito.
2024-02-19 12:10:11,484 - INFO - Consulta de QA ejecutada con éxito.
2024-02-19 12:10:12,272 - INFO - Consulta de QA ejecutada con éxito.
2024-02-19 12:10:13,196 - INFO - Consulta de QA ejecutada con éxito.
2024-02-19 12:10:14,133 - INFO - Consulta de QA ejecutada con éxito.
2024-02-19 12:10:15,099 - INFO - Consulta de QA ejecutada con éxito.
2024-02-19 12:10:16,160 - INFO - Consulta de QA ejecutada con éxito.
2024-02-19 12:10:17,153 - INFO - Consulta de QA ejecutada con éxito.
2024-02-19 12:10:17,800 - INFO - Consulta de QA ejecutada con éxito.
2024-02-19 12:10:18,995 - INFO - Consulta de QA ejecutada con éxito.
2024-02-19 12:10:19,895 - INFO - C

Respuestas guardadas en 'respuestas.json'.


In [16]:
import json

class FormateadorRespuestas:
    def __init__(self, respuestas):
        self.respuestas = respuestas

    def obtener_formato_salida(self):
        """Transforma las respuestas en el formato de salida deseado."""
        return {
            "nombre_cliente": self.respuestas.get("¿Cuál es el nombre del cliente?", "").strip(),
            "dni_cliente": self.respuestas.get("¿Cuál es el DNI del cliente?", "").strip(),
            "calle_cliente": self.respuestas.get("¿Cuál es la calle del cliente?", "").strip(),
            "cp_cliente": self.respuestas.get("¿Cuál es el código postal del cliente?", "").strip(),
            "población_cliente": self.respuestas.get("¿Cuál es la población del cliente?", "").strip(),
            "provincia_cliente": self.respuestas.get("¿Cuál es la provincia del cliente?", "").strip(),
            "nombre_comercializadora": self.respuestas.get("¿Cuál es el nombre de la empresa comercializadora?", "").strip(),
            "cif_comercializadora": self.respuestas.get("¿Cuál es el CIF de la comercializadora?", "").strip(),
            "dirección_comercializadora": self.respuestas.get("¿Cuál es la dirección de la comercializadora?", "").strip(),
            "cp_comercializadora": self.respuestas.get("¿Cuál es el código postal de la comercializadora?", "").strip(),
            "población_comercializadora": self.respuestas.get("¿Cuál es la población de la comercializadora?", "").strip(),
            "provincia_comercializadora": self.respuestas.get("¿Cuál es la provincia de la comercializadora?", "").strip(),
            "número_factura": self.respuestas.get("¿Cuál es el número de factura?", "").strip(),
            "inicio_periodo": self.respuestas.get("¿Cuál es el inicio del periodo de facturación?", "").strip(),
            "fin_periodo": self.respuestas.get("¿Cuál es el fin del periodo de facturación?", "").strip(),
            "importe_factura": self.respuestas.get("¿Cuál es el importe de la factura?", "").strip(),
            "fecha_cargo": self.respuestas.get("¿Cuál es la fecha del cargo?", "").strip(),
            "consumo_periodo": self.respuestas.get("¿Cuál es el consumo en el periodo?", "").strip(),
            "potencia_contratada": self.respuestas.get("¿Cuál es la potencia contratada?", "").strip()
        }

    def guardar_en_archivo(self, archivo_destino):
        """Guarda el formato de salida en un archivo JSON."""
        formato_salida = self.obtener_formato_salida()
        with open(archivo_destino, "w", encoding="utf-8") as f:
            json.dump(formato_salida, f, ensure_ascii=False, indent=4)
        logging.info(f"Formato de salida guardado en '{archivo_destino}'.")

In [17]:
# Después de haber recopilado todas las respuestas en el diccionario 'respuestas'

formateador = FormateadorRespuestas(respuestas_dict)
formateador.guardar_en_archivo("formato_salida.json")

print("El formato de salida se ha guardado correctamente.")

2024-02-19 12:10:30,507 - INFO - Formato de salida guardado en 'formato_salida.json'.


El formato de salida se ha guardado correctamente.
