In [1]:
from PyPDF2 import PdfReader
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import ElasticVectorSearch, Pinecone, Weaviate, FAISS
from langchain.prompts import PromptTemplate
from langchain.llms import OpenAI
import logging
from langchain.chains import LLMChain
import os
import time

# Configuración del logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

def tiempo_de_ejecucion(func):
    """
    Decorador que registra el tiempo de ejecución de una función.
    """
    def wrapper(*args, **kwargs):
        inicio = time.time()
        resultado = func(*args, **kwargs)
        fin = time.time()
        logging.info(f"{func.__name__} tomó {fin - inicio} segundos en ejecutarse.")
        return resultado
    return wrapper

In [2]:
# Example usage
os.environ['OPENAI_API_KEY'] = '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'
pdf_path = '/Users/adrianinfantes/Desktop/AIR/CollegeStudies/MachineLearningPath/Udemy/LangChainCourse/LangChainCourse/data/training/factura_0.pdf'

export OPENAI_API_KEY='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'

In [3]:
class MiProcesadorNLP:
    def __init__(self, temperatura=0.5, max_tokens=100, top_p=1.0, frequency_penalty=0.0, presence_penalty=0.0):
        self.template = """{question}"""
        self.prompt = PromptTemplate(input_variables=["question"], template=self.template)
        self.llm = OpenAI(temperature=temperatura, max_tokens=max_tokens, top_p=top_p, frequency_penalty=frequency_penalty, presence_penalty=presence_penalty)
        self.chain = LLMChain(llm=self.llm, prompt=self.prompt)
        
    @tiempo_de_ejecucion
    def ejecutar(self, question):
        return self.chain.run(question=question)

In [4]:
procesador = MiProcesadorNLP()
resultado = procesador.ejecutar(question="¿Cuál es la capital de Francia?")
logging.info(f"Resultado: {resultado}")

  warn_deprecated(
  warn_deprecated(
2024-02-09 18:07:27,810 - INFO - ejecutar tomó 0.4764878749847412 segundos en ejecutarse.
2024-02-09 18:07:27,811 - INFO - Resultado: 

La capital de Francia es París.


In [5]:
from PyPDF2 import PdfReader
import logging

# Configuración del logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

class ProcesadorPDF:
    def __init__(self, ruta_archivo):
        self.ruta_archivo = ruta_archivo
    
    def extraer_texto(self):
        """
        Abre un PDF y extrae todo el texto.
        """
        try:
            reader = PdfReader(self.ruta_archivo)
            raw_text = ""
            for page in reader.pages:
                raw_text += page.extract_text() or ""  # Añade un string vacío si extract_text es None
            logging.info("Texto extraído del PDF con éxito.")
            return raw_text
        except Exception as e:
            logging.error(f"Error al extraer texto del PDF: {e}")
            return None

In [6]:
# Uso de ProcesadorPDF para leer y procesar el texto de un PDF

procesador_pdf = ProcesadorPDF(ruta_archivo=pdf_path)
texto_pdf = procesador_pdf.extraer_texto()

if texto_pdf:
    print(texto_pdf)
else:
    print("No se pudo extraer texto del PDF.")

2024-02-09 18:07:32,411 - INFO - Texto extraído del PDF con éxito.


DATOS  DE LA FACTURA  
Nº factura:  SV5043664894  
Referencia:  591313314378/6522  
Fecha  emisión  factura:  27/09/2018  
Periodo  de Facturación:  del 26/08/2018  a 25/09/2018  (30 días)  
Fecha  de cargo:  30 de septiembre de 2018  
............................................................................................................................. .......................................  
IBERDESA COMERCIALIZADORA SOCIEDAD LIMITADA . 
CIF B90393497 . 
CRT.SEVILLA -MADRID, KM 524, CAMINO DE LA PASTORA S/N  41410  - CARMONA  Conrado Daniel Iglesias   
Calle la Solana  
22394  La Fueva  
Huesca  
Forma  de pago:  Domiciliada  Potencia  
Energía  
Descuentos  
Otros  
Impuestos  
IGIC  reducido  16,80  € 
0,00 € 
-X,XX € 
0,80 € 
0,86 € 
1,24 € Fecha  de cargo:  30 de septiembre de 2018  
IBAN:  ES31873903585096496*****  
Cod.Mandato:  E88656958265427260292185691  
( 7%) 
Versión:  4779  IGIC  normal  ( 10%) 0,08 € 
..............................................................

In [7]:
from langchain.text_splitter import CharacterTextSplitter
import logging

class SeparadorTexto:
    def __init__(self, separator=".", chunk_size=1000, chunk_overlap=200):
        self.text_splitter = CharacterTextSplitter(
            separator=separator,
            chunk_size=chunk_size,
            chunk_overlap=chunk_overlap,
            length_function=len,
        )
    
    def dividir_texto(self, texto):
        """
        Divide el texto en segmentos más pequeños basados en la configuración inicial.
        """
        try:
            texts = self.text_splitter.split_text(texto)
            logging.info(f"Texto dividido en {len(texts)} segmentos.")
            return texts
        except Exception as e:
            logging.error(f"Error al dividir texto: {e}")
            return []

In [8]:
# Integración con el flujo de trabajo

if texto_pdf:
    separador = SeparadorTexto()
    segmentos_texto = separador.dividir_texto(texto_pdf)
    
    if segmentos_texto:
        # Procesar cada segmento con `MiProcesadorNLP` u otra lógica específica
        # Por ejemplo, imprimir el primer segmento
        print(segmentos_texto[0])
    else:
        print("No se pudo dividir el texto.")
else:
    print("No se pudo extraer texto del PDF.")

2024-02-09 18:07:36,234 - INFO - Texto dividido en 8 segmentos.


DATOS  DE LA FACTURA  
Nº factura:  SV5043664894  
Referencia:  591313314378/6522  
Fecha  emisión  factura:  27/09/2018  
Periodo  de Facturación:  del 26/08/2018  a 25/09/2018  (30 días)  
Fecha  de cargo:  30 de septiembre de 2018  
. .  
IBERDESA COMERCIALIZADORA SOCIEDAD LIMITADA . 
CIF B90393497 . 
CRT.SEVILLA -MADRID, KM 524, CAMINO DE LA PASTORA S/N  41410  - CARMONA  Conrado Daniel Iglesias   
Calle la Solana  
22394  La Fueva  
Huesca  
Forma  de pago:  Domiciliada  Potencia  
Energía  
Descuentos  
Otros  
Impuestos  
IGIC  reducido  16,80  € 
0,00 € 
-X,XX € 
0,80 € 
0,86 € 
1,24 € Fecha  de cargo:  30 de septiembre de 2018  
IBAN:  ES31873903585096496*****  
Cod.Mandato:  E88656958265427260292185691  
( 7%) 
Versión:  4779  IGIC  normal  ( 10%) 0,08 € 
.


In [9]:
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores import FAISS
import logging

class BuscadorDocumentos:
    def __init__(self):
        self.embeddings = OpenAIEmbeddings()
        self.docsearch = None  # Se inicializará después con los textos
    
    def inicializar_busqueda(self, texts):
        """
        Inicializa el motor de búsqueda FAISS con los textos proporcionados.
        """
        try:
            self.docsearch = FAISS.from_texts(texts, self.embeddings)
            logging.info("Motor de búsqueda FAISS inicializado con éxito.")
        except Exception as e:
            logging.error(f"Error al inicializar FAISS: {e}")
            self.docsearch = None
    
    def buscar(self, query, top_n=5, search_type='similarity'):
        """
        Realiza una búsqueda en el motor FAISS y devuelve los top_n resultados.
        Se espera que search_type sea 'similarity' o 'mmr'.
        """
        if not self.docsearch:
            logging.error("Motor de búsqueda FAISS no inicializado.")
            return []
        try:
            resultados = self.docsearch.search(query, top_n=top_n, search_type=search_type)
            logging.info(f"Búsqueda realizada con éxito. {len(resultados)} resultados encontrados.")
            return resultados
        except Exception as e:
            logging.error(f"Error durante la búsqueda: {e}")
            return []

In [10]:
# Integración con el flujo de trabajo
# Suponiendo que `segmentos_texto` contiene los textos divididos obtenidos anteriormente

buscador = BuscadorDocumentos()
buscador.inicializar_busqueda(segmentos_texto)

# Realizar una búsqueda de ejemplo
resultados_busqueda = buscador.buscar("Consulta de ejemplo", top_n=3)
if resultados_busqueda:
    print("Resultados de la búsqueda:", resultados_busqueda)
else:
    print("No se encontraron resultados.")

  warn_deprecated(
2024-02-09 18:07:44,578 - INFO - Loading faiss.
2024-02-09 18:07:44,604 - INFO - Successfully loaded faiss.
2024-02-09 18:07:44,608 - INFO - Motor de búsqueda FAISS inicializado con éxito.
2024-02-09 18:07:44,917 - INFO - Búsqueda realizada con éxito. 4 resultados encontrados.


Resultados de la búsqueda: [Document(page_content='Mandato:  E88656958265427260292185691  \n( 7%) \nVersión:  4779  IGIC  normal  ( 10%) 0,08 € \n. .  Su pago  se justifica  con el correspondiente  apunte  bancario  \n(Detalle de  la factura en  el reverso)  \nConsumo  en el \nperiodo  punta  Consumo  en el \nperiodo  valle  kWh  Evolución  del consumo  \n770 De 12h a 22h De 22h a 12h \n. .  \nLectura  anterior  660 \n550 (real)  68818  kWh  XXX kWh  \n(26-agosto -2018 ) \n. .  \nLectura actual  440 \n330 \n(real)  68818  kWh  XXX kWh  220 (25-septiembre -2018 ) \n. .  \nConsumo  110 \n0 en el periodo  0 kWh  XXX kWh  \nENE FEB  \nXX     XX \nCons.Valle  Real Media  Cons.Punta  Real \nXX% \nX,XX €/día  en esta factura.  \nX,XX €/día durante los últimos 14 meses.  Consumo  \nacumulado  (último  año):  X.XXX kWh Valle  \nXX% REPARTO  CONSUMO  .  .  IBERDESA COMERCIALIZADORA SOCIEDAD LIMITADA. Inscrita en el Registro Mercantil de SEVILLA, tomo 179, folio 69, sección 2, \nhoja número M -17

In [11]:
from langchain.chains.question_answering import load_qa_chain
from langchain.llms import OpenAI


class ProcesadorQA:
    def __init__(self, buscador_documentos):
        self.buscador_documentos = buscador_documentos
        self.chain = load_qa_chain(OpenAI(), chain_type="stuff")
    
    def ejecutar_qa(self, query):
        """
        Ejecuta una consulta de preguntas y respuestas utilizando documentos
        relevantes obtenidos a través de una búsqueda de similitud.
        """
        try:
            # Realiza una búsqueda de similitud para encontrar documentos relevantes
            docs = self.buscador_documentos.docsearch.similarity_search(query)
            # Ejecuta la cadena QA con la pregunta y los documentos encontrados
            resultado = self.chain.run(question=query, input_documents=docs)
            logging.info("Consulta de QA ejecutada con éxito.")
            return resultado
        except Exception as e:
            logging.error(f"Error al ejecutar la consulta de QA: {e}")
            return None

In [12]:
# Creación y uso de ProcesadorQA
procesador_qa = ProcesadorQA(buscador)
resultado_qa = procesador_qa.ejecutar_qa(query="¿Cuál es el total de la factura?")

if resultado_qa:
    print("Resultado de la consulta QA:", resultado_qa)
else:
    print("No se pudo ejecutar la consulta de QA.")

2024-02-09 18:07:50,025 - INFO - Consulta de QA ejecutada con éxito.


Resultado de la consulta QA:  El total de la factura es de 19,78 euros.


In [13]:
# Otra consulta de ejemplo

resultado_qa_2 = procesador_qa.ejecutar_qa(query="¿Cual es la empresa que emite la factura?")
if resultado_qa_2:
    print("Resultado de la consulta QA:", resultado_qa_2)
else:
    print("No se pudo ejecutar la consulta de QA.")

2024-02-09 18:07:53,384 - INFO - Consulta de QA ejecutada con éxito.


Resultado de la consulta QA:  IBERDESA COMERCIALIZADORA SOCIEDAD LIMITADA.


In [14]:
# Otra consulta de ejemplo

resultado_qa_3 = procesador_qa.ejecutar_qa(query="Haz un resumen completo de la factura.")
if resultado_qa_3:
    print("Resultado de la consulta QA:", resultado_qa_3)
else:
    print("No se pudo ejecutar la consulta de QA.")

2024-02-09 18:07:57,404 - INFO - Consulta de QA ejecutada con éxito.


Resultado de la consulta QA: 

La factura tiene los siguientes datos: número de factura, referencia, fecha de emisión, periodo de facturación, fecha de cargo, forma de pago, y un resumen de los conceptos de impuestos, descuentos y otros costos. También incluye el IBAN y el código del mandato para el pago, así como el consumo de energía en los periodos pico y valle. Se mencionan los precios de los términos del peaje de acceso y del alquiler de los equipos de medida y control. Se actualizan los precios de la energía en enero de cada año. Se indica el consumo en el periodo actual y en el anterior, así como el consumo acumulado en el último año. Se incluye información sobre el contrato de suministro y el CUPS. El destino del importe de la factura es para el pago de la luz, incluyendo el costo de la potencia contratada y los peajes de acceso, así como otros costos regulados. Se menciona que puede haber un costo adicional por el alquiler de los equipos de medida y control y otros conceptos n

In [16]:
# Este diccionario acumulará las preguntas y sus respuestas

import json

# Realiza las consultas con ProcesadorQA
preguntas = [
    "¿Cuál es el nombre del cliente?",
    "¿Cuál es el DNI del cliente?",
    "¿Cuál es la calle del cliente?",
    "¿Cuál es el código postal del cliente?",
    "¿Cuál es la población del cliente?",
    "¿Cuál es la provincia del cliente?",
    "¿Cuál es el nombre de la empresa comercializadora?",
    "¿Cuál es el CIF de la comercializadora?",
    "¿Cuál es la dirección de la comercializadora?",
    "¿Cuál es el código postal de la comercializadora?",
    "¿Cuál es la población de la comercializadora?",
    "¿Cuál es la provincia de la comercializadora?",
    "¿Cuál es el número de factura?",
    "¿Cuál es el inicio del periodo de facturación?",
    "¿Cuál es el fin del periodo de facturación?",
    "¿Cuál es el importe de la factura?",
    "¿Cuál es la fecha del cargo?",
    "¿Cuál es el consumo en el periodo?",
    "¿Cuál es la potencia contratada?"
]

# Diccionario para almacenar las preguntas y sus respuestas
respuestas_dict = {}
for pregunta, i in zip(preguntas, range(len(preguntas))):
    respuesta = procesador_qa.ejecutar_qa(query=pregunta)
    respuestas_dict[i] = {"pregunta": pregunta, "respuesta": respuesta}
    
# Guarda las respuestas en un archivo JSON
with open("respuestas.json", "w") as f:
    json.dump(respuestas_dict, f, indent=4)
    
print("Respuestas guardadas en 'respuestas.json'.")

2024-02-09 18:10:25,529 - INFO - Consulta de QA ejecutada con éxito.
2024-02-09 18:10:26,352 - INFO - Consulta de QA ejecutada con éxito.
2024-02-09 18:10:27,104 - INFO - Consulta de QA ejecutada con éxito.
2024-02-09 18:10:27,661 - INFO - Consulta de QA ejecutada con éxito.
2024-02-09 18:10:28,551 - INFO - Consulta de QA ejecutada con éxito.
2024-02-09 18:10:29,677 - INFO - Consulta de QA ejecutada con éxito.
2024-02-09 18:10:30,495 - INFO - Consulta de QA ejecutada con éxito.
2024-02-09 18:10:31,415 - INFO - Consulta de QA ejecutada con éxito.
2024-02-09 18:10:32,274 - INFO - Consulta de QA ejecutada con éxito.
2024-02-09 18:10:33,236 - INFO - Consulta de QA ejecutada con éxito.
2024-02-09 18:10:33,981 - INFO - Consulta de QA ejecutada con éxito.
2024-02-09 18:10:34,585 - INFO - Consulta de QA ejecutada con éxito.
2024-02-09 18:10:35,410 - INFO - Consulta de QA ejecutada con éxito.
2024-02-09 18:10:36,129 - INFO - Consulta de QA ejecutada con éxito.
2024-02-09 18:10:36,845 - INFO - C

Respuestas guardadas en 'respuestas.json'.
