In [None]:
import streamlit as st
from pdfminer.high_level import extract_text
from reportlab.lib.pagesizes import letter, landscape
from reportlab.pdfgen import canvas
from reportlab.lib import pdfencrypt
from reportlab.platypus import SimpleDocTemplate, Paragraph, Spacer
from reportlab.lib.styles import getSampleStyleSheet, ParagraphStyle
from reportlab.lib.units import inch
from reportlab.rl_config import defaultPageSize
from reportlab.platypus import SimpleDocTemplate, PageBreak
import openai
import os
from io import BytesIO
import re

class DocumentPreprocessor:

    def __init__():

        openai.api_key = st.secrets["OPENAI_API_KEY"]

    def extract_text_from_pdf(input_pdf_file):
        """
        Extract text from each page of the input PDF using PDFMiner.
        """
        return extract_text(input_pdf_file)

    def delete_page_breaks(input_string: str) -> str:
        """
        Deletes the page breaks of a string
        """
        return input_string.replace("\n", "")

    def process_pdf_text(input_string: str) -> str:
        """
        Process PDF text by deleting the header and adding page titles to sections.
        Return: List of tuples, where each tuple contains (section title, section text)
        """
        lines = input_string.split('\n\n')

        # Initialize variables to track page boundaries and page titles
        page_start = 0

        result_sections = []  # List to store section texts

        # Get the title from the 3rd line of the page 1
        title = lines[page_start + 1]
        title = title.strip()  # Update the current page title

        i = 0
        current_section_title = ""
        current_section_text = ""

        while i < len(lines):
            # Check if the line contains "Continúa en la página siguiente"
            if lines[i] == "-Continúa en la página siguiente.- ":
                # Skip this line as it's a page break indicator
                i += 1
                continue
            
            #Remove header 
            if 'FICHA DE DATOS DE SEGURIDAD' in lines[i]:
                # Skip this line as it's a page header indicator
                i += 6
                continue

            # Process and modify section titles
            if lines[i].startswith("SECCIÓN"):
                section_title = lines[i].strip()
                # Add the page title as a prefix to the section title
                modified_section_title = f"{section_title} DE {title}"
                
                # Store the previous section text if it's not empty
                if current_section_title and current_section_text:
                    result_sections.append((current_section_title, current_section_text))
                
                # Initialize the current section title and text with the modified title
                current_section_title = modified_section_title
                current_section_text = ""
            else:
                # Append the line to the current section text
                current_section_text += "\n\n" + lines[i]

            i += 1
            
        # Append the last section to the result list
        if current_section_title and current_section_text:
            result_sections.append((current_section_title, current_section_text))

        return result_sections

    def get_message_history() -> dict:
        """
        Returns the context for chatgpt depending for sumarization
        """

        message_history = [
            {
                "role": "user",
                "content": "Te voy a dar el texto contenido en una sección de una ficha tecnica de un producto quimico. Necesito que compactes el texto en un solo parrafo sin perder informacion." 
            },
            {
                "role": "assistant",
                "content": "Claro, estaré encantado de ayudarte a resumir el texto de la ficha técnica del producto químico. Por favor, proporciona el texto que deseas que resuma y lo compactaré en un solo párrafo sin perder información."
            }
        ]

        return message_history

    def chat_sections(self, sections):
        summarized_sections = []
        for section_title, section_text in sections:
            print(f"Summarizing {section_title}")
            
            # Set message history with the context and section text
            message_history = self.get_message_history()
            message_history.append({"role": "user", "content": section_text})
            
            # Use the large models for summarization:
            completion = openai.ChatCompletion.create(
                model="gpt-4",
                messages=message_history
            )
            
            reply_content = completion.choices[0].message.content
            
            # Append the original section title and summarized content to the list
            summarized_sections.append((section_title, reply_content))
        
        return summarized_sections

    def create_pdf_with_summarized_sections(sections, output_pdf_file):
        # Define the page size and margins
        page_width, page_height = letter
        left_margin = 0.75 * inch
        right_margin = 0.75 * inch
        top_margin = 0.75 * inch
        bottom_margin = 0.75 * inch

        # Create a PDF document with specified margins
        doc = SimpleDocTemplate(output_pdf_file, pagesize=(page_width, page_height),
                                leftMargin=left_margin, rightMargin=right_margin,
                                topMargin=top_margin, bottomMargin=bottom_margin)

        # Create a list of paragraphs to hold the text
        story = []

        # Define styles for paragraphs (you can customize as needed)
        styles = getSampleStyleSheet()
        normal_style = styles["Normal"]
        normal_style.leading = 12  # Line spacing

        for section_title, section_content in sections:
            # Add the section title as a heading
            section_title_paragraph = Paragraph(section_title, normal_style)
            story.append(section_title_paragraph)

            # Split the section content into paragraphs
            paragraphs = section_content.split("\n\n")

            for paragraph in paragraphs:
                # Clean up any extra spaces and line breaks
                paragraph = paragraph.strip()
                paragraph = re.sub(r'\s+', ' ', paragraph)

                # Create a Paragraph object and add it to the story
                story.append(Paragraph(paragraph, normal_style))

            # Add a spacer between sections
            story.append(Spacer(1, 0.2 * inch))

        # Build the PDF document
        doc.build(story)

    def transform_pdf(self, input_pdf_file, output_pdf_file):
        # Extract all the text:
        extracted_text = self.extract_text_from_pdf(input_pdf_file)

        #Process pdf text and split in sections
        extracted_text_per_section = self.process_pdf_text(extracted_text)

        # Set message history with the context:
        print(f"Summarizing {input_pdf_file}...")
        
        # Sumarize the text sections in one paragraph with chatgpt:
        summarized_sections  = self.chat_sections(extracted_text_per_section)

        # Create the pdf using the summarized sections text:
        self.create_pdf_with_summarized_sections(summarized_sections, output_pdf_file)

In [None]:
document_preprocessor = DocumentPreprocessor()

input_directory = "original_docs"
output_directory = "data"

for idx, original_file in enumerate(os.listdir(input_directory)):
    # Transform PDF 
    print(f'Transforming file {original_file}')
    input_path = os.path.join(input_directory, original_file)
    output_path = os.path.join(output_directory, original_file)
    document_preprocessor.transform_pdf(input_path, output_path)

In [65]:
import os 
import openai
from langchain.document_loaders import PyPDFLoader

# Tutorial langchain
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.vectorstores import Chroma, FAISS
from langchain.text_splitter import CharacterTextSplitter
from langchain.schema import Document

In [66]:
def pretty_print_docs(docs):
    print(f"\n{'-' * 100}\n".join([f"Document {i+1}:\n\n" + d.page_content for i, d in enumerate(docs)]))

In [17]:
# documents = []
# for file in os.listdir("data"):
#     pdf_path = "./data/" + file
#     loader = PyPDFLoader(pdf_path)
#     documents.extend(loader.load())

# text_splitter = CharacterTextSplitter(chunk_size=10000, chunk_overlap=200) # chunk_size=1000, chunk_overlap=200
# documents = text_splitter.split_documents(documents)

# embeddings = OpenAIEmbeddings(openai_api_key="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")
# chroma_vectorstore = Chroma.from_documents(documents, embeddings)

In [74]:
documents = []
for file in os.listdir("data_by_sections"):
    pdf_path = "./data_by_sections/" + file
    loader = PyPDFLoader(pdf_path)
    documents.extend(loader.load())

text_splitter = CharacterTextSplitter(chunk_size=200, chunk_overlap=50) # chunk_size=1000, chunk_overlap=200
documents = text_splitter.split_documents(documents)

embeddings = OpenAIEmbeddings(openai_api_key="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")
fais_vectorstore = FAISS.from_documents(documents, embeddings)

In [75]:
#OpenAiEmbeddings + Chroma Vectorstore + similarity search
query = "Que productos son peligrosos para los ojos?"
docs = fais_vectorstore.similarity_search_with_score(query=query, k=10)
#pretty_print_docs(docs)

#query = "¿Qué producto químico causa irritación en los ojos?"
#docs = chroma_vectorstore.search(query=query, search_type="mmr",k=1)
#print(docs[0].page_content)

In [95]:
docs[0][0]

Document(page_content='SECCIÓN 2\nIDENTIFICACIÓN DE LOS PELIGROS. DE AAR315-4+2+6 EXTRA NA-V FERTIGOTA\nSegún el Reglamento (CE) No 1272/2008, esta sustancia o mezcla se clasifica como Eye Dam.1, lo cual\nsignifica que puede provocar lesiones oculares graves, y como Skin Corr.1, lo cual implica que puede provocar\nquemaduras graves en la piel y lesiones oculares graves. El etiquetado conforme a este reglamento incluye los\npictogramas y la palabra de advertencia "Peligro". Las indicaciones de peligro específicas son que esta\nsustancia provoca quemaduras graves en la piel y lesiones oculares graves. Se proporcionan consejos de\nprudencia, como no respirar el polvo, el humo, el gas, la niebla, los vapores o el aerosol, lavarse las manos y\ncualquier parte del cuerpo que haya estado en contacto con el producto, y usar guantes, ropa de protección y\nequipo de protección para los ojos, la cara y los oídos. Se mencionan también las acciones a tomar en caso de\ncontacto con la piel o los ojo

In [94]:
docs[0][0].metadata["source"]

'./data_by_sections/AAR315 - 4+2+6 EXTRA NA-V FERTIGOTA  Seccion_2.pdf'

# Creator of seccion pdfs:

In [57]:
import re
import PyPDF2
from reportlab.lib.pagesizes import letter
from reportlab.pdfgen import canvas
from pdfminer.high_level import extract_text

# Función para extraer las secciones
def extraer_secciones(texto):
    patron_seccion = r"SECCIÓN \d+:"
    matches = list(re.finditer(patron_seccion, texto))
    secciones = []
    for i in range(len(matches)):
        start = matches[i].end()
        end = matches[i + 1].start() if i + 1 < len(matches) else len(texto)
        secciones.append(texto[start:end].strip())
    return secciones

# Función para crear un PDF para cada sección
def crear_pdf_por_seccion(secciones, product_name):
    for i, seccion in enumerate(secciones, start=1):
        pdf_name = f"data_by_sections/{product_name} Seccion_{i}.pdf"
        c = canvas.Canvas(pdf_name, pagesize=letter)
        c.drawString(72, 720, f"SECCIÓN {i}")
        text = c.beginText(72, 700)
        text.textLines(seccion)
        c.drawText(text)
        c.save()
        print(f"PDF creado: {pdf_name}")

def get_product_name(ruta_pdf):
    return ruta_pdf.replace("data/", "").replace("(Español).pdf", "")

# Ruta del archivo PDF
# ruta_pdf = 'data/AAR315 - 4+2+6 AZUFRE NA FERTIGOTA (Español).pdf'
# product_name = get_product_name(ruta_pdf)

# Procesamiento
for ruta_pdf in os.listdir("data"):
    texto_pdf = extract_text(f"data/{ruta_pdf}")
    product_name = get_product_name(ruta_pdf)
    secciones = extraer_secciones(texto_pdf)
    crear_pdf_por_seccion(secciones, product_name)

PDF creado: data_by_sections/BOB660 - 15+6+15 FERTIGOTA SUSPENSION  Seccion_1.pdf
PDF creado: data_by_sections/BOB660 - 15+6+15 FERTIGOTA SUSPENSION  Seccion_2.pdf
PDF creado: data_by_sections/BOB660 - 15+6+15 FERTIGOTA SUSPENSION  Seccion_3.pdf
PDF creado: data_by_sections/BOB660 - 15+6+15 FERTIGOTA SUSPENSION  Seccion_4.pdf
PDF creado: data_by_sections/BOB660 - 15+6+15 FERTIGOTA SUSPENSION  Seccion_5.pdf
PDF creado: data_by_sections/BOB660 - 15+6+15 FERTIGOTA SUSPENSION  Seccion_6.pdf
PDF creado: data_by_sections/BOB660 - 15+6+15 FERTIGOTA SUSPENSION  Seccion_7.pdf
PDF creado: data_by_sections/BOB660 - 15+6+15 FERTIGOTA SUSPENSION  Seccion_8.pdf
PDF creado: data_by_sections/BOB660 - 15+6+15 FERTIGOTA SUSPENSION  Seccion_9.pdf
PDF creado: data_by_sections/BOB660 - 15+6+15 FERTIGOTA SUSPENSION  Seccion_10.pdf
PDF creado: data_by_sections/BOB660 - 15+6+15 FERTIGOTA SUSPENSION  Seccion_11.pdf
PDF creado: data_by_sections/BOB660 - 15+6+15 FERTIGOTA SUSPENSION  Seccion_12.pdf
PDF creado: d

['BOB660 - 15+6+15 FERTIGOTA SUSPENSION (Español).pdf',
 'BNW668 - 8+24+0 FERTIGOTA SATURADA (Español).pdf',
 'AAR315 - 4+2+6 EXTRA NA-V FERTIGOTA (Español).pdf',
 'BOE607 - 6+10+12 HEROSOL MULTICOLOR (Español).pdf',
 'AAR315 - 4+2+6 AZUFRE NA FERTIGOTA (Español).pdf']

# Begining chunks test

In [39]:
documents = []
chunks_mapping = []

for file in os.listdir("data"):
    pdf_path = "./data/" + file
    loader = PyPDFLoader(pdf_path)
    document_chunks = loader.load()
    for chunk in document_chunks:
        documents.append(chunk)
        chunks_mapping.append({"file": file, "chunk": chunk})

In [40]:
chunks_mapping

[{'file': 'BOB660 - 15+6+15 FERTIGOTA SUSPENSION (Español).pdf',
  'chunk': Document(page_content='SECCIÓN 1: IDENTIFICACIÓN DE LA SUSTANCIA O LA MEZCLA Y DE LA SOCIEDAD O LA EMPRESA. DE\nBOB660-15+6+15 FERTIGOTA SUSPENSION\nEl producto químico, 15+6+15 FERTIGOTA SUSPENSION (código BOB660), es un fertilizante utilizado en\ndiversos usos agrícolas. Se desaconseja utilizarlo para otros fines distintos a los recomendados. Los datos del\nproveedor de la ficha de datos de seguridad son los siguientes: HEROGRA FERTILIZANTES S.A, ubicada en\nPolígono Juncaril C/Loja S/N, 18220 - Albolote, Granada. Los medios de contacto son: teléfono\n+34958490007, fax 958490139, email info@herogra.com y la página web www.herografertilizantes.com. En\ncaso de emergencia, se puede contactar al teléfono 915620420, disponible las 24 horas.\nSECCIÓN 2: IDENTIFICACIÓN DE LOS PELIGROS. DE BOB660-15+6+15 FERTIGOTA SUSPENSION\nEl producto químico no está clasificado como peligroso según el Reglamento (UE) No 1272/200

In [98]:
"aa" not in ["aa", "hh", "f"]

False

In [None]:
text_splitter = CharacterTextSplitter(chunk_size=200, chunk_overlap=50)
chunked_documents = text_splitter.split_documents(documents)

embeddings = OpenAIEmbeddings(openai_api_key="your_api_key")
fais_vectorstore = FAISS.from_documents(chunked_documents, embeddings)

query = "Dame los códigos de todos los productos"
search_results = fais_vectorstore.search(query=query, search_type="similarity", k=3)

# Retrieve the original chunks based on search results
for result in search_results:
    chunk_id = result['id']
    original_chunk = chunks_mapping[chunk_id]['chunk']
    print(original_chunk)

# End chunks test

In [27]:
query = "¿Que productos pueden provocar lesiones oculares?"
docs = fais_vectorstore.similarity_search_with_score(query=query, k=5)
docs

[(Document(page_content='capa de ozono, la Directiva 2012/18/UE (SEVESO III), el Reglamento (UE) No 528/2012 sobre biocidas y el\nReglamento (UE) No 649/2012 sobre exportación e importación de productos químicos peligrosos. Además, no\nse ha realizado una evaluación de seguridad química para este producto.\nSECCIÓN 16: OTRA INFORMACIÓN. DE BOE607-6+10+12 HEROSOL MULTICOLOR\nEl producto químico en cuestión es nocivo en caso de ingestión y provoca irritación cutánea y ocular grave.\nAdemás, puede causar daños en los órganos si se expone de forma prolongada o repetida, y es tóxico para los\norganismos acuáticos con efectos nocivos duraderos. Está clasificado como Toxicidad oral aguda (Categoría\n4), Efectos crónicos para el medio ambiente acuático (Categoría 2), Irritación ocular (Categoría 2), Toxicidad\nen determinados órganos tras exposiciones repetidas (Categoría 2) e Irritante cutáneo (Categoría 2). Se han\nrealizado cambios en la composición del producto, se han eliminado datos sobr

In [29]:
docs[0][0].page_content

Document(page_content='capa de ozono, la Directiva 2012/18/UE (SEVESO III), el Reglamento (UE) No 528/2012 sobre biocidas y el\nReglamento (UE) No 649/2012 sobre exportación e importación de productos químicos peligrosos. Además, no\nse ha realizado una evaluación de seguridad química para este producto.\nSECCIÓN 16: OTRA INFORMACIÓN. DE BOE607-6+10+12 HEROSOL MULTICOLOR\nEl producto químico en cuestión es nocivo en caso de ingestión y provoca irritación cutánea y ocular grave.\nAdemás, puede causar daños en los órganos si se expone de forma prolongada o repetida, y es tóxico para los\norganismos acuáticos con efectos nocivos duraderos. Está clasificado como Toxicidad oral aguda (Categoría\n4), Efectos crónicos para el medio ambiente acuático (Categoría 2), Irritación ocular (Categoría 2), Toxicidad\nen determinados órganos tras exposiciones repetidas (Categoría 2) e Irritante cutáneo (Categoría 2). Se han\nrealizado cambios en la composición del producto, se han eliminado datos sobre 

In [22]:
for doc in docs:
    print()

[Document(page_content='capa de ozono, la Directiva 2012/18/UE (SEVESO III), el Reglamento (UE) No 528/2012 sobre biocidas y el\nReglamento (UE) No 649/2012 sobre exportación e importación de productos químicos peligrosos. Además, no\nse ha realizado una evaluación de seguridad química para este producto.\nSECCIÓN 16: OTRA INFORMACIÓN. DE BOE607-6+10+12 HEROSOL MULTICOLOR\nEl producto químico en cuestión es nocivo en caso de ingestión y provoca irritación cutánea y ocular grave.\nAdemás, puede causar daños en los órganos si se expone de forma prolongada o repetida, y es tóxico para los\norganismos acuáticos con efectos nocivos duraderos. Está clasificado como Toxicidad oral aguda (Categoría\n4), Efectos crónicos para el medio ambiente acuático (Categoría 2), Irritación ocular (Categoría 2), Toxicidad\nen determinados órganos tras exposiciones repetidas (Categoría 2) e Irritante cutáneo (Categoría 2). Se han\nrealizado cambios en la composición del producto, se han eliminado datos sobre

In [102]:
#OpenAiEmbeddings + Chroma Vectorstore + mmr search

query = "¿Qué producto químico causa irritación en los ojos?"
docs = chroma_vectorstore.search(query=query, search_type="mmr",k=5)
pretty_print_docs(docs)


Document 1:

capa de ozono, la Directiva 2012/18/UE (SEVESO III), el Reglamento (UE) No 528/2012 sobre biocidas y el
Reglamento (UE) No 649/2012 sobre exportación e importación de productos químicos peligrosos. Además, no
se ha realizado una evaluación de seguridad química para este producto.
SECCIÓN 16: OTRA INFORMACIÓN. DE BOE607-6+10+12 HEROSOL MULTICOLOR
El producto químico en cuestión es nocivo en caso de ingestión y provoca irritación cutánea y ocular grave.
Además, puede causar daños en los órganos si se expone de forma prolongada o repetida, y es tóxico para los
organismos acuáticos con efectos nocivos duraderos. Está clasificado como Toxicidad oral aguda (Categoría
4), Efectos crónicos para el medio ambiente acuático (Categoría 2), Irritación ocular (Categoría 2), Toxicidad
en determinados órganos tras exposiciones repetidas (Categoría 2) e Irritante cutáneo (Categoría 2). Se han
realizado cambios en la composición del producto, se han eliminado datos sobre la exposición y se 

In [109]:
#OpenAiEmbeddings + FAISS Vectorstore + similarity search

query = "¿Qué productos químicos causan irritación en los ojos?"
docs = fais_vectorstore.search(query=query, search_type="similarity",k=5)
pretty_print_docs(docs)


Document 1:

capa de ozono, la Directiva 2012/18/UE (SEVESO III), el Reglamento (UE) No 528/2012 sobre biocidas y el
Reglamento (UE) No 649/2012 sobre exportación e importación de productos químicos peligrosos. Además, no
se ha realizado una evaluación de seguridad química para este producto.
SECCIÓN 16: OTRA INFORMACIÓN. DE BOE607-6+10+12 HEROSOL MULTICOLOR
El producto químico en cuestión es nocivo en caso de ingestión y provoca irritación cutánea y ocular grave.
Además, puede causar daños en los órganos si se expone de forma prolongada o repetida, y es tóxico para los
organismos acuáticos con efectos nocivos duraderos. Está clasificado como Toxicidad oral aguda (Categoría
4), Efectos crónicos para el medio ambiente acuático (Categoría 2), Irritación ocular (Categoría 2), Toxicidad
en determinados órganos tras exposiciones repetidas (Categoría 2) e Irritante cutáneo (Categoría 2). Se han
realizado cambios en la composición del producto, se han eliminado datos sobre la exposición y se 

In [111]:
#OpenAiEmbeddings + FAISS Vectorstore + mmr search

query = "¿Qué productos químicos causan irritación en los ojos?"
docs = fais_vectorstore.search(query=query, search_type="mmr",k=30)
pretty_print_docs(docs)

Document 1:

capa de ozono, la Directiva 2012/18/UE (SEVESO III), el Reglamento (UE) No 528/2012 sobre biocidas y el
Reglamento (UE) No 649/2012 sobre exportación e importación de productos químicos peligrosos. Además, no
se ha realizado una evaluación de seguridad química para este producto.
SECCIÓN 16: OTRA INFORMACIÓN. DE BOE607-6+10+12 HEROSOL MULTICOLOR
El producto químico en cuestión es nocivo en caso de ingestión y provoca irritación cutánea y ocular grave.
Además, puede causar daños en los órganos si se expone de forma prolongada o repetida, y es tóxico para los
organismos acuáticos con efectos nocivos duraderos. Está clasificado como Toxicidad oral aguda (Categoría
4), Efectos crónicos para el medio ambiente acuático (Categoría 2), Irritación ocular (Categoría 2), Toxicidad
en determinados órganos tras exposiciones repetidas (Categoría 2) e Irritante cutáneo (Categoría 2). Se han
realizado cambios en la composición del producto, se han eliminado datos sobre la exposición y se 

In [None]:
#Parece que Chroma y Faiss nos da el mismo resultado y tiempos muy similares
#Similarity search y mmr nos da mismo resultado y tiempos muy similares (supuestamente mmr es la optimización de similarity)


In [None]:
#Vamos a probar retrievers.

#VectorStore es un almacén de vectores, generalmente embeddings de texto, 
#que permite búsquedas rápidas y eficientes

#Componente en sistemas de recuperación de información que selecciona 
#un subconjunto de documentos relevantes de una colección más grande, 
#basándose en una consulta. Puede utilizar diversas técnicas, 
#incluyendo búsquedas basadas en embeddings, búsquedas basadas en palabras clave, 
#o incluso métodos más avanzados como modelos de aprendizaje profundo.

#PD: Si necesitamos busquedas rapidas -> vectorstore
#Si necesitamos recuperación contextual y precisa, especialmente sistemas qa -> retriever
#Se suele combinar Retriever para selecc. subconjunto relevante de documentos y luego,
#usar VectorStore para búsqueda mas fina y rápida dentro de ese subconjunto.
#Nos podria ser útil si tenemos muchos docs.

In [None]:
#MultiQueryRetriever

#No lo he probado pero basicamente lo que hace es pasar la pregunta del user por un llm
#para asi poder conseguir 5-6 preguntas similares y utilizar esas 5-6 pregutnas similares
#para realizar la busqueda en los documentos.

"""
#Cargar docs

#Crear vectorstore
embedding = OpenAIEmbeddings()
vectordb = Chroma.from_documents(documents=splits, embedding=embedding)

#Pasar user question a llm par aobtener varias preguntas equivalentes

question = "What are the approaches to Task Decomposition?"
llm = ChatOpenAI(temperature=0)
retriever_from_llm = MultiQueryRetriever.from_llm(
    retriever=vectordb.as_retriever(), llm=llm
)


--> INFO:langchain.retrievers.multi_query:Generated queries: 
    ["1. What is the course's perspective on regression?", 
     '2. Can you provide information on regression as discussed in the course?', 
     '3. How does the course cover the topic of regression?', 
     '4. What are the course's teachings on regression?', 
     '5. In relation to the course, what is mentioned about regression?']

"""

In [113]:
#Usando retriever para Contextual compression

documents = []
for file in os.listdir("data"):
    pdf_path = "./data/" + file
    loader = PyPDFLoader(pdf_path)
    documents.extend(loader.load())

text_splitter = CharacterTextSplitter(chunk_size=10000, chunk_overlap=200) # chunk_size=1000, chunk_overlap=200
documents = text_splitter.split_documents(documents)

embeddings = OpenAIEmbeddings(openai_api_key="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")
retriever  = FAISS.from_documents(documents, embeddings).as_retriever(search_type="mmr", k=5, fetch_k=20)

docs = retriever.get_relevant_documents("¿Qué productos químicos causan irritación en los ojos?")

pretty_print_docs(docs)

#Supuestamente mas preciso, te devuelve los documentos con información relacionada con la query, siendo mas
#preciso, es decir, te devuelve el texto del documento comprimido donde aparece la respuesta.

#PD: Los resultados son los mismos que antes, no sé si realmente nos sirve de algo, o hace falta ajutar algo mas

Document 1:

capa de ozono, la Directiva 2012/18/UE (SEVESO III), el Reglamento (UE) No 528/2012 sobre biocidas y el
Reglamento (UE) No 649/2012 sobre exportación e importación de productos químicos peligrosos. Además, no
se ha realizado una evaluación de seguridad química para este producto.
SECCIÓN 16: OTRA INFORMACIÓN. DE BOE607-6+10+12 HEROSOL MULTICOLOR
El producto químico en cuestión es nocivo en caso de ingestión y provoca irritación cutánea y ocular grave.
Además, puede causar daños en los órganos si se expone de forma prolongada o repetida, y es tóxico para los
organismos acuáticos con efectos nocivos duraderos. Está clasificado como Toxicidad oral aguda (Categoría
4), Efectos crónicos para el medio ambiente acuático (Categoría 2), Irritación ocular (Categoría 2), Toxicidad
en determinados órganos tras exposiciones repetidas (Categoría 2) e Irritante cutáneo (Categoría 2). Se han
realizado cambios en la composición del producto, se han eliminado datos sobre la exposición y se 

In [None]:
!pip install rank_bm25

In [114]:
#Usando Ensemble Retriever (combina un sparse retriever con un dense retriever)
#El primero se basa en palabras claves y el otro en similitud semantica

from langchain.retrievers import BM25Retriever, EnsembleRetriever

# initialize the bm25 retriever and faiss retriever
bm25_retriever = BM25Retriever.from_documents(documents)
bm25_retriever.k = 2

embedding = OpenAIEmbeddings(openai_api_key="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")
faiss_vectorstore = FAISS.from_documents(documents, embedding)
faiss_retriever = faiss_vectorstore.as_retriever(search_kwargs={"k": 2})

# initialize the ensemble retriever
ensemble_retriever = EnsembleRetriever(
    retrievers=[bm25_retriever, faiss_retriever], weights=[0.5, 0.5]
)

docs = ensemble_retriever.get_relevant_documents("apples")
pretty_print_docs(docs)

#PD: Seguimos obteniendo los resultados de antes

Document 1:

capa de ozono, la Directiva 2012/18/UE (SEVESO III), el Reglamento (UE) No 528/2012 sobre biocidas y el
Reglamento (UE) No 649/2012 sobre exportación e importación de productos químicos peligrosos. Además, no
se ha realizado una evaluación de seguridad química para este producto.
SECCIÓN 16: OTRA INFORMACIÓN. DE BOE607-6+10+12 HEROSOL MULTICOLOR
El producto químico en cuestión es nocivo en caso de ingestión y provoca irritación cutánea y ocular grave.
Además, puede causar daños en los órganos si se expone de forma prolongada o repetida, y es tóxico para los
organismos acuáticos con efectos nocivos duraderos. Está clasificado como Toxicidad oral aguda (Categoría
4), Efectos crónicos para el medio ambiente acuático (Categoría 2), Irritación ocular (Categoría 2), Toxicidad
en determinados órganos tras exposiciones repetidas (Categoría 2) e Irritante cutáneo (Categoría 2). Se han
realizado cambios en la composición del producto, se han eliminado datos sobre la exposición y se 