# CHATBOT PARA CONSULTAS DE TECNICOS EN INSTALACIONES DE SISTEMA SONAR - PARTE 1
En esta primera parte realizaremos la extraccion de los datos de 3 pdfs donde contiene la información necesaria para el reentranamiento de los datos y generaremos las preguntas y respuestas que posteriormente guardaremos en un JSON.

In [None]:
# instalamos las librerias necesarias
!pip install langchain pypdf  langchain_experimental langchain_openai langchain openai

Collecting pypdf
  Downloading pypdf-5.2.0-py3-none-any.whl.metadata (7.2 kB)
Collecting langchain_experimental
  Downloading langchain_experimental-0.3.4-py3-none-any.whl.metadata (1.7 kB)
Collecting langchain_openai
  Downloading langchain_openai-0.3.3-py3-none-any.whl.metadata (2.7 kB)
Collecting langchain-community<0.4.0,>=0.3.0 (from langchain_experimental)
  Downloading langchain_community-0.3.16-py3-none-any.whl.metadata (2.9 kB)
Collecting langchain-core<0.4.0,>=0.3.32 (from langchain)
  Downloading langchain_core-0.3.33-py3-none-any.whl.metadata (6.3 kB)
Collecting tiktoken<1,>=0.7 (from langchain_openai)
  Downloading tiktoken-0.8.0-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (6.6 kB)
Collecting dataclasses-json<0.7,>=0.5.7 (from langchain-community<0.4.0,>=0.3.0->langchain_experimental)
  Downloading dataclasses_json-0.6.7-py3-none-any.whl.metadata (25 kB)
Collecting httpx-sse<0.5.0,>=0.4.0 (from langchain-community<0.4.0,>=0.3.0->langchain_experiment

In [None]:
# preparo los documentos en una lista con las rutas y en que pagina inicia el documento porque el resto contine informacion no relevante(Titulos e indices)

datosPdfs = [
    {
        "ruta": './EtFu1051_C1.pdf',
        "pagini":3
    },
    {
        "ruta": './MaIn0362_C1.pdf',
        "pagini":6
    },
    {
        "ruta": './MaUs0240_C1.pdf',
        "pagini":4
    }

]


print(datosPdfs[0]['ruta'])
print(type(datosPdfs))

./EtFu1051_C1.pdf
<class 'list'>


**Vamos a separar el texto en encabezados porque los documentos vienen separados por ellos**

In [None]:
import re
from langchain.document_loaders import PyPDFLoader

# utilizamos expresiones regulares para detectar encabezados
expresion_regular = re.compile(r"(?=\n?\d+(\.\d+)*\s+[A-ZÁÉÍÓÚÑ]|CAPÍTULO\s+\d+)", re.MULTILINE)


def split_por_cabeceras(text):
    headers = expresion_regular.split(text)
    return headers

def extraer_texto_pdfs(list_pdfs):

  # creamos una lista donde almacenaremos todos los chunks de los documentos para posteriormente generar las preguntas
  chunks_list_sonar = []

  # realizamos un bucle para iterar entre los documentos
  for pdf in list_pdfs:



    # cargamos el contenido
    loader = PyPDFLoader(pdf['ruta'])
    paginas = loader.load()

    paginas = paginas[pdf['pagini'] - 1:]

    # obtenemos todo el texto del PDF
    full_text = "\n".join([page.page_content for page in paginas])

    # separamos por encabezados
    secciones = split_por_cabeceras(full_text)


    # preprocesamos los datos para evitar valores nulos o secciones con poco contenido, tambien quitamos saltos de lineas innecesarios que ensucian el contenido
    for sec in secciones:
        # comprobamos que el valor nos None
        if sec is not None:
          # quitamos todas las secciones con menos de 80 caracteres
          if(len(sec) > 60):
            # reemplazamos los saltos de lineas por espacios
            sec = sec.replace("\n", " ")
            # lo añadimos a la lista de todas las secciones
            chunks_list_sonar.append(sec)


  return chunks_list_sonar


In [None]:
chunks_list_sonar = extraer_texto_pdfs(datosPdfs)

## Generacion de preguntas y respuestas
Para esta parte vamos a usar los chunks que hemos extraido de los pdfs y vamos a utilizar el modelo de chatgpt 3.5-turbo, para que genere preguntas y respuestas, despues lo guardara en un JSON para usarlo en el fine tuning

In [None]:
from langchain.chat_models import ChatOpenAI
from langchain.schema import HumanMessage

# configuramos el modelo, indicando cual vamos a usar y su key
llm = ChatOpenAI(model="gpt-3.5-turbo", openai_api_key="XXX")

# creamos una funcion que se encargara de ejecutar el modelo y mandarle el prompt base
def generar_qas(chunk):
    prompt = f"""Genera preguntas y respuestas basadas en el siguiente contenido:\n\n{chunk}\n\nFormato:\nPregunta: ...\nRespuesta: ..."""

    response = llm([HumanMessage(content=prompt)])
    return response.content

# ejecutamos la funcion iterando entre todos los chunks
qa_parejas = []
for doc in chunks_list_sonar:
    qas = generar_qas(doc)
    qa_parejas.append(qas)

# guardamos en un json
import json

with open("qa_dataset.json", "w", encoding="utf-8") as f:
    json.dump(qa_parejas, f, indent=4, ensure_ascii=False)

print("Dataset de QA generado y guardado.")


Dataset de QA generado y guardado.


In [None]:
# observamos que el dataset esta mal estructurado lo mejoramos


file_path = "./qa_dataset.json"
with open(file_path, "r", encoding="utf-8") as file:
    data = json.load(file)

# Procesar el contenido del JSON para separar cada pregunta y respuesta en una fila
qa_list = []
for item in data:
    qa_pairs = item.split("\n\n")
    for pair in qa_pairs:
        if "Pregunta:" in pair and "Respuesta:" in pair:
            question, answer = pair.split("\nRespuesta: ", 1)
            question = question.replace("Pregunta: ", "").strip()
            answer = answer.strip()
            qa_list.append({"pregunta": question, "respuesta": answer})

# guardamos en un json
import json

with open("qa_dataset_mejorado.json", "w", encoding="utf-8") as f:
    json.dump(qa_list, f, indent=4, ensure_ascii=False)