# Trabajo práctico final - NLP

## Alumno: Garay Gorta, Isaías.

El tema elegido es el lenguaje *Python*, para esto se utilizará la documentación oficial de *Python* y un dataset de *Kaggle* con los proyectos más populares para este lenguaje en el año 2023.

- [Documentación Python](https://docs.python.org/es/3/download.html)
- [Dataset Kaggle](https://www.kaggle.com/datasets/yeoyunsianggeremie/most-popular-python-projects-on-github-2018-2023)

# Ejercicio 1 - RAG

Crear un chatbot experto en un tema a elección, usando la técnica RAG (Retrieval Augmented Generation).
Como fuentes de conocimiento se utilizarán al menos las siguientes fuentes:
- Documentos de texto
- Datos numéricos en formato tabular (por ej., Dataframes, CSV, sqlite, etc.)
- Base de datos de grafos (Online o local)

El sistema debe poder llevar a cabo una conversación en lenguaje español. El usuario podrá hacer preguntas, que el chatbot intentará responder a partir de datos de algunas de sus fuentes. El asistente debe poder clasificar las preguntas, para saber qué fuentes de datos utilizar como contexto para generar una respuesta.

In [1]:
from langchain.text_splitter import RecursiveCharacterTextSplitter
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import tensorflow_hub as hub
import tensorflow_text
import unicodedata
import chromadb
import gdown
import fitz
import nltk
import os

nltk.download('stopwords')
nltk.download('punkt')

2024-01-26 21:31:47.013954: E external/local_xla/xla/stream_executor/cuda/cuda_dnn.cc:9261] Unable to register cuDNN factory: Attempting to register factory for plugin cuDNN when one has already been registered
2024-01-26 21:31:47.014001: E external/local_xla/xla/stream_executor/cuda/cuda_fft.cc:607] Unable to register cuFFT factory: Attempting to register factory for plugin cuFFT when one has already been registered
2024-01-26 21:31:47.098984: E external/local_xla/xla/stream_executor/cuda/cuda_blas.cc:1515] Unable to register cuBLAS factory: Attempting to register factory for plugin cuBLAS when one has already been registered
2024-01-26 21:31:47.272649: I tensorflow/core/platform/cpu_feature_guard.cc:182] This TensorFlow binary is optimized to use available CPU instructions in performance-critical operations.
To enable the following instructions: AVX2 FMA, in other operations, rebuild TensorFlow with the appropriate compiler flags.
[nltk_data] Downloading package stopwords to /home/is

True

Descargamos los archivos necesarios si no existe la carpeta `datasets`

In [2]:
URL_DRIVE = 'https://drive.google.com/drive/folders/15cRVZcyHEJqSCgwMjdiFvFM9LFHTetbv?usp=drive_link'

if not os.path.exists('datasets/'):
    gdown.download_folder(URL_DRIVE, quiet=True, output='datasets')

# Datos tabulares

In [3]:
import pandas as pd

df_proyectos_python = pd.read_csv('datasets/popular_python_projects_2023.csv')

# Base de datos vectorial

## Funciones auxiliares

In [4]:
stop_words = set(stopwords.words('spanish'))

def texto_de_pdf(pdf_path):
  '''
  Recibe el path a un archivo pdf y devuelve 
  su contenido en un string.
  '''
  texto = str()

  doc = fitz.open(pdf_path)
  for page in doc:
    texto += page.get_text()

  return texto

def limpiar_texto(string):
  '''
  Recibe un string, lo pasa a minúscula
  y elimina un formato que aparece en el índice
  '''
  return string.replace(' .', '').lower()

def quitar_tildes(input_str):
  '''
  Recibe un string y elimina las tildes
  '''
  
  nfkd_form = unicodedata.normalize('NFKD', input_str)
  return ''.join([c for c in nfkd_form if not unicodedata.combining(c)])

def quitar_stopwords(text):
  '''
  Recibe un string y elimina las stopswords
  '''

  word_tokens = word_tokenize(text)
  filtered_text = [word for word in word_tokens if word.casefold() not in stop_words]
  return ' '.join(filtered_text)

def procesar_texto(pdf_path):
  '''
  Recibe el path a un pdf y aplica la 
  normalización a su texto
  '''

  texto = texto_de_pdf(pdf_path)
  texto = limpiar_texto(texto)
  texto = quitar_tildes(texto)
  texto = quitar_stopwords(texto)

  return texto

def dict_texto(directorio_pdf):
    '''
    Recibe el nombre de un directorio, devuelve un diccionario
    donde la clave es el nombre del archivo pdf y su valor es
    una lista con chunks del texto procesado del pdf.
    '''

    dict_pdf = dict()
    splitter = RecursiveCharacterTextSplitter(
                chunk_size=1000,
                chunk_overlap=150)

    for file in os.listdir(directorio_pdf):
        if not file.endswith('.pdf'):
            continue
        
        path_pdf = f'{directorio_pdf}/{file}'

        txt = splitter.split_text(procesar_texto(path_pdf))

        dict_pdf[file] = txt

    return dict_pdf

Obtenemos el texto de los archivos con las funciones definidas.

In [5]:
dict_pdfs = dict_texto('datasets')

## Embeddings

Ahora vamos a vectorizar el texto con un modelo de embeddings.

In [6]:
embed = hub.load('https://tfhub.dev/google/universal-sentence-encoder-multilingual/3')

Además creamos la instancia de la base de datos `ChromaDB` donde vamos a almacenar los embeddings

In [7]:
client = chromadb.Client()
collection = client.get_or_create_collection('documentacion_python')

## ChromaDB

In [8]:
def almacenar_texto(dicc, collection):
    '''
    Recibe un diccionario y una colección para almacenar
    embeddings, itera sobre cada key del diccionario, vectoriza
    los chunks de texto y los almacena en la colección.
    '''
    for key in dicc.keys():
        embeddings = embed(dicc[key]).numpy().tolist()
        chunks = dicc[key]
        ids = [f'documento_{key}-parte{i}' 
               for i in range(1, len(chunks) + 1)]
        
        collection.add(
                documents=chunks,
                embeddings=embeddings,
                ids=ids)
        
almacenar_texto(dict_pdfs, collection)

2024-01-26 21:32:40.323300: W external/local_tsl/tsl/framework/cpu_allocator_impl.cc:83] Allocation of 314593280 exceeds 10% of free system memory.
2024-01-26 21:32:40.370318: W external/local_tsl/tsl/framework/cpu_allocator_impl.cc:83] Allocation of 157296640 exceeds 10% of free system memory.
2024-01-26 21:32:40.370355: W external/local_tsl/tsl/framework/cpu_allocator_impl.cc:83] Allocation of 157296640 exceeds 10% of free system memory.
2024-01-26 21:32:40.370373: W external/local_tsl/tsl/framework/cpu_allocator_impl.cc:83] Allocation of 157296640 exceeds 10% of free system memory.
2024-01-26 21:32:40.617842: W external/local_tsl/tsl/framework/cpu_allocator_impl.cc:83] Allocation of 157296640 exceeds 10% of free system memory.


# Base de datos de grafos

La fuente de estos datos será la base de datos online DBpedia. Se va a usar para conceptos general de programación que no se encuentren en los embeddings de los pdf.

In [9]:
import spacy
from SPARQLWrapper import SPARQLWrapper, JSON

def ejecutar_consulta_sparql(consulta):
    '''
    Ejecuta una consulta SPARQL en la base de datos DBpedia en español.
    '''
    sparql = SPARQLWrapper("http://es.dbpedia.org/sparql")
    sparql.setQuery(consulta)
    sparql.setReturnFormat(JSON)
    resultados = sparql.query().convert()
    return resultados

def extraer_concepto_programacion(consulta):
    '''
    Función para extraer el concpeto de programación de una consulta.
    '''

    nlp = spacy.load('es_core_news_lg')
    texto = nlp(consulta)

    resultado = str()

    # Si se encuentre al menos una entidad
    # en la consulta se devuelve la primera.
    if texto.ents:
        resultado = texto.ents[0]

    return resultado

def consultar_dbpedia(consulta):
    '''
    Consulta la base de datos DBpedia en español para obtener
    información sobre un concepto de programación específico.
    '''

    concepto = extraer_concepto_programacion(consulta)

    consulta_sparql = f'''
    PREFIX dbo: <http://dbpedia.org/ontology/>
    PREFIX rdfs: <http://www.w3.org/2000/01/rdf-schema#>
    
    SELECT ?resource ?label ?abstract ?tipo
    WHERE {{
        ?resource a dbo:ProgrammingLanguage ;
                  rdfs:label ?label ;
                  dbo:abstract ?abstract .
        FILTER(LANG(?label) = "es" && LANG(?abstract) = "es" && CONTAINS(?label, "{concepto}"))
        OPTIONAL {{ ?resource rdf:type ?tipo }}
    }}
    LIMIT 1
    '''

    resultados = ejecutar_consulta_sparql(consulta_sparql)

    if concepto and resultados['results']['bindings']:
        concepto = resultados['results']['bindings'][0]['abstract']['value']
    else:
        concepto = f'No puede encontrar nada en DBpedia sobre: \'{consulta}\''

    return concepto

# Ejemplo de uso:
ejemplo_consulta = 'Que es JavaSript?'
consultar_dbpedia(ejemplo_consulta)

"No puede encontrar nada en DBpedia sobre: 'Que es JavaSript?'"

# Elección de la fuente

Ahora se crea una función que recibirá una consulta del usuario y decidirá cuál de las fuentes es más probable que pueda llegar a responder la consulta. Para se utiliza un modelo pre-entrenado para la generación de embeddings de oraciones utilizando `SentenceTransformer` con el modelo `paraphrase-MiniLM-L6-v2`.

In [10]:
from sentence_transformers import SentenceTransformer, util

# Cargamos el modelo
model = SentenceTransformer('paraphrase-MiniLM-L6-v2')

consultas_ejemplo = {
    'grafo': ['Qué es JavaScript?'],
    'csv': ['Proyectos populares Python'],
    'vectores': ['Qué es Python?']
}

def determinar_fuente(consulta, consultas_ejemplo):
    '''
    Determina la fuente más probable para responder
    a una consulta mediante búsqueda de pocos disparos.
    '''

    # Umbral de similitud
    UMBRAL_SIMILITUD = 0.3

    # Generamos la representación embebida de la consulta del usuario
    embedding_consulta = model.encode(consulta, convert_to_tensor=True)

    # Obtenemos representaciones embebidas de los ejemplos de pocos disparos
    ejemplos_embeddings = dict()
    for fuente, ejemplos in consultas_ejemplo.items():
        ejemplos_embeddings[fuente] = model.encode(ejemplos,
                                                   convert_to_tensor=True)

    # Se calcula similitud coseno entre la consulta y cada conjunto de ejemplos
    similitudes = dict()
    for fuente, embeddings in ejemplos_embeddings.items():
        similitudes[fuente] = util.pytorch_cos_sim(embedding_consulta,
                                                   embeddings).mean().item()

    # Finalmente se devuelve la fuente de datos con la similitud más alta
    fuente_probable = max(similitudes, key=similitudes.get)
    if similitudes[fuente_probable] < UMBRAL_SIMILITUD:
      fuente_probable = str()
    return fuente_probable

# RAG

In [11]:
from langchain.embeddings.huggingface import HuggingFaceEmbeddings
from jinja2 import Template
import requests

In [12]:
def generar_respuesta(prompt, max_new_tokens=768):
  try:
    api_key = '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'
    api_url = 'https://api-inference.huggingface.co/models/HuggingFaceH4/zephyr-7b-beta'

    headers = None
    if api_key:
      headers = {'Authorization': f'Bearer {api_key}'}

    data = {
    'inputs': prompt,
    'parameters': {
    'max_new_tokens': max_new_tokens,
    'temperature': 0.7,
    'top_k': 50,
    'top_p': 0.95}
    }
    
    if headers:
      # Realizamos la solicitud POST
      response = requests.post(api_url, headers=headers, json=data)
      # Se extrae la respuesta
      respuesta = response.json()[0]['generated_text'][len(prompt):]
      return respuesta
  except Exception as e:
    print(f"An error occurred: {e}")

In [13]:
def template_jira(messages, add_generation_prompt=True):
  
  # Definimos la plantilla jinja
  template_str = "{% for message in messages %}"
  template_str += "{% if message['role'] == 'user' %}"
  template_str += "<|user|>{{ message['content'] }}</s>\n"
  template_str += "{% elif message['role'] == 'assistant' %}"
  template_str += "<|assistant|>{{ message['content'] }}</s>\n"
  template_str += "{% elif message['role'] == 'system' %}"
  template_str += "<|system|>{{ message['content'] }}</s>\n"
  template_str += "{% else %}"
  template_str += "<|unknown|>{{ message['content'] }}</s>\n"
  template_str += "{% endif %}"
  template_str += "{% endfor %}"
  template_str += "{% if add_generation_prompt %}"
  template_str += "<|assistant|>\n"
  template_str += "{% endif %}"
  
  # Se crea una instancia de plantilla con el string
  template = Template(template_str)

  # Renderizar la plantilla con los mensajes proporcionados
  return template.render(messages=messages,
                         add_generation_prompt=add_generation_prompt)

In [14]:
def preparar_prompt(query_str, context_info):
  '''
  Función que recibe la pregunta del usuario y el contexto
  que puede responder esa pregunta para armar el prompt 
  que usará el modelo.
  '''

  prompt = (
  'La información de contexto es la siguiente:\n'
  '--------------------------\n'
  '{context_str}\n'
  '--------------------------\n'
  'Dada la información de contexto anterior, y sin utilizar conocimiento previo, responde en español la siguiente pregunta.\n'
  'Pregunta: {query_str}\n'
  'Respuesta: '
  )

  context_str = context_info
  messages = [
  {
  'role': 'system',
  'content': 'Eres un asistente útil que siempre responde con respuestas veraces, útiles y basadas en hechos.',
  },
  {'role': 'user', 'content': prompt.format(context_str=context_str, query_str=query_str)},
  ]
  final_prompt = template_jira(messages)
  return final_prompt

In [15]:
def contexto_fuente_externa(fuente, consulta):
  '''
  Recibe la consulta del usuario y determine que 
  fuente de información es pertinente pare responerla.
  '''
  context_info = str()

  if fuente == 'csv':
    context_info = df_proyectos_python
  elif fuente == 'grafo':
    info_dbpedia = consultar_dbpedia(consulta)
    context_info += f'{info_dbpedia}\n'
  elif fuente == 'vectores':
    embedding_consulta = embed([consulta]).numpy().tolist()
    results = collection.query(
                query_embeddings=embedding_consulta,
                n_results=3 )
    
    if results['documents']:
      for result in results['documents']:
        for text in result:
          context_info += f'{text}\n'
  
  return context_info

## Ejemplo de uso

In [16]:
consultas = ['Qué es Python?', 'Top 5 proyectos de Python en 2023',
             'Qué es Java?', 'Cómo estás?']

def procesar_pregunta(consultas):
    for consulta in consultas:
        # Traemos los documentos más relevantes para la consulta
        fuente_contexto = determinar_fuente(consulta, consultas_ejemplo)
        print(f'Fuente de contexto seleccionada: {fuente_contexto}')
        context_text = contexto_fuente_externa(fuente_contexto, consulta)
        final_prompt = None
        if not fuente_contexto:
            final_prompt = preparar_prompt(
                f'Dar la respuesta en el idioma en que fue realizada la pregunta. Responder: {consulta}',
                'No hay contexto adicional para esta consulta'
            )
        elif fuente_contexto == 'csv':
            query_str_csv = f'Retorna lo encontrado archivo csv.\n {consulta}'
            final_prompt = preparar_prompt(query_str_csv, str(context_text))
        else:
            final_prompt = preparar_prompt(consulta, context_text)
        print('Pregunta:', consulta)
        print('Respuesta:')
        answer = generar_respuesta(final_prompt)
        if answer:
            print(answer)
        else:
            print('Error al generar la respuesta.')
        print('-------------------------------------------------------')

# Ejecutamos la función
procesar_pregunta(consultas)

Fuente de contexto seleccionada: vectores
Pregunta: Qué es Python?
Respuesta:
Python es un lenguaje de programación utilizado en varios países alrededor del mundo, cuyo nombre fue sugerido por su creador, Guido van Rossum, debido a su similitud con el nombre de la popular serie de comedia británica Monty Python's Flying Circus. Python es utilizado en organizaciones de alto perfil, incluyendo el servidor de aplicaciones Zope y la lista de correo electrónico Mailman, y se encuentra presente en varias distribuciones de Linux, como Red Hat. Existe un gran número de líneas de código Python en todo el mundo, y cualquier cambio en el lenguaje podría invalidar programas más pequeños, aunque eso es raro en proporción menor. Python también tiene una comunidad activa que se reúne en listas de correo y discute nuevos desarrollos en el foro de Python (python-dev). La Python Software Foundation se encarga de la infraestructura de proyectos de Python ubicada en diferentes partes del mundo, y se puede

# Chatbot

In [17]:
def chatbot():
    '''
    Función para interactuar con el bot.
    '''

    print('Hola! Puedo responder tus preguntas sobre Python (para salir escriba \'q\')')

    while True:
        # Obtener la pregunta del usuario
        user_input = input('Usuario: ')

        if user_input.lower() == 'q':
            print('Chau!')
            break

        # Responder la pregunta
        procesar_pregunta([user_input])

chatbot()

Hola! Puedo responder tus preguntas sobre Python (para salir escriba 'q')
Chau!
