**Trabajo Práctico final Procesamiento del Lenguaje Natural**

*Lucía Masciángelo*

*Fecha de entrega:* 21/07/2024

*Profesores:* Juan Pablo Manson, Alan Geary


# **Ejercicio 1: RAG**

## Preparo el entorno

In [None]:
!pip install docx2txt
!pip install PyPDF2
!pip install unidecode
!pip install nltk
!pip install langchain
!pip install sentence-transformers
!pip install txtai
!pip install chromadb
!pip install pandas
!pip install SPARQLWrapper
!pip install llama-index-embeddings-huggingface
!pip install requests
!pip install python-decouple
!pip install llm-templates

## Conecto con Google Drive

In [9]:
# Generar acceso a google drive para poder acceder a los archivos
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


## Codigo completo de RAG

In [None]:
from docx import Document
import PyPDF2
import pandas as pd
from unidecode import unidecode
import re
import nltk
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize
from sentence_transformers import SentenceTransformer
from txtai.embeddings import Embeddings
import chromadb
from SPARQLWrapper import SPARQLWrapper, JSON
import requests
from decouple import config
import pprint

nltk.download('stopwords')
nltk.download('punkt')

# Extraer texto de archivos
def extraer_texto_docx(ruta_docx):
    doc = Document(ruta_docx)
    return "\n".join([parrafo.text for parrafo in doc.paragraphs])

def extraer_texto_pdf(ruta_pdf):
    with open(ruta_pdf, 'rb') as archivo_pdf:
        lector = PyPDF2.PdfReader(archivo_pdf)
        return "".join([pagina.extract_text() for pagina in lector.pages])

def extraer_texto_csv(ruta_csv):
    df = pd.read_excel(ruta_csv)
    return "\n".join(["\t".join(map(str, fila)) for fila in df.values])

# Procesar texto
def procesar_texto(texto):
    texto = texto.lower()
    texto = unidecode(texto)
    texto = re.sub(r'[^a-zA-Z0-9\s]', '', texto)
    stop_words = set(stopwords.words('spanish'))
    word_tokens = word_tokenize(texto)
    return " ".join([word for word in word_tokens if word.casefold() not in stop_words])

# Ruta de la carpeta en Google Drive
carpeta_drive = '/content/drive/MyDrive/Datasets NLP/'

# Cargar archivos
ruta_docx = carpeta_drive + 'El cine de Argentina - Historia.docx'
ruta_pdf = carpeta_drive + '11-dugini-informacion-historica-cine-argentino-rhaya.pdf'
ruta_csv1 = carpeta_drive + 'Precio de las entradas a lo largo del tiempo.xlsx'
ruta_csv2 = carpeta_drive + 'Relacion entrada-poblacion.xlsx'

texto_docx = extraer_texto_docx(ruta_docx)
texto_pdf = extraer_texto_pdf(ruta_pdf)
texto_csv1 = extraer_texto_csv(ruta_csv1)
texto_csv2 = extraer_texto_csv(ruta_csv2)

texto_combinado = "\n".join([texto_docx, texto_pdf, texto_csv1, texto_csv2])
texto_procesado = procesar_texto(texto_combinado)

# Crear embeddings
model_name = "sentence-transformers/distiluse-base-multilingual-cased-v2"
embed_model = SentenceTransformer(model_name)
chunks = [texto_procesado[i:i + 512] for i in range(0, len(texto_procesado), 512)]
chunks_embeddings = embed_model.encode(chunks).tolist()

# Crear y agregar embeddings a ChromaDB
client = chromadb.Client()
collection_name = "cine_argentino"
# if collection_name in client.list_collections():
collection = client.get_collection(collection_name)
# else:
#     collection = client.create_collection(collection_name)

for i, (chunk, embedding) in enumerate(zip(chunks, chunks_embeddings)):
    collection.add(ids=[str(i)], documents=[chunk], embeddings=[embedding])

# Configurar y usar txtai
embeddings = Embeddings({"path": model_name})
embeddings.index(({"id": str(i), "text": chunk, "embedding": embedding} for i, (chunk, embedding) in enumerate(zip(chunks, chunks_embeddings))))

# Funciones para generar respuestas
HUGGINGFACE_TOKEN = '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'
LLM_MODEL = {'model': 'mistralai/Mixtral-8x7B-Instruct-v0.1', 'system_role': False, 'template': 'mistral'}

import requests

def test_token():
    headers = {"Authorization": f"Bearer {HUGGINGFACE_TOKEN}"}
    response = requests.get("https://api-inference.huggingface.co/models", headers=headers)
    return response.json()

print(test_token())

def chat_template(messages, add_generation_prompt=True):
    headers = {"Authorization": f"Bearer {HUGGINGFACE_TOKEN}"}
    data = {
        "inputs": messages,
        "parameters": {
            "max_new_tokens": 150,
            "temperature": 0.7,
            "top_k": 50,
            "top_p": 0.95
        }
    }
    response = requests.post(f"https://api-inference.huggingface.co/models/{LLM_MODEL['model']}", headers=headers, json=data)
    return response.json()[0]['generated_text']

from transformers import GPT2LMHeadModel, GPT2Tokenizer

# Cargar el modelo y el tokenizador
model_name = "gpt2"
model = GPT2LMHeadModel.from_pretrained(model_name)
tokenizer = GPT2Tokenizer.from_pretrained(model_name)

def generate_answer(prompt: str, max_new_tokens: int = 150):
    inputs = tokenizer.encode(prompt, return_tensors='pt')
    outputs = model.generate(inputs, max_length=max_new_tokens, num_return_sequences=1)
    return tokenizer.decode(outputs[0], skip_special_tokens=True)

# Ejemplo de uso
prompt = "¿Cuál fue la primera película argentina?"
print(generate_answer(prompt))


def prepare_prompt(query_str, context_str):
    template = (
        "La información de contexto es la siguiente:\n"
        "---------------------\n"
        "{context_str}\n"
        "---------------------\n"
        "Dada la información de contexto anterior, y sin utilizar conocimiento previo, responde la siguiente pregunta.\n"
        "Pregunta: {query_str}\n"
        "Respuesta: "
    )
    return template.format(context_str=context_str, query_str=query_str)

# Consultas y generación de respuestas
queries = ['¿Cuál fue la primera película argentina?',
           '¿Quién fue el director de la película "La historia oficial"?',
           '¿Cuál es la película argentina más taquillera de todos los tiempos?',
           '¿Cuántos premios Oscar ha ganado el cine argentino?',
           '¿Cuál es la película argentina más premiada internacionalmente?']

for query_str in queries:
    results = embeddings.search(query_str, limit=2)

    # Ajustar el acceso a los resultados basándose en la estructura
    if isinstance(results, list) and len(results) > 0 and isinstance(results[0], dict):
        context_str = "\n".join([str(result.get("text", "")) for result in results])
    elif isinstance(results, list) and len(results) > 0 and isinstance(results[0], tuple):
        context_str = "\n".join([str(result[1]) for result in results])
    else:
        context_str = ""

    final_prompt = prepare_prompt(query_str, context_str)
    print('Pregunta:', query_str)
    print('Respuesta:')
    print(generate_answer(final_prompt))
    print('-------------------------------------------------------')

# Ejemplo de obtención de datos de una película de Wikidata
def obtener_qid_pelicula(nombre_pelicula):
    consulta_sparql = f"""
    SELECT ?item WHERE {{
      ?item rdfs:label "{nombre_pelicula}"@es.
      ?item wdt:P31 wd:Q11424.
    }}
    LIMIT 1
    """
    sparql = SPARQLWrapper("https://query.wikidata.org/sparql")
    sparql.setQuery(consulta_sparql)
    sparql.setReturnFormat(JSON)
    try:
        results = sparql.query().convert()
        if results['results']['bindings']:
            qid = results['results']['bindings'][0]['item']['value'].split('/')[-1]
            return qid
        else:
            print(f"No se encontraron resultados para la película '{nombre_pelicula}'.")
            return None
    except Exception as e:
        print(f"Error al obtener QID para la película '{nombre_pelicula}': {e}")
        return None


import time

def obtener_descripcion(pelicula_qid):
    property_ids = {
        "P1476": "Título original",
        "P57": "Director",
        "P161": "Elenco",
        "P1040": "Productor",
        "P344": "Director de fotografía",
        "P58": "Guionista",
        "P272": "Compañía productora",
        "P577": "Fecha de lanzamiento",
        "P495": "País de origen",
        "P136": "Género",
        "P915": "Locación de filmación",
        "P162": "Productor ejecutivo",
        "P144": "Basado en",
        "P921": "Tema principal",
        "P400": "Plataforma de distribución",
        "P462": "Color",
        "P2047": "Duración",
        "P480": "Clasificación de contenido",
        "P2638": "Presentación"
    }

    description = f'Película {pelicula_qid}  :\n'

    sparql = SPARQLWrapper("https://query.wikidata.org/sparql")

    for propiedad_id, propiedad_name in property_ids.items():
        consulta_sparql = f"""
        SELECT ?valueLabel WHERE {{
          wd:{pelicula_qid} wdt:{propiedad_id} ?value.
          SERVICE wikibase:label {{ bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }}
        }}
        """

        sparql.setQuery(consulta_sparql)
        sparql.setReturnFormat(JSON)

        try:
            results = sparql.query().convert()
            time.sleep(1)  # Delay de 1 segundo entre solicitudes
        except Exception as e:
            print(f"Error en la consulta SPARQL para la propiedad {propiedad_id}: {e}")
            continue

        valores = [result['valueLabel']['value'] for result in results['results']['bindings']]

        if not valores:
            print(f"No se encontraron valores para la propiedad {propiedad_name} ({propiedad_id})")
        else:
            print(f"Valores encontrados para la propiedad {propiedad_name} ({propiedad_id}): {valores}")

        for valor in valores:
            description += f'{propiedad_name}: {valor} \n'

    return description


# **Ejercicio 2: Preguntas**

1) Explique con sus palabras el concepto de Rerank y como impactaría en el
desempeño de la aplicación. Incluir un diagrama de elaboración propia en la
explicación.

Rerank se basa en reevaluar y reorganizar los documentos o datos recuperados en función de su relevancia para la consulta.
Lo que genera esto es que se generen mejores resultados en base a la consulta. Mejora la calidad y precisión general de la información que se utiliza para la salida final.
Por ejemplo: estamos en una plataforma de películas, dónde el sistema utiliza un modelo inicial para generar una lista de películas basándose en otros títulos que hemos visto.
Luego la plataforma aplica un modelo de reranking para ajustar el orden de las recomendaciones, teniendo en cuenta otros aspectos, como pueden ser preferencias específicas (actores, directores, país de origen, etc), o películas con valoraciones altas o buenas críticas, o bien, algún tema en específico que hayamos visto recientemente.    
Entonces finalmente, la plataforma va a mostrarnos una lista de películas ordenadas en base a nuestros intereses.

2) ¿En qué sección de su código lo aplicaría?
En este caso lo podría usar luego de la búsqueda en Chromadb, dónde busca por similitud de embeddings, el modelo genera una lista de los embeddings mas cercanos pero tal vez esa lista no es la óptima en el contexto. Ahí podría entrar rerank, para optimizar la consulta.
