# Trabajo Práctico 1
## Clasificador de Recomendaciones Recreativas utilizando Procesamiento de Lenguaje Natural (NLP)

### Integrantes:
* Longo, Gonzalo
* Yañez, Mirian

Contexto: Una persona dentro de un mes, se tomará 15 días de vacaciones en la playa. Sin embargo, se estima que durante al menos cuatro de esos días habrá lluvias, lo que podría limitar las actividades al aire libre. Para esos días de mal clima, se propone una solución que facilite la recreación en función del estado de ánimo del día.

Objetivo: Desarrollar un programa de Procesamiento de Lenguaje Natural que, según el estado de ánimo del usuario, recomiende entre ver una película, jugar un juego de mesa o leer un libro (o varias opciones para cada caso). Para ello, deberá construir un clasificador que categorice el estado de ánimo del usuario. Luego sugerir el conjunto de recomendaciones basada en una frase de preferencia ingresada por el usuario.

Pasos para la construcción del proyecto:

1- Clasificación del Estado de Ánimo:
Utilice los conocimientos aprendidos en la Unidad 3 para desarrollar un clasificador a partir de un prompt con el que determine el estado de ánimo del usuario, el cual deberá categorizarse por ejemplo: "Alegre", "Melancólico" o "Ni fu ni fa".

2- Ingreso de Preferencias:
Una vez determinado el estado de ánimo, el usuario deberá ingresar una frase que describa la temática que le gustaría explorar. Por ejemplo: "una historia de amor en la selva".

3- Búsqueda de Opciones:
El programa deberá comparar la frase ingresada por el usuario con diversas estructuras de texto provenientes de diferentes fuentes de datos utilizando los métodos aprendidos en clase.

Disponga de los siguientes datasets:
* bgg_database.csv: Base de datos de juegos de mesa.
* IMDB-Movie-Data.csv: Base de datos de películas.
* Libros del Proyecto Gutenberg: Realice web scraping para conformar un dataset con información sobre los 1000 libros más populares del Proyecto Gutenberg. El enlace a utilizar es el siguiente: https://www.gutenberg.org/browse/scores/top1000.php#books-last1.

Recomendaciones:
Con base en el estado de ánimo del usuario y la frase ingresada, el programa deberá ofrecer recomendaciones pertinentes entre películas, juegos de mesa o libros. Utilice las herramientas de NLP aprendidas en las tres primeras unidades para lograr resultados coherentes y personalizados.

Requerimientos mínimos:
* Utilice clasificadores para determinar el estado de ánimo (por ejemplo, métodos de clasificación supervisada).
* Aplique técnicas de embeddings y comparación de similitud semántica para encontrar las mejores coincidencias en los datasets.
* Utilice la potencia de reconocimiento de entidades nombradas, (NER, modelo Gliner) con el objetivo de obtener los mejores resultados buscados.

Entrega:

Se debe entregar un informe donde se documente cómo se implementa cada parte del programa, incluyendo explicaciones de cómo funcionan los algoritmos utilizados.

Realice pruebas con diferentes ejemplos para mostrar la efectividad del clasificador y del sistema de recomendación.

El código debe estar bien comentado y seguir buenas prácticas de programación. Debe utilizar entregar el o los colab utilizados en formato de notebook.

Se debe entregar el dataset generado con el web scraping.



Nota: Las fuentes de datos se encuentran en inglés, la aplicación debe comunicarse con el usuario en español.

Opcional: Puede presentar una aplicación para el programa desarrollado, utilizando Google Colab con una interfaz sencilla basada en widgets como los proporcionados por la librería ip widgets.



## Instalamos las dependencias

In [1]:
!pip install gdown beautifulsoup4 lxml pysentimiento faiss-cpu sentence-transformers mtranslate ipywidgets

Collecting pysentimiento
  Downloading pysentimiento-0.7.3-py3-none-any.whl.metadata (7.7 kB)
Collecting faiss-cpu
  Downloading faiss_cpu-1.9.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.4 kB)
Collecting sentence-transformers
  Downloading sentence_transformers-3.2.1-py3-none-any.whl.metadata (10 kB)
Collecting mtranslate
  Downloading mtranslate-1.8.tar.gz (2.4 kB)
  Preparing metadata (setup.py) ... [?25l[?25hdone
Collecting datasets>=2.10.1 (from pysentimiento)
  Downloading datasets-3.0.2-py3-none-any.whl.metadata (20 kB)
Collecting emoji>=1.6.1 (from pysentimiento)
  Downloading emoji-2.14.0-py3-none-any.whl.metadata (5.7 kB)
Collecting dill<0.3.9,>=0.3.0 (from datasets>=2.10.1->pysentimiento)
  Downloading dill-0.3.8-py3-none-any.whl.metadata (10 kB)
Collecting xxhash (from datasets>=2.10.1->pysentimiento)
  Downloading xxhash-3.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (12 kB)
Collecting multiprocess<0.70.17 (from data

# Descargamos el Dataset

In [2]:
import gdown
url = 'https://drive.google.com/drive/folders/1xjkuCdlnRkWMOrdbZ-i49K_oWMP8TP8Y'
gdown.download_folder(url, output='data', quiet=False, use_cookies=False)

Retrieving folder contents


Processing file 1yIWOgUV5WyskQvmq48QvF2Lzr0LxpAdq bgg_database.csv
Processing file 1YCu3xhZq4C5dYyekiluMabwyWBqQyd2c IMDB-Movie-Data.csv


Retrieving folder contents completed
Building directory structure
Building directory structure completed
Downloading...
From: https://drive.google.com/uc?id=1yIWOgUV5WyskQvmq48QvF2Lzr0LxpAdq
To: /content/data/bgg_database.csv
100%|██████████| 1.83M/1.83M [00:00<00:00, 204MB/s]
Downloading...
From: https://drive.google.com/uc?id=1YCu3xhZq4C5dYyekiluMabwyWBqQyd2c
To: /content/data/IMDB-Movie-Data.csv
100%|██████████| 309k/309k [00:00<00:00, 120MB/s]
Download completed


['data/bgg_database.csv', 'data/IMDB-Movie-Data.csv']

# Scrapper De Libros

In [4]:
import requests
from bs4 import BeautifulSoup
import csv
import ssl
import concurrent.futures
import time

ssl._create_default_https_context = ssl._create_unverified_context

class ScrapperBooks:
    def __init__(self, url):
        self.url = url

    def get_books(self):
        response = requests.get(self.url)
        soup = BeautifulSoup(response.content, 'html.parser')
        div = soup.find_all('div', class_='page_content')[0]
        ol = div.find('ol')
        return ['https://www.gutenberg.org' + li.find('a')['href'] for li in ol.find_all('li')]

    def get_book_details(self, book_url):
        print(book_url)
        response = requests.get(book_url)
        soup = BeautifulSoup(response.content, 'html.parser')
        table = soup.find('table', class_='bibrec')
        details = {
            tr.th.get_text(strip=True): tr.td.get_text(strip=True)
            for tr in table.find_all('tr')
            if tr.th and tr.td and tr.th.get_text(strip=True) in {'Author', 'Title', 'Summary'}
        }
        details['Link'] = book_url
        return details

    def save_to_csv(self, data, filename='data/books.csv'):
        with open(filename, mode='w', newline='', encoding='utf-8') as file:
            writer = csv.DictWriter(file, fieldnames=['Title', 'Author', 'Summary', 'Link'])
            writer.writeheader()
            writer.writerows(data)

    def run(self):
        start_time = time.time()
        books = self.get_books()
        with concurrent.futures.ThreadPoolExecutor() as executor:
            books_details = list(executor.map(self.get_book_details, books))
        self.save_to_csv(books_details)
        print(f"{len(books_details)} libros guardados en 'books.csv'.")
        elapsed_time = time.time() - start_time
        print(f"Tiempo total: {elapsed_time:.2f} segundos")


In [5]:
scraper = ScrapperBooks("https://www.gutenberg.org/browse/scores/top1000.php#books-last1")
scraper.run()

https://www.gutenberg.org/ebooks/84
https://www.gutenberg.org/ebooks/1342
https://www.gutenberg.org/ebooks/2701
https://www.gutenberg.org/ebooks/1513
https://www.gutenberg.org/ebooks/25344
https://www.gutenberg.org/ebooks/100
https://www.gutenberg.org/ebooks/145
https://www.gutenberg.org/ebooks/2641
https://www.gutenberg.org/ebooks/11
https://www.gutenberg.org/ebooks/37106
https://www.gutenberg.org/ebooks/41
https://www.gutenberg.org/ebooks/67979
https://www.gutenberg.org/ebooks/16389
https://www.gutenberg.org/ebooks/6761
https://www.gutenberg.org/ebooks/394
https://www.gutenberg.org/ebooks/2160
https://www.gutenberg.org/ebooks/6593
https://www.gutenberg.org/ebooks/4085
https://www.gutenberg.org/ebooks/5197https://www.gutenberg.org/ebooks/1259

https://www.gutenberg.org/ebooks/174https://www.gutenberg.org/ebooks/2542

https://www.gutenberg.org/ebooks/345
https://www.gutenberg.org/ebooks/76
https://www.gutenberg.org/ebooks/64317
https://www.gutenberg.org/ebooks/25558
https://www.gutenbe

# Clasificador

In [6]:
from pysentimiento import create_analyzer
import numpy as np
class EmotionAnalyzer:
    """
    Clase para analizar el estado de ánimo del usuario usando NLP avanzado.
    """

    def __init__(self):
        """Inicializa el analizador con el modelo pre-entrenado en español."""
        self.analyzer = create_analyzer(task="emotion", lang="es")

    def predict_emotion(self, text):
        """
        Predice la emoción del texto ingresado por el usuario.

        Args:
            text (str): Texto del usuario.

        Returns:
            str: Categoría de estado de ánimo.
        """
        result = self.analyzer.predict(text)
        return self._map_emotion(result.output)

    def _map_emotion(self, emotion):
        """
        Mapea las emociones del modelo a categorías personalizadas.

        Args:
            emotion (str): Emoción detectada por el modelo.

        Returns:
            str: Categoría de estado de ánimo personalizada.
        """
        emotion_map = {
            'joy': 'Alegre',
            'surprise': 'Alegre',
            'sadness': 'Melancólico',
            'anger': 'Melancólico',
            'fear': 'Melancólico',
            'disgust': 'Melancólico',
            'neutral': 'Ni fu ni fa',
            'others': 'Ni fu ni fa'
        }
        return emotion_map.get(emotion, "Desconocido")

In [7]:
import pandas as pd
import faiss
from sentence_transformers import SentenceTransformer
from transformers import pipeline
from mtranslate import translate
import numpy as np

class RecomendadorFAISS:
    def __init__(self, datasets):
        self.modelo = SentenceTransformer('paraphrase-MiniLM-L6-v2')
        self.resumidor = pipeline("summarization", model="facebook/bart-large-cnn")
        self.index = None
        self.data = []
        self._cargar_y_indexar_datasets(datasets)

    def _cargar_y_indexar_datasets(self, datasets):
        embeddings = []
        for ruta, columnas, columna_embed, fuente in datasets:
            df = pd.read_csv(ruta, usecols=columnas)
            df['Fuente'] = fuente
            textos = df[columna_embed].fillna("").tolist()
            emb = self.modelo.encode(textos, convert_to_tensor=False)
            embeddings.extend(emb)
            self.data.extend(df.to_dict('records'))
        embeddings = np.array(embeddings, dtype='float32')
        self._crear_indice(embeddings)

    def _crear_indice(self, embeddings):
        dimension = embeddings.shape[1]
        self.index = faiss.IndexFlatL2(dimension)
        self.index.add(embeddings)

    def recomendar(self, preferencia, emocion):
        preferencia_en = translate(preferencia, "en")
        emocion_en = translate(emocion, "en")
        preferencia_embed = self.modelo.encode([preferencia_en], convert_to_tensor=False)
        _, indices = self.index.search(np.array(preferencia_embed, dtype='float32'), 3)
        return [self._formatear_recomendacion(self.data[i], emocion_en) for i in indices[0]]

    def _formatear_recomendacion(self, item, emocion):
        fuente = item['Fuente']
        titulo = item.get('Title', item.get('game_name', 'Sin título'))
        titulo_es = translate(titulo, "es")
        descripcion = item.get('description', item.get('Summary', 'Sin descripción'))
        resumen = self._resumir_y_traducir(descripcion)
        mensaje = f"{titulo_es} - {resumen} (Fuente: {fuente})"
        if emocion == 'happy':
            return f"¡Disfruta esto! {mensaje}"
        elif emocion == 'sad':
            return f"Esto podría animarte: {mensaje}"
        else:
            return f"Interesante opción: {mensaje}"

    def _resumir_y_traducir(self, texto):
        if len(texto.split()) > 50:
            resumen = self.resumidor(texto, max_length=50, min_length=25, do_sample=False)[0]['summary_text']
            return translate(resumen, "es")
        return translate(texto, "es")

datasets = [
    ('data/bgg_database.csv', ['game_name', 'description'], 'description', 'Juego'),
    ('data/books.csv', ['Title', 'Summary'], 'Summary', 'Libro'),
    ('data/IMDB-Movie-Data.csv', ['Title', 'Description'], 'Description', 'Película')
]

recomendador = RecomendadorFAISS(datasets)

respuesta = input("Describe tu día en una frase: ")
emotion = EmotionAnalyzer()
emocion_detectada = emotion.predict_emotion(respuesta)

preferencia = input("¿Qué temática te gustaría explorar? ")
recomendaciones = recomendador.recomendar(preferencia, emocion_detectada)

print(f"Estado emocional detectado: {emocion_detectada}")
print("Recomendaciones:")
print("\n" + "-" * 40)
for rec in recomendaciones:
    print(rec)
    print("-" * 40)


The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


modules.json:   0%|          | 0.00/229 [00:00<?, ?B/s]

config_sentence_transformers.json:   0%|          | 0.00/122 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/3.73k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/629 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/314 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]



1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/1.58k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/1.63G [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/363 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

KeyboardInterrupt: Interrupted by user

In [8]:
import ipywidgets as widgets
from IPython.display import display, clear_output

emotion = EmotionAnalyzer()
recomendador = RecomendadorFAISS(datasets)

frase_animo = widgets.Text(
    value='',
    placeholder='Describe tu día en una frase: ',
    description='Estado de Ánimo:',
    disabled=False
)

boton_animo = widgets.Button(
    description='Detectar Ánimo',
    button_style='primary'
)

output_animo = widgets.Output()

frase_preferencia = widgets.Text(
    value='',
    placeholder='¿Qué temática te gustaría explorar?',
    description='Preferencia:',
    disabled=True
)

boton_recomendar = widgets.Button(
    description='Recomendar',
    button_style='success',
    disabled=True
)

output_recomendaciones = widgets.Output()

emocion_detectada = None

def detectar_animo_callback(b):
    global emocion_detectada
    clear_output(wait=True)
    with output_animo:
        frase = frase_animo.value.strip()
        if frase:
            resultado = emotion.predict_emotion(frase)
            emocion_detectada = resultado
            print(f"Emoción detectada: {emocion_detectada}")

            frase_preferencia.disabled = False
            boton_recomendar.disabled = False
        else:
            print("Por favor, ingresa una frase válida.")

def recomendar_callback(b):
    clear_output(wait=True)
    with output_recomendaciones:
        preferencia = frase_preferencia.value.strip()
        if preferencia:
            recomendaciones = recomendador.recomendar(preferencia, emocion_detectada)

            print(f"Emoción: {emocion_detectada}")
            print(f"Preferencia: {preferencia}")
            print("Recomendaciones:")
            if recomendaciones:
                for rec in recomendaciones:
                    print(f"- {rec}")
            else:
                print("No se encontraron recomendaciones.")
        else:
            print("Por favor, ingresa una preferencia válida.")

boton_animo.on_click(detectar_animo_callback)
boton_recomendar.on_click(recomendar_callback)

display(
    frase_animo, boton_animo, output_animo,
    frase_preferencia, boton_recomendar, output_recomendaciones
)


config.json:   0%|          | 0.00/1.08k [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/435M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/384 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.31M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/167 [00:00<?, ?B/s]



Text(value='', description='Estado de Ánimo:', placeholder='Describe tu día en una frase: ')

Button(button_style='primary', description='Detectar Ánimo', style=ButtonStyle())

Output()

Text(value='', description='Preferencia:', disabled=True, placeholder='¿Qué temática te gustaría explorar?')

Button(button_style='success', description='Recomendar', disabled=True, style=ButtonStyle())

Output()