# Clasificador

## Por embeddings

In [1]:
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, classification_report
import nltk

# Descargar las stopwords necesarias
nltk.download('stopwords')
from nltk.corpus import stopwords

# Stopwords en español
spanish_stop_words = stopwords.words('spanish')

# Categorías y etiquetas
labels = [
    (0, "reglas del juego"),
    (1, "mecánicas del juego"),
    (2, "historia del juego"),
    (3, "tipos de uvas"),
    (4, "acciones que se pueden realizar"),
    (5, "cartas de órdenes de vinos"),
    (6, "cartas de visitantes"),
    (7, "puntaje del juego en un ranking"),
    (8, "estrategias"),
]

# Dataset con las consultas
dataset = [
    # Reglas del juego
    (0, "¿Cuántos jugadores pueden participar en una partida de Viticulture?"),
    (0, "¿Qué ocurre si dos jugadores empatan al final del juego?"),
    (0, "¿Cómo se elige al primer jugador de la partida?"),
    (0, "¿Cuándo se deben cosechar las uvas en Viticulture?"),
    (0, "¿Cuál es la regla para construir estructuras en mi viñedo?"),
    (0, "¿Qué pasa si no puedo cumplir una carta de pedido de vino?"),
    (0, "¿Hay límite en la cantidad de trabajadores que puedo colocar?"),
    (0, "¿Se puede realizar la misma acción dos veces en un turno?"),
    (0, "¿Puedo vender una carta de visitante si no quiero usarla?"),

    # Mecánicas del juego
    (1, "¿Cómo funcionan los turnos en las distintas estaciones?"),
    (1, "¿De qué manera se utiliza la ficha de trabajador grande?"),
    (1, "¿Qué mecánica se utiliza para ganar puntos de victoria?"),
    (1, "¿Cómo se gestionan los recursos de monedas y uvas en el juego?"),
    (1, "¿Qué estrategias hay para colocar a los trabajadores eficientemente?"),
    (1, "¿Cómo influye el orden del turno en la mecánica del juego?"),
    (1, "¿Qué debo priorizar: expandir mi viñedo o producir vino?"),
    (1, "¿Qué ocurre si me quedo sin dinero en las primeras rondas?"),
    (1, "¿Cuánto afecta la elección de cartas en la estrategia general?"),

    # Historia del juego
    (2, "¿En qué contexto histórico está inspirado Viticulture?"),
    (2, "¿Qué país influyó en el diseño del juego?"),
    (2, "¿El juego tiene elementos históricos reales o es completamente ficticio?"),
    (2, "¿Cuáles son las principales referencias culturales presentes en el diseño?"),
    (2, "¿Qué representan las estaciones en términos históricos?"),
    (2, "¿Cómo se refleja el proceso real de producción de vino en el juego?"),
    (2, "¿Hay alguna conexión entre las cartas de visitante y figuras históricas reales?"),
    (2, "¿Qué compañía desarrolló el juego?"),

    # Tipos de uvas
    (3, "¿Cuántos tipos de uvas se pueden cultivar en el juego?"),
    (3, "¿Qué diferencias hay entre las uvas blancas y las uvas tintas?"),
    (3, "¿Qué uvas son más rentables para producir vino?"),
    (3, "¿Qué tipo de uva debo elegir para comenzar el juego?"),
    (3, "¿Cómo puedo aumentar la calidad de las uvas en mi viñedo?"),
    (3, "¿Qué cartas me ayudan a plantar más uvas?"),
    (3, "¿Es posible mezclar uvas de diferentes colores para un pedido?"),
    (3, "¿Qué pasa si no tengo espacio suficiente para plantar uvas nuevas?"),
    (3, "¿Cuántos puntos me otorgan las uvas al final del juego?"),
    (3, "¿Cómo influyen las variedades de uvas en la producción de vino?"),

    # Acciones que se pueden realizar
    (4, "¿Qué acciones están disponibles en la estación de verano?"),
    (4, "¿Qué puedo hacer durante la estación de invierno?"),
    (4, "¿Qué requisitos debo cumplir para plantar una vid?"),
    (4, "¿Cuántas acciones puedo realizar por turno con un trabajador?"),
    (4, "¿Cómo funciona la acción de entrenar trabajadores?"),
    (4, "¿Es obligatorio realizar una acción cada turno?"),
    (4, "¿Cuál es la acción que más puntos otorga?"),

    # Cartas de órdenes de vinos
    (5, "¿Cuántas cartas de órdenes de vino puedo completar en un turno?"),
    (5, "¿Qué beneficios obtengo al cumplir una carta de orden de vino?"),
    (5, "¿Cómo funcionan los puntos de victoria al completar una carta de vino?"),
    (5, "¿Qué tipos de vino se requieren en las cartas de pedido?"),
    (5, "¿Puedo rechazar una carta de orden de vino que no me convenga?"),
    (5, "¿Cómo influyen las cartas de orden de vino en la estrategia del juego?"),
    (5, "¿Se pueden intercambiar cartas de órdenes de vino con otros jugadores?"),

    # Cartas de visitantes
    (6, "¿Qué beneficios me dan las cartas de visitante en verano?"),
    (6, "¿Cómo funcionan las cartas de visitante de invierno?"),
    (6, "¿Qué efecto tiene la carta del Arquitecto?"),
    (6, "¿Qué tipo de efectos tienen las cartas de visitante?"),
    (6, "¿Qué efecto tiene la carta del Plantador?"),

    # Puntaje del juego en un ranking
    (7, "¿En qué lugar está Viticulture en el ranking de juegos de mesa?"),
    (7, "¿Qué puntuación tiene Viticulture en BoardGameGeek?"),
    (7, "¿Cómo se compara Viticulture con otros juegos de colocación de trabajadores?"),
    (7, "¿Qué críticas ha recibido el juego por parte de los usuarios?"),
    (7, "¿Viticulture es considerado un juego difícil o accesible?"),
    (7, "¿Es Viticulture un juego recomendado para jugadores expertos?"),
    (7, "¿Cuáles son los juegos que tienen mejor puntaje que Viticulture?"),

    # Estrategias
    (8, "¿Cuál es la mejor estrategia para ganar puntos de victoria rápidamente?"),
    (8, "¿Es mejor centrarse en cumplir órdenes de vino o en construir estructuras?"),
    (8, "¿Qué estrategia puedo usar si tengo pocos trabajadores disponibles?"),
    (8, "¿Cómo priorizo entre plantar uvas y producir vino?"),
    (8, "¿Qué acciones son más importantes en las primeras rondas?"),
    (8, "¿Es más rentable entrenar trabajadores al inicio o al final del juego?"),
    (8, "¿Qué cartas de visitante son clave para una buena estrategia?"),
    (8, "¿Cómo puedo adaptarme si un oponente bloquea las acciones que necesito?"),
    (8, "¿Cuál es la mejor manera de gestionar mis monedas durante el juego?"),
]

# Preparamos los datos
X = [text.lower() for label, text in dataset]
y = [label for label, text in dataset]

# División del dataset
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Vectorización
vectorizer = TfidfVectorizer(stop_words=spanish_stop_words)
X_train_vectorized = vectorizer.fit_transform(X_train)
X_test_vectorized = vectorizer.transform(X_test)

# Modelo
modelo_LR = LogisticRegression(max_iter=1000, multi_class='multinomial', solver='lbfgs', random_state=42)
modelo_LR.fit(X_train_vectorized, y_train)

# Evaluación
y_pred_LR = modelo_LR.predict(X_test_vectorized)
print("Precisión del modelo:", accuracy_score(y_test, y_pred_LR))
print("Reporte de clasificación:\n", classification_report(y_test, y_pred_LR))

# Clasificación de nuevas consultas
def clasificar_consulta(consulta):
    consulta_vectorizada = vectorizer.transform([consulta.lower()])
    prediccion = modelo_LR.predict(consulta_vectorizada)
    return labels[prediccion[0]][1]

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Unzipping corpora/stopwords.zip.


Precisión del modelo: 0.26666666666666666
Reporte de clasificación:
               precision    recall  f1-score   support

           0       0.00      0.00      0.00         3
           1       0.00      0.00      0.00         3
           2       1.00      0.50      0.67         2
           3       0.40      1.00      0.57         2
           5       0.00      0.00      0.00         2
           6       0.00      0.00      0.00         1
           7       0.50      0.50      0.50         2
           8       0.00      0.00      0.00         0

    accuracy                           0.27        15
   macro avg       0.24      0.25      0.22        15
weighted avg       0.25      0.27      0.23        15



  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [2]:
# Ejemplo
consulta = "¿Qué pasa si no puedo cumplir una carta de pedido de vino?"
print("Consulta:", consulta)
print("Categoría predicha:", clasificar_consulta(consulta))

Consulta: ¿Qué pasa si no puedo cumplir una carta de pedido de vino?
Categoría predicha: estrategias


In [3]:
# Ejemplo
consulta = "¿Quién es el creador del juego?"
print("Consulta:", consulta)
print("Categoría predicha:", clasificar_consulta(consulta))

Consulta: ¿Quién es el creador del juego?
Categoría predicha: historia del juego


In [4]:
# Ejemplo
consulta = "¿Qué hace la carta de visitante Proveedor?"
print("Consulta:", consulta)
print("Categoría predicha:", clasificar_consulta(consulta))

Consulta: ¿Qué hace la carta de visitante Proveedor?
Categoría predicha: cartas de visitantes


## Usando GPT2

In [5]:
!pip install transformers
!pip install torch



In [6]:
from transformers import pipeline, GPT2LMHeadModel, GPT2Tokenizer

# Cargar el modelo y el tokenizador de GPT-2
model_name = "gpt2"
tokenizer = GPT2Tokenizer.from_pretrained(model_name)
model = GPT2LMHeadModel.from_pretrained(model_name)

def clasificar_consulta_gpt(consulta):

    categories = [
        "Reglas del juego",
        "Mecánicas del juego",
        "Historia del juego",
        "Tipos de uvas",
        "Acciones",
        "Órdenes de vinos",
        "Cartas de Visitantes",
        "Ranking"
    ]

    # Creo un prompt específico para pedir la clasificación
    prompt = f"Clasifica esta pregunta: {consulta}\nDentro de una de estas categorías: {', '.join(categories)}\nClasificación de la pregunta: "

    # Tokenizar el prompt
    input_ids = tokenizer.encode(prompt, return_tensors='pt')

    # Establecer el token de relleno y la máscara de atención
    attention_mask = (input_ids != tokenizer.eos_token_id).type(input_ids.dtype)
    pad_token_id = tokenizer.eos_token_id

    # Generar la respuesta con un enfoque de clasificación directa
    output = model.generate(input_ids, attention_mask=attention_mask, max_length=150, num_return_sequences=1, pad_token_id=pad_token_id)

    # Decodificar y extraer la categoría
    generated_text = tokenizer.decode(output[0], skip_special_tokens=True)

    # Obtener la categoría predicha
    for category in categories:
        if category.lower() in generated_text.lower():
            return category
    return "Categoría no encontrada"

The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/26.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.04M [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.36M [00:00<?, ?B/s]

config.json:   0%|          | 0.00/665 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/548M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/124 [00:00<?, ?B/s]

In [7]:
# Ejemplo
consulta = "¿Qué pasa si no puedo cumplir una carta de pedido de vino?"
print("Consulta:", consulta)
print("Categoría predicha:", clasificar_consulta_gpt(consulta))

Consulta: ¿Qué pasa si no puedo cumplir una carta de pedido de vino?
Categoría predicha: Reglas del juego


In [8]:
# Ejemplo
consulta = "¿Cuándo se creó el juego?"
print("Consulta:", consulta)
print("Categoría predicha:", clasificar_consulta_gpt(consulta))

Consulta: ¿Cuándo se creó el juego?
Categoría predicha: Reglas del juego


In [9]:
# Ejemplo
consulta = "¿Qué hace la carta de visitante Proveedor?"
print("Consulta:", consulta)
print("Categoría predicha:", clasificar_consulta_gpt(consulta))

Consulta: ¿Qué hace la carta de visitante Proveedor?
Categoría predicha: Reglas del juego


## Usando HuggingFace

In [10]:
!pip install jinja2 huggingface_hub
!pip install python-decouple

Collecting python-decouple
  Downloading python_decouple-3.8-py3-none-any.whl.metadata (14 kB)
Downloading python_decouple-3.8-py3-none-any.whl (9.9 kB)
Installing collected packages: python-decouple
Successfully installed python-decouple-3.8


In [11]:
import requests
from jinja2 import Template
import re

def zephyr_chat_template(messages, add_generation_prompt=True):
    # Definir la plantilla Jinja
    template_str  = "{% for message in messages %}"
    template_str += "{% if message['role'] == 'user' %}"
    template_str += "<|user|>{{ message['content'] }}</s>\n"
    template_str += "{% elif message['role'] == 'assistant' %}"
    template_str += "<|assistant|>{{ message['content'] }}</s>\n"
    template_str += "{% elif message['role'] == 'system' %}"
    template_str += "<|system|>{{ message['content'] }}</s>\n"
    template_str += "{% else %}"
    template_str += "<|unknown|>{{ message['content'] }}</s>\n"
    template_str += "{% endif %}"
    template_str += "{% endfor %}"
    template_str += "{% if add_generation_prompt %}"
    template_str += "<|assistant|>\n"
    template_str += "{% endif %}"

    # Crear un objeto de plantilla con la cadena de plantilla
    template = Template(template_str)

    # Renderizar la plantilla con los mensajes proporcionados
    return template.render(messages=messages, add_generation_prompt=add_generation_prompt)


# Función para clasificar la consulta
def clasificar_consulta_hf(consulta):
    # Tu clave API de Hugging Face
    api_key = "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"  # Aquí va la clave hf_xxxxxxxxxxxxxxxxxxxxxx...

    # URL de la API de Hugging Face para la generación de texto
    api_url = "https://api-inference.huggingface.co/models/HuggingFaceH4/zephyr-7b-beta"

    # Cabeceras para la solicitud
    headers = {"Authorization": f"Bearer {api_key}"}

    # Preparamos el prompt para la clasificación
    chat_prompt = [
        {"role": "system", "content": "Eres un clasificador de preguntas sobre el juego Viticulture."},
        {"role": "user", "content": f"""
        Devuelve sólo el nombre de la categoría en la que se encuentra esta pregunta:'{consulta}'.
        Las opciones son:
        Reglas del juego,
        Mecánicas del juego,
        Historia del juego,
        Tipos de uvas,
        Acciones,
        Cartas de órdenes de vinos,
        Cartas de visitantes,
        Ranking
        """}
    ]

    # Construimos el prompt con la plantilla
    prompt_with_template = zephyr_chat_template(chat_prompt)

    # Datos para enviar en la solicitud POST
    data = {
        "inputs": prompt_with_template,
        "parameters": {
            "max_new_tokens": 70,  # Limitar la cantidad de tokens generados para evitar respuestas largas
            "temperature": 0.7,
            "top_k": 50,
            "top_p": 0.95
        }
    }

    # Realizamos la solicitud POST
    response = requests.post(api_url, headers=headers, json=data)

    # Procesar la respuesta
    try:
        # Obtener el texto generado
        generated_text = response.json()[0]['generated_text']
        #print(response.json())

        # Extraer solo la parte después de <|assistant|> (texto generado por el asistente)
        assistant_text = generated_text.split("<|assistant|>")[-1].strip()

        # Selecciono sólo la primera oración, ya que el asistente agrega información
        assistant_text = re.split(r'(?<=\.)\s*', assistant_text)[0].strip()

        # Verificar si se obtuvo una categoría válida
        categories = [
            "Reglas del juego", "Mecánicas del juego", "Historia del juego",
            "Tipos de uvas", "Acciones",
            "Cartas de órdenes de vinos", "Cartas de visitantes", "Ranking"
        ]

        # Buscar la categoría en el texto generado
        for category in categories:
            if category.lower() in assistant_text.lower():
                return category

        # Si no se encontró una categoría válida, devolver un mensaje
        return "No se puede clasificar la pregunta"

    except Exception as e:
        # Si hubo un error procesando la respuesta
        return f"Error al procesar la respuesta: {str(e)}"

In [12]:
# Ejemplo
consulta = "¿Qué pasa si no puedo cumplir una carta de pedido de vino?"
print("Consulta:", consulta)
print("Categoría predicha:", clasificar_consulta_hf(consulta))

Consulta: ¿Qué pasa si no puedo cumplir una carta de pedido de vino?
Categoría predicha: Cartas de órdenes de vinos


In [13]:
# Ejemplo
consulta = "¿Quién es el creador del juego?"
print("Consulta:", consulta)
print("Categoría predicha:", clasificar_consulta_hf(consulta))

Consulta: ¿Quién es el creador del juego?
Categoría predicha: Historia del juego


In [None]:
# Ejemplo
consulta = "¿Qué hace la carta de visitante Proveedor?"
print("Consulta:", consulta)
print("Categoría predicha:", clasificar_consulta_hf(consulta))

Consulta: ¿Qué hace la carta de visitante Proveedor?
