In [None]:
from google.colab import drive
drive.flush_and_unmount()
drive.mount('/content/drive/')

Mounted at /content/drive/


In [None]:
!pip install transformers
#from transformers import T5Tokenizer, T5ForConditionalGeneration
from transformers import MT5ForConditionalGeneration, MT5Tokenizer,AutoTokenizer
from transformers import TrainingArguments, Trainer
import pandas as pd
import json
import torch
import numpy as np



# Carga de base de conocimiento


In [None]:
ruta_base_conocimiento = "/content/drive/MyDrive/TFM_Pruebas_Investigación/Datos/Generador_Respuesta/baseConocimiento.csv"
df_etiquetas = pd.read_csv(ruta_base_conocimiento,encoding = 'utf-8', delimiter = ';', index_col=False)
pd.set_option("display.max_colwidth", None)  #Esto es para no truncar la columna de respuesta
print(df_etiquetas)

    Clase                                 Etiqueta  \
0       0                     IMPORTACION_CONCEPTO   
1       1                  IMPORTACION_DECLARACION   
2       2          PLAZO_PRESENTACION_303_GENERICO   
3       3            REGIMEN_ESPECIAL_SIMPLIFICADO   
4       4    REGIMEN_ESPECIAL_RECARGO_EQUIVALENCIA   
5       5        APLICA_RE_RECARGO_EQUIVALENCIA_SI   
6       6        APLICA_RE_RECARGO_EQUIVALENCIA_NO   
7       7                      LISTADO_MODELOS_IVA   
8       8  DEDUCCION_MATERIAL_PROFESIONAL_PERSONAL   
9       9                      DEDUCCION_VEHICULOS   
10     10                      IVA_COMPRA_VIVIENDA   
11     11            OPERACIONES_INTRACOMUNITARIAS   

                                                                                                                                                                                                                                                                                                         

# Parte 1) Clasificar la pregunta

In [None]:
from transformers import BertTokenizer, BertForSequenceClassification

# Cargar el modelo y el tokenizer
ruta_modelo_clasificador = "/content/drive/MyDrive/TFM_Pruebas_Investigación/01-clasificador_pregunta_pytorch"
model_clasificador = BertForSequenceClassification.from_pretrained(ruta_modelo_clasificador)
tokenizer_clasificador = BertTokenizer.from_pretrained(ruta_modelo_clasificador)

# Configurar el modelo para inferencia
model_clasificador.eval()

BertForSequenceClassification(
  (bert): BertModel(
    (embeddings): BertEmbeddings(
      (word_embeddings): Embedding(31002, 768, padding_idx=1)
      (position_embeddings): Embedding(512, 768)
      (token_type_embeddings): Embedding(2, 768)
      (LayerNorm): LayerNorm((768,), eps=1e-12, elementwise_affine=True)
      (dropout): Dropout(p=0.1, inplace=False)
    )
    (encoder): BertEncoder(
      (layer): ModuleList(
        (0-11): 12 x BertLayer(
          (attention): BertAttention(
            (self): BertSdpaSelfAttention(
              (query): Linear(in_features=768, out_features=768, bias=True)
              (key): Linear(in_features=768, out_features=768, bias=True)
              (value): Linear(in_features=768, out_features=768, bias=True)
              (dropout): Dropout(p=0.1, inplace=False)
            )
            (output): BertSelfOutput(
              (dense): Linear(in_features=768, out_features=768, bias=True)
              (LayerNorm): LayerNorm((768,), eps=1e

In [None]:
import torch.nn.functional as F  # Para usar softmax

def clasificador_pregunta(input_sentence, umbral_confianza=0.25):
    """
    Clasifica una pregunta y devuelve la clase predicha.
    Si la confianza no está dentro del umbral, devuelve "clase no reconocida".

    :param input_sentence: Frase de entrada a clasificar
    :param umbral_confianza: Valor mínimo de confianza para aceptar la clasificación
    :return: Clase predicha o "clase no reconocida"
    """
    # Tokenizar el texto
    inputs_class = tokenizer_clasificador(
        input_sentence,
        return_tensors="pt",  # Formato PyTorch
        padding="max_length",
        truncation=False,
        max_length=512
    )
    #print(inputs_class)

    # Mover los tensores al dispositivo adecuado
    device = torch.device("cuda") if torch.cuda.is_available() else torch.device("cpu")
    model_clasificador.to(device)
    inputs_class = {key: val.to(device) for key, val in inputs_class.items()}

    # Inferencia
    with torch.no_grad():
        outputs = model_clasificador(**inputs_class)
        logits = outputs.logits
        probabilidades = F.softmax(logits, dim=-1)  # Obtener probabilidades

        # Imprimir para depuración
        #print(f"Logits: {logits}")
        #print(f"Probabilidades: {probabilidades}")

        confianza_maxima, inferencia_clase = torch.max(probabilidades, dim=-1)  # Confianza y clase predicha

    # Verificar si la confianza está dentro del umbral
    if confianza_maxima.item() < umbral_confianza:
        #print(f"Confianza baja ({confianza_maxima.item():.2f}), devolviendo respuesta genérica.")
        return "clase no reconocida"
    else:
        #print(f"Predicted class: {inferencia_clase.item()}, Confianza: {confianza_maxima.item():.2f}")
        return inferencia_clase.item()

# Parte 2) Generar el texto

In [None]:
ruta_modelo_generativo = "/content/drive/MyDrive/TFM_Pruebas_Investigación/02-FineTunning_mtT5/02-GeneradorRespuesta-mt5"


model_generativo = MT5ForConditionalGeneration.from_pretrained(ruta_modelo_generativo)
tokenizer_generativo = AutoTokenizer.from_pretrained(ruta_modelo_generativo, use_fast=False)

def generate_answer(context, question):
    input_text = f"contexto: {context} pregunta: {question}"
    inputs = tokenizer_generativo(input_text, return_tensors="pt", max_length=512, truncation=True)

    for key in inputs:
        inputs[key] = inputs[key].to(model_generativo.device)

    outputs = model_generativo.generate(**inputs, max_length=256, num_beams=5, no_repeat_ngram_size=2, early_stopping=True)
    print(outputs)
    return tokenizer_generativo.decode(outputs[0], skip_special_tokens=True)

In [None]:
# Formatear la pregunta y el contexto en español
pregunta = "como se declara una importacion?"
prediccion = clasificador_pregunta(pregunta)
dato = df_etiquetas[df_etiquetas["Clase"] == prediccion]
pd.set_option("display.max_colwidth", None)  #Esto es para no truncar la columna de respuesta
#contexto =  dato["contexto"].to_string(index=False)
#print(generar_answer(contexto, pregunta))
print(dato)

Logits: tensor([[ 2.4035,  2.1117, -0.1621, -0.5761, -0.4757, -0.5560, -0.8658, -0.5995,
         -0.4657, -0.7650, -0.3686, -0.3308]], device='cuda:0')
Probabilidades: tensor([[0.4354, 0.3252, 0.0335, 0.0221, 0.0245, 0.0226, 0.0166, 0.0216, 0.0247,
         0.0183, 0.0272, 0.0283]], device='cuda:0')
   Clase              Etiqueta  \
0      0  IMPORTACION_CONCEPTO   

                                                                                                Contexto  
0  La importación es la entrada de mercancías procedentes de terceros países dentro de la Unión Europea.  


In [None]:
clasificador_pregunta(pregunta)

Logits: tensor([[ 2.4035,  2.1117, -0.1621, -0.5761, -0.4757, -0.5560, -0.8658, -0.5995,
         -0.4657, -0.7650, -0.3686, -0.3308]], device='cuda:0')
Probabilidades: tensor([[0.4354, 0.3252, 0.0335, 0.0221, 0.0245, 0.0226, 0.0166, 0.0216, 0.0247,
         0.0183, 0.0272, 0.0283]], device='cuda:0')


0

In [None]:
# artículo interesante: https://huggingface.co/blog/how-to-generate
def generar_respuesta(pregunta):
    """
    Generación de la respuesta a una pregunta.

    :param pregunta: Pregunta introducida por el usuario.
    :return: Respuesta (si la pregunta está correctamente clasificada)
             o mensaje de error (si la pregunta no está correctamente clasificada).
    """
    ruta_modelo_generativo = "/content/drive/MyDrive/TFM_Pruebas_Investigación/02-FineTunning_mtT5/02-GeneradorRespuesta-mt5"
    tokenizer_generativo = AutoTokenizer.from_pretrained(ruta_modelo_generativo, use_fast=False)
    model_generativo = MT5ForConditionalGeneration.from_pretrained(ruta_modelo_generativo)
    # Importar datos desde base de conocimiento
    pd.set_option("display.max_colwidth", None)  #Esto es para no truncar la columna de respuesta
    df_etiquetas = pd.read_csv(ruta_base_conocimiento,encoding = 'utf-8', delimiter = ';', index_col=False)
    if clasificador_pregunta(pregunta) != "clase no reconocida":
      dato = df_etiquetas[df_etiquetas["Clase"] == clasificador_pregunta(pregunta)]
      contexto = dato["Contexto"].to_string(index=False)
      # Texto de entrada
      """
      Contexto: procede de la base de conocimiento
      pregunta: es el input del usuario
      """
      input_text = f"contexto: {contexto} pregunta: {pregunta}"
      inputs = tokenizer_generativo(input_text, return_tensors="pt", max_length=512, truncation=True)

      # Mover inputs a la GPU si estuviese disponible
      for key in inputs:
        inputs[key] = inputs[key].to(model_generativo.device)

      #outputs = model_generativo.generate(**inputs, max_length=256, num_beams=2, no_repeat_ngram_size=2, early_stopping=False,temperature=0.8,)
      outputs = model_generativo.generate(**inputs, max_length=256,
                                          num_beams=10,
                                          num_return_sequences=6,
                                          no_repeat_ngram_size=3,
                                          early_stopping=True,
                                          temperature=0.8,
                                          top_p=0.95,
                                          repetition_penalty=1.2,
                                          do_sample=True
                                          )
      print(f"longitud input:{inputs}")
      print(f"longitud codec:{len(outputs[0])}")
      #print(f"salidas codec:{outputs}")
      for z, outputs in enumerate(outputs):
          print("{}: {}".format(z, tokenizer_generativo.decode(outputs, skip_special_tokens=True)))
      return tokenizer_generativo.decode((outputs[0]), skip_special_tokens=True)
    else:
      return "No comprendo la pregunta. Por favor ¿Puede volver a repetirla?"

In [None]:
generar_respuesta("cuand hay que presentar el modelo 303?")

longitud input:{'input_ids': tensor([[ 19730,    268,    267,    789,  27843,    268,    269,    259,  64526,
            426,  13734,  75744,  57367,    426,    259,  96038,    269,    259,
         122929,    269,    283,   7867,    260,   4724,   1559,    261,    335,
          25552,  95925,   8196,  32985,    878,  53121,  11550,    362,   6869,
            628,    426,   3525,   4375,    426,  53121,    265,  20497,    440,
          53121,    265,    269,  22041,   1434,    261,    658,  18010,    319,
            573,   7867,    319,    259, 179072,   1280,    269,    570,    658,
          33747,    269,  13666,    269,  67606,  32985,    878,   9665,  75339,
            362,    259,   5532,    268,   6869,  10368,   6071,    426,   4375,
          20497,    440,    259,  31819,    269,  22041,   1434,    260,  22056,
            267,    651,   1963,   2318,    319,  32985,    362,  13734,  75744,
            291,      1]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1

''

In [None]:
generar_respuesta("cual es el trimestre de liquidacion")

Logits: tensor([[ 0.5442,  1.1172, -0.5343, -0.0396,  0.1759, -0.7209, -1.0805,  1.5627,
         -0.6821, -0.7227, -0.2148,  0.2055]], device='cuda:0')
Probabilidades: tensor([[0.1067, 0.1893, 0.0363, 0.0595, 0.0739, 0.0301, 0.0210, 0.2956, 0.0313,
         0.0301, 0.0500, 0.0761]], device='cuda:0')
Logits: tensor([[ 0.5442,  1.1172, -0.5343, -0.0396,  0.1759, -0.7209, -1.0805,  1.5627,
         -0.6821, -0.7227, -0.2148,  0.2055]], device='cuda:0')
Probabilidades: tensor([[0.1067, 0.1893, 0.0363, 0.0595, 0.0739, 0.0301, 0.0210, 0.2956, 0.0313,
         0.0301, 0.0500, 0.0761]], device='cuda:0')
longitud input:{'input_ids': tensor([[ 19730,    268,    267,    642,   3525,   5967,    303,    269,  67606,
          32985,    283,  25671,    931,    426,   9010,    289,    362,   2585,
          33469,    269,  63756,  31037,    261,  72229,    299,    259,    276,
            788,    687,  71724,  28895,    346,    362,  13734,    259, 157480,
          16140, 143631,    265,    303,   

''

In [None]:
var_debug = generar_respuesta("¿puedo darme de alta en el regimen del recargo de equivalencia si tengo una tienda de artículos deportivos?")
print(var_debug)
tens_decod= tokenizer_generativo.decode(var_debug)

Logits: tensor([[-1.3157, -0.8105, -0.7924,  0.2020,  0.5107,  0.6433,  0.4778, -0.4720,
          0.9244,  0.4416, -0.4726,  0.6665]], device='cuda:0')
Probabilidades: tensor([[0.0181, 0.0300, 0.0305, 0.0825, 0.1123, 0.1282, 0.1086, 0.0420, 0.1698,
         0.1048, 0.0420, 0.1312]], device='cuda:0')
No comprendo la pregunta. Por favor ¿Puede volver a repetirla?


ValueError: invalid literal for int() with base 10: 'N'

In [None]:
tokenizer_generativo.decode(var_debug[0])

In [None]:
generar_respuesta("¿Puedo deducirme la compra de un ordenador portatil para uso personal")

In [None]:
print(clasificador_pregunta("donde debo declarar las patatas que compro al extranjero"))

In [None]:
generar_respuesta("si tengo un concesionario de coches puedo darme de alta en el regimen del recargo de equivalencia")