In [1]:
from transformers import AutoModelForQuestionAnswering, AutoTokenizer
# ========================================================
# Importas:
# AutoModelForQuestionAnswering → modelo de Pregunta-Respuesta.
# AutoTokenizer → el tokenizador correspondiente al modelo.
# ========================================================
# https://huggingface.co/mrm8488/bert-base-spanish-wwm-cased-finetuned-spa-squad2-es


model_id = "mrm8488/bert-base-spanish-wwm-cased-finetuned-spa-squad2-es"
# model_id Guardas el nombre del modelo de QA en español que vas a usar (entrenado con SQuAD-es).
model = AutoModelForQuestionAnswering.from_pretrained(model_id)
# AutoModelForQuestionAnswering
# Es una clase de la librería Transformers diseñada específicamente para tareas de Pregunta y Respuesta (Question Answering).
# A diferencia de un AutoModel genérico, este incluye la “capa final” (head) que predice dos posiciones dentro del texto:
# start_logits → dónde empieza la respuesta.
# end_logits → dónde termina la respuesta.
# .from_pretrained(model_id)
# Esta función carga un modelo ya entrenado (pretrained) desde:
# Hugging Face Hub (si pones el nombre, como "mrm8488/bert-base-spanish-wwm-cased-finetuned-spa-squad2-es").
# O desde una carpeta local (si tienes los archivos en tu PC).
tokenizer = AutoTokenizer.from_pretrained(model_id)
# El tokenizador correcto (convierte texto ↔ números).
context = "Soy un Doctor que vive en Europa.Me gusta mucho el futbol"
question = "¿Que deporte me gusta?"

input = tokenizer(question, context, return_tensors="pt")
print(input)
# Aquí ocurre lo clave:
# Tomas la pregunta y el contexto, y el tokenizer los convierte en tensores numéricos que el modelo pueda entender.
# return_tensors='pt' significa que quieres los tensores en PyTorch (si hubieras puesto 'tf', serían en TensorFlow).
# input es un diccionario con varios tensores, típicamente:
# =====================Nota=======================================
# Un tensor es como una caja de datos (números, matrices, vectores, imágenes, etc.).
# Permite hacer operaciones rápidas sobre todos los elementos a la vez (brillo, filtros, transformaciones).
# En IA, las imágenes, texto y sonido se convierten en tensores para que las redes neuronales los procesen.
# 👉 En resumen: el tensor es la unidad básica de datos en Deep Learning.
# =============================================================

  from .autonotebook import tqdm as notebook_tqdm
To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development
Some weights of the model checkpoint at mrm8488/bert-base-spanish-wwm-cased-finetuned-spa-squad2-es were not used when initializing BertForQuestionAnswering: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForQuestionAnswering from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForQuestionAnswering from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification m

{'input_ids': tensor([[    4,  1067,  1038, 10473,  1129,  2816,  1064,     5,  2020,  1049,
          4253,  1038,  6134,  1036,  2410,  1270,  1009,  1129,  2816,  1789,
          1040, 10404,     5]]), 'token_type_ids': tensor([[0, 0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]), 'attention_mask': tensor([[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]])}


In [2]:
import torch

text_tokenizado = {
    "input_ids": torch.tensor(
        [
            [
                4,
                1067,
                1038,
                29324,
                1847,
                1064,
                5,
                2020,
                1049,
                4253,
                1038,
                6134,
                1036,
                2410,
                1270,
                1009,
                1129,
                2816,
                1789,
                1040,
                10404,
                5,
            ]
        ]
    ),
    "token_type_ids": torch.tensor(
        [[0, 0, 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]
    ),
    "attention_mask": torch.tensor(
        [[1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1, 1]]
    ),
}
# input_ids: los IDs de los tokens (representación numérica de cada palabra).
# token_type_ids: diferencia entre la pregunta (segmento A) y el contexto (segmento B).
# attention_mask: indica qué tokens son reales y cuáles son padding (relleno).

In [3]:
output = model(**input)
print(output)
# obtienes las posiciones start_logits y end_logits que marcan dónde está la respuesta en el texto.

QuestionAnsweringModelOutput(loss=None, start_logits=tensor([[ 1.4933, -8.4283, -8.0740, -6.8037, -6.7983, -6.1451, -7.8391, -4.5331,
         -1.3856, -3.9809, -2.2416, -4.8606, -4.6734, -4.2067, -1.4266, -6.8739,
         -5.7209,  1.9553, -0.7485,  0.4346,  1.4888,  6.6845, -4.5328]],
       grad_fn=<CloneBackward0>), end_logits=tensor([[ 1.8208, -7.8807, -7.9114, -5.7946, -6.7265, -6.2309, -6.9584, -5.3697,
         -2.6152, -5.7624, -2.6314, -4.4624, -5.6189, -4.9638, -5.7476, -2.4571,
         -2.1972, -1.6835, -1.6827, -1.5078,  0.2216,  7.3278, -5.3692]],
       grad_fn=<CloneBackward0>), hidden_states=None, attentions=None)


In [4]:
# start_index y end_index son las coordenadas de inicio y fin de la respuesta dentro del texto tokenizado.
start_index = output.start_logits.argmax()
end_index = output.end_logits.argmax()

print(start_index, end_index)

tensor(21) tensor(21)


In [5]:
tokens = tokenizer.convert_ids_to_tokens(
    input["input_ids"][0][start_index : end_index + 1]
)
# o que hace es reconstruir las palabras de la respuesta que el modelo detectó dentro del texto
print(tokens)

['futbol']


In [6]:
response = tokenizer.convert_tokens_to_string(tokens)
# convert_tokens_to_string(tokens) = une esas piezas en un texto legible para humanos
print(response)

futbol
