### BERT -> **Pregustas y respuestas**

In [1]:
# Importamos las librerias necesarias de transformers
from transformers import AutoTokenizer, AutoModelForQuestionAnswering, pipeline

# AutoTokenizer es el tokenizador que se va a utilizar para el modelo
# AutoModelForQuestionAnswering es el modelo que se va a utilizar para la pregunta y respuesta
# pipeline es el pipeline que se va a utilizar para la pregunta y respuesta

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
# Cargamos el modelo y el tokenizador
the_model = 'mrm8488/distill-bert-base-spanish-wwm-cased-finetuned-spa-squad2-es'
tokenizer = AutoTokenizer.from_pretrained(the_model, do_lower_case=False)

# Cargamos el modelo
model = AutoModelForQuestionAnswering.from_pretrained(the_model)

Some weights of the model checkpoint at mrm8488/distill-bert-base-spanish-wwm-cased-finetuned-spa-squad2-es were not used when initializing BertForQuestionAnswering: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForQuestionAnswering from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForQuestionAnswering from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


In [4]:
# Ejemplo de pregunta y respuesta
question = "¿Cuál es la capital de Colombia?"
context = "La capital de Colombia es Bogotá y está situada en el centro del país."

# Codificamos la pregunta y respuesta (contexto)
encode = tokenizer.encode_plus(question, context, return_tensors='pt')

# Se saca los inputs_ids
input_ids = encode['input_ids'].tolist()

# Sacamos los tokens
tokens = tokenizer.convert_ids_to_tokens(input_ids[0])

# redorremos los tokens
for id, token in zip(input_ids[0], tokens):
    print('{:<12} {:>6}'.format(token, id))
    print('')

[CLS]             4

¿              1067

Cuál           4542

es             1058

la             1030

capital        3611

de             1008

Colombia       6634

?              1064

[SEP]             5

La             1198

capital        3611

de             1008

Colombia       6634

es             1058

Bogotá        17521

y              1042

está           1266

situada        7757

en             1036

el             1040

centro         3040

del            1072

país           1560

.              1009

[SEP]             5



In [5]:
# Ejemplo de inferencia (pregunta y respuesta)
nlp = pipeline('question-answering', model=model, tokenizer=tokenizer)

# Se obtiene la salida del modelo
output = nlp(question=question, context=context)

# Se imprime la salida
print(output)


Device set to use cpu


{'score': 0.9815140962600708, 'start': 26, 'end': 32, 'answer': 'Bogotá'}
