## Question & Answer

Creating a Question-Answer Transformer model or QA Transformer can be beneficial for several reasons, particularly in the field of Natural Language Processing (NLP). Here are some compelling reasons why you might want to develop a QA Transformer:

1. **Question-Answering Systems:** QA Transformers are designed to provide accurate and contextually relevant answers to questions posed in natural language. These systems have a wide range of practical applications, including chatbots, virtual assistants, customer support, and information retrieval.

2. **Information Retrieval:** QA Transformers can be used to search through large corpora of text and extract precise answers to user queries. This can improve the efficiency and effectiveness of information retrieval systems.

3. **Document Summarization:** QA Transformers can be used to summarize long documents by answering questions about the document's content. This makes it easier for users to quickly understand the key points and relevant information in a text.

4. **Education and E-Learning:** QA Transformers can be integrated into educational platforms to provide instant answers and explanations to students' questions. They can also help with the automatic generation of quiz questions and answers.

5. **Content Generation:** QA Transformers can assist in content generation by automatically answering questions based on available knowledge. This can be useful for generating FAQs, product descriptions, and informative articles.

6. **Customer Support:** Many companies use QA systems to automate responses to frequently asked questions, freeing up human agents to handle more complex queries and providing customers with quick solutions.

7. **Medical Diagnosis:** QA Transformers can assist medical professionals by answering questions related to patient records, medical literature, and diagnostic information, potentially leading to faster and more accurate diagnoses.

8. **Legal and Compliance:** In the legal field, QA Transformers can be used to search and extract information from legal documents, assisting lawyers in their research and case preparation.

9. **Language Translation:** QA Transformers can be used to answer questions about language translation, helping users understand the meaning of words, phrases, or sentences in different languages.

10. **Scientific Research:** QA Transformers can support researchers by answering questions related to scientific literature, allowing them to quickly access relevant information for their studies.

11. **Decision Support:** QA Transformers can aid in decision-making processes by providing answers to questions related to data analysis, market research, and business intelligence.

12. **Accessibility:** QA Transformers can improve accessibility for individuals with disabilities by providing spoken or written answers to their questions, helping them access information more easily.

Overall, QA Transformers have the potential to enhance information retrieval, automation, and user interaction in various domains, making them a valuable tool in the development of intelligent systems and applications. The ability to provide accurate and context-aware answers to questions in natural language is a key advantage of these models.

---
Exercise:

Now, as a data scientist expert in NLP, you are asked to create a model to be able to answer question in Spanish. Your stakeholders will pass you an article and one question and your model should answer it.

In [2]:
!pip install requests beautifulsoup4



In [3]:
import requests
from bs4 import BeautifulSoup

# URL del artículo
url = "https://time.com/collection/time100-ai/6309026/geoffrey-hinton/"

# Realizar una solicitud HTTP para obtener el contenido de la página
response = requests.get(url)

# Verificar si la solicitud fue exitosa
if response.status_code == 200:
    # Analizar el contenido HTML de la página con BeautifulSoup
    soup = BeautifulSoup(response.text, "html.parser")

    # Encontrar el contenido del artículo (puedes inspeccionar el HTML de la página para encontrar la estructura adecuada)
    article_content = soup.find("div", {"class": "article-content"})

    # Extraer el texto del artículo
    article_text = ""
    for paragraph in article_content.find_all("p"):
        article_text += paragraph.get_text() + "\n"

    # Imprimir el texto del artículo
    print(article_text)
else:
    print("Error al obtener la página:", response.status_code)

Over the course of February, Geoffrey Hinton, one of the most influential AI researchers of the past 50 years, had a “slow eureka moment.”
Hinton, 76, has spent his career trying to build AI systems that model the human brain, mostly in academia before joining Google in 2013. He had always believed that the brain was better than the machines that he and others were building, and that by making them more like the brain, they would improve. But in February, he realized “the digital intelligence we’ve got now may be better than the brain already. It’s just not scaled up quite as big.” 
Developers around the world are currently racing to build the biggest AI systems that they can. Given the current rate at which AI companies are increasing the size of models, it could be less than five years until AI systems have 100 trillion connections—roughly as many as there are between neurons in the human brain.
Alarmed, Hinton left his post as VP and engineering fellow in May and gave a flurry of in

In [4]:
question = "How is Geoffrey Hinton?"

# Librerias y modelos preentrenados a usar

**Transformers**: Esta es una biblioteca de Hugging Face que proporciona una interfaz unificada para usar una variedad de modelos de lenguaje preentrenados y realizar una variedad de tareas relacionadas con el procesamiento del lenguaje natural (NLP). Ofrece modelos preentrenados y herramientas para tokenización, traducción, generación de texto, clasificación de texto, entre otras tareas.

**Pipeline:** pipeline es una función de Transformers que facilita el uso de modelos preentrenados para tareas específicas, como traducción, generación de texto o pregunta-respuesta. Simplemente proporcionamos el nombre del modelo que deseamos utilizar y la función de pipeline se encarga de cargar el modelo y el tokenizador correspondientes y realizar la tarea deseada.

**MarianMTModel:** Este es un modelo de traducción automática (MT) que forma parte de la arquitectura Marian de Hugging Face. Está diseñado específicamente para traducir entre pares de idiomas y se entrena en un corpus de datos de traducción automática. Utilizamos este modelo para traducir nuestra pregunta del español al inglés y luego la respuesta del inglés al español.

**MarianTokenizer:** Este es el tokenizador correspondiente al modelo MarianMTModel. Se utiliza para convertir el texto en cadenas de tokens que el modelo puede entender y procesar. El tokenizador es esencial para la entrada y la salida del modelo de traducción.

**Helsinki-NLP/opus-mt-es-en y Helsinki-NLP/opus-mt-en-es:** Estos son los nombres de los modelos específicos que utilizamos para la traducción automática entre español e inglés y viceversa. Estos modelos se han preentrenado en grandes conjuntos de datos multilingües y pueden traducir entre una amplia gama de idiomas.

# Proceso realizado:

1. Primero, traducimos la pregunta del español al inglés(en caso de que se pregunte en español)  utilizando el modelo y el tokenizador correspondientes.
2. Utilizamos un modelo de pregunta-respuesta en inglés para obtener una respuesta en inglés a partir del texto del artículo y la pregunta traducida.
3. Traducimos la respuesta del inglés al español utilizando otro modelo y tokenizador de traducción.
4. Por ultimo, imprimimos la pregunta original  y la respuesta traducida al español.

Tambien hacemos una prueba adicional con otra pregutn ay vemos que el modelo tiene coherencia. De igual manera aclaramos que hay oportunidad de mejora.

In [5]:
from transformers import pipeline, MarianMTModel, MarianTokenizer

# Definir la pregunta (Ingles o enpañol)
question = "¿Como esta Geoffrey Hinton?"

# Traducir la pregunta al inglés utilizando el modelo y el tokenizador de traducción correspondientes
translation_model_name = "Helsinki-NLP/opus-mt-es-en"
translation_tokenizer = MarianTokenizer.from_pretrained(translation_model_name)
translation_model = MarianMTModel.from_pretrained(translation_model_name)

# Tokenizar la pregunta en español
inputs = translation_tokenizer(question, return_tensors="pt", padding=True, truncation=True)

# Traducir la pregunta al inglés
translated_ids = translation_model.generate(inputs["input_ids"])

# Decodificar la pregunta traducida al inglés
english_question = translation_tokenizer.decode(translated_ids[0], skip_special_tokens=True)

# Crear un modelo de pregunta-respuesta en inglés utilizando Hugging Face Transformers
qa_pipeline = pipeline("question-answering",
                       model="deepset/roberta-base-squad2")

# Utilizar el modelo para responder la pregunta en inglés
answer = qa_pipeline(question=english_question, context=article_text)

# Traducir la respuesta al español utilizando el modelo de traducción correspondiente
translation_model_name = "Helsinki-NLP/opus-mt-en-es"
translation_tokenizer = MarianTokenizer.from_pretrained(translation_model_name)
translation_model = MarianMTModel.from_pretrained(translation_model_name)

# Tokenizar la respuesta en inglés
inputs = translation_tokenizer(answer['answer'], return_tensors="pt", padding=True, truncation=True)

# Traducir la respuesta al español
translated_ids = translation_model.generate(inputs["input_ids"])

# Decodificar la respuesta traducida al español
spanish_answer = translation_tokenizer.decode(translated_ids[0], skip_special_tokens=True)

# Imprimir la pregunta y la respuesta en español
print("Pregunta en español:", question)
print("Respuesta en español:", spanish_answer)



The secret `HF_TOKEN` does not exist in your Colab secrets.
To authenticate with the Hugging Face Hub, create a token in your settings tab (https://huggingface.co/settings/tokens), set it as secret in your Google Colab and restart your session.
You will be able to reuse this secret in all of your notebooks.
Please note that authentication is recommended but still optional to access public models or datasets.


tokenizer_config.json:   0%|          | 0.00/44.0 [00:00<?, ?B/s]

source.spm:   0%|          | 0.00/826k [00:00<?, ?B/s]

target.spm:   0%|          | 0.00/802k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.59M [00:00<?, ?B/s]

config.json:   0%|          | 0.00/1.44k [00:00<?, ?B/s]



pytorch_model.bin:   0%|          | 0.00/312M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/293 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/571 [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/496M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/79.0 [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/899k [00:00<?, ?B/s]

merges.txt:   0%|          | 0.00/456k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/772 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/44.0 [00:00<?, ?B/s]

source.spm:   0%|          | 0.00/802k [00:00<?, ?B/s]

target.spm:   0%|          | 0.00/826k [00:00<?, ?B/s]

vocab.json:   0%|          | 0.00/1.59M [00:00<?, ?B/s]

config.json:   0%|          | 0.00/1.47k [00:00<?, ?B/s]



pytorch_model.bin:   0%|          | 0.00/312M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/293 [00:00<?, ?B/s]

Pregunta en español: ¿Como esta Geoffrey Hinton?
Respuesta en español: momento eureka lento.


In [6]:
question = "¿Who is Alex Krizhevsky?"

# Traducir la pregunta al inglés utilizando el modelo y el tokenizador de traducción correspondientes
translation_model_name = "Helsinki-NLP/opus-mt-es-en"
translation_tokenizer = MarianTokenizer.from_pretrained(translation_model_name)
translation_model = MarianMTModel.from_pretrained(translation_model_name)

# Tokenizar la pregunta en español
inputs = translation_tokenizer(question, return_tensors="pt", padding=True, truncation=True)

# Traducir la pregunta al inglés
translated_ids = translation_model.generate(inputs["input_ids"])

# Decodificar la pregunta traducida al inglés
english_question = translation_tokenizer.decode(translated_ids[0], skip_special_tokens=True)

# Crear un modelo de pregunta-respuesta en inglés utilizando Hugging Face Transformers
qa_pipeline = pipeline("question-answering",
                       model="deepset/roberta-base-squad2")

# Utilizar el modelo para responder la pregunta en inglés
answer = qa_pipeline(question=english_question, context=article_text)

# Traducir la respuesta al español utilizando el modelo de traducción correspondiente
translation_model_name = "Helsinki-NLP/opus-mt-en-es"
translation_tokenizer = MarianTokenizer.from_pretrained(translation_model_name)
translation_model = MarianMTModel.from_pretrained(translation_model_name)

# Tokenizar la respuesta en inglés
inputs = translation_tokenizer(answer['answer'], return_tensors="pt", padding=True, truncation=True)

# Traducir la respuesta al español
translated_ids = translation_model.generate(inputs["input_ids"])

# Decodificar la respuesta traducida al español
spanish_answer = translation_tokenizer.decode(translated_ids[0], skip_special_tokens=True)

# Imprimir la pregunta y la respuesta en español
print("Pregunta en español:", question)
print("Respuesta en español:", spanish_answer)

Pregunta en español: ¿Who is Alex Krizhevsky?
Respuesta en español: dos de sus estudiantes de posgrado
