<a href="https://colab.research.google.com/github/sergiomora03/AdvancedTopicsAnalytics/blob/main/exercises/E7-QuestionAnswer.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

## Question & Answer

Creating a Question-Answer Transformer model or QA Transformer can be beneficial for several reasons, particularly in the field of Natural Language Processing (NLP). Here are some compelling reasons why you might want to develop a QA Transformer:

1. **Question-Answering Systems:** QA Transformers are designed to provide accurate and contextually relevant answers to questions posed in natural language. These systems have a wide range of practical applications, including chatbots, virtual assistants, customer support, and information retrieval.

2. **Information Retrieval:** QA Transformers can be used to search through large corpora of text and extract precise answers to user queries. This can improve the efficiency and effectiveness of information retrieval systems.

3. **Document Summarization:** QA Transformers can be used to summarize long documents by answering questions about the document's content. This makes it easier for users to quickly understand the key points and relevant information in a text.

4. **Education and E-Learning:** QA Transformers can be integrated into educational platforms to provide instant answers and explanations to students' questions. They can also help with the automatic generation of quiz questions and answers.

5. **Content Generation:** QA Transformers can assist in content generation by automatically answering questions based on available knowledge. This can be useful for generating FAQs, product descriptions, and informative articles.

6. **Customer Support:** Many companies use QA systems to automate responses to frequently asked questions, freeing up human agents to handle more complex queries and providing customers with quick solutions.

7. **Medical Diagnosis:** QA Transformers can assist medical professionals by answering questions related to patient records, medical literature, and diagnostic information, potentially leading to faster and more accurate diagnoses.

8. **Legal and Compliance:** In the legal field, QA Transformers can be used to search and extract information from legal documents, assisting lawyers in their research and case preparation.

9. **Language Translation:** QA Transformers can be used to answer questions about language translation, helping users understand the meaning of words, phrases, or sentences in different languages.

10. **Scientific Research:** QA Transformers can support researchers by answering questions related to scientific literature, allowing them to quickly access relevant information for their studies.

11. **Decision Support:** QA Transformers can aid in decision-making processes by providing answers to questions related to data analysis, market research, and business intelligence.

12. **Accessibility:** QA Transformers can improve accessibility for individuals with disabilities by providing spoken or written answers to their questions, helping them access information more easily.

Overall, QA Transformers have the potential to enhance information retrieval, automation, and user interaction in various domains, making them a valuable tool in the development of intelligent systems and applications. The ability to provide accurate and context-aware answers to questions in natural language is a key advantage of these models.

---
Exercise:

Now, as a data scientist expert in NLP, you are asked to create a model to be able to answer question in Spanish. Your stakeholders will pass you an article and one question and your model should answer it.

In [1]:
%pip install requests beautifulsoup4 transformers torch ipywidgets

Defaulting to user installation because normal site-packages is not writeable
Collecting beautifulsoup4
  Downloading beautifulsoup4-4.12.3-py3-none-any.whl (147 kB)
[K     |████████████████████████████████| 147 kB 2.2 MB/s eta 0:00:01
Collecting soupsieve>1.2
  Downloading soupsieve-2.6-py3-none-any.whl (36 kB)
Installing collected packages: soupsieve, beautifulsoup4
Successfully installed beautifulsoup4-4.12.3 soupsieve-2.6
You should consider upgrading via the '/Library/Developer/CommandLineTools/usr/bin/python3 -m pip install --upgrade pip' command.[0m
Note: you may need to restart the kernel to use updated packages.


In [1]:
import requests
from bs4 import BeautifulSoup
import requests
from bs4 import BeautifulSoup
from transformers import pipeline
from langdetect import detect



In [2]:
# URL del artículo
url = "https://time.com/collection/time100-ai/6309026/geoffrey-hinton/"

# Realizar una solicitud HTTP para obtener el contenido de la página
response = requests.get(url)

# Verificar si la solicitud fue exitosa
if response.status_code == 200:
    # Analizar el contenido HTML de la página con BeautifulSoup
    soup = BeautifulSoup(response.text, "html.parser")

    # Encontrar el contenido del artículo (puedes inspeccionar el HTML de la página para encontrar la estructura adecuada)
    article_content = soup.find("div", {"class": "article-content"})

    # Extraer el texto del artículo
    article_text = ""
    for paragraph in article_content.find_all("p"):
        article_text += paragraph.get_text() + "\n"

    # Imprimir el texto del artículo
    print(article_text)
else:
    print("Error al obtener la página:", response.status_code)

Over the course of February, Geoffrey Hinton, one of the most influential AI researchers of the past 50 years, had a “slow eureka moment.”
Hinton, 76, has spent his career trying to build AI systems that model the human brain, mostly in academia before joining Google in 2013. He had always believed that the brain was better than the machines that he and others were building, and that by making them more like the brain, they would improve. But in February, he realized “the digital intelligence we’ve got now may be better than the brain already. It’s just not scaled up quite as big.” 
Developers around the world are currently racing to build the biggest AI systems that they can. Given the current rate at which AI companies are increasing the size of models, it could be less than five years until AI systems have 100 trillion connections—roughly as many as there are between neurons in the human brain.
Alarmed, Hinton left his post as VP and engineering fellow in May and gave a flurry of in

In [2]:
question = "How is Geoffrey Hinton?"

In [3]:
from transformers import pipeline
reader = pipeline("question-answering", model="distilbert-base-cased-distilled-squad", tokenizer="distilbert-base-cased")
question = "Who is Geoffrey Hinton?"
outputs = reader(question=question, context=article_text)
print(outputs)
     


Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


{'score': 0.5176942348480225, 'start': 46, 'end': 109, 'answer': 'one of the most influential AI researchers of the past 50 years'}


# Creación de modelo

## Extraer información de un articulo en español

In [11]:
import requests
from bs4 import BeautifulSoup

# URL del artículo
url = "https://time.com/6266396/bad-bunny-entrevista-coachella/"

# Realizar una solicitud HTTP para obtener el contenido de la página
response = requests.get(url)

# Verificar si la solicitud fue exitosa
if response.status_code == 200:
    # Analizar el contenido HTML de la página con BeautifulSoup
    soup = BeautifulSoup(response.text, "html.parser")

    # Buscar los párrafos de la página (puedes cambiar el selector según la estructura de la página)
    article_content = soup.find_all("p")

    # Extraer el texto de cada párrafo
    article_text = ""
    if article_content:
        for paragraph in article_content:
            article_text += paragraph.get_text() + "\n"

        # Imprimir el texto del artículo
        print(article_text)
    else:
        print("No se encontró el contenido del artículo.")
else:
    print("Error al obtener la página:", response.status_code)


A inicios de marzo, TIME se sentó con la sensación musical mundial Benito Antonio Martínez Ocasio, también conocido como Bad Bunny, mientras se preparaba para actuar en Coachella, el primer artista latino en encabezar el destacado festival de música. Durante una amplia entrevista, Martínez Ocasio habló con franqueza sobre su vida, su música y cómo pasa más tiempo en estos días en Los Ángeles, un lugar al que “siempre soñó ir” cuando era un chamaquito (un niño pequeño) mientras crecía. Puerto Rico. También se refirió a su floreciente carrera como actor, junto con la responsabilidad que siente como reguetonero a quien a menudo se le pide que hable en nombre de toda una región.
La siguiente transcripción ha sido condensada y editada para mayor claridad. Para la versión en inglés haga clic aquí.
 Realmente, sí me gusta. Siempre me ha gustado desde que he estado viniendo unos años. Es un lugar al que desde que era chamaquito—antes de todo esto—siempre soñé con ir. Siempre soñé con ir algún 

## Selección de pipeline para responder preguntas en español
- Nota: Se provó un modelo multi-lenguaje pero las respuestas que entregaba, no eran óptimas

In [22]:
from transformers import pipeline

# Cargar un pipeline de question-answering
qa_pipeline = pipeline("question-answering", model="dccuchile/albert-xlarge-spanish-finetuned-qa-mlqa")


config.json:   0%|          | 0.00/844 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/67.1M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/477 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.74M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/156 [00:00<?, ?B/s]

Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


### Prueba preguntas y respuestas

In [24]:
context = article_text

question = "¿Donde sitino más presion Bad Bunny?"

result = qa_pipeline(question=question, context=context)

print(f"Respuesta: {result['answer']}")


Respuesta: Hiram Bithorn


In [27]:
question = "¿Que canción tiene con justin beiber?"

In [29]:
result = qa_pipeline(question=question, context=context)

print(f"Respuesta: {result['answer']}")

Respuesta: rumor


## Qué pasa si el articulo lo comparten en inglés y la pregunta se debe hacer en español?

In [49]:
%pip install langdetect sentencepiece
#from langdetect import detect

Defaulting to user installation because normal site-packages is not writeable
You should consider upgrading via the '/Library/Developer/CommandLineTools/usr/bin/python3 -m pip install --upgrade pip' command.[0m
Note: you may need to restart the kernel to use updated packages.


## Seleción modelo de traducción

In [8]:
#%pip install sentencepiece
translator = pipeline("translation_en_to_es", model="Helsinki-NLP/opus-mt-en-es")

Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


- En caso de que el texto venga en inglés el pipline realiza la traducción, de lo contrario, se lee como un articulo en español

In [10]:
# URL del artículo
url = "https://time.com/collection/time100-ai/6309026/geoffrey-hinton/"

# Realizar una solicitud HTTP para obtener el contenido de la página
response = requests.get(url)

# Verificar si la solicitud fue exitosa
if response.status_code == 200:
    # Analizar el contenido HTML de la página con BeautifulSoup
    soup = BeautifulSoup(response.text, "html.parser")

    # Buscar los párrafos de la página
    article_content = soup.find_all("p")

    # Extraer el texto de cada párrafo
    article_text = ""
    if article_content:
        for paragraph in article_content:
            article_text += paragraph.get_text() + "\n"

        # Detectar el idioma del texto
        detected_language = detect(article_text)

        # Si el idioma detectado es inglés, traducir al español
        if detected_language == 'en':
            print("El texto está en inglés. Traduciendo al español...")
            
            # Dividir el texto en fragmentos más pequeños
            max_length = 512
            chunks = [article_text[i:i+max_length] for i in range(0, len(article_text), max_length)]
            

            # Traducir cada fragmento y concatenar los resultados
            # se hace la separación ya que el length máximo de la traducción es de 512 y el texto en muchos casos es más largo
            translated_text = ""
            for chunk in chunks:
                translated_chunk = translator(chunk, max_length=max_length)[0]['translation_text']
                translated_text += translated_chunk + " " + "\n"
            
            article_text = translated_text.strip()
        
        # Imprimir el texto (ya traducido si era necesario)
        print(article_text)
    else:
        print("No se encontró el contenido del artículo.")
else:
    print("Error al obtener la página:", response.status_code)

El texto está en inglés. Traduciendo al español...
A lo largo de febrero, Geoffrey Hinton, uno de los investigadores de IA más influyentes de los últimos 50 años, tuvo un “momento eureka lento.” Hinton, de 76 años, ha pasado su carrera tratando de construir sistemas de IA que modelen el cerebro humano, sobre todo en la academia antes de unirse a Google en 2013. Siempre había creído que el cerebro era mejor que las máquinas que él y otros estaban construyendo, y que al hacerlos más como el cerebro, mejorarían. Pero en febrero, se dio cuenta de “la inteligencia digital que tenemos ahora 
Los desarrolladores de todo el mundo están compitiendo actualmente para construir los sistemas de IA más grandes que puedan. Dada la tasa actual a la que las compañías de IA están aumentando el tamaño de los modelos, podría pasar menos de cinco años hasta que los sistemas de IA tengan 100 billones de conexiones, aproximadamente tantas como haya entre las neuronas en el cerebro humano. Alarmado, Hinton de

In [16]:
qa_pipeline = pipeline("question-answering", model="dccuchile/albert-xlarge-spanish-finetuned-qa-mlqa")

config.json:   0%|          | 0.00/845 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/219M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/478 [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/1.74M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/156 [00:00<?, ?B/s]

Hardware accelerator e.g. GPU is available in the environment, but no `device` argument is passed to the `Pipeline` object. Model will be on CPU.


In [17]:
context = article_text

question = "¿Quién es Geoffrey Hinton?"

result = qa_pipeline(question=question, context=context)

print(f"Respuesta: {result['answer']}")

Respuesta: uno de los investigadores de IA más influyentes de los últimos 50 años,
