<center>

<div align="center">
    <img src="../Images/javeriana.PNG" width="800" height="600">
</div>

**Juan David Villate Lemus**

**José Rafael Peña Gutiérrez**

**Laura Katherine Moreno Giraldo**

**William Ricardo Fernández Garnica**

## Question & Answer

Creating a Question-Answer Transformer model or QA Transformer can be beneficial for several reasons, particularly in the field of Natural Language Processing (NLP). Here are some compelling reasons why you might want to develop a QA Transformer:

1. **Question-Answering Systems:** QA Transformers are designed to provide accurate and contextually relevant answers to questions posed in natural language. These systems have a wide range of practical applications, including chatbots, virtual assistants, customer support, and information retrieval.

2. **Information Retrieval:** QA Transformers can be used to search through large corpora of text and extract precise answers to user queries. This can improve the efficiency and effectiveness of information retrieval systems.

3. **Document Summarization:** QA Transformers can be used to summarize long documents by answering questions about the document's content. This makes it easier for users to quickly understand the key points and relevant information in a text.

4. **Education and E-Learning:** QA Transformers can be integrated into educational platforms to provide instant answers and explanations to students' questions. They can also help with the automatic generation of quiz questions and answers.

5. **Content Generation:** QA Transformers can assist in content generation by automatically answering questions based on available knowledge. This can be useful for generating FAQs, product descriptions, and informative articles.

6. **Customer Support:** Many companies use QA systems to automate responses to frequently asked questions, freeing up human agents to handle more complex queries and providing customers with quick solutions.

7. **Medical Diagnosis:** QA Transformers can assist medical professionals by answering questions related to patient records, medical literature, and diagnostic information, potentially leading to faster and more accurate diagnoses.

8. **Legal and Compliance:** In the legal field, QA Transformers can be used to search and extract information from legal documents, assisting lawyers in their research and case preparation.

9. **Language Translation:** QA Transformers can be used to answer questions about language translation, helping users understand the meaning of words, phrases, or sentences in different languages.

10. **Scientific Research:** QA Transformers can support researchers by answering questions related to scientific literature, allowing them to quickly access relevant information for their studies.

11. **Decision Support:** QA Transformers can aid in decision-making processes by providing answers to questions related to data analysis, market research, and business intelligence.

12. **Accessibility:** QA Transformers can improve accessibility for individuals with disabilities by providing spoken or written answers to their questions, helping them access information more easily.

Overall, QA Transformers have the potential to enhance information retrieval, automation, and user interaction in various domains, making them a valuable tool in the development of intelligent systems and applications. The ability to provide accurate and context-aware answers to questions in natural language is a key advantage of these models.

---
Exercise:

Now, as a data scientist expert in NLP, you are asked to create a model to be able to answer question in Spanish. Your stakeholders will pass you an article and one question and your model should answer it.

In [8]:
pip install requests beautifulsoup4

Note: you may need to restart the kernel to use updated packages.




In [9]:
import requests
from bs4 import BeautifulSoup

# URL del artículo
url = "https://time.com/collection/time100-ai/6309026/geoffrey-hinton/"

# Realizar una solicitud HTTP para obtener el contenido de la página
response = requests.get(url)

# Verificar si la solicitud fue exitosa
if response.status_code == 200:
    # Analizar el contenido HTML de la página con BeautifulSoup
    soup = BeautifulSoup(response.text, "html.parser")

    # Encontrar el contenido del artículo (puedes inspeccionar el HTML de la página para encontrar la estructura adecuada)
    article_content = soup.find("div", {"class": "article-content"})

    # Extraer el texto del artículo
    article_text = ""
    for paragraph in article_content.find_all("p"):
        article_text += paragraph.get_text() + "\n"

    # Imprimir el texto del artículo
    print(article_text)
else:
    print("Error al obtener la página:", response.status_code)

Over the course of February, Geoffrey Hinton, one of the most influential AI researchers of the past 50 years, had a “slow eureka moment.”
Hinton, 76, has spent his career trying to build AI systems that model the human brain, mostly in academia before joining Google in 2013. He had always believed that the brain was better than the machines that he and others were building, and that by making them more like the brain, they would improve. But in February, he realized “the digital intelligence we’ve got now may be better than the brain already. It’s just not scaled up quite as big.” 
Developers around the world are currently racing to build the biggest AI systems that they can. Given the current rate at which AI companies are increasing the size of models, it could be less than five years until AI systems have 100 trillion connections—roughly as many as there are between neurons in the human brain.
Alarmed, Hinton left his post as VP and engineering fellow in May and gave a flurry of in

**Por favor correr esta celda que carga todo lo necesario para cumplir la funcionalidad**

In [10]:
pip install -q transformers torch requests beautifulsoup4 googletrans translate deep_translator

Note: you may need to restart the kernel to use updated packages.




In [11]:
# Importing libraries ---------------------------------
import requests
from bs4 import BeautifulSoup
from transformers import pipeline, BertForQuestionAnswering, BertTokenizer
from translate import Translator
from deep_translator import GoogleTranslator
import re
from html import unescape

1. Eliminar etiquetas HTML y corchetes: Utiliza una expresión regular (html_tags_and_brackets_pattern = r'<.*?>|\[.*?\]') para identificar y eliminar etiquetas HTML (todo lo que esté entre < y >) así como texto entre corchetes (todo lo que esté entre [ y ]). La expresión <.*?> busca de manera no codiciosa cualquier carácter que esté entre < y >, y \[.*?\] hace lo mismo para los corchetes. Esto se hace mediante re.sub(html_tags_and_brackets_pattern, '', text), donde re.sub reemplaza todas las ocurrencias de la expresión regular en text por una cadena vacía (es decir, las elimina).

3. Decodificar entidades HTML: Algunos textos contienen entidades HTML, que son representaciones de texto para caracteres especiales. Por ejemplo, &amp; representa el carácter &. La función unescape(text) decodifica estas entidades a sus caracteres correspondientes. Esto es útil porque después de eliminar las etiquetas HTML, todavía pueden quedar entidades HTML que necesitan ser convertidas a un formato legible.

In [12]:
# Defining some functions -------------------------------
def clean_html_text(text):
  # Remove html tags
  html_tags_and_brackets_pattern = r'<.*?>|\[.*?\]'
  text = re.sub(html_tags_and_brackets_pattern, '', text)

  # Decode HTML entities
  text = unescape(text)
  return text


**extract_article_text(url)**

Esta función está diseñada para extraer el texto de un artículo a partir de su URL. Utiliza la biblioteca requests para hacer una petición HTTP GET a la URL proporcionada y la biblioteca BeautifulSoup para analizar el contenido HTML recibido. A continuación, detallo el proceso paso a paso:

- Hacer una petición a la URL: Utiliza requests.get(url) para solicitar el contenido de la página web. url es el parámetro que contiene la dirección web del artículo que se quiere analizar.

- Verificar la respuesta: Comprueba el código de estado de la respuesta (response.status_code). Si es 200, significa que la petición fue exitosa y se procede con el análisis del contenido. Si no, se lanza una excepción indicando que no se pudo recuperar la página.

- Analizar el contenido HTML: Si la respuesta es exitosa, utiliza BeautifulSoup(response.text, "html.parser") para parsear el HTML de la página. BeautifulSoup facilita la navegación y búsqueda en el árbol de elementos HTML.

- Extraer el texto del artículo: Inicializa una variable article_text como una cadena vacía. Luego, itera sobre todos los párrafos (<p>) encontrados en el contenido HTML (soup.find_all("p")) y va concatenando el texto de cada párrafo a article_text, añadiendo un espacio al final de cada uno para separar los párrafos.

- Limpiar el texto extraído: Antes de devolver el texto del artículo, se llama a la función clean_html_text(article_text) para eliminar cualquier etiqueta HTML residual y decodificar entidades HTML. Esto asegura que el texto devuelto esté limpio y sea legible.

- Devolver o lanzar una excepción: Si se encontró contenido en el artículo, se devuelve el texto limpio. Si no, se lanza una excepción indicando que no se encontró contenido en la URL proporcionada.

In [13]:
def extract_article_text(url):
    response = requests.get(url)
    if response.status_code == 200:
        soup = BeautifulSoup(response.text, "html.parser")
        if soup:
            article_text = ""
            for paragraph in soup.find_all("p"):
                article_text += paragraph.get_text() + " "
            article_text = clean_html_text(article_text)
            return article_text
        else:
            raise ValueError("No article content found in the provided URL")
    else:
        raise ValueError(f"Failed to retrieve page. Status code: {response.status_code}")


**Esta función se encarga de traducir un texto a un idioma objetivo utilizando GoogleTranslator, una interfaz para el servicio de traducción de Google. El proceso es simple:**

- Traducir el texto: La función recibe dos parámetros: text, que es el texto a traducir, y target, que especifica el código del idioma al que se quiere traducir el texto. Utiliza GoogleTranslator(source='auto', target=target).translate(text) para realizar la traducción. El parámetro source='auto' indica que el idioma original del texto será detectado automáticamente por el servicio.

- Devolver la traducción: La traducción resultante se devuelve directamente.

In [14]:
def translate_text(text, target):
    translation = GoogleTranslator(source='auto', target= target).translate(text)
    return translation

**Modelo y Tokenizador: bert-large-uncased-whole-word-masking-finetuned-squad.** 

Este pipeline utiliza un modelo BERT de tamaño grande (bert-large) que ha sido entrenado específicamente en la tarea de QA con el dataset SQuAD (Stanford Question Answering Dataset). El modelo utiliza "whole word masking" durante el preentrenamiento, lo que significa que en lugar de enmascarar partes de palabras (subwords), se enmascaran palabras completas. Esto puede ayudar a mejorar el entendimiento del contexto y la precisión en tareas que dependen de la comprensión del lenguaje a nivel de palabra completa, como es el caso de la respuesta a preguntas. Este pipeline probablemente será más preciso pero también más lento en comparación con el faster_qa_pipeline, debido al mayor tamaño y complejidad del modelo.

In [15]:
# Question answering pipelines -------------------------------------------------
slower_qa_pipeline = pipeline("question-answering", model= "bert-large-uncased-whole-word-masking-finetuned-squad", tokenizer= "bert-large-uncased-whole-word-masking-finetuned-squad")


Some weights of the model checkpoint at bert-large-uncased-whole-word-masking-finetuned-squad were not used when initializing BertForQuestionAnswering: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
- This IS expected if you are initializing BertForQuestionAnswering from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForQuestionAnswering from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).


**Modelo y Tokenizador: distilbert-base-cased-distilled-squad.**

Este pipeline utiliza DistilBERT, que es una versión "destilada" de BERT. DistilBERT está diseñado para ser más ligero y rápido que BERT, sacrificando una pequeña cantidad de precisión a cambio de una mayor velocidad y menor consumo de recursos. Este modelo en particular ha sido afinado (fine-tuned) también en el dataset SQuAD. Al estar en su variante "cased", mantiene la distinción entre mayúsculas y minúsculas, lo cual es relevante para ciertos tipos de comprensión de texto. Este pipeline es una opción más rápida, adecuada para aplicaciones que requieren respuestas en tiempo real o que operan bajo restricciones de recursos.

In [16]:
faster_qa_pipeline = pipeline("question-answering", model="distilbert-base-cased-distilled-squad", tokenizer="distilbert-base-cased")

1. Verificación de la URL: La función comienza verificando si se ha proporcionado una URL válida. Si no es así, lanza un error indicando que se necesita una URL.

2. Extracción del texto del artículo: Utiliza la función extract_article_text(url) para obtener el texto del artículo de la URL proporcionada. Esta función maneja la solicitud HTTP, analiza el HTML y extrae el texto del artículo, limpiándolo de etiquetas HTML y entidades.

3. Preparación de las preguntas:

    - Si el argumento question no es una lista, lo convierte en una al encapsular la pregunta en una lista. Esto estandariza el procesamiento posterior, permitiendo manejar tanto una única pregunta como múltiples preguntas.
    - Traduce las preguntas al inglés usando la función translate_text(question, 'english'), ya que los modelos de QA utilizados operan en inglés.

4. Respuesta a las preguntas:

    - Itera sobre las preguntas traducidas, utilizando el modelo de QA de alta precisión (slower_qa_pipeline) si high_accuracy es True, o el modelo más rápido (faster_qa_pipeline) si es False. La elección del pipeline afecta el equilibrio entre precisión y velocidad de respuesta.
    - Cada pregunta se pasa junto con el contexto (el texto del artículo) al pipeline seleccionado para obtener una respuesta.

5. Traducción y presentación de las respuestas:

    - Traduce la respuesta obtenida del modelo de QA al español.
    - Almacena la pregunta original y su respuesta traducida como una tupla en la lista answers.
    - Finalmente, imprime cada pregunta y su respuesta correspondiente.

6. Manejo de excepciones: Si ocurre un error durante el proceso, como un problema de conexión o un error al procesar el texto, la excepción se captura y se imprime un mensaje de error.

In [17]:
def answer_questions_spanish(url=None, question='¿De qué trata el artículo?', high_accuracy=True):
    if not url:
        raise ValueError("The function must receive a valid URL")
    try:
        article_text = extract_article_text(url)
        if type(question) != list:
          questions = []
          questions.append(question)
        else:
          questions = question
        # Translate questions
        translated_questions = [translate_text(x, 'english') for x in questions]

        answers = []
        for index, q in enumerate(translated_questions):
          if high_accuracy:
            answer = slower_qa_pipeline(question=q, context=article_text)
          else:
            answer = faster_qa_pipeline(question=q, context=article_text)
          information = (questions[index], translate_text(answer['answer'], 'spanish'))
          answers.append(information)
        for question, answer in answers:
          print(f'Pregunta: {question}\nRespuesta: {answer}')

    except Exception as e:
        print("Error:", e)


## Para usar este servicio, por favor usa la función answer_question_spanish() con los siguientes argumentos:

*   url (string): El link del documento del cuál quisiera hacer preguntas
*   question (string or list): La pregunta o la lista de preguntas que tenga respecto al texto





#### Artículo sobre Geoffrey Hinton

**Al ejecutar la función answer_questions_spanish con la URL y la pregunta dadas, la función intentará:**

- Extraer el texto del artículo proporcionado en la URL.
- Traducir la pregunta al inglés.
- Utilizar el pipeline de QA seleccionado para encontrar una respuesta en el contexto del artículo.
- Traducir la respuesta encontrada al español.
- Imprimir la pregunta y su respuesta en consola.

In [18]:
# Example usage:
url = "https://time.com/collection/time100-ai/6309026/geoffrey-hinton/"
question = "¿Cuales materias vio Hinton en la universidad?"
answer_questions_spanish(url=url, question=question)

Pregunta: ¿Cuales materias vio Hinton en la universidad?
Respuesta: fisiología, física, filosofía


In [19]:
url = "https://time.com/collection/time100-ai/6309026/geoffrey-hinton/"
question = ["¿Cuales materias vio Hinton en la universidad?",
            "¿Cuales son los nombres de los estudiantes de Hinton con los cuales ganó una competición?",
            "¿Que premios ha ganado Hinton durante su carrera?",
            "¿Que pensaba el supervisor de tesis de Hinton respecto a su trabajo?",
            "¿Por qué Hinton abandonó la vicepresidencia de la Comisión Europea?"]
answer_questions_spanish(url=url, question=question)

Pregunta: ¿Cuales materias vio Hinton en la universidad?
Respuesta: fisiología, física, filosofía
Pregunta: ¿Cuales son los nombres de los estudiantes de Hinton con los cuales ganó una competición?
Respuesta: Alex Krizhevsky e Ilya Sutskever
Pregunta: ¿Que premios ha ganado Hinton durante su carrera?
Respuesta: Premio Turing 2018
Pregunta: ¿Que pensaba el supervisor de tesis de Hinton respecto a su trabajo?
Respuesta: Lo instó semanalmente a cambiar su enfoque.
Pregunta: ¿Por qué Hinton abandonó la vicepresidencia de la Comisión Europea?
Respuesta: poder hablar libremente sobre los peligros de la IA


#### Wikipedia Andrew Ng

In [20]:
url = "https://en.wikipedia.org/wiki/Andrew_Ng"
question = "¿Cuál es el título de pregrado que obtuvo Andrew Ng?"
answer_questions_spanish(url=url, question=question)

Pregunta: ¿Cuál es el título de pregrado que obtuvo Andrew Ng?
Respuesta: informática, estadística y economía
