# **Processamento de Linguagem Natural [2024-Q2]**
Prof. Alexandre Donizeti Alves

### **PROJETO PRÁTICO** [LangChain + Grandes Modelos de Linguagem + API]


O **PROJETO PRÁTICO** deve ser feito utilizando o **Google Colab** com uma conta sua vinculada ao Gmail. O link do seu notebook, armazenado no Google Drive, o link de um repositório no GitHub e o link de um vídeo do projeto em execução detalhando os principais resultados da atividade, devem ser enviados usando o seguinte formulário:

> Adicionar aspas



> https://forms.gle/D4gLqP1iGgyn2hbH8


**IMPORTANTE**: A submissão deve ser feita até o dia **08/09 (domingo)** APENAS POR UM INTEGRANTE DA EQUIPE, até às 23h59. Por favor, lembre-se de dar permissão de ACESSO IRRESTRITO para o professor da disciplina de PLN.

### **EQUIPE**

---

**POR FAVOR, PREENCHER OS INTEGRANDES DA SUA EQUIPE:**


**Integrante 01:**

`Lucas Medeiros da Silva | RA: 11202130277`

**Integrante 02:**

`George Salvino de Souza Junior | RA: 11201720464`

### **GRANDE MODELO DE LINGUAGEM (*Large Language Model - LLM*)**

---

Cada equipe deve selecionar um Grande Modelo de Linguagem (*Large Language Model - LMM*). Cada modelo pode ser escolhido por até 5 equipes.



Por favor, informe os dados do LLM selecionada:

>


**LLM**: Google Gemini

>

**Link para a documentação oficial**: https://ai.google.dev/gemini-api/docs



### **API**
---

Por favor, informe os dados da API selecionada:

**API**: Wikipedia API

**Site oficial**: https://github.com/martin-majlis/Wikipedia-API/

**Link para a documentação oficial**: https://pypi.org/project/Wikipedia-API/






**IMPORTANTE**: cada **API** pode ser usada por até 4 equipes.

### **DESCRIÇÃO**
---

Implementar um `notebook` no `Google Colab` que faça uso do framework **`LangChain`** (obrigatório) e de um **LLM** aplicando, no mínimo, DUAS técnicas de PLN. As técnicas podem ser aplicada em qualquer córpus obtido a partir de uma **API** ou a partir de uma página Web.

O **LLM** e a **API** selecionados devem ser informados na seguinte planilha:

> https://docs.google.com/spreadsheets/d/1iIUZcwnywO7RuF6VEJ8Rx9NDT1cwteyvsnkhYr0NWtU/edit?usp=sharing

>
As seguintes técnicas de PLN podem ser usadas:

*   Correção Gramatical
*   Classificação de Textos
*   Análise de Sentimentos
*   Detecção de Emoções
*   Extração de Palavras-chave
*   Tradução de Textos
*   Sumarização de Textos
*   Similaridade de Textos
*   Reconhecimento de Entidades Nomeadas
*   Sistemas de Perguntas e Respostas
>

**IMPORTANTE:** É obrigatório usar o e-mail da UFABC.


### **CRITÉRIOS DE AVALIAÇÃO**
---


Serão considerados como critérios de avaliação os seguintes pontos:

* Uso do framework **`LangChain`**.

* Escolha e uso de um **LLM**.

* Escolha e uso de uma **API**.

* Vídeo (5 a 10 minutos).

* Criatividade no uso do framework **`LangChain`** em conjunto com o **LLM** e a **API**.




**IMPORTANTE**: todo o código do notebook deve ser executado. Código sem execução não será considerado.

### **IMPLEMENTAÇÃO**
---

In [None]:
!pip install -qU ipywidgets==7.6.3
!pip install -qU langchain-google-genai
!pip install -qU langchain
!pip install -qU wikipedia-api
!pip install -qU beautifulsoup4

In [None]:
from google.colab import userdata
from langchain_google_genai import ChatGoogleGenerativeAI

modelo = ChatGoogleGenerativeAI(model='gemini-1.5-pro', api_key=userdata.get('GOOGLE_API_KEY'))

In [None]:
import wikipediaapi

wiki_html = wikipediaapi.Wikipedia(user_agent='ProjetoPLN',
                                   language='en',
                                   extract_format=wikipediaapi.ExtractFormat.HTML)

assunto = input("Write the subject you want to create questions from: ")

page_py = wiki_html.page(assunto)

while page_py.exists() != True:
    assunto = input("The page for this subject doesn't exist, please try to write again: ")
    page_py = wiki_html.page(assunto)

Write the subject you want to create questions from: Quadratic equations


In [None]:
from bs4 import BeautifulSoup

soup = BeautifulSoup(page_py.text, 'html.parser')
soup.get_text()

'In mathematics, a quadratic equation (from Latin  quadratus\xa0\'square\') is an equation that can be rearranged in standard form as\n\n\n\n\na\n\nx\n\n2\n\n\n+\nb\nx\n+\nc\n=\n0\n\n,\n\n\n{\\displaystyle ax^{2}+bx+c=0\\,,}\n\n\nwhere x represents an unknown value, and a, b, and c represent known numbers, where a ≠ 0. (If a = 0 and b ≠ 0 then the equation is linear, not quadratic.) The numbers a, b, and c are the coefficients of the equation and may be distinguished by respectively calling them, the quadratic coefficient, the linear coefficient and the constant coefficient or free term.\nThe values of x that satisfy the equation are called solutions of the equation, and roots or zeros of the expression on its left-hand side. A quadratic equation has at most two solutions. If there is only one solution, one says that it is a double root. If all the coefficients are real numbers, there are either two real solutions, or a single real double root, or two complex solutions that are complex

In [None]:
from langchain_core.prompts import ChatPromptTemplate

prompt_template = ChatPromptTemplate.from_messages([
    ("system", "Você irá ler um texto retirado de uma página HTML do Wikipedia em inglês, seu papel é resumir o texto nos aspectos mais importantes e traduzi-lo para o Português."
    "Se for algo relacionado à matemática se certifique de mostrar no resumo como resolver os problemas. Não é necessário especificar de onde o texto vem"),
    ("human", "{texto}")
])

chain_resumo = prompt_template | modelo

resumo_texto = chain_resumo.invoke({"texto": soup.get_text()})

In [None]:
from IPython.display import Markdown

Markdown(resumo_texto.content)

## A Equação Quadrática

Este texto descreve a **equação quadrática**, uma equação polinomial de segundo grau fundamental em matemática. 

**Definição:** Uma equação quadrática é escrita na forma padrão como:

  *ax² + bx + c = 0*

Onde:

* *x* é a variável desconhecida.
* *a*, *b* e *c* são números conhecidos como coeficientes, com *a* ≠ 0.

**Soluções:** As soluções, ou raízes, da equação são os valores de *x* que a satisfazem. Uma equação quadrática pode ter:

* Duas soluções reais distintas.
* Uma solução real dupla (repetida).
* Duas soluções complexas conjugadas.

**Resolvendo a Equação Quadrática:**

Existem diferentes métodos para encontrar as raízes de uma equação quadrática:

1. **Fatoração:** Consiste em transformar a equação em um produto de fatores lineares. Por exemplo: 
   *x² + 5x + 6 = (x + 2)(x + 3) = 0*
   As soluções são obtidas igualando cada fator a zero: x = -2 ou x = -3. 

2. **Completando o Quadrado:** Envolve manipular algebricamente a equação para escrevê-la na forma (x + h)² = k.

3. **Fórmula Quadrática:** A fórmula fornece as soluções diretamente em termos dos coeficientes:

   *x = (-b ± √(b² - 4ac)) / 2a*

**Discriminante (Δ):**

O discriminante, Δ = b² - 4ac, determina a natureza das raízes:

* Δ > 0: Duas raízes reais distintas.
* Δ = 0: Uma raiz real dupla.
* Δ < 0: Duas raízes complexas conjugadas.

**Aplicações:**

As equações quadráticas possuem diversas aplicações em áreas como física, química, engenharia e geometria, sendo usadas para modelar movimento, calcular pH, determinar pontos críticos de funções, entre outros.

**História:**

Civilizações antigas como Babilônios, Gregos, Chineses e Indianos já resolviam problemas que envolviam equações quadráticas utilizando métodos geométricos e algébricos. A fórmula geral que conhecemos hoje foi consolidada ao longo da história por matemáticos como Brahmagupta, al-Khwarizmi e Simon Stevin.


# Flashcards

In [None]:
import ipywidgets as widgets
from IPython.display import display, HTML

In [None]:
from langchain_core.pydantic_v1 import BaseModel, Field

class Flashcard(BaseModel):
    question: str = Field(description="Question about a subject")
    answer: str = Field(description="Answer of the question")

In [None]:
from langchain_core.output_parsers import JsonOutputParser

parser = JsonOutputParser(pydantic_object=Flashcard)

In [None]:
from langchain_core.prompts import PromptTemplate

prompt = PromptTemplate(
    template="Você irá receber um texto sobre determinado assunto, você deve criar 10 questões de nível médio sobre esse texto e sua respectiva resposta\nFaça perguntas e respostas concisas. Se o texto for sobre algum assunto de matemática priorize questões de cálculo\n{format_instructions}\n{query}\n",
    input_variables=["query"],
    partial_variables={"format_instructions": parser.get_format_instructions()},
)

modelo = ChatGoogleGenerativeAI(model='gemini-1.5-pro', api_key=userdata.get('GOOGLE_API_KEY'))
chain = prompt | modelo | parser

In [None]:
flashcards = chain.invoke({"query": resumo_texto})

In [None]:
flashcards

[{'question': 'Qual é a forma padrão de uma equação quadrática?',
  'answer': 'A forma padrão de uma equação quadrática é ax² + bx + c = 0, onde a ≠ 0.'},
 {'question': 'Se o discriminante de uma equação quadrática é igual a zero, quantas raízes reais a equação possui?',
  'answer': 'Se o discriminante (Δ) é igual a zero, a equação possui uma raiz real dupla (repetida).'},
 {'question': 'Quais são os três métodos principais para resolver uma equação quadrática mencionados no texto?',
  'answer': 'Os três métodos são: Fatoração, Completando o Quadrado e Fórmula Quadrática.'},
 {'question': "O que representam os coeficientes 'a', 'b' e 'c' na equação quadrática?",
  'answer': "Os coeficientes 'a', 'b' e 'c' são números conhecidos que multiplicam as variáveis na equação."},
 {'question': "Escreva a fórmula quadrática que fornece as soluções para 'x'.",
  'answer': 'A fórmula quadrática é: x = (-b ± √(b² - 4ac)) / 2a'},
 {'question': 'Se o discriminante de uma equação quadrática é negativo

In [None]:
current_index = 0

In [None]:
display(HTML("""
<style>
.flashcard {
    padding: 0px;
    border-radius: 15px;
    border: 2px solid #ccc;
    box-shadow: 2px 2px 12px rgba(0, 0, 0, 0.1);
    margin: 10px 0;
    max-width: 400px;
    background-color: #ffffff;
    height: 700px;
    overflow: auto;
}
.question-label {
    padding: 0px;
    font-size: 18px;
    font-weight: bold;
}
.answer-label {
    padding: 0px;
    font-size: 16px;
    color: #0066cc;
    margin-top: 10px;
}
</style>
"""))

question_html_style = "padding: 0px; font-size: 18px; font-weight: bold"
answer_html_style = "padding: 0px; font-size: 16px; color: #0066cc; margin-top: 10px"

question_html = widgets.HTML(value=f"<div style='{question_html_style}'>{flashcards[current_index]['question']}</div>")
answer_html = widgets.HTML(value="")

previous_button = widgets.Button(description="Previous")
next_button = widgets.Button(description="Next")
show_answer_button = widgets.Button(description="Show Answer")
llm_image_button = widgets.Button(description="Send image to LLM")

card = widgets.VBox([question_html, answer_html])
card.layout.padding = "0px"
card.layout.border = "2px solid #ccc"
card.layout.border_radius = "15px"
card.layout.box_shadow = "2px 2px 12px rgba(0, 0, 0, 0.1)"
card.layout.margin = "10px 0"
card.layout.max_width = "400px"
card.layout.background_color = "#ffffff"
card.layout.height = "200px"
card.layout.overflow = "auto"


image_url_input = widgets.Text(
    value='',
    placeholder='Enter image URL',
    description='Image URL:',
    disabled=False
)
image_url_input.value = ""
llm_answer = widgets.HTML(value="")
llm_card = widgets.VBox([image_url_input, llm_answer])

In [None]:
from langchain_core.prompts import ChatPromptTemplate

def update_flashcard(index):
    global current_index
    current_index = index
    question_html.value = f"<div style='{question_html_style}'>{flashcards[current_index]['question']}</div>"
    answer_html.value = ""
    image_url_input.value = ""
    llm_answer.value = ""

def on_previous_button_clicked(_):
    global current_index
    if current_index > 0:
        update_flashcard(current_index - 1)

def on_next_button_clicked(_):
    global current_index
    if current_index < len(flashcards) - 1:
        update_flashcard(current_index + 1)

def on_show_answer_button_clicked(_):
    answer_html.value = f"<div style='{answer_html_style}'>{flashcards[current_index]['answer']}</div>"

def on_llm_image_button_clicked(_):
    image_url = image_url_input.value
    if image_url:
      llm_answer.value = "Processing image..."
      prompt_correcao = PromptTemplate(
        template= "Você é um professor corrigindo a resposta da seguinte questão: {questão}. A questão possui a seguinte resposta correspondente: {resposta}."
        "Baseado na imagem que você receberá, determine se o aluno alcançou a resposta correta, não se preocupe com pequenos erros de escrita se a resposta final estiver correta. Caso não esteja correto, indique onde o aluno está errando. Responda em HTML."
        "Importante: não basta a resposta do aluno ser sobre o mesmo tema. Caso seja uma pergunta conceitual, a resposta do aluno deve explicar a linha de pensamento e não conter apenas calculos",
        input_variables=["imagem"])

      chain_correcao = prompt_correcao | ChatGoogleGenerativeAI(model='gemini-1.5-pro', api_key=userdata.get('GOOGLE_API_KEY'))

      correcao = chain_correcao.invoke({"questão": flashcards[current_index]['question'], "resposta": flashcards[current_index]['answer'], "imagem": image_url})

      llm_answer.value = correcao.content

previous_button.on_click(on_previous_button_clicked)
next_button.on_click(on_next_button_clicked)
show_answer_button.on_click(on_show_answer_button_clicked)
llm_image_button.on_click(on_llm_image_button_clicked)

button_box = widgets.HBox([previous_button, next_button, show_answer_button, llm_image_button])


display(card)
display(button_box)
display(llm_card)

VBox(children=(HTML(value="<div style='padding: 0px; font-size: 18px; font-weight: bold'>Qual é a forma padrão…

HBox(children=(Button(description='Previous', style=ButtonStyle()), Button(description='Next', style=ButtonSty…

VBox(children=(Text(value='', description='Image URL:', placeholder='Enter image URL'), HTML(value='')))