# **Processamento de Linguagem Natural [2023.Q3]**
Prof. Alexandre Donizeti Alves

### **ATIVIDADE PRÁTICA 04 [Uso da API da OpenAI com técnicas de PLN]**


A **ATIVIDADE PRÁTICA 04** deve ser feita utilizando o **Google Colab** com uma conta sua vinculada ao Gmail. O link do seu notebook, armazenado no Google Drive, além do link de um repositório no GitHub e os principais resultados da atividade, devem ser enviados usando o seguinte formulário:

> https://forms.gle/GzwCq3R7ExtE9g9a8


**IMPORTANTE**: A submissão deve ser feita até o dia 20/11 (segunda-feira) APENAS POR UM INTEGRANTE DA EQUIPE, até às 23h59. Por favor, lembre-se de dar permissão de ACESSO IRRESTRITO para o professor da disciplina de PLN.

### **EQUIPE**

---

**POR FAVOR, PREENCHER OS INTEGRANDES DA SUA EQUIPE:**


**Integrante 01:**

André Barros Balchiumas 11201920328

**Integrante 02:**

Guilherme Goncalves Braz 11201920453 

### **LIVRO**
---

`Processamento de Linguagem Natural - Conceitos, Técnicas e Aplicações em Português.`

>

Disponível gratuitamente em:
  
  > https://brasileiraspln.com/livro-pln/1a-edicao/.


**POR FAVOR, PREENCHER OS CAPITULOS SELECIONADOS PARA A SUA EQUIPE:**

`Primeiro capítulo: 6`

`Segundo capítulo: 19`


### **DESCRIÇÃO**
---

Implementar um `notebook` no `Google Colab` que faça uso da **API da OpenAI** aplicando, no mínimo, 3 técnicas de PLN. As técnicas devem ser aplicadas nos 2 (DOIS) capítulos do livro **Processamento de Linguagem Natural - Conceitos, Técnicas e Aplicações em Português**.

>

**RESTRIÇÃO**: É obrigatório usar o *endpoint* "*`Chat Completions`*".

>

As seguintes técnicas de PLN podem ser usadas:

*   Correção Gramatical
*   Classificação de Textos
*   Análise de Sentimentos
*   Detecção de Emoções
*   Extração de Palavras-chave
*   Tradução de Textos
*   Sumarização de Textos
*   **Similaridade de Textos**
*   **Reconhecimento de Entidades Nomeadas**
*   **Sistemas de Perguntas e Respostas**

>

Os capítulos devem ser os mesmos selecionados na **ATIVIDADE PRÁTICA 02**. Para consultar os capítulos, considere a seguinte planilha:

>

> https://docs.google.com/spreadsheets/d/1ZutzQ3v1OJgsgzCvCwxXlRIQ3ChXNlHNvB63JQvYsbo/edit?usp=sharing

>
>

**IMPORTANTE:** É obrigatório usar o e-mail da UFABC. Não é permitido alterar os capítulos já selecionados.



### **CRITÉRIOS DE AVALIAÇÃO**
---


Serão considerados como critérios de avaliação as técnicas usadas e a criatividade envolvida na aplicação das mesmas.




### **IMPLEMENTAÇÃO**
---

# Imports necessários

In [252]:
import os
import re
import random
from pathlib import Path

# bibliotecas third-party
from requests import get  # pip install requests
from bs4 import BeautifulSoup as bs  # pip install beautifulsoup4
from openai import OpenAI # pip install openai
from dotenv import load_dotenv  # pip install python-dotenv


## Extração do texto capítulos 6 e 19 do livro

Como os capítulos do livro possuem MUITOS caractéres, estamos selecionando somente parágrafos com mais de 5 palavras. 

Desses parágrafos selecionados, quatro estão sendo selecionados aleatoriamente para fins de uso com a API do OpenAI.

Isso se deve ao fato de haver um limite na quantidade mensal de tokens que podem ser utilziados na API.

In [288]:
def extract_text_from_html(url : str) -> list[str]:
    content = []
    request = get(url)
    if request.status_code == 200:
        soup = bs(request.content.decode('utf-8'), features="html.parser")
        paragraphs = soup.find_all("p")
        for paragraph in paragraphs:
            text = paragraph.get_text()
            if len(text.split()) > 5: # verifica se o parágrafo tem mais de 5 palavras
                content.append(text)
    return content

In [254]:
def get_random_paragraphs(content: list[str]) -> list[str]:
    if len(content) >= 4:
        return random.sample(content, 4)
    else:
        return None

In [255]:
cap6_raw = extract_text_from_html("https://brasileiraspln.com/livro-pln/1a-edicao/parte4/cap6/cap6.html")
cap6_rand = get_random_paragraphs(cap6_raw)

In [256]:
cap19_raw = extract_text_from_html("https://brasileiraspln.com/livro-pln/1a-edicao/parte8/cap19/cap19.html")
cap19_rand = get_random_paragraphs(cap19_raw)

## Localizando o arquivo .env dentro do repo

In [257]:
def find_dotenv() -> str:
    for root, dirs, files in os.walk(str(Path(os.getcwd()).parents[0])):
        if '.env' in files:
            dotenv_path = os.path.join(root, '.env')
            load_dotenv(dotenv_path)
            return dotenv_path
    return None

# Definição de técnicas de PLN com o Chat Completions (API v1.3.3)

In [258]:
client = OpenAI(api_key=os.getenv("OPENAI_API_KEY"))

In [259]:
def chat_with_api(system_role : str, prompt: str) -> str:
    try:
        response = client.chat.completions.create(
            messages = [
                {"role": "system", "content": system_role},
                {"role": "user", "content": prompt},
            ],
            model="gpt-3.5-turbo"
        )
        response_text = response.choices[0].message.content
        return response_text
    except Exception as e:
        print(f"Erro ao comunicar com a API: {e}")
        return None
    
def print_response(paragraph_list : list[str], function):
   for paragraph in paragraph_list:
        print('-' * 150)
        print(f'Parágrafo: {paragraph}')
        print(f'Reposta da API: {function(paragraph)}')

# Das técnicas listadas, algumas serão utilizadas com os parágrafos selecionados aleatoriamente.

## Técnica 1: Correção Gramatical

In [260]:
def correcao_gramatical(prompt : str) -> str:
    return chat_with_api(system_role="Você é um um assistente de correção textual que vai me ajudar a achar erros gramaticais no texto apresentado",
                         prompt=prompt)

In [261]:
print_response(cap6_rand, correcao_gramatical)

------------------------------------------------------------------------------------------------------------------------------------------------------
Parágrafo: A raiz, assim como acontece na representação por diagrama arbóreo, também é representada em uma das linhas, como se fosse “dependente” de um núcleo fictício, chamado ROOT, representado por letras maiúsculas, em uma relação chamada root representada por letras minúsculas. O elemento ROOT representa o elemento vazio.
Reposta da API: A raiz, assim como acontece na representação por diagrama arbóreo, também é representada em uma das linhas, como se fosse "dependente" de um núcleo fictício, chamado ROOT, representado por letras maiúsculas, em uma relação chamada root representada por letras minúsculas. O elemento ROOT representa o elemento vazio.
------------------------------------------------------------------------------------------------------------------------------------------------------
Parágrafo: Retomando o Exemplo 6.3 te

In [262]:
print_response(cap19_rand, correcao_gramatical)

------------------------------------------------------------------------------------------------------------------------------------------------------
Parágrafo: Cada uma dessas etapas pode ser vista como uma aplicação independente no PLN. Por exemplo, existem várias ferramentas de auxílio à escrita, bem como corretores ortográficos e gramaticais, que executam exclusivamente a tarefa de identificação de desvios no texto; e isso constitui uma aplicação em si. Da mesma forma, a tarefa de dar um feedback com sugestões para o aluno é semelhante a outras aplicações de PLN que envolvem geração de linguagem natural (ou Natural Language Generation).
Reposta da API: Cada uma dessas etapas pode ser vista como uma aplicação independente no PLN. Por exemplo, existem várias ferramentas de auxílio à escrita, bem como corretores ortográficos e gramaticais, que executam exclusivamente a tarefa de identificação de desvios no texto. Isso constitui uma aplicação em si. Da mesma forma, a tarefa de dar um 

## Técnica 2: Classificação de Textos

In [271]:
def classificacao_textos(prompt : str) -> str:
    return chat_with_api(system_role="Você é um um assistente de classificação textual que vai me ajudar a classificar o texto apresentado",
                         prompt=prompt)

In [272]:
print_response(cap6_rand, classificacao_textos)

------------------------------------------------------------------------------------------------------------------------------------------------------
Parágrafo: A raiz, assim como acontece na representação por diagrama arbóreo, também é representada em uma das linhas, como se fosse “dependente” de um núcleo fictício, chamado ROOT, representado por letras maiúsculas, em uma relação chamada root representada por letras minúsculas. O elemento ROOT representa o elemento vazio.
Reposta da API: O texto apresentado fala sobre a representação da raiz em uma estrutura de diagrama arbóreo. Nessa estrutura, a raiz é representada como dependente de um núcleo fictício chamado ROOT, que é representado por letras maiúsculas. Essa relação é chamada de root e é representada por letras minúsculas. O elemento ROOT representa o elemento vazio. Considerando esse contexto, o texto se enquadra na área de Linguística ou Processamento de Linguagem Natural.
-----------------------------------------------------

In [273]:
print_response(cap19_rand, classificacao_textos)

------------------------------------------------------------------------------------------------------------------------------------------------------
Parágrafo: Cada uma dessas etapas pode ser vista como uma aplicação independente no PLN. Por exemplo, existem várias ferramentas de auxílio à escrita, bem como corretores ortográficos e gramaticais, que executam exclusivamente a tarefa de identificação de desvios no texto; e isso constitui uma aplicação em si. Da mesma forma, a tarefa de dar um feedback com sugestões para o aluno é semelhante a outras aplicações de PLN que envolvem geração de linguagem natural (ou Natural Language Generation).
Reposta da API: O texto apresentado descreve diferentes etapas do processamento de linguagem natural (PLN) e destaca a importância de cada uma delas. Além disso, menciona que cada uma dessas etapas pode ser vista como uma aplicação independente no PLN.

Portanto, considerando a natureza do texto, ele pode ser classificado como um texto informativo 

## Técnica 3: Análise de Sentimentos

In [264]:
def analise_sentimentos(prompt : str) -> str:
    return chat_with_api(system_role="Você é um um assistente que faz análises sentimentais com base no texto apresentado",
                         prompt=prompt)

## Técnica 4: Detecção de Emoções

In [265]:
def deteccao_emocoes(prompt : str) -> str:
    return chat_with_api(system_role="Você é um um assistente de detecção de emoções com base no texto apresentado",
                         prompt=prompt)

## Técnica 5: Extração de Palavras-chave

In [266]:
def extraca_palavras_chave(prompt : str) -> str:
    return chat_with_api(system_role="Você é um um assistente textual que vai me ajudar a extrair palavras-chave do texto apresentado",
                         prompt=prompt)

In [285]:
print_response(cap6_rand, extraca_palavras_chave)

------------------------------------------------------------------------------------------------------------------------------------------------------
Parágrafo: A raiz, assim como acontece na representação por diagrama arbóreo, também é representada em uma das linhas, como se fosse “dependente” de um núcleo fictício, chamado ROOT, representado por letras maiúsculas, em uma relação chamada root representada por letras minúsculas. O elemento ROOT representa o elemento vazio.
Reposta da API: palavras-chave:
- raiz
- representação
- diagrama arbóreo
- linhas
- dependente
- núcleo fictício
- ROOT
- letras maiúsculas
- relação
- letras minúsculas
- elemento vazio
------------------------------------------------------------------------------------------------------------------------------------------------------
Parágrafo: Retomando o Exemplo 6.3 temos, então, os seguintes sintagmas: “a menina”, que é um sintagma nominal, pois o seu constituinte principal é o substantivo “menina”; e “postou 

In [286]:
print_response(cap19_rand, extraca_palavras_chave)

------------------------------------------------------------------------------------------------------------------------------------------------------
Parágrafo: Cada uma dessas etapas pode ser vista como uma aplicação independente no PLN. Por exemplo, existem várias ferramentas de auxílio à escrita, bem como corretores ortográficos e gramaticais, que executam exclusivamente a tarefa de identificação de desvios no texto; e isso constitui uma aplicação em si. Da mesma forma, a tarefa de dar um feedback com sugestões para o aluno é semelhante a outras aplicações de PLN que envolvem geração de linguagem natural (ou Natural Language Generation).
Reposta da API: etapas, aplicação, PLN, ferramentas, auxílio à escrita, corretores ortográficos e gramaticais, identificação de desvios, texto, feedback, sugestões, aluno, geração de linguagem natural, Natural Language Generation
------------------------------------------------------------------------------------------------------------------------

## Técnica 6: Tradução de Textos

In [275]:
def traducao_textos(prompt : str) -> str:
    return chat_with_api(system_role="Você é um um assistente textual que vai me ajudar a traduzir textos do inglês para o português, somente no caso em que o texto possua palavras em inglês",
                         prompt=prompt)

## Técnica 7: Sumarização de Textos

In [277]:
def sumarizacao_textos(prompt : str) -> str:
    return chat_with_api(system_role="Você é um um assistente de sumarização textual que vai me ajudar a sumarizar o texto apresentado",
                         prompt=prompt)

In [278]:
print_response(cap6_rand, sumarizacao_textos)

------------------------------------------------------------------------------------------------------------------------------------------------------
Parágrafo: A raiz, assim como acontece na representação por diagrama arbóreo, também é representada em uma das linhas, como se fosse “dependente” de um núcleo fictício, chamado ROOT, representado por letras maiúsculas, em uma relação chamada root representada por letras minúsculas. O elemento ROOT representa o elemento vazio.
Reposta da API: A raiz é representada no diagrama arbóreo como "dependente" de um núcleo fictício chamado ROOT. Isso é indicado por letras maiúsculas na estrutura da árvore. A relação é chamada de root e representa o elemento vazio.
------------------------------------------------------------------------------------------------------------------------------------------------------
Parágrafo: Retomando o Exemplo 6.3 temos, então, os seguintes sintagmas: “a menina”, que é um sintagma nominal, pois o seu constituinte p

In [279]:
print_response(cap19_rand, sumarizacao_textos)

------------------------------------------------------------------------------------------------------------------------------------------------------
Parágrafo: Cada uma dessas etapas pode ser vista como uma aplicação independente no PLN. Por exemplo, existem várias ferramentas de auxílio à escrita, bem como corretores ortográficos e gramaticais, que executam exclusivamente a tarefa de identificação de desvios no texto; e isso constitui uma aplicação em si. Da mesma forma, a tarefa de dar um feedback com sugestões para o aluno é semelhante a outras aplicações de PLN que envolvem geração de linguagem natural (ou Natural Language Generation).
Reposta da API: O texto fala sobre como cada etapa do Processamento de Linguagem Natural (PLN) pode ser vista como uma aplicação independente. Por exemplo, existem ferramentas de auxílio à escrita, corretores ortográficos e gramaticais que identificam erros no texto, o que constitui uma aplicação em si. Da mesma forma, a tarefa de dar feedback com 

## Técnica 8: Similaridade de Textos

In [280]:
def similaridade_textos(prompt1 : str, prompt2 : str) -> str:
    return chat_with_api(system_role="Você é um um assistente textual que vai me ajudar a encontrar similaridades nos textos apresentados",
                         prompt=f'Texto 1: {prompt1}; Texto 2: {prompt2}')

## Técnica 9: Reconhecimento de Entidades Nomeadas

In [281]:
def recon_entidades_nomeadas(prompt : str) -> str:
    return chat_with_api(system_role="Você é um um assistente textual que vai me ajudar a reconhecer/encontar entidades nomeadas no texto apresentado",
                         prompt=prompt)

In [282]:
print_response(cap6_rand, recon_entidades_nomeadas)

------------------------------------------------------------------------------------------------------------------------------------------------------
Parágrafo: A raiz, assim como acontece na representação por diagrama arbóreo, também é representada em uma das linhas, como se fosse “dependente” de um núcleo fictício, chamado ROOT, representado por letras maiúsculas, em uma relação chamada root representada por letras minúsculas. O elemento ROOT representa o elemento vazio.
Reposta da API: No texto apresentado, as seguintes entidades nomeadas foram identificadas:

1. Diagrama arbóreo
2. ROOT (núcleo fictício)

Entidades nomeadas são palavras ou grupos de palavras que se referem a um nome próprio, como pessoas, lugares, organizações, entre outros.
------------------------------------------------------------------------------------------------------------------------------------------------------
Parágrafo: Retomando o Exemplo 6.3 temos, então, os seguintes sintagmas: “a menina”, que é u

In [284]:
print_response(cap19_rand, recon_entidades_nomeadas)

------------------------------------------------------------------------------------------------------------------------------------------------------
Parágrafo: Cada uma dessas etapas pode ser vista como uma aplicação independente no PLN. Por exemplo, existem várias ferramentas de auxílio à escrita, bem como corretores ortográficos e gramaticais, que executam exclusivamente a tarefa de identificação de desvios no texto; e isso constitui uma aplicação em si. Da mesma forma, a tarefa de dar um feedback com sugestões para o aluno é semelhante a outras aplicações de PLN que envolvem geração de linguagem natural (ou Natural Language Generation).
Reposta da API: No texto apresentado, as seguintes entidades nomeadas foram identificadas:

- PLN (Processamento de Linguagem Natural)
------------------------------------------------------------------------------------------------------------------------------------------------------
Parágrafo: Trabalhos que utilizam métricas independentes de cont