# **Processamento de Linguagem Natural [2023.Q3]**
Prof. Alexandre Donizeti Alves

### **ATIVIDADE PRÁTICA 04 [Uso da API da OpenAI com técnicas de PLN]**


A **ATIVIDADE PRÁTICA 04** deve ser feita utilizando o **Google Colab** com uma conta sua vinculada ao Gmail. O link do seu notebook, armazenado no Google Drive, além do link de um repositório no GitHub e os principais resultados da atividade, devem ser enviados usando o seguinte formulário:

> https://forms.gle/GzwCq3R7ExtE9g9a8


**IMPORTANTE**: A submissão deve ser feita até o dia **26/11 (domingo)** APENAS POR UM INTEGRANTE DA EQUIPE, até às 23h59. Por favor, lembre-se de dar permissão de ACESSO IRRESTRITO para o professor da disciplina de PLN.

### **EQUIPE**

---

**POR FAVOR, PREENCHER OS INTEGRANDES DA SUA EQUIPE:**


**Integrante 01:**

Carlos Henrique Alencar Lima - 11202021040

**Integrante 02:**

Guilherme de Sousa Santos - 11201921175

**Integrante 03:**

José Roberto de Oliveira - 11201920397

### **LIVRO**
---

`Processamento de Linguagem Natural - Conceitos, Técnicas e Aplicações em Português.`

>

Disponível gratuitamente em:
  
  > https://brasileiraspln.com/livro-pln/1a-edicao/.


**POR FAVOR, PREENCHER OS CAPITULOS SELECIONADOS PARA A SUA EQUIPE:**

`Primeiro capítulo: ` 4 - Sequência de caracteres e palavras

`Segundo capítulo:` 22 - PLN no Direito



### **DESCRIÇÃO**
---

Implementar um `notebook` no `Google Colab` que faça uso da **API da OpenAI** aplicando, no mínimo, 3 técnicas de PLN. As técnicas devem ser aplicadas nos 2 (DOIS) capítulos do livro **Processamento de Linguagem Natural - Conceitos, Técnicas e Aplicações em Português**.

>

**RESTRIÇÃO**: É obrigatório usar o *endpoint* "*`Chat Completions`*".

>

As seguintes técnicas de PLN podem ser usadas:

*   Correção Gramatical
*   Classificação de Textos
*   Análise de Sentimentos
*   Detecção de Emoções
*   Extração de Palavras-chave
*   Tradução de Textos
*   Sumarização de Textos
*   **Similaridade de Textos**
*   **Reconhecimento de Entidades Nomeadas**
*   **Sistemas de Perguntas e Respostas**

>

Os capítulos devem ser os mesmos selecionados na **ATIVIDADE PRÁTICA 02**. Para consultar os capítulos, considere a seguinte planilha:

>

> https://docs.google.com/spreadsheets/d/1ZutzQ3v1OJgsgzCvCwxXlRIQ3ChXNlHNvB63JQvYsbo/edit?usp=sharing

>
>

**IMPORTANTE:** É obrigatório usar o e-mail da UFABC. Não é permitido alterar os capítulos já selecionados.



### **CRITÉRIOS DE AVALIAÇÃO**
---


Serão considerados como critérios de avaliação as técnicas usadas e a criatividade envolvida na aplicação das mesmas.




### **IMPLEMENTAÇÃO**
---

**Instalação da biblioteca da API da OpenAI**

In [1]:
print(f"Instalando a biblioteca da API da OpenAi...")

!pip install openai==0.28.1

print("API da OpenAI instalada!")

Instalando a biblioteca da API da OpenAi...
API da OpenAI instalada!


**Importando as bibliotecas necessárias**

In [1]:
import openai
import requests
import re
import json
from tqdm import tqdm
from bs4 import BeautifulSoup

from pydantic import BaseModel
from tenacity import retry, wait_exponential, stop_after_attempt
import os
import nltk
from nltk.tokenize import sent_tokenize
from nltk import download

from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


In [2]:
nltk.download('punkt')

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

**Versão da API da OpenAI**

In [3]:
print(openai.__version__)

0.28.1


**Definindo algumas constantes e variáveis**

In [4]:
# definir a chave da API
API_KEY = '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'
openai.api_key = API_KEY

# definir o modelo da OpenAI
MODEL = "gpt-3.5-turbo"

# URLs dos capítulos 4 e 22
chapters = [
    {
        "name": "Capítulo 4: Sequência de caracteres e palavras",
        "url": "https://brasileiraspln.com/livro-pln/1a-edicao/parte3/cap4/cap4.html"
    },
    {
        "name": "Capítulo 22: PLN no Direito",
        "url": "https://brasileiraspln.com/livro-pln/1a-edicao/parte9/cap22/cap22.html"
    }
]

**Definindo algumas funções auxiliares**

In [5]:
def get_text_from_paragraphs(paragraphs):
  text = ""

  for p in paragraphs:
    text += p.getText() + "\n"

  return text

In [6]:
def preprocess_text(text):
    characters_to_reduce = ['!', '@', '#']

    for char in characters_to_reduce:
        pattern = re.escape(char) + "{2,}"
        text = re.sub(pattern, char, text)

    return text

In [7]:
def split_text(text, max_tokens=1000):
  tokens = nltk.word_tokenize(text)

  chunks = []
  current_chunk = []
  current_chunk_tokens = 0

  for token in tokens:
    current_chunk.append(token)
    current_chunk_tokens += 1

    if (current_chunk_tokens >= max_tokens):
      chunks.append(' '.join(current_chunk))
      current_chunk = []
      current_chunk_tokens = 0

  if (current_chunk_tokens > 0):
    chunks.append(' '.join(current_chunk))

  return chunks

In [8]:
def process_text(text):
    result = {"text": text}
    example = []

    @retry(stop=stop_after_attempt(5), wait=wait_exponential(multiplier=0.5, max=5))

    # usa o endpoint chat completion da OpenAI
    def call_openai_chat_completion(messages, functions, function_call):
        try:
            response = openai.ChatCompletion.create(
                model=MODEL,
                messages=messages,
                functions=functions,
                function_call=function_call,
            )

            function_call_response = response.choices[0].message["function_call"]
            argument = json.loads(function_call_response["arguments"])

            return argument
        except openai.error.TimeoutError as e:
            raise e

    sentiment_count = {"positive": 0, "negative": 0, "neutral": 0, "mixed": 0}
    final_topics_count = {"positive": {}, "negative": {}, "neutral": {}, "mixed": {}}

    '''
    Função para resumir o texto (text summarize)
    '''

    functions_summary = {
        "name": "print_summary",
        "description": "A function that prints the given summary",
        "parameters": {
            "type": "object",
            "properties": {
                "summary": {
                    "type": "string",
                    "description": "The summarized text",
                }
            },
            "required": ["summary"]
        },
    }

    messages = [{"role": "user", "content": text}]

    function_call = {
        "name": functions_summary["name"],
        "arguments": json.dumps({
            "summary": text,
            "max_tokens": 500
        })
    }

    text = call_openai_chat_completion(messages, [functions_summary], function_call)['summary']

    result["summarized_text"] = text

    preprocessed_text = preprocess_text(text)  # Correctly calling the function here fazendo qa
    sentences = sent_tokenize(preprocessed_text)

    '''
    Função de analise de sentimento
    '''

    functions_sentiment = [{
        "name": "print_sentiment",
        "description": "A function that prints the given sentiment",
        "parameters": {
            "type": "object",
            "properties": {
                "sentiment": {
                    "type": "string",
                    "enum": ["positive", "negative", "neutral", "mixed"],
                    "description": "The sentiment"
                }
            },
            "required": ["sentiment"]
        }
    }]

    '''
    Função de extração de palavras-chaves
    '''

    functions_keywords = [{
        "name": "print_keywords",
        "description": "A function that prints the given keywords",
        "parameters": {
            "type": "object",
            "properties": {
                "keywords": {
                    "type": "array",
                    "items": {
                        "type": "string"
                    }
                }
            },
            "required": ["keywords"]
        }
    }]

    functions = functions_sentiment + functions_keywords
    sentence_results = []

    for sentence in sentences:
        messages = [{"role": "user", "content": sentence}]
        sentence_result = {"sentence": sentence}

        for function in functions:
            function_call = {"name": function["name"]}
            if function["name"] == "print_sentiment":
                function_call["arguments"] = json.dumps({
                    "sentiment": ["positive", "negative", "neutral", "mixed"]
                })

            elif function["name"] == "print_keywords":
                function_call["arguments"] = json.dumps({
                    "keywords": sentence
                })

            argument = call_openai_chat_completion(messages, functions, function_call)
            sentence_result[function["name"]] = argument

            if function["name"] == "print_sentiment":
                sentiment = argument["sentiment"]
                sentiment_count[sentiment] += 1

        sentiment = sentence_result.get("print_sentiment", {}).get("sentiment", "neutral")

        sentence_results.append(sentence_result)

    total_sentiments = sum(sentiment_count.values())
    percent_positive = (sentiment_count["positive"] / total_sentiments) * 100
    percent_negative = (sentiment_count["negative"] / total_sentiments) * 100
    SSCORE = percent_positive - percent_negative

    result.update({"sentence_results": sentence_results, "final_sentiment_count": sentiment_count, "SSCORE": SSCORE,})

    return result

**Testando**

In [11]:
processed_chapters = {}

for chapter in chapters:
  processed_paragraphs = []

  name = chapter["name"]
  url = chapter["url"]

  print(name)

  response = requests.get(url)
  soup = BeautifulSoup(response.content, 'html.parser')
  book_text_container = soup.find('main')
  paragraphs = book_text_container.find_all(['p'])
  text = get_text_from_paragraphs(paragraphs)

  chunks = split_text(text)

  for chunk in tqdm(chunks):
    result = process_text(chunk)
    processed_paragraphs.append(result)

  processed_chapters[name] = processed_paragraphs

Capítulo 4: Sequência de caracteres e palavras


100%|██████████| 13/13 [24:29<00:00, 113.03s/it]


Capítulo 22: PLN no Direito


100%|██████████| 7/7 [07:35<00:00, 65.03s/it]


Salvar o resultado no arquivo data.json

In [13]:
with open('data.json', 'w', encoding="utf-8") as f:
    json.dump(processed_chapters, f, ensure_ascii=False)

# Resultados

In [10]:
with open('data.json', 'r', encoding='utf-8') as file:
    data = json.load(file)

In [12]:
print(data)

{'Capítulo 4: Sequência de caracteres e palavras': [{'text': 'Morfologia e morfossintaxe Maria José Bocorny Finatto Helena de Medeiros Caseli Lucelene Lopes Amanda Rassi 26/09/2023 PDF Neste capítulo , trataremos de algo que parece simples , mas não é : identificar a unidade mínima quando tratamos , computacionalmente , a língua . Essa delimitação não é consensual entre pesquisadores e profissionais de PLN . E , mesmo em linguística , há sempre controvérsias e necessidade de pontos de referência para se definir , por exemplo , o que seja uma palavra ou mesmo uma frase . As subáreas especializadas dos estudos linguísticos entendem como unidade mínima de processamento diferentes elementos conforme seus focos e pontos de vista . A fonologia ( Capítulo 2 ) , por exemplo , considera o fonema como a menor unidade sonora e distintiva de uma língua . Se tomarmos o exemplo do que diferencia as palavras “ sábia ” ( mulher inteligente ) , “ sabiá ” ( pássaro ) e “ sabia ” ( verbo “ saber ” ) , pe

### Capítulo 4 - Sequência de caracteres e palavras

**Número de tokens do texto original**

In [16]:
result_chapter_4 = data["Capítulo 4: Sequência de caracteres e palavras"]
no_tokens_original_text = 0

for text_chunk in result_chapter_4:
  tokens = nltk.word_tokenize(text_chunk["text"])
  no_tokens_original_text += len(tokens)

print(no_tokens_original_text)

12264


**Número de tokens do texto resumido**

In [17]:
no_tokens_summarized_text = 0

for text_chunk in result_chapter_4:
  tokens = nltk.word_tokenize(text_chunk["summarized_text"])
  no_tokens_summarized_text += len(tokens)

print(no_tokens_summarized_text)

1958


**Texto resumido**

In [19]:
summarized_text = ""

for text_chunk in result_chapter_4:
  summarized_chunk = text_chunk["summarized_text"]
  summarized_text += summarized_chunk + "\n"

print(summarized_text)

Neste capítulo, são abordadas questões relacionadas à identificação da unidade mínima na linguagem, tanto no campo computacional quanto na linguística. A delimitação dessa unidade não é consensual, variando de acordo com o foco e ponto de vista dos pesquisadores. A fonologia considera o fonema como a menor unidade sonora, enquanto a morfologia considera o morfema como a menor unidade dotada de significado. Além disso, há controvérsias sobre o que é considerado uma palavra, seja pela sua composição sonora, escrita ou mesmo pela combinação de palavras. Também são discutidas as questões relacionadas a abreviaturas, siglas, interjeições e outros elementos linguísticos presentes nas redes sociais. No campo do processamento de linguagem natural, a definição da unidade de processamento depende das necessidades da tarefa ou trabalho em questão. Por fim, também é abordado o conceito de palavra computacional, adaptada ou criada para facilitar o processamento por máquinas, levando em consideração

### Capítulo 22 - PLN no Direito

**Número de tokens do texto original**

In [20]:
result_chapter_22 = data["Capítulo 22: PLN no Direito"]
no_tokens_original_text = 0

for text_chunk in result_chapter_22:
  tokens = nltk.word_tokenize(text_chunk["text"])
  no_tokens_original_text += len(tokens)

print(no_tokens_original_text)

6745


**Número de tokens do texto resumido**

In [21]:
no_tokens_summarized_text = 0

for text_chunk in result_chapter_22:
  tokens = nltk.word_tokenize(text_chunk["summarized_text"])
  no_tokens_summarized_text += len(tokens)

print(no_tokens_summarized_text)

1025


**Texto resumido**

In [22]:
summarized_text = ""

for text_chunk in result_chapter_22:
  summarized_chunk = text_chunk["summarized_text"]
  summarized_text += summarized_chunk + "\n"

print(summarized_text)

Neste capítulo, são abordadas diversas perspectivas e desafios relacionados ao trabalho computacional com textos jurídicos e legais. O objetivo é apresentar algumas abordagens e estudos no contexto do Direito Brasileiro. São discutidos aspectos sócio-históricos do Direito no Brasil, o reconhecimento e exploração do vocabulário jurídico, a análise de sentimentos em textos jurídicos e o uso de técnicas de Recuperação da Informação. O capítulo também menciona a importância de estudos históricos sobre a linguagem jurídica brasileira e a normalização de textos antigos para o processamento computacional. A análise de conteúdos em sentenças judiciais via Análise de Sentimentos é destacada como uma técnica útil para identificar padrões de decisões judiciais. A criação de métodos que possam filtrar e identificar causas favoráveis em um dado tema pode ajudar os profissionais do Direito a encontrar a informação que precisam.
O direito se manifesta através da língua, sendo as palavras e enunciados