<a href="https://colab.research.google.com/github/fabriciosantana/nlp/blob/main/AKCIT_NLP_M7_Colab_Unidade_5.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 1- Objetivos de Aprendizagem

Neste notebook, exploraremos técnicas de Processamento de Linguagem Natural (NLP) utilizando modelos avançados de geração e sumarização de texto. O objetivo é aprender a aplicar modelos pré-treinados, como o GPT-2 e o T5, em tarefas de geração e resumo de texto, tanto em inglês quanto em português.



# 2- Geração de Texto usando GPT-2

Neste exemplo, vamos demonstrar como integrar o GPT-2 em uma aplicação para gerar texto automaticamente. Este tipo de aplicação pode ser útil para empresas que desejam automatizar a criação de conteúdo, como artigos, descrições de produtos, ou postagens em mídias sociais.

## 2.1- Instalação das Dependências

Vamos começar instalando as bibliotecas necessárias.

In [None]:
!pip install transformers
!pip install torch

Collecting nvidia-cuda-nvrtc-cu12==12.1.105 (from torch)
  Using cached nvidia_cuda_nvrtc_cu12-12.1.105-py3-none-manylinux1_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-runtime-cu12==12.1.105 (from torch)
  Using cached nvidia_cuda_runtime_cu12-12.1.105-py3-none-manylinux1_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cuda-cupti-cu12==12.1.105 (from torch)
  Using cached nvidia_cuda_cupti_cu12-12.1.105-py3-none-manylinux1_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cudnn-cu12==8.9.2.26 (from torch)
  Using cached nvidia_cudnn_cu12-8.9.2.26-py3-none-manylinux1_x86_64.whl.metadata (1.6 kB)
Collecting nvidia-cublas-cu12==12.1.3.1 (from torch)
  Using cached nvidia_cublas_cu12-12.1.3.1-py3-none-manylinux1_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-cufft-cu12==11.0.2.54 (from torch)
  Using cached nvidia_cufft_cu12-11.0.2.54-py3-none-manylinux1_x86_64.whl.metadata (1.5 kB)
Collecting nvidia-curand-cu12==10.3.2.106 (from torch)
  Using cached nvidia_curand_cu12-10.3.2.106-py3-

## 2.2- Importação das Bibliotecas

Vamos importar as bibliotecas necessárias para carregar o *pipeline* de geração de texto.

*   pipeline - cria pipelines para processamento simplificando tarefas como análise de sentimentos, classificação e resumo de textos entre outros.
*   set_seed -  útil para garantir a reprodutibilidade dos resultados. Em operações que envolvem aleatoriedade (inicialização de pesos de modelos, embaralhamento de dados), há a garantia de ter o mesmo comportamento a cada execução.



In [None]:
from transformers import pipeline, set_seed
import torch

## 2.3- Carregamento do Pipeline de Geração de Texto

Vamos carregar o *pipeline* de geração de texto utilizando o modelo `pierreguillou/gpt2-small-portuguese`.
Utilizamos a entrada "device=0 if torch.cuda.is_available() else -1"  no comando para informar que o modelo será executado usando a CPU. Há opçoes que podem ser adotadas para uso de GPU caso exista.

In [None]:
model_name = "pierreguillou/gpt2-small-portuguese"

# Carregando o pipeline de geração de texto
generator = pipeline("text-generation", model=model_name, device=0 if torch.cuda.is_available() else -1)

## 2.4- Função para Gerar Texto Automaticamente

Vamos definir uma função que utiliza o pipeline do GPT-2 para gerar texto a partir de um *prompt* fornecido. As entradas para generator que é o pipeline de geração de texto:

*   *prompt*: Será fornecido a função em comando no próximo bloco de código;
*   *max_length*: tamanho máximo da entrada a ser gerada, neste caso foi definido 200 tokens;
*   *num_return_sequences*: Define a quantidade de seqências a serem retornadas pelo gerador.
*   *no_repeat_ngram_size*: Utilizado para impedir que n-grams sejam repetidos no texto, neste caso foram utilizados como entrada os bigramas.
*   *early_stopping*: assim que a sequência for csiderada adequada pelo modelo, ele para a geração de texto.

In [None]:
def generate_text(prompt, generator, max_length=200):
    # Gerar o texto utilizando o pipeline GPT-2
    responses = generator(prompt, max_length=max_length, num_return_sequences=1, no_repeat_ngram_size=2, early_stopping=True)

    # Obter o texto gerado
    generated_text = responses[0]['generated_text']
    return generated_text

## 2.5- Exemplos de Geração de Texto

Vamos definir alguns prompts e utilizar o GPT-2 para gerar textos automáticos a partir desses prompts.

In [None]:
prompts = [
    "A inteligência artificial está transformando o setor de saúde ao",
    "As tendências de tecnologia para 2023 incluem",
    "A sustentabilidade nas empresas é importante porque",
    "A transformação digital nas pequenas empresas",
    "O futuro do trabalho remoto será influenciado por"
]

# Gerando e exibindo textos para cada prompt
for prompt in prompts:
    generated_text = generate_text(prompt, generator)
    print(f"Prompt: {prompt}")
    print(f"Texto Gerado: {generated_text}\n")

Prompt: A inteligência artificial está transformando o setor de saúde ao
Texto Gerado: A inteligência artificial está transformando o setor de saúde ao nível técnico, isto é, se transforma os hospitais de ponta em clínicas, laboratórios e centros de treinamento. A pesquisa nessa área está também presente em outros setores da Saúde, como no setor da educação. Os principais centros estão dentro dos estados da Bahia e do Pará.

As agências de pesquisa estão presentes nas mais variadas atividades de produção e pesquisa envolvendo pessoas, empresas e os governos. Para o trabalho de controle dessas agências, é necessário fazer investimentos estratégicos nos setores de Ciência, Tecnologia e Inovação. Estas agências também implementam um projeto de avaliação que visa medir o retorno de um certo estímulo, sendo que esse valor está na relação do fator a respeito do investimento. Tais investimentos tendem a ser metas, por exemplo, de curto prazo, e podem ser de longo prazo. Além disso, são desenv

# 3- Sumarização de Texto usando GPT-2

Neste exemplo, vamos demonstrar como integrar o GPT-2 para realizar sumarização de texto. Embora o GPT-2 não seja especificamente treinado para sumarização, podemos adaptá-lo fornecendo um prompt que oriente o modelo a gerar um resumo do texto fornecido.

## 3.1- Carregamento do Pipeline de Geração de Texto

Vamos carregar o *pipeline* de geração de texto utilizando o modelo `pierreguillou/gpt2-small-portuguese`.

In [None]:
# Carregando o pipeline de geração de texto
generator = pipeline("text-generation", model=model_name, device=0 if torch.cuda.is_available() else -1)

# Definindo uma semente para reprodutibilidade
set_seed(42)

## 3.2- Função para Sumarizar Texto

Vamos definir uma função que utiliza o *pipeline* do GPT-2 para gerar resumos de textos longos. Utilizaremos um *prompt* específico para orientar o modelo a gerar um resumo.

In [None]:
def summarize_with_gpt2(text, generator, max_length=150):
    prompt = f"Resuma o seguinte texto:\n\n{text}\n\nResumo:"
    response = generator(prompt, max_length=max_length, num_return_sequences=1, no_repeat_ngram_size=2, early_stopping=True)
    summarized_text = response[0]['generated_text'].replace(prompt, '').strip()
    return summarized_text

## 3.3- Exemplos de Textos para Sumarização

Vamos definir alguns exemplos de textos longos e utilizar o modelo para gerar seus resumos.

In [None]:
texts = [
    """A inteligência artificial (IA) está transformando o setor de saúde de várias maneiras. Desde a análise de grandes volumes de dados de pacientes para prever doenças até a personalização de tratamentos com base em dados genéticos, a IA está revolucionando como os cuidados de saúde são prestados. Além disso, tecnologias como machine learning e deep learning estão sendo usadas para desenvolver novas drogas e identificar potenciais tratamentos para doenças complexas. No entanto, a adoção da IA na saúde também enfrenta desafios, incluindo preocupações com a privacidade dos dados dos pacientes e a necessidade de regulamentações claras para garantir o uso ético da tecnologia.""",
    """As tendências de tecnologia para 2023 incluem avanços significativos em várias áreas. A inteligência artificial e o machine learning continuam a ser tendências importantes, com aplicações que vão desde a automação de processos até a criação de novas formas de interatividade com os usuários. A computação quântica, embora ainda em seus estágios iniciais, promete revolucionar a forma como processamos informações. Além disso, a 5G está se expandindo globalmente, proporcionando velocidades de internet mais rápidas e mais estáveis. Outras tendências incluem a realidade aumentada e virtual, que estão sendo cada vez mais utilizadas em setores como educação, entretenimento e saúde.""",
    """A sustentabilidade nas empresas é um tema cada vez mais importante, à medida que as organizações reconhecem a necessidade de minimizar seu impacto ambiental. A implementação de práticas sustentáveis não só ajuda a proteger o meio ambiente, mas também pode resultar em economias significativas de custos e melhorar a imagem da empresa junto aos consumidores. Entre as práticas mais comuns estão a redução do consumo de energia, a reciclagem de materiais e a escolha de fornecedores que adotam práticas sustentáveis. No entanto, a transição para a sustentabilidade pode ser desafiadora e requer um compromisso a longo prazo e a participação de todas as partes interessadas da empresa."""
]

# Gerando e exibindo resumos para cada texto
for text in texts:
    summary = summarize_with_gpt2(text, generator)
    print(f"Texto Original: {text}")
    print(f"Resumo: {summary}")
    print()

Truncation was not explicitly activated but `max_length` is provided a specific value, please use `truncation=True` to explicitly truncate examples to max length. Defaulting to 'longest_first' truncation strategy. If you encode pairs of sequences (GLUE-style) with the tokenizer you can select this strategy more precisely by providing a specific strategy to `truncation`.


Texto Original: A inteligência artificial (IA) está transformando o setor de saúde de várias maneiras. Desde a análise de grandes volumes de dados de pacientes para prever doenças até a personalização de tratamentos com base em dados genéticos, a IA está revolucionando como os cuidados de saúde são prestados. Além disso, tecnologias como machine learning e deep learning estão sendo usadas para desenvolver novas drogas e identificar potenciais tratamentos para doenças complexas. No entanto, a adoção da IA na saúde também enfrenta desafios, incluindo preocupações com a privacidade dos dados dos pacientes e a necessidade de regulamentações claras para garantir o uso ético da tecnologia.
Resumo: como a humanidade evoluiu, cada vez mais novas tecnologias podem ser aplicadas na medicina

Texto Original: As tendências de tecnologia para 2023 incluem avanços significativos em várias áreas. A inteligência artificial e o machine learning continuam a ser tendências importantes, com aplicações que

# 4- Sumarização de Texto usando o T5 em Português

Neste exemplo, vamos demonstrar como integrar o modelo T5 adaptado ao português para realizar sumarização de texto. Este tipo de aplicação pode ser útil para empresas que desejam automatizar a criação de resumos de documentos, artigos ou relatórios.

## 4.1- Carregamento do *Pipeline* de Sumarização

Vamos carregar o *pipeline* de sumarização utilizando o modelo `unicamp-dl/ptt5-base-portuguese-vocab`.

In [None]:
# Carregando o pipeline de sumarização
summarizer = pipeline(
    "summarization",
    model="rhaymison/flan-t5-portuguese-small-summarization",
    tokenizer="rhaymison/flan-t5-portuguese-small-summarization",
    device=0 if torch.cuda.is_available() else -1
)

config.json:   0%|          | 0.00/1.55k [00:00<?, ?B/s]

model.safetensors:   0%|          | 0.00/308M [00:00<?, ?B/s]

generation_config.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/20.8k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/2.42M [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/2.54k [00:00<?, ?B/s]

## 4.2- Função para Sumarizar Texto

Vamos definir uma função que utiliza o *pipeline* de sumarização para gerar resumos de textos longos em português.

In [None]:
def summarize_text(text, summarizer, max_length=100, min_length=30):
    # Gerar o resumo utilizando o pipeline de sumarização
    summary = summarizer(text, max_length=max_length, min_length=min_length, do_sample=False)

    # Obter o texto resumido
    summarized_text = summary[0]['summary_text']
    return summarized_text

## 4.3- Exemplos de Textos para Sumarização

Vamos definir alguns exemplos de textos longos em português e utilizar o modelo FLAN-T5 para gerar seus resumos.

In [None]:
texts = [
    """A inteligência artificial (IA) está transformando o setor de saúde de várias maneiras. Desde a análise de grandes volumes de dados de pacientes para prever doenças até a personalização de tratamentos com base em dados genéticos, a IA está revolucionando como os cuidados de saúde são prestados. Além disso, tecnologias como machine learning e deep learning estão sendo usadas para desenvolver novas drogas e identificar potenciais tratamentos para doenças complexas. No entanto, a adoção da IA na saúde também enfrenta desafios, incluindo preocupações com a privacidade dos dados dos pacientes e a necessidade de regulamentações claras para garantir o uso ético da tecnologia.""",
    """As tendências de tecnologia para 2023 incluem avanços significativos em várias áreas. A inteligência artificial e o machine learning continuam a ser tendências importantes, com aplicações que vão desde a automação de processos até a criação de novas formas de interatividade com os usuários. A computação quântica, embora ainda em seus estágios iniciais, promete revolucionar a forma como processamos informações. Além disso, a 5G está se expandindo globalmente, proporcionando velocidades de internet mais rápidas e mais estáveis. Outras tendências incluem a realidade aumentada e virtual, que estão sendo cada vez mais utilizadas em setores como educação, entretenimento e saúde.""",
    """A sustentabilidade nas empresas é um tema cada vez mais importante, à medida que as organizações reconhecem a necessidade de minimizar seu impacto ambiental. A implementação de práticas sustentáveis não só ajuda a proteger o meio ambiente, mas também pode resultar em economias significativas de custos e melhorar a imagem da empresa junto aos consumidores. Entre as práticas mais comuns estão a redução do consumo de energia, a reciclagem de materiais e a escolha de fornecedores que adotam práticas sustentáveis. No entanto, a transição para a sustentabilidade pode ser desafiadora e requer um compromisso a longo prazo e a participação de todas as partes interessadas da empresa."""
]

# Gerando e exibindo resumos para cada texto
for text in texts:
    summary = summarize_text(text, summarizer)
    print(f"Texto Original: {text}")
    print(f"Resumo: {summary}")
    print()

Texto Original: A inteligência artificial (IA) está transformando o setor de saúde de várias maneiras. Desde a análise de grandes volumes de dados de pacientes para prever doenças até a personalização de tratamentos com base em dados genéticos, a IA está revolucionando como os cuidados de saúde são prestados. Além disso, tecnologias como machine learning e deep learning estão sendo usadas para desenvolver novas drogas e identificar potenciais tratamentos para doenças complexas. No entanto, a adoção da IA na saúde também enfrenta desafios, incluindo preocupações com a privacidade dos dados dos pacientes e a necessidade de regulamentações claras para garantir o uso ético da tecnologia.
Resumo: IA transforma setor de sade de várias maneiras. Desde a análise de grandes volumes de pacientes para prever doenças até a personalizaço de tratamentos com base em dados genéticos, a IA está revolucionando como os cuidados de

Texto Original: As tendências de tecnologia para 2023 incluem avanços sig

# 5- Exercício
Para finalizar a seção do **GPT** e **T5** do nosso curso fica o exercício desafio que será divido em quatro partes:



1.   Utilizar algum parágrafo da sua escolha do link (https://pt.wikipedia.org/wiki/GPT-3).
2.  Realizar o resumo do parágrafo escolhido com o GPT2.
3.  Realizar o resumo do parágrafo escolhido com o T5.
4.  Escreva seu comentários de qual foi o modelo que melhor realizou a tarefa de sumarização segundo a sua avaliação.