## **Case: Extração de Insights de Textos**

----------------------------------

**Estrutura do Notebook**
1) Extração de Texto
2) Utilizando GPT para 
    * Extrair Entidades
    * Analisar Sentimentos
    * Sumarizar Textos
    * Comunicações Personalizadas

----------------------------------

### **Extração de Texto**

Para extrair o texto de pdfs, é recomendável instalar a biblioteca **pdfminer.six**. Isso pode ser feito usando pip, o gerenciador de pacotes do Python. No Jupyter Notebook, eles podem executar o seguinte comando:

In [252]:
pip install pdfminer.six

Note: you may need to restart the kernel to use updated packages.


Após a instalação, importe a biblioteca conforme realizado na célula abaixo:

In [254]:
from pdfminer.high_level import extract_text

In [256]:
# Caminho para o seu arquivo PDF
caminho_pdf = "Cenário Econômico.pdf"  

# Função extratora
texto_extraido = extract_text(caminho_pdf)

In [258]:
print(texto_extraido)

Cenário Global em 2024

O início de 2023 mostrou-se extremamente desafiador, com grandes incertezas sobre o

cenário macroeconômico global. Diante da expressiva elevação da inflação,

acreditava-se que uma forte desaceleração da atividade seria necessária para

desinflacionar as economias, o que demandou um forte ciclo de aperto monetário

sincronizado no mundo. Em contrapartida, os riscos financeiros dessa forte alta de juros,

como os relacionados à solvência em um contexto de endividamento elevado, geraram

preocupações, especialmente após a quebra do Silicon Valley Bank no primeiro

semestre do ano. O receio de uma recessão se instalou nos mercados. Mas,

contrariando as previsões, terminamos o ano de 2023 com uma atividade resiliente,

ainda que em desaceleração, e uma dinâmica desinflacionária muito mais benigna que

as expectativas de mercado. Mais surpreendente que a significativa redução da inflação

global foi a propagação da desinflação dos bens comercializáveis para os núcl

In [260]:
# Normalizando o texto extraído
texto_limpo = ' '.join(texto_extraido.split())

In [262]:
texto_limpo

'Cenário Global em 2024 O início de 2023 mostrou-se extremamente desafiador, com grandes incertezas sobre o cenário macroeconômico global. Diante da expressiva elevação da inflação, acreditava-se que uma forte desaceleração da atividade seria necessária para desinflacionar as economias, o que demandou um forte ciclo de aperto monetário sincronizado no mundo. Em contrapartida, os riscos financeiros dessa forte alta de juros, como os relacionados à solvência em um contexto de endividamento elevado, geraram preocupações, especialmente após a quebra do Silicon Valley Bank no primeiro semestre do ano. O receio de uma recessão se instalou nos mercados. Mas, contrariando as previsões, terminamos o ano de 2023 com uma atividade resiliente, ainda que em desaceleração, e uma dinâmica desinflacionária muito mais benigna que as expectativas de mercado. Mais surpreendente que a significativa redução da inflação global foi a propagação da desinflação dos bens comercializáveis para os núcleos de infl

In [304]:
def extrair_texto_de_pdf(caminho_pdf):
    # Extrair texto do PDF
    texto_extraido = extract_text(caminho_pdf)
    
    # Remover quebras de linha e espaços extras
    texto_limpo = ' '.join(texto_extraido.split())
    
    return texto_limpo

----------------------------------

### **Extração de Entidades**

A extração de entidades é um processo fundamental para identificar e categorizar elementos chave em um texto, como nomes de países, indicadores econômicos, datas, entre outros. Esse processo permite estruturar dados não estruturados, facilitando análises mais detalhadas e precisas.

Neste case, é necessário identificar e extrair países e indicadores econômicos mencionados no texto extraído de um PDF. Para isso, utilizamos a técnica de extração de entidades, que nos permite transformar informações dispersas em dados estruturados, possibilitando a integração e análise eficiente das informações encontradas.

Para realizar a extração de entidades de um texto, podemos utilizar o GPT da OpenAI. Para isso, é necessário instalar a API da OpenAI, conforme a célula abaixo.

In [9]:
pip install openai

Collecting openai
  Downloading openai-1.61.1-py3-none-any.whl.metadata (27 kB)
Collecting jiter<1,>=0.4.0 (from openai)
  Downloading jiter-0.8.2-cp312-cp312-macosx_10_12_x86_64.whl.metadata (5.2 kB)
Downloading openai-1.61.1-py3-none-any.whl (463 kB)
Downloading jiter-0.8.2-cp312-cp312-macosx_10_12_x86_64.whl (302 kB)
Installing collected packages: jiter, openai
Successfully installed jiter-0.8.2 openai-1.61.1
Note: you may need to restart the kernel to use updated packages.


In [49]:
pip install google-generativeai

Collecting google-generativeai
  Downloading google_generativeai-0.8.4-py3-none-any.whl.metadata (4.2 kB)
Collecting google-ai-generativelanguage==0.6.15 (from google-generativeai)
  Downloading google_ai_generativelanguage-0.6.15-py3-none-any.whl.metadata (5.7 kB)
Collecting google-api-core (from google-generativeai)
  Downloading google_api_core-2.24.1-py3-none-any.whl.metadata (3.0 kB)
Collecting google-api-python-client (from google-generativeai)
  Downloading google_api_python_client-2.160.0-py2.py3-none-any.whl.metadata (6.7 kB)
Collecting google-auth>=2.15.0 (from google-generativeai)
  Downloading google_auth-2.38.0-py2.py3-none-any.whl.metadata (4.8 kB)
Collecting proto-plus<2.0.0dev,>=1.22.3 (from google-ai-generativelanguage==0.6.15->google-generativeai)
  Downloading proto_plus-1.26.0-py3-none-any.whl.metadata (2.2 kB)
Collecting googleapis-common-protos<2.0.dev0,>=1.56.2 (from google-api-core->google-generativeai)
  Downloading googleapis_common_protos-1.66.0-py2.py3-none-

Após a instalação, importe a biblioteca conforme realizado na célula abaixo:

In [21]:
from openai import OpenAI

In [51]:
import google.generativeai as genai

In [None]:
# Configurando API Key
client = OpenAI(api_key='')

In [None]:
genai.configure(api_key="")

**Testando conexão**

In [None]:
prompt_teste = "Qual a capital do Brasil?"

# Chamando o modelo
resposta = client.chat.completions.create(
        model="gpt-3.5-turbo", # Modelo
        messages=[
            {"role": "user", "content": prompt_teste}, # Prompt
          ],
        temperature=0
    )

# Extraindo o texto da resposta
conteudo = resposta.choices[0].message.content

In [264]:
model = genai.GenerativeModel("gemini-pro")

# Definindo o prompt
prompt_teste = "Qual a capital do Brasil?"

# Chamando o modelo
resposta = model.generate_content(prompt_teste)

# Exibindo a resposta
print(resposta.text)

Brasília


In [12]:
def obter_resposta_gpt(prompt,modelo,client,persona=None):
    
    if persona:
        messages_arg = [
            {"role": "assistant", "content": persona},
            {"role": "user", "content": prompt}
        ]
    else:
        messages_arg = [{"role": "user", "content": prompt}]
        
    
    
    
    resposta = client.chat.completions.create(
        model=modelo,
        messages=messages_arg,
        temperature=0
    )
    # Extraindo o texto da resposta
    conteudo_resposta = resposta.choices[0].message.content
    
    return conteudo_resposta


In [266]:
def obter_resposta_gemini(prompt, modelo="gemini-pro", persona=None):
    # Criando o modelo
    model = genai.GenerativeModel(modelo)
    
    # Se houver persona, inclui no prompt
    if persona:
        prompt = f"{persona}\n\n{prompt}"
    
    # Chamando o modelo
    resposta = model.generate_content(prompt)
    
    return resposta.text  # Extraindo a resposta gerada


**Montando um prompt para extração de entidades**

In [268]:
prompt = f"""
Sua tarefa consiste em extraír todos as economias citadas no texto abaixo. 

Texto:
'''{texto_limpo}'''
    
Observação: caso uma economia seja citada mais de uma vez com nomes de diferentes, considere o primeiro nome citado.

Formate sua resposta em uma lista, conforme o exemplo de resposta abaixo:
["economia_1","economia_2","economia_3",...,"economia_n"]"""

In [274]:
# Função para extrair texto do PDF
from pdfminer.high_level import extract_text

def extrair_texto_de_pdf(caminho_pdf):
    # Extrair texto do PDF
    texto_extraido = extract_text(caminho_pdf)
    
    # Remover quebras de linha e espaços extras
    texto_limpo = ' '.join(texto_extraido.split())
    
    return texto_limpo

# Caminho do seu PDF
caminho_pdf = "Cenário Econômico.pdf"

# Chamar a função para extrair o texto
texto_limpo = extrair_texto_de_pdf(caminho_pdf)

# Agora, defina o prompt com o texto extraído
prompt = f"""
Sua tarefa consiste em extraír todos as economias citadas no texto abaixo. 

Texto:
'''{texto_limpo}'''

Observação: caso uma economia seja citada mais de uma vez com nomes diferentes, considere o primeiro nome citado.

Formate sua resposta em uma lista, conforme o exemplo de resposta abaixo:
["economia_1","economia_2","economia_3",...,"economia_n"]
"""


In [None]:
resposta = obter_resposta_gpt(prompt, modelo="gpt-4o",client=client)

In [276]:
resposta = obter_resposta_gemini(prompt, modelo="gemini-pro")

In [278]:
type(eval(resposta))

list

In [280]:
# Transformando string em uma lista
lista_resposta = eval(resposta)

In [282]:
print(f"Economias citadas no texto: {lista_resposta}")

Economias citadas no texto: ['Estados Unidos', 'Brasil', 'Europa', 'Zona do Euro', 'China']


----------------------------------

### **Análise de Sentimentos**

A análise de sentimentos é um processo crucial para determinar a opinião ou emoção expressa em um texto, categorizando-a como positiva, negativa ou neutra. Esse processo ajuda a entender percepções e reações, facilitando decisões baseadas em dados emocionais.

Neste case, analisamos o sentimento em relação às economias mencionadas no texto extraído de um PDF. Utilizando a técnica de análise de sentimentos, podemos avaliar a percepção econômica, proporcionando insights valiosos para a interpretação dos dados.

In [284]:
print('\n*'.join(lista_resposta))

Estados Unidos
*Brasil
*Europa
*Zona do Euro
*China


In [286]:
resposta_em_topicos = '*'+'\n*'.join(lista_resposta)

In [288]:
print(resposta_em_topicos)

*Estados Unidos
*Brasil
*Europa
*Zona do Euro
*China


Definição das instruções

In [290]:
prompt_sentimentos = f"""
Sua tarefa consiste em analisar o sentimento em relação a uma lista de economias citadas em um texto.

Economias:
{resposta_em_topicos}

Texto:
{texto_limpo}

Os sentimentos podem se dividir em três classes: positivo, negativo ou neutro.
Formate sua resposta como um dicionário. Sua resposta deve conter apenas o dicionário e nenhum texto adicional, conforme o exemplo abaixo:
{{'economia_1':'sentimento_1', 'economia_2':'sentimento_2',...,'economia_n','sentimento_n'}}
"""

In [292]:
print(prompt_sentimentos)


Sua tarefa consiste em analisar o sentimento em relação a uma lista de economias citadas em um texto.

Economias:
*Estados Unidos
*Brasil
*Europa
*Zona do Euro
*China

Texto:
Cenário Global em 2024 O início de 2023 mostrou-se extremamente desafiador, com grandes incertezas sobre o cenário macroeconômico global. Diante da expressiva elevação da inflação, acreditava-se que uma forte desaceleração da atividade seria necessária para desinflacionar as economias, o que demandou um forte ciclo de aperto monetário sincronizado no mundo. Em contrapartida, os riscos financeiros dessa forte alta de juros, como os relacionados à solvência em um contexto de endividamento elevado, geraram preocupações, especialmente após a quebra do Silicon Valley Bank no primeiro semestre do ano. O receio de uma recessão se instalou nos mercados. Mas, contrariando as previsões, terminamos o ano de 2023 com uma atividade resiliente, ainda que em desaceleração, e uma dinâmica desinflacionária muito mais benigna que 

Definindo uma persona

In [294]:
persona = "Você é um economista com vasta experiência no mercado financeiro."

In [24]:
resposta_sentimento = obter_resposta_gpt(prompt_sentimentos,modelo="gpt-4o",client=client,persona=persona)

In [296]:
resposta_sentimento = obter_resposta_gemini(prompt_sentimentos, modelo="gemini-pro", persona=persona)

In [298]:
print(resposta_sentimento)

{'Estados Unidos': 'positivo', 'Brasil': 'positivo', 'Europa': 'neutro', 'Zona do Euro': 'neutro', 'China': 'negativo'}


### **Sumarização de Textos**

A sumarização é um processo essencial para condensar informações extensas em um formato mais curto, mantendo os pontos principais e a essência do conteúdo original. Esse processo permite uma compreensão rápida e eficiente dos dados, economizando tempo e esforço na leitura.

Neste case, aplicamos a técnica de sumarização para reduzir o texto extraído de um PDF, destacando os pontos mais relevantes. Utilizando a sumarização, conseguimos transformar informações longas em resumos concisos, facilitando a análise e a tomada de decisões informadas.

Aqui, adicionaremos ao prompt de análise de sentimentos a tarefa de sumzarização

In [306]:
prompt_resumo = f"""
Sua tarefa consiste em analisar o sentimento em relação a uma lista de economias citadas em um texto e realizar um breve resumo do texto para cada uma das economias.

Economias:
{resposta_em_topicos}

Texto:
{texto_limpo}

Os sentimentos podem se dividir em três classes: positivo, negativo ou neutro. O resumo não deve ser maior que um parágrafo.
Formate sua resposta como um dicionário. Sua resposta deve conter apenas o dicionário e nenhum texto adicional, conforme o exemplo abaixo:
{{'economia_1':'sentimento_1,resumo_1', 'economia_2':'sentimento_2,resumo_2',...,'economia_n','sentimento_n,resumo_n'}}"""

In [308]:
print(prompt_resumo)


Sua tarefa consiste em analisar o sentimento em relação a uma lista de economias citadas em um texto e realizar um breve resumo do texto para cada uma das economias.

Economias:
*Estados Unidos
*Brasil
*Europa
*Zona do Euro
*China

Texto:
Cenário Global em 2024 O início de 2023 mostrou-se extremamente desafiador, com grandes incertezas sobre o cenário macroeconômico global. Diante da expressiva elevação da inflação, acreditava-se que uma forte desaceleração da atividade seria necessária para desinflacionar as economias, o que demandou um forte ciclo de aperto monetário sincronizado no mundo. Em contrapartida, os riscos financeiros dessa forte alta de juros, como os relacionados à solvência em um contexto de endividamento elevado, geraram preocupações, especialmente após a quebra do Silicon Valley Bank no primeiro semestre do ano. O receio de uma recessão se instalou nos mercados. Mas, contrariando as previsões, terminamos o ano de 2023 com uma atividade resiliente, ainda que em desace

In [28]:
resposta_resumo = obter_resposta_gpt(prompt_resumo,modelo="gpt-4o",client=client,persona=persona)

In [310]:
resposta_resumo = obter_resposta_gemini(prompt_resumo, modelo="gemini-pro",persona=persona)

In [312]:
print(resposta_resumo)

{'Estados Unidos': 'Positivo, O mercado espera um "pouso suave" com juros caindo e redução da inflação.', 'Brasil': 'Positivo, Crescimento estável, inflação em queda e política monetária flexível.', 'Europa': 'Neutro, Inflação em queda e atividade em desaceleração, com afrouxamento da política monetária esperado.', 'Zona do Euro': 'Neutro, Convergência da inflação para a meta e cortes de juros previstos.', 'China': 'Negativo, Desafios de crescimento, com desaceleração imobiliária e consumo fraco.'}


In [314]:
resumo = eval(resposta_resumo)

In [316]:
resumo.get("China")

'Negativo, Desafios de crescimento, com desaceleração imobiliária e consumo fraco.'

In [318]:
resumo.get("Brasil")

'Positivo, Crescimento estável, inflação em queda e política monetária flexível.'

### **Comunicações Personalizadas**

O GPT pode reescrever texto para diferentes públicos-alvo, adaptando o tom, estilo e complexidade conforme necessário. Isso permite a personalização da comunicação, tornando-a mais relevante e eficaz para cada segmento de audiência, seja ele técnico, leigo, profissional ou jovem. Utilizando o GPT, empresas podem criar conteúdo que ressoa melhor com seus diferentes públicos, melhorando engajamento e compreensão.

Resumo para revista especializada

In [320]:
resumo_tecnico = {}

In [322]:
persona = "Você é um editor experiente de uma revista técnica focada em economia."

In [35]:
for economia in resumo:
    resumo_selecionado = resumo.get(economia)

    prompt_comunicacao = f"""Sua tarefa consiste em reescrever um texto a fim de adaptá-lo para o seu público-alvo.
    Texto:
    '''{resumo_selecionado}'''
    
    Retorne apenas o texto em sua resposta.
    """
    
    resumo_reescrito = obter_resposta_gpt(prompt_comunicacao,modelo="gpt-4o",client=client,persona=persona)
    
    resumo_tecnico[economia] = resumo_reescrito

In [324]:
for economia in resumo:
    resumo_selecionado = resumo.get(economia)

    prompt_comunicacao = f"""Sua tarefa consiste em reescrever um texto a fim de adaptá-lo para o seu público-alvo.
    Texto:
    '''{resumo_selecionado}'''
    
    Retorne apenas o texto em sua resposta.
    """
    
    resumo_reescrito = obter_resposta_gemini(prompt_comunicacao, modelo="gemini-pro",persona=persona)
    
    resumo_tecnico[economia] = resumo_reescrito

In [325]:
resumo_tecnico.get('China')

'Desafios Econômicos Persistentes: Estagnação do Crescimento devido à Retração Imobiliária e Queda no Consumo'

In [328]:
resumo_tecnico.get("Europa")

'Perspectiva Neutra: Inflação Decrescente e Atividade Econômica Moderada com Relaxamento Monetário Antecipado'

Resumo para revista não especializada no assunto.

In [330]:
persona = "Você é um editor experiente de uma revista focada no público geral."

In [334]:
resumo_leigo = {}

for economia in resumo:
    resumo_selecionado = resumo.get(economia)

    prompt_comunicacao = f"""Sua tarefa consiste em reescrever um texto a fim de adaptá-lo para um público sem conhecimento de economia. 
    Caso seja necessário, simplifique ou adicione uma explicação a termos que não sejam de conhecimento comum.
    Texto:
    '''{resumo_selecionado}'''
    
    Retorne apenas o texto em sua resposta.
    """
    
    resumo_reescrito = obter_resposta_gpt(prompt_comunicacao,modelo="gpt-4o",client=client,persona=persona)
    
    resumo_leigo[economia] = resumo_reescrito

In [336]:
resumo_leigo = {}

for economia in resumo:
    resumo_selecionado = resumo.get(economia)

    prompt_comunicacao = f"""Sua tarefa consiste em reescrever um texto a fim de adaptá-lo para um público sem conhecimento de economia. 
    Caso seja necessário, simplifique ou adicione uma explicação a termos que não sejam de conhecimento comum.
    Texto:
    '''{resumo_selecionado}'''
    
    Retorne apenas o texto em sua resposta.
    """
    
    resumo_reescrito = obter_resposta_gemini(prompt_comunicacao, modelo="gemini-pro",persona=persona)
    
    resumo_leigo[economia] = resumo_reescrito

In [337]:
resumo_leigo.get("Europa")

'Neutro, com a inflação diminuindo e a economia desacelerando, o que geralmente indica a necessidade de diminuir as taxas de juros (afrouxamento da política monetária).'

In [340]:
resumo.get('Brasil').split(',')[0].title()

'Positivo'

Geração de PDF

In [344]:
pip install fpdf

Collecting fpdf
  Downloading fpdf-1.7.2.tar.gz (39 kB)
  Preparing metadata (setup.py) ... [?25ldone
[?25hBuilding wheels for collected packages: fpdf
  Building wheel for fpdf (setup.py) ... [?25ldone
[?25h  Created wheel for fpdf: filename=fpdf-1.7.2-py2.py3-none-any.whl size=40704 sha256=419ea7fc5328536cd09699000146c88103b5d71637bf168664b1e24829f048e7
  Stored in directory: /Users/anabeatriz/Library/Caches/pip/wheels/6e/62/11/dc73d78e40a218ad52e7451f30166e94491be013a7850b5d75
Successfully built fpdf
Installing collected packages: fpdf
Successfully installed fpdf-1.7.2
Note: you may need to restart the kernel to use updated packages.


In [346]:
from fpdf import FPDF 

def salvar_dicionario_em_pdf(dicionario, resumo_original, caminho_pdf):
    # Crie uma instância do FPDF
    pdf = FPDF()
    
    # Adicione uma página
    pdf.add_page()
    
    # Título
    pdf.set_font("Arial", style='B', size=12)
    pdf.multi_cell(0, 6, f"Resumo Econômico")
    pdf.ln()  # Adicione uma linha em branco entre parágrafos

    # Itere sobre o dicionário e adicione cada chave e valor como parágrafo
    for pais, resumo in dicionario.items():
        sentimento = resumo_original.get(pais).split(',')[0]
        
        # Adicione o país como um título em negrito
        pdf.set_font("Arial", style='BU', size=10)
        pdf.multi_cell(0, 6, f"{pais} - Sentimento {sentimento.title()}")
        
        # Adicione o resumo com fonte normal
        pdf.set_font("Arial", size=10)
        pdf.multi_cell(0, 6, resumo)
        pdf.ln()  # Adicione uma linha em branco entre parágrafos
    
    # Salve o PDF no caminho especificado
    pdf.output(caminho_pdf)

caminho_pdf = "resumos_paises.pdf"
salvar_dicionario_em_pdf(resumo_leigo, resumo, caminho_pdf)

In [60]:
caminho_pdf = "resumos_paises_tecnico.pdf"
salvar_dicionario_em_pdf(resumo_tecnico, resumo, caminho_pdf)