## **Case: Extração de Insights de Textos**

----------------------------------

**Estrutura do Notebook**
1) Extração de Texto
2) Utilizando GPT para 
    * Extrair Entidades
    * Analisar Sentimentos
    * Sumarizar Textos
    * Comunicações Personalizadas

----------------------------------

### **Extração de Texto**

Para extrair o texto de pdfs, é recomendável instalar a biblioteca **pdfminer.six**. Isso pode ser feito usando pip, o gerenciador de pacotes do Python. No Jupyter Notebook, eles podem executar o seguinte comando:

In [1]:
pip install pdfminer.six

You should consider upgrading via the '/home/wesley/.pyenv/versions/final/bin/python -m pip install --upgrade pip' command.[0m
Note: you may need to restart the kernel to use updated packages.


Após a instalação, importe a biblioteca conforme realizado na célula abaixo:

In [2]:
from pdfminer.high_level import extract_text

In [3]:
# Caminho para o seu arquivo PDF
caminho_pdf = "Cenário Econômico.pdf"  

# Função extratora
texto_extraido = extract_text(caminho_pdf)

In [4]:
print(texto_extraido)

Cenário Global em 2024

O início de 2023 mostrou-se extremamente desafiador, com grandes incertezas sobre o

cenário macroeconômico global. Diante da expressiva elevação da inflação,

acreditava-se que uma forte desaceleração da atividade seria necessária para

desinflacionar as economias, o que demandou um forte ciclo de aperto monetário

sincronizado no mundo. Em contrapartida, os riscos financeiros dessa forte alta de juros,

como os relacionados à solvência em um contexto de endividamento elevado, geraram

preocupações, especialmente após a quebra do Silicon Valley Bank no primeiro

semestre do ano. O receio de uma recessão se instalou nos mercados. Mas,

contrariando as previsões, terminamos o ano de 2023 com uma atividade resiliente,

ainda que em desaceleração, e uma dinâmica desinflacionária muito mais benigna que

as expectativas de mercado. Mais surpreendente que a significativa redução da inflação

global foi a propagação da desinflação dos bens comercializáveis para os núcl

In [5]:
# Normalizando o texto extraído
texto_limpo = ' '.join(texto_extraido.split())

In [6]:
texto_limpo

'Cenário Global em 2024 O início de 2023 mostrou-se extremamente desafiador, com grandes incertezas sobre o cenário macroeconômico global. Diante da expressiva elevação da inflação, acreditava-se que uma forte desaceleração da atividade seria necessária para desinflacionar as economias, o que demandou um forte ciclo de aperto monetário sincronizado no mundo. Em contrapartida, os riscos financeiros dessa forte alta de juros, como os relacionados à solvência em um contexto de endividamento elevado, geraram preocupações, especialmente após a quebra do Silicon Valley Bank no primeiro semestre do ano. O receio de uma recessão se instalou nos mercados. Mas, contrariando as previsões, terminamos o ano de 2023 com uma atividade resiliente, ainda que em desaceleração, e uma dinâmica desinflacionária muito mais benigna que as expectativas de mercado. Mais surpreendente que a significativa redução da inflação global foi a propagação da desinflação dos bens comercializáveis para os núcleos de infl

In [7]:
def extrair_texto_de_pdf(caminho_pdf):
    # Extrair texto do PDF
    texto_extraido = extract_text(caminho_pdf)
    
    # Remover quebras de linha e espaços extras
    texto_limpo = ' '.join(texto_extraido.split())
    
    return texto_limpo

----------------------------------

### **Extração de Entidades**

A extração de entidades é um processo fundamental para identificar e categorizar elementos chave em um texto, como nomes de países, indicadores econômicos, datas, entre outros. Esse processo permite estruturar dados não estruturados, facilitando análises mais detalhadas e precisas.

Neste case, é necessário identificar e extrair países e indicadores econômicos mencionados no texto extraído de um PDF. Para isso, utilizamos a técnica de extração de entidades, que nos permite transformar informações dispersas em dados estruturados, possibilitando a integração e análise eficiente das informações encontradas.

Para realizar a extração de entidades de um texto, podemos utilizar o GPT da OpenAI. Para isso, é necessário instalar a API da OpenAI, conforme a célula abaixo.

In [8]:
pip install openai

You should consider upgrading via the '/home/wesley/.pyenv/versions/final/bin/python -m pip install --upgrade pip' command.[0m
Note: you may need to restart the kernel to use updated packages.


Após a instalação, importe a biblioteca conforme realizado na célula abaixo:

In [9]:
from openai import OpenAI

In [10]:
# Configurando API Key
#

**Testando conexão**

In [11]:
prompt_teste = "Qual a capital do Brasil?"

# Chamando o modelo
resposta = client.chat.completions.create(
        model="gpt-4o", # Modelo
        messages=[
            {"role": "user", "content": prompt_teste}, # Prompt
          ],
        temperature=0
    )

# Extraindo o texto da resposta
conteudo = resposta.choices[0].message.content

In [12]:
def obter_resposta_gpt(prompt,modelo,client,persona=None):
    
    if persona:
        messages_arg = [
            {"role": "assistant", "content": persona},
            {"role": "user", "content": prompt}
        ]
    else:
        messages_arg = [{"role": "user", "content": prompt}]
        
    
    
    
    resposta = client.chat.completions.create(
        model=modelo,
        messages=messages_arg,
        temperature=0
    )
    # Extraindo o texto da resposta
    conteudo_resposta = resposta.choices[0].message.content
    
    return conteudo_resposta

**Montando um prompt para extração de entidades**

In [13]:
prompt = f"""
Sua tarefa consiste em extraír todos as economias citadas no texto abaixo. 

Texto:
'''{texto_limpo}'''
    
Observação: caso uma economia seja citada mais de uma vez com nomes de diferentes, considere o primeiro nome citado.

Formate sua resposta em uma lista, conforme o exemplo de resposta abaixo:
["economia_1","economia_2","economia_3",...,"economia_n"]"""

In [14]:
resposta = obter_resposta_gpt(prompt, modelo="gpt-4o",client=client)

In [15]:
type(eval(resposta))

list

In [16]:
# Transformando string em uma lista
lista_resposta = eval(resposta)

In [17]:
print(f"Economias citadas no texto: {lista_resposta}")

Economias citadas no texto: ['Estados Unidos', 'Brasil', 'Europa', 'China']


----------------------------------

### **Análise de Sentimentos**

A análise de sentimentos é um processo crucial para determinar a opinião ou emoção expressa em um texto, categorizando-a como positiva, negativa ou neutra. Esse processo ajuda a entender percepções e reações, facilitando decisões baseadas em dados emocionais.

Neste case, analisamos o sentimento em relação às economias mencionadas no texto extraído de um PDF. Utilizando a técnica de análise de sentimentos, podemos avaliar a percepção econômica, proporcionando insights valiosos para a interpretação dos dados.

In [18]:
print('\n*'.join(lista_resposta))

Estados Unidos
*Brasil
*Europa
*China


In [19]:
resposta_em_topicos = '*'+'\n*'.join(lista_resposta)

In [20]:
print(resposta_em_topicos)

*Estados Unidos
*Brasil
*Europa
*China


Definição das instruções

In [21]:
prompt_sentimentos = f"""
Sua tarefa consiste em analisar o sentimento em relação a uma lista de economias citadas em um texto.

Economias:
{resposta_em_topicos}

Texto:
{texto_limpo}

Os sentimentos podem se dividir em três classes: positivo, negativo ou neutro.
Formate sua resposta como um dicionário. Sua resposta deve conter apenas o dicionário e nenhum texto adicional, conforme o exemplo abaixo:
{{'economia_1':'sentimento_1', 'economia_2':'sentimento_2',...,'economia_n','sentimento_n'}}
"""

In [22]:
print(prompt_sentimentos)


Sua tarefa consiste em analisar o sentimento em relação a uma lista de economias citadas em um texto.

Economias:
*Estados Unidos
*Brasil
*Europa
*China

Texto:
Cenário Global em 2024 O início de 2023 mostrou-se extremamente desafiador, com grandes incertezas sobre o cenário macroeconômico global. Diante da expressiva elevação da inflação, acreditava-se que uma forte desaceleração da atividade seria necessária para desinflacionar as economias, o que demandou um forte ciclo de aperto monetário sincronizado no mundo. Em contrapartida, os riscos financeiros dessa forte alta de juros, como os relacionados à solvência em um contexto de endividamento elevado, geraram preocupações, especialmente após a quebra do Silicon Valley Bank no primeiro semestre do ano. O receio de uma recessão se instalou nos mercados. Mas, contrariando as previsões, terminamos o ano de 2023 com uma atividade resiliente, ainda que em desaceleração, e uma dinâmica desinflacionária muito mais benigna que as expectativa

Definindo uma persona

In [23]:
persona = "Você é um economista com vasta experiência no mercado financeiro."

In [24]:
resposta_sentimento = obter_resposta_gpt(prompt_sentimentos,modelo="gpt-4o",client=client,persona=persona)

In [25]:
print(resposta_sentimento)

{'Estados Unidos': 'positivo', 'Brasil': 'positivo', 'Europa': 'neutro', 'China': 'negativo'}


### **Sumarização de Textos**

A sumarização é um processo essencial para condensar informações extensas em um formato mais curto, mantendo os pontos principais e a essência do conteúdo original. Esse processo permite uma compreensão rápida e eficiente dos dados, economizando tempo e esforço na leitura.

Neste case, aplicamos a técnica de sumarização para reduzir o texto extraído de um PDF, destacando os pontos mais relevantes. Utilizando a sumarização, conseguimos transformar informações longas em resumos concisos, facilitando a análise e a tomada de decisões informadas.

Aqui, adicionaremos ao prompt de análise de sentimentos a tarefa de sumzarização

In [26]:
prompt_resumo = f"""
Sua tarefa consiste em analisar o sentimento em relação a uma lista de economias citadas em um texto e realizar um breve resumo do texto para cada uma das economias.

Economias:
{resposta_em_topicos}

Texto:
{texto_limpo}

Os sentimentos podem se dividir em três classes: positivo, negativo ou neutro. O resumo não deve ser maior que um parágrafo.
Formate sua resposta como um dicionário. Sua resposta deve conter apenas o dicionário e nenhum texto adicional, conforme o exemplo abaixo:
{{'economia_1':'sentimento_1,resumo_1', 'economia_2':'sentimento_2,resumo_2',...,'economia_n','sentimento_n,resumo_n'}}"""

In [27]:
print(prompt_resumo)


Sua tarefa consiste em analisar o sentimento em relação a uma lista de economias citadas em um texto e realizar um breve resumo do texto para cada uma das economias.

Economias:
*Estados Unidos
*Brasil
*Europa
*China

Texto:
Cenário Global em 2024 O início de 2023 mostrou-se extremamente desafiador, com grandes incertezas sobre o cenário macroeconômico global. Diante da expressiva elevação da inflação, acreditava-se que uma forte desaceleração da atividade seria necessária para desinflacionar as economias, o que demandou um forte ciclo de aperto monetário sincronizado no mundo. Em contrapartida, os riscos financeiros dessa forte alta de juros, como os relacionados à solvência em um contexto de endividamento elevado, geraram preocupações, especialmente após a quebra do Silicon Valley Bank no primeiro semestre do ano. O receio de uma recessão se instalou nos mercados. Mas, contrariando as previsões, terminamos o ano de 2023 com uma atividade resiliente, ainda que em desaceleração, e uma

In [28]:
resposta_resumo = obter_resposta_gpt(prompt_resumo,modelo="gpt-4o",client=client,persona=persona)

In [29]:
print(resposta_resumo)

{
    'Estados Unidos': 'positivo,O mercado de trabalho nos Estados Unidos está se reequilibrando e a atividade econômica está desacelerando para um crescimento mais próximo do potencial. A desinflação está em curso, e o Federal Reserve já discute cortes na taxa de juros, com o mercado precificando cortes significativos em 2024.',
    'Brasil': 'positivo,O Brasil apresentou crescimento econômico robusto em 2023, impulsionado pela agropecuária e indústria extrativa. A inflação recuou mais do que o esperado, permitindo cortes na taxa Selic. A expectativa é de mais cortes em 2024, com a Selic podendo chegar a 9% a.a., sustentando a renda das famílias.',
    'Europa': 'neutro,Na Europa, a inflação está recuando e a atividade econômica mostrou menos dinamismo. A política monetária tem sido transmitida rapidamente, justificando o baixo crescimento e a inflação abaixo das expectativas. O BCE deve iniciar cortes na taxa de juros em 2024, com a meta de convergência da inflação para 2025.',
    

In [30]:
resumo = eval(resposta_resumo)

In [31]:
resumo.get("China")

'negativo,A China enfrenta um cenário desafiador para 2024, com a atividade econômica não se recuperando conforme o esperado após a reabertura pós-Covid. A desaceleração do setor imobiliário e a moderação do consumo são os principais desafios, impactando negativamente o crescimento econômico.'

In [32]:
resumo.get("Brasil")

'positivo,O Brasil apresentou crescimento econômico robusto em 2023, impulsionado pela agropecuária e indústria extrativa. A inflação recuou mais do que o esperado, permitindo cortes na taxa Selic. A expectativa é de mais cortes em 2024, com a Selic podendo chegar a 9% a.a., sustentando a renda das famílias.'

### **Comunicações Personalizadas**

O GPT pode reescrever texto para diferentes públicos-alvo, adaptando o tom, estilo e complexidade conforme necessário. Isso permite a personalização da comunicação, tornando-a mais relevante e eficaz para cada segmento de audiência, seja ele técnico, leigo, profissional ou jovem. Utilizando o GPT, empresas podem criar conteúdo que ressoa melhor com seus diferentes públicos, melhorando engajamento e compreensão.

Resumo para revista especializada

In [33]:
resumo_tecnico = {}

In [34]:
persona = "Você é um editor experiente de uma revista técnica focada em economia."

In [35]:
for economia in resumo:
    resumo_selecionado = resumo.get(economia)

    prompt_comunicacao = f"""Sua tarefa consiste em reescrever um texto a fim de adaptá-lo para o seu público-alvo.
    Texto:
    '''{resumo_selecionado}'''
    
    Retorne apenas o texto em sua resposta.
    """
    
    resumo_reescrito = obter_resposta_gpt(prompt_comunicacao,modelo="gpt-4o",client=client,persona=persona)
    
    resumo_tecnico[economia] = resumo_reescrito

In [45]:
resumo_tecnico.get('China')

'A China enfrenta um cenário desafiador para 2024, com a atividade econômica não se recuperando conforme o esperado após a reabertura pós-Covid. A desaceleração do setor imobiliário e a moderação do consumo são os principais desafios, impactando negativamente o crescimento econômico.'

In [37]:
resumo_tecnico.get("Europa")

'Na Europa, a inflação está em declínio e a atividade econômica tem demonstrado menor dinamismo. A política monetária tem sido transmitida de forma rápida, justificando o baixo crescimento e a inflação abaixo das expectativas. O Banco Central Europeu (BCE) deve iniciar cortes na taxa de juros em 2024, visando a convergência da inflação para 2025.'

Resumo para revista não especializada no assunto.

In [38]:
persona = "Você é um editor experiente de uma revista focada no público geral."

In [39]:
resumo_leigo = {}

for economia in resumo:
    resumo_selecionado = resumo.get(economia)

    prompt_comunicacao = f"""Sua tarefa consiste em reescrever um texto a fim de adaptá-lo para um público sem conhecimento de economia. 
    Caso seja necessário, simplifique ou adicione uma explicação a termos que não sejam de conhecimento comum.
    Texto:
    '''{resumo_selecionado}'''
    
    Retorne apenas o texto em sua resposta.
    """
    
    resumo_reescrito = obter_resposta_gpt(prompt_comunicacao,modelo="gpt-4o",client=client,persona=persona)
    
    resumo_leigo[economia] = resumo_reescrito

In [47]:
resumo_leigo.get("Europa")

'Na Europa, os preços estão subindo mais devagar e a economia está crescendo menos. As decisões sobre o dinheiro que circula na economia estão sendo aplicadas rapidamente, o que explica o crescimento lento e a inflação menor do que o esperado. O Banco Central Europeu (BCE) deve começar a reduzir as taxas de juros em 2024, com o objetivo de estabilizar os preços até 2025.'

In [57]:
resumo.get('Brasil').split(',')[0].title()

'Positivo'

Geração de PDF

In [59]:
from fpdf import FPDF 

def salvar_dicionario_em_pdf(dicionario, resumo_original, caminho_pdf):
    # Crie uma instância do FPDF
    pdf = FPDF()
    
    # Adicione uma página
    pdf.add_page()
    
    # Título
    pdf.set_font("Arial", style='B', size=12)
    pdf.multi_cell(0, 6, f"Resumo Econômico")
    pdf.ln()  # Adicione uma linha em branco entre parágrafos

    # Itere sobre o dicionário e adicione cada chave e valor como parágrafo
    for pais, resumo in dicionario.items():
        sentimento = resumo_original.get(pais).split(',')[0]
        
        # Adicione o país como um título em negrito
        pdf.set_font("Arial", style='BU', size=10)
        pdf.multi_cell(0, 6, f"{pais} - Sentimento {sentimento.title()}")
        
        # Adicione o resumo com fonte normal
        pdf.set_font("Arial", size=10)
        pdf.multi_cell(0, 6, resumo)
        pdf.ln()  # Adicione uma linha em branco entre parágrafos
    
    # Salve o PDF no caminho especificado
    pdf.output(caminho_pdf)

caminho_pdf = "resumos_paises.pdf"
salvar_dicionario_em_pdf(resumo_leigo, resumo, caminho_pdf)

In [60]:
caminho_pdf = "resumos_paises_tecnico.pdf"
salvar_dicionario_em_pdf(resumo_tecnico, resumo, caminho_pdf)