In [13]:
import os
import faiss
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt

from openai import OpenAI
from dotenv import load_dotenv

import os

import nltk
nltk.download('punkt_tab')

from langchain_community.document_loaders import PyMuPDFLoader
from langchain.text_splitter import NLTKTextSplitter
from tqdm import tqdm
import re
from typing import List

[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\alves\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt_tab is already up-to-date!


In [14]:
load_dotenv("openai")
OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")
client = OpenAI(api_key=OPENAI_API_KEY)

## Loading Document

In [20]:
with open(r'..\..\data\bronze\nacional.txt', 'r',encoding='utf-8') as file:
    file_content = file.read()

# Now, file_content contains the entire content of the text file
print(file_content)


A Política Nacional de Mudanças Climáticas - PNMC – (Lei nº 12.187, de 29 de
dezembro de 2009), traz amparo legal para a elaboração do Plano Nacional de
Adaptação à Mudança do Clima. Em seu inciso V, artigo 4º, a PNMC estabelece a
necessidade de implementação de medidas para promover a adaptação à mudança do
clima pelas três esferas da Federação. Determinações que prevejam diretrizes e
condutas gerais para todos os entes da Federação, a exemplo daquelas constantes
neste Plano, são norteadoras para a cooperação, direcionamento e alinhamento de
esforços de tais entes.
A PNMC também prevê como um dos seus instrumentos, o Plano Nacional
sobre Mudança do Clima. Este Plano propõe a elaboração do Plano Nacional de
Adaptação, afirmando que o mesmo deve se somar às iniciativas e aos avanços de
mitigação dos impactos das mudanças climáticas realizados até o momento, a fim de
orientar a implementação de medidas adaptativas recomendadas.
Merece destaque a sinergia existente entre as iniciativas e

## Chunking

In [21]:
text_splitter = NLTKTextSplitter(chunk_size = 300,chunk_overlap=50)
chunks = text_splitter.split_text(file_content)

Created a chunk of size 306, which is longer than the specified 300
Created a chunk of size 312, which is longer than the specified 300
Created a chunk of size 503, which is longer than the specified 300
Created a chunk of size 457, which is longer than the specified 300
Created a chunk of size 475, which is longer than the specified 300
Created a chunk of size 568, which is longer than the specified 300
Created a chunk of size 313, which is longer than the specified 300
Created a chunk of size 302, which is longer than the specified 300
Created a chunk of size 312, which is longer than the specified 300
Created a chunk of size 775, which is longer than the specified 300
Created a chunk of size 333, which is longer than the specified 300
Created a chunk of size 329, which is longer than the specified 300
Created a chunk of size 360, which is longer than the specified 300
Created a chunk of size 343, which is longer than the specified 300
Created a chunk of size 333, which is longer tha

In [22]:
for idx, chunk in enumerate(chunks):
    print(f"Chunk {idx} - {chunk}")

Chunk 0 - A Política Nacional de Mudanças Climáticas - PNMC – (Lei nº 12.187, de 29 de
dezembro de 2009), traz amparo legal para a elaboração do Plano Nacional de
Adaptação à Mudança do Clima.
Chunk 1 - Em seu inciso V, artigo 4º, a PNMC estabelece a
necessidade de implementação de medidas para promover a adaptação à mudança do
clima pelas três esferas da Federação.
Chunk 2 - Determinações que prevejam diretrizes e
condutas gerais para todos os entes da Federação, a exemplo daquelas constantes
neste Plano, são norteadoras para a cooperação, direcionamento e alinhamento de
esforços de tais entes.
Chunk 3 - A PNMC também prevê como um dos seus instrumentos, o Plano Nacional
sobre Mudança do Clima.
Chunk 4 - Este Plano propõe a elaboração do Plano Nacional de
Adaptação, afirmando que o mesmo deve se somar às iniciativas e aos avanços de
mitigação dos impactos das mudanças climáticas realizados até o momento, a fim de
orientar a implementação de medidas adaptativas recomendadas.
Chunk 5 - 

In [23]:
print(f"The document has {len(chunks)} chunks")

The document has 2103 chunks


In [25]:
chunks[200]

'Somando-se aos compromissos de mitigação, o Plano tem ainda por\nobjetivo incentivar, motivar e apoiar o setor agropecuário na implementação de ações\nde promoção da adaptação, onde for necessário, e por meio dos mapeamentos de\náreas sensíveis, incrementar a resiliência dos agroecossistemas, desenvolver e\ntransferir tecnologias, em especial daquelas com comprovado potencial de redução de\nGEE e de adaptação aos impactos da mudança do clima.'

## Embedding

In [26]:
def generate_embeddings(input: List[str],model='text-embedding-ada-002')-> List[float]:
    embedding = client.embeddings.create(
        model=model,
        input=input
    )
    total_tokens = embedding.usage.total_tokens
    embeddings = [data.embedding for data in embedding.data]
    return embedding.data[0].embedding

In [75]:
text_splitter = NLTKTextSplitter(chunk_size = 800,chunk_overlap=50)
chunks = text_splitter.split_text(file_content)

def generate_embeddings(input: List[str],model='text-embedding-ada-002')-> List[float]:
    embedding = client.embeddings.create(
        model=model,
        input=input
    )
    total_tokens = embedding.usage.total_tokens
    embeddings = [data.embedding for data in embedding.data]
    return embedding.data[0].embedding

df = pd.DataFrame(chunks[0:100], columns=["content"])
df["embedding"] = df["content"].apply(lambda x: generate_embeddings([x]))

In [76]:
df

Unnamed: 0,content,embedding
0,A Política Nacional de Mudanças Climáticas - P...,"[-0.00426986301317811, -0.0009680726798251271,..."
1,Este Plano propõe a elaboração do Plano Nacion...,"[-0.019729938358068466, -0.0047059268690645695..."
2,"Conforme essa legislação, é dever da união est...","[-0.008958719670772552, -0.008060881868004799,..."
3,"Em\ndiversos casos, além do risco decorrente d...","[-0.00984775461256504, -0.028872722759842873, ..."
4,A discussão sobre adaptação à mudança do clima...,"[-0.002639500889927149, -0.016956599429249763,..."
...,...,...
95,A proposta\nde um programa de adaptação para o...,"[-0.010934642516076565, -0.02268938347697258, ..."
96,A estratégia é investir com mais eficácia na a...,"[-0.013554959557950497, -0.014656174927949905,..."
97,O Programa de Adaptação para Agropecuária deve...,"[-0.0005828209687024355, -0.009121558628976345..."
98,Reconhece-se que o desenvolvimento de uma estr...,"[-0.025966128334403038, -0.0015759740490466356..."


## Create Vector DB

In [51]:
import os
import psycopg2
from psycopg2.extras import execute_values

In [52]:
connection_string = "postgresql://xchallenge_user:xchallenge_password@localhost:5432/xchallenge_db"

In [53]:
# Configurações de conexão
DB_HOST = os.getenv('DB_HOST', 'localhost')
DB_PORT = os.getenv('DB_PORT', '5432')
DB_NAME = os.getenv('DB_NAME', 'vector_db')
DB_USER = os.getenv('DB_USER', 'usuario')
DB_PASSWORD = os.getenv('DB_PASSWORD', 'senha')

def criar_tabela(conn):
    with conn.cursor() as cur:
        cur.execute("""
            CREATE TABLE IF NOT EXISTS embeddings (
                id bigserial primary key, 
                content text,
                embedding vector(1536) --Verificar tamanho do vetor
                );
                TRUNCATE TABLE embeddings;
        """)
        conn.commit()
    print("Tabela 'documentos' criada ou já existente.")

In [54]:
# Conecta ao banco de dados
try:
    conn = psycopg2.connect(
        host=DB_HOST,
        port=DB_PORT,
        dbname=DB_NAME,
        user=DB_USER,
        password=DB_PASSWORD
    )
except Exception as e:
    print("Erro ao conectar ao banco de dados:", e)


criar_tabela(conn)


Tabela 'documentos' criada ou já existente.


In [55]:
connect_table()

Tabela 'documentos' criada ou já existente.


## Load Embeddings into Database

In [77]:
del_command = "DELETE FROM embeddings"  
conn.autocommit = True
cur = conn.cursor()

# Execute the DELETE command
cur.execute(del_command)

In [78]:
# Prepare the data for insertion
ingestion_data = [(row['content'], row['embedding']) for _, row in df.iterrows()]

# Insert the data into the table
insert_command = "INSERT INTO embeddings (content, embedding) VALUES %s"

conn.autocommit = True
cur = conn.cursor()
execute_values(cur, insert_command, ingestion_data)

## Fetching data

In [79]:
cur.execute("SELECT * FROM embeddings;")

records = cur.fetchall()
df_records = pd.DataFrame(records, columns=["id", "content", "embedding"])
df_records

Unnamed: 0,id,content,embedding
0,2404,A Política Nacional de Mudanças Climáticas - P...,"[-0.004269863,-0.0009680727,0.018437017,-0.023..."
1,2405,Este Plano propõe a elaboração do Plano Nacion...,"[-0.019729938,-0.004705927,0.009670777,-0.0112..."
2,2406,"Conforme essa legislação, é dever da união est...","[-0.00895872,-0.008060882,-0.0069074547,-0.017..."
3,2407,"Em\ndiversos casos, além do risco decorrente d...","[-0.009847755,-0.028872723,0.015606522,-0.0205..."
4,2408,A discussão sobre adaptação à mudança do clima...,"[-0.002639501,-0.0169566,0.03687327,-0.0106536..."
...,...,...,...
95,2499,A proposta\nde um programa de adaptação para o...,"[-0.0109346425,-0.022689383,0.0054543037,-0.00..."
96,2500,A estratégia é investir com mais eficácia na a...,"[-0.01355496,-0.014656175,0.009684021,-0.00949..."
97,2501,O Programa de Adaptação para Agropecuária deve...,"[-0.00058282097,-0.009121559,0.0041404916,-0.0..."
98,2502,Reconhece-se que o desenvolvimento de uma estr...,"[-0.025966128,-0.001575974,0.02245043,-0.01896..."


## Busca por similaridade

In [80]:
def similarity_search(
        cursor: psycopg2.extensions.connection.cursor,       
        table_name: str,
        embedding_column: str,
        embedding_vector: List[float],
        threshold: float = 0.5,
    ) -> pd.DataFrame:
        query = f"""
        SELECT 
            *,
            ({embedding_column} <=> '{embedding_vector}') AS cosine_distance,
            1 - ({embedding_column} <=> '{embedding_vector}') AS cosine_similarity
        FROM {table_name}
        WHERE (1 - ({embedding_column} <=> '{embedding_vector}')) >= {threshold}
        ORDER BY cosine_distance ASC;
        """

        return pd.read_sql_query(query, cursor.connection)

In [81]:
question = "Como fazer gestão de clima pensando em queimadas."
embedded_question = generate_embeddings(question)
df_similarity = similarity_search(cur, "embeddings", "embedding", embedded_question, 0.5)
df_similarity

  return pd.read_sql_query(query, cursor.connection)


Unnamed: 0,id,content,embedding,cosine_distance,cosine_similarity
0,2408,A discussão sobre adaptação à mudança do clima...,"[-0.002639501,-0.0169566,0.03687327,-0.0106536...",0.162947,0.837053
1,2483,7.2.\n\nArranjo institucional e legal correlat...,"[-0.004759944,-0.013976422,0.017212791,-0.0247...",0.165256,0.834744
2,2429,"É de extrema\nrelevância que a sociedade, de f...","[-0.016188487,-0.011269477,0.013234478,-0.0246...",0.167187,0.832813
3,2475,Alguns estudos em andamento mostram que a freq...,"[-0.0062487405,0.00095471425,0.030971162,-0.02...",0.167953,0.832047
4,2442,"gerais\nas características, particularidades, ...","[-0.006989556,-0.01602868,0.01709288,-0.030401...",0.169287,0.830713
...,...,...,...,...,...
95,2441,"Recomendações gerais aos órgãos setoriais, ent...","[-0.0159134,0.007504466,-0.0032688668,-0.03426...",0.234274,0.765726
96,2478,Segundo o último censo agropecuário realizado ...,"[0.0030644664,-0.012931659,0.0005519117,-0.002...",0.236716,0.763284
97,2488,O SEAF foi criado pelo Governo\nFederal para q...,"[-0.0018148922,-0.00972066,-0.000863498,0.0032...",0.241831,0.758169
98,2487,"A Garantia\nde Safra, que também inclui uma mo...","[0.0021215125,-0.018826535,0.020398773,-0.0165...",0.246152,0.753848


In [82]:
df_similarity.loc[1,'content']

'7.2.\n\nArranjo institucional e legal correlato\nDiversas políticas e instrumentos normativos incorporam a gestão do clima e\nsua variabilidade sobre o setor agropecuário.\n\nHá também, intenso trabalho de\npesquisa em andamento, buscando alternativas tecnológicas e de processos e arranjos\ntécnicos, voltados para adaptação e a sustentabilidade ambiental.\n\nDestaca-se, inicialmente, o Plano Setorial de Agricultura de Baixa Emissão de\nCarbono - Plano ABC, (www.agricultura.gov.br), um dos planos setoriais que constitui\na Política Nacional sobre Mudança do Clima (PNMC).'