In [1]:
from time import sleep
import duckdb

In [2]:
import re
import spacy
from nltk.corpus import stopwords
import numpy as np

In [3]:
conn = duckdb.connect('C:/Users/Micro/Downloads/BCG_X_CHALLENGE/desenv/database/datalake.db')

query_user = 'Como desenvolvo uma plano de adaptação climática para Campinas?'

In [4]:
def remove_unwanted_chr(text, chr):
    '''
    Replaces all occurrences of chr in the text with ' '
    '''
    for x in chr:
        text = re.sub(x, ' ', text)
    return text


def remove_stopwords(text):
    '''
    Remove stop words from text
    '''
    stop_words = set(stopwords.words('portuguese'))
    word_tokens = text.split(' ')
    text_filt = [word for word in word_tokens if word.lower() not in stop_words]
    text_filt = " ".join(text_filt)
    return text_filt


def lemmatize_text(text):
    '''
    Function for text lemmatization
    '''
    # Upload the model to Portuguese
    nlp = spacy.load('pt_core_news_sm')
    
    # Returns the lemma
    text = nlp(text)
    lemmas = [token.lemma_ for token in text]
    return ' '.join(lemmas)

In [5]:
def cleaning_query_user(text):

    text = remove_unwanted_chr(text, ["\n", "\xa0"])
    text = remove_stopwords(text)
    text = lemmatize_text(text)
    return text

In [6]:
query_user = cleaning_query_user(query_user)
query_user

'desenvolvo plano adaptação climático Campinas ?'

In [7]:
from langchain_openai import OpenAIEmbeddings

In [8]:
model = "text-embedding-3-large"
openai_api_key = "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"

In [9]:
def embedding_func(embedding, text):
    '''
    Function to transform a string into a vector of numbers
    '''
    return embedding.embed_query(text) 

In [10]:
def get_embeddings(text):
    
    embedding = OpenAIEmbeddings(model=model,
                                openai_api_key = openai_api_key
                                )
    emb = embedding_func(embedding, text)
    return emb

In [11]:
def retrive_similar_docs(query_embedding, conn, limit=3):
    
    cur = conn.cursor()
    query = f"""
        SELECT content FROM 
            (
            SELECT 
                content, embedding
            FROM
            silver.enfrentamento_nacional t1
            LEFT JOIN gold.enfrentamento_nacional t2 ON (t1.page_number = (t2.page_number+1))

            UNION 

            SELECT 
                content, embedding
            FROM
            silver.plano_curitiba t1
            LEFT JOIN gold.plano_curitiba t2 ON (t1.page_number = (t2.page_number+1))

            UNION 


            SELECT 
                content, embedding
            FROM
            silver.plano_agro t1
            LEFT JOIN gold.plano_agro t2 ON (t1.page_number = (t2.page_number+1))

            UNION 

            SELECT 
                content, embedding
            FROM
            silver.plano_nacional t1
            LEFT JOIN gold.plano_nacional t2 ON (t1.page_number = (t2.page_number+1))

            UNION 

            SELECT 
                content, embedding
            FROM
            silver.plano_sp t1
            LEFT JOIN gold.plano_sp t2 ON (t1.page_number = (t2.page_number+1))

            UNION 

            SELECT 
                content, embedding
            FROM
            silver.plano_federal t1
            LEFT JOIN gold.plano_federal t2 ON (t1.page_number = (t2.page_number+1))

            UNION 

            SELECT 
                content, embedding
            FROM
            silver.plano_itabirito t1
            LEFT JOIN gold.plano_itabirito t2 ON (t1.page_number = (t2.page_number+1))

            UNION 

            SELECT 
                content, embedding
            FROM
            silver.plano_joao_pessoa t1
            LEFT JOIN gold.plano_joao_pessoa t2 ON (t1.page_number = (t2.page_number+1))
            )
        ORDER BY embedding <=> {query_embedding} LIMIT {limit}
        """
    cur.execute(query)
    top_docs = cur.fetchall()
    return top_docs

In [12]:
from langchain_openai import ChatOpenAI

In [13]:
def get_completion_from_messages(messages):

    llm = ChatOpenAI(model="gpt-3.5-turbo",
                     openai_api_key = openai_api_key,
                     max_tokens=1000,
                     temperature=0.6,
                     top_p=0.7)
    return llm.invoke(messages)

In [14]:
def process_input_with_retrieval(user_input):

    # Retrieve similar documents based on user input
    related_docs = retrive_similar_docs(get_embeddings(user_input), conn, limit=3)
    sleep(0.2)
    # Ensure there are at least 3 documents
    if len(related_docs) ==0:
        return "Not enough relevant documents found."

    system_message = f"""
        Os usuários podem requisitar um plano de adaptação climática para um município, e você deve responder baseado nos documentos que melhor se adequem à consulta do usuário.
        Primeiro documento de adaptação climática: {related_docs[0]}
        Segundo documento de adaptação climática: {related_docs[1]}
        Terceiro documento de adaptação climática: {related_docs[2]}
    """

    messages = [
    (
        "system",system_message,
    ),
    ("human", user_input),
]

    final_response = get_completion_from_messages(messages)
    
    # Handle empty responses
    if not final_response.content:
        return "Desculpe, não foi possível gerar uma resposta. Por favor, tente novamente."

    return final_response.content

In [None]:
# message = process_input_with_retrieval(query_user)

---

In [15]:
get_embeddings(query_user)

[-0.04098282381892204,
 -0.005041965749114752,
 -0.006979405879974365,
 0.030999038368463516,
 0.000824278627987951,
 0.0021415837109088898,
 -0.019320474937558174,
 0.04061305522918701,
 -0.07333768904209137,
 0.008920697495341301,
 -0.017718138173222542,
 -0.032909516245126724,
 0.006867704447358847,
 -0.009459945373237133,
 -0.025467898696660995,
 0.027501631528139114,
 -0.009845121763646603,
 -0.0036418477538973093,
 0.04603634774684906,
 -0.010053117759525776,
 0.01685534231364727,
 -0.01650097966194153,
 -0.03928804770112038,
 0.04751542583107948,
 -0.009667940437793732,
 0.020984439179301262,
 0.010931321419775486,
 0.008635666221380234,
 -0.02680831402540207,
 0.014421024359762669,
 -0.01145516149699688,
 0.016886156052350998,
 0.005273072049021721,
 0.025575747713446617,
 -0.04797763749957085,
 -0.006621191278100014,
 0.016670458018779755,
 -0.013365639373660088,
 -0.016038767993450165,
 0.039688631892204285,
 -0.02089199610054493,
 -0.03346417099237442,
 0.003245115512982011,

In [16]:
related_docs = retrive_similar_docs(get_embeddings(query_user), conn, limit=3)

In [17]:
related_docs

[('PARTE I - PLANEJAMENTO ADAPTAÇÃO RESILIÊNCIA guia adaptação resiliêncio climático município regiões32Sinergio : iniciativa municipal desenvolvir estar    Paulo possuir interface mudança clima   Programa Município VerdeAzul ( PMVA ) Coordenado SIMA-SP , programa objetivo apoiar   eficiência gestão ambiental município , auxiliar eles   elaboração político público estratégico agendar   ambiental estado . ação propor PMVA compor   10 diretiva norteadoro agendar ambiental local , abranger   seguinte tema estratégico : Município Sustentável , Estrutura   Educação Ambiental , Conselho Ambiental , Biodiversidade , Gestão   Águas , Qualidade Ar , Uso Solo , Arborização Urbana , Esgoto   Tratado Resíduos Sólidos .   diretiva respectivo tarefa detalhadas resolução SIMA 81/2021 , disponível em :   https://www.infraestruturameioambiente.sp.gov.br/legislacao/2021/07/resolucao-sima-no-81-2021/   pMVA oferecer capacitação técnico profissional indicados município   interlocução e , final cada ciclo 

In [18]:
system_message = f"""
        Os usuários são gestores municipais e precisam construir um plano de adaptação climática para um município. Você deve fornecer ações práticas para realizar o planejamento climático desse munícipio solicitado, por ordem de prioridade. Forneça uma sugestão de cronograma para implementar as ações.
        Justifique suas ações com base em dados desse munícipio.
        Documento 1: {related_docs[0]}
        Documento 2: {related_docs[1]}
        Documento 3: {related_docs[2]}
    """

messages = [
(
    "system",system_message,
),
("human", query_user),
]

In [19]:
final_response = get_completion_from_messages(messages)

In [21]:
print(final_response.content)

Para desenvolver um plano de adaptação climática para Campinas, sugiro as seguintes ações práticas, por ordem de prioridade, considerando a sinergia com as iniciativas estaduais mencionadas nos documentos fornecidos:

1. **Análise da Situação Atual**: Utilize a lente climática e os dados disponíveis no DataGEO e nos relatórios do IPCC e PBMC para compreender os impactos atuais e futuros das mudanças climáticas em Campinas. Isso ajudará a identificar os principais desafios a serem enfrentados.

2. **Participação em Iniciativas Regionais**: Considere a experiência do Programa Reconecta RMC, que foca na conservação e recuperação da fauna e flora na Região Metropolitana de Campinas. Essa iniciativa pode fornecer insights valiosos para a elaboração do plano de adaptação climática para Campinas.

3. **Planejamento Regional Integrado**: Assim como o Consórcio Intermunicipal Grande ABC, em que municípios se unem para enfrentar os desafios das mudanças climáticas, Campinas pode buscar parcerias