# Importar as bibliotecas necess√°rias

In [2]:
import pandas as pd
import re
import nltk
from nltk.corpus import stopwords
from nltk.translate.bleu_score import sentence_bleu, SmoothingFunction
from sentence_transformers import SentenceTransformer
import numpy as np
import faiss
from sentence_transformers import util
from transformers import T5Tokenizer, T5ForConditionalGeneration
import os
from rouge_score import rouge_scorer
import warnings
warnings.filterwarnings("ignore", category=UserWarning, module="transformers")

# Par√¢metros

In [3]:
# N√∫mero m√°ximo de respostas similares retornadas na busca sem√¢ntica
top_k = 5  

# Similaridade m√≠nima para considerar uma resposta relevante
# (garante que apenas textos realmente pr√≥ximos sejam considerados)
similarity_threshold = 0.6  

# Limite m√≠nimo para validar se a resposta est√° dentro do contexto esperado
# (descarta respostas que tenham pouca rela√ß√£o com a pergunta)
min_context_threshold = 0.3  

# Peso atribu√≠do √† similaridade entre o conte√∫do do artigo e a pergunta
# (prioriza a correspond√™ncia com o corpo do texto)
content_similarity_weight = 0.6  

# Peso atribu√≠do √† similaridade entre o t√≠tulo do artigo e a pergunta
# (ajuda a dar relev√¢ncia ao t√≠tulo na busca por respostas)
title_similarity_weight = 0.4  

# Definir limiares duplos para filtrar respostas inadequadas

# Limiar cr√≠tico: perguntas abaixo desse valor s√£o consideradas fora do escopo
critical_threshold = 0.3  

# Similaridade m√≠nima para considerar uma resposta da FAQ v√°lida
# (usado na decis√£o final para recuperar um artigo)
similarity_threshold_faq = 0.55  

# Leitura dos dados

In [4]:
# Caminho do arquivo
file_path = r"C:\Users\Acer\Downloads\ProcessoSeletivo[RAG].xlsx"

# Carregar o CSV
df = pd.read_excel(file_path)

# Verificando as primeiras linhas
df.head()

Unnamed: 0,article_name,article_url,article_content
0,Como usar o Recuperador Autom√°tico de Vendas?,https://help.hotmart.com/pt-BR/article/como-us...,Como usar o Recuperador Autom√°tico de Vendas?\...
1,Como agendar uma publica√ß√£o em comunidades do ...,https://help.hotmart.com/pt-BR/article/como-ag...,Como agendar uma publica√ß√£o em comunidades do ...
2,Como configurar o pixel da Taboola,https://help.hotmart.com/pt-BR/article/como-co...,Como configurar o pixel da Taboola\n\n[Taboola...
3,Como navegar pelo app da Hotmart,https://help.hotmart.com/pt-BR/article/como-na...,Como navegar pelo app da Hotmart\n\nO app da H...
4,O que s√£o par√¢metros de campanha?,https://help.hotmart.com/pt-BR/article/o-que-s...,O que s√£o par√¢metros de campanha?\n\nOs par√¢me...


# Pr√© processamento

In [5]:
def clean_text(text, query):
    
    """Remove caracteres especiais, tags HTML, repeti√ß√£o da pergunta e elementos indesejados no in√≠cio da resposta."""
    text = re.sub(r"<[^>]+>", "", text)  # Remove tags HTML
    text = re.sub(r"^[^\w]+", "", text)  # Remove caracteres especiais no in√≠cio
    text = re.sub(r"\s+", " ", text).strip()  # Remove m√∫ltiplos espa√ßos
    text = re.sub(r"={3,}", "", text).strip()  # Remove sequ√™ncias de "="
    text = re.sub(r"^\?+\s*=\s*", "", text).strip()  # Remove "? ="

    # Removendo trechos redundantes no in√≠cio da resposta
    query_clean = query.lower().strip("?").strip()
    text_clean = text.lower().strip()

    if text_clean.startswith(query_clean):
        text = text[len(query_clean):].strip()

    return text

In [6]:
def clean_response(response):
    """
    Remove o texto at√© o primeiro '?' para evitar repeti√ß√µes da pergunta na resposta.
    """
    response = response.strip()

    # Se houver "?" na resposta, cortamos tudo at√© ele
    if "?" in response:
        response = response.split("?", 1)[-1].strip()

    return response

In [8]:
# Carregar o modelo de embeddings
embedding_model = SentenceTransformer("sentence-transformers/all-MiniLM-L6-v2")

# Criar embeddings para os textos da FAQ
df["embeddings"] = df["article_content"].apply(lambda x: embedding_model.encode(x, normalize_embeddings=True))

# Converter para matriz numpy
embeddings_matrix = np.array(df["embeddings"].tolist())

# Verificando a dimens√£o dos embeddings
print("Dimens√£o dos embeddings:", embeddings_matrix.shape)

Dimens√£o dos embeddings: (477, 384)


In [9]:
# Obt√©m a dimens√£o dos embeddings
dimension = embeddings_matrix.shape[1]

# Criando √≠ndice FAISS usando a dist√¢ncia L2 (euclidiana)
index_cpu = faiss.IndexFlatL2(dimension)

# Adicionando os embeddings ao √≠ndice
index_cpu.add(embeddings_matrix)

# Verificando se os embeddings foram indexados corretamente
print(f"√çndice FAISS criado com {index_cpu.ntotal} embeddings.")

√çndice FAISS criado com 477 embeddings.


# Modelagem - RAG

## Recupera√ß√£o da informa√ß√£o

In [10]:
def search_faq(query, top_k, similarity_threshold, min_context_threshold, content_similarity_weight, title_similarity_weight, critical_threshold, similarity_threshold_faq):

    """
    Busca uma resposta no FAQ com base na similaridade sem√¢ntica.
    Inclui um filtro para evitar respostas fora do contexto.
    """

    # Criar embedding para a consulta
    query_embedding = embedding_model.encode([query], normalize_embeddings=True)

    # Buscar no √≠ndice FAISS
    distances, indices = index_cpu.search(np.array(query_embedding), k=top_k)

    # Filtrar apenas √≠ndices v√°lidos
    valid_results = [(idx, dist) for idx, dist in zip(indices[0], distances[0]) if idx != -1]

    if not valid_results:
        return None  # Retorna None para indicar que n√£o encontrou resposta relevante

    # Comparar a similaridade entre a pergunta e as respostas recuperadas
    best_match = None
    highest_score = -1

    for idx, dist in valid_results:
        retrieved_text = df.iloc[idx]["article_content"]
        article_title = df.iloc[idx]["article_name"]

        # Similaridade entre a pergunta e o t√≠tulo do artigo
        title_similarity = util.cos_sim(
                                            embedding_model.encode(query, convert_to_tensor=True),
                                            embedding_model.encode(article_title, convert_to_tensor=True)
                                        ).item()

        # Similaridade entre a pergunta e o conte√∫do recuperado
        content_similarity = util.cos_sim(
                                                embedding_model.encode(query, convert_to_tensor=True),
                                                embedding_model.encode(retrieved_text, convert_to_tensor=True)
                                          ).item()

        # Score final priorizando t√≠tulo + conte√∫do
        final_score = (content_similarity_weight * content_similarity) + (title_similarity_weight * title_similarity)

        # Definir limiares duplos
        critical_threshold = critical_threshold  # Perguntas abaixo disso s√£o consideradas fora do escopo
        similarity_threshold = similarity_threshold  # Limiar para considerar resposta da FAQ v√°lida

        # Adicionar verifica√ß√£o para evitar respostas fora de contexto
        if final_score > highest_score and final_score > similarity_threshold:
            highest_score = final_score
            best_match = idx

    # Se nenhuma resposta atingiu um m√≠nimo aceit√°vel, retorna "fora do escopo"
    if highest_score < critical_threshold:
        return "Desculpe, essa pergunta parece estar fora do escopo da Hotmart."

    # Se encontrou uma resposta v√°lida, retorna
    if best_match is not None and highest_score > min_context_threshold:
        return clean_text(df.iloc[best_match]["article_content"], query)
    
    # Se nenhuma resposta for v√°lida, retorna None (indicando que devemos gerar via IA)
    return None


## Generativa

In [11]:
 # Desativa avisos sobre links simb√≥licos no Hugging Face
os.environ["HF_HUB_DISABLE_SYMLINKS_WARNING"] = "1"


# Carregar modelo de gera√ß√£o de texto (FLAN-T5 Small, otimizado para efici√™ncia)
model_name = "google/flan-t5-small"

# Inicializar o tokenizador e o modelo pr√©-treinado
tokenizer = T5Tokenizer.from_pretrained(model_name)
generator_model = T5ForConditionalGeneration.from_pretrained(model_name)

You are using the default legacy behaviour of the <class 'transformers.models.t5.tokenization_t5.T5Tokenizer'>. This is expected, and simply means that the `legacy` (previous) behavior will be used so nothing changes for you. If you want to use the new behaviour, set `legacy=False`. This should only be set if you understand what it means, and thoroughly read the reason why this was added as explained in https://github.com/huggingface/transformers/pull/24565


In [12]:
def generate_response(query, retrieved_text):

    """
    Gera uma resposta usando um modelo T5 baseado no texto recuperado.
    """

    # Constru√ß√£o do prompt, fornecendo o contexto e a pergunta ao modelo
    prompt = (
                f"Baseado no seguinte contexto, responda a pergunta de forma curta e objetiva:\n"
                f"Contexto: {retrieved_text}\n"
                f"Pergunta: {query}\n"
                f"Resposta:"
            )
    
    # Tokeniza√ß√£o do prompt para entrada no modelo T5
    inputs = tokenizer(prompt, return_tensors="pt", max_length=512, truncation=True)
    
    # Gera√ß√£o da resposta usando o modelo T5 (m√°ximo de 256 tokens na sa√≠da)
    output = generator_model.generate(**inputs, max_length=256, num_return_sequences=1)

    # Decodifica√ß√£o do resultado gerado para texto leg√≠vel
    response = tokenizer.decode(output[0], skip_special_tokens=True)

    return response

In [13]:
def process_response(query):
    
    """ 
    Pipeline para buscar, limpar e formatar a resposta.
    Primeiro, tenta recuperar a resposta do FAQ. Caso n√£o encontre, aciona a gera√ß√£o via IA.
    """
    # Busca a resposta no FAQ usando a fun√ß√£o de recupera√ß√£o sem√¢ntica (FAISS + embeddings)
    retrieved_response = search_faq(query, top_k, similarity_threshold, min_context_threshold, content_similarity_weight, title_similarity_weight, critical_threshold, similarity_threshold_faq)  # Busca no FAQ

    # Se uma resposta v√°lida for encontrada no FAQ, retorna diretamente
    if retrieved_response:
        return retrieved_response  # Se encontrou resposta v√°lida no FAQ, retorna
    
    # Caso nenhuma resposta relevante seja encontrada, aciona a gera√ß√£o de texto com IA
    return generate_response(query, "Infelizmente, n√£o h√° informa√ß√µes dispon√≠veis no FAQ.")

## Testes

### Perguntas que temos na base

In [23]:
# Lista de perguntas de teste usadas para avaliar a recupera√ß√£o de respostas do FAQ
test_questions_recuperacao_pura = [
                                        "Como reprocessar meu pagamento?",
                                        "Como acessar o Relat√≥rio de Download de Notas Fiscais?",
                                        "Como encerrar minhas vendas e desabilitar a p√°gina de pagamento?",
                                        "Como liberar o cadastro gratuito do meu produto no Hotmart Club?",
                                        "Por que recebi um e-mail de verifica√ß√£o depois de fazer uma solicita√ß√£o na Central de Ajuda?"
                                    ]

# Cria√ß√£o de um dicion√°rio onde as perguntas s√£o as chaves e as respostas esperadas (FAQ) s√£o os valores
test_questions_generation = {
                                # Verifica se a pergunta est√° contida no t√≠tulo dos artigos do FAQ
                                q: df[df['article_name'].str.contains(q, case=False, na=False)]['clean_article_content'].values[0] 
                                if df['article_name'].str.contains(q, case=False, na=False).any() 
                                else "Resposta n√£o encontrada."
                                for q in test_questions_recuperacao_pura
                            }

# Ajuste para verificar se h√° correspond√™ncia exata entre as perguntas e os t√≠tulos dos artigos
for q in test_questions_recuperacao_pura:
    matched_rows = df[df['article_name'].str.lower() == q.lower()]# Normaliza para evitar erros de case-sensitive
    
    if not matched_rows.empty:
        # Se encontrar uma correspond√™ncia exata no t√≠tulo do artigo, usa a resposta desse artigo
        test_questions_generation[q] = matched_rows.iloc[0]['clean_article_content']
    else:
        # Caso n√£o haja correspond√™ncia exata, mant√©m como "Resposta n√£o encontrada."
        test_questions_generation[q] = "Resposta n√£o encontrada."

### Perguntas que n√£o temos na base

In [52]:
test_questions_recuperacao_pura = [    
                                        "Como posso modificar o m√©todo de pagamento da minha assinatura?",
                                        "Quais s√£o os m√©todos de pagamento dispon√≠veis na Hotmart?",
                                        "O que √© o PIX da Hotmart e como ativ√°-lo?",
                                        "Como alterar o idioma na p√°gina de pagamento da Hotmart?",
                                        "Quanto a Hotmart cobra de taxas nas vendas?",
                                    ]

test_questions_ajuste_generativo = [    
                                    "Posso pagar com dois cart√µes de cr√©dito?",
                                    "Quais s√£o as taxas para produtores na Hotmart?",
                                    "Como funciona o parcelamento de pagamentos?",
                                    "Posso oferecer reembolsos na Hotmart?",
                                    "Como configurar descontos para meus clientes na Hotmart?",
                                ]

test_questions_geracao_pura = [    
                                    "A Hotmart aceita criptomoedas como forma de pagamento?",
                                    "Posso pagar um curso na Hotmart com Apple Pay?",
                                    "Existe algum benef√≠cio para quem paga √† vista?",
                                    "A Hotmart oferece suporte para pagamentos via boleto parcelado?",
                                    "Quais s√£o as op√ß√µes para receber pagamentos em diferentes moedas?"
                                ]

test_questions_geracao_pura_fora_do_contexto = [    
                                                    "Qual a dist√¢ncia da Terra at√© a Lua?",
                                                    "Quem foi o primeiro presidente do Brasil?",
                                                    "Quem escreveu Dom Quixote?",
                                                    "Qual √© a capital da Isl√¢ndia?",
                                                    "Como posso aprender a tocar viol√£o do zero?"
                                                ]

In [None]:
# Iterar sobre todas as perguntas de teste
for query in test_questions_recuperacao_pura:
    # Recuperar e processar resposta

    final_response = process_response(query)
    final_response = clean_response(final_response)

    # Exibir resposta corrigida
    print("="*80)
    print("Pergunta:", query)
    print("Resposta:", final_response)
    print("="*80, "\n")

Pergunta: Como posso modificar o m√©todo de pagamento da minha assinatura?
Resposta: = Alterar o m√©todo de pagamento da sua assinatura para evitar imprevistos de acesso √© muito simples. Com apenas cinco passos, voc√™ ter√° a facilidade de ajustar a configura√ß√£o de pagamento usada no momento da compra, incluindo a flexibilidade de [alterar a data de cobran√ßa conforme sua necessidade](https://help.hotmart.com/pt-br/article/14718188112781). Isso proporciona a voc√™ maior controle sobre o processo, garantindo uma melhor experi√™ncia na gest√£o da sua assinatura. Neste artigo, vamos te ensinar a alterar o m√©todo de pagamento conforme a sua necessidade. Para isso, basta seguir os passos indicados abaixo: 1. Acesse . 2. Ap√≥s fazer o login, selecione Minhas compras no menu √† esquerda e clique no produto pelo qual deseja trocar seu m√©todo de pagamento. 3. Os detalhes da sua compra ser√£o exibidos e voc√™ poder√° selecionar a op√ß√£o Configurar pagamento (ou Regularizar pagamentos pende

In [29]:
# Iterar sobre todas as perguntas de teste
for query in test_questions_ajuste_generativo:
    # Recuperar e processar resposta
    final_response = process_response(query)
    final_response = clean_response(final_response)

    # Exibir resposta corrigida
    print("="*80)
    print("Pergunta:", query)
    print("Resposta:", final_response)
    print("="*80, "\n")

Pergunta: Posso pagar com dois cart√µes de cr√©dito?
Resposta: Ao efetuar compras, pode ocorrer dos Compradores enfrentarem alguns problemas com limites do cart√£o de cr√©dito. Isso pode acontecer tanto por falta de limite num √∫nico cart√£o ou, em outros casos, pelo desejo de n√£o comprometer todo o saldo que h√° nele. Dessa forma, a melhor maneira de evitar a perda dessas vendas √© habilitar a op√ß√£o de pagamento com dois cart√µes de cr√©dito em seu checkout (p√°gina de pagamento). Quer saber como? Para ativar o pagamento com dois cart√µes de cr√©ditos diferentes, basta seguir o passo a passo abaixo: 1. Fa√ßa login na plataforma por meio do link ; 2. V√° em Ferramentas; 3. Clique em Configura√ß√µes de pagamento; 4. Selecione o produto. Nele, ative a op√ß√£o desejada; 5. Ative a op√ß√£o 2 Cart√µes de Cr√©dito; 6. Por fim, clique em Salvar. Aten√ß√£o: para vendas no M√©xico e Col√¥mbia, ainda n√£o √© poss√≠vel ativar o pagamento com dois cart√µes de cr√©dito.

Pergunta: Quais s√£o as 

In [30]:
# Iterar sobre todas as perguntas de teste
for query in test_questions_geracao_pura:
    # Recuperar e processar resposta
    final_response = process_response(query)
    final_response = clean_response(final_response)

    # Exibir resposta corrigida
    print("="*80)
    print("Pergunta:", query)
    print("Resposta:", final_response)
    print("="*80, "\n")

Pergunta: A Hotmart aceita criptomoedas como forma de pagamento?
Resposta: A conta de pagamento Hotmart √© gerada de forma autom√°tica, para usu√°rios brasileiros, assim que voc√™ realiza sua primeira venda. Diferente da conta banc√°ria que voc√™ cadastra para realizar os saques, a conta de pagamento Hotmart √© criada para acessar seus ganhos de forma segura e eficaz, cujo valor √© mantido em uma conta do Banco Central do Brasil (Bacen). Isso significa que seu dinheiro est√° em seguran√ßa no Bacen, sendo voc√™ a √∫nica pessoa com acesso √† sua conta. A Hotmart n√£o tem permiss√£o para acessar ou movimentar seu saldo sem sua autoriza√ß√£o. Para mais detalhes, consulte nossa [Pol√≠tica Geral de Pagamentos](https://hotmart.com/pt-br/legal/politicas-de-pagamento). A abertura dessa conta cumpre uma [determina√ß√£o do Bacen](https://help.hotmart.com/pt-BR/article/o-que-e-e-como-funciona-uma-sociedade-de-credito-direto-/15854959057037), que inclui a obriga√ß√£o de atualizar anualmente as info

In [31]:
# Iterar sobre todas as perguntas de teste
for query in test_questions_geracao_pura_fora_do_contexto:
    # Recuperar e processar resposta

    final_response = process_response(query)
    final_response = clean_response(final_response)

    # Exibir resposta corrigida
    print("="*80)
    print("Pergunta:", query)
    print("Resposta:", final_response)
    print("="*80, "\n")

Pergunta: Qual a dist√¢ncia da Terra at√© a Lua?
Resposta: Desculpe, essa pergunta parece estar fora do escopo da Hotmart.

Pergunta: Quem foi o primeiro presidente do Brasil?
Resposta: Desculpe, essa pergunta parece estar fora do escopo da Hotmart.

Pergunta: Quem escreveu Dom Quixote?
Resposta: Desculpe, essa pergunta parece estar fora do escopo da Hotmart.

Pergunta: Qual √© a capital da Isl√¢ndia?
Resposta: Desculpe, essa pergunta parece estar fora do escopo da Hotmart.

Pergunta: Como posso aprender a tocar viol√£o do zero?
Resposta: Desculpe, essa pergunta parece estar fora do escopo da Hotmart.



## Valida√ß√£o do modelo

In [32]:
# Criar um dicion√°rio onde o t√≠tulo do artigo ('article_name') √© a chave e o conte√∫do limpo do artigo ('clean_article_content') √© o valor.
# Isso permite uma busca eficiente das respostas da FAQ com base no t√≠tulo do artigo.
respostas_faq = {row['article_name']: row['clean_article_content'] for _, row in df.iterrows()}

# üîπ Criar um dicion√°rio consolidado para os testes de gera√ß√£o de respostas
test_questions_generation = {
                                # Para cada conjunto de perguntas de teste, busca a resposta correspondente na base de conhecimento (FAQ)
                                # Se a pergunta n√£o existir no dicion√°rio 'respostas_faq', retorna "Resposta n√£o encontrada."
                                **{q: respostas_faq.get(q, "Resposta n√£o encontrada.") for q in test_questions_recuperacao_pura},
                                **{q: respostas_faq.get(q, "Resposta n√£o encontrada.") for q in test_questions_ajuste_generativo},
                                **{q: respostas_faq.get(q, "Resposta n√£o encontrada.") for q in test_questions_geracao_pura}
                            }

In [55]:
def evaluate_generation():
    
    # Listas para armazenar as m√©tricas BLEU e ROUGE de cada resposta gerada
    bleu_scores = []
    rouge_scores = []
    
    # Itera sobre todas as perguntas de teste e suas respostas esperadas
    for query, expected_response in test_questions_generation.items():
        generated_response = process_response(query) # Obt√©m a resposta gerada pelo modelo

        # Verifica se a resposta indica que a pergunta est√° fora do escopo
        if "Desculpe, essa pergunta parece estar fora do escopo da Hotmart." in generated_response:
            continue  # Ignora perguntas fora do contexto ao calcular m√©tricas

        # Calcula a m√©trica BLEU (mede similaridade entre frases)
        smoothing = SmoothingFunction().method1 # Suaviza√ß√£o para evitar penaliza√ß√µes severas
        bleu = sentence_bleu([expected_response.split()], generated_response.split(), 
                            weights=(0.5, 0.5, 0, 0), # Peso para medir bigramas (considera contexto)
                            smoothing_function=smoothing)
        bleu_scores.append(bleu)

        # Calcula a m√©trica ROUGE-L (mede cobertura de palavras relevantes)
        scorer = rouge_scorer.RougeScorer(['rouge1', 'rougeL'], use_stemmer=True)# Usa stemming para generaliza√ß√£o
        rouge = scorer.score(expected_response, generated_response)
        rouge_scores.append(rouge['rougeL'].fmeasure) # Usa ROUGE-L F1-score como m√©trica principal

    # Exibir apenas m√©tricas finais
    print("\n*M√âDIAS GERAIS:*")
    if bleu_scores and rouge_scores:
        print(f"BLEU M√©dio: {np.mean(bleu_scores):.4f}") # Exibe m√©dia de BLEU para todas as respostas
        print(f"ROUGE-L M√©dio: {np.mean(rouge_scores):.4f}") # Exibe m√©dia de ROUGE-L para todas as respostas
    else:
        print("‚ö†Ô∏è Nenhuma m√©trica foi computada, pois todas as perguntas foram consideradas fora do escopo.")

# Rodar a avalia√ß√£o
evaluate_generation()


*M√âDIAS GERAIS:*
BLEU M√©dio: 0.5647
ROUGE-L M√©dio: 0.5847
