### Installing dependencies

In [None]:
%%writefile requirements.txt

huggingface-hub==0.19.4
langchain==0.0.348
langsmith==0.0.69
langchain-core==0.0.12

Overwriting requirements.txt


In [None]:
!pip install nltk
!pip install torch
!pip install datasets
!pip install langchain
!pip install faiss-cpu
!pip install faiss-gpu
!pip install tensorflow
!pip install rouge-score
!pip install transformers

!pip uninstall langchain-community -y
!pip install -r requirements.txt



In [None]:
!pip check

ipython 7.34.0 requires jedi, which is not installed.
lida 0.0.10 requires fastapi, which is not installed.
lida 0.0.10 requires kaleido, which is not installed.
lida 0.0.10 requires python-multipart, which is not installed.
lida 0.0.10 requires uvicorn, which is not installed.
llmx 0.0.15a0 requires cohere, which is not installed.
llmx 0.0.15a0 requires openai, which is not installed.
llmx 0.0.15a0 requires tiktoken, which is not installed.
pygobject 3.42.1 requires pycairo, which is not installed.


### Importing dependencies

In [None]:
import json
import faiss
import torch
import numpy as np

from langchain.chains import LLMChain
from langchain.llms import HuggingFaceHub
from langchain.prompts import PromptTemplate

from transformers import AutoTokenizer, AutoModel

### Common Functions

In [None]:
def load_model(model_name):
    print('Loading model...')
    model = AutoModel.from_pretrained(model_name)
    return model

def load_tokenizer(model_name):
    print('Loading tokenizer...')
    tokenizer = AutoTokenizer.from_pretrained(model_name)
    return tokenizer

def load_document(filepath):
    print('Loading document...')
    # file = open(filepath, 'r', encoding='utf-8')
    # document = json.loads(file.read())
    # file.close()

    with open(filepath, 'r', encoding='utf-8') as file:
      document = json.load(file)

    return document

def load_QA_database(model, tokenizer, document):
    print('Tokenizing data...')
    question_data = []
    answer_data = []

    for item in document:
        question_data.append(item["question"])
        answer_data.append(item["answer"])

    tokenized_questions = [tokenizer(question, return_tensors="pt", max_length=512, truncation=True) for question in question_data]

    embeddings = []
    for tokens in tokenized_questions:
        with torch.no_grad():
            output = model(**tokens)
        embeddings.append(output.last_hidden_state.mean(dim=1).squeeze().numpy())

    embeddings = np.vstack(embeddings)
    return embeddings, question_data, answer_data

def index_into_faiss(embeddings):
    print('Indexing database in faiss...')
    vector_dimension = embeddings.shape[1]
    index = faiss.IndexFlatL2(vector_dimension)
    faiss.normalize_L2(embeddings)
    index.add(embeddings)
    return index

def search_into_faiss(model, tokenizer, query, index, max_results):
    query_tokens = tokenizer(query, return_tensors="pt", max_length=512, truncation=True)
    with torch.no_grad():
        query_embedding = model(**query_tokens).last_hidden_state.mean(dim=1).squeeze().numpy()
    distance, nearest_neighbours = index.search(np.array([query_embedding]), max_results)

    return distance, nearest_neighbours

def get_data_neighbours(question_data, answer_data, nearest_neighbours):

    similar_queries = []
    context_queries = []

    for i, idx in enumerate(nearest_neighbours[0]):
        similar_queries.append(question_data[idx])
        context_queries.append(answer_data[idx])

    return similar_queries, context_queries

def generate_answer(model, input_text, input_context, prompt):
    print('Generating answer...')
    chain = LLMChain(prompt=prompt, llm=model, output_key="answer", verbose=True)
    result = chain({"input_text": input_text, "input_context": input_context})
    # result = chain.run(input_text=input_text, input_context=input_context)
    return result

def load_llm(model_name):
    print('Loading LLM model...')
    model_kwargs = {"temperature": 0.1, "max_new_tokens": 200, "repetition_penalty": 2}
    api_token = "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"

    model = HuggingFaceHub(repo_id=model_name, model_kwargs=model_kwargs, huggingfacehub_api_token=api_token)

    return model

### Instantiating methods and objects

In [None]:
model_name = 'microsoft/MiniLM-L12-H384-uncased'
llm_model_name = 'tiiuae/falcon-7b-instruct'
# document = load_document('/content/drive/MyDrive/TCC/Documents Json/ferreiracosta_all_results.json')
# document = load_document('/content/drive/MyDrive/TCC/Documents Json/mastercard_8fa6dd_v2.html.json')
# document = load_document('/content/drive/MyDrive/TCC/Documents Json/nubank_4uersz.html.json')
document = load_document('/content/drive/MyDrive/TCC/Documents Json/caixa_ummipx_v2.html.json')
model = load_model(model_name)
tokenizer = load_tokenizer(model_name)
embeddings, question_data, answer_data = load_QA_database(model, tokenizer, document)
faiss_index = index_into_faiss(embeddings)
llm_model = load_llm(llm_model_name)

Loading document...
Loading model...
Loading tokenizer...
Tokenizing data...
Indexing database in faiss...
Loading LLM model...




### Main execution

In [None]:
### Exemplos Curiosos ###
# Sobre qual banco estamos falando
# Quais sao as taxas do cartao
# Quais são as taxas do cartao
# Quais são as taxas do cartão

result_number = 1
input_text = 'Sobre qual banco estamos falando'
# input_text = 'onde posso encontrar um cartao mastercard com taxa de juros e programa de beneficios adequados as minhas condicoes? a mastercard international e uma associacao de bancos e instituicoes financeiras. para adquirir um cartao, entre em contato com um de nossos parceiros. que fatores sao considerados no momento da minha inscricao? as politicas de aprovacao variam de instituicao para instituicao. seu historico pessoal e profissional sao os principais fatores a serem levados em consideracao. hoje, varias instituicoes financeiras confiam na informacao dada pela agencia. no entanto a mastercard nao e associada a essas agencias e nao informa a seus membros como utilizar tais dados. alem de fornecer servicos ao cliente por telefone, alguns membros possuem websites que incluem informacao sobre os produtos e servicos mastercard. como faco para ter um cartao mastercard que ofereca juros baixos? as taxas de juros sao fixadas de acordo com cada instituicao financeira. o ideal e que voce faca uma pesquisa junto a estas instituicoes. como faco para aumentar a linha de credito de minha conta? a melhor forma de pedir uma linha de credito maior e falar com a instituicao financeira que emitiu seu cartao. se voce nao tiver o telefone, utilize a nossa tabela de instituicoes-membro mastercard. como conseguir assistencia da mastercard quando eu estiver viajando? a mastercard lhe oferece varios servicos durante suas viagens ao exterior. consulte o diretorio de telefones mastercard global service. qual a diferenca entre cartao de credito e cartao de debito automatico? um cartao de credito permite pagar parceladamente, com uma linha de credito diferenciada e com um limite estabelecido pelo emissor. seu pagamento pode variar de uma quantia minima, estabelecida pelo seu banco, ate o seu saldo total. se voce pagar o valor integral da fatura ate a data do seu vencimento, nenhum juro sera cobrado.um cartao de debito automatico e associado a sua conta bancaria. toda despesa efetuada com esse cartao, sera automaticamente debitada em sua conta corrente. como consigo um cartao de debito automatico? informe-se junto a instituicao financeira de sua preferencia. utilize a tabela de instituicoes-membro mastercard. como faco para obter informacoes sobre minhas contas mastercard (alterar dados ou pedir outro cartao)? todas essas informacoes sao gerenciadas pelo banco que emitiu o seu cartao. posso acessar minha conta mastercard via internet? algumas instituicoes financeiras que emitem cartoes operam via internet, outras nao.'
# input_text = input('Type your question: ')

distance, nearest_neighbours = search_into_faiss(model, tokenizer, input_text, faiss_index, result_number)
similar_queries, context_queries = get_data_neighbours(question_data, answer_data, nearest_neighbours)

print()
print("Faiss results:")
print()

for i in range(0, result_number):
  print('Question:', similar_queries[i])
  print('Answer:', context_queries[i])
  print()

input_context = '\n'.join(context_queries)

# template = """Você é um assistente de IA e analisará o contexto fornecido a seguir e com base nesse contexto informado, responderá à pergunta de forma resumida e clara.\n\nContexto: {input_context}\n\nPergunta: {input_text}\n\nResposta:"""
template = """Você é um assistente de IA que analisará o contexto fornecido a seguir fornecido a partir de um FAQ e com base nesse contexto informado, responderá à pergunta de forma resumida e clara, totalmente com base no contexto informado.\n\nContexto: {input_context}\n\nPergunta: {input_text}\n\nResposta:"""

prompt = PromptTemplate(template=template.lower(), input_variables=["input_context", "input_text"])

result = generate_answer(llm_model, input_text, input_context, prompt)

print()
print('Generated Answer:')
print(result['answer'])


Faiss results:

Question: como proteger minha conta no caixa tem?
Answer: isso acontece quando voce movimenta mais de r$ 5.000,00 por mes na conta poupanca social digital. voce pode fazer a atualizacao cadastral no caixa tem para remover os limites de movimentacao da conta. basta selecionar a conversa atualize seu cadastro, informar seus dados e enviar uma foto do seu documento e uma foto sua (selfie).

Generating answer...


[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mvocê é um assistente de ia que analisará o contexto fornecido a seguir fornecido a partir de um faq e com base nesse contexto informado, responderá à pergunta de forma resumida e clara, totalmente com base no contexto informado.

contexto: isso acontece quando voce movimenta mais de r$ 5.000,00 por mes na conta poupanca social digital. voce pode fazer a atualizacao cadastral no caixa tem para remover os limites de movimentacao da conta. basta selecionar a conversa atualize seu cadastro

### Generating Metrics

In [None]:
import time
import pandas as pd
from rouge_score import rouge_scorer
import nltk.translate.bleu_score as bleu

In [None]:
result_number = 1
generated_answers = []

for i in range(0, len(question_data)):
  input_text = question_data[i]
  print(f"[{i}] Question: {input_text}")
  distance, nearest_neighbours = search_into_faiss(model, tokenizer, input_text, faiss_index, result_number)
  similar_queries, context_queries = get_data_neighbours(question_data, answer_data, nearest_neighbours)
  input_context = '\n'.join(context_queries)
  template = """Você é um assistente de IA que analisará o contexto fornecido a seguir fornecido a partir de um FAQ e com base nesse contexto informado, responderá à pergunta de forma resumida e clara, totalmente com base no contexto informado.\n\nContexto: {input_context}\n\nPergunta: {input_text}\n\nResposta:"""
  prompt = PromptTemplate(template=template.lower(), input_variables=["input_context", "input_text"])
  result = generate_answer(llm_model, input_text, input_context, prompt)
  generated_answers.append(result['answer'])
  time.sleep(1)

[0] Question: o que e o caixa tem?
Generating answer...


[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mvocê é um assistente de ia que analisará o contexto fornecido a seguir fornecido a partir de um faq e com base nesse contexto informado, responderá à pergunta de forma resumida e clara, totalmente com base no contexto informado.

contexto: o caixa tem e um aplicativo da caixa criado para facilitar o acesso a servicos e transacoes bancarias da sua conta digital.

pergunta: o que e o caixa tem?

resposta:[0m

[1m> Finished chain.[0m
[1] Question: como baixar o caixa tem?
Generating answer...


[1m> Entering new LLMChain chain...[0m
Prompt after formatting:
[32;1m[1;3mvocê é um assistente de ia que analisará o contexto fornecido a seguir fornecido a partir de um faq e com base nesse contexto informado, responderá à pergunta de forma resumida e clara, totalmente com base no contexto informado.

contexto: com o caixa tem, alem de receber o pagamento

In [None]:
chencherry = bleu.SmoothingFunction()
bleu.sentence_bleu(answer_data[0], generated_answers[0], smoothing_function=chencherry.method4)

0.006226949041692393

In [None]:
bleu_score_results = []
chencherry = bleu.SmoothingFunction()

for i in range(0, len(question_data)):
  bleu_score_results.append(bleu.sentence_bleu(answer_data[i], generated_answers[i], smoothing_function=chencherry.method4))

In [None]:
scorer = rouge_scorer.RougeScorer(['rougeL'], use_stemmer=True)
scorer.score(answer_data[0], generated_answers[0])

{'rougeL': Score(precision=0.8095238095238095, recall=0.7727272727272727, fmeasure=0.7906976744186046)}

In [None]:
rouge_score_results = []
scorer = rouge_scorer.RougeScorer(['rougeL'], use_stemmer=True)

for i in range(0, len(question_data)):
  rouge_score_results.append(scorer.score(answer_data[i], generated_answers[i])['rougeL'].fmeasure)

In [None]:
df_data = {
    'faq_question': question_data,
    'faq_answers': answer_data,
    'generated_answers': generated_answers,
    'bleu_score': bleu_score_results,
    'rouge_score': rouge_score_results
}

df = pd.DataFrame(df_data)

In [None]:
df.head()

Unnamed: 0,faq_question,faq_answers,generated_answers,bleu_score,rouge_score
0,o que e o caixa tem?,o caixa tem e um aplicativo da caixa criado pa...,o caixa é um aplicativo que foi criado para f...,0.006227,0.790698
1,como baixar o caixa tem?,"com o caixa tem, alem de receber o pagamento d...","o caixa tem acesso a um banco, onde é possíve...",0.00866,0.172414
2,quem pode ter uma conta digital caixa tem?,baixar o caixa tem e muito facil e qualquer pe...,quem pode ter uma conta digital caixa tem?\n\...,0.001565,0.052632
3,como abrir uma conta no caixa tem?,qualquer cidadao pode ter conta no caixa tem. ...,\n\n1. O caixa tem é um banco de dados que con...,0.001404,0.117647
4,nao reconheco os dados de acesso ao caixa tem....,voce precisa estar com um documento pessoal de...,\n\n1. O caixa não foi abastecido com o endere...,0.001408,0.071006


In [None]:
df.to_csv('Falcon7b_Caixa_v2.csv', index=False)