In [1]:
from langchain.vectorstores import FAISS
from langchain_text_splitters import RecursiveCharacterTextSplitter
from langchain_google_genai import GoogleGenerativeAIEmbeddings
from langchain.docstore.document import Document

In [2]:
def open_file(file_path):
    try:
        with open(file_path, "r", encoding="utf-8") as file:
            contents = file.read()
        return contents
    
    except FileNotFoundError:
        print(f"File not found: {file_path}")
        return None
    
    except Exception as e:
        print(f"Error: {e}")
        return None

In [None]:
GOOGLE_API_KEY = ''

In [None]:
paths = [
    "financial_agents\knowledge\dados_fundamentalistas.txt", 
    "financial_agents\knowledge\glossario_financias.txt"
]

pages = []

for path in paths:
    loader = open_file(path)
    if loader:
        pages.append(loader)

In [5]:
size = 1000
overlap = 200
persist_directory = "db"

In [None]:
embeddings = GoogleGenerativeAIEmbeddings(model="models/text-embedding-004", google_api_key=GOOGLE_API_KEY)

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=size,
    chunk_overlap=overlap
)

In [7]:
documents = []
for page in pages:
    chunks = text_splitter.split_text(page)
    for chunk in chunks:
        documents.append(Document(page_content=chunk))    

In [8]:
vector_store = FAISS.from_documents(documents=documents, embedding=embeddings)

In [9]:
vector_store.save_local("db")

In [None]:
question = "O que √© uma Ebitda?"

retriever = vector_store.as_retriever()

docs = retriever.get_relevant_documents(question)

In [10]:
docs_scores = vector_store.similarity_search_with_score(question, k=2)
for doc, score in docs_scores:
    print(f"\nüìÑ Score: {score:.4f}")
    print(doc.page_content[:300])


üìÑ Score: 0.2736
Ebitda: Este indicador representa, em tradu√ß√£o livre do ingl√™s, o lucro antes de juros, impostos, deprecia√ß√£o e amortiza√ß√£o. √â a partir do Ebitda que analistas e investidores medem o potencial de gera√ß√£o de caixa de uma companhia, uma vez que ele mostra os valores obtidos pelo neg√≥cio excluindo os c

üìÑ Score: 0.3252
EBITDA: Sigla em ingl√™s para Earnings Before Interests, Taxes, Depreciation and Amortization, ou em portugu√™s Lucro antes dos Juros, Impostos, Deprecia√ß√£o e Amortiza√ß√£o (LAJIDA), √© um indicativo do potencial de gera√ß√£o de caixa operacional da empresa, sem levar em considera√ß√£o os efeitos de receitas


In [11]:
docs = vector_store.similarity_search(question)

context = ""
for doc in docs:
    context += doc.page_content 
    context += "\n\n"

In [12]:
context

'Ebitda: Este indicador representa, em tradu√ß√£o livre do ingl√™s, o lucro antes de juros, impostos, deprecia√ß√£o e amortiza√ß√£o. √â a partir do Ebitda que analistas e investidores medem o potencial de gera√ß√£o de caixa de uma companhia, uma vez que ele mostra os valores obtidos pelo neg√≥cio excluindo os custos que n√£o est√£o ligados √† opera√ß√£o.\n\nMargem Ebitda: A margem Ebitda √© um indicador de margem de lucro operacional de um neg√≥cio. Se obt√©m este indicador pela divis√£o entre o Ebitda registrado pela companhia em determinado per√≠odo e as receitas. Quanto maior a margem Ebitda, maior √© a efici√™ncia operacional da empresa, uma vez que ela consegue gerar lucro a partir de suas opera√ß√µes.\n\nPatrim√¥nio L√≠quido (PL): Este indicador representa a diferen√ßa entre o valor dos ativos de uma empresa e o seu passivo. Lembrando que ativos s√£o os bens e direitos a receber pela companhia, e os passivos as obriga√ß√µes com terceiros e com os s√≥cios.\n\nEBITDA: Sigla em ingl