In [None]:
import os
import re
import torch
from langchain.embeddings import HuggingFaceEmbeddings
from langchain_text_splitters import RecursiveCharacterTextSplitter 
from langchain_chroma import Chroma
from langchain_community.llms import Ollama
from langchain.prompts import PromptTemplate
from langchain.docstore.document import Document


In [2]:
def open_file(file_path):
    try:
        with open(file_path, "r", encoding="utf-8") as file:
            contents = file.read()
        return contents
    except FileNotFoundError:
        print("File not found:")
    except Exception as e:
        print("Error:")

In [3]:
def inferir_metadados(texto, filename):
    match = re.search(r"(Parte\s+[IVXL]+:.*?)\n", texto)
    return {
        "nome do arquivo": filename,
        "se√ß√£o": match.group(1) if match else "Desconhecida"
    }

In [None]:
client = Ollama(model="llama3:8b")

OPENAI_API_KEY = os.getenv("OPENAI_API_KEY")

#client = OpenAI(api_key=OPENAI_API_KEY)

embedding = HuggingFaceEmbeddings(
    model_name="intfloat/multilingual-e5-large",
    model_kwargs={"device": "cuda" if torch.cuda.is_available() else "cpu"}
)

chunk_size = 1300 
chunk_overlap = 200
file_path = "documents/OAC-Resumo.txt"
persist_directory = "chroma-oac"

criar_db = False

  client = Ollama(model="llama3:8b")
  embedding = HuggingFaceEmbeddings(


In [5]:
if criar_db:
    print("Criando Banco Vetorial")

    # Abrindo o arquivo
    texto = open_file(file_path)
    filename = os.path.basename(file_path)
    metadatas = [{"nome do arquivo": filename}]

    text_splitter = RecursiveCharacterTextSplitter(
                                        chunk_size=chunk_size,
                                        chunk_overlap= chunk_overlap,
                                        separators=["\n\n", "\n", ".", "!", "?", ",", " ", ""]
                                        )


    documentos = []
    for chunk in text_splitter.split_text(texto):
        metadados = inferir_metadados(chunk, filename)
        documentos.append(Document(page_content=chunk, metadata=metadados))

    vectorstore = Chroma.from_documents(documents=documentos, embedding=embedding, persist_directory=persist_directory)


else:
    print("Carregando Banco Vetorial")
    try:
        vectorstore = Chroma(embedding_function=embedding, persist_directory=persist_directory)
        print("Banco de vetores carregado com sucesso.")
    except Exception as e:
        print(f"Erro ao carregar banco de vetores: {e}")

Carregando Banco Vetorial
Banco de vetores carregado com sucesso.


In [11]:
question = "Qual a defini√ß√£o de um pipeline?"

retriever  = vectorstore.as_retriever(search_type="similarity", search_kwargs={"k": 6})

docs = retriever.get_relevant_documents(question)

docs_scores = vectorstore.similarity_search_with_score(question, k=6)
for doc, score in docs_scores:
    print(f"\nüìÑ Score: {score:.4f}")
    print(doc.page_content[:300])


üìÑ Score: 0.3450
Estrutura do Processador: Composta pela ALU, unidade de controle e registradores. O ciclo de instru√ß√£o (buscar, decodificar, executar) √© realizado por uma sequ√™ncia de micro-opera√ß√µes at√¥micas.
Pipeline: A efici√™ncia do pipeline, no entanto, pode ser degradada por hazards (estruturais, de dados e de

üìÑ Score: 0.3677
2. Quest√µes de Desempenho
Projeto para Desempenho: A otimiza√ß√£o do desempenho envolve um esfor√ßo cont√≠nuo para aumentar a taxa de execu√ß√£o de instru√ß√µes. As principais t√©cnicas incluem:
Pipeline: Sobrep√µe a execu√ß√£o de m√∫ltiplas instru√ß√µes em diferentes est√°gios, como uma linha de montagem.
Previs√£o

üìÑ Score: 0.4039
RISC vs. CISC: A filosofia CISC busca transferir a complexidade do software para o hardware, tentando criar instru√ß√µes que se assemelhem a opera√ß√µes de linguagens de alto n√≠vel. Em contrapartida, a filosofia RISC transfere a complexidade do hardware para o software (o compilador). Ao fornecer um con

üìÑ 

In [7]:
def rag_consultas(question):

    context = retriever.get_relevant_documents(question)

    prompt_template = PromptTemplate(

        input_variables=["context", "question"],

        template="""
            
            Voc√™ √© um assistente especialista em Organiza√ß√£o e Arquitetura de Computadores com o objetivo de auxiliar estudantes da disciplina a entenderem o conte√∫do.

            Baseie sua resposta **exclusivamente** no texto abaixo. Sua resposta deve ser gerada em **formato Markdown**, clara, objetiva e adequada para **estudantes iniciantes**. Para quest√µes t√©cnicass, caso a pergunta solicitada n√£o esteja em conformidade com o texto sugerido, expor o texto que foi enviado para refer√™ncia.

            Inclua sempre ao final:
            - Uma **avalia√ß√£o percentual** de quanto o texto de apoio foi essencial para responder √† pergunta.
            - Uma explica√ß√£o breve indicando **quais trechos do texto** foram mais coerentes com a resposta.

            Responda sempre em **portugu√™s do Brasil**, usando linguagem acess√≠vel e, quando necess√°rio, explique os termos t√©cnicos com analogias ou exemplos simples.

            ---

            ### üìò Texto de apoio:
            {context}

            ---

            ### ‚ùì Pergunta:
            {question}

            ---

            ### ‚úÖ Resposta (em Markdown):

            """

    )

    prompt = prompt_template.format(context=context, question=question)

    """
    result = client.chat.completions.create(
        model="gpt-4o-mini",
        messages=[
            {"role": "user", "content": prompt}
        ]
    )
    """

    result = client.invoke(prompt)

    return result
    
    
resposta = rag_consultas(question)

print("Resposta:", resposta)

Resposta: **Resposta:**
**Taxonomia de Flynn e categorias de sistemas computacionais**

A Taxonomia de Flynn √© uma forma comum de categorizar sistemas com capacidade de processamento paralelo, proposta por Michael J. Flynn em 1972. A taxonomia define quatro categorias de sistemas computacionais baseadas na estrutura do sistema e na natureza da instru√ß√£o:

* **SISD (Single Instruction, Single Data)**: um processador √∫nico executa uma √∫nica sequ√™ncia de instru√ß√µes para operar os dados armazenados em uma √∫nica mem√≥ria. Uniprocessadores enquadram-se nessa categoria.
* **SIMD (Single Instruction, Multiple Data)**: uma √∫nica instru√ß√£o de m√°quina controla a execu√ß√£o simult√¢nea de uma s√©rie de elementos de processamento em opera√ß√µes b√°sicas. Cada elemento de processamento possui uma mem√≥ria de dados associada, ent√£o cada instru√ß√£o √© executada em um conjunto diferente de dados por processadores diferentes. Processadores de vetores e matrizes se enquadram nessa categori