In [1]:
!pip install chromadb -q
!pip install sentence-transformers -q

In [2]:
import chromadb

client = chromadb.Client()

collection = client.create_collection("metodos_vetor")

In [3]:
collection.add(
    documents=["Documentos sobre metodos em python"],
    metadatas=[{"category": "python"},],
    ids=["id1"]
)

In [4]:
import os

def read_files_from_folder(folder_path):
    file_data = []

    for file_name in os.listdir(folder_path):
        if file_name.endswith(".txt"):
            with open(os.path.join(folder_path, file_name), 'r') as file:
                content = file.read()
                file_data.append({"file_name": file_name, "content": content})

    return file_data

folder_path = "metodos"  # your folder path
file_data = read_files_from_folder(folder_path)

for data in file_data:
    print(f"File Name: {data['file_name']}")
    print(f"Content: {data['content']}\n")

File Name: 1.txt
Content: Ordenacao de Lista com Funcao Personalizada:
def ordenar_lista_por_comprimento(lista):
    return sorted(lista, key=lambda x: len(str(x)))



File Name: 10.txt
Content: Algoritmo de Busca BinÃ¡ria Recursiva:
def busca_binaria_recursiva(lista, elemento, inicio=0, fim=None):
    if fim is None:
        fim = len(lista) - 1
    if inicio > fim:
        return -1
    meio = (inicio + fim) // 2
    if lista[meio] == elemento:
        return meio
    elif lista[meio] < elemento:
        return busca_binaria_recursiva(lista, elemento, meio + 1, fim)
    else:
        return busca_binaria_recursiva(lista, elemento, inicio, meio - 1)


File Name: 2.txt
Content: Conversao de Lista de Dicionarios para Dicionario:
def lista_para_dicionario(lista):
    return {item['chave']: item['valor'] for item in lista}




File Name: 3.txt
Content: Analise de Frequencia de Palavras em um Texto:
from collections import Counter
def analisar_frequencia_palavras(texto):
    palavras = tex

In [5]:
documents = []
metadatas = []
ids = []
for index,data in enumerate(file_data):
  documents.append(data['content'])
  metadatas.append({'source':data['file_name']})
  ids.append(str(index+1))

In [7]:
metadatas

[{'source': '1.txt'},
 {'source': '10.txt'},
 {'source': '2.txt'},
 {'source': '3.txt'},
 {'source': '4.txt'},
 {'source': '5.txt'},
 {'source': '6.txt'},
 {'source': '7.txt'},
 {'source': '8.txt'},
 {'source': '9.txt'}]

In [8]:
from sentence_transformers import SentenceTransformer
model = SentenceTransformer('paraphrase-MiniLM-L3-v2')

In [9]:
documents = []
embeddings = []
metadatas = []
ids = []
for index,data in enumerate(file_data):
  documents.append(data['content'])
  embeding = model.encode(data['content']).tolist()
  embeddings.append(embeding)
  metadatas.append({'source':data['file_name']})
  ids.append(str(index+1))

In [10]:
collection_emb = client.create_collection("collection_emb")
collection_emb.add(
    documents=documents,
    embeddings=embeddings,
    metadatas=metadatas,
    ids=ids
)

In [13]:
query = "busca binaria em python"
input_em = model.encode(query).tolist()

results = collection_emb.query(
    query_embeddings=[input_em],
    n_results=1
)
results

{'ids': [['2']],
 'distances': [[28.0635929107666]],
 'metadatas': [[{'source': '10.txt'}]],
 'embeddings': None,
 'documents': [['Algoritmo de Busca BinÃ¡ria Recursiva:\ndef busca_binaria_recursiva(lista, elemento, inicio=0, fim=None):\n    if fim is None:\n        fim = len(lista) - 1\n    if inicio > fim:\n        return -1\n    meio = (inicio + fim) // 2\n    if lista[meio] == elemento:\n        return meio\n    elif lista[meio] < elemento:\n        return busca_binaria_recursiva(lista, elemento, meio + 1, fim)\n    else:\n        return busca_binaria_recursiva(lista, elemento, inicio, meio - 1)\n']],
 'uris': None,
 'data': None}

In [14]:
query = "algum algoritmo de ordenaçao?"
input_em = model.encode(query).tolist()

results = collection_emb.query(
    query_embeddings=[input_em],
    n_results=1
)
results

{'ids': [['1']],
 'distances': [[17.86484718322754]],
 'metadatas': [[{'source': '1.txt'}]],
 'embeddings': None,
 'documents': [['Ordenacao de Lista com Funcao Personalizada:\ndef ordenar_lista_por_comprimento(lista):\n    return sorted(lista, key=lambda x: len(str(x)))\n\n']],
 'uris': None,
 'data': None}

In [15]:
query = "algoritmo que busca sequencia de palavras em um texto"
input_em = model.encode(query).tolist()

results = collection_emb.query(
    query_embeddings=[input_em],
    n_results=1
)
results

{'ids': [['4']],
 'distances': [[11.085915565490723]],
 'metadatas': [[{'source': '3.txt'}]],
 'embeddings': None,
 'documents': [['Analise de Frequencia de Palavras em um Texto:\nfrom collections import Counter\ndef analisar_frequencia_palavras(texto):\n    palavras = texto.lower().split()\n    contagem = Counter(palavras)\n    return contagem\n\n']],
 'uris': None,
 'data': None}