In [5]:
"""
This is a simple application for sentence embeddings: semantic search

We have a corpus with various sentences. Then, for a given query sentence,
we want to find the most similar sentence in this corpus.

This script outputs for various queries the top 5 most similar sentences in the corpus.
"""
from sentence_transformers import SentenceTransformer, util
import torch

embedder = SentenceTransformer("all-MiniLM-L6-v2")

# Corpus with example sentences
corpus = [
    "A man is eating food.",
    "A man is eating a piece of bread.",
    "The girl is carrying a baby.",
    "A man is riding a horse.",
    "A woman is playing violin.",
    "Two men pushed carts through the woods.",
    "A man is riding a white horse on an enclosed ground.",
    "A monkey is playing drums.",
    "A cheetah is running behind its prey.",
]
corpus_embeddings = embedder.encode(corpus, convert_to_tensor=True)

# Query sentences:
queries = [
    "A man is eating pasta.",
    "Someone in a gorilla costume is playing a set of drums.",
    "A cheetah chases prey on across a field.",
]


# Find the closest 5 sentences of the corpus for each query sentence based on cosine similarity
top_k = min(5, len(corpus))
for query in queries:
    query_embedding = embedder.encode(query, convert_to_tensor=True)

    # We use cosine-similarity and torch.topk to find the highest 5 scores
    cos_scores = util.cos_sim(query_embedding, corpus_embeddings)[0]
    top_results = torch.topk(cos_scores, k=top_k)

    print("\n\n======================\n\n")
    print("Query:", query)
    print("\nTop 5 most similar sentences in corpus:")

    for score, idx in zip(top_results[0], top_results[1]):
        print(corpus[idx], "(Score: {:.4f})".format(score))

    """
    # Alternatively, we can also use util.semantic_search to perform cosine similarty + topk
    hits = util.semantic_search(query_embedding, corpus_embeddings, top_k=5)
    hits = hits[0]      #Get the hits for the first query
    for hit in hits:
        print(corpus[hit['corpus_id']], "(Score: {:.4f})".format(hit['score']))
    """

modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/10.7k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]





Query: A man is eating pasta.

Top 5 most similar sentences in corpus:
A man is eating food. (Score: 0.7035)
A man is eating a piece of bread. (Score: 0.5272)
A man is riding a horse. (Score: 0.1889)
A man is riding a white horse on an enclosed ground. (Score: 0.1047)
A cheetah is running behind its prey. (Score: 0.0980)




Query: Someone in a gorilla costume is playing a set of drums.

Top 5 most similar sentences in corpus:
A monkey is playing drums. (Score: 0.6433)
A woman is playing violin. (Score: 0.2564)
A man is riding a horse. (Score: 0.1389)
A man is riding a white horse on an enclosed ground. (Score: 0.1191)
A cheetah is running behind its prey. (Score: 0.1080)




Query: A cheetah chases prey on across a field.

Top 5 most similar sentences in corpus:
A cheetah is running behind its prey. (Score: 0.8253)
A man is eating food. (Score: 0.1399)
A monkey is playing drums. (Score: 0.1292)
A man is riding a white horse on an enclosed ground. (Score: 0.1097)
A man is riding a 

In [None]:
from sentence_transformers import SentenceTransformer


In [None]:
!pip install faiss-cpu



In [None]:
import os
import getpass

os.environ['OPENAI_API_KEY'] = getpass.getpass('OpenAI API Key:')

In [None]:
from langchain_community.document_loaders import TextLoader
from langchain_openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain_community.vectorstores import FAISS

# Load the document, split it into chunks, embed each chunk and load it into the vector store.
raw_documents = TextLoader('../../../state_of_the_union.txt').load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
documents = text_splitter.split_documents(raw_documents)
db = FAISS.from_documents(documents, OpenAIEmbeddings())

In [None]:
import os
import openai
import sys
import getpass
sys.path.append('../..')

# from dotenv import load_dotenv, find_dotenv
# _ = load_dotenv(find_dotenv()) # read local .env file
os.environ['OPENAI_API_KEY'] = getpass.getpass('OpenAI API Key:')
openai.api_key  = os.environ['OPENAI_API_KEY']

In [None]:
import datetime
current_date = datetime.datetime.now().date()
if current_date < datetime.date(2023, 9, 2):
    llm_name = "gpt-3.5-turbo-0301"
else:
    llm_name = "gpt-3.5-turbo"
print(llm_name)

In [None]:
from langchain.vectorstores import Chroma
from langchain.embeddings.openai import OpenAIEmbeddings
persist_directory = '.docs/chroma/'
embedding = OpenAIEmbeddings()
vectordb = Chroma(persist_directory=persist_directory, embedding_function=embedding)

In [3]:
!python --version

Python 3.11.7


In [None]:
import os
import getpass

os.environ['OPENAI_API_KEY'] = getpass.getpass('OpenAI API Key:')

In [None]:
# from langchain_community.document_loaders import TextLoader
from langchain_openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain_community.vectorstores import Chroma

# Load the document, split it into chunks, embed each chunk and load it into the vector store.
raw_documents = TextLoader('../../../state_of_the_union.txt').load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
documents = text_splitter.split_documents(raw_documents)
db = Chroma.from_documents(documents, OpenAIEmbeddings())

In [None]:
!pip install chromadb

In [1]:
import chromadb
import pandas as pd
import numpy as np

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


In [2]:
!python --version

Python 3.12.1


In [14]:
import json

In [15]:
with open('test.json', encoding='utf-8') as f:
    data = json.load(f)

In [16]:
data

{'ОБЩАЯ ЧАСТЬ': {'РАЗДЕЛ 1. УГОЛОВНЫЙ ЗАКОН': {'Статья 1. Уголовное законодательство Республики Казахстан ': '\n\xa0\xa0\xa0\xa0\xa0 1. Уголовное законодательство Республики Казахстан состоит из настоящего Уголовного кодекса Республики Казахстан. Иные законы, предусматривающие уголовную ответственность, подлежат применению только после их включения в настоящий Кодекс. \n \n\xa0\xa0\xa0\xa0\xa0 2. Настоящий Кодекс основывается на  Конституции  Республики Казахстан и общепризнанных принципах и нормах международного права.  Конституция  Республики Казахстан имеет высшую юридическую силу и прямое действие на всей территории Республики. В случае противоречий между нормами настоящего Кодекса и Конституции Республики Казахстан действуют положения  Конституции . Нормы настоящего Кодекса, признанные неконституционными, в том числе ущемляющими закрепленные Конституцией Республики Казахстан права и свободы человека и гражданина, утрачивают юридическую силу и не подлежат применению. Нормативные по

In [17]:
articles = []
import unicodedata

for x in data:    
    for k in data[x]:
        for a in data[x][k]:
            second = data[x][k][a]
            new_str = unicodedata.normalize("NFKD", second).strip()
#             new_str.repla
#             print(new_str)
            new_str = new_str.replace('\n', '').replace('\n\n', '').strip()
#             print(second)
            articles.append(new_str)

articles

['1. Уголовное законодательство Республики Казахстан состоит из настоящего Уголовного кодекса Республики Казахстан. Иные законы, предусматривающие уголовную ответственность, подлежат применению только после их включения в настоящий Кодекс.        2. Настоящий Кодекс основывается на  Конституции  Республики Казахстан и общепризнанных принципах и нормах международного права.  Конституция  Республики Казахстан имеет высшую юридическую силу и прямое действие на всей территории Республики. В случае противоречий между нормами настоящего Кодекса и Конституции Республики Казахстан действуют положения  Конституции . Нормы настоящего Кодекса, признанные неконституционными, в том числе ущемляющими закрепленные Конституцией Республики Казахстан права и свободы человека и гражданина, утрачивают юридическую силу и не подлежат применению. Нормативные постановления Конституционного Суда и Верховного Суда Республики Казахстан являются составной частью уголовного законодательства Республики Каза

# Tokenezation

In [15]:
from razdel import tokenize

In [25]:
art_tok = [list(tokenize(x.lower())) for x in articles].copy()

In [26]:
art_tok

[[Substring(0, 1, '1'),
  Substring(1, 2, '.'),
  Substring(3, 12, 'уголовное'),
  Substring(13, 29, 'законодательство'),
  Substring(30, 40, 'республики'),
  Substring(41, 50, 'казахстан'),
  Substring(51, 58, 'состоит'),
  Substring(59, 61, 'из'),
  Substring(62, 72, 'настоящего'),
  Substring(73, 83, 'уголовного'),
  Substring(84, 91, 'кодекса'),
  Substring(92, 102, 'республики'),
  Substring(103, 112, 'казахстан'),
  Substring(112, 113, '.'),
  Substring(114, 118, 'иные'),
  Substring(119, 125, 'законы'),
  Substring(125, 126, ','),
  Substring(127, 144, 'предусматривающие'),
  Substring(145, 154, 'уголовную'),
  Substring(155, 170, 'ответственность'),
  Substring(170, 171, ','),
  Substring(172, 180, 'подлежат'),
  Substring(181, 191, 'применению'),
  Substring(192, 198, 'только'),
  Substring(199, 204, 'после'),
  Substring(205, 207, 'их'),
  Substring(208, 217, 'включения'),
  Substring(218, 219, 'в'),
  Substring(220, 230, 'настоящий'),
  Substring(231, 237, 'кодекс'),
  Subs

# Lemmatization

In [None]:
from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer("multi-qa-MiniLM-L6-cos-v1")

query_embedding = model.encode("How big is London")
passage_embedding = model.encode([
    "London has 9,787,426 inhabitants at the 2011 census",
    "London is known for its finacial district",
])

print("Similarity:", util.dot_score(query_embedding, passage_embedding))

In [38]:
from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer("all-MiniLM-L6-v2")

# Sentences are encoded by calling model.encode()
emb1 = model.encode("This is a red cat with a hat.")
emb2 = model.encode("Have you seen my red cat?")

cos_sim = util.cos_sim(emb1, emb2)
print("Cosine-Similarity:", cos_sim)

Cosine-Similarity: tensor([[0.6153]])


In [6]:
from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer("msmarco-MiniLM-L6-cos-v5")

sentences = [
    "A man is eating food.",
    "A man is eating a piece of bread.",
    "The girl is carrying a baby.",
    "A man is riding a horse.",
    "A woman is playing violin.",
    "Two men pushed carts through the woods.",
    "A man is riding a white horse on an enclosed ground.",
    "A monkey is playing drums.",
    "Someone in a gorilla costume is playing a set of drums.",
]

# Encode all sentences
embeddings = model.encode(sentences)
# Compute cosine similarity between all pairs
cos_sim = util.cos_sim(embeddings, embeddings)

# Add all pairs to a list with their cosine similarity score
all_sentence_combinations = []
for i in range(len(cos_sim) - 1):
    for j in range(i + 1, len(cos_sim)):
        all_sentence_combinations.append([cos_sim[i][j], i, j])

# Sort list by the highest cosine similarity score
all_sentence_combinations = sorted(all_sentence_combinations, key=lambda x: x[0], reverse=True)

print("Top-5 most similar pairs:")
for score, i, j in all_sentence_combinations[0:5]:
    print("{} \t {} \t {:.4f}".format(sentences[i], sentences[j], cos_sim[i][j]))

Top-5 most similar pairs:
A man is eating food. 	 A man is eating a piece of bread. 	 0.8254
A man is riding a horse. 	 A man is riding a white horse on an enclosed ground. 	 0.7899
A monkey is playing drums. 	 Someone in a gorilla costume is playing a set of drums. 	 0.4951
A man is eating food. 	 A man is riding a horse. 	 0.4856
A man is eating a piece of bread. 	 A man is riding a horse. 	 0.4656


In [10]:
embeddings

array([[ 0.04126729, -0.00149273, -0.00938306, ..., -0.02877171,
        -0.04672911,  0.05741227],
       [ 0.01249935,  0.04731419, -0.00885906, ..., -0.05663846,
        -0.06263163,  0.05440763],
       [ 0.01477204,  0.04301667, -0.01675682, ..., -0.00716962,
         0.07631477,  0.02518907],
       ...,
       [ 0.05048928,  0.099811  , -0.02481798, ...,  0.03647727,
         0.01163427, -0.02402169],
       [-0.00694138, -0.08540167, -0.01633866, ...,  0.05597189,
        -0.03089804,  0.02515382],
       [-0.00589297, -0.03570116,  0.03313477, ..., -0.02128549,
        -0.02428894,  0.00528788]], dtype=float32)

In [27]:
from natasha import (
    Segmenter,
    MorphVocab,
    
    Doc
)
import gensim

In [28]:
import pymorphy2
morph = pymorphy2.MorphAnalyzer()

In [21]:
morph.parse('буквы')

[Parse(word='буквы', tag=OpencorporaTag('NOUN,inan,femn sing,gent'), normal_form='буква', score=0.565217, methods_stack=((DictionaryAnalyzer(), 'буквы', 599, 1),)),
 Parse(word='буквы', tag=OpencorporaTag('NOUN,inan,femn plur,accs'), normal_form='буква', score=0.260869, methods_stack=((DictionaryAnalyzer(), 'буквы', 599, 10),)),
 Parse(word='буквы', tag=OpencorporaTag('NOUN,inan,femn plur,nomn'), normal_form='буква', score=0.173913, methods_stack=((DictionaryAnalyzer(), 'буквы', 599, 7),))]

In [37]:
art = []
cnt = 0
for sentence in art_tok:
    temp = []
    for word in sentence:
#         print(word.text)
        m = morph.parse(word.text)[0]
#         print(m)
        temp.append(m.normal_form)
    print(temp)
    if cnt == 10:
        break
    cnt += 1
    sss = ' '.join(temp)
    tt = gensim.utils.simple_preprocess(sss)
    art.append(tt)

print(art)


['1', '.', 'уголовный', 'законодательство', 'республика', 'казахстан', 'состоять', 'из', 'настоящий', 'уголовный', 'кодекс', 'республика', 'казахстан', '.', 'иной', 'закон', ',', 'предусматривать', 'уголовный', 'ответственность', ',', 'подлежать', 'применение', 'только', 'после', 'они', 'включение', 'в', 'настоящий', 'кодекс', '.', '2', '.', 'настоящий', 'кодекс', 'основываться', 'на', 'конституция', 'республика', 'казахстан', 'и', 'общепризнанный', 'принцип', 'и', 'норма', 'международный', 'право', '.', 'конституция', 'республика', 'казахстан', 'иметь', 'высокий', 'юридический', 'сила', 'и', 'прямой', 'действие', 'на', 'всей', 'территория', 'республика', '.', 'в', 'случай', 'противоречий', 'между', 'норма', 'настоящий', 'кодекс', 'и', 'конституция', 'республика', 'казахстан', 'действуют', 'положение', 'конституция', '.', 'норма', 'настоящий', 'кодекс', ',', 'признанный', 'неконституционный', ',', 'в', 'тот', 'число', 'ущемлять', 'закрепить', 'конституцией', 'республика', 'казах

# StopWords

In [23]:
import nltk
from nltk.corpus import stopwords
sw_nltk = stopwords.words('russian')
print(sw_nltk)

['и', 'в', 'во', 'не', 'что', 'он', 'на', 'я', 'с', 'со', 'как', 'а', 'то', 'все', 'она', 'так', 'его', 'но', 'да', 'ты', 'к', 'у', 'же', 'вы', 'за', 'бы', 'по', 'только', 'ее', 'мне', 'было', 'вот', 'от', 'меня', 'еще', 'нет', 'о', 'из', 'ему', 'теперь', 'когда', 'даже', 'ну', 'вдруг', 'ли', 'если', 'уже', 'или', 'ни', 'быть', 'был', 'него', 'до', 'вас', 'нибудь', 'опять', 'уж', 'вам', 'ведь', 'там', 'потом', 'себя', 'ничего', 'ей', 'может', 'они', 'тут', 'где', 'есть', 'надо', 'ней', 'для', 'мы', 'тебя', 'их', 'чем', 'была', 'сам', 'чтоб', 'без', 'будто', 'чего', 'раз', 'тоже', 'себе', 'под', 'будет', 'ж', 'тогда', 'кто', 'этот', 'того', 'потому', 'этого', 'какой', 'совсем', 'ним', 'здесь', 'этом', 'один', 'почти', 'мой', 'тем', 'чтобы', 'нее', 'сейчас', 'были', 'куда', 'зачем', 'всех', 'никогда', 'можно', 'при', 'наконец', 'два', 'об', 'другой', 'хоть', 'после', 'над', 'больше', 'тот', 'через', 'эти', 'нас', 'про', 'всего', 'них', 'какая', 'много', 'разве', 'три', 'эту', 'моя', 'впр

In [None]:
ans = [[w for w in ans[x] if w not in sw_nltk] for x in range(len(ans))]


In [31]:
model_art = gensim.models.Word2Vec (art, vector_size=100, window=10, min_count=0, workers=10)
model_art.train(art,total_examples=len(art),epochs=10)


(577155, 884050)

In [32]:
model_art.wv.most_similar (positive='закон')

[('изменение', 0.9553743600845337),
 ('рк', 0.9480774998664856),
 ('сноска', 0.9374643564224243),
 ('внести', 0.9218165278434753),
 ('vі', 0.9009281396865845),
 ('no', 0.8958791494369507),
 ('редакция', 0.8857992887496948),
 ('вводиться', 0.8717777729034424),
 ('глава', 0.842458963394165),
 ('дополнить', 0.8278864026069641)]

SyntaxError: invalid syntax (1111441488.py, line 1)

In [4]:
import chromadb
client = chromadb.HttpClient()
collection = client.create_collection("sample_collection")

# Add docs to the collection. Can also update and delete. Row-based API coming soon!
collection.add(
    documents=["This is document1", "This is document2"], # we embed for you, or bring your own
    metadatas=[{"source": "notion"}, {"source": "google-docs"}], # filter on arbitrary metadata!
    ids=["doc1", "doc2"], # must be unique for each doc 
)

results = collection.query(
    query_texts=["This is a query document"],
    n_results=2,
    # where={"metadata_field": "is_equal_to_this"}, # optional filter
    # where_document={"$contains":"search_string"}  # optional filter
) 


C:\Users\aliha\.cache\chroma\onnx_models\all-MiniLM-L6-v2\onnx.tar.gz: 100%|██████| 79.3M/79.3M [01:24<00:00, 986kiB/s]


In [5]:
print(results)

{'ids': [['doc1', 'doc2']], 'distances': [[0.9026352763807001, 1.0358158255050436]], 'embeddings': None, 'metadatas': [[{'source': 'notion'}, {'source': 'google-docs'}]], 'documents': [['This is document1', 'This is document2']], 'uris': None, 'data': None}


In [11]:
import chromadb
chroma_client = chromadb.Client()

In [12]:
collection = chroma_client.create_collection(name="my_collection")

In [18]:
from sentence_transformers import SentenceTransformer, util

model = SentenceTransformer("msmarco-MiniLM-L6-cos-v5")

# Encode all sentences
embeddings = model.encode(articles)


# similarity = util.cos_sim(query_embedding, passage_embedding))

In [19]:
embeddings

array([[-0.01282944, -0.00132438,  0.03742689, ..., -0.03672555,
         0.11882793, -0.12709767],
       [-0.0593045 , -0.00835144,  0.01821597, ..., -0.0333843 ,
         0.09190907, -0.09714958],
       [-0.01495604, -0.03459026,  0.00630663, ..., -0.0287719 ,
         0.11169486, -0.0996561 ],
       ...,
       [-0.00642807, -0.03065665,  0.01302   , ..., -0.03835564,
         0.11881094, -0.10133234],
       [-0.00400132,  0.0084393 ,  0.02854159, ..., -0.04005721,
         0.12812845, -0.10371017],
       [-0.00773909, -0.0610473 ,  0.025513  , ..., -0.03198209,
         0.13051304, -0.11169004]], dtype=float32)

9
29
13
13
15
11
8
33
13
15
15
12
18
9
36
5
41
21
7
20
17
11
35
30
32


In [29]:
ids = [str(x) for x in range(len(articles))]
metadatas = []
for x in data:    
    for k in data[x]:
        for cnt in range(len(data[x][k])):
            metadatas.append({'Part':k})
metadatas

[{'Part': 'РАЗДЕЛ 1. УГОЛОВНЫЙ ЗАКОН'},
 {'Part': 'РАЗДЕЛ 1. УГОЛОВНЫЙ ЗАКОН'},
 {'Part': 'РАЗДЕЛ 1. УГОЛОВНЫЙ ЗАКОН'},
 {'Part': 'РАЗДЕЛ 1. УГОЛОВНЫЙ ЗАКОН'},
 {'Part': 'РАЗДЕЛ 1. УГОЛОВНЫЙ ЗАКОН'},
 {'Part': 'РАЗДЕЛ 1. УГОЛОВНЫЙ ЗАКОН'},
 {'Part': 'РАЗДЕЛ 1. УГОЛОВНЫЙ ЗАКОН'},
 {'Part': 'РАЗДЕЛ 1. УГОЛОВНЫЙ ЗАКОН'},
 {'Part': 'РАЗДЕЛ 1. УГОЛОВНЫЙ ЗАКОН'},
 {'Part': 'РАЗДЕЛ 2. УГОЛОВНЫЕ ПРАВОНАРУШЕНИЯ'},
 {'Part': 'РАЗДЕЛ 2. УГОЛОВНЫЕ ПРАВОНАРУШЕНИЯ'},
 {'Part': 'РАЗДЕЛ 2. УГОЛОВНЫЕ ПРАВОНАРУШЕНИЯ'},
 {'Part': 'РАЗДЕЛ 2. УГОЛОВНЫЕ ПРАВОНАРУШЕНИЯ'},
 {'Part': 'РАЗДЕЛ 2. УГОЛОВНЫЕ ПРАВОНАРУШЕНИЯ'},
 {'Part': 'РАЗДЕЛ 2. УГОЛОВНЫЕ ПРАВОНАРУШЕНИЯ'},
 {'Part': 'РАЗДЕЛ 2. УГОЛОВНЫЕ ПРАВОНАРУШЕНИЯ'},
 {'Part': 'РАЗДЕЛ 2. УГОЛОВНЫЕ ПРАВОНАРУШЕНИЯ'},
 {'Part': 'РАЗДЕЛ 2. УГОЛОВНЫЕ ПРАВОНАРУШЕНИЯ'},
 {'Part': 'РАЗДЕЛ 2. УГОЛОВНЫЕ ПРАВОНАРУШЕНИЯ'},
 {'Part': 'РАЗДЕЛ 2. УГОЛОВНЫЕ ПРАВОНАРУШЕНИЯ'},
 {'Part': 'РАЗДЕЛ 2. УГОЛОВНЫЕ ПРАВОНАРУШЕНИЯ'},
 {'Part': 'РАЗДЕЛ 2. УГОЛОВНЫЕ ПРАВОНАРУШЕНИЯ'},
 {'

In [44]:
collection.add(
    embeddings=embeddings,
#     documents=articles,
    metadatas=metadatas,
    ids=ids
)

Add of existing embedding ID: 0
Add of existing embedding ID: 1
Add of existing embedding ID: 2
Add of existing embedding ID: 3
Add of existing embedding ID: 4
Add of existing embedding ID: 5
Add of existing embedding ID: 6
Add of existing embedding ID: 7
Add of existing embedding ID: 8
Add of existing embedding ID: 9
Add of existing embedding ID: 10
Add of existing embedding ID: 11
Add of existing embedding ID: 12
Add of existing embedding ID: 13
Add of existing embedding ID: 14
Add of existing embedding ID: 15
Add of existing embedding ID: 16
Add of existing embedding ID: 17
Add of existing embedding ID: 18
Add of existing embedding ID: 19
Add of existing embedding ID: 20
Add of existing embedding ID: 21
Add of existing embedding ID: 22
Add of existing embedding ID: 23
Add of existing embedding ID: 24
Add of existing embedding ID: 25
Add of existing embedding ID: 26
Add of existing embedding ID: 27
Add of existing embedding ID: 28
Add of existing embedding ID: 29
Add of existing embe

Add of existing embedding ID: 245
Add of existing embedding ID: 246
Add of existing embedding ID: 247
Add of existing embedding ID: 248
Add of existing embedding ID: 249
Add of existing embedding ID: 250
Add of existing embedding ID: 251
Add of existing embedding ID: 252
Add of existing embedding ID: 253
Add of existing embedding ID: 254
Add of existing embedding ID: 255
Add of existing embedding ID: 256
Add of existing embedding ID: 257
Add of existing embedding ID: 258
Add of existing embedding ID: 259
Add of existing embedding ID: 260
Add of existing embedding ID: 261
Add of existing embedding ID: 262
Add of existing embedding ID: 263
Add of existing embedding ID: 264
Add of existing embedding ID: 265
Add of existing embedding ID: 266
Add of existing embedding ID: 267
Add of existing embedding ID: 268
Add of existing embedding ID: 269
Add of existing embedding ID: 270
Add of existing embedding ID: 271
Add of existing embedding ID: 272
Add of existing embedding ID: 273
Add of existin

Insert of existing embedding ID: 18
Insert of existing embedding ID: 19
Insert of existing embedding ID: 20
Insert of existing embedding ID: 21
Insert of existing embedding ID: 22
Insert of existing embedding ID: 23
Insert of existing embedding ID: 24
Insert of existing embedding ID: 25
Insert of existing embedding ID: 26
Insert of existing embedding ID: 27
Insert of existing embedding ID: 28
Insert of existing embedding ID: 29
Insert of existing embedding ID: 30
Insert of existing embedding ID: 31
Insert of existing embedding ID: 32
Insert of existing embedding ID: 33
Insert of existing embedding ID: 34
Insert of existing embedding ID: 35
Insert of existing embedding ID: 36
Insert of existing embedding ID: 37
Insert of existing embedding ID: 38
Insert of existing embedding ID: 39
Insert of existing embedding ID: 40
Insert of existing embedding ID: 41
Insert of existing embedding ID: 42
Insert of existing embedding ID: 43
Insert of existing embedding ID: 44
Insert of existing embedding

Insert of existing embedding ID: 242
Insert of existing embedding ID: 243
Insert of existing embedding ID: 244
Insert of existing embedding ID: 245
Insert of existing embedding ID: 246
Insert of existing embedding ID: 247
Insert of existing embedding ID: 248
Insert of existing embedding ID: 249
Insert of existing embedding ID: 250
Insert of existing embedding ID: 251
Insert of existing embedding ID: 252
Insert of existing embedding ID: 253
Insert of existing embedding ID: 254
Insert of existing embedding ID: 255
Insert of existing embedding ID: 256
Insert of existing embedding ID: 257
Insert of existing embedding ID: 258
Insert of existing embedding ID: 259
Insert of existing embedding ID: 260
Insert of existing embedding ID: 261
Insert of existing embedding ID: 262
Insert of existing embedding ID: 263
Insert of existing embedding ID: 264
Insert of existing embedding ID: 265
Insert of existing embedding ID: 266
Insert of existing embedding ID: 267
Insert of existing embedding ID: 268
I

Insert of existing embedding ID: 464
Insert of existing embedding ID: 465
Insert of existing embedding ID: 466
Insert of existing embedding ID: 467


In [47]:
embeddings

array([[-0.01282944, -0.00132438,  0.03742689, ..., -0.03672555,
         0.11882793, -0.12709767],
       [-0.0593045 , -0.00835144,  0.01821597, ..., -0.0333843 ,
         0.09190907, -0.09714958],
       [-0.01495604, -0.03459026,  0.00630663, ..., -0.0287719 ,
         0.11169486, -0.0996561 ],
       ...,
       [-0.00642807, -0.03065665,  0.01302   , ..., -0.03835564,
         0.11881094, -0.10133234],
       [-0.00400132,  0.0084393 ,  0.02854159, ..., -0.04005721,
         0.12812845, -0.10371017],
       [-0.00773909, -0.0610473 ,  0.025513  , ..., -0.03198209,
         0.13051304, -0.11169004]], dtype=float32)

In [55]:
similarity = util.cos_sim(query_embedding, embeddings)

In [56]:
similarity

tensor([[0.5524, 0.6062, 0.5805, 0.6294, 0.5667, 0.6003, 0.5722, 0.5270, 0.5077,
         0.5629, 0.5553, 0.5365, 0.5741, 0.5770, 0.5276, 0.5234, 0.5727, 0.5786,
         0.5505, 0.5404, 0.5350, 0.6073, 0.5590, 0.5359, 0.5909, 0.5535, 0.6397,
         0.5556, 0.5684, 0.6568, 0.4891, 0.5329, 0.5297, 0.5487, 0.5380, 0.5649,
         0.5247, 0.5215, 0.5567, 0.6580, 0.7495, 0.5627, 0.5671, 0.5815, 0.6164,
         0.5162, 0.4944, 0.5542, 0.5466, 0.5409, 0.5638, 0.5710, 0.5574, 0.5435,
         0.5868, 0.5717, 0.5886, 0.5589, 0.5772, 0.5707, 0.5741, 0.6051, 0.5907,
         0.5291, 0.5284, 0.5779, 0.5584, 0.5695, 0.6312, 0.5357, 0.5126, 0.5472,
         0.5518, 0.5906, 0.6021, 0.5371, 0.5622, 0.5667, 0.5385, 0.5561, 0.6450,
         0.5996, 0.5324, 0.5338, 0.5145, 0.5600, 0.5883, 0.6220, 0.5250, 0.6222,
         0.5456, 0.5819, 0.5665, 0.6657, 0.5557, 0.5760, 0.5696, 0.5134, 0.5532,
         0.5865, 0.5789, 0.5666, 0.5661, 0.5623, 0.5496, 0.5333, 0.5567, 0.6519,
         0.6609, 0.5654, 0.5

In [51]:
embeddings

array([[-0.01282944, -0.00132438,  0.03742689, ..., -0.03672555,
         0.11882793, -0.12709767],
       [-0.0593045 , -0.00835144,  0.01821597, ..., -0.0333843 ,
         0.09190907, -0.09714958],
       [-0.01495604, -0.03459026,  0.00630663, ..., -0.0287719 ,
         0.11169486, -0.0996561 ],
       ...,
       [-0.00642807, -0.03065665,  0.01302   , ..., -0.03835564,
         0.11881094, -0.10133234],
       [-0.00400132,  0.0084393 ,  0.02854159, ..., -0.04005721,
         0.12812845, -0.10371017],
       [-0.00773909, -0.0610473 ,  0.025513  , ..., -0.03198209,
         0.13051304, -0.11169004]], dtype=float32)

In [52]:
query_embedding = model.encode(["Штраф за вандализм"])
results = collection.query(
    query_embeddings=query_embedding,
    n_results=10
)
# query_embedding

In [53]:
results

{'ids': [['196',
   '137',
   '93',
   '108',
   '351',
   '214',
   '107',
   '400',
   '202',
   '456']],
 'distances': [[0.6334801316261292,
   0.6630498170852661,
   0.6686410307884216,
   0.6782329082489014,
   0.6817328929901123,
   0.6823849678039551,
   0.6961988210678101,
   0.700446367263794,
   0.7035488486289978,
   0.7086804509162903]],
 'metadatas': [[{'Part': 'Глава 6. УГОЛОВНЫЕ ПРАВОНАРУШЕНИЯ ПРОТИВ СОБСТВЕННОСТИ'},
   {'Part': 'Глава 2. УГОЛОВНЫЕ ПРАВОНАРУШЕНИЯ ПРОТИВ СЕМЬИ И НЕСОВЕРШЕННОЛЕТНИХ'},
   {'Part': 'РАЗДЕЛ 7. ПРИНУДИТЕЛЬНЫЕ МЕРЫ МЕДИЦИНСКОГО ХАРАКТЕРА. ИНЫЕ МЕРЫ УГОЛОВНО-ПРАВОВОГО ВОЗДЕЙСТВИЯ \n\xa0\xa0\xa0\xa0\xa0 Сноска. Заголовок раздела 7 в редакции Закона РК от 10.01.2018  № 132-VI  (вводится в действие с 01.07.2018).'},
   {'Part': 'Глава 1. УГОЛОВНЫЕ ПРАВОНАРУШЕНИЯ ПРОТИВ ЛИЧНОСТИ'},
   {'Part': 'Глава 14. ТРАНСПОРТНЫЕ УГОЛОВНЫЕ ПРАВОНАРУШЕНИЯ'},
   {'Part': 'Глава 8. УГОЛОВНЫЕ ПРАВОНАРУШЕНИЯ В СФЕРЕ ЭКОНОМИЧЕСКОЙ ДЕЯТЕЛЬНОСТИ'},
   {'Part': 'Глава 1.

In [64]:
import os
import openai
import sys

openai.api_key  = "E62X24FIJA23MI5C7LMWKKJ"

In [71]:
from langchain.embeddings.openai import OpenAIEmbeddings
embedding = OpenAIEmbeddings(openai_api_key='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')

In [72]:
query = 'Сколько дают за убийство человека'

In [74]:
sentence1 = "i like dogs"
sentence2 = "i like canines"
sentence3 = "the weather is ugly outside"

In [75]:
embedding1 = embedding.embed_query(sentence1)
embedding2 = embedding.embed_query(sentence2)
embedding3 = embedding.embed_query(sentence3)

In [76]:
import numpy as np

In [77]:
np.dot(embedding1, embedding2)

0.9630350414845885

In [78]:
from langchain.vectorstores import Chroma

In [79]:
persist_directory = './docs/chroma/'

In [80]:
!rm -rf ./docs/chroma  # remove old database files if any

In [1]:
from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=300,
    chunk_overlap=0,
)

SyntaxError: future feature annotations is not defined (agent.py, line 2)

In [128]:
splits = text_splitter.split_documents(texts)

In [129]:
vectordb = Chroma.from_documents(
    documents=splits,
    embedding=embedding,
    persist_directory=persist_directory
)

In [130]:
vectordb.persist()

In [131]:
question = "Что дают за убийство"

In [132]:
docs = vectordb.similarity_search(question,k=5)

In [133]:
docs[0]

Document(page_content='1. Убийство, то есть противоправное умышленное причинение смерти другому человеку, –         наказывается лишением свободы на срок от восьми до пятнадцати лет.        2. Убийство:        1) двух или более лиц;        2) лица или его близких в связи с осуществлением данным лицом служебной')

In [135]:
for doc in docs:
    print(doc)

page_content='1. Убийство, то есть противоправное умышленное причинение смерти другому человеку, –         наказывается лишением свободы на срок от восьми до пятнадцати лет.        2. Убийство:        1) двух или более лиц;        2) лица или его близких в связи с осуществлением данным лицом служебной'
page_content='по совокупности уголовных правонарушений, одним из которых является убийство при отягчающих'
page_content='увечьем или иным повреждением здоровья, а также смертью кормильца.        3. За уголовные проступки'
page_content='лица, совершившего уголовное правонарушение, по уплате фиксированной денежной суммы,'
page_content='Убийство, совершенное при превышении мер, необходимых для задержания лица, совершившего преступление, –         наказывается ограничением свободы на срок до трех лет либо лишением свободы на тот же срок.'
