In [5]:
"""
This is a simple application for sentence embeddings: semantic search

We have a corpus with various sentences. Then, for a given query sentence,
we want to find the most similar sentence in this corpus.

This script outputs for various queries the top 5 most similar sentences in the corpus.
"""
from sentence_transformers import SentenceTransformer, util
import torch

embedder = SentenceTransformer("all-MiniLM-L6-v2")

# Corpus with example sentences
corpus = [
    "A man is eating food.",
    "A man is eating a piece of bread.",
    "The girl is carrying a baby.",
    "A man is riding a horse.",
    "A woman is playing violin.",
    "Two men pushed carts through the woods.",
    "A man is riding a white horse on an enclosed ground.",
    "A monkey is playing drums.",
    "A cheetah is running behind its prey.",
]
corpus_embeddings = embedder.encode(corpus, convert_to_tensor=True)

# Query sentences:
queries = [
    "A man is eating pasta.",
    "Someone in a gorilla costume is playing a set of drums.",
    "A cheetah chases prey on across a field.",
]


# Find the closest 5 sentences of the corpus for each query sentence based on cosine similarity
top_k = min(5, len(corpus))
for query in queries:
    query_embedding = embedder.encode(query, convert_to_tensor=True)

    # We use cosine-similarity and torch.topk to find the highest 5 scores
    cos_scores = util.cos_sim(query_embedding, corpus_embeddings)[0]
    top_results = torch.topk(cos_scores, k=top_k)

    print("\n\n======================\n\n")
    print("Query:", query)
    print("\nTop 5 most similar sentences in corpus:")

    for score, idx in zip(top_results[0], top_results[1]):
        print(corpus[idx], "(Score: {:.4f})".format(score))

    """
    # Alternatively, we can also use util.semantic_search to perform cosine similarty + topk
    hits = util.semantic_search(query_embedding, corpus_embeddings, top_k=5)
    hits = hits[0]      #Get the hits for the first query
    for hit in hits:
        print(corpus[hit['corpus_id']], "(Score: {:.4f})".format(hit['score']))
    """

modules.json:   0%|          | 0.00/349 [00:00<?, ?B/s]

To support symlinks on Windows, you either need to activate Developer Mode or to run Python as an administrator. In order to see activate developer mode, see this article: https://docs.microsoft.com/en-us/windows/apps/get-started/enable-your-device-for-development


config_sentence_transformers.json:   0%|          | 0.00/116 [00:00<?, ?B/s]

README.md:   0%|          | 0.00/10.7k [00:00<?, ?B/s]

sentence_bert_config.json:   0%|          | 0.00/53.0 [00:00<?, ?B/s]

config.json:   0%|          | 0.00/612 [00:00<?, ?B/s]

pytorch_model.bin:   0%|          | 0.00/90.9M [00:00<?, ?B/s]

tokenizer_config.json:   0%|          | 0.00/350 [00:00<?, ?B/s]

vocab.txt:   0%|          | 0.00/232k [00:00<?, ?B/s]

tokenizer.json:   0%|          | 0.00/466k [00:00<?, ?B/s]

special_tokens_map.json:   0%|          | 0.00/112 [00:00<?, ?B/s]

1_Pooling/config.json:   0%|          | 0.00/190 [00:00<?, ?B/s]





Query: A man is eating pasta.

Top 5 most similar sentences in corpus:
A man is eating food. (Score: 0.7035)
A man is eating a piece of bread. (Score: 0.5272)
A man is riding a horse. (Score: 0.1889)
A man is riding a white horse on an enclosed ground. (Score: 0.1047)
A cheetah is running behind its prey. (Score: 0.0980)




Query: Someone in a gorilla costume is playing a set of drums.

Top 5 most similar sentences in corpus:
A monkey is playing drums. (Score: 0.6433)
A woman is playing violin. (Score: 0.2564)
A man is riding a horse. (Score: 0.1389)
A man is riding a white horse on an enclosed ground. (Score: 0.1191)
A cheetah is running behind its prey. (Score: 0.1080)




Query: A cheetah chases prey on across a field.

Top 5 most similar sentences in corpus:
A cheetah is running behind its prey. (Score: 0.8253)
A man is eating food. (Score: 0.1399)
A monkey is playing drums. (Score: 0.1292)
A man is riding a white horse on an enclosed ground. (Score: 0.1097)
A man is riding a 

In [None]:
from sentence_transformers import SentenceTransformer


In [None]:
!pip install faiss-cpu



In [None]:
import os
import getpass

os.environ['OPENAI_API_KEY'] = getpass.getpass('OpenAI API Key:')

In [None]:
from langchain_community.document_loaders import TextLoader
from langchain_openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain_community.vectorstores import FAISS

# Load the document, split it into chunks, embed each chunk and load it into the vector store.
raw_documents = TextLoader('../../../state_of_the_union.txt').load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
documents = text_splitter.split_documents(raw_documents)
db = FAISS.from_documents(documents, OpenAIEmbeddings())

In [None]:
import os
import openai
import sys
import getpass
sys.path.append('../..')

# from dotenv import load_dotenv, find_dotenv
# _ = load_dotenv(find_dotenv()) # read local .env file
os.environ['OPENAI_API_KEY'] = getpass.getpass('OpenAI API Key:')
openai.api_key  = os.environ['OPENAI_API_KEY']

In [None]:
import datetime
current_date = datetime.datetime.now().date()
if current_date < datetime.date(2023, 9, 2):
    llm_name = "gpt-3.5-turbo-0301"
else:
    llm_name = "gpt-3.5-turbo"
print(llm_name)

In [None]:
from langchain.vectorstores import Chroma
from langchain.embeddings.openai import OpenAIEmbeddings
persist_directory = '.docs/chroma/'
embedding = OpenAIEmbeddings()
vectordb = Chroma(persist_directory=persist_directory, embedding_function=embedding)

In [3]:
!python --version

Python 3.11.7


In [None]:
import os
import getpass

os.environ['OPENAI_API_KEY'] = getpass.getpass('OpenAI API Key:')

In [None]:
# from langchain_community.document_loaders import TextLoader
from langchain_openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain_community.vectorstores import Chroma

# Load the document, split it into chunks, embed each chunk and load it into the vector store.
raw_documents = TextLoader('../../../state_of_the_union.txt').load()
text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
documents = text_splitter.split_documents(raw_documents)
db = Chroma.from_documents(documents, OpenAIEmbeddings())

In [None]:
!pip install chromadb

In [1]:
import chromadb
import pandas as pd
import numpy as np

Pyarrow will become a required dependency of pandas in the next major release of pandas (pandas 3.0),
(to allow more performant data types, such as the Arrow string type, and better interoperability with other libraries)
but was not found to be installed on your system.
If this would cause problems for you,
please provide us feedback at https://github.com/pandas-dev/pandas/issues/54466
        
  import pandas as pd


In [2]:
!python --version

Python 3.12.1


In [None]:
import json

In [8]:
with open('test.json', encoding='utf-8') as f:
    data = json.load(f)

In [9]:
data

{'ОБЩАЯ ЧАСТЬ': {'РАЗДЕЛ 1. УГОЛОВНЫЙ ЗАКОН': {'Статья 1. Уголовное законодательство Республики Казахстан ': '\n\xa0\xa0\xa0\xa0\xa0 1. Уголовное законодательство Республики Казахстан состоит из настоящего Уголовного кодекса Республики Казахстан. Иные законы, предусматривающие уголовную ответственность, подлежат применению только после их включения в настоящий Кодекс. \n \n\xa0\xa0\xa0\xa0\xa0 2. Настоящий Кодекс основывается на  Конституции  Республики Казахстан и общепризнанных принципах и нормах международного права.  Конституция  Республики Казахстан имеет высшую юридическую силу и прямое действие на всей территории Республики. В случае противоречий между нормами настоящего Кодекса и Конституции Республики Казахстан действуют положения  Конституции . Нормы настоящего Кодекса, признанные неконституционными, в том числе ущемляющими закрепленные Конституцией Республики Казахстан права и свободы человека и гражданина, утрачивают юридическую силу и не подлежат применению. Нормативные по

In [10]:
articles = []
import unicodedata

for x in data:    
    for k in data[x]:
        for a in data[x][k]:
            second = data[x][k][a]
            new_str = unicodedata.normalize("NFKD", second).strip()
#             new_str.repla
#             print(new_str)
            new_str = new_str.replace('\n', '').replace('\n\n', '').strip()
#             print(second)
            articles.append(new_str)

articles

['1. Уголовное законодательство Республики Казахстан состоит из настоящего Уголовного кодекса Республики Казахстан. Иные законы, предусматривающие уголовную ответственность, подлежат применению только после их включения в настоящий Кодекс.        2. Настоящий Кодекс основывается на  Конституции  Республики Казахстан и общепризнанных принципах и нормах международного права.  Конституция  Республики Казахстан имеет высшую юридическую силу и прямое действие на всей территории Республики. В случае противоречий между нормами настоящего Кодекса и Конституции Республики Казахстан действуют положения  Конституции . Нормы настоящего Кодекса, признанные неконституционными, в том числе ущемляющими закрепленные Конституцией Республики Казахстан права и свободы человека и гражданина, утрачивают юридическую силу и не подлежат применению. Нормативные постановления Конституционного Суда и Верховного Суда Республики Казахстан являются составной частью уголовного законодательства Республики Каза

# Tokenezation

In [15]:
from razdel import tokenize

In [16]:
art_tok = [list(tokenize(x.lower())) for x in articles].copy()

# Lemmatization

In [19]:
from natasha import (
    Segmenter,
    MorphVocab,
    
    Doc
)
import gensim

In [20]:
import pymorphy2
morph = pymorphy2.MorphAnalyzer()

In [21]:
morph.parse('буквы')

[Parse(word='буквы', tag=OpencorporaTag('NOUN,inan,femn sing,gent'), normal_form='буква', score=0.565217, methods_stack=((DictionaryAnalyzer(), 'буквы', 599, 1),)),
 Parse(word='буквы', tag=OpencorporaTag('NOUN,inan,femn plur,accs'), normal_form='буква', score=0.260869, methods_stack=((DictionaryAnalyzer(), 'буквы', 599, 10),)),
 Parse(word='буквы', tag=OpencorporaTag('NOUN,inan,femn plur,nomn'), normal_form='буква', score=0.173913, methods_stack=((DictionaryAnalyzer(), 'буквы', 599, 7),))]

In [None]:
ans = []
que = []
for sentence in ans_tok:
    temp = []
    for word in sentence:
        m = morph.parse(word.text)[0]
        temp.append(m.normal_form)
    sss = ' '.join(temp)
    tt = gensim.utils.simple_preprocess(sss)
    ans.append(tt)

for sentence in ques_tok:
    temp = []
    for word in sentence:
        m = morph.parse(word.text)[0]
        temp.append(m.normal_form)
    sss = ' '.join(temp)
    tt = gensim.utils.simple_preprocess(sss)
    que.append(tt)
#     que.append(temp)

print(ans)
print(que)

In [22]:
sw = "c а алло без белый близко более больше большой будем будет будете будешь будто буду будут будь бы бывает бывь был была были было быть в важная важное важные важный вам вами вас ваш ваша ваше ваши вверх вдали вдруг ведь везде вернуться весь вечер взгляд взять вид видел видеть вместе вне вниз внизу во вода война вокруг вон вообще вопрос восемнадцатый восемнадцать восемь восьмой вот впрочем времени время все все еще всегда всего всем всеми всему всех всею всю всюду вся всё второй вы выйти г где главный глаз говорил говорит говорить год года году голова голос город да давать давно даже далекий далеко дальше даром дать два двадцатый двадцать две двенадцатый двенадцать дверь двух девятнадцатый девятнадцать девятый девять действительно дел делал делать делаю дело день деньги десятый десять для до довольно долго должен должно должный дом дорога друг другая другие других друго другое другой думать душа е его ее ей ему если есть еще ещё ею её ж ждать же жена женщина жизнь жить за занят занята занято заняты затем зато зачем здесь земля знать значит значить и иди идти из или им имеет имел именно иметь ими имя иногда их к каждая каждое каждые каждый кажется казаться как какая какой кем книга когда кого ком комната кому конец конечно которая которого которой которые который которых кроме кругом кто куда лежать лет ли лицо лишь лучше любить люди м маленький мало мать машина между меля менее меньше меня место миллионов мимо минута мир мира мне много многочисленная многочисленное многочисленные многочисленный мной мною мог могу могут мож может может быть можно можхо мои мой мор москва мочь моя моё мы на наверху над надо назад наиболее найти наконец нам нами народ нас начала начать наш наша наше наши не него недавно недалеко нее ней некоторый нельзя нем немного нему непрерывно нередко несколько нет нею неё ни нибудь ниже низко никакой никогда никто никуда ним ними них ничего ничто но новый нога ночь ну нужно нужный нх о об оба обычно один одиннадцатый одиннадцать однажды однако одного одной оказаться окно около он она они оно опять особенно остаться от ответить отец откуда отовсюду отсюда очень первый перед писать плечо по под подойди подумать пожалуйста позже пойти пока пол получить помнить понимать понять пор пора после последний посмотреть посреди потом потому почему почти правда прекрасно при про просто против процентов путь пятнадцатый пятнадцать пятый пять работа работать раз разве рано раньше ребенок решить россия рука русский ряд рядом с с кем сам сама сами самим самими самих само самого самой самом самому саму самый свет свое своего своей свои своих свой свою сделать сеаой себе себя сегодня седьмой сейчас семнадцатый семнадцать семь сидеть сила сих сказал сказала сказать сколько слишком слово случай смотреть сначала снова со собой собою советский совсем спасибо спросить сразу стал старый стать стол сторона стоять страна суть считать т та так такая также таки такие такое такой там твои твой твоя твоё те тебе тебя тем теми теперь тех то тобой тобою товарищ тогда того тоже только том тому тот тою третий три тринадцатый тринадцать ту туда тут ты тысяч у увидеть уж уже улица уметь утро хороший хорошо хотел бы хотеть хоть хотя хочешь час часто часть чаще чего человек чем чему через четвертый четыре четырнадцатый четырнадцать что чтоб чтобы чуть шестнадцатый шестнадцать шестой шесть эта эти этим этими этих это этого этой этом этому этот эту я являюсь".split()

# StopWords

In [23]:
import nltk
from nltk.corpus import stopwords
sw_nltk = stopwords.words('russian')
print(sw_nltk)

['и', 'в', 'во', 'не', 'что', 'он', 'на', 'я', 'с', 'со', 'как', 'а', 'то', 'все', 'она', 'так', 'его', 'но', 'да', 'ты', 'к', 'у', 'же', 'вы', 'за', 'бы', 'по', 'только', 'ее', 'мне', 'было', 'вот', 'от', 'меня', 'еще', 'нет', 'о', 'из', 'ему', 'теперь', 'когда', 'даже', 'ну', 'вдруг', 'ли', 'если', 'уже', 'или', 'ни', 'быть', 'был', 'него', 'до', 'вас', 'нибудь', 'опять', 'уж', 'вам', 'ведь', 'там', 'потом', 'себя', 'ничего', 'ей', 'может', 'они', 'тут', 'где', 'есть', 'надо', 'ней', 'для', 'мы', 'тебя', 'их', 'чем', 'была', 'сам', 'чтоб', 'без', 'будто', 'чего', 'раз', 'тоже', 'себе', 'под', 'будет', 'ж', 'тогда', 'кто', 'этот', 'того', 'потому', 'этого', 'какой', 'совсем', 'ним', 'здесь', 'этом', 'один', 'почти', 'мой', 'тем', 'чтобы', 'нее', 'сейчас', 'были', 'куда', 'зачем', 'всех', 'никогда', 'можно', 'при', 'наконец', 'два', 'об', 'другой', 'хоть', 'после', 'над', 'больше', 'тот', 'через', 'эти', 'нас', 'про', 'всего', 'них', 'какая', 'много', 'разве', 'три', 'эту', 'моя', 'впр

In [None]:
ans = [[w for w in ans[x] if w not in sw_nltk] for x in range(len(ans))]


In [24]:
model_ans = gensim.models.Word2Vec (ans, vector_size=100, window=10, min_count=0, workers=10)
model_ans.train(ans,total_examples=len(ans),epochs=10)


NameError: name 'ans' is not defined