# Data

In [1]:
import os
import re
import html
import pandas as pd


def extract_content(file_content):
    name_match = re.search(r'{{NAME}}(.*?){{/NAME}}', file_content, re.DOTALL)
    desc_match = re.search(r'{{DESC}}(.*?){{/DESC}}', file_content, re.DOTALL)
    
    name = name_match.group(1).strip() if name_match else ""
    desc = desc_match.group(1).strip() if desc_match else ""
    
    return name, desc


def read_files_from_folder(folder_path):
    combined_content = []
    
    for filename in os.listdir(folder_path):
        if filename.endswith(".txt"):  # Assuming the files are .txt, adjust if necessary
            file_path = os.path.join(folder_path, filename)
            with open(file_path, 'r', encoding='utf-8') as file:
                content = file.read()
                name, desc = extract_content(content)
                combined_content.append((name, desc))
    
    return combined_content


def remove_html_tags(text):
    clean_text = re.sub(r'\s+', ' ', re.sub(r'<.*?>', ' ', html.unescape(text))).strip()
    return clean_text
    

folder_path = 'articles/'  # path to your folder
combined_content = read_files_from_folder(folder_path)

df = pd.DataFrame(combined_content, columns=['Name', 'Description'])

# Removing html tags in the description and characters in the title
df['Description'] = df['Description'].apply(remove_html_tags)
df['Name'] = df['Name'].apply(lambda x: re.sub(r'[\?!]', '', x))
df['Combined'] = df['Name'] + " " + df['Description']


df.head()

Unnamed: 0,Name,Description,Combined
0,Основы безопасности жизнедеятельности,Правило первое: вода и увлажненность Пить боль...,Основы безопасности жизнедеятельности Правило ...
1,Меры защиты и профилактики респираторных инфекций,Содержание: Правило третье: чистота — залог зд...,Меры защиты и профилактики респираторных инфек...
2,Лайфхаки на время самоизоляции,Лайфхаки для здоровья Позаботьтесь о своем нас...,Лайфхаки на время самоизоляции Лайфхаки для зд...
3,Самые актуальные новинки марта для здоровья и ...,Бузина – настоящий мастхэв для иммунитета. Био...,Самые актуальные новинки марта для здоровья и ...
4,Дезинфекция в домашних условиях,"Проведите генеральную уборку, избавьтесь от ли...",Дезинфекция в домашних условиях Проведите гене...


In [2]:
from langchain_core.documents import Document

# converts data into Document
def prepare_docs(df):
    docs = []
    for idx, (name, content) in enumerate(zip(df['Name'], df['Description'])):
        docs.append(Document(page_content = name, metadata = {'content' : content}))
    return docs

In [3]:
from langchain_postgres.vectorstores import PGVector
from langchain_mistralai import MistralAIEmbeddings
import sqlalchemy
from tokenizers import Tokenizer
from huggingface_hub import login

# Huggingface access token
login(token = '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')
# Neon_db connection
NEON_CONNECTION_STRING = "postgresql://evalar_db_owner:Es93pIobPUKu@ep-rough-lake-a2mtzedd.eu-central-1.aws.neon.tech/evalar_db?sslmode=require"
# MistralAI API
MISTRAL_API_KEY = "KwnToNV5H9zJme9bSqnDHND3O1zCqGki"

# Connect to the database
engine = sqlalchemy.create_engine(
    url=NEON_CONNECTION_STRING, pool_pre_ping=True, pool_recycle=300
)

# MistralAI model for embeddings
embeds_model = MistralAIEmbeddings(
                model="mistral-embed",
                api_key=MISTRAL_API_KEY
            )

# Vector database Neon
vector_store = PGVector(
    embeddings=embeds_model,
    connection=engine,
    use_jsonb=True,
    collection_name="text-to-sql-context",
)

The token has not been saved to the git credentials helper. Pass `add_to_git_credential=True` in this function directly or `--add-to-git-credential` if using via `huggingface-cli` if you want to set the git credential as well.
Token is valid (permission: write).
Your token has been saved to C:\Users\Chiki\.cache\huggingface\token
Login successful


In [None]:
import torch
from transformers import AutoTokenizer, AutoModel, AutoModelForCausalLM

# Qwen response generation model
model_name = 'Qwen/Qwen2-1.5B-Instruct'
device = torch.device("cuda")
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(model_name).to(device)
model_vector = AutoModel.from_pretrained(model_name).to(device)
device = model.device
print(f'device = {device}')

In [4]:
from datetime import datetime
import torch
from transformers import AutoTokenizer, AutoModel, AutoModelForCausalLM

def generate_answer(context, query):
    messages = [
    {"role": "system", "content": f"Ты помощник технической поддержки компании, сегодня дата {datetime.date}, тебе задают вопрос - ты отвечаешь кратко и по делу, не выписывай в конце своей речи вывод из этого, используй только контекст, не выдумывай то чего тебя не просили: задали вопрос - ответил только на него, никакой дополнительной информации не требуется, на основе него пиши ответ: {context}"},
    {"role": "user", "content": query}
]
    text = tokenizer.apply_chat_template(
        messages,
        tokenize=False,
        add_generation_prompt=True
    )
    model_inputs = tokenizer([text], return_tensors="pt").to(device)
    attention_mask = model_inputs["attention_mask"].to(device)
    generated_ids = model.generate(
        model_inputs.input_ids,
        max_new_tokens=512,
        attention_mask=attention_mask,
    )
    generated_ids = [
        output_ids[len(input_ids):] for input_ids, output_ids in zip(model_inputs.input_ids, generated_ids)
    ]
    
    return tokenizer.batch_decode(generated_ids, skip_special_tokens=True)[0]

In [5]:
def rag_system(query, top_k=2):
    context = ''
    docs = prepare_docs(df)
    vector_store.add_documents(docs)
    docs = vector_store.similarity_search(query, k=2)
    for doc in docs:
        context += doc.metadata['content']
        
    print(f'Context for rag: \n{context}')
    
    answer = generate_answer(context, query)
    return answer

In [6]:
query = 'как принимать аргинин'
rag_system(query)

Context for rag: 
Содержание: Польза L-аргинина В каких случаях рекомендуется принимать L-аргинин? Как влияет на организм дефицит аргинина? Способы пополнения аргинина Как принимать биоактивные добавки? Какой аргинин лучше использовать женщинам и мужчинам? Аминокислота вырабатывается из глутаминовой кислоты и пролина натуральным образом. Однако в некоторых случаях производство вещества нарушается из-за потери организмом способности воспроизводить аргинин. Из-за этого необходимо обеспечить требуемую суточную дозировку извне — с пищей и биоактивными добавками. БАДы с аргинином позволяют восстановить работу систем и внутренних органов, мозговую активность. Польза L-аргинина По результатам исследований было выявлено, что аминокислота способствует выделению в организме оксида азота (NO) — природного газа, который помогает сосудам оставаться в нормальном состоянии, увеличивает содержание кислорода в крови, снижает риски образования тромбов и воздействие на организм гормонов стресса1. Благода