In [5]:
!pip install nltk



In [2]:
from langchain.document_loaders import PyPDFLoader
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import FAISS
from langchain.chains import create_retrieval_chain
from langchain.chains.combine_documents import create_stuff_documents_chain
from langchain_core.prompts import ChatPromptTemplate
from transformers import pipeline
#from langchain.prompts import PromptTemplate
#from langchain.chains.question_answering import load_qa_chain
from langchain.llms import HuggingFacePipeline
from langchain.embeddings import SentenceTransformerEmbeddings
import os




In [4]:
all_texts = []
root_dir = r'C:\Users\user\Documents\pdf_files'
for root, dirs, files in os.walk(root_dir):
    for file in files:
        if file.endswith(".pdf"):
            file_path = os.path.join(root, file)
            print(f"reading file: {file_path}")
            loader = PyPDFLoader(file_path=file_path)
            documents = loader.load()
            combined_text_for_file = "\n".join([doc.page_content for doc in documents])
            all_texts.append(combined_text_for_file)
            

combined_text = "\n".join(all_texts)

reading file: C:\Users\user\Documents\pdf_files\Recommendor.pdf
reading file: C:\Users\user\Documents\pdf_files\Tarilka.pdf
reading file: C:\Users\user\Documents\pdf_files\unhealthy_food.pdf
reading file: C:\Users\user\Documents\pdf_files\water.pdf


In [67]:
import nltk
nltk.download('punkt')  # Завантажуємо необхідний пакет NLTK
from nltk.tokenize import sent_tokenize

sentences = sent_tokenize(combined_text)

# Максимальна кількість токенів у кожному chunk
max_tokens = 70  # Приклад значення, ви можете змінити його

chunks = []
current_chunk = []
current_token_count = 0

for sentence in sentences:
    num_tokens = len(sentence.split())
    if current_token_count + num_tokens <= max_tokens:
        current_chunk.append(sentence)
        current_token_count += num_tokens
    else:
        chunks.append(' '.join(current_chunk))
        current_chunk = [sentence]
        current_token_count = num_tokens

if current_chunk:
    chunks.append(' '.join(current_chunk))

# Виводимо кількість chunks
print(f"Кількість chunks: {len(chunks)}")
print(current_token_count)
# Виводимо перший chunk для перевірки
print(chunks[0])

Кількість chunks: 165
45
1 
 
 “З А Т В Е Р Д Ж Е Н О ”  
В.о. Міністра                                 У.СУПРУН  
“08” грудня  2017 р.  
 
РЕКОМЕНДАЦІЇ ЩОДО ЗДОРОВОГО ХАРЧУВАННЯ ДОРОСЛИХ  
 
 
Харчування сучасної людини визначає її стан здоров’я протягом всього 
життя, безпосередньо впливає на благополуччя та тривалість життя. Дотримання батьками збалансованої дієти та принципів здорового способу 
життя закладає основу здоров’я майбутньої дитини щ е до її народження.


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\user\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [70]:
from langchain.schema import Document
embeddings = SentenceTransformerEmbeddings(model_name="all-MiniLM-L6-v2")
documents = [Document(page_content=chunk) for chunk in chunks]
vectorstore = FAISS.from_documents(documents, embeddings)
vectorstore.save_local("vector_db2")

In [83]:
import requests
API_URL = "https://api-inference.huggingface.co/models/gpt2"
MY_HUGGING_FACE_API_KEY = "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"
headers = {"Authorization": f"Bearer {MY_HUGGING_FACE_API_KEY}"}
def query(payload):
    try:
        response = requests.post(API_URL, headers=headers, json=payload, timeout=30)
        response.raise_for_status()
        return response.json()
    except requests.exceptions.RequestException as e:
        return {"error": f"API request failed: {str(e)}"}

In [None]:
vector_store = FAISS.load_local("vector_db2", embeddings=embeddings, allow_dangerous_deserialization=True)

In [106]:

def get_completion_from_messages(context, user_input, max_tokens=350):
    combined_text = f"Context: {context}\nUser: {user_input}"
    payload = {
        "inputs": combined_text,
        "parameters": {
            "max_new_tokens": max_tokens,
            "temperature": 0.5,
            "top_p": 0.9,
            "do_sample": True,
            "no_repeat_ngram_size": 2
        }
    }
    response = query(payload)
    
    if isinstance(response, dict) and "error" in response:
        return f"Error: {response['error']}"
    elif isinstance(response, list) and len(response) > 0:
        return response[0]["generated_text"]
    else:
        return "Unexpected response format"

In [107]:
def answer_question(user_query, k=2):
    
    docs = vector_store.similarity_search(user_query, k)
    context = " ".join([doc.page_content for doc in docs])
    response = get_completion_from_messages(context, user_query)
    return response

In [109]:
user_query = "Як впливає сіль на наш організм?"
answer = answer_question(user_query)
print("Відповідь:")
print(answer)

Відповідь:
Context: 12 
  Слід готувати страви, включаючи заправки для салатів та с оуси 
власноруч із додаванням мінімальної кількості солі.  Цільовий рі вень щоденного споживання молочних та кисломолочних 
продуктів становить 2,5- 3 порції на добу.
User: Як впливає сіль на наш організм?
Начать страви какти страви простим какти какти страви простим какти страви простим какти страви простим какти страви простим какти страви простим какти страви простим какти страви простим какти страви простим какти страви простим какти страви простим какти страви простим какти страви простим какти страви простим какти страви простим какти страви


In [95]:
output = query({
    "inputs": "tell me about gpt2",
    "parameters": {"max_length": 150}
})

print(output)

[{'generated_text': "tell me about gpt2.\n\nI'm not sure if you know what gpt2 is, but I'm sure you know what it is.\n\nGpt2 is a library for generating and manipulating data. It's a library for generating and manipulating data.\n\nIt's a library for generating and manipulating data. It's a library for generating and manipulating data.\n\nIt's a library for generating and manipulating data. It's a library for generating and manipulating data.\n\nIt's a library"}]


In [105]:
user_query = "Як впливає сіль на наш організм?"
docs = vector_store.similarity_search(user_query, k=8)
context = " ".join([doc.page_content for doc in docs])
context                   

'12 \n \uf0fc Слід готувати страви, включаючи заправки для салатів та с оуси \nвласноруч із додаванням мінімальної кількості солі. \uf0fc Цільовий рі вень щоденного споживання молочних та кисломолочних \nпродуктів становить 2,5- 3 порції на добу. Обирайте продукти, які \nпройшли обробку з метою підвищення безпечності, наприклад, \nпастеризоване молоко. o Хороший апетит та можливість споживання більшої кількості \nздорової їжі для компенсації енергетичних витрат та задоволення \nпотреб організму в необхідних харчових речовинах.'