In [2]:
!pip install cohere faiss-cpu
!pip install langchain


Collecting cohere
  Downloading cohere-5.6.2-py3-none-any.whl.metadata (3.3 kB)
Collecting faiss-cpu
  Downloading faiss_cpu-1.8.0.post1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (3.7 kB)
Collecting boto3<2.0.0,>=1.34.0 (from cohere)
  Downloading boto3-1.34.153-py3-none-any.whl.metadata (6.6 kB)
Collecting fastavro<2.0.0,>=1.9.4 (from cohere)
  Downloading fastavro-1.9.5-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (5.5 kB)
Collecting httpx>=0.21.2 (from cohere)
  Downloading httpx-0.27.0-py3-none-any.whl.metadata (7.2 kB)
Collecting httpx-sse<0.5.0,>=0.4.0 (from cohere)
  Downloading httpx_sse-0.4.0-py3-none-any.whl.metadata (9.0 kB)
Collecting parameterized<0.10.0,>=0.9.0 (from cohere)
  Downloading parameterized-0.9.0-py2.py3-none-any.whl.metadata (18 kB)
Collecting types-requests<3.0.0,>=2.0.0 (from cohere)
  Downloading types_requests-2.32.0.20240712-py3-none-any.whl.metadata (1.9 kB)
Collecting botocore<1.35.0,>=1.34.153 (from bot

In [7]:
import json
import torch
import faiss
import numpy as np
from transformers import AutoTokenizer, BertModel

# הגדרת המודל והטוקנייזר של heBERT
model_name = "avichr/heBERT"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = BertModel.from_pretrained(model_name)

# פונקציה ליצירת embeddings לשאלה נתונה
def get_embedding(question):
    inputs = tokenizer(question, return_tensors="pt", padding=True, truncation=True)
    with torch.no_grad():
        outputs = model(**inputs)
    # אנו לוקחים את הממוצע של כל ה-embeddings של הטוקנים
    return outputs.last_hidden_state.mean(dim=1).squeeze().numpy()




Some weights of BertModel were not initialized from the model checkpoint at avichr/heBERT and are newly initialized: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


In [None]:

from google.colab import drive
drive.mount('/content/drive')
# קריאת הקובץ JSON
with open('/content/sample_data/פרי גני שוע.json', 'r', encoding='utf-8') as file:
    data = json.load(file)

# שליפת כל השאלות מהקובץ
questions = []
for book in data['contain'].values():
    for chapter in book.values():
        for verse in chapter.values():
            for qa in verse:
                questions.append(qa['question'])

# המרת כל השאלות ל-embeddings
embeddings = np.array([get_embedding(question) for question in questions])


Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


Mounted at /content/drive


In [None]:
# בניית אינדקס FAISS
dimension = embeddings.shape[1]
index = faiss.IndexFlatL2(dimension)
index.add(embeddings)

# פונקציה למציאת השאלות הקרובות ביותר
def find_nearest_questions(query, k=5):
    query_embedding = get_embedding(query).reshape(1, -1)
    distances, indices = index.search(query_embedding, k)
    nearest_questions = [questions[idx] for idx in indices[0]]
    return nearest_questions



In [None]:
# שאלה לדוגמה
query = "האם נשים חיבות בתפילה"

# מציאת השאלות הקרובות ביותר
nearest_questions = find_nearest_questions(query, k=5)
print("השאלות הקרובות ביותר לשאלה שלך הן:")
for q in nearest_questions:
    print(q)

In [6]:
import json
import torch
import faiss
import numpy as np
from transformers import AutoTokenizer, BertModel

# הגדרת המודל והטוקנייזר של heBERT
model_name = "avichr/heBERT"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = BertModel.from_pretrained(model_name)

# פונקציה ליצירת embeddings
def embeddingVectors(text):
    encoding = tokenizer.batch_encode_plus(
        text,  # List of input texts
        padding=True,  # Pad to the maximum sequence length
        truncation=True,  # Truncate to the maximum sequence length if necessary
        return_tensors='pt',  # Return PyTorch tensors
        add_special_tokens=True  # Add special tokens CLS and SEP
    )
    input_ids = encoding['input_ids']  # Token IDs
    attention_mask = encoding['attention_mask']  # Attention mask

    with torch.no_grad():
        outputs = model(input_ids, attention_mask=attention_mask)
        word_embeddings = outputs.last_hidden_state  # (batch_size, sequence_length, embedding_dim)
        # החזרת ה-embedding של ה-CLS token
        sentence_embedding = word_embeddings[:, 0, :]  # בחירת האיבר הראשון בכל רצף (CLS token)
    return sentence_embedding  # This contains the embeddings

# קריאת הקובץ JSON
with open('/content/sample_data/פרי גני שוע.json', 'r', encoding='utf-8') as file:
    data = json.load(file)

# שליפת כל השאלות מהקובץ
questions = []
for book in data['contain'].values():
    for chapter in book.values():
        for verse in chapter.values():
            for qa in verse:
                questions.append(qa['question'])

# המרת כל השאלות ל-embeddings
embeddings = embeddingVectors(questions).numpy()

# בניית אינדקס FAISS
dimension = embeddings.shape[1]
index = faiss.IndexFlatL2(dimension)
index.add(embeddings)

# פונקציה למציאת השאלות הקרובות ביותר
def find_nearest_questions(query, k=5):
    query_embedding = embeddingVectors([query]).numpy()
    distances, indices = index.search(query_embedding, k)
    nearest_questions = [questions[idx] for idx in indices[0]]
    return nearest_questions

# פונקציה לרנקר (הדוגמה היא פשוטה. ניתן לשפר בהתאם לצורך)
def rerank_documents1(query, documents, top_n=5):
    # המרת השאלה ל-embedding
    query_embedding = embeddingVectors([query]).numpy()

    # המרת המסמכים ל-embeddings
    doc_embeddings = embeddingVectors(documents).numpy()

    # חישוב המרחקים
    distances = np.linalg.norm(doc_embeddings - query_embedding, axis=1)

    # מציאת האינדקסים של המסמכים הקרובים ביותר
    nearest_indices = distances.argsort()[:top_n]

    # החזרת המסמכים המסודרים לפי הקרבה
    reranked_documents = [documents[idx] for idx in nearest_indices]
    return reranked_documents

def rerank_documents(query, docs, top_n):
    results = co.rerank(model="rerank-multilingual-v3.0", query=query, documents=docs, top_n=top_n, return_documents=True)
    reranked_docs = [res.document.text for res in results.results]
    return reranked_docs

# שאלה לדוגמה
query = "האם נשים חיבות בתפילה"

# מציאת השאלות הקרובות ביותר
nearest_questions = find_nearest_questions(query, k=10)

# רנקר על התוצאות הקרובות ביותר
reranked_questions = rerank_documents(query, nearest_questions, top_n=5)

print("השאלות הקרובות ביותר לשאלה שלך הן:")
for q in reranked_questions:
    print(q)


Some weights of BertModel were not initialized from the model checkpoint at avichr/heBERT and are newly initialized: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.
Asking to truncate to max_length but no maximum length is provided and the model has no predefined maximum length. Default to no truncation.


NameError: name 'co' is not defined

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
import json
import torch
import faiss
import numpy as np
from transformers import AutoTokenizer, BertModel
import cohere

# הגדרת המודל והטוקנייזר של heBERT
model_name = "avichr/heBERT"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = BertModel.from_pretrained(model_name)

# פונקציה ליצירת embeddings
def embeddingVectors(text):
    encoding = tokenizer.batch_encode_plus(
        text,  # List of input texts
        padding=True,  # Pad to the maximum sequence length
        truncation=True,  # Truncate to the maximum sequence length if necessary
        return_tensors='pt',  # Return PyTorch tensors
        add_special_tokens=True  # Add special tokens CLS and SEP
    )
    input_ids = encoding['input_ids']  # Token IDs
    attention_mask = encoding['attention_mask']  # Attention mask

    with torch.no_grad():
        outputs = model(input_ids, attention_mask=attention_mask)
        word_embeddings = outputs.last_hidden_state  # (batch_size, sequence_length, embedding_dim)
        # החזרת ה-embedding של ה-CLS token
        sentence_embedding = word_embeddings[:, 0, :]  # בחירת האיבר הראשון בכל רצף (CLS token)
    return sentence_embedding  # This contains the embeddings

# קריאת הקובץ JSON
with open('/content/sample_data/פרי גני שוע.json', 'r', encoding='utf-8') as file:
    data = json.load(file)

# שליפת כל השאלות מהקובץ
questions = []
for book in data['contain'].values():
    for chapter in book.values():
        for verse in chapter.values():
            for qa in verse:
                questions.append(qa['question'])

# המרת כל השאלות ל-embeddings
embeddings = embeddingVectors(questions).cpu().numpy()

# בניית אינדקס FAISS
dimension = embeddings.shape[1]
index = faiss.IndexFlatL2(dimension)
index.add(embeddings)

# פונקציה למציאת השאלות הקרובות ביותר
def find_nearest_questions(query, k=20):
    query_embedding = embeddingVectors([query]).cpu().numpy()
    distances, indices = index.search(query_embedding, k)
    nearest_questions = [questions[idx] for idx in indices[0]]
    return nearest_questions




Some weights of BertModel were not initialized from the model checkpoint at avichr/heBERT and are newly initialized: ['bert.pooler.dense.bias', 'bert.pooler.dense.weight']
You should probably TRAIN this model on a down-stream task to be able to use it for predictions and inference.


FileNotFoundError: [Errno 2] No such file or directory: '/content/sample_data/פרי גני שוע.json'

In [None]:
# הגדרת מפתח ה-API של Co:here

co = cohere.Client('IEo7xZnWi8cPD7jzR2dpsw3cvdGjchG6RCKPko05')
# פונקציה לרנקר
def rerank_documents(query, docs, top_n):
    results = co.rerank(model="rerank-multilingual-v3.0", query=query, documents=docs, top_n=top_n, return_documents=True)
    reranked_docs = [res.document.text for res in results.results]
    return reranked_docs

# שאלה לדוגמה
query = "האם נשים חיבות בתפילה"

# מציאת השאלות הקרובות ביותר
nearest_questions = find_nearest_questions(query, k=20)

# רנקר על התוצאות הקרובות ביותר
reranked_questions = rerank_documents(query, nearest_questions, top_n=5)

print("השאלות הקרובות ביותר לשאלה שלך הן:")
for q in reranked_questions:
    print(q)


השאלות הקרובות ביותר לשאלה שלך הן:
1. מדוע הנשים חייבות בברכת התורה?
5. האם נשים חייבות בברכות השחר?
3. האם יש חיוב מאה ברכות על נשים וקטנים?
1. האם נשים מוציאות האנשים בברכת המזון?
2. האם הנשים יכולות להוציא את האנשים בברכת התורה? וקטן?


In [None]:
# import cohere
# import faiss
# import numpy as np
# from langchain.embeddings import BedrockEmbeddings  # וודא שהחבילה מותקנת
# from langchain.embeddings.openai import OpenAIEmbeddings  # שימוש באפשרות אחרת אם BedrockEmbeddings לא עובד

# # הגדרת המפתח של Coherence
# COHERE_API_KEY = 'YOUR_COHERE_API_KEY'
# co = cohere.Client(COHERE_API_KEY)

# # רשימת השאלות
# questions = [
#     "מה היא מצוות תפילין?",
#     "כיצד יש להתפלל במניין?",
#     "מהי מצוות שמירת השבת?",
#     "כיצד יש לקיים את מצוות נטילת לולב?",
#     "מה הם דיני כשרות?"
# ]

# # המרת השאלות ל-embeddings
# def get_embeddings(questions):
#     response = co.embed(texts=questions)
#     embeddings = response.embeddings
#     return np.array(embeddings)

# embeddings = get_embeddings(questions)

# # בניית אינדקס FAISS
# dimension = embeddings.shape[1]
# index = faiss.IndexFlatL2(dimension)
# index.add(embeddings)

# # פונקציה למציאת השאלות הקרובות ביותר
# def find_nearest_questions(query, k=5):
#     query_embedding = get_embeddings([query])[0].reshape(1, -1)
#     distances, indices = index.search(query_embedding, k)
#     nearest_questions = [questions[idx] for idx in indices[0]]
#     return nearest_questions

# # שאלה לדוגמה
# query = "מה דיני תפילה במניין?"

# # מציאת השאלות הקרובות ביותר
# nearest_questions = find_nearest_questions(query, k=5)
# print("השאלות הקרובות ביותר לשאלה שלך הן:")
# for q in nearest_questions:
#     print(q)
