In [1]:
from FAISS import *
from tokens import TOKEN_API
csv_file_path = '../data/faq_data.csv'

if __name__ == "__main__":
    
    # Use the model from the CohereForAI collection
    # model_name = "CohereForAI/aya-23-35B"
    model_name = "aubmindlab/aragpt2-large"
    # model_name = 'core42/jais-13b'
    faiss_embedding = FAISSEmbedding(model_name, TOKEN_API)

  from .autonotebook import tqdm as notebook_tqdm
2024-07-06 23:01:06,780 - INFO - Initializing FAISS embedding class


In [2]:
# Load data from a CSV file
start_time = time.time()
faiss_embedding.load_csv_data(csv_file_path, rows=200)
logging.info(f"Loading data took {time.time() - start_time:.2f} seconds")

# Create embeddings for the questions
start_time = time.time()
faiss_embedding.create_embeddings(batch_size=32)
logging.info(f"Creating embeddings took {time.time() - start_time:.2f} seconds")

# Build the FAISS index
start_time = time.time()
faiss_embedding.build_index()
logging.info(f"Building the index took {time.time() - start_time:.2f} seconds")

2024-07-06 23:01:19,983 - INFO - Loading data from ../data/faq_data.csv
2024-07-06 23:01:22,899 - INFO - Data loaded successfully, shape: (200, 4)
2024-07-06 23:01:22,907 - INFO - Loading data took 2.92 seconds
2024-07-06 23:01:22,908 - INFO - Creating embeddings for the dataset
2024-07-06 23:01:22,908 - INFO - Creating embeddings for the 200 titles in batches of 32


   ID                                            title  \
0  15               الشراء عن طريق البنوك الربوية حرام   
1  32  لابد من حصر الورثة لتتم قسمة التركة بصورة شرعية   
2  31   لا ينبغي للموظف أن يخالف الشرع ليحصل على إجازة   
3  36                                 أحكام سجود السهو   
4  30              إذا أرضعت الأخت أخاها صار ابناً لها   

                                                ques  \
0  ما حكم شراء السيارة بالأقساط المريحة من بنك رب...   
1  امرأة توفيت ولها مبلغ من المال ، ولها زوج طاعن...   
2       ما حكم الإجازات المرضية فى حالة مرض أولادي ؟   
3  ما هو سجود السهو ، كيفيته، ووقته؟ وما حكم من ش...   
4  هل يمكن للأخت أن ترضع أخاها، في حال مرض الأم؟ ...   

                                                 ans  
0  فأساس عمل البنوك الربوية قائم على تعاطي الربا ...  
1  الحمد لله والصلاة والسلام على رسول الله وآله و...  
2  فالإجازة المرضية -فيما نعلم- تحتاج إلى تقرير ط...  
3  الحمد لله والصلاة والسلام على رسول الله وآله و...  
4  الحمد لله والصلاة والسلام على رسول ا

2024-07-06 23:01:51,738 - INFO - Creating embeddings for the 200 questions in batches of 32
2024-07-06 23:11:27,771 - INFO - Creating embeddings for the 200 answers in batches of 32
2024-07-06 23:34:59,036 - INFO - Embeddings created, shape: (200, 3840)
2024-07-06 23:34:59,125 - INFO - Example title embedding: [-0.5740424   1.1697397  -1.7075132  ... -0.9135499  -0.01291466
 -0.0532702 ]
2024-07-06 23:34:59,128 - INFO - Example question embedding: [-0.31313607  0.12136937  0.1874694  ... -1.4571416  -0.56797427
  0.23695548]
2024-07-06 23:34:59,129 - INFO - Example answer embedding: [-0.0244332   0.04480639 -0.5421863  ... -0.7117491  -1.808919
 -0.27265933]
2024-07-06 23:34:59,172 - INFO - Creating embeddings took 2016.26 seconds
2024-07-06 23:34:59,177 - INFO - Building FAISS index
2024-07-06 23:34:59,208 - INFO - FAISS index built
2024-07-06 23:34:59,209 - INFO - Index total vectors: 200
2024-07-06 23:34:59,210 - INFO - Index dimension: 3840
2024-07-06 23:34:59,213 - INFO - Building

In [3]:
# Save the index to a file
start_time = time.time()
faiss_embedding.save_index('../data/faiss_index_file.index', '../data/metadata.pkl')
logging.info(f"Saving the index took {time.time() - start_time:.2f} seconds")

2024-07-06 23:34:59,368 - INFO - Saving FAISS index to ../data/faiss_index_file.index
2024-07-06 23:34:59,469 - INFO - FAISS index and metadata saved
2024-07-06 23:34:59,470 - INFO - Saving the index took 0.10 seconds


In [9]:
import time
import logging
from FAISS import FAISSEmbedding
from tokens import TOKEN_API

# Configure logging
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

if __name__ == "__main__":
    model_name = "aubmindlab/aragpt2-large"
    faiss_embedding = FAISSEmbedding(model_name, TOKEN_API)

    # Load the index from a file with METRIC_INNER_PRODUCT assumed to be set during index creation
    start_time = time.time()
    # Assuming load_index can accept a metric parameter or the index is already using METRIC_INNER_PRODUCT
    faiss_embedding.load_index('../data/faiss_index_file.index', '../data/metadata.pkl')
    logging.info(f"Loading the index took {time.time() - start_time:.2f} seconds")

    # Perform a search for the top-k similar questions
    query = "تسديد الضرائب من مال الربا لا يجوز"
    start_time = time.time()
    result = faiss_embedding.search(query, top_k=1)
    logging.info(f"Search took {time.time() - start_time:.2f} seconds")

2024-07-06 23:40:18,499 - INFO - Initializing FAISS embedding class
2024-07-06 23:40:24,684 - INFO - Loading FAISS index from ../data/faiss_index_file.index
2024-07-06 23:40:24,692 - INFO - FAISS index and metadata loaded
2024-07-06 23:40:24,692 - INFO - Loading the index took 0.01 seconds
2024-07-06 23:40:24,692 - INFO - Searching for top 1 similar questions for the query: 'تسديد الضرائب من مال الربا لا يجوز'
2024-07-06 23:40:25,367 - INFO - Query embedding: [[-0.05695949 -0.04194687  0.09636195 ... -0.41000977  0.22788182
  -0.082684  ]]
2024-07-06 23:40:25,367 - INFO - Query vector shape: (1, 3840)
2024-07-06 23:40:25,367 - INFO - Search completed for query: 'تسديد الضرائب من مال الربا لا يجوز'
2024-07-06 23:40:25,367 - INFO - Results: [{'title': 'تسديد الضرائب من مال الربا لا يجوز', 'question': 'هل يجوز تسديد الضرائب والتبرعات للمصلحة العامة التى تفرض علينا من فوائد البنوك؟', 'answer': 'الحمد لله والصلاة والسلام على رسول الله وآله وصحبه وسلم أما بعد:\nفإن فوائد البنوك : إن كانت ربو