## Notebook per creare il vector store con gli articoli delle leggi (i primi 2), oltre a titolo, e argomenti

In [1]:
from pymongo import MongoClient
#from bson.objectid import ObjectId
import faiss
from sentence_transformers import SentenceTransformer
import os
from langchain_text_splitters import TokenTextSplitter
import numpy as np

import sys
sys.path.append("../../../")
sys.path.append("../")

from utils.helper_functions import clean_title
from BM25.BM25_retriever import BM25Retriever
from llama_index.core.node_parser import SentenceSplitter

In [2]:
client = MongoClient("mongodb://mongo_db:27017")
db = client["SAVIA"]
coll_leggi_regionali = db["leggiRegionali"]
print(sorted(db.list_collection_names()))

['attiAssembleaLegislativa', 'attiComuneFerrara', 'attiComuneModena', 'attiComuneParma', 'attiComunePiacenza', 'attiComuneRavenna', 'attiComuneReggio', 'attiComuneRimini', 'attiGiuntaRegionale', 'index_leggi_regionali_1024_20_IP_BAAI_bge-m3', 'index_leggi_regionali_1024_50_IP_BAAI_bge-m3', 'index_leggi_regionali_128_20_IP_BAAI_bge-m3', 'index_leggi_regionali_128_50_IP_BAAI_bge-m3', 'index_leggi_regionali_256_20_IP_BAAI_bge-m3', 'index_leggi_regionali_256_50_IP_BAAI_bge-m3', 'index_leggi_regionali_512_20_IP_BAAI_bge-m3', 'index_leggi_regionali_512_50_IP_BAAI_bge-m3', 'index_leggi_regionali_64_20_IP_BAAI_bge-m3', 'index_leggi_regionali_64_50_IP_BAAI_bge-m3', 'leggiRegionali', 'leggiRegionaliAllegati', 'leggiRegionaliKeywords', 'leggiRegionaliOld']


In [3]:
embedding_model = SentenceTransformer("BAAI/bge-m3", trust_remote_code=True)
embedding_dim = embedding_model.encode(["This is a test"]).shape[1]



In [4]:
vector_store_folder = "../../../../SAVIA_vector_stores"

In [5]:
index_name = "leggiRegionaliArticles"
coll_leggi_regionali_keywords = db[index_name]
coll_leggi_regionali_keywords.drop()

index = faiss.IndexIDMap2(faiss.IndexFlatIP(embedding_dim))

_id_leggi = []
chunks_list = []

for ind, doc in enumerate(coll_leggi_regionali.find()[:]):
#    if ind % 100 == 0:
#        print(ind)

#    text = doc['titolo'].lower()
    chunks_list.append(doc['titolo'].lower())
    _id_leggi.append(doc['_id'])

    chunks_list.append(doc['legge'].lower())
    _id_leggi.append(doc['_id'])

    argomenti = " ".join(doc['argomenti']).replace("->", "").replace("-", "").replace("  ", " ").strip().lower() + ". "
    chunks_list.append(argomenti)
    _id_leggi.append(doc['_id'])
    
#    text += ". " + argomenti

    articoli = []

    #similarity sui primi 2 articoli
    if doc['testo'] != "":
        articoli = doc['articoli']
    elif 'testo_orig' in doc.keys() and 'articoli' in doc['testo_orig'].keys():
        articoli = doc['testo_orig']['articoli']

    if len(articoli) > 0:
        articoli = " ".join(list(articoli.values())[0:2])
 
        chunk_size = 64
        chunk_overlap = 20
        text_splitter = SentenceSplitter(chunk_size = chunk_size, chunk_overlap = chunk_overlap)
    
        articoli_splitted = text_splitter.split_texts([articoli])
        chunks_list += articoli_splitted
        _id_leggi.extend([doc['_id']] * len(articoli_splitted))

for _id_faiss, chunk in enumerate(chunks_list[:]):

    if _id_faiss % 1000 == 0:
        print(_id_faiss, "/", len(chunks_list))

    embedding = embedding_model.encode([chunk])
    faiss.normalize_L2(embedding)
    index.add_with_ids(embedding, np.array([_id_faiss]))
    mongo_dict = {"_id_faiss": _id_faiss, "_id_legge": _id_leggi[_id_faiss], "chunk": chunk}
    _ = coll_leggi_regionali_keywords.insert_one(mongo_dict)
    _id_faiss += 1

faiss.write_index(index, os.path.join(vector_store_folder, index_name  + ".faiss"))

print("num chunks:", index.ntotal)
print("end")

0 / 26556
100 / 26556
200 / 26556
300 / 26556
400 / 26556
500 / 26556
600 / 26556
700 / 26556
800 / 26556
900 / 26556
1000 / 26556
1100 / 26556
1200 / 26556
1300 / 26556
1400 / 26556
1500 / 26556
1600 / 26556
1700 / 26556
1800 / 26556
1900 / 26556
2000 / 26556
2100 / 26556
2200 / 26556
2300 / 26556
2400 / 26556
2500 / 26556
2600 / 26556
2700 / 26556
2800 / 26556
2900 / 26556
3000 / 26556
3100 / 26556
3200 / 26556
3300 / 26556
3400 / 26556
3500 / 26556
3600 / 26556
3700 / 26556
3800 / 26556
3900 / 26556
4000 / 26556
4100 / 26556
4200 / 26556
4300 / 26556
4400 / 26556
4500 / 26556
4600 / 26556
4700 / 26556
4800 / 26556
4900 / 26556
5000 / 26556
5100 / 26556
5200 / 26556
5300 / 26556
5400 / 26556
5500 / 26556
5600 / 26556
5700 / 26556
5800 / 26556
5900 / 26556
6000 / 26556
6100 / 26556
6200 / 26556
6300 / 26556
6400 / 26556
6500 / 26556
6600 / 26556
6700 / 26556
6800 / 26556
6900 / 26556
7000 / 26556
7100 / 26556
7200 / 26556
7300 / 26556
7400 / 26556
7500 / 26556
7600 / 26556
7700 / 2655

In [40]:
#chunks_list

In [37]:
 #_id_leggi.append()

In [25]:
test_list = []

In [26]:
test_list.extend(["43"] * 3)
test_list

['43', '43', '43']

In [None]:
index = faiss.IndexIDMap2(faiss.IndexFlatIP(self.embedding_dim))

list_items = []
ind_item = 0

for top_n_ind in top_n_inds[0:]:

    doc = self.coll_leggi_regionali.find_one({"_id": self._id_leggi[top_n_ind]})
    print(doc['legge'])

    text = doc['titolo'].lower()

    argomenti = " ".join(doc['argomenti']).replace("->", "").replace("-", "").replace("  ", " ").strip().lower() + ". "
    text += ". " + argomenti
#                print(text)
    articoli = []

    #similarity sui primi 2 articoli
    if doc['testo'] != "":
        articoli = doc['articoli']
    elif 'testo_orig' in doc.keys():
        articoli = doc['testo_orig']['articoli']

    if len(articoli) > 0:
        articoli = " ".join(list(articoli.values())[0:2])
        text += " " + articoli

    chunk_size = 64
    chunk_overlap = 20
    text_splitter = SentenceSplitter(chunk_size = chunk_size, chunk_overlap = chunk_overlap)

    text_splitted = text_splitter.split_texts([text])
#                print(text_splitted)


    for item in text_splitted[:]:
        embedding = self.embedding_model.encode([item])
        faiss.normalize_L2(embedding)
        index.add_with_ids(embedding, np.array([ind_item]))
        list_items.append({"chunk": item, "legge": doc['legge']})
        ind_item += 1
