In [1]:
collection_descriptions = {
    'student_handbook': "",
    'recruitment': "Những thông báo tuyển dụng và thực tập cho sinh viên khoa Công nghệ thông tin. Một số chương trình đòi hỏi kĩ năng khác nhau. Một số chỉ tuyển sinh viên năm 3 hoặc năm 4.",
    'academic_affairs': "Các thông báo của giáo vụ như lịch bảo vệ khóa luận tốt nghiệp, thông báo bảo hiểm y tế,... Thông báo thường được chỉ định là cho chương trình đào tạo nào, khóa và năm học.",
    'events': "Những thông báo về những hoạt động, sự kiện xảy ra. Thông báo sự kiện thường có địa chỉ tổ chức, ngày giờ và cách tham gia.",
    'scholarship': "Thông tin về học bổng, cách thức nộp hồ sơ, yêu cầu và thời hạn nộp hồ sơ. Những yêu cầu của học bổng thường là năm học, điểm trung bình tối thiểu, hoàn cảnh gia đình,...",
    'timetable': "Thông báo thay đổi phòng học, phòng thi, thời khóa biểu năm học, lịch thi.",
}

In [None]:
from pymilvus import(
    Milvus,
    IndexType,
    Status,
    connections,
    FieldSchema,
    DataType,
    Collection,
    CollectionSchema
)
import json
import pandas as pd
import ast

def read_news_csv(path):
    df = pd.read_csv(path)

    #remove null
    df = df[~df['chunks'].isna()]
    #chunk id to integer
    df['chunk_id'] = df['chunk_id'].astype(int)
    #location to integer
    #df['location'] = df['location'].astype(int)
    #in_effect to str type
    df['in_effect'] = df['in_effect'].astype(str)
    # Dummy updated at
    df['updated_at'] = df['created_at']
    #Rename columns
    df.rename(columns={'article': 'article_FULL', 'chunks': 'article'}, inplace=True)
    df = df.loc[:, df.columns != 'article_FULL']
    return df

def ingest_pipeline():
    ## Techzone's Standalone Milvus instance
    # host = '161.156.196.183'
    # port = '8080'
    # password = '4XYg2XK6sMU4UuBEjHq4EhYE8mSFO3Qq'
    # user = 'root'
    # server_pem_path =  './data/cert.pem'
    # server_name = 'localhost'
    ## Techzone's watsonx.data Milvus service
    # host = 'useast.services.cloud.techzone.ibm.com'
    # # host = 'jp-tok.services.cloud.techzone.ibm.com'
    # port = '36196'
    # password = 'password'
    # user = 'ibmlhadmin'
    # server_pem_path = './data/milvus_cert.pem'
    # server_name = 'watsonxdata'
    host = 'localhost'
    port ='19530'
    #Prod Server (e5-large embeds)
    # uri = 'https://in05-89bc8f2593a1710.serverless.gcp-us-west1.cloud.zilliz.com'
    # token = "c8e544eef2382fdc48c3829f3fb94a8d09451ed84a6183774894e097ab0da83356204032bad89fc68271027bec24806c1c52e0d6"
    #uri = "https://in01-4c6a7381b7913fa.gcp-asia-southeast1.vectordb.zillizcloud.com:443"
    #token = "db_admin:Jn1<BnK>]sj8V8&N"
    #Experimental Server (OpenAI Embeds)
    # uri = 'https://in05-bfb1fbc5a8d82f9.serverless.gcp-us-west1.cloud.zilliz.com'
    # token = 'ed5dd7599d02904ce373bae55db5645a041435621e1c14a0ffcd81275b5f6d349b1e5d24b3766d140943399440f347783bdb5c0d'

    # connections.connect(alias = 'default',
    #                 host = host,
    #                 port = port,
    #                 user = user,
    #                 password = password,
    #                 server_pem_path=server_pem_path,
    #                 server_name = server_name,
    #                 secure = True)
    connections.connect(alias = 'default',
                        host = host,
                        port=port
    )
    # connections.connect(alias='default', uri=uri, token=token)
    # News Collections ingestion
    fields = [
        FieldSchema(name="id", dtype=DataType.INT64, is_primary=True, auto_id=True), # Primary key
        FieldSchema(name="document_id", dtype=DataType.VARCHAR, max_length=50),
        FieldSchema(name="title", dtype=DataType.VARCHAR, max_length=750,),
        FieldSchema(name="article", dtype=DataType.VARCHAR, max_length=3500,),
        FieldSchema(name="embedding", dtype=DataType.FLOAT_VECTOR, dim=3072,), #1024
        FieldSchema(name="chunk_id", dtype=DataType.INT32),
        FieldSchema(name="school_year", dtype=DataType.INT32),
        FieldSchema(name="in_effect", dtype=DataType.VARCHAR, max_length=100,),
        FieldSchema(name="file_links", dtype=DataType.VARCHAR, max_length=750),
        FieldSchema(name="created_at", dtype=DataType.VARCHAR, max_length=50,),
        FieldSchema(name="created_at_unix", dtype=DataType.INT64,),
        FieldSchema(name="updated_at", dtype=DataType.VARCHAR, max_length=50,),
        FieldSchema(name="url", dtype=DataType.VARCHAR, max_length=300),
        FieldSchema(name="is_active", dtype=DataType.BOOL),
    ]
    collection_names = ['recruitment', 'timetable', 'scholarship', 'academic_affairs', 'events']
    for col in collection_names:
        schema = CollectionSchema(fields, description=collection_descriptions[col])
        if col in ['recruitment', 'scholarship']:
            schema.add_field("keywords", datatype=DataType.ARRAY, element_type=DataType.VARCHAR,max_length=100, max_capacity=8,
                             description="IT technological skills related to the article. Output in a list of strings."
                             )
            schema.add_field("majors", datatype=DataType.ARRAY, element_type=DataType.VARCHAR,max_length=100, max_capacity=8,
                             description="""Majors mentioned in the article. Valid majors are 'công nghệ phần mềm','khoa học dữ liệu','khoa học máy tính','hệ thống thông tin','kỹ thuật phần mềm','công nghệ thông tin','mạng máy tính','thị giác máy tính','công nghệ tri thức'. Output in a list of strings."""
                             )
        elif col == 'events':
            schema.add_field("location", datatype=DataType.INT16,
                             description="""Location of the event. Valid values are 0,1,2.
The school has two locations, with a few details about each location provided below:
Location 1: Cơ sở 1 - Cơ sở quận 5 - 227 Nguyễn Văn Cừ, Phường 4, Quận 5.
Location 2: Cơ sở 2 - Cơ sở Thủ Đức/Linh Trung - Làng Đại học, Phường Linh Trung, Thành phố Thủ Đức.
If no location of the two provided or both locations is mentioned, return 0. Note that the location may not be explicitly mentioned in full in the article."""
                             )
        elif col == 'timetable':
            schema.add_field("subjects_name", datatype=DataType.ARRAY, element_type=DataType.VARCHAR, max_length=100, max_capacity=8,
                             description="""Name of the subjects mentioned in the article. Output in a list of strings. If none is found, output an empty list.
Some examples of subjects are 'Cấu trúc dữ liệu và giải thuật','Lập trình hướng đối tượng','Cơ sở dữ liệu','Toán rời rạc','Lập trình web','Hệ điều hành','Mạng máy tính'.
Note that values may not be explicitly mentioned, but derived or written in acronyms."""
                             )
            schema.add_field("subjects_code", datatype=DataType.ARRAY, element_type=DataType.VARCHAR, max_length=100, max_capacity=8,
                             description=""
                             )

        collection = Collection(col, schema)
        index_params = {
            'metric_type':'L2',
            'index_type':"IVF_FLAT",
            'params':{"nlist":2048}
        }
        collection.create_index(field_name='embedding', index_params=index_params)
    # Student handbook collection
    fields = [
        FieldSchema(name="id", dtype=DataType.INT64, is_primary=True, auto_id=True), # Primary key
        FieldSchema(name="document_id", dtype=DataType.VARCHAR, max_length=50),
        FieldSchema(name="title", dtype=DataType.VARCHAR, max_length=300,),
        FieldSchema(name="article", dtype=DataType.VARCHAR, max_length=5000,),
        FieldSchema(name="embedding", dtype=DataType.FLOAT_VECTOR, dim=3072,), #1024
        FieldSchema(name="page_number", dtype=DataType.INT32),
        FieldSchema(name="school_year", dtype=DataType.INT32,),
        FieldSchema(name="in_effect", dtype=DataType.VARCHAR, max_length=100,),
        FieldSchema(name="created_at", dtype=DataType.VARCHAR, max_length=200,),
        FieldSchema(name="updated_at", dtype=DataType.VARCHAR, max_length=200,),
        FieldSchema(name="is_active", dtype=DataType.BOOL),
        FieldSchema(name="url", dtype=DataType.VARCHAR, max_length=300),
    ] 
    schema = CollectionSchema(fields, "student handbook schema")
    collection = Collection('student_handbook', schema)
    index_params = {
        'metric_type':'L2',
        'index_type':"IVF_FLAT",
        'params':{"nlist":2048}
    }
    collection.create_index(field_name='embedding', index_params=index_params)
    #Inserting
    collection = Collection('student_handbook')
    path = './data/student_handbook_embedded.json'
    path = './data/student_handbook_embedded_OpenAI.json'
    with open(path, 'r') as rstream:
        data = json.load(rstream)
        for d in data:
            d['in_effect'] = str(d['in_effect'])
            d['is_active'] = True
        collection.insert(data)

    df = read_news_csv('./data/experimental_openai/FIT_news_final.csv')
    #df = read_news_csv('./data/FIT_news_combined.csv')
    for col in df['type'].unique():
        data = df[df['type'] == col].loc[:, df.columns != 'type'].dropna(axis=1, how='all') #Get by type, remove columns with all NaN
        data = data.to_dict('records')
        for d in data:
            # d['embedding'] = ast.literal_eval(d['embedding']) #Revert string representation to float array
            d['embedding'] = ast.literal_eval(d['embedding_OpenAI'])
            d.pop('embedding_OpenAI')
            if col == "events":
                d['location'] = int(d['location'])
            elif col in ['recruitment', 'scholarship']:
                d['keywords'] = ast.literal_eval(d['keywords'])
                d['majors'] = ast.literal_eval(d['majors'])
            elif col == 'timetable':
                d['subjects_name'] = ast.literal_eval(d['subjects_name'])
                d['subjects_code'] = ast.literal_eval(d['subjects_code'])
                
        collection = Collection(col)
        collection.insert(data)

In [3]:
ingest_pipeline()

In [1]:
from pymilvus import(
    Milvus,
    IndexType,
    Status,
    connections,
    FieldSchema,
    DataType,
    Collection,
    CollectionSchema
)
import numpy as np

In [2]:
connections.connect(alias = 'default',)

In [3]:
# search_params = {
#                 "metric_type": "L2",
#                 "params": {"nprobe": 5}
#             }
# results = Collection('academic_affairs').search(data=[np.random.rand(1024).astype(np.float16).tolist()],limit=3,anns_field='embedding',output_fields=['title','article','url'], param=search_params)

handler = connections._fetch_handler('default')

handler.describe_collection('events')

{'collection_name': 'events',
 'auto_id': True,
 'num_shards': 1,
 'description': 'Những thông báo về những hoạt động, sự kiện xảy ra. Thông báo sự kiện thường có địa chỉ tổ chức, ngày giờ và cách tham gia.',
 'fields': [{'field_id': 100,
   'name': 'id',
   'description': '',
   'type': <DataType.INT64: 5>,
   'params': {},
   'auto_id': True,
   'is_primary': True},
  {'field_id': 101,
   'name': 'document_id',
   'description': '',
   'type': <DataType.VARCHAR: 21>,
   'params': {'max_length': 50}},
  {'field_id': 102,
   'name': 'title',
   'description': '',
   'type': <DataType.VARCHAR: 21>,
   'params': {'max_length': 750}},
  {'field_id': 103,
   'name': 'article',
   'description': '',
   'type': <DataType.VARCHAR: 21>,
   'params': {'max_length': 3500}},
  {'field_id': 104,
   'name': 'embedding',
   'description': '',
   'type': <DataType.FLOAT_VECTOR: 101>,
   'params': {'dim': 1024}},
  {'field_id': 105,
   'name': 'chunk_id',
   'description': '',
   'type': <DataType.INT

---
---

In [12]:
from pymilvus import(
    Milvus,
    IndexType,
    Status,
    connections,
    FieldSchema,
    DataType,
    Collection,
    CollectionSchema
)
import json
import pandas as pd
import ast

def read_news_csv(path):
    df = pd.read_csv(path)

    #remove null
    df = df[~df['chunks'].isna()]
    #chunk id to integer
    df['chunk_ids'] = df['chunk_ids'].astype(int)
    #in_effect to str type
    df['in_effect'] = df['in_effect'].astype(str)
    # Dummy updated at
    df['updated_at'] = df['created_at']
    #Rename columns
    df.rename(columns={'article': 'article_FULL', 'chunks': 'article', 'chunk_ids': 'chunk_number'}, inplace=True)
    df = df.loc[:, df.columns != 'article_FULL']
    return df

host = 'useast.services.cloud.techzone.ibm.com'
# host = 'jp-tok.services.cloud.techzone.ibm.com'
port = '23375'
password = 'password'
user = 'ibmlhadmin'
server_pem_path = './data/milvus_cert.pem'
server_name = 'watsonxdata'

connections.connect(alias = 'default',
                host = host,
                port = port,
                user = user,
                password = password,
                server_pem_path=server_pem_path,
                server_name = server_name,
                secure = True)

In [13]:
Collection('events').describe()['fields']

[{'field_id': 100,
  'name': 'id',
  'description': '',
  'type': <DataType.INT64: 5>,
  'params': {},
  'auto_id': True,
  'is_primary': True},
 {'field_id': 101,
  'name': 'title',
  'description': '',
  'type': <DataType.VARCHAR: 21>,
  'params': {'max_length': 750}},
 {'field_id': 102,
  'name': 'article',
  'description': '',
  'type': <DataType.VARCHAR: 21>,
  'params': {'max_length': 3500}},
 {'field_id': 103,
  'name': 'embedding',
  'description': '',
  'type': <DataType.FLOAT_VECTOR: 101>,
  'params': {'dim': 1024}},
 {'field_id': 104,
  'name': 'chunk_id',
  'description': '',
  'type': <DataType.INT32: 4>,
  'params': {}},
 {'field_id': 105,
  'name': 'school_year',
  'description': '',
  'type': <DataType.INT32: 4>,
  'params': {}},
 {'field_id': 106,
  'name': 'in_effect',
  'description': '',
  'type': <DataType.VARCHAR: 21>,
  'params': {'max_length': 100}},
 {'field_id': 107,
  'name': 'file_links',
  'description': '',
  'type': <DataType.VARCHAR: 21>,
  'params': {'m

In [None]:
from pymilvus import(
    Milvus,
    IndexType,
    Status,
    connections,
    FieldSchema,
    DataType,
    Collection,
    CollectionSchema
)
import json
import pandas as pd
import ast

def read_news_csv(path):
    df = pd.read_csv(path)

    #remove null
    df = df[~df['chunks'].isna()]
    #chunk id to integer
    df['chunk_ids'] = df['chunk_ids'].astype(int)
    #in_effect to str type
    df['in_effect'] = df['in_effect'].astype(str)
    # Dummy updated at
    df['updated_at'] = df['created_at']
    #Rename columns
    df.rename(columns={'article': 'article_FULL', 'chunks': 'article', 'chunk_ids': 'chunk_number'}, inplace=True)
    df = df.loc[:, df.columns != 'article_FULL']
    return df

def ingest_pipeline():
    ## Techzone's Standalone Milvus instance
    # host = '161.156.196.183'
    # port = '8080'
    # password = '4XYg2XK6sMU4UuBEjHq4EhYE8mSFO3Qq'
    # user = 'root'
    # server_pem_path =  './data/cert.pem'
    # server_name = 'localhost'
    ## Techzone's watsonx.data Milvus service
    host = 'useast.services.cloud.techzone.ibm.com'
    # host = 'jp-tok.services.cloud.techzone.ibm.com'
    port = '23375'
    password = 'password'
    user = 'ibmlhadmin'
    server_pem_path = './data/milvus_cert.pem'
    server_name = 'watsonxdata'

    connections.connect(alias = 'default',
                    host = host,
                    port = port,
                    user = user,
                    password = password,
                    server_pem_path=server_pem_path,
                    server_name = server_name,
                    secure = True)
    # News Collections ingestion
    fields = [
        FieldSchema(name="id", dtype=DataType.INT64, is_primary=True, auto_id=True), # Primary key
        FieldSchema(name="title", dtype=DataType.VARCHAR, max_length=750,),
        FieldSchema(name="article", dtype=DataType.VARCHAR, max_length=3500,),
        FieldSchema(name="embedding", dtype=DataType.FLOAT_VECTOR, dim=1024,),
        FieldSchema(name="chunk_number", dtype=DataType.INT32),
        FieldSchema(name="school_year", dtype=DataType.INT32),
        FieldSchema(name="in_effect", dtype=DataType.VARCHAR, max_length=100,),
        FieldSchema(name="file_links", dtype=DataType.VARCHAR, max_length=750),
        FieldSchema(name="created_at", dtype=DataType.VARCHAR, max_length=50,),
        FieldSchema(name="updated_at", dtype=DataType.VARCHAR, max_length=50,),
        FieldSchema(name="url", dtype=DataType.VARCHAR, max_length=300)
    ]
    schema = CollectionSchema(fields, "news schema")
    collection_names = ['recruitment', 'timetable', 'scholarship', 'academic_affairs', 'events']
    for col in collection_names:
        collection = Collection(col, schema)
        index_params = {
            'metric_type':'L2',
            'index_type':"IVF_FLAT",
            'params':{"nlist":2048}
        }
        collection.create_index(field_name='embedding', index_params=index_params)
    # Student handbook collection
    fields = [
        FieldSchema(name="id", dtype=DataType.INT64, is_primary=True, auto_id=True), # Primary key
        FieldSchema(name="title", dtype=DataType.VARCHAR, max_length=300,),
        FieldSchema(name="article", dtype=DataType.VARCHAR, max_length=5000,),
        FieldSchema(name="embedding", dtype=DataType.FLOAT_VECTOR, dim=1024,),
        FieldSchema(name="page_number", dtype=DataType.INT32),
        FieldSchema(name="school_year", dtype=DataType.INT32,),
        FieldSchema(name="in_effect", dtype=DataType.VARCHAR, max_length=100,),
        FieldSchema(name="created_at", dtype=DataType.VARCHAR, max_length=200,),
        FieldSchema(name="updated_at", dtype=DataType.VARCHAR, max_length=200,),
    ] #Missing page number
    schema = CollectionSchema(fields, "news schema")
    collection = Collection('student_handbook', schema)
    index_params = {
        'metric_type':'L2',
        'index_type':"IVF_FLAT",
        'params':{"nlist":2048}
    }
    collection.create_index(field_name='embedding', index_params=index_params)
    #Inserting
    collection = Collection('student_handbook')
    path = './data/student_handbook_embedded.json'
    with open(path, 'r') as rstream:
        data = json.load(rstream)
        for d in data:
            d['in_effect'] = str(d['in_effect'])
        collection.insert(data)

    df = read_news_csv('./data/FIT_news_embedded.csv')
    for col in df['type'].unique():
        data = df[df['type'] == col].loc[:, df.columns != 'type']
        data = data.to_dict('records')
        for d in data:
            d['embedding'] = ast.literal_eval(d['embedding']) #Revert string representation to float array
        collection = Collection(col)
        collection.insert(data)

In [4]:
ingest_pipeline()

IntCastingNaNError: Cannot convert non-finite values (NA or inf) to integer

# Connect to Milvus

In [1]:
from pymilvus import(
    Milvus,
    IndexType,
    Status,
    connections,
    FieldSchema,
    DataType,
    Collection,
    CollectionSchema
)

## Techzone's Standalone Milvus instance
# host = '161.156.196.183'
# port = '8080'
# password = '4XYg2XK6sMU4UuBEjHq4EhYE8mSFO3Qq'
# user = 'root'
# server_pem_path =  './data/cert.pem'
# server_name = 'localhost'
## Techzone's watsonx.data Milvus service
host = 'useast.services.cloud.techzone.ibm.com'
host = 'jp-tok.services.cloud.techzone.ibm.com'
port = '29140'
password = 'password'
user = 'ibmlhadmin'
server_pem_path = './data/milvus_cert.pem'
server_name = 'watsonxdata'

connections.connect(alias = 'default',
                host = host,
                port = port,
                user = user,
                password = password,
                server_pem_path=server_pem_path,
                server_name = server_name,
                secure = True)

MilvusException: <MilvusException: (code=2, message=Fail connecting to server on jp-tok.services.cloud.techzone.ibm.com:29140, illegal connection params or server unavailable)>

In [2]:
connections.list_connections()

[('default', <pymilvus.client.grpc_handler.GrpcHandler at 0x29f1efdd2e0>)]

# Creating Milvus schema definition

## News collections

In [57]:
fields = [
    FieldSchema(name="id", dtype=DataType.INT64, is_primary=True, auto_id=True), # Primary key
    FieldSchema(name="title", dtype=DataType.VARCHAR, max_length=750,),
    FieldSchema(name="article", dtype=DataType.VARCHAR, max_length=3500,),
    FieldSchema(name="embedding", dtype=DataType.FLOAT_VECTOR, dim=1024,),
    FieldSchema(name="chunk_number", dtype=DataType.INT32),
    FieldSchema(name="school_year", dtype=DataType.INT32),
    FieldSchema(name="in_effect", dtype=DataType.VARCHAR, max_length=100,),
    FieldSchema(name="file_links", dtype=DataType.VARCHAR, max_length=750),
    FieldSchema(name="created_at", dtype=DataType.VARCHAR, max_length=50,),
    FieldSchema(name="updated_at", dtype=DataType.VARCHAR, max_length=50,),
    FieldSchema(name="url", dtype=DataType.VARCHAR, max_length=300)
]

schema = CollectionSchema(fields, "news schema")

In [58]:
collection_names = ['recruitment', 'timetable', 'scholarship', 'academic_affairs', 'events']

In [56]:
for col in collection_names:
    connections._fetch_handler('default').drop_collection(col)

Add search index

In [59]:
for col in collection_names:
    collection = Collection(col, schema)
    index_params = {
        'metric_type':'L2',
        'index_type':"IVF_FLAT",
        'params':{"nlist":2048}
    }
    collection.create_index(field_name='embedding', index_params=index_params)

## For student handbook collections (default collections)

In [22]:
fields = [
    FieldSchema(name="id", dtype=DataType.INT64, is_primary=True, auto_id=True), # Primary key
    FieldSchema(name="title", dtype=DataType.VARCHAR, max_length=300,),
    FieldSchema(name="article", dtype=DataType.VARCHAR, max_length=5000,),
    FieldSchema(name="embedding", dtype=DataType.FLOAT_VECTOR, dim=1024,),
    FieldSchema(name="page_number", dtype=DataType.INT32),
    FieldSchema(name="school_year", dtype=DataType.INT32,),
    FieldSchema(name="in_effect", dtype=DataType.VARCHAR, max_length=100,),
    FieldSchema(name="created_at", dtype=DataType.VARCHAR, max_length=200,),
    FieldSchema(name="updated_at", dtype=DataType.VARCHAR, max_length=200,),
] #Missing page number

schema = CollectionSchema(fields, "news schema")

collection = Collection('student_handbook', schema)

index_params = {
    'metric_type':'L2',
    'index_type':"IVF_FLAT",
    'params':{"nlist":2048}
}
collection.create_index(field_name='embedding', index_params=index_params)

Status(code=0, message=)

## Check collection

In [27]:
connections._fetch_handler('default').list_collections()

['academic_affairs',
 'recruitment',
 'timetable',
 'scholarship',
 'events',
 'student_handbook']

UTILS: drop all collections

In [18]:
for col in connections._fetch_handler('default').list_collections():
    connections._fetch_handler('default').drop_collection(col)

# Process data
- Embedding content
- Preprocess headings
- Add columns
- Remove nulls
- Reformat

## Initialize the embedding model

Import

In [27]:
import os
from ibm_watsonx_ai.metanames import EmbedTextParamsMetaNames as EmbedParams
from ibm_watsonx_ai.foundation_models.utils.enums import EmbeddingTypes
from ibm_watsonx_ai.foundation_models import Embeddings
from dotenv import load_dotenv

Credentials & initialize

In [28]:
load_dotenv('./data/.env')
my_credentials = {
    "url": "https://us-south.ml.cloud.ibm.com",
    "apikey": os.environ['WATSONX_APIKEY'],
}

# model_id = 'sentence-transformers/all-minilm-l12-v2'
model_id = 'intfloat/multilingual-e5-large'
gen_parms = None
project_id = os.environ['WATSONX_PROJECT_ID']
space_id = None
verify = False

# Set the truncate_input_tokens to a value that is equal to or 
# less than the maximum allowed tokens for the embedding model that you are using. 
# If you don't specify this value and the input has more tokens than the model can process, 
# an error is generated.

embed_params = {
    EmbedParams.TRUNCATE_INPUT_TOKENS: 512,
}

model = Embeddings(
    model_id=model_id,
    credentials=my_credentials,
    params=embed_params,
    project_id=project_id,
    verify=verify
)

Preprocess function
- As mentioned from [the model card](https://huggingface.co/intfloat/multilingual-e5-large), it is advised to format the *to-be-embed* content as following `passage:...` and/or `query:...`

In [29]:
def preprocess_embed(text, isQuery=False):
    if isQuery:
        return "query: " + text
    else: #embed content
        return "passage: " + text

## DATA: Student handbook

### Preprocess

In [98]:
import pandas as pd
from glob import glob

paths = glob('./data/student_handbook/*')

Many unicode characters when extracted from the student handbook are incorrectly formatted *(probably on purpose)*

So we have a function to reformat these unicode characters.

In [99]:
# Function to replace /uniXXXX with the corresponding Unicode character
import re

def replace_unicode_references(text):
    # Use regex to match the '/uniXXXX' sequences
    result = re.sub(r'/uni([0-9A-Fa-f]{4})', lambda m: chr(int(m.group(1), 16)), text)
    result = result.replace('f_', 'f')
    return result

In [100]:
from pypdf import PdfReader
from tqdm.notebook import tqdm

data = []
for path in tqdm(paths, desc="Documents", position=0):
    reader = PdfReader(path)
    n_pages = len(reader.pages)

    title = path.split('\\')[-1].split('.')[0]
    for i, page in tqdm(enumerate(reader.pages), desc="Pages", position=1, leave=False):
        text = page.extract_text() #Article
        text = replace_unicode_references(text)
        embed_text = preprocess_embed(title + '\n' + text) 
        embedding = model.embed_query(embed_text) #Embedding
        
        page_number = i + 1 #Page number
        school_year = 2024 #School year
        in_effect = 2024 #In effect till

        record = {
            'title': title,
            'article': text,
            'embedding': embedding,
            'page_number': page_number,
            'school_year': school_year,
            'in_effect': in_effect,
            'created_at': '',
            'updated_at': ''
        }
        data.append(record)


Documents:   0%|          | 0/5 [00:00<?, ?it/s]

Pages: 0it [00:00, ?it/s]

Pages: 0it [00:00, ?it/s]

Pages: 0it [00:00, ?it/s]

Pages: 0it [00:00, ?it/s]

Pages: 0it [00:00, ?it/s]

In [101]:
len(data)

129

In [102]:
print(data[0])

{'title': 'Khoa công nghệ thông tin', 'article': 'KHOA \nCÔNG NGHỆ THÔNG TIN\nThông tin chung\ninfo@/fit.hcmus.edu.vn\nHỗ trợ sinh viên: tlsv@/fit.hcmus.edu.vn Giáo vụ: o Chương trình Chuẩn: giaovu@/fit.hcmus.edu.vn o Chương trình Chất lượng cao: giaovu.clc@/fit.hcmus.edu.vno Chương trình Tiên tiến: giaovu@apcs./fitus.edu.vnCố vấn học tập: cvht@/fit.hcmus.edu.vn Chương trình đề án: ctdb@hcmus.edu.vn(028) 38 354 266 (Ext: 500)(028) 62 884 499 (Ext: 4000)Văn phòng khoa: phòng I.53, 227 Nguyễn Văn Cừ, Q.5, TP .HCM\nwww./fit.hcmus.edu.vnBan Chủ nhiệm:Trưởng Khoa: TS. Đinh Bá TiếnPhó Trưởng Khoa: TS. Lâm Quang Vũ, PGS.TS. Nguyễn Văn Vũ, ThS. Văn Chí Nam \nMỤC TIÊU ĐÀO TẠO\nSỨ MỆNH\n- Cung cấp các trải nghiệm giảng dạy và học tập hàng đầu cho các chương trình đào tạo bậc đại học và sau đại học trong lĩnh vực máy tính và công nghệ thông tin.- Đào tạo sinh viên, học viên trở thành những nhà phát triển giải pháp công nghệ thông tin hoặc trở thành lãnh đạo chuyên nghiệp, thành công, tự quyết và 

In [107]:
import json

with open('student_handbook_embedded.json', 'w+') as wstream:
    json.dump(data, wstream, indent=1)

In [103]:
df = pd.DataFrame(data)

In [105]:
df.to_csv('student_handbook_embedded.csv', index=False)

### Inserting

In [26]:
import json
collection = Collection('student_handbook')

path = './data/student_handbook_embedded.json'
with open(path, 'r') as rstream:
    data = json.load(rstream)

for d in data:
    d['in_effect'] = str(d['in_effect'])
collection.insert(data)

(insert count: 129, delete count: 0, upsert count: 0, timestamp: 452789598746312706, success count: 129, err count: 0

## DATA: News data

### Preprocess

We'll chunk these documents by tokens, as counted by our embedding model `multilingual-e5-large`.

In [1]:
path = "./data/FIT_news.csv"

chunk_size = 500 #512 is the max token length, we'll spare some space to reformat the text as instructed by the embedding model.
chunk_overlap = 25

In [2]:
import pandas as pd

df = pd.read_csv(path)

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 640 entries, 0 to 639
Data columns (total 8 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   title        640 non-null    object
 1   article      640 non-null    object
 2   file_links   640 non-null    object
 3   url          640 non-null    object
 4   type         640 non-null    object
 5   created_at   640 non-null    object
 6   school_year  640 non-null    int64 
 7   in_effect    640 non-null    int64 
dtypes: int64(2), object(6)
memory usage: 40.1+ KB


In [4]:
from transformers import AutoTokenizer

tokenizer = AutoTokenizer.from_pretrained('intfloat/multilingual-e5-large')

In [5]:
# Assisted by WCA@IBM
# Latest GenAI contribution: ibm/granite-20b-code-instruct-v2
from langchain.text_splitter import RecursiveCharacterTextSplitter

# Initialize the text splitter
text_splitter = RecursiveCharacterTextSplitter.from_huggingface_tokenizer(tokenizer=tokenizer ,chunk_size=chunk_size, chunk_overlap=chunk_overlap)

# Read the text file
df['chunks'] = df.apply(lambda row: text_splitter.split_text(row['article']), axis=1)
df['chunk_ids'] = df.apply(lambda row: [i+1 for i in range(len(row['chunks']))], axis=1)

Token indices sequence length is longer than the specified maximum sequence length for this model (722 > 512). Running this sequence through the model will result in indexing errors


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 640 entries, 0 to 639
Data columns (total 10 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   title        640 non-null    object
 1   article      640 non-null    object
 2   file_links   640 non-null    object
 3   url          640 non-null    object
 4   type         640 non-null    object
 5   created_at   640 non-null    object
 6   school_year  640 non-null    int64 
 7   in_effect    640 non-null    int64 
 8   chunks       640 non-null    object
 9   chunk_ids    640 non-null    object
dtypes: int64(2), object(8)
memory usage: 50.1+ KB


Chunk numbers

In [7]:
df['chunks'].apply(len).value_counts()

chunks
1    443
2    130
3     30
5     10
4      9
6      7
7      7
8      3
0      1
Name: count, dtype: int64

In [8]:
df.iloc[109]['url']

'https://www.fit.hcmus.edu.vn/tin-tuc/d/uniquify-viet-nam-ai-basics-to-chatgpt-training-program'

Recheck chunk lengths

In [9]:
def check_clen(row):
    for c in row['chunks']:
        if len(c) > 2000:
            return len(c)
    return False

In [13]:
df = df.explode(['chunks','chunk_ids'])

In [14]:
df.to_csv('FIT_news_chunked.csv', index=False)

Embedding

In [31]:
df['embedding'] = model.embed_documents(('passage: ' + df['chunks']).tolist())

Save to csv

In [33]:
df.to_csv('FIT_news_embedded.csv', index=False)

### Inserting

In [60]:
import pandas as pd

def read_news_csv(path):
    df = pd.read_csv(path)

    #remove null
    df = df[~df['chunks'].isna()]
    #chunk id to integer
    df['chunk_ids'] = df['chunk_ids'].astype(int)
    #in_effect to str type
    df['in_effect'] = df['in_effect'].astype(str)
    # Dummy updated at
    df['updated_at'] = df['created_at']
    #Rename columns
    df.rename(columns={'article': 'article_FULL', 'chunks': 'article', 'chunk_ids': 'chunk_number'}, inplace=True)
    df = df.loc[:, df.columns != 'article_FULL']
    return df

In [61]:
df = read_news_csv('./data/FIT_news_embedded.csv')

In [63]:
import ast

for col in df['type'].unique():
    data = df[df['type'] == col].loc[:, df.columns != 'type']
    data = data.to_dict('records')
    for d in data:
        d['embedding'] = ast.literal_eval(d['embedding']) #Revert string representation to float array
    collection = Collection(col)
    print(collection.insert(data))

(insert count: 266, delete count: 0, upsert count: 0, timestamp: 452810259376635906, success count: 266, err count: 0
(insert count: 313, delete count: 0, upsert count: 0, timestamp: 452810260164902914, success count: 313, err count: 0
(insert count: 86, delete count: 0, upsert count: 0, timestamp: 452810260661141507, success count: 86, err count: 0
(insert count: 107, delete count: 0, upsert count: 0, timestamp: 452810261185429506, success count: 107, err count: 0
(insert count: 222, delete count: 0, upsert count: 0, timestamp: 452810261906325508, success count: 222, err count: 0


In [13]:
# import json 
# data = []
# for path in paths:
#     with open(path, 'r', encoding='utf-8') as rstream:
#         data = json.load(rstream)

#     for d in data:
#         d.pop('_id', None)
#         d['school_year'] = int(d['school_year'])
#     collection = Collection(path.split('\\')[-1].split('.')[0])
#     collection.insert(data)


***

In [80]:
# for c in connections._fetch_handler('default').list_collections():
#     Collection(c).drop()

***

## Try searching

In [6]:
import os
from ibm_watsonx_ai.metanames import EmbedTextParamsMetaNames as EmbedParams
from ibm_watsonx_ai.foundation_models.utils.enums import EmbeddingTypes
from ibm_watsonx_ai.foundation_models import Embeddings
from dotenv import load_dotenv

In [7]:
load_dotenv('../app/service/.env')
my_credentials = {
    "url": "https://us-south.ml.cloud.ibm.com",
    "apikey": os.environ['WATSONX_APIKEY'],
}

# model_id = 'sentence-transformers/all-minilm-l12-v2'
model_id = 'intfloat/multilingual-e5-large'
gen_parms = None
project_id = os.environ['WATSONX_PROJECT_ID']
space_id = None
verify = False

# Set the truncate_input_tokens to a value that is equal to or 
# less than the maximum allowed tokens for the embedding model that you are using. 
# If you don't specify this value and the input has more tokens than the model can process, 
# an error is generated.

embed_params = {
    EmbedParams.TRUNCATE_INPUT_TOKENS: 512,
}

model = Embeddings(
    model_id=model_id,
    credentials=my_credentials,
    params=embed_params,
    project_id=project_id,
    verify=verify
)

In [2]:
connections.connect(alias = 'default')

In [8]:
query="Khoa công nghệ thông tin là gì"

In [9]:
query_embeddings = model.embed_query(query)

col_name = "student_handbook"
collection = Collection(col_name)
collection.load()
search_params = {
    "metric_type": "L2",
    "params": {"nprobe": 5}
}
top_k = 3
output_fields = ['title', 'article'] #Section field to be added
results = collection.search(
    data=[query_embeddings],
    anns_field="embedding",
    param=search_params,
    limit=top_k,
    expr=None,
)

In [10]:
results[0][0].to_dict()

{'id': 454036367619135750, 'distance': 0.26209738850593567, 'entity': {}}

---
# Connect data to MongoDB

In [None]:
from pymongo import MongoClient

# Connect to MongoDB
client = MongoClient('mongodb+srv://machkiet252003:i1SsJiOcJ3aydIqB@userstorages.6akwp.mongodb.net')  # Replace with your MongoDB connection string

# Select the database
db = client['luan_van_2024']  # Replace with your database name

# Select the collection
collection = db['documents']

# Get all records
documents = list(collection.find())

In [24]:
import pandas as pd
import json

news_df = pd.read_csv('./data/FIT_news_v2.csv')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 994 entries, 0 to 993
Data columns (total 17 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   title          994 non-null    object 
 1   article        994 non-null    object 
 2   file_links     994 non-null    object 
 3   url            994 non-null    object 
 4   type           994 non-null    object 
 5   created_at     994 non-null    object 
 6   school_year    994 non-null    int64  
 7   in_effect      994 non-null    int64  
 8   chunks         994 non-null    object 
 9   chunk_id       994 non-null    int64  
 10  embedding      994 non-null    object 
 11  is_active      994 non-null    bool   
 12  location       266 non-null    float64
 13  keywords       308 non-null    object 
 14  majors         308 non-null    object 
 15  subjects_name  107 non-null    object 
 16  subjects_code  107 non-null    object 
dtypes: bool(1), float64(1), int64(3), object(12)
memory us

In [17]:
student_handbook_obj = json.load(open('./data/student_handbook_embedded.json', encoding='utf-8'))
student_handbook_obj[0]

{'title': 'Khoa công nghệ thông tin',
 'article': 'KHOA \nCÔNG NGHỆ THÔNG TIN\nThông tin chung\ninfo@/fit.hcmus.edu.vn\nHỗ trợ sinh viên: tlsv@/fit.hcmus.edu.vn Giáo vụ: o Chương trình Chuẩn: giaovu@/fit.hcmus.edu.vn o Chương trình Chất lượng cao: giaovu.clc@/fit.hcmus.edu.vno Chương trình Tiên tiến: giaovu@apcs./fitus.edu.vnCố vấn học tập: cvht@/fit.hcmus.edu.vn Chương trình đề án: ctdb@hcmus.edu.vn(028) 38 354 266 (Ext: 500)(028) 62 884 499 (Ext: 4000)Văn phòng khoa: phòng I.53, 227 Nguyễn Văn Cừ, Q.5, TP .HCM\nwww./fit.hcmus.edu.vnBan Chủ nhiệm:Trưởng Khoa: TS. Đinh Bá TiếnPhó Trưởng Khoa: TS. Lâm Quang Vũ, PGS.TS. Nguyễn Văn Vũ, ThS. Văn Chí Nam \nMỤC TIÊU ĐÀO TẠO\nSỨ MỆNH\n- Cung cấp các trải nghiệm giảng dạy và học tập hàng đầu cho các chương trình đào tạo bậc đại học và sau đại học trong lĩnh vực máy tính và công nghệ thông tin.- Đào tạo sinh viên, học viên trở thành những nhà phát triển giải pháp công nghệ thông tin hoặc trở thành lãnh đạo chuyên nghiệp, thành công, tự quyết và

In [21]:
mongo_df = pd.DataFrame(documents)
mongo_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 640 entries, 0 to 639
Data columns (total 12 columns):
 #   Column                Non-Null Count  Dtype         
---  ------                --------------  -----         
 0   _id                   640 non-null    object        
 1   document_name         640 non-null    object        
 2   url                   640 non-null    object        
 3   isactive              640 non-null    bool          
 4   amount_chunking       640 non-null    int64         
 5   document_description  640 non-null    object        
 6   methods               640 non-null    object        
 7   state                 640 non-null    object        
 8   owner                 640 non-null    object        
 9   created_at            640 non-null    datetime64[ns]
 10  updated_at            640 non-null    datetime64[ns]
 11  collection_id         640 non-null    object        
dtypes: bool(1), datetime64[ns](2), int64(1), object(8)
memory usage: 55.8+ KB


In [36]:
# Assuming df1 and df2 are your dataframes
# df1 has a column named 'column_name1' and df2 has a column named 'column_name2'

merged_df = pd.merge(mongo_df[['_id', 'document_name']], news_df, left_on='document_name', right_on='title', how='right')
merged_df.drop(columns=['document_name'], inplace=True)
merged_df.rename(columns={'_id': 'document_id'}, inplace=True)

In [37]:
merged_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 994 entries, 0 to 993
Data columns (total 18 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   document_id    994 non-null    object 
 1   title          994 non-null    object 
 2   article        994 non-null    object 
 3   file_links     994 non-null    object 
 4   url            994 non-null    object 
 5   type           994 non-null    object 
 6   created_at     994 non-null    object 
 7   school_year    994 non-null    int64  
 8   in_effect      994 non-null    int64  
 9   chunks         994 non-null    object 
 10  chunk_id       994 non-null    int64  
 11  embedding      994 non-null    object 
 12  is_active      994 non-null    bool   
 13  location       266 non-null    float64
 14  keywords       308 non-null    object 
 15  majors         308 non-null    object 
 16  subjects_name  107 non-null    object 
 17  subjects_code  107 non-null    object 
dtypes: bool(1)

In [40]:
for row in student_handbook_obj:
    row['document_id'] = str(mongo_df[mongo_df['document_name'] == row['title']]['_id'].values[0])

In [41]:
student_handbook_obj

[{'title': 'Khoa công nghệ thông tin',
  'article': 'KHOA \nCÔNG NGHỆ THÔNG TIN\nThông tin chung\ninfo@/fit.hcmus.edu.vn\nHỗ trợ sinh viên: tlsv@/fit.hcmus.edu.vn Giáo vụ: o Chương trình Chuẩn: giaovu@/fit.hcmus.edu.vn o Chương trình Chất lượng cao: giaovu.clc@/fit.hcmus.edu.vno Chương trình Tiên tiến: giaovu@apcs./fitus.edu.vnCố vấn học tập: cvht@/fit.hcmus.edu.vn Chương trình đề án: ctdb@hcmus.edu.vn(028) 38 354 266 (Ext: 500)(028) 62 884 499 (Ext: 4000)Văn phòng khoa: phòng I.53, 227 Nguyễn Văn Cừ, Q.5, TP .HCM\nwww./fit.hcmus.edu.vnBan Chủ nhiệm:Trưởng Khoa: TS. Đinh Bá TiếnPhó Trưởng Khoa: TS. Lâm Quang Vũ, PGS.TS. Nguyễn Văn Vũ, ThS. Văn Chí Nam \nMỤC TIÊU ĐÀO TẠO\nSỨ MỆNH\n- Cung cấp các trải nghiệm giảng dạy và học tập hàng đầu cho các chương trình đào tạo bậc đại học và sau đại học trong lĩnh vực máy tính và công nghệ thông tin.- Đào tạo sinh viên, học viên trở thành những nhà phát triển giải pháp công nghệ thông tin hoặc trở thành lãnh đạo chuyên nghiệp, thành công, tự quyết 

In [45]:
merged_df.to_csv('./data/FIT_news_v2.csv', index=False)

In [43]:
with open('./data/student_handbook_embedded.json', 'w', encoding='utf-8') as wstream:
    json.dump(student_handbook_obj, wstream, indent=1)

In [None]:
import pandas as pd
import json
from pymongo import MongoClient

def mongoSyncup(mongo_uri, db_name, col_name):
    client = MongoClient(mongo_uri)
    db = client[db_name]
    col = db[col_name]
    mongo_df = pd.DataFrame(list(col.find()))

    # News df
    news_df = pd.read_csv('./data/FIT_news_v2.csv')
    merged_df = pd.merge(mongo_df[['_id', 'document_name']], news_df, left_on='document_name', right_on='title', how='right')
    merged_df.drop(columns=['document_name', 'document_id'], inplace=True)
    merged_df.rename(columns={'_id': 'document_id'}, inplace=True)
    merged_df.to_csv('./data/FIT_news_v2.csv', index=False)

    # Student handbook df
    student_handbook_obj = json.load(open('./data/student_handbook_embedded.json', encoding='utf-8'))
    for row in student_handbook_obj:
        row['document_id'] = str(mongo_df[mongo_df['document_name'] == row['title']]['_id'].values[0])
    with open('./data/student_handbook_embedded.json', 'w', encoding='utf-8') as wstream:
        json.dump(student_handbook_obj, wstream, indent=1)