In [6]:
from sentence_transformers import SentenceTransformer, util
import os
from elasticsearch import Elasticsearch, helpers
import csv
import time
import tqdm.autonotebook

In [4]:
es = Elasticsearch("http://localhost:9200")
es.info().body

{'name': '658f1e29656f',
 'cluster_name': 'docker-cluster',
 'cluster_uuid': 'm9CswWHlSaatHXliisCf7w',
 'version': {'number': '8.7.0',
  'build_flavor': 'default',
  'build_type': 'docker',
  'build_hash': '09520b59b6bc1057340b55750186466ea715e30e',
  'build_date': '2023-03-27T16:31:09.816451435Z',
  'build_snapshot': False,
  'lucene_version': '9.5.0',
  'minimum_wire_compatibility_version': '7.17.0',
  'minimum_index_compatibility_version': '7.0.0'},
 'tagline': 'You Know, for Search'}

In [9]:
from datasets import load_dataset
# load first 20k rows
ds = load_dataset("nlplabtdtu/edu-crawl-with-date", split="train[:500]", token='...')
ds

Dataset({
    features: ['title', 'url', 'body', 'date', 'flt_dates'],
    num_rows: 500
})

In [10]:
model = SentenceTransformer('nlplabtdtu/bert-70M-cased-senformer')

## Indexing data

In [None]:
if not es.indices.exists(index="edu_data_index"):
    try:
      es_index = {
        "mappings": {
          "properties": {
            "title": {
              "type": "text"
            },
            "body": {
              "type": "text"
            },
            "date": {
              "type": "text"
            },
            "flt_dates": {
              "type": "text"
            },
            "body_vector": {
              "type": "dense_vector",
              "dims": 768
            }
          }
        }
      }

      es.indices.create(index='edu_data_index', body=es_index, ignore=[400])
      bulk_data = []
      for i in range(len(ds)):
        embedding = model.encode(ds[i]['body'], show_progress_bar=False)
        bulk_data.append({
                "_index": 'edu_data_index',
                "_source": {
                    "title": ds[i]['title'],
                    "body": ds[i]['body'],
                    "date": ds[i]['date'],
                    "flt_dates": ds[i]['flt_dates'],
                    "body_vector": embedding
                }
            })
      print(bulk_data[0])

      helpers.bulk(es, bulk_data)

    except:
        print("During index an exception occured. Continue\n\n")

In [19]:
# delete index edu_data_index
# es.indices.delete(index='edu_data_index', ignore=[400, 404])

  es.indices.delete(index='edu_data_index', ignore=[400, 404])


ObjectApiResponse({'acknowledged': True})

## Interactive search queries

In [27]:
inp_question = """Ban Giám đốc đổi tên Ban Khảo thí và Kiểm định chất lượng đào tạo thành Ban Khảo thí và Quản lý chất lượng vào thời gian nào?"""

In [29]:
encode_start_time = time.time()
question_embedding = model.encode(inp_question)
encode_end_time = time.time()

print("Encoding time:", encode_end_time - encode_start_time)

Encoding time: 0.027344703674316406


In [52]:
#Lexical search
bm25 = es.search(
    index="edu_data_index", 
    body={"query": 
          {"match": {"body": inp_question }}
    }
)

print("Searching time:", bm25['took']/1000)
print("BM25 results:")
for hit in bm25['hits']['hits'][0:3]:
    print("\t{}".format(hit['_source']['body'][:500]))

Searching time: 0.006
BM25 results:
	
Thứ ba, 22/11/2022 - 9:2
BAN KHẢO THÍ VÀ QUẢN LÝ CHẤT LƯỢNG
Sau 4 năm hoạt động, để phù hợp với tình hình thực hiện chức năng, nhiệm vụ, Giám đốc Học viện đã đổi tên Ban Khảo thí và Kiểm định chất lượng đào tạo thành Ban Khảo thí và Quản lý chất lượng vào tháng 10 năm 2010.
I. Liên hệ
- Tên đơn vị: Ban Khảo thí và Quản lý chất lượng
- Địa chỉ: Số 58 Lê Văn Hiến, Phường Đức Thắng, Quận Bắc Từ Liêm, Hà Nội
- Số điện thoại liên hệ: 
- Email: khaothi_qlcl@hvtc.edu.vn
II. Quá trình thành lập và phát
	
Thứ ba, 22/11/2022 - 9:2
BAN KHẢO THÍ VÀ QUẢN LÝ CHẤT LƯỢNG
Sau 4 năm hoạt động, để phù hợp với tình hình thực hiện chức năng, nhiệm vụ, Giám đốc Học viện đã đổi tên Ban Khảo thí và Kiểm định chất lượng đào tạo thành Ban Khảo thí và Quản lý chất lượng vào tháng 10 năm 2010.
I. Liên hệ
- Tên đơn vị: Ban Khảo thí và Quản lý chất lượng
- Địa chỉ: Số 58 Lê Văn Hiến, Phường Đức Thắng, Quận Bắc Từ Liêm, Hà Nội
- Số điện thoại liên hệ: 
- Email: khaothi_qlcl@hvtc

  bm25 = es.search(


In [53]:
#Sematic search
sem_search = es.search(index="edu_data_index", body=
                       {
                            "query": {
                                "script_score": {
                                    "query" : {
                                        "match_all": {},
                                    },
                                    "script": {
                                        "source": "cosineSimilarity(params.query_vector, 'body_vector') + 1.0", 
                                        "params": {
                                            "query_vector": question_embedding
                                        }
                                    }
                                }
                            }
                        }
)

print("Searching time:", sem_search['took']/1000)

print("\nSemantic Search results:")
for hit in sem_search['hits']['hits'][0:3]:
    print("\t{}".format(hit['_source']['body'][:500]))

print("\n\n========\n")

Searching time: 0.004

Semantic Search results:
	
Thứ ba, 22/11/2022 - 9:2
BAN KHẢO THÍ VÀ QUẢN LÝ CHẤT LƯỢNG
Sau 4 năm hoạt động, để phù hợp với tình hình thực hiện chức năng, nhiệm vụ, Giám đốc Học viện đã đổi tên Ban Khảo thí và Kiểm định chất lượng đào tạo thành Ban Khảo thí và Quản lý chất lượng vào tháng 10 năm 2010.
I. Liên hệ
- Tên đơn vị: Ban Khảo thí và Quản lý chất lượng
- Địa chỉ: Số 58 Lê Văn Hiến, Phường Đức Thắng, Quận Bắc Từ Liêm, Hà Nội
- Số điện thoại liên hệ: 
- Email: khaothi_qlcl@hvtc.edu.vn
II. Quá trình thành lập và phát
	
Thứ ba, 22/11/2022 - 9:2
BAN KHẢO THÍ VÀ QUẢN LÝ CHẤT LƯỢNG
Sau 4 năm hoạt động, để phù hợp với tình hình thực hiện chức năng, nhiệm vụ, Giám đốc Học viện đã đổi tên Ban Khảo thí và Kiểm định chất lượng đào tạo thành Ban Khảo thí và Quản lý chất lượng vào tháng 10 năm 2010.
I. Liên hệ
- Tên đơn vị: Ban Khảo thí và Quản lý chất lượng
- Địa chỉ: Số 58 Lê Văn Hiến, Phường Đức Thắng, Quận Bắc Từ Liêm, Hà Nội
- Số điện thoại liên hệ: 
- Email: khaot

  sem_search = es.search(index="edu_data_index", body=
