In [None]:
import numpy as np
from myTFIDFModel import MyTFIDFModel
from myChromaDB import MyChromaDB
from myProcesser import Processer

def hybridSearch(quary: str, db: MyChromaDB, tfidf: MyTFIDFModel, chroma_weight: float = 0.4, tfidf_weight: float = 0.6, top_n: int = 10):
    dbResults = db.search(quary, top_k=top_n)
    tfidfResults = tfidf.search(quary, top_k=top_n)

    dbScores = {
        i['fileName']: i['score']
        for i in dbResults
    }

    tfidfScores = {
        i['file_name']: i['cosine_similarity']
        for i in tfidfResults
    }

    combinedScores = {}
    for file in set(dbScores.keys()).union(tfidfScores.keys()):
        dbScore = dbScores.get(file, 0)
        tfidfScore = tfidfScores.get(file, 0)
        combinedScores[file] = dbScore * chroma_weight + tfidfScore * tfidf_weight

    sorted_result = sorted(combinedScores.items(), key=lambda x: x[1], reverse=True)[:top_n]

    print('dbScores:')
    for i in dbScores.keys():
        print(f'{i}: {dbScores[i]}')
    print()
    print('tfidfScores:')
    for i in tfidfScores.keys():
        print(f'{i}: {tfidfScores[i]}')
    print()

    print('combinedScores:')
    for i in sorted_result:
        print(f'{i[0]}, {i[1]}')
    # return sorted_result


  from .autonotebook import tqdm as notebook_tqdm


In [2]:
db = MyChromaDB()
tfidf = MyTFIDFModel()
p = Processer('sentence-transformers/paraphrase-multilingual-MiniLM-L12-v2')

In [3]:
folder = '..\\product infomation'

import os
files = [f for f in os.listdir(folder) if f.endswith('.pdf')]

for pdf_file in files:
    text = p.extractTextFromPdf(os.path.join(folder, pdf_file))
    tokenizedText = p.ckip_tokenize(text)
    db.addPDF(os.path.join(folder, pdf_file), tokenizedText)
    tfidf.addPDF(os.path.join(folder, pdf_file), tokenizedText)

Tokenization: 100%|██████████| 1/1 [00:00<00:00, 965.98it/s]
Inference: 100%|██████████| 1/1 [00:00<00:00,  1.98it/s]
Tokenization: 100%|██████████| 1/1 [00:00<00:00, 954.55it/s]
Inference: 100%|██████████| 1/1 [00:07<00:00,  7.18s/it]
Add of existing embedding ID: DE-291-1 DE-293 工作桌.pdf_0
Add of existing embedding ID: DE-291-1 DE-293 工作桌.pdf_1
Add of existing embedding ID: SADES DIABLO 暗黑鬥狼RGB REALTEK 電競耳麥 7.1 (USB) SA-916.pdf_0
Add of existing embedding ID: SADES DIABLO 暗黑鬥狼RGB REALTEK 電競耳麥 7.1 (USB) SA-916.pdf_1
Add of existing embedding ID: DE-291-1 DE-293 工作桌.pdf_0
Add of existing embedding ID: DE-291-1 DE-293 工作桌.pdf_1
Add of existing embedding ID: SADES DIABLO 暗黑鬥狼RGB REALTEK 電競耳麥 7.1 (USB) SA-916.pdf_0
Add of existing embedding ID: SADES DIABLO 暗黑鬥狼RGB REALTEK 電競耳麥 7.1 (USB) SA-916.pdf_1
Add of existing embedding ID: DE-291-1 DE-293 工作桌.pdf_0
Add of existing embedding ID: DE-291-1 DE-293 工作桌.pdf_1
Add of existing embedding ID: SADES DIABLO 暗黑鬥狼RGB REALTEK 電競耳麥 7.1 (USB) SA-916

Processing ..\product infomation\DE-291-1 DE-293 工作桌.pdf...


Add of existing embedding ID: DE-291-1 DE-293 工作桌.pdf_1


Processing ..\product infomation\DE-291-1 DE-293 工作桌.pdf...
Added DE-291-1 DE-293 工作桌.pdf


Tokenization: 100%|██████████| 1/1 [00:00<00:00, 491.83it/s]
Inference: 100%|██████████| 1/1 [00:03<00:00,  3.34s/it]
Tokenization: 100%|██████████| 1/1 [00:00<00:00, 1005.11it/s]
Inference: 100%|██████████| 1/1 [00:09<00:00,  9.36s/it]
Insert of existing embedding ID: SADES DIABLO 暗黑鬥狼RGB REALTEK 電競耳麥 7.1 (USB) SA-916.pdf_0
Add of existing embedding ID: SADES DIABLO 暗黑鬥狼RGB REALTEK 電競耳麥 7.1 (USB) SA-916.pdf_0
Insert of existing embedding ID: SADES DIABLO 暗黑鬥狼RGB REALTEK 電競耳麥 7.1 (USB) SA-916.pdf_1
Add of existing embedding ID: SADES DIABLO 暗黑鬥狼RGB REALTEK 電競耳麥 7.1 (USB) SA-916.pdf_1


Processing ..\product infomation\SADES DIABLO 暗黑鬥狼RGB REALTEK 電競耳麥 7.1 (USB) SA-916.pdf...
Processing ..\product infomation\SADES DIABLO 暗黑鬥狼RGB REALTEK 電競耳麥 7.1 (USB) SA-916.pdf...
Added SADES DIABLO 暗黑鬥狼RGB REALTEK 電競耳麥 7.1 (USB) SA-916.pdf


Tokenization: 100%|██████████| 1/1 [00:00<00:00, 962.00it/s]
Inference: 100%|██████████| 1/1 [00:00<00:00,  3.91it/s]
Tokenization: 100%|██████████| 1/1 [00:00<00:00, 660.83it/s]
Inference: 100%|██████████| 1/1 [00:02<00:00,  2.41s/it]
Insert of existing embedding ID: W202 人體工學椅.pdf_0
Add of existing embedding ID: W202 人體工學椅.pdf_0
Insert of existing embedding ID: W202 人體工學椅.pdf_1
Add of existing embedding ID: W202 人體工學椅.pdf_1


Processing ..\product infomation\W202 人體工學椅.pdf...
Processing ..\product infomation\W202 人體工學椅.pdf...
Added W202 人體工學椅.pdf


Tokenization: 100%|██████████| 1/1 [00:00<?, ?it/s]
Inference: 100%|██████████| 1/1 [00:00<00:00,  8.26it/s]
Tokenization: 100%|██████████| 1/1 [00:00<00:00, 999.36it/s]
Inference: 100%|██████████| 1/1 [00:02<00:00,  2.98s/it]
Insert of existing embedding ID: [折疊收納]懶人折疊桌.pdf_0
Add of existing embedding ID: [折疊收納]懶人折疊桌.pdf_0


Processing ..\product infomation\[折疊收納]懶人折疊桌.pdf...
Processing ..\product infomation\[折疊收納]懶人折疊桌.pdf...
Added [折疊收納]懶人折疊桌.pdf


Tokenization: 100%|██████████| 1/1 [00:00<00:00, 180.32it/s]
Inference: 100%|██████████| 1/1 [00:21<00:00, 21.51s/it]
Tokenization: 100%|██████████| 1/1 [00:00<00:00, 141.31it/s]
Inference: 100%|██████████| 1/1 [01:52<00:00, 112.14s/it]
Insert of existing embedding ID: 世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf_0
Add of existing embedding ID: 世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf_0
Insert of existing embedding ID: 世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf_1
Add of existing embedding ID: 世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf_1
Insert of existing embedding ID: 世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf_2
Add of existing embedding ID: 世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf_2
Insert of existing embedding ID: 世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf_3
Add of existing embedding ID: 世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf_3
Insert of existing embedding ID: 世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf_4
Add of existing embedding ID: 世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf_4
Insert of existing embedding ID: 世界上最透明的故事（日本出版界話題作，只有紙本書可

Processing ..\product infomation\世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf...


Insert of existing embedding ID: 世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf_6
Add of existing embedding ID: 世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf_6
Insert of existing embedding ID: 世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf_7
Add of existing embedding ID: 世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf_7
Insert of existing embedding ID: 世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf_8
Add of existing embedding ID: 世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf_8
Insert of existing embedding ID: 世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf_9
Add of existing embedding ID: 世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf_9
Insert of existing embedding ID: 世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf_10
Add of existing embedding ID: 世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf_10
Insert of existing embedding ID: 世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf_11
Add of existing embedding ID: 世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf_11


Processing ..\product infomation\世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf...
Added 世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf


Tokenization: 100%|██████████| 1/1 [00:00<00:00, 663.76it/s]
Inference: 100%|██████████| 1/1 [00:03<00:00,  3.30s/it]
Tokenization: 100%|██████████| 1/1 [00:00<00:00, 499.44it/s]
Inference: 100%|██████████| 1/1 [00:12<00:00, 12.43s/it]
Insert of existing embedding ID: 羅技 Logitech H340 USB耳機麥克風.pdf_0
Add of existing embedding ID: 羅技 Logitech H340 USB耳機麥克風.pdf_0
Insert of existing embedding ID: 羅技 Logitech H340 USB耳機麥克風.pdf_1
Add of existing embedding ID: 羅技 Logitech H340 USB耳機麥克風.pdf_1


Processing ..\product infomation\羅技 Logitech H340 USB耳機麥克風.pdf...
Processing ..\product infomation\羅技 Logitech H340 USB耳機麥克風.pdf...
Added 羅技 Logitech H340 USB耳機麥克風.pdf


In [4]:
qaury = '推理小說'

hybridSearch(qaury, db, tfidf)

Tokenization: 100%|██████████| 1/1 [00:00<?, ?it/s]
Inference: 100%|██████████| 1/1 [00:00<00:00, 45.29it/s]
Tokenization: 100%|██████████| 1/1 [00:00<?, ?it/s]
Inference: 100%|██████████| 1/1 [00:00<00:00, 37.72it/s]
Tokenization: 100%|██████████| 1/1 [00:00<?, ?it/s]
Inference: 100%|██████████| 1/1 [00:00<00:00, 79.64it/s]
Tokenization: 100%|██████████| 1/1 [00:00<?, ?it/s]
Inference: 100%|██████████| 1/1 [00:00<00:00, 68.75it/s]

dbScores:
世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf: -6.807390213012695
DE-291-1 DE-293 工作桌.pdf: -13.920890808105469
SADES DIABLO 暗黑鬥狼RGB REALTEK 電競耳麥 7.1 (USB) SA-916.pdf: -14.737447738647461
[折疊收納]懶人折疊桌.pdf: -15.786331176757812
W202 人體工學椅.pdf: -16.527477264404297
羅技 Logitech H340 USB耳機麥克風.pdf: -16.5573787689209

tfidfScores:
世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf: 0.44134082769879823
羅技 Logitech H340 USB耳機麥克風.pdf: 0.0
[折疊收納]懶人折疊桌.pdf: 0.0
W202 人體工學椅.pdf: 0.0
SADES DIABLO 暗黑鬥狼RGB REALTEK 電競耳麥 7.1 (USB) SA-916.pdf: 0.0
DE-291-1 DE-293 工作桌.pdf: 0.0

combinedScores:
世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf, -2.4581515885857996
DE-291-1 DE-293 工作桌.pdf, -5.568356323242188
SADES DIABLO 暗黑鬥狼RGB REALTEK 電競耳麥 7.1 (USB) SA-916.pdf, -5.894979095458985
[折疊收納]懶人折疊桌.pdf, -6.314532470703125
W202 人體工學椅.pdf, -6.610990905761719
羅技 Logitech H340 USB耳機麥克風.pdf, -6.622951507568359





In [5]:
qaury = '辦公桌'

hybridSearch(qaury, db, tfidf)

Tokenization: 100%|██████████| 1/1 [00:00<?, ?it/s]
Inference: 100%|██████████| 1/1 [00:00<00:00, 64.22it/s]
Tokenization: 100%|██████████| 1/1 [00:00<?, ?it/s]
Inference: 100%|██████████| 1/1 [00:00<00:00, 71.08it/s]
Tokenization: 100%|██████████| 1/1 [00:00<00:00, 1004.38it/s]
Inference: 100%|██████████| 1/1 [00:00<00:00, 73.46it/s]
Tokenization: 100%|██████████| 1/1 [00:00<?, ?it/s]
Inference: 100%|██████████| 1/1 [00:00<00:00, 80.74it/s]

dbScores:
DE-291-1 DE-293 工作桌.pdf: -12.769920349121094
W202 人體工學椅.pdf: -21.260570526123047
羅技 Logitech H340 USB耳機麥克風.pdf: -21.392242431640625
[折疊收納]懶人折疊桌.pdf: -22.2435302734375
SADES DIABLO 暗黑鬥狼RGB REALTEK 電競耳麥 7.1 (USB) SA-916.pdf: -23.692646026611328
世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf: -24.02208709716797

tfidfScores:
DE-291-1 DE-293 工作桌.pdf: 0.09784881819805427
羅技 Logitech H340 USB耳機麥克風.pdf: 0.0
世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf: 0.0
[折疊收納]懶人折疊桌.pdf: 0.0
W202 人體工學椅.pdf: 0.0
SADES DIABLO 暗黑鬥狼RGB REALTEK 電競耳麥 7.1 (USB) SA-916.pdf: 0.0

combinedScores:
DE-291-1 DE-293 工作桌.pdf, -5.049258848729606
W202 人體工學椅.pdf, -8.504228210449218
羅技 Logitech H340 USB耳機麥克風.pdf, -8.55689697265625
[折疊收納]懶人折疊桌.pdf, -8.897412109375
SADES DIABLO 暗黑鬥狼RGB REALTEK 電競耳麥 7.1 (USB) SA-916.pdf, -9.477058410644531
世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf, -9.608834838867189





In [6]:
qaury = '麥克風'

hybridSearch(qaury, db, tfidf)

Tokenization: 100%|██████████| 1/1 [00:00<?, ?it/s]
Inference: 100%|██████████| 1/1 [00:00<00:00, 76.36it/s]
Tokenization: 100%|██████████| 1/1 [00:00<?, ?it/s]
Inference: 100%|██████████| 1/1 [00:00<00:00, 87.54it/s]
Tokenization: 100%|██████████| 1/1 [00:00<?, ?it/s]
Inference: 100%|██████████| 1/1 [00:00<00:00, 70.96it/s]
Tokenization: 100%|██████████| 1/1 [00:00<?, ?it/s]
Inference: 100%|██████████| 1/1 [00:00<00:00, 86.62it/s]

dbScores:
SADES DIABLO 暗黑鬥狼RGB REALTEK 電競耳麥 7.1 (USB) SA-916.pdf: -10.976672172546387
羅技 Logitech H340 USB耳機麥克風.pdf: -11.591678619384766
DE-291-1 DE-293 工作桌.pdf: -12.203402519226074
世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf: -12.222576141357422
[折疊收納]懶人折疊桌.pdf: -14.04564094543457
W202 人體工學椅.pdf: -15.464284896850586

tfidfScores:
羅技 Logitech H340 USB耳機麥克風.pdf: 0.5795148218248016
SADES DIABLO 暗黑鬥狼RGB REALTEK 電競耳麥 7.1 (USB) SA-916.pdf: 0.29771817979659054
世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf: 0.0
[折疊收納]懶人折疊桌.pdf: 0.0
W202 人體工學椅.pdf: 0.0
DE-291-1 DE-293 工作桌.pdf: 0.0

combinedScores:
SADES DIABLO 暗黑鬥狼RGB REALTEK 電競耳麥 7.1 (USB) SA-916.pdf, -4.2120379611406005
羅技 Logitech H340 USB耳機麥克風.pdf, -4.288962554659026
DE-291-1 DE-293 工作桌.pdf, -4.88136100769043
世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf, -4.889030456542969
[折疊收納]懶人折疊桌.pdf, -5.618256378173829
W202 人體工學椅.pdf, -6.1857139587402346





In [7]:
qaury = '耳機'

hybridSearch(qaury, db, tfidf)

Tokenization: 100%|██████████| 1/1 [00:00<?, ?it/s]
Inference: 100%|██████████| 1/1 [00:00<00:00, 82.34it/s]
Tokenization: 100%|██████████| 1/1 [00:00<?, ?it/s]
Inference: 100%|██████████| 1/1 [00:00<00:00, 73.98it/s]
Tokenization: 100%|██████████| 1/1 [00:00<?, ?it/s]
Inference: 100%|██████████| 1/1 [00:00<00:00, 70.45it/s]
Tokenization: 100%|██████████| 1/1 [00:00<?, ?it/s]
Inference: 100%|██████████| 1/1 [00:00<00:00, 82.77it/s]

dbScores:
羅技 Logitech H340 USB耳機麥克風.pdf: -9.5112943649292
SADES DIABLO 暗黑鬥狼RGB REALTEK 電競耳麥 7.1 (USB) SA-916.pdf: -11.040901184082031
DE-291-1 DE-293 工作桌.pdf: -20.463544845581055
[折疊收納]懶人折疊桌.pdf: -21.069034576416016
W202 人體工學椅.pdf: -21.329288482666016
世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf: -23.78929328918457

tfidfScores:
羅技 Logitech H340 USB耳機麥克風.pdf: 0.2897574109124008
SADES DIABLO 暗黑鬥狼RGB REALTEK 電競耳麥 7.1 (USB) SA-916.pdf: 0.1190872719186362
世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf: 0.0
[折疊收納]懶人折疊桌.pdf: 0.0
W202 人體工學椅.pdf: 0.0
DE-291-1 DE-293 工作桌.pdf: 0.0

combinedScores:
羅技 Logitech H340 USB耳機麥克風.pdf, -3.6306632994242394
SADES DIABLO 暗黑鬥狼RGB REALTEK 電競耳麥 7.1 (USB) SA-916.pdf, -4.344908110481631
DE-291-1 DE-293 工作桌.pdf, -8.185417938232423
[折疊收納]懶人折疊桌.pdf, -8.427613830566406
W202 人體工學椅.pdf, -8.531715393066406
世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf, -9.515717315673829





In [8]:
qaury = '最近肩頸痠痛，想買一張舒適的椅子'

hybridSearch(qaury, db, tfidf)

Tokenization: 100%|██████████| 1/1 [00:00<?, ?it/s]
Inference: 100%|██████████| 1/1 [00:00<00:00, 73.74it/s]
Tokenization: 100%|██████████| 1/1 [00:00<?, ?it/s]
Inference: 100%|██████████| 1/1 [00:00<00:00, 57.97it/s]
Tokenization: 100%|██████████| 1/1 [00:00<?, ?it/s]
Inference: 100%|██████████| 1/1 [00:00<00:00, 66.37it/s]
Tokenization: 100%|██████████| 1/1 [00:00<?, ?it/s]
Inference: 100%|██████████| 1/1 [00:00<00:00, 74.67it/s]

dbScores:
W202 人體工學椅.pdf: -14.415148735046387
羅技 Logitech H340 USB耳機麥克風.pdf: -16.0592041015625
DE-291-1 DE-293 工作桌.pdf: -17.852933883666992
[折疊收納]懶人折疊桌.pdf: -18.216598510742188
SADES DIABLO 暗黑鬥狼RGB REALTEK 電競耳麥 7.1 (USB) SA-916.pdf: -18.543582916259766
世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf: -19.36774253845215

tfidfScores:
W202 人體工學椅.pdf: 0.06985467283588159
羅技 Logitech H340 USB耳機麥克風.pdf: 0.05795148218248016
世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf: 0.0
[折疊收納]懶人折疊桌.pdf: 0.0
SADES DIABLO 暗黑鬥狼RGB REALTEK 電競耳麥 7.1 (USB) SA-916.pdf: 0.0
DE-291-1 DE-293 工作桌.pdf: 0.0

combinedScores:
W202 人體工學椅.pdf, -5.724146690317026
羅技 Logitech H340 USB耳機麥克風.pdf, -6.388910751315512
DE-291-1 DE-293 工作桌.pdf, -7.141173553466797
[折疊收納]懶人折疊桌.pdf, -7.286639404296875
SADES DIABLO 暗黑鬥狼RGB REALTEK 電競耳麥 7.1 (USB) SA-916.pdf, -7.417433166503907
世界上最透明的故事（日本出版界話題作，只有紙本書可以體驗的感動）.pdf, -7.747097015380859



