In [1]:
import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt
import torch
import numpy as np
from tqdm.auto import tqdm
from sentence_transformers import SentenceTransformer
import sys

In [2]:
model_name = 'sentence-transformers/paraphrase-multilingual-mpnet-base-v2'
max_seq_length=128
model = SentenceTransformer(model_name)
model.max_seq_length = max_seq_length

In [3]:
sys.path.append("../")
from evaluation.metrics import hit_k, mean_hit_k, average_precision_k, mean_average_precision_k
from utils.constants import TRANSCRIPT_COL
from utils.helpers import extract_query_from_df
import time
from tqdm.auto import tqdm
from sentence_transformers import util

In [4]:
for i in range(1,10):
    filename = f"./data/labeled/labeled_transcript_0{i}.csv"
    labeled_df = pd.read_csv(filename, index_col=0)
    query_dict = extract_query_from_df(labeled_df)
    corpus_embeddings = labeled_df[TRANSCRIPT_COL]
    corpus_embeddings = model.encode(
        corpus_embeddings, convert_to_tensor=False, show_progress_bar=True
        )
    labeled_df['embeddings'] = list(corpus_embeddings)
    labeled_df.to_csv(f"./data/encoded/encoded_transcript_0{i}.csv")

Batches:   0%|          | 0/5 [00:00<?, ?it/s]

Batches:   0%|          | 0/5 [00:00<?, ?it/s]

Batches:   0%|          | 0/4 [00:00<?, ?it/s]

Batches:   0%|          | 0/7 [00:00<?, ?it/s]

Batches:   0%|          | 0/5 [00:00<?, ?it/s]

Batches:   0%|          | 0/7 [00:00<?, ?it/s]

Batches:   0%|          | 0/6 [00:00<?, ?it/s]

Batches:   0%|          | 0/5 [00:00<?, ?it/s]

Batches:   0%|          | 0/4 [00:00<?, ?it/s]

In [5]:
for i in range(1,10):
    filename = f"./data/encoded/encoded_transcript_0{i}.csv"
    labeled_df = pd.read_csv(filename, index_col=0)
    labeled_df[['text','start_time','stop_time','embeddings']].to_csv(filename)

In [6]:
labeled_df

Unnamed: 0,text,edited_text,start_time,stop_time,total_time,token_count,keyword_simplex algorithm,keyword_ratio test,keyword_non degenerate,keyword_Big M,keyword_Two phase,question_basic solution ต่างจาก basic feasible solution อย่างไร,question_หา extreme point อย่างไร,question_วิธีการ move adjacent bfs,question_ความแตกต่างระหว่าง degenerate และ nondegenerate,question__ตัวอย่างการคำนวณ two phase,embeddings
0,ได้นั่งทำอยู่นะมีข่าวปีนึง ปีที่แล้วมันใจหน้าอ...,อ่าวเป็นไปได้ China ASA นั่งทำอยู่นะ เอ้ย มีข่...,2024-01-17 0:00:00,2024-01-17 0:02:23,41798,121,0,0,0,0,0,0,0,0,0,0,[ 4.12719138e-02 1.51306570e-01 -1.60484724e-...
1,อะไรมันก็ได้แต่ว่าพอเขาจะไปขายที่อื่นหาว่าเขาไ...,เขาถ้าเขาขายในประเทศเขาไม่มีปัญหาด้านการละเมิด...,2024-01-17 0:02:23,2024-01-17 0:03:20,28976,113,0,0,0,0,0,0,0,0,0,0,[ 4.69051562e-02 2.42383972e-01 -1.39509793e-...
2,โอเควันก่อนเราพูดถึงอะไรไปบ้างไหมเราก็พูดถึงว่...,โอเค ก็ครั้งก่อนเราพูดถึงอะไรไปบ้าง เราก็พูดถึ...,2024-01-17 0:03:21,2024-01-17 0:04:04,34848,119,0,0,0,0,0,0,0,0,0,0,[ 4.95197326e-02 -9.10010561e-02 -1.22688087e-...
3,มุมจากมุมซึ่งเราก็บอกว่าห้า ถ้า inage program ...,ถ้า Linear program มี Solution อย่างน้อย Extre...,2024-01-17 0:04:05,2024-01-17 0:04:52,40614,125,0,0,0,0,0,0,0,0,0,0,[ 2.83764433e-02 -1.64851546e-01 -9.49407835e-...
4,คือแบบมีเอ็กซ์ตัวแปรเอ็กซ์หนึ่งที่เป็นแบบสมาชิ...,คือแบบมี X ตัวแปร X หนึ่งที่เป็นแบบสมาชิกของ R...,2024-01-17 0:04:53,2024-01-17 0:05:32,32812,114,0,0,0,0,0,0,0,0,0,0,[ 6.59557385e-03 -5.84768876e-02 -9.73031018e-...
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
118,ถ้าเรามี extreme point สองจุด ที่เป็นออฟฟิมมัน...,extreme point สองจุด ที่เป็น optimal มันจะเป็น...,2024-01-17 2:05:34,2024-01-17 2:06:22,33932,124,0,0,0,0,0,0,0,0,0,0,[ 4.95839603e-02 -1.11173861e-01 -1.11900391e-...
119,ซึ่งจริงจริงแล้วคือ เราจะรู้ว่าโจทย์นี้ andou ...,เราจะรู้ว่าโจทย์นี้ unbounded ก็คือตอนที่เราจะ...,2024-01-17 2:06:23,2024-01-17 2:07:02,32004,123,0,0,0,0,0,0,0,0,0,0,[ 3.05206664e-02 2.63257921e-01 -1.13974912e-...
120,นะครับมีคำถามไหมวันนี้ก็จบแล้วประมาณนี้ วันศุก...,วันศุกร์เราไม่มีเรียน เดี๋ยวเจอกันจันทร์หน้า ...,2024-01-17 2:07:03,2024-01-17 2:07:46,29486,112,0,0,0,0,0,0,0,0,0,0,[ 5.20039648e-02 2.10575331e-02 -1.27327135e-...
121,เป็น picture ปุ๊บจินตนาการคุณทำดีผมคือทุกครั้ง...,พอเป็น integer ปุ๊บ จินตนาการคุณทำ divide & co...,2024-01-17 2:07:49,2024-01-17 2:08:48,32284,118,0,0,0,0,0,0,0,0,0,0,[-6.21813955e-03 9.93036479e-02 -1.62178986e-...


In [7]:
corpus_embeddings.shape

(123, 768)