In [1]:
import pandas as pd
import key_electra_utils as keu # key_electra_utils.py 참고
from sentence_transformers import SentenceTransformer

model = SentenceTransformer('monologg/koelectra-base-v3-discriminator')

raw_data = pd.read_csv('data/raw_book_info_list.csv',index_col=0)



Unnamed: 0,book_title,book_toc,book_intro,publisher
0,한 권으로 끝내는 메타버스 크리에이터,"['메타버스란', '왜 메타버스인가', '메타버스의 유형을 알아보자', '메타버스 ...",[],[]
1,Do it! 점프 투 파이썬: 라이브러리 예제 편,"['', '텍스트 다루기', '문자열을 줄여 표시하려면 textwrap shorte...",['이 책은 Do it 점프 투 파이썬 의 박응용 저자가 그동안 수많은 독자에게 받...,['실무에서 자주 쓰는 파이썬 라이브러리는 다 있다 필수 파이썬 라이브러리 개 엄선...


### SBert를 활용해 Sentence embedding을 만들때 모델의 Max_seq_len에 영향을 받을까?

**궁금한 점**

* koelectra 경우 Max_seq_len가 512이므로, 토큰이 512개 이상인 문장은 512개 이후에 존재하는 토큰은 버림

* 따라서 문장 하나의 토큰이 512개가 넘으면 앞의 512개의 토큰으로만 sentence embedding을 수행할 것으로 생각

* 지금 사용하는 input 데이터는 여러 문장을 하나의 문장으로 합친 다음 사용하므로 모든 문장의 토큰이 512개가 넘음

* 이런 이유로 512개 이상의 토큰을 가진 문장의 순서를 바꿈에 따라 출력 결과도 바뀔 것으로 예상.

**증명방법**

* 지금 사용하는 데이터의 [book_title, book_toc, book_intro, publisher] column은 4종류이며, 4종류의 문장을 하나로 통합해서 하나의 input data로 사용

* '파이토치 딥러닝 프로젝트 모음집' 도서의 경우 총 793개의 token으로 구분됨. 개별 column의 token 개수는 각 [5, 316, 277,195] 임.

* max_length 512이므로 column 순서로 문장을 합치면 각각 [5, 316, 191,0]개의 토큰을 활용할 것이라 생각

* 이를 대조하기 위해 원래의 column 순서를 변경해 [5, 316, 277, 195]의 토큰 개수를 [5, 277, 316, 195]로 변경하여 문장 생성, 512개까지 포함하면 [5, 277, 230, 0]개의 토큰으로 학습할 것이라 생각

* 기존 문장을 original_sentence, 새로운 문장은 new_sentence로 지칭하였음

* origin_sentence 출력과 new_sentence 출력이 다를 경우 SBert의 sentence_embedding이 모델 max_seq_len에 영향을 받는 다 생각할 수 있음.

* origin_sentence 출력과 new_sentence 출력이 같을 경우 어떻게 sentence embedding을 만드는지 추가적인 학습이 필요

**결론**
* origin_sentence 출력과 new_sentence 출력이 같음
* Sentence embedding은 모델 max_seq_len에 영향받지 않음

### Original Sentence 만들기

In [11]:
original_data = raw_data.iloc[1100] # 1100 파이토치 딥러닝 프로젝트 모음집

book_info :str =keu.Merge_Series_to_str(original_data)
book_info_trans = keu.trans_engwords_to_hanwords(book_info)

original_sentence = keu.find_han_words(' '.join(book_info_trans))

변환한 도서정보 :  파이토치 딥러닝 프로젝트 모음집


### New sentence 만들기

In [6]:
new_data = raw_data.iloc[1100].values.tolist()
new_data.append(new_data.pop(1))

book_info :str =keu.Merge_Series_to_str(new_data)
book_info_trans = keu.trans_engwords_to_hanwords(book_info)

new_sentence = keu.find_han_words(' '.join(book_info_trans))

변환한 도서정보 :  파이토치 딥러닝 프로젝트 모음집


### Original sentence vs New sentence 비교

In [13]:
print('----original----')
print(original_sentence[10:50])

print('----new----')
print(new_sentence[10:50])

----original----
['인공지능', '사례', '머신러닝', '머신', '러닝', '머신러닝이란', '머신러닝', '구분', '지도학습', '러닝', '비지도학습', '러닝', '과적합과', '모델', '학습법', '성능', '지표', '딥러닝', '딥', '러닝', '딥러닝이란', '딥러닝', '발전', '과정', '퍼셉트론', '퍼셉트론', '다층', '퍼셉트론', '레이어', '퍼셉트론', '인공신경망', '핵심', '알고리즘', '고급', '딥러닝', '기술', '뉴럴', '네트워크', '뉴럴', '네트워크']
----new----
['실제로', '우리가', '흔히', '다루는', '날것의', '데이터를', '활용한', '프로젝트', '예제집은', '찾기가', '어렵습니다', '이', '책은', '딥러닝', '프로젝트들을', '중점적으로', '다룸으로써', '어느정도', '딥러닝', '지식은', '있으나', '프로젝트로', '경험하고', '싶은', '독자들에게', '꼭', '필요한', '책이', '될', '것입니다', '이', '책은', '크게', '이론', '파트와', '실전', '파트로', '나누어져', '있습니다', '이론']


### 결과 비교
문장 순서를 바꾸더라도 결과는 같음

In [18]:
origin = keu.key_extraction(original_sentence,model)
new = keu.key_extraction(new_sentence,model)
print('----original----')
print(sorted(origin.index.tolist()))
print('----new----')
print(sorted(new.index.tolist()))

----original----
['국민청원', '다양한', '데이터', '데이터를', '딥러닝', '딥러닝을', '러닝', '분류하기', '불러오기', '이론', '있습니다', '전처리', '책으로', '책은', '크롤링', '파이토치', '파헤치기', '퍼셉트론', '프로젝트', '프로젝트로']
----new----
['국민청원', '다양한', '데이터', '데이터를', '딥러닝', '딥러닝을', '러닝', '분류하기', '불러오기', '이론', '있습니다', '전처리', '책으로', '책은', '크롤링', '파이토치', '파헤치기', '퍼셉트론', '프로젝트로', '프로젝트를']
