In [1]:
from gensim.models.fasttext import load_facebook_model
from gensim.models.word2vec import LineSentence
from tqdm.auto import tqdm
import random

  from .autonotebook import tqdm as notebook_tqdm


In [2]:
# 모델 로드
bin_path = "../data/cc.ko.300.bin"
ft_model = load_facebook_model(bin_path)

print("벡터 차원 수:", ft_model.vector_size)

벡터 차원 수: 300


In [3]:
# fine tuning prepare

# 1) 파인튜닝에 사용할 코퍼스 경로
corpus_path = "../corpus/total_corpus_remove_particle.txt"

# 2) 코퍼스를 문장 리스트로 읽어오기
sentences = list(LineSentence(corpus_path))
num_sentences = len(sentences)
print(f"코퍼스 문장 수: {num_sentences}")

# 3) 셔플
random.seed(42)
random.shuffle(sentences)

코퍼스 문장 수: 1978


In [4]:
# fine tuning

# 1) 기존 모델 vocab에 어휘 추가
ft_model.min_count = 30
ft_model.build_vocab(corpus_iterable=sentences, update=True)
print("vocab size(단어 수):", len(ft_model.wv))

# 2) 파인튜닝
epochs = 1

print("파인튜닝 시작!")
for epoch in tqdm(range(epochs), desc="FastText fine-tuning epochs"):
    ft_model.train(
        sentences,
        total_examples=num_sentences,
        epochs=1
    )

print("파인튜닝 완료!")

# 3) 결과 모델 저장
out_model_path = "../data/cc.ko.300.ssafy.ft"
ft_model.save(out_model_path)
print("저장 완료:")

vocab size(단어 수): 2000085
파인튜닝 시작!


FastText fine-tuning epochs: 100%|████████████████████████████████████████████████████████████████████| 1/1 [00:08<00:00,  8.52s/it]


파인튜닝 완료!
저장 완료:


In [5]:
# 바로 체크

for word in ["싸피", "에듀싸피", "월말평가", "취업", "알고리즘", "부트캠프"]:
    if word in ft_model.wv:
        print(f"\n[{word}]과(와) 비슷한 단어:")
        for w, sim in ft_model.wv.most_similar(word, topn=15):
            print(f"  {w:10s}  {sim:.4f}")
    else:
        print(f"\n[{word}]는 vocab에 없음")


[싸피]과(와) 비슷한 단어:
  싸탈          0.9979
  때,          0.9956
  뒤,          0.9917
  멋사          0.9896
  우테코         0.9874
  날,          0.9859
  SWEA        0.9859
  프로젝트01      0.9779
  프로젝트부       0.9776
  프로젝트02      0.9765
  제명된다        0.9760
  프로젝트에서만     0.9752
  프로젝트에선      0.9743
  프로젝트s       0.9720
  프로젝트3       0.9718

[에듀싸피]과(와) 비슷한 단어:
  우테코         0.8949
  학사사이트       0.8924
  김싸피         0.8897
  스타트업,       0.8890
  SWEA        0.8818
  싸피포털에       0.8812
  프로젝트공지사항학사일반장학취업관련사이트소비자학  0.8777
  프로젝트01      0.8760
  싸피          0.8756
  있지만,        0.8751
  프로젝트제안      0.8748
  싸탈          0.8740
  때,          0.8730
  월말평가        0.8704
  프로젝트s       0.8701

[월말평가]과(와) 비슷한 단어:
  싸피          0.9681
  싸탈          0.9663
  때,          0.9652
  우테코         0.9632
  뒤,          0.9612
  멋사          0.9591
  SWEA        0.9575
  날,          0.9553
  프로젝트02      0.9512
  프로젝트01      0.9512
  프로젝트부       0.9498
  김싸피         0.9492
  프로젝트에서만     0.9476
  프로젝트S       0.9469
  제

## TEST

In [None]:
from gensim.models.fasttext import FastText

In [None]:
# 모델 로드
ft_path = "../data/cc.ko.300.ssafy.ft"
model = FastText.load(ft_path)

In [None]:
for word in ["싸피", "에듀싸피", "월말평가", "취업", "알고리즘", "부트캠프"]:
    if word in model.wv:
        print(f"\n[{word}]과(와) 비슷한 단어:")
        for w, sim in model.wv.most_similar(word, topn=15):
            print(f"  {w:10s}  {sim:.4f}")
    else:
        print(f"\n[{word}]는 vocab에 없음")