### gensim 라이브러리 모델에서 GridSearchCV 를 이용하는 방법 
- sklean에서 제공하는 GridSearchCV는 모델의 fit(), transform(), predict() 함수를 이용하여 최적의 매개변수의 값들을 찾는 class
- gensim의 모델들은 해당 함수들이 존재하지 않는다. 
- class를 새로 생성하여 fit(), transform(), predict() 함수를 내장한 객체를 생성
- pipeline, kfold, gridsearch를 이용

In [None]:
# 라이브러리 로드 
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.pipeline import Pipeline
from sklearn.model_selection import GridSearchCV, StratifiedKFold
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report
from gensim.models import FastText
from konlpy.tag import Komoran
import numpy as np

In [None]:
# Komoran 형태소 분석기를 이용한 토큰화 함수 정의 
komoran = Komoran()
def tokenize():
    return lambda x : [t for t in komoran.morphs(x)]
tokenizer = tokenize()

In [71]:
# FastText를 fit(), transform()를 내장한 class 정의 
class FastTextVectorizer(BaseEstimator, TransformerMixin):
    # 생성자 함수 -> class가 생성될때 최초로 한번 실행이 되는 함수 
    # class 내부에서 사용할 데이터들을 저장하기 위해 사용
    def __init__(
            self, 
            # FastText에서 사용할 매개변수 
            # 토큰화된 데이터 (2차원 리스트)
            # vector_size : (좌표축의 개수(차원의 수))
            # window : 주변의 체크 할 단어의 개수
            # min_count : 최소 등장 횟수
            # epochs : 반복 학습의 횟수
            # sg : 확률 계산 방식 (주변 단어를 찾을것인가 중심 단어를 찾을것인가)
            # min_n : subword의 최소 개수(글자 수)
            # max_n : subword의 최대 개수(글자 수)
            # worker : 병렬 처리 스레드의 수
            tokenizer = None, 
            vector_size = 100, 
            min_count = 1, 
            window = 3, 
            sg = 1, 
            epochs = 10, 
            min_n = 3, 
            max_n = 6, 
            worker = 1  
    ):
        # class 안에 저장공간을 생성하여 데이터들 저장 
        self.tokenizer = tokenizer
        self.vector_size = vector_size
        self.window = window
        self.sg = sg
        self.epochs = epochs
        self.min_count = min_count
        self.min_n = min_n
        self.max_n = max_n
        self.worker = worker
        # 시드값 고정 
        self.seed = 42

        # 모델이랑 단어 사전이 저장될 빈 공간을 생성 
        self.model = None
        self.voca = None

    # 총 4개의 메서드를 생성 
    # 토큰화 메서드
    def to_token(self, X):
        # 만약에 토큰화 함수가 존재하지 않는다면 공백을 기준으로 문자를 나눠준다. 
        if self.tokenizer is None:
            # s -> 문장 하나
            # t -> 문장 안에서 단어
            return [ [t for t in s.split()] for s in X ]
        return [ self.tokenizer(s) for s in X ]
    
    # 학습 함수 -> fit( X, Y )
    def fit( self, X, Y ):
        # class 내부의 to_token() 함수를 호출
        sentences = self.to_token(X)
        # FastText를 이용하여 sentences들을 학습
        self.model = FastText(
            sentences= sentences, 
            vector_size= self.vector_size, 
            window = self.window, 
            min_count = self.min_count, 
            sg = self.sg, 
            epochs= self.epochs, 
            min_n = self.min_n, 
            max_n = self.max_n, 
            workers= self.worker, 
            seed = self.seed
        )
        # 학습 한 후 학습 데이터에서의 단어 사전 생성 
        self.voca = set(self.model.wv.key_to_index.keys())
        return self
    
    # 문장에서 평균 벡터로 사용할 doc_vec() 함수를 정의 
    def doc_vec(self, tokens):
        # 하나의 문장을 백터화 -> 단위 백터의 평균 
        # self.model -> FastText 모델 
        # wv -> 단어들과 단위 벡터들이 모여있는 dict 형태의 데이터
        vecs = [ self.model.wv[w] for w in tokens if w in self.model.wv ]
        if not vecs:
            # vecs가 존재하지 않은 경우 -> 빈 리스트인 경우
            # 희소행렬을 되돌려준다. 
            v = np.zeros(self.model.vector_size)
        else:
            v = np.mean(vecs, axis=0)
        return v 
    # 변형함수 정의 (tansform 함수)
    def transform(self, X):
        # 토큰화 
        sentences = self.to_token(X)
        # 임베딩
        mat = np.vstack(
            [self.doc_vec(tokens) for tokens in sentences ]
            )
        return mat

In [72]:
# 1차 class 테스트 
X = [
    '상품 품질이 아주 좋다', 
    '배송이 너무 느리다', 
    '포장이 잘되어 있고 만족합니다',
    '환불이 오래 걸려서 불안하다',
    '가격 대비 만족스럽다', 
    '연락이 잘 안 되고 불친절하다', 
    '디자인이 이쁘고 마음에 든다', 
    '설명과 달라서 실망이다', 
    '배송이 빠르고 기사분이 친절했습니다', 
    '색상이 사진과 달라서 만족하지 못했습니다'
]
Y = [1, 0, 1, 0, 1, 0, 1, 0, 1, 0]

In [73]:
vec_data = FastTextVectorizer(tokenizer= tokenizer)

In [74]:
vec_data.fit(X, Y)

0,1,2
,tokenizer,<function tok...001FCEEA3F9C0>
,vector_size,100
,min_count,1
,window,3
,sg,1
,epochs,10
,min_n,3
,max_n,6
,worker,1


In [None]:
# tranform 함수 테스트 
vec_data.transform(X)

In [76]:
# 파이프라인 생성 -> FastTextVectorizer객체와 머신러닝 모델 합친다. 

pipe = Pipeline(
    [
        ('ft', FastTextVectorizer(tokenizer=tokenizer)), 
        ('clf', LogisticRegression(max_iter=2000))
    ]
)

In [None]:
pipe.fit(X, Y)

In [78]:
# 최적의 파라미터를 찾기 위해 GridSearch와 Fold화 
cv = StratifiedKFold(n_splits=5, shuffle=True, random_state=42)

In [79]:
# 매개변수의 경우들을 dict 데이터로 생성 
grid_params = {
    'ft__vector_size' : [50, 100], 
    'ft__sg' : [0, 1], 
    'clf__C' : [1.0, 2.0]
}

In [80]:
# pipe와 cv, grid_params들을 이용하여 GridSearchCV를 사용
grid = GridSearchCV(
    estimator= pipe, 
    param_grid= grid_params, 
    cv = cv, 
    scoring= 'f1_macro',
    verbose=1
)

In [81]:
# gridsearch 실행 
grid.fit(X, Y)
# 최적의 파라미터를 출력
print("GridSearch 기준 최적의 파라미터 : ", grid.best_params_)
print("GridSearch 의 최적의 F1 : ", grid.best_score_)

Fitting 5 folds for each of 8 candidates, totalling 40 fits
GridSearch 기준 최적의 파라미터 :  {'clf__C': 1.0, 'ft__sg': 0, 'ft__vector_size': 50}
GridSearch 의 최적의 F1 :  0.39999999999999997
