In [1]:
import warnings
warnings.filterwarnings('ignore')

In [2]:
# 라이브러리 설치
# !pip install gensim

In [3]:
from gensim.models import Word2Vec
# 일반적으로 TF-IDF 와 함께 사용

In [4]:
# 토큰화된 데이터 셋을 임의로 생성
sentences = [
    ['오늘', '날씨', '좋다'],
    ['강아지', '산책', '기분', '좋다'],
    ['비', '오다', '산책', '못하다']
]

In [5]:
# Word2Vec 객체를 생성하면서 데이터를 입력
model = Word2Vec(
    sentences= sentences,
    vector_size= 100,
    window= 5,    # 중심 단어를 예측하는 데 사용할 단어의 개수
        # 중심 단어: 타겟 데이터 / 주변 단어: 종속 데이터
    min_count= 1,
    sg= 1,
    epochs= 100,
    seed= 42      # = random_state
)

In [6]:
# 단위 벡터 출력
print(model.wv['산책'])
# vector size가 vec인 array 생성

[-8.2294522e-03  5.5052661e-03  3.0832926e-03 -1.2439314e-03
 -1.3511300e-03  7.1872384e-03 -8.3151879e-03  3.9716223e-03
 -5.9871827e-03 -8.1223194e-03  5.3341233e-04  9.5463218e-03
  4.7430256e-03  5.2396888e-03  4.3853065e-03  5.7491353e-03
  2.4519901e-04 -7.4707526e-03  6.7900717e-03 -9.8591950e-04
 -2.6083733e-05 -2.5690536e-03 -6.3404497e-03  8.5303634e-03
  5.6764456e-03  2.8522725e-03 -1.9496373e-03  6.4489599e-03
  9.0979942e-04 -1.1337096e-03 -9.7876508e-04 -5.4657497e-03
 -8.1740664e-03  1.1157286e-03  7.7616861e-03 -8.7240189e-03
  7.2016092e-03  6.5405886e-03 -4.4715465e-03  2.6727729e-03
 -6.6888067e-03  5.1845028e-03  4.0190639e-03 -2.9275862e-03
 -8.6257681e-03  9.4160382e-03 -1.0862388e-03  7.8649018e-03
  3.5714519e-03  5.5426010e-03  5.2340571e-03 -6.1439755e-03
 -2.7506601e-03 -6.5128651e-04 -3.3955006e-05 -9.1420943e-03
  9.3953405e-04 -6.9377185e-03  4.8422129e-03  3.6895487e-03
  8.4700091e-03  4.9127522e-03 -2.6661218e-03  9.4014881e-03
 -1.7860184e-03 -3.46484

In [7]:
# 코사인 유사도
# 단어 별 유사도
print(model.wv.most_similar('산책'))

[('오늘', 0.1943289339542389), ('좋다', 0.09307777136564255), ('기분', 0.03429308161139488), ('못하다', 0.029127657413482666), ('날씨', 0.00435193907469511), ('오다', -0.007374857552349567), ('강아지', -0.009019400924444199), ('비', -0.02072860859334469)]


---

### Word2Vec
- 문자를 수치형으로 변환시켜주는 딥러닝 기반의 임베딩 기술

- cf. 대부분의 머신러닝/NLP 라이브러리(클래스) 팁
    - 데이터를 받는 매개변수의 <U>기본값이 None</U>이라면, 해당 클래스에 <U>학습을 하는 메서드가 존재</U>할 것이다.
    </br> 즉, **생성자에 데이터가 없다면, 그 데이터를 받아 처리할 별도의 train 또는 fit 메소드를 찾아라.**
    - 이를 염두에 두면 코딩할 때 유연성이 생긴다.
        - **메모리 관리**</br>: 대규모 데이터셋을 사용할 때, 객체를 생성하자마자 메모리에 올리는 대신, train() 메소드를 호출할 때만 데이터를 준비하여 메모리 효율을 높일 수 있다.
        - **유연한 재학습**</br>: 동일한 모델 구조와 하이퍼파라미터를 유지하면서, 필요할 때마다 다른 sentences 데이터셋으로 모델을 쉽게 재학습시킬 수 있다.
- cf. 딥러닝 학습 및 검증 전략
    - **Epoch와 과적합**
    </br>: Epoch(반복 학습 횟수)의 수를 늘리면
        - 모델이 데이터를 더 많이 학습하여 성능이 좋아질 수 있지만, **과적합(Overfitting)**이 발생할 위험이 커진다.
        - 모델이 훈련 데이터의 노이즈나 특정 패턴까지 외우게 되어, 처음 보는 새로운 데이터(테스트 데이터)에서는 예측 성능이 급격히 떨어진다.
    - **데이터 크기**
        - 딥러닝 모델은 일반적으로 대규모 데이터를 사용할 때 가장 좋은 성능을 발휘한다.
        </br>신경망 모델은 수많은 가중치를 가지고 있어, 이 가중치를 효과적으로 학습하고 일반화하려면 충분한 양의 다양한 예시가 필요하기 때문이다.
    - **모델 적합성 검증**
        - 특정 데이터셋에 대해 왜 이 모델이 적합한지를 명확히 이해해야 한다.
        - 모델의 선택(CNN, RNN, Transformer 등)은 데이터의 특성(이미지, 시계열, 텍스트 등)에 따라 근거가 있어야 한다.
    - **다양한 모델 시도**
        - 하나의 데이터셋에 대해 튜닝을 마친 후에도 기본적으로 모델을 3~4개 정도 돌려보고 비교해야 한다.
        - 모든 모델이 모든 데이터에 최적인 것은 아니다. 여러 모델(예: LSTM, GRU, RNN)을 비교하여 가장 안정적이고 효율적인 모델을 찾아야 한다. (이것이 경험적 검증의 핵심)
        - **핵심 원리: 왜 여러 모델을 비교해야 하는가?**
        </br>: 딥러닝은 '블랙박스'와 같아, 입력과 출력이 잘 나오더라도 내부 작동 원리를 완전히 설명하기 어렵다. 따라서 특정 데이터에 대해 최적의 성능을 보장하는 모델을 찾기 위해서는 <U>경험적인 검증</U>이 필수이다.
            1. No Free Lunch Theorem (공짜 점심은 없다)
            </br>: 모든 데이터셋에 대해 항상 최고의 성능을 보장하는 단 하나의 모델은 존재하지 않는다. 문제의 유형, 데이터의 크기, 노이즈 정도에 따라 각 모델의 성능은 달라진다.'
            2. 과적합 방지
            </br>: 여러 모델을 비교하면서, 훈련 성능은 높지만 테스트 성능이 낮은 모델을 빠르게 식별하여 과적합 위험을 최소화할 수 있다.
            3. 효율성
            </br>: 단순히 성능이 좋은 모델뿐만 아니라, 학습 속도나 예측 속도가 빠르고 가장 적은 리소스(메모리, CPU/GPU)를 사용하는 모델을 선택하여 효율성을 극대화해야 한다.

- **주요 매개변수**
    - <span style="color:#ffd33d">**sentences**</span>
        </br>: 리스트 안에 리스트`([[단어1, 단어2], [단어3, ...]])` 형태로 **토큰화된** 데이터
        - 2차원 리스트 형태
        - 기본값: None
            - None : 모델 객체를 생성할 때 당장 훈련 데이터를 제공할 필요가 없다.
                - <U>모델의 구조(하이퍼파라미터)와 데이터(학습 내용)를 분리하여 관리 가능</U>
                - 딥러닝의 단계 :</br> 학습 - **학습/평가 모드 변환 <span style="color:#808080">(주기적으로 학습 가능하도록 하는 딥러닝의 핵심 특징)</span>** - 예측
                </br> $\rightarrow$ Word2Vec 또한 딥러닝 기반이므로 기본값이 None이라는 건, 추가적으로 데이터를 넣어 학습할 수 있다는 뜻
    - <span style="color:#ffd33d">**vector_size**</span>
        </br>: 임베딩 벡터 차원의 개수 (feature 수)
        - 기본값: 100
    - <span style="color:#ffd33d">**window**</span>
        </br>: 예측 시 고려할 주변 단어와의 거리 (문맥의 크기)
        - 기본값: 5
    - <span style="color:#ffd33d">**sg**</span>
        - 기본값: 0
            - 0 : CBOW 방식
                - 주변 단어를 이용하여 중심 단어 예측
                - 빠른 계산이 필요한 경우
            - 1 : Skip-Gram 방식
                - 중심 단어를 이용하여 주변 단어 예측
                - 일반적인 경우
    - <span style="color:#ffd33d">**min_count**</span>
        </br>: 최소 등장 빈도수
        - 적게 등장하는 단어들을 제외
        - 기본값: 5
    - <span style="color:#ffd33d">**hs**</span>
        </br>: 계산 횟수 지정
        - 기본값: 0
            - 0 : Negative Sampling (계산량 적음)
            - 1 : Hierarchical Softmax (계산량 많음)
            - 0으로 하다가 성능이 너무 떨어지는 것 같을 때 1로 바꾸는 방법도 있다.
    - <span style="color:#ffd33d">**epochs**</span>
        </br>: 반복 학습 횟수 지정
        - 기본값: 100
    - <span style="color:#ffd33d">**max_vocab_size**</span>
        </br>: 메모리 제한 시 사용할 최대 단어 개수
        - 기본값: None
    - *나머지는 기본값 그대로 써도 됨*

- **속성**
    - <span style="color:#ffd33d">**wv**</span>
        </br>: 학습된 단어 벡터 (객체형으로 출력)
        - 예시: ```model.wv['단어']```
    - <span style="color:#ffd33d">**wv.index_to_key**</span>
        </br>: 단어의 리스트 (학습된 단어의 개수)
        - 많이 사용함
        - 최소 등장 횟수에 영향
        - 등장 빈도수에 따라 자동 정렬
    - <span style="color:#ffd33d">**wv.key_to_index**</span>
        </br>: 단어를 인덱스로 매칭
        - 특정 단어가 위치하는 인덱스 찾기
    - <span style="color:#ffd33d">**copus_total_word**</span>
        </br>: 전체 학습이 된 단어의 개수
    - <span style="color:#ffd33d">**epochs**</span>
        </br>: 학습 epoch의 수
    - <span style="color:#ffd33d">**vector_size**</span>
        </br>: 벡터 차원의 수

- **메서드**
    - <span style="color:#ffd33d">**wv.most_similar( ```{word}, topn= 10``` )**</span>
        </br>: 특정 단어와 유사한 단어를 출력
        - topn : 유사한 단어의 개수
    - <span style="color:#ffd33d">**wv.similarity( ```{word1}, {word2}``` )**</span>
        </br>: 두 단어 간의 코사인 유사도
    - <span style="color:#ffd33d">**wv.get_vector( ```{word}``` )**</span>
        </br>: 특정 단어의 벡터를 반환
    - <span style="color:#ffd33d">**train( ```...``` )**</span>
        </br>: 추가 데이터로 학습
    - <span style="color:#ffd33d">**save( ```{path}``` )**</span>
        </br>: 모델 자체를 파일로 저장
    - <span style="color:#ffd33d">**Word2Vec.load( )**</span>
        </br>: 모델 불러오기
        - 학습에 투자해야 하는 시간이 줄어든다.

In [8]:
import numpy as np
from gensim.models import Word2Vec
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import classification_report, accuracy_score
from sklearn.feature_extraction.text import TfidfVectorizer
from konlpy.tag import Komoran

In [9]:
# 토큰화 (konlpy)
# 벡터화 (Word2Vec)
# 입력 데이터가 생성되었으니 모델에 학습

In [10]:
X_raw = [
    '오늘 날씨가 좋다 여행 가고 싶다',
    '기온이 너무 떨어져서 아무것도 하기 싫다',
    '음식이 정말 맛있었고 서비스도 좋았다',
    '완전 별로고 돈이 아깝다 다시는 안 온다',
    '수업이 너무 지루하고 졸리다',
    '영화가 너무 재미있어서 시간이 가는 줄 몰랐다'
]

target = [1, 0, 1, 0, 0, 1]

In [11]:
# 토큰화 작업
komoran = Komoran()

# 사용할 형태 지정
allow_pos = ['NNP', 'NNG', 'VV', 'VA', 'SL', 'MAG']

tokens = []

for raw in X_raw:
    words = []
    for word, pos in komoran.pos(raw):
        if pos in allow_pos:
            words.append(word)
    tokens.append(words)

tokens

[['오늘', '날씨', '좋', '여행', '가'],
 ['기온', '너무', '떨어지', '아무것', '하', '싫'],
 ['음식', '정말', '맛있', '서비스', '좋'],
 ['완전', '별로', '돈', '아깝', '다시', '안', '오'],
 ['수업', '너무', '졸리'],
 ['영화', '너무', '재미있', '시간', '가', '모르']]

In [12]:
# Word2Vec을 이용하여 학습 (Skip-gram 방식)
w2v = Word2Vec(
    sentences= tokens,
    vector_size= 100,
    window= 5,
    min_count= 1,
    sg= 1,
    epochs= 100,    # 데이터가 적으므로 100회만.
        # (minimum alpha 값(0.001)에 따라 평가해, 성능에 개선이 없으면 100회를 다 돌리지 않았어도 자동으로 멈춤)
    seed= 42,
    workers= 2      # 기본적으론 3개
)

In [13]:
# w2v 객체에서 wv 속성을 자주 사용하므로 변수에 따로 저장
wv = w2v.wv

In [14]:
wv

<gensim.models.keyedvectors.KeyedVectors at 0x1d810ae0410>

In [15]:
wv.index_to_key

['너무',
 '가',
 '좋',
 '모르',
 '시간',
 '재미있',
 '영화',
 '졸리',
 '수업',
 '오',
 '안',
 '다시',
 '아깝',
 '돈',
 '별로',
 '완전',
 '서비스',
 '맛있',
 '정말',
 '음식',
 '싫',
 '하',
 '아무것',
 '떨어지',
 '기온',
 '여행',
 '날씨',
 '오늘']

In [16]:
# tokens의 단어들 중 w2v의 index_to_key에 존재하는 데이터의 단위 벡터를 학인
vectors = []

for token in tokens:
    for word in token:
        # tokens의 단어들 중 Word2Vec의 학습 단어들에도 포함되어 있다면:
        vec = []
        if word in wv.index_to_key:
            # 해당 단어의 단어 벡터를 출력하여 vectors에 추가
            vec.append( wv[word] )
    vectors.append(np.mean(vec, axis=0))

vectors

[array([ 6.8364441e-03, -6.2562730e-03,  6.1565335e-03, -9.6703880e-03,
         6.0263504e-03,  5.6026923e-03,  5.4080063e-03,  3.2205819e-03,
        -6.1401841e-04,  3.8295821e-03, -4.6299170e-03,  5.5482248e-03,
         1.4098220e-03, -6.1631110e-04, -1.3492585e-04,  1.2803529e-03,
        -9.0346085e-03, -7.5544668e-03, -5.2021309e-03, -7.5616576e-03,
        -1.3874950e-03,  3.2503260e-03,  2.8030325e-03, -3.5243036e-04,
         7.4380171e-03,  1.1740094e-03, -8.3450507e-03,  5.3557758e-03,
         1.0318143e-03,  2.6300221e-03,  1.2213101e-03,  1.2213520e-03,
        -8.2578147e-03,  1.2098612e-03,  6.0673994e-03, -3.8347037e-03,
         2.1025820e-03, -1.0038343e-02, -3.1158652e-03, -1.2186860e-03,
         9.7722029e-03, -5.8670728e-03, -4.4094566e-03, -1.8486001e-03,
         9.8576872e-03,  7.0958105e-03, -9.0147518e-03, -4.7370181e-03,
         7.0361504e-03, -9.1943825e-03,  7.0342063e-03, -4.4282810e-03,
         8.0649247e-03, -4.0001608e-03, -8.7931514e-04,  3.11884

In [17]:
np.array(vectors).shape

(6, 100)

In [18]:
# vectors의 데이터의 의미 -> 독립 변수
# target 데이터 -> 종속 변수
svc = SVC(random_state=42)

In [19]:
svc.fit(vectors, target)

0,1,2
,C,1.0
,kernel,'rbf'
,degree,3
,gamma,'scale'
,coef0,0.0
,shrinking,True
,probability,False
,tol,0.001
,cache_size,200
,class_weight,


In [38]:
# 토큰화 함수 생성
# konlpy가 설치되어 있는 경우, Komoran 사용
# 설치되어 있지 않은 경우, split() 사용
def build_tokenize():
    try:
        from konlpy.tag import Komoran  # 'K'moran 대문자임을 주의
        komoran = Komoran()
        allow_pos = ['NNP', 'NNG', 'VV', 'VA', 'SL', 'MAG']
        def tokenize(text):
            tokens = []
            for word, pos in komoran.pos(text):
                if pos in allow_pos:
                    tokens.append(word)
            return tokens
        # tokenize 함수를 결과로 되돌려준다.
        # 함수 자체를 되돌려줄 때는 함수명() 이 아닌 함수명만 되돌려줘야 함을 주의
        return tokenize
    except Exception as e:
        print("Komoran 사용 불가: ", e)
        return lambda x: x.split()

In [39]:
# build_tokenize 함수 호출
tokenize = build_tokenize()

In [40]:
tokenize('오늘 날씨가 좋다')

['오늘', '날씨', '좋']

In [23]:
# 문장을 임베딩하는 함수를 생성 -> 벡터화
# 단위 벡터의 평균을 구하느 함수
def sent_embed_mean(tokens):
    vecs = []
    for word in tokens:
        if word in wv.index_to_key:
            vecs.append(wv[word])
    result = np.mean(vecs, axis=0) if vecs else np.zeros(wv.vector_size)
    # if 뒤에 bool 형태가 아닌 데이터가 들어오면, bool 형태로 강제 변환됨
    return result

In [24]:
np.mean( [] )

np.float64(nan)

In [25]:
# X_raw를 이용하여 벡터화
# token 함수의 인자값은 하나의 문장 입력
X_tokens = []
for raw in X_raw:
    X_tokens.append( tokenize(raw) )
X_tokens

[['오늘', '날씨', '좋', '여행', '가'],
 ['기온', '너무', '떨어지', '아무것', '하', '싫'],
 ['음식', '정말', '맛있', '서비스', '좋'],
 ['완전', '별로', '돈', '아깝', '다시', '안', '오'],
 ['수업', '너무', '졸리'],
 ['영화', '너무', '재미있', '시간', '가', '모르']]

In [26]:
# 다른 사람들이 만든 샘플이나 AI에서는 이 방법을 많이 사용하므로 익숙해지는 것이 좋음
X_tokens2 = [ tokenize(raw) for raw in X_raw ]
X_tokens2

[['오늘', '날씨', '좋', '여행', '가'],
 ['기온', '너무', '떨어지', '아무것', '하', '싫'],
 ['음식', '정말', '맛있', '서비스', '좋'],
 ['완전', '별로', '돈', '아깝', '다시', '안', '오'],
 ['수업', '너무', '졸리'],
 ['영화', '너무', '재미있', '시간', '가', '모르']]

In [27]:
# 임베딩 처리
X_embed = []                                    # for문 한 줄로 쓸 때의 순서
for tokenize in X_tokens:                          # -- 2 (for문 안에 if문이 존재한다면 if문 -- 3)
    X_embed.append( sent_embed_mean(tokenize) )    # -- 1

X_embed

[array([ 4.7013760e-03, -1.3005184e-03,  2.2815496e-03, -1.0604307e-03,
        -1.4146398e-03, -1.2830909e-03,  2.8883864e-03,  1.2058786e-03,
        -4.1027865e-04,  3.1226196e-03, -3.0493971e-03,  3.1526596e-03,
         3.9204378e-03,  1.2551534e-03, -2.2984468e-03,  1.1145922e-03,
        -9.8848739e-04, -4.1982508e-03, -1.7986039e-03,  2.5963157e-03,
        -2.5042804e-04, -1.1736272e-03, -3.0127442e-03, -3.9026383e-04,
         3.6252968e-03, -5.2538066e-04, -1.2041787e-04, -6.3894736e-04,
        -6.5153575e-04, -2.5401255e-03,  5.3159236e-03,  3.8017132e-03,
         1.4644719e-03, -8.9889829e-04,  5.9110980e-04, -1.2294246e-03,
         5.0340641e-05, -2.8386354e-03, -2.6889166e-03,  1.0311112e-03,
        -2.6035903e-03, -6.0907064e-04, -1.7883105e-03,  1.4410138e-03,
         2.3102160e-03, -3.0092609e-03, -3.3263210e-04,  1.6623239e-03,
         4.1021123e-03, -4.1065770e-03,  1.1779412e-03, -1.8196546e-03,
         1.4132587e-03, -2.5137092e-03,  5.9063779e-03, -7.08345

In [28]:
X_embed2 = [ sent_embed_mean(tokenize) for tokenize in X_tokens ]
X_embed2

[array([ 4.7013760e-03, -1.3005184e-03,  2.2815496e-03, -1.0604307e-03,
        -1.4146398e-03, -1.2830909e-03,  2.8883864e-03,  1.2058786e-03,
        -4.1027865e-04,  3.1226196e-03, -3.0493971e-03,  3.1526596e-03,
         3.9204378e-03,  1.2551534e-03, -2.2984468e-03,  1.1145922e-03,
        -9.8848739e-04, -4.1982508e-03, -1.7986039e-03,  2.5963157e-03,
        -2.5042804e-04, -1.1736272e-03, -3.0127442e-03, -3.9026383e-04,
         3.6252968e-03, -5.2538066e-04, -1.2041787e-04, -6.3894736e-04,
        -6.5153575e-04, -2.5401255e-03,  5.3159236e-03,  3.8017132e-03,
         1.4644719e-03, -8.9889829e-04,  5.9110980e-04, -1.2294246e-03,
         5.0340641e-05, -2.8386354e-03, -2.6889166e-03,  1.0311112e-03,
        -2.6035903e-03, -6.0907064e-04, -1.7883105e-03,  1.4410138e-03,
         2.3102160e-03, -3.0092609e-03, -3.3263210e-04,  1.6623239e-03,
         4.1021123e-03, -4.1065770e-03,  1.1779412e-03, -1.8196546e-03,
         1.4132587e-03, -2.5137092e-03,  5.9063779e-03, -7.08345

In [29]:
# X_embed -> 독립 변수 -> 문장을 토큰화하고 벡터화 처리한 데이터
# target -> 종속 변수 -> 문장의 감정 표현 (0: 부정, 1: 긍정)
svc.fit(X_embed, target)

0,1,2
,C,1.0
,kernel,'rbf'
,degree,3
,gamma,'scale'
,coef0,0.0
,shrinking,True
,probability,False
,tol,0.001
,cache_size,200
,class_weight,


In [30]:
# 데이터의 개수가 적당히 많은 수준인 경우 Train, Test 데이터를 나눠주고
# Train 데이터를 이용하여 학습하고 Test 데이터를 이용하여 검증하는 함수
svc = SVC(random_state=42)

def run_model(X, Y, test_size = 0.2):
    # X는 독립 변수, Y는 종속 변수
    X_train, X_test, Y_train, Y_test = train_test_split(
        X, Y, test_size= test_size, random_state= 42, stratify= Y
    )
    # 모델에 학습
    svc.fit(X_train, Y_train)
    # 학습된 모델의 예측값
    y_pred = svc.predict(X_test)
    print('정확도: ', round( accuracy_score(y_pred, Y_test), 4 ))
    print('분류 레포트:','\n', classification_report(y_pred, Y_test))

    # 모델을 전역에 생성해두고 fit만 한 것이므로 return 필요 없음

In [31]:
# 실행용 X, 매개변수 설정 확인용 O
# ()를 입력하면 뜨는 매개변수 설명에서, 가장 맨 앞의 매개변수가 *로 되어있는 것을 확인할 수 있다.
TfidfVectorizer()

0,1,2
,input,'content'
,encoding,'utf-8'
,decode_error,'strict'
,strip_accents,
,lowercase,True
,preprocessor,
,tokenizer,
,analyzer,'word'
,stop_words,
,token_pattern,'(?u)\\b\\w\\w+\\b'


#### 매개변수 도움말 활용
**<span style='color:#808080'>매개변수명* -> 가변 (여러 개의 값을 받을 수 있음)
**<span style='color:#808080'>매개변수명*</span> 의 위치가
- 맨 앞 : </br> ```매개변수=값```을 지정하지 않고 대입한 모든 값이 해당 매개변수에 대입된다. (예시 1 참고)
- 다른 매개변수명 사이 : </br> 그 뒤는 모두 지정해줘야 한다.
- *<span style='color:#808080'>(매개변수명 없음)</span> : </br> 데이터를 넣어도 저장할 공간이 없다 -> 매개변수명과 그 인자값을 모두 적어줘야 한다는 강제성 부여

따라서 매개변수 도움말을 잘 보면 큰 도움이 됨!

In [32]:
# * 매개변수 예시:
# 예시 1
def func_1(*x, y):
    sum_x = sum(x)
    result = sum_x + y
    return result
# func_1(1,2,3,4, 5)    # 5를 y에 넣고 싶었으나 모두 x에 들어가 Error
# TypeError: func_1() missing 1 required keyword-only argument: 'y'
func_1(1,2,3,4, y=5)    # y= 으로 지정해줘야 함

15

In [33]:
# 예시 2
def func_2(*, x, y):
    result = x* y
    return result

# func_2(10, 3)     # 10을 x에, 3을 y에 넣고 싶었으나 모두 *에 들어가 Error
# TypeError: func_2() takes 0 positional arguments but 2 were given
func_2(x= 10, y= 3) # 모두 지정해줘야 함

30

In [34]:
run_model(X_embed, target)

정확도:  0.5
분류 레포트: 
               precision    recall  f1-score   support

           0       0.00      0.00      0.00         0
           1       1.00      0.50      0.67         2

    accuracy                           0.50         2
   macro avg       0.50      0.25      0.33         2
weighted avg       1.00      0.50      0.67         2



In [41]:
# 학습된 모델에 예측값을 반환하는 함수
def predict_sentence_list(sentences, model):
    # sentences - 문장들의 리스트
    # 문장들을 토큰화한 후 임베딩
    X_test = []
    for sent in sentences:
        # tokenize() 함수를 호출해 토큰화
        tokens = tokenize(sent)
        vec = sent_embed_mean(tokens)
        X_test.append(vec)

    preds = model.predict(X_test)
    result = []
    for sent, pred in zip(sentences, preds):
        label = '긍정' if pred == 1 else '부정'
        result.append( [sent, label] )
    return result

In [36]:
new_sentences = [
    '영화가 너무 지루해서 돈이 아깝다',
    '날씨가 너무 좋아서 별로다',
    '기온이 좋아서 어디론가 떠나고 싶다'
]

In [42]:
predict_sentence_list(new_sentences, svc)

[['영화가 너무 지루해서 돈이 아깝다', '부정'],
 ['날씨가 너무 좋아서 별로다', '긍정'],
 ['기온이 좋아서 어디론가 떠나고 싶다', '긍정']]

In [43]:
# Word2Vec과 TF-IDF를 융합하여 임베딩 처리하는 함수 생성
# 문맥 상에서 단어의 예측 벡터와 전체 문서에서 특정 단어들의 중요도를 결합한 벡터 데이터
# TF-IDF 벡터화 행렬 생성
tfidf_vec = TfidfVectorizer(
    tokenizer= tokenize,
    lowercase= False
).fit(X_raw)

tfidf_vec

0,1,2
,input,'content'
,encoding,'utf-8'
,decode_error,'strict'
,strip_accents,
,lowercase,False
,preprocessor,
,tokenizer,<function bui...001D82D7F9300>
,analyzer,'word'
,stop_words,
,token_pattern,'(?u)\\b\\w\\w+\\b'


In [45]:
idf = dict(
    zip(
        # get_feature_names_out() : Tfidf에서 사용된 단어들의 목록
        tfidf_vec.get_feature_names_out(),
        # idf_ : 중요도
        tfidf_vec.idf_
    )
)

In [None]:
# 단어별 단위 벡터의 평균과 idf를 곱한다.
# sent_embed_tfidf() -> 출력은 머신러닝 모델에서 학습 데이터로 사용한 벡터 데이터
def sent_embed_tfidf(tokens):
    vecs = []
    weight = []

    for word in tokens:
        # tokens에 각각의 단어가 Word2Vec과 TF-IDF에 존재한다면
        if word in wv.key_to_index and word in idf:
            # 단위벡터와 중요도를 곱한 값을 vecs에 추가
            vecs.append(wv[word] * idf[word])
            # 중요도 데이터를 weight에 추가
            weight.append(idf[word])
            
    # vecs에 데이터가 존재하지 않는다면
    # 즉, tokens 안에는 존재하지만 Word2Vec이나 TF-IDF에 존재하지 않을 때
    if not vecs:
        # 희소 행렬(영행렬)을 되돌려준다.
        result = np.zeros(wv.vector_size)
    else:
        result = np.sum(vecs, axis=0) / (np.sum(weight) + 1e-9)
    return result

In [None]:
# 위에서 복사해 수정
# 세 번째 매개변수(vec_type)를 생성 - 기본값은 'mean'
# 'tfidf' 입력이 들어온다면 벡터화 작업은 w2v + tfidf 융합한 벡터화

# 학습된 모델에 예측값을 반환하는 함수
def predict_sentence_list(sentences, model, vec_type='mean'):
    # sentences - 문장들의 리스트
    # 문장들을 토큰화한 후 임베딩
    X_test = []
    for sent in sentences:
        # tokenize() 함수를 호출해 토큰화
        tokens = tokenize(sent)
        if vec_type =='mean':                   # 여기부터
            vec = sent_embed_mean(tokens)
        elif vec_type == 'tfidf':
            vec = sent_embed_tfidf(tokens)      # 여기까지 수정
        X_test.append(vec)

    preds = model.predict(X_test)
    result = []
    for sent, pred in zip(sentences, preds):
        label = '긍정' if pred == 1 else '부정'
        result.append( [sent, label] )
    return result