In [71]:
# 라이브러리 설치
# !pip install konlpy

In [72]:
# Java 설치 확인
from konlpy.tag import Okt
okt = Okt()
print(okt.morphs('나는 학교에 간다'))

['나', '는', '학교', '에', '간다']


# 데이터의 분할
KFold의 분할 방식
- KFold
</br>: 무작위로 폴드화
- StratifiedKFold
</br>: 계층화를 유지하며 폴드화

In [73]:
import pandas as pd
from sklearn.model_selection import KFold, StratifiedKFold, StratifiedGroupKFold
    # 일반 KFold, 계층화 KFold, 계층별 그룹화 KFold

data = {
    'document': ['A', 'B', 'C', 'D', 'E', 'F', 'G', 'H'],   # 리뷰 글
    'label': [1, 1, 0, 0, 1, 0, 0, 1],                      # 긍정/부정
    'id': ['a', 'a', 'b', 'b', 'c', 'c', 'd', 'd']          # 작성자 ID - 각 작성자마다 글 2개
}

df = pd.DataFrame(data)
df

Unnamed: 0,document,label,id
0,A,1,a
1,B,1,a
2,C,0,b
3,D,0,b
4,E,1,c
5,F,0,c
6,G,0,d
7,H,1,d


In [74]:
X = df['document']
Y = df['label']
groups = df['id']

# 일반적인 KFold
k_folds = KFold(n_splits=2, shuffle=True, random_state=42)
# 계층화 KFold
s_folds = StratifiedKFold(n_splits=2, shuffle=True, random_state=42)
# 계층별 그룹화 KFold
sg_folds = StratifiedGroupKFold(n_splits=2, shuffle=True, random_state=42)

In [75]:
# 일반적인 KFold
# for x_idx, y_idx in k_folds.split(X, Y):
#     print(df.loc[x_idx])
#     print(df.loc[y_idx])
#     break     # 첫 번째만 보기

In [76]:
# 계층화 KFold
for x_idx, y_idx in s_folds.split(X, Y):
    print(df.loc[x_idx])
    print(df.loc[y_idx])
    break

  document  label id
1        B      1  a
3        D      0  b
6        G      0  d
7        H      1  d
  document  label id
0        A      1  a
2        C      0  b
4        E      1  c
5        F      0  c


In [77]:
# 계층별 그룹화 KFold
for x_idx, y_idx in sg_folds.split(X, Y, groups):
    print(df.loc[x_idx])
    print(df.loc[y_idx])
    break

  document  label id
4        E      1  c
5        F      0  c
6        G      0  d
7        H      1  d
  document  label id
0        A      1  a
1        B      1  a
2        C      0  b
3        D      0  b


---

In [78]:
# 네이버 영화 리뷰 (rating_train.txt)
# pandas를 이용하여 txt 파일 로드
# 파일을 확인해보면, 데이터는 tab 으로 분리되어 있다.
df = pd.read_csv('../data/ratings_train.txt', sep='\t')
df

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1
...,...,...,...
149995,6222902,인간이 문제지.. 소는 뭔죄인가..,0
149996,8549745,평점이 너무 낮아서...,1
149997,9311800,이게 뭐요? 한국인은 거들먹거리고 필리핀 혼혈은 착하다?,0
149998,2376369,청춘 영화의 최고봉.방황과 우울했던 날들의 자화상,1


In [79]:
# 정보 확인
df.info()

# document 컬럼에 5개의 결측치 존재
# 전체 데이터가 15만 개이므로 결측치를 삭제해도 무방

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 150000 entries, 0 to 149999
Data columns (total 3 columns):
 #   Column    Non-Null Count   Dtype 
---  ------    --------------   ----- 
 0   id        150000 non-null  int64 
 1   document  149995 non-null  object
 2   label     150000 non-null  int64 
dtypes: int64(2), object(1)
memory usage: 3.4+ MB


In [80]:
# 결측치 제거
# case 1 - isna() + any() : 인덱스의 조건식으로 해당 조건을 부정하여 사용
df.loc[~df.isna().any(axis=1)]

Unnamed: 0,id,document,label
0,9976970,아 더빙.. 진짜 짜증나네요 목소리,0
1,3819312,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,10265843,너무재밓었다그래서보는것을추천한다,0
3,9045019,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,6483659,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1
...,...,...,...
149995,6222902,인간이 문제지.. 소는 뭔죄인가..,0
149996,8549745,평점이 너무 낮아서...,1
149997,9311800,이게 뭐요? 한국인은 거들먹거리고 필리핀 혼혈은 착하다?,0
149998,2376369,청춘 영화의 최고봉.방황과 우울했던 날들의 자화상,1


In [81]:
# case 2 - dropna()
df.dropna(inplace= True)

In [82]:
# document에 중복되는 문장이 있다면 하나만 두고 나머지는 제거
# 중복 데이터 존재 여부 확인
df['document'].value_counts()

document
굿                                                181
good                                              92
최고                                                85
쓰레기                                               79
별로                                                66
                                                ... 
굿바이 레닌 표절인것은 이해하는데 왜 뒤로 갈수록 재미없어지냐                 1
이건 정말 깨알 캐스팅과 질퍽하지않은 산뜻한 내용구성이 잘 버무러진 깨알일드!!♥      1
약탈자를 위한 변명, 이라. 저놈들은 착한놈들 절대 아닌걸요.                 1
나름 심오한 뜻도 있는 듯. 그냥 학생이 선생과 놀아나는 영화는 절대 아님          1
흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나                  1
Name: count, Length: 146182, dtype: int64

In [83]:
# 중복 데이터 제거
# drop_duplicates()

# 제거하기 전의 데이터 개수
before = len(df)

df = df.drop_duplicates(['document']).reset_index(drop=True)    # 인덱스 리셋 + 기존 인덱스 제거
after = len(df)

print("중복 데이터를 제거한 뒤 행의 개수:", before - after)

중복 데이터를 제거한 뒤 행의 개수: 3813


In [84]:
# id 컬럼의 중복 확인
# unique() 를 이용해 id 컬럼의 유일한 데이터들의 길이 확인
print(len( df['id'].unique() ))

146182


In [85]:
len(df)

# df의 길이와 같으니 id 컬럼에 중복 없음
# = 한 아이디 당 하나의 글을 작성했다.
# -> 중복이 있으면 데이터를 나눌 때 계층화 KFold가 아닌 계층별 그룹화 KFold를 사용했어야 하는데,
#    중복이 없으니 라벨에 대한 데이터의 균형도만 맞춰주면 됨.

146182

In [86]:
# label 컬럼의 데이터 개수 확인
df['label'].value_counts()

label
0    73342
1    72840
Name: count, dtype: int64

In [87]:
# train, validation, test 데이터셋으로 약 8:1:1 분할
# label의 비율에 맞게 분할

from sklearn.model_selection import train_test_split
# sklearn에는 3개의 데이터셋으로 나눠주는 함수가 존재하지 않으므로 traia_test_split을 2번 사용

X = df['document'].values
Y = df['label'].values

# test 데이터셋 10%
X_temp, X_test, Y_temp, Y_test = train_test_split(
    X, Y, test_size=0.1, random_state= 42, stratify=Y
)
# validation 데이터셋 약 11% (label 데이터의 비율에 맞게)
X_train, X_val, Y_train, Y_val = train_test_split(
    X_temp, Y_temp, test_size=0.11, random_state= 42, stratify=Y_temp
)

In [88]:
# 데이터의 분할 정도를 확인
print( len(X_train) / len(X) * 100 )
print( len(X_val) / len(X) * 100 )
print( len(X_test) / len(X) * 100 )

80.09946505041661
9.89998768658248
10.000547263000916


In [89]:
print(pd.Series(Y_train).value_counts())

0    58746
1    58345
Name: count, dtype: int64


In [90]:
print(pd.Series(Y_val).value_counts())

0    7261
1    7211
Name: count, dtype: int64


In [91]:
# 계층 폴드화
# : 학습 데이터를 분할/학습하여 일반적인 성능을 나타냄
# 성능을 보기 위해 기본적으로 필요한 과정으로, 폴드화, 하이퍼 파라미터 탐색과 함께 사용
folds = []

# fold에는 0, 1, 2, 3, ...
# enumerate() : 데이터를 리스트에서의 위치와 값으로 나눠 반환
# s_folds.split(X_train, Y_train) : 결과 값이 ( (tr_idx, va_idx) ) 형태
for fold, (tr_idx, va_idx) in enumerate( s_folds.split(X_train, Y_train) ):
    folds.append(
        {
        'fold': fold,
        'tr_idx': tr_idx,
        'va_idx': va_idx
        }
    )
folds

[{'fold': 0,
  'tr_idx': array([     0,      2,      3, ..., 117083, 117086, 117090],
        shape=(58545,)),
  'va_idx': array([     1,      7,      8, ..., 117087, 117088, 117089],
        shape=(58546,))},
 {'fold': 1,
  'tr_idx': array([     1,      7,      8, ..., 117087, 117088, 117089],
        shape=(58546,)),
  'va_idx': array([     0,      2,      3, ..., 117083, 117086, 117090],
        shape=(58545,))}]

In [92]:
# folds의 첫 번째 데이터에서 tr_idx로 Y_train의 0, 1 비율 확인
test_idx = folds[0]['tr_idx']
pd.Series(Y_train[test_idx]).value_counts()

# 거의 1:1
# 데이터 불균형 문제 거의 사라짐

0    29373
1    29172
Name: count, dtype: int64

---
# 단어의 토큰화
- 문장을 단어로 잘라준다.
    - 공백을 기준으로 문자를 자른다.
        - 영문에서는 사용 가능, 한글에서는 의미가 소실되는 경우 발생
    - 형태소를 사용하여 문자를 나눈다.
        - 국어 사전을 로드하여 단어별로 나눠준다.
        - 대부분 반복문 이용

In [93]:
# 공백을 기반으로 데이터를 나눈다.
text = '나는 학교에 간다'

In [94]:
tokens = text.split()
print(tokens)

['나는', '학교에', '간다']


In [95]:
from konlpy.tag import Okt
okt = Okt()

print(okt.morphs(text))
print(okt.pos(text))

['나', '는', '학교', '에', '간다']
[('나', 'Noun'), ('는', 'Josa'), ('학교', 'Noun'), ('에', 'Josa'), ('간다', 'Noun')]


In [96]:
text_pos = okt.pos(text)
text_pos

[('나', 'Noun'), ('는', 'Josa'), ('학교', 'Noun'), ('에', 'Josa'), ('간다', 'Noun')]

In [97]:
text_pos.remove( ('는', 'Josa') )
# 하나씩 정리하는 방법 (매우 귀찮으므로 비추)
text_pos

[('나', 'Noun'), ('학교', 'Noun'), ('에', 'Josa'), ('간다', 'Noun')]

In [98]:
# 반복문을 이용하여 각 원소들을 대입해 실행
for t in text_pos:
    # print(t)
    # t는 tuple의 형태 -> 조건: 두 번째 값이 'Josa'가 아니라면
    if t[1] != 'Josa':
        print(t[0])

나
학교
간다


In [99]:
okt.nouns(text)

['나', '학교', '간다']

In [100]:
# Okt 로드한 데이터를 이용하여 Okt 형태소 분석
X_train[0]

'이런 감동...삶의 희망이 된다'

In [101]:
for idx, t in enumerate(X_train):
    if idx == 5:
        break
    _pos = okt.morphs(t)
    print(_pos)

['이런', '감동', '...', '삶', '의', '희망이', '된다']
['초등학교', '때', '이', '거', '200', '번', '받음', '..', '정말', '짱']
['아이엠', '옴티머', '스프', '라임']
['나', '만', '재밋', '게', '봤나']
['최고', '의', '영화', '평점', '1', '점주', '는', '초딩', '들', '은', '대체', '뭐', '냐', '?', '요새', '한국', '영화', '들', '보다', '훨', '낫다', '.', '영화', '보고', '10년', '넘게', '기억', '에', '남았던', '명작', '이다', '.']


In [102]:
# !pip install Korpora

In [103]:
# from Korpora import Korpora
# data = Korpora.load('nsmc')

In [104]:
# !pip install sentencepiece

In [105]:
# sentencepiece 모듈을 이용하여 형태소 분석
# 모델 학습
# train txt, test txt 파일을 모두 로드하여 학습에 대입
df_tr = pd.read_csv('../data/ratings_train.txt', sep='\t').dropna()
df_te = pd.read_csv('../data/ratings_test.txt', sep='\t').dropna()

In [106]:
# 두 개의 데이터프레임을 단순 행결합(union 결합)
total_df = pd.concat( [df_tr['document'], df_te['document']], axis=0, ignore_index=True)

In [107]:
total_df.info()

<class 'pandas.core.series.Series'>
RangeIndex: 199992 entries, 0 to 199991
Series name: document
Non-Null Count   Dtype 
--------------   ----- 
199992 non-null  object
dtypes: object(1)
memory usage: 1.5+ MB


In [108]:
# 모델에 학습시키기 전에 파일로 미리 저장
total_df.to_csv('test.txt', index=False, header=False)

In [109]:
# 모델을 생성
import sentencepiece as spm

spm.SentencePieceTrainer.Train(
    input= 'test.txt',              # 학습에서 사용할 텍스트 파일
    model_prefix = 'ko_unigram',    # unigram: 한글에 적합한 형태 (한 단어씩 잘라서 표현)
    vocab_size = 8000,              # 단어 사전의 크기 (모델의 크기) - 일반적으로 8000, 16000, 32000 - 클수록 정확도 올라가고 계산량 많아짐
    model_type = 'unigram',         # 토큰의 생성 방식
    character_coverage = 0.9995,    # 학습에 포함할 문자의 종류 비율 (1.0 - 모든 문자 종류 포함, 0.9995 - 한글, 영문, 숫자 포함)
    input_sentence_size = 1000000,  # 학습 문장을 샘플링 (모든 데이터를 사용하는 게 가장 좋지만, 시간 상의 문제로 일부만 샘플링하여 사용)
    shuffle_input_sentence = True   # 샘플링 시 문자의 순서를 섞어 사용 - 모델이 특정 성향에 편향되는 것을 방지
)

언어 모델
- unigram : 단어 단위. BERT, KoGPT 등에서 사용 (한국어에 적합)
- bpe : GPT-2 에서 사용
- char : 문자 단위 (정보가 너무 짧게 쪼개짐)
- word : 단어 단위 (한국어에 부적합)

In [110]:
# 생성된 모델을 이용하여 형태소 분석
sp = spm.SentencePieceProcessor()

# 생성된 모델을 로드
sp.load('ko_unigram.model')
text = '나는 학교에 간다'
print(sp.encode(text, out_type=str))

['▁나는', '▁학교', '에', '▁간다']


In [111]:
# ▁ 특수기호는 키보드 입력이 불가함
char = '\u2581'
print(char)
# 이렇게 안 하고 그냥 복붙해도 됨

▁


In [112]:
for idx, t in enumerate(X_train):
    if idx == 5:
        break
    print(sp.encode(t, out_type=str))

['▁이런', '▁감동', '...', '삶', '의', '▁희망', '이', '▁된다']
['▁초', '등', '학교', '▁때', '▁이거', '▁', '200', '번', '▁받', '음', '..', '▁정말', '▁짱']
['▁아이', '엠', '옴', '티', '머', '스', '프', '라', '임']
['▁나만', '▁재밋게', '▁봤', '나']
['▁최고의', '▁영화', '▁평점', '1', '점주는', '▁초딩', '들은', '▁대체', '▁뭐냐', '?', '▁요새', '▁한국영화', '들', '보다', '▁훨', '▁낫다', '.', '▁영화보고', '▁10', '년', '넘', '게', '▁기억에', '▁남았', '던', '▁명작이다', '.']


In [113]:
# Okt와 같은 형태 (한글에 적합)
from konlpy.tag import Komoran

In [114]:
komoran = Komoran()

In [115]:
print(komoran.morphs(text))     # 형태소 나열
print(komoran.pos(text))        # ( 형태소, 동사 ) 튜플 나열
print(komoran.nouns(text))      # 명사만 출력

['나', '는', '학교', '에', '간다']
[('나', 'NP'), ('는', 'JX'), ('학교', 'NNG'), ('에', 'JKB'), ('간다', 'NNP')]
['학교', '간다']


### Komoran 동사를 일반적으로 사용하는 것들
- 감성/의도 분석/리뷰 (가장 일반적)
    - NNG (일반명사), NNP (고유명사), VV (동사), VA (형용사), MAG (일반부사), SL (외국어)
- 명사 기반의 분류 (문서에 대한 분류 작업)
    - NNG (일반명사), NNP (고유명사), NP (대명사), NR (수사)
- 의미가 있는 단어를 최대한 포함하고 싶은 경우
    - NNG (일반명사), NNP (고유명사), VV (동사), VA (형용사), MAG (일반부사), MAJ (접속부사), IC (감탄사), SL (외국어)

In [116]:
# 사용할 형태소의 종류
allow_pos = ['NNG', 'NNP', 'VV', 'VA']

# 선택한 형태소를 추출하기 위한 함수를 정의
def komoran_tokenize(text):
    # 선택한 형태소만 저장하는 빈 리스트를 생성
    result = []
    for morph, pos in komoran.pos(text):
        if pos in allow_pos:
            result.append(morph)
    return result

for idx, t in enumerate(X_train):
    if idx == 5:
        break
    print(komoran_tokenize(t))

['감동', '삶', '희망', '되']
['초등학교', '때', '받']
[]
['보']
['최고', '영화', '평점', '주', '초딩', '대체', '요새', '한국', '영화', '낫', '영화', '넘', '기억', '남', '명작']


# 벡터화
- 토큰화 작업에서 단어들을 추출했다면 해당 단어들을 숫자형으로 변환
    - 숫자 형태로 변환하는 이유 : 컴퓨터가 숫자로만 연산 가능
- 숫자 형태로 변환한 데이터를 학습 데이터로 이용, 정답은 label
</br>⇒ 데이터로 규칙을 생성해가는 과정

In [117]:
# one-hot encoding - 하나의 리뷰에서 특정 단어가 포함되어 있는가?
df = pd.read_csv('../data/ratings_train.txt', sep='\t').dropna()
df.drop('id', axis=1, inplace=True)

In [118]:
df.head()

Unnamed: 0,document,label
0,아 더빙.. 진짜 짜증나네요 목소리,0
1,흠...포스터보고 초딩영화줄....오버연기조차 가볍지 않구나,1
2,너무재밓었다그래서보는것을추천한다,0
3,교도소 이야기구먼 ..솔직히 재미는 없다..평점 조정,0
4,사이몬페그의 익살스런 연기가 돋보였던 영화!스파이더맨에서 늙어보이기만 했던 커스틴 ...,1


In [119]:
# 전체의 텍스트를 이용해 학습하여 단어를 습득한 뒤, 해당하는 단어들이 리뷰에 포함되어 있는지 확인
from sklearn.feature_extraction.text import CountVectorizer

In [120]:
# 객체 생성
# 이진으로 나눠 존재 여부만 파악
vectorizer = CountVectorizer(binary=True)

# 학습한 뒤 변환 (학습할 데이터 대입)
# 데이터는 document의 데이터 중 10개
X = vectorizer.fit_transform(df['document'].head(10))
X

<Compressed Sparse Row sparse matrix of dtype 'int64'
	with 71 stored elements and shape (10, 70)>

In [121]:
# 학습한 단어들이 무엇인지 출력 (단어 사전)
vocab = vectorizer.get_feature_names_out()
print(vocab)    # 인덱스 10개
len(vocab)      # 피쳐 70개

['1학년생인' '3세부터' '8살용영화' 'ㅋㅋㅋ' '가볍지' '가족도없다' '감금만반복반복' '걸음마' '교도소' '그것보단'
 '긴장감을' '길들여져' '길용우' '납치' '낫겟다' '낮은건데' '너무' '너무나도' '너무재밓었다그래서보는것을추천한다'
 '늙어보이기만' '더빙' '던스트가' '돋보였던' '몇안되는' '목소리' '반개도' '발로해도' '별반개도' '볼만한데'
 '사이몬페그의' '살려내지못했다' '솔직히' '스파이더맨에서' '아까움' '아깝다' '않구나' '액션이' '없는데도' '없다'
 '연기가' '연기못하는사람만모엿네' '연기생활이몇년인지' '영화' '오버연기조차' '왜케' '욕나온다' '원작의' '이드라마는'
 '이뻐보였다' '이야기구먼' '이응경' '익살스런' '있나' '있는' '재미' '재미는' '정말' '제대로' '조정' '진짜'
 '짜증나네요' '초등학교' '초딩영화줄' '커스틴' '평점' '평점이' '포스터보고' '했던' '헐리우드식' '화려함에만']


70

In [122]:
# get_feature_names_out() 의 단어를 포함하고 있는지 확인
print(X.toarray())

[[0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1
  0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0
  0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0 1 0 0 0 0 0 1 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 1 0 1 1 0 0 0 0 0 0 1 0 0 1 0 0 0
  0 0 0 1 0 0 1 0 0 0 0 0 1 0 0 1 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 1 0 0]
 [1 1 1 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 0
  0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0]
 [0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0
  0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 

In [123]:
df['label'].head(5)

0    0
1    1
2    0
3    0
4    1
Name: label, dtype: int64

In [124]:
# Okt + CounterVectorizer 같이 사용 -> 토큰화 + 벡터화

okt = Okt()

# 형태소 변환 함수 정의
def okt_tokenize(text):
    # 특정 형태의 단어들만 추출
    # 명사, 동사, 형용사
    select_pos = ['Noun', 'Verb', 'Adjective']
    # pos() 함수 - ( 단어, 형태 ) 를 출력
    # result = okt.morphs(text)
    result = [
        word for word, pos in okt.pos(text) if pos in select_pos
    ]
    # 아래와 같이 작동
    # result2 = []
    # word for word, pos in okt.pos(text):
    #     if pos in select_pos:
    #         result2.append(word)
    return result


# CounterVectorizer 생성
vectorizer_okt = CountVectorizer(
    tokenizer= okt_tokenize,
    lowercase= False,    # 국문에선 괜찮지만 영문에서는 소문자로 통일 필요
    binary= True
)

x_okt = vectorizer_okt.fit_transform(df['document'].head(5))



In [125]:
print(vectorizer_okt.get_feature_names_out())

['가볍지' '교도소' '구먼' '늙어' '다그' '더빙' '던스트' '돋보였던' '래서' '목소리' '몬페' '무재' '밓었'
 '보고' '보는것을' '보였다' '보이기만' '솔직히' '스파이더맨' '않구나' '없다' '연기' '영화' '오버' '의' '이뻐'
 '이야기' '익살스런' '재미' '조정' '줄' '진짜' '짜증나네요' '초딩' '추천' '커스틴' '평점' '포스터' '했던'
 '흠']


In [126]:
print(x_okt.toarray())

[[0 0 0 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 0 0 0
  0 0 0 0]
 [1 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 1 0 1 1 1 0 0 0 0 0 0 1 0 0 1 0 0
  0 1 0 1]
 [0 0 0 0 1 0 0 0 1 0 0 1 1 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0
  0 0 0 0]
 [0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 0 0 0 0 0 1 0 1 1 0 0 0 0 0 0
  1 0 0 0]
 [0 0 0 1 0 0 1 1 0 0 1 0 0 0 0 1 1 0 1 0 0 1 1 0 1 1 0 1 0 0 0 0 0 0 0 1
  0 0 1 0]]


In [127]:
# 보기 편하게 변환
pd.DataFrame(
    x_okt.toarray(),
    columns= vectorizer_okt.get_feature_names_out()
)

Unnamed: 0,가볍지,교도소,구먼,늙어,다그,더빙,던스트,돋보였던,래서,목소리,...,줄,진짜,짜증나네요,초딩,추천,커스틴,평점,포스터,했던,흠
0,0,0,0,0,0,1,0,0,0,1,...,0,1,1,0,0,0,0,0,0,0
1,1,0,0,0,0,0,0,0,0,0,...,1,0,0,1,0,0,0,1,0,1
2,0,0,0,0,1,0,0,0,1,0,...,0,0,0,0,1,0,0,0,0,0
3,0,1,1,0,0,0,0,0,0,0,...,0,0,0,0,0,0,1,0,0,0
4,0,0,0,1,0,0,1,1,0,0,...,0,0,0,0,0,1,0,0,1,0


실제로는 one-hot-encoding은 수치형 데이터에 범주가 들어가있을 때 더 많이 사용

---
# 단어의 중요도를 벡터화
: 단어의 빈도와 희소성을 결합하여 단어의 중요도를 수치화하는 방법

In [153]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [163]:
# 형태소 분석 함수 생성
okt = Okt()

def okt_tokenize(text):
    return okt.morphs(text)

vectorizer_okt = TfidfVectorizer(
    tokenizer = okt_tokenize,   # 토큰화 작업
    ngram_range = (1, 2),       # 단어의 범위 = unigram (단어 1개씩 독립) -> 결과에 가장 영향이 큰 매개변수!
    min_df = 1,                 # 최소 등장 단어의 개수
    lowercase = False           # 모든 문자를 소문자로 변경 (국문에서는 의미 X)    # 국문만 있다고 가정하고, 효율적으로 사용하기 위해 False로 둠
)

# 사용할 샘플 데이터
df = pd.read_csv("../data/ratings_train.txt", sep='\t').dropna()
texts = df['document'].head(5)

x_okt = vectorizer_okt.fit_transform(texts)



In [164]:
# 단어들의 목록 생성
vocab_okt = vectorizer_okt.get_feature_names_out()
len(vocab_okt)

110

In [165]:
# 단어들 간의 중요도
x_okt.toarray()

array([[0.        , 0.        , 0.2472117 , 0.        , 0.30641253,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.30641253, 0.30641253, 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.30641253, 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.30641253, 0.30641253, 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.  

In [166]:
komoran = Komoran()

# 품사 지정
allow_pos = ['NNG', 'NNP', 'VV', 'VA', 'MAG', 'SL']
# 필터용 언어 (포함시키지 않을 언어)
stop_word = ['하다', '되다']

def komoran_tokenize(text):
    tokens = []
    for morph, pos in komoran.pos(text):
        # text: 문장
        # morph: 단어
        # pos: 형태소의 형태(품사)
        # 조건 1. pos가 allow_pos에 포함되어 있다.
        # 조건 2. morph가 stop_word에 포함되어 있지 않다.
        if pos in allow_pos and morph not in stop_word:
            tokens.append(morph)
    return tokens

vectorizer_komoran = TfidfVectorizer(
    tokenizer = okt_tokenize,   # 토큰화 작업
    ngram_range = (1, 1),       # 단어의 범위 = unigram (단어 1개씩 독립) -> 결과에 가장 영향이 큰 매개변수!
    min_df = 1,                 # 최소 등장 단어의 개수
    lowercase = False           # 모든 문자를 소문자로 변경 (국문에서는 의미 X)    # 국문만 있다고 가정하고, 효율적으로 사용하기 위해 False로 둠
)

In [167]:
x_komoran = vectorizer_komoran.fit_transform(texts)

In [168]:
# 단어들의 목록 확인
print(len(vectorizer_komoran.get_feature_names_out()))
print(vectorizer_komoran.get_feature_names_out)

55
<bound method CountVectorizer.get_feature_names_out of TfidfVectorizer(lowercase=False,
                tokenizer=<function okt_tokenize at 0x000001C0213ADA80>)>


In [169]:
x_komoran.toarray()

array([[0.        , 0.33939315, 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.42066906, 0.        , 0.        , 0.        , 0.42066906,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.42066906, 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.42066906, 0.42066906, 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ],
       [0.        , 0.        , 0.28511174, 0.28511174, 0.        ,
        0.28511174, 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0.        , 0.        ,
        0.        , 0.        , 0.        , 0. 

In [170]:
komoran_df = pd.DataFrame(x_komoran.toarray(), columns=vectorizer_komoran.get_feature_names_out())
komoran_df

Unnamed: 0,!,..,...,....,가,가볍지,교도소,구먼,그,너,....1,진짜,짜증나네요,초딩,추천,커스틴,평점,포스터,한,했던,흠
0,0.0,0.339393,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.420669,0.420669,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
1,0.0,0.0,0.285112,0.285112,0.0,0.285112,0.0,0.0,0.0,0.0,...,0.0,0.0,0.285112,0.0,0.0,0.0,0.285112,0.0,0.0,0.285112
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.333333,...,0.0,0.0,0.0,0.333333,0.0,0.0,0.0,0.333333,0.0,0.0
3,0.0,0.473691,0.0,0.0,0.0,0.0,0.293564,0.293564,0.0,0.0,...,0.0,0.0,0.0,0.0,0.0,0.293564,0.0,0.0,0.0,0.0
4,0.211753,0.0,0.0,0.0,0.423506,0.0,0.0,0.0,0.211753,0.0,...,0.0,0.0,0.0,0.0,0.211753,0.0,0.0,0.0,0.211753,0.0


In [171]:
komoran_df['label'] = df['label'].head(5)
komoran_df

Unnamed: 0,!,..,...,....,가,가볍지,교도소,구먼,그,너,....1,짜증나네요,초딩,추천,커스틴,평점,포스터,한,했던,흠,label
0,0.0,0.339393,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,...,0.420669,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0
1,0.0,0.0,0.285112,0.285112,0.0,0.285112,0.0,0.0,0.0,0.0,...,0.0,0.285112,0.0,0.0,0.0,0.285112,0.0,0.0,0.285112,1
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.333333,...,0.0,0.0,0.333333,0.0,0.0,0.0,0.333333,0.0,0.0,0
3,0.0,0.473691,0.0,0.0,0.0,0.0,0.293564,0.293564,0.0,0.0,...,0.0,0.0,0.0,0.0,0.293564,0.0,0.0,0.0,0.0,0
4,0.211753,0.0,0.0,0.0,0.423506,0.0,0.0,0.0,0.211753,0.0,...,0.0,0.0,0.0,0.211753,0.0,0.0,0.0,0.211753,0.0,1
