#  Feature vectorization 개요
- 텍스트를 숫자형값의 정형테이터로 변환하는 것을 Feature vectorization(피처 벡터화) 라고 한다.

## BOW (Bag Of Words)
**많이 나온 단어가 중요한 단어**
- 문서내에 단어 빈도수에 기반하여 Vector화 하는 모델
- DTM/TDM (Document Term Matrix)
    - 문서안에서 문서를 구성하는 단어들이 몇번 나왔는지를 표현하는 행렬
    - 행:단어, 열: 문서 - DTM
    - 행:문서, 열:단어 - TDM
    - Value: 개수
- TF-IDF (Term Frequency Inverse Document Frequency)
    - CountVectorize의 문제: 문장 구조상 많이 나오는 단어들의 경우 카운트 값이 많이 나오게 되고 중요한 단어로 인식된다. (ex: 관사, 접속사, 주제어 등) 이 문제를 보완한 모델이 TF-IDF 모델이다.
    - 개별 문서에 많이 나오는 단어가 높은 값을 가지도록 하되 동시에 여러 문서에 자주 나오는 단어에는 페널티를 주는 방식

## DTM/TDM (Document Term Matrix)

- 단어들이 각 문서에 몇번 나왔는지 행렬로 구성
- 많이 나온 단어가 중요한 단어라는 것을 기반으로 한다.
- 문서 단어 행렬(Document Term Matrix)
    - 문서별로 각 단어가 나타난 **횟수를 정리한 표**
    - 컬럼(Feature): 전체 문서에 나오는 모든 단어
    - 행 : 문서
    - 값(value) : 각 단어가 문서에 나온 횟수
- 단어 문서 행렬(Term Document Matrix)
    - DTM을 전치 시킨 것
    - 컬럼(Feature): 문서
    - 행: 전체 문서에 나오는 모든 단어
    - 값(value) : 각 단어가 문서에 나온 횟수
- scikit-learn의 CountVectorize 이용

## CountVectorizer 
#### 주요 생성자 매개변수
- stop_word :stopword 지정 
    - str: "english" - 영문 불용어는 제공됨
    - list: stopword 리스트
- max_df: 특정 횟수 이상나오는 것은 무시하도록 설정(무시할 횟수/비율 지정)
    - int(횟수), float(비율)
- min_df: 특정 횟수 이하로 나오는 것은 무시하도록 설정(무시할 횟수/비율 지정)
- max_features: 최대 token 수
    - 빈도수가 높은 순서대로 정렬 후 지정한 max_features 개수만큼만 사용한다.
- ngram_range: n_gram 범위 지정
    - n_gram:
    - 튜플 (범위 최소값, 범위 최대값)
    - (1, 2) : 토큰화된 단어를 1개씩 그리고 순서대로 2개씩 묶어서 Feature를 추출

#### 메소드
- fit(X)
    - 학습
    - 매개변수: raw document - 문장을 원소로 가지는 1차원 배열형태(list, ndarray) 
    - **Train(훈련) 데이터셋 으로 학습한다. Test 데이터셋은 Train 셋으로 학습한 CountVectorizer를 이용해 변환만 한다.**
- transform(X)
    - DTM 변환
- fit_transform(X)
    - 학습/변환 한번에 처리

### n-gram
DTM는 문맥상에서 단어의 의미는 무시된다. 이것을 보완하는 것이 n-gram 기법이다.   
n개의 단어를 묶어서 feature로 구성한다.

In [1]:
# 문자열 1개 == 문서 1개
train = ["He really likes football. He wants to be a football player.", 
         "Football is a popular sport in Europe.", 
         "Which country started football?"]
test = ["He really likes baseball. He wants to be a baseball player.", 
        "Baseball is a popular sport in Korea."]

In [2]:
!pip install scikit-learn

Collecting scikit-learn
  Downloading scikit_learn-1.4.2-cp311-cp311-win_amd64.whl.metadata (11 kB)
Collecting scipy>=1.6.0 (from scikit-learn)
  Using cached scipy-1.13.0-cp311-cp311-win_amd64.whl.metadata (60 kB)
Collecting threadpoolctl>=2.0.0 (from scikit-learn)
  Using cached threadpoolctl-3.4.0-py3-none-any.whl.metadata (13 kB)
Downloading scikit_learn-1.4.2-cp311-cp311-win_amd64.whl (10.6 MB)
   ---------------------------------------- 0.0/10.6 MB ? eta -:--:--
   ---------------------------------------- 0.0/10.6 MB 991.0 kB/s eta 0:00:11
   --- ------------------------------------ 0.8/10.6 MB 10.1 MB/s eta 0:00:01
   ---------------- ----------------------- 4.3/10.6 MB 34.5 MB/s eta 0:00:01
   --------------------------------- ------ 9.0/10.6 MB 52.2 MB/s eta 0:00:01
   ------------------------------------- -- 9.9/10.6 MB 45.1 MB/s eta 0:00:01
   ---------------------------------------- 10.6/10.6 MB 54.4 MB/s eta 0:00:00
Using cached scipy-1.13.0-cp311-cp311-win_amd64.whl (46.2

In [6]:
from sklearn.feature_extraction.text import CountVectorizer

cv = CountVectorizer()
cv.fit(train)  # DTM을 어떻게 만들지 train set을 이용해 학습.  ==> vocab 생성
train_cv = cv.transform(train) # 변환작업  ==> 문장별 빈도수를 가지고 dtm을 생성.

In [7]:
# 어절단위 토큰화. 모두 소문자로 변환.
cv.vocabulary_  # 어휘 사전 반환.  dict: token-id

{'he': 4,
 'really': 10,
 'likes': 7,
 'football': 3,
 'wants': 14,
 'to': 13,
 'be': 0,
 'player': 8,
 'is': 6,
 'popular': 9,
 'sport': 11,
 'in': 5,
 'europe': 2,
 'which': 15,
 'country': 1,
 'started': 12}

In [8]:
train_cv

<3x16 sparse matrix of type '<class 'numpy.int64'>'
	with 18 stored elements in Compressed Sparse Row format>

In [9]:
print(train_cv)

  (0, 0)	1
  (0, 3)	2
  (0, 4)	2
  (0, 7)	1
  (0, 8)	1
  (0, 10)	1
  (0, 13)	1
  (0, 14)	1
  (1, 2)	1
  (1, 3)	1
  (1, 5)	1
  (1, 6)	1
  (1, 9)	1
  (1, 11)	1
  (2, 1)	1
  (2, 3)	1
  (2, 12)	1
  (2, 15)	1


In [10]:
# ndarray 로 변환
train_cv.toarray()

array([[1, 0, 0, 2, 2, 0, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0],
       [0, 0, 1, 1, 0, 1, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0],
       [0, 1, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1]], dtype=int64)

In [11]:
train_cv.shape
# 3 x 16  (3: 문서 개수, 16: 토큰들)

(3, 16)

In [17]:
cv.get_feature_names_out() # 각 feature(컬럼) 가 어떤 단어인지 출력

array(['be', 'country', 'europe', 'football', 'he', 'in', 'is', 'likes',
       'player', 'popular', 'really', 'sport', 'started', 'to', 'wants',
       'which'], dtype=object)

In [18]:
import pandas as pd
train_dtm = pd.DataFrame(train_cv.toarray(), columns=cv.get_feature_names_out())
train_dtm

Unnamed: 0,be,country,europe,football,he,in,is,likes,player,popular,really,sport,started,to,wants,which
0,1,0,0,2,2,0,0,1,1,0,1,0,0,1,1,0
1,0,0,1,1,0,1,1,0,0,1,0,1,0,0,0,0
2,0,1,0,1,0,0,0,0,0,0,0,0,1,0,0,1


In [13]:
train

['He really likes football. He wants to be a football player.',
 'Football is a popular sport in Europe.',
 'Which country started football?']

In [16]:
pd.Series(cv.vocabulary_).sort_values()

be           0
country      1
europe       2
football     3
he           4
in           5
is           6
likes        7
player       8
popular      9
really      10
sport       11
started     12
to          13
wants       14
which       15
dtype: int64

In [21]:
### test 에 저장된 문서들을 변환
test_cv = cv.transform(test)
test_cv.toarray()

array([[1, 0, 0, 0, 2, 0, 0, 1, 1, 0, 1, 0, 0, 1, 1, 0],
       [0, 0, 0, 0, 0, 1, 1, 0, 0, 1, 0, 1, 0, 0, 0, 0]], dtype=int64)

In [23]:
# train (cv.fit()) 에서 찾지 못한 토큰 (Unknown - UNK)의 경우 무시(제거)된다.
### baseball -> train에는 없고 test에 만 있는 token.
test_dtm = pd.DataFrame(test_cv.toarray(), columns=cv.get_feature_names_out())
test_dtm

Unnamed: 0,be,country,europe,football,he,in,is,likes,player,popular,really,sport,started,to,wants,which
0,1,0,0,0,2,0,0,1,1,0,1,0,0,1,1,0
1,0,0,0,0,0,1,1,0,0,1,0,1,0,0,0,0


In [24]:
test

['He really likes baseball. He wants to be a baseball player.',
 'Baseball is a popular sport in Korea.']

In [25]:
train

['He really likes football. He wants to be a football player.',
 'Football is a popular sport in Europe.',
 'Which country started football?']

In [40]:
##### train + test 합쳐서 학습, 개별적으로 변환환.
data = train + test
# cv = CountVectorizer()
cv = CountVectorizer(ngram_range=(1, 3)) 
cv.fit(data)
train_cv2 = cv.transform(train)
test_cv2 = cv.transform(test)
print(train_cv2.shape, test_cv2.shape)

(3, 21) (2, 21)


In [41]:
## 확인을 위해서 DataFrame으로 생성
train_dtm2 = pd.DataFrame(train_cv2.toarray(), columns=cv.get_feature_names_out())
test_dtm2 = pd.DataFrame(test_cv2.toarray(), columns=cv.get_feature_names_out())

In [42]:
train_dtm2

Unnamed: 0,baseball he wants,baseball is popular,be baseball player,be football player,country started football,football he wants,football is popular,he really likes,he wants to,is popular sport,...,likes football he,popular sport in,really likes baseball,really likes football,sport in europe,sport in korea,to be baseball,to be football,wants to be,which country started
0,0,0,0,1,0,1,0,1,1,0,...,1,0,0,1,0,0,0,1,1,0
1,0,0,0,0,0,0,1,0,0,1,...,0,1,0,0,1,0,0,0,0,0
2,0,0,0,0,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,1


In [43]:
test_dtm2

Unnamed: 0,baseball he wants,baseball is popular,be baseball player,be football player,country started football,football he wants,football is popular,he really likes,he wants to,is popular sport,...,likes football he,popular sport in,really likes baseball,really likes football,sport in europe,sport in korea,to be baseball,to be football,wants to be,which country started
0,1,0,1,0,0,0,0,1,1,0,...,0,0,1,0,0,0,1,0,1,0
1,0,1,0,0,0,0,0,0,0,1,...,0,1,0,0,0,1,0,0,0,0


In [44]:
data

['He really likes football. He wants to be a football player.',
 'Football is a popular sport in Europe.',
 'Which country started football?',
 'He really likes baseball. He wants to be a baseball player.',
 'Baseball is a popular sport in Korea.']

In [45]:
cv.get_feature_names_out()

array(['baseball he wants', 'baseball is popular', 'be baseball player',
       'be football player', 'country started football',
       'football he wants', 'football is popular', 'he really likes',
       'he wants to', 'is popular sport', 'likes baseball he',
       'likes football he', 'popular sport in', 'really likes baseball',
       'really likes football', 'sport in europe', 'sport in korea',
       'to be baseball', 'to be football', 'wants to be',
       'which country started'], dtype=object)

In [46]:
#### tokenizer 처리 함수를 이용.
text_list = []
with open("data/petitions_corpus.txt", 'rt', encoding='utf-8') as fr:
    for _ in range(10):
        text_list.append(fr.readline())  # 10개 문서를 읽어서 리스트에 저장.

In [48]:
print(len(text_list))
text_list[-1]

10


'저는 편의점 사업을 꿈꾸고 있는 서른세살!! 다섯식구의 가장입니다. 한 번만 읽어봐주시고 많은 도움 부탁드립니다. 브랜드 편의점을 5년 동안 운영하다 너무 지치고 실망한 점이 너무 많아서 계약기간이 끝나갈때쯤 재계약을 하지 않은 상태에서 다른 브랜드 편의점을 알아보면서 시간을 보내고 있는 대 기존 점포 담당자는 연락 한 번도 없다가 계약이 끝나기 하루 전에 재계약 문제로 연락이 왔습니다. 이래저래 이래서 좀 쉴 수 있는 시간이랑을 좀 재계약 내용으로 이야기가 오고 가는 있다가 다시한번 생각해보고 연락을 주겠다 하더니 연락 한번 안 오다가 타사 편의점으로 이동하려고 맘을 먹고 교육받고 준비를 하니 그때야 재계약 문제로 연락이 계속 오더라고요. 이렇게 재계약은 하지 않고 타사 편의점으로 이동하는 과정에서 많은 문제도 있고 어려움을 겪으면서 맘을 잡고 타사 편의점과 계약을 했습니다. 지금 위탁 점포가 들어오기 전 자리에서는 휴대폰 매장이 운영을 잘 하고 있는대 갑자기 매장이 빠지면서 인테리어 공사를 하더라고요. 그러면서 소문이 하나둘씩 돌기 시작했습니다. 보복 점포가 들어온다는 말을 들었습니다. 처음에는 "아닐 거야" "설마"라는 생각을 했습니다. 내부 인테리어가 끝날 때쯤 편의점이 들어올 수 있는 평수도 아니라고 생각했습니다. 중간에 재가 운영하던 편의점의 로그가 생길 때까지만 해도.... "편의점이야?"라는 생각이랑 "거리 제한 때문에 안 될 텐데?"하지만 바로 앞에 걸어서 10? 초도 안 걸리는 자리에 재가 운영을 하던 브랜드 편의점이 50평이라 거리 제한 없이 들어왔습니다 50평인 이유는 담배를 판매할 수 있기 때문에 무리하게 평수를 잡았다고 합니다. 누가 보고 다시 봐도 편의점 자리가 아니고 바로 5m 앞에 작은마트도 있어서 50평의 편의점이 들어올 이유가 없습니다. 거기다 이동인구 많지도 않아서 단골손님 위주로 하는 동내 장사 자리입니다. 위탁 점포 편의점은 모든 상품을 다 본사에서 지원해주고 있어 매출보다 물량으로 승부합니다 제가 운영하는 편의점이 손

In [49]:
from sentencepiece import SentencePieceProcessor
# 토크나이저 생성 및 학습 모델 로딩
tokenizer = SentencePieceProcessor()
tokenizer.load('saved_models/petitions_bpe.model')

True

In [59]:
import re
def bpe_tokenizer(document):
    # 클리닝(텍스트 정제)
    document = re.sub("\d+", '', document)
    return tokenizer.EncodeAsPieces(document)

In [60]:
cv = CountVectorizer(
    tokenizer=bpe_tokenizer, # 토큰화 함수를 제공.
    token_pattern=None  # 토큰기준 regexp 패턴. 토크나이저 함수를 지정하므로 default 패턴을 제거.
)
cv.fit(text_list)

In [61]:
result = cv.transform(text_list)
result.shape
# 10: 문서 개수, vocab의 토큰(단어) 수: 2429

(10, 2358)

In [62]:
cv.get_feature_names_out()[:20]

array(['!', '!!', '"', '%', '&', "'", '(', ')', '),', ',', '-', '--',
       '--------', '----------------', '.', '."', ".'", '.(', '..', '...'],
      dtype=object)

In [57]:
result.toarray()

array([[ 0,  0,  0, ...,  0,  0,  0],
       [ 0,  0,  0, ...,  0,  0,  0],
       [ 0,  0,  0, ...,  0,  0,  0],
       ...,
       [ 0, 12,  0, ...,  1,  1,  0],
       [ 0,  0,  0, ...,  0,  0,  1],
       [ 2,  3, 17, ...,  0,  0,  0]], dtype=int64)

## TF-IDF (Term Frequency - Inverse Document Frequency)
- 개별 문서에 많이 나오는 단어가 높은 값을 가지도록 하되 동시에 여러 문서에 자주 나오는 단어에는 페널티를 주는 방식
- 어떤 문서에 특정 단어가 많이 나오면 그 단어는 해당 문서를 설명하는 중요한 단어일 수 있다. 그러나 그 단어가 다른 문서에도 많이 나온다면 언어 특성이나 주제상 많이 사용되는 단어 일 수 있다.
    - 전체 문서에 고르게 많이 나오는 단어들은 각각의 문서가 다른 문서와 다른 특징을 찾는데 도움이 안된다. 그래서 페널티를 주어 작은 값이 되도록 한다.
- 각 문서의 길이가 길고 문서개수가 많은 경우 Count 방식 보다 TF-IDF 방식이 더 좋은 예측 성능을 내는 경우가 많다.

### 공식
- TF (Term Frequency) : 해당 단어가 해당 문서에 몇번 나오는지를 나타내는 지표
- DF (Document Frequency) : 해당 단어가 몇개의 문서에 나오는지를 나타내는 지표
- IDF (Inverse Document Frequency) : DF에 역수로 $\cfrac{전체 문서수}{해당단어가 나오는 문서수}$
- TF-IDF : $TF * \left(\log \cfrac{전체 문서수}{해당단어가 나오는 문서수} \right)$

### TfidfVectorizer

#### 주요 생성자 매개변수
- stop_word :stopword 지정 
    - str: "english" - 영문 불용어는 제공됨
    - list: stopword 리스트
- max_df: 특정 횟수 이상나오는 것은 무시하도록 설정(무시할 횟수/비율 지정)
    - int(횟수), float(비율)
- min_df: 특정 횟수 이하로 나오는 것은 무시하도록 설정(무시할 횟수/비율 지정)
- max_features: 최대 token 수
    - 빈도수가 높은 순서대로 정렬 후 지정한 max_features 개수만큼만 사용한다.
- ngram_range: n_gram 범위 지정
    - n_gram:
    - 튜플 (범위 최소값, 범위 최대값)
    - (1, 2) : 토큰화된 단어를 1개씩 그리고 순서대로 2개씩 묶어서 Feature를 추출

#### 메소드
- fit(X)
    - 학습
    - 매개변수: 문장을 가진 1차원 배열형태(list, ndarray) 
    - **Train(훈련) 데이터셋 으로 학습한다. Test 데이터셋은 Train 셋으로 학습한 CountVectorizer를 이용해 변환만 한다.**
- transform(X)
    - DTM 변환
- fit_transform(X)
    - 학습/변환 한번에 처리

In [63]:
train = ["He really likes football. He wants to be a football player.", 
         "Football is a popular sport in Europe.", 
         "Which country started football?"]
test = ["He really likes baseball. He wants to be a baseball player.", 
        "Baseball is a popular sport in Korea."]
data = train+test

In [73]:
from sklearn.feature_extraction.text import TfidfVectorizer

# tfidf = TfidfVectorizer()
tfidf = TfidfVectorizer(ngram_range=(1,2))
# 학습-어떻게 바꿀지
tfidf.fit(data)
# 변환
train_tfidf = tfidf.transform(train)
test_tfidf = tfidf.transform(test)

In [74]:
train_tfidf.shape

(3, 41)

In [75]:
train_df = pd.DataFrame(train_tfidf.toarray(), columns=tfidf.get_feature_names_out())
test_df = pd.DataFrame(test_tfidf.toarray(), columns=tfidf.get_feature_names_out())
train_df

Unnamed: 0,baseball,baseball he,baseball is,baseball player,be,be baseball,be football,country,country started,europe,...,sport,sport in,started,started football,to,to be,wants,wants to,which,which country
0,0.0,0.0,0.0,0.0,0.204545,0.0,0.253528,0.0,0.0,0.0,...,0.0,0.0,0.0,0.0,0.204545,0.204545,0.204545,0.204545,0.0,0.0
1,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.353445,...,0.285157,0.285157,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.0
2,0.0,0.0,0.0,0.0,0.0,0.0,0.0,0.393795,0.393795,0.0,...,0.0,0.0,0.393795,0.393795,0.0,0.0,0.0,0.0,0.393795,0.393795


# IMDB(Internet Movie Database)  영화리뷰 데이터 셋
- https://www.imdb.com/
- 다운로드: http://ai.stanford.edu/~amaas/data/sentiment/
    - train의 unsup 은 제거 (비지도학습용)

- load_files() 
    - 분류범주를 폴더로 분리한 텍스트 파일을 load한다.
    - Bunch 타입으로 반환

In [77]:
!pip install wget

Collecting wget
  Using cached wget-3.2-py3-none-any.whl
Installing collected packages: wget
Successfully installed wget-3.2


In [78]:
### 다운로드
import wget
url = "https://ai.stanford.edu/~amaas/data/sentiment/aclImdb_v1.tar.gz"
f_path = wget.download(url, out="data")
f_path

100% [........................................................................] 84125825 / 84125825

'data/aclImdb_v1.tar.gz'

In [79]:
## 압축풀기 - tar
import tarfile
with tarfile.open(f_path) as tar: # 압축파일과 연결.
    tar.extractall("data")   # 압축풀기 - 어디에 풀지 디렉토리 경로지정. 

In [80]:
# train/unsup 디렉토리 삭제
import shutil
shutil.rmtree("data/aclImdb/train/unsup/")  # 디렉토리 삭제 함수.

In [82]:
from sklearn.datasets import load_files
## load_files("dir경로")
#### dir경로 하위디렉토들을 class 로해서 그 안에 text파일들을 읽어들인다.
review_train = load_files('data/aclImdb/train')
review_test = load_files('data/aclImdb/test')

In [85]:
# 읽은 text
review_train.data[:2]

[b"Zero Day leads you to think, even re-think why two boys/young men would do what they did - commit mutual suicide via slaughtering their classmates. It captures what must be beyond a bizarre mode of being for two humans who have decided to withdraw from common civility in order to define their own/mutual world via coupled destruction.<br /><br />It is not a perfect movie but given what money/time the filmmaker and actors had - it is a remarkable product. In terms of explaining the motives and actions of the two young suicide/murderers it is better than 'Elephant' - in terms of being a film that gets under our 'rationalistic' skin it is a far, far better film than almost anything you are likely to see. <br /><br />Flawed but honest with a terrible honesty.",
 b'Words can\'t describe how bad this movie is. I can\'t explain it by writing only. You have too see it for yourself to get at grip of how horrible a movie really can be. Not that I recommend you to do that. There are so many cli

In [86]:
type(review_train.data[0]) # bytes 타입 (나중에 str 타입으로 변환 필요)

bytes

In [87]:
review_train.target[:2]   # 0: neg, 1: pos # review_train.data로 조회한 댓글들이 긍정인지 부정인지 label.

array([1, 0])

In [88]:
###
# tokenizer함수 - 전처리 + 토큰화
from nltk.tag import pos_tag
from nltk.corpus import stopwords
from nltk.stem import WordNetLemmatizer
import nltk

def get_wordnet_tagset(tag):
    if tag.startswith('J'):
        return 'a'
    elif tag.startswith('N'):
        return 'n'
    elif tag.startswith('V'):
        return 'v'
    elif tag.startswith('R'):
        return 'r'
    else:
        return None

In [104]:
def imdb_tokenizer(document):
    lemm = WordNetLemmatizer()
    stop_words = stopwords.words('english')

    # imdb dataset:  bytes -> str (bytes.decode('utf-8'))
    # document = document.decode('utf-8')  # str->btye:  str.encode('utf-8')
    # 소문자로 모두 변환
    document = document.lower()
    # <br /> 제거 => 공백으로 변환.
    document = document.replace("<br />", ' ')
    # 토큰화
    tokens = nltk.regexp_tokenize(document, r'[a-z]+')  # 문자열만 남기고 제거.
    # 원형복원
    ### 품사 태깅
    tokens = pos_tag(tokens)  # [(단어, 품사), ...]
    tokens = [lemm.lemmatize(word, pos=get_wordnet_tagset(tag))  
                          for word, tag in tokens if get_wordnet_tagset(tag) is not None]
    return tokens

In [97]:
imdb_tokenizer(review_train.data[0])

['day',
 'lead',
 'think',
 'even',
 're',
 'think',
 'boy',
 'young',
 'men',
 'do',
 'do',
 'commit',
 'mutual',
 'suicide',
 'slaughter',
 'classmate',
 'capture',
 'be',
 'bizarre',
 'mode',
 'be',
 'human',
 'have',
 'decide',
 'withdraw',
 'common',
 'civility',
 'order',
 'define',
 'own',
 'mutual',
 'world',
 'couple',
 'destruction',
 'be',
 'not',
 'perfect',
 'movie',
 'give',
 'money',
 'time',
 'filmmaker',
 'actor',
 'have',
 'be',
 'remarkable',
 'product',
 'term',
 'explain',
 'motif',
 'action',
 'young',
 'suicide',
 'murderer',
 'be',
 'well',
 'elephant',
 'term',
 'be',
 'film',
 'get',
 'rationalistic',
 'skin',
 'be',
 'far',
 'far',
 'good',
 'film',
 'almost',
 'anything',
 'be',
 'likely',
 'see',
 'flawed',
 'honest',
 'terrible',
 'honesty']

## Feature Vectorization 

### DTM

In [101]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

In [102]:
cv = CountVectorizer(
    max_features=20_000,  # 총 token 개수
    min_df= 5, # 빈도수가 5회 미만인 token 제외
    tokenizer=imdb_tokenizer,
    token_pattern=None
)

In [103]:
train_set = review_train.data
test_set = review_test.data
# 학습
cv.fit(train_set + test_set) # 두 리스트 합쳐서 학습

In [105]:
train_set_cv = cv.transform(train_set)
test_set_cv = cv.transform(test_set)

In [106]:
train_set_cv.shape, test_set_cv.shape

((25000, 20000), (25000, 20000))

In [109]:
### 파일 저장. 
import os
os.makedirs('data/imdb_dataset', exist_ok=True)

In [110]:
import pickle
with open("data/imdb_dataset/train_set_cv.pickle", "wb") as fo:
    pickle.dump(train_set_cv, fo)

with open("data/imdb_dataset/test_set_cv.pickle", "wb") as fo2:
    pickle.dump(test_set_cv, fo2)


### TF-IDF

In [111]:
tfidf = TfidfVectorizer(
    max_features=20_000, 
    min_df=5,
    tokenizer=imdb_tokenizer,
    token_pattern=None
)
tfidf.fit(train_set+test_set)

In [112]:
train_set_tfidf = tfidf.transform(train_set)
test_set_tfidf = tfidf.transform(test_set)

In [113]:
train_set_tfidf.shape, test_set_tfidf.shape

((25000, 20000), (25000, 20000))

In [115]:
tfidf.get_feature_names_out()[:20]

array(['aa', 'aaa', 'aag', 'aaliyah', 'aames', 'aamir', 'aardman',
       'aaron', 'ab', 'aback', 'abandon', 'abandoned', 'abandonment',
       'abba', 'abbas', 'abbey', 'abbie', 'abbot', 'abbott', 'abby'],
      dtype=object)

In [116]:
# 파일 저장
with open("data/imdb_dataset/train_set_tfidf.pickle", "wb") as fo3:
    pickle.dump(train_set_tfidf, fo3)

with open("data/imdb_dataset/test_set_tfidf.pickle", "wb") as fo4:
    pickle.dump(test_set_tfidf, fo4)

In [117]:
#### label 저장 (각 댓글이 긍정인지 부정인지에 대한 Label)
with open("data/imdb_dataset/train_label.pickle", "wb") as fo5:
    pickle.dump(review_train.target, fo5)

with open("data/imdb_dataset/test_label.pickle", "wb") as fo6:
    pickle.dump(review_test.target, fo6)

In [118]:
review_train.target

array([1, 0, 1, ..., 0, 0, 0])