#### 빈도수 기반 텍스트 표현 (BoW, TF-IDF)

## BOW 기반의 카운트 벡터 생성

* 사이킷런의 CountVectorizer 클래스 활용 연습
    * sklearn 설치 : **pip install scikit-learn**

### 영어 문서 카운트 벡터 추출

In [None]:
sample_corpus = [
    'This is the first document.',
    'This document is the second document.',
    'And this is the third one.',
    'Is this the first document?'
]

In [None]:
# Vectorizer 객체 생성
from sklearn.feature_extraction.text import CountVectorizer
cVectorizer = CountVectorizer()


# 특징 집합 생성
cVectorizer.fit(sample_corpus)
print(cVectorizer.get_feature_names_out())

# 카운트 벡터 생성
sample_dtm = cVectorizer.transform(sample_corpus)

# DTM 출력
print(sample_dtm.toarray())


In [None]:
# 참고
feature_set = cVectorizer.vocabulary_
print(feature_set)

# index 0부터 출력
print(sorted(feature_set.items(), key=lambda x : x[1]))

### 한글 문서 카운트 벡터 추출

In [None]:
sample_corpus = [
    '자연어처리 강의를 시작하겠습니다.',
    '자연어처리는 재미있습니다.',
    '밥을 먹고 강의를 듣고 있습니다.',
    '이번 자연어처리 강의는 한국어 자연어처리입니다.' 
]

In [None]:
#한국어 토크나이저 정의
from konlpy.tag import Okt
def my_tokenizer(text):
    t = Okt()
    return t.nouns(text)

my_stopwords = ['이번']

# Vectorizer 객체 생성
from sklearn.feature_extraction.text import CountVectorizer
# cVectorizer = CountVectorizer(tokenizer=t.nouns)
cVectorizer = CountVectorizer(tokenizer=my_tokenizer, stop_words=my_stopwords)

# 특징 집합 생성
cVectorizer.fit(sample_corpus)
print(cVectorizer.get_feature_names_out())
print(cVectorizer.vocabulary_)

# 카운트 벡터 생성
sample_dtm = cVectorizer.transform(sample_corpus)

# DTM 출력
print(sample_dtm.toarray())


In [None]:
# Vectorizer에 사용할 한국어 tokenizer 정의 (정제, 불용어제거 등의 기능 추가)
def my_tokenizer(text):
    t = Okt()
    my_tags = ['Noun', 'Verd', 'Adjective']
    tokens = [word for word, tag in t.pos(text) if tag in my_tags]
    return tokens

In [None]:
# 사용자 정의 tokenizer를 사용하여 Vectorizer 객체 생성
from sklearn.feature_extraction.text import CountVectorizer
cVectorizer = CountVectorizer(tokenizer=my_tokenizer)

# 특징 집합 생성
cVectorizer.fit(sample_corpus)
print(cVectorizer.get_feature_names_out())

# 카운트 벡터 생성
sample_dtm = cVectorizer.transform(sample_corpus)

# DTM 출력
print(sample_dtm.toarray())

## TF-IDF 벡터 생성
* sklearn.feature_extraction.text.TfidfVectorizer 사용
1. 한글 토크나이저 정의
2. 특징 추출 모델 생성 : Vectorizer -> fit()
3. 문서별 특징 벡터 추출 : transform()

### 한글 토크나이저 정의

In [None]:
from konlpy.tag import Okt

def my_tokenizer(text):
    t = Okt()
    my_tags = ['Noun','Verb','Adjective']
    tokens = [word for word, tag in t.pos(text) if tag in my_tags]
    return tokens

In [None]:
# 정의한 tokenizer로 1~2문서 확인


### 특징 추출 모델 생성 : TfIdfVectorizer

In [None]:
# TfIdfVectorizer 객체 생성 (tokenizer 지정, 최대 단어 수지 지정)
from sklearn.feature_extraction.text import TfidfVectorizer
tVectorizer = TfidfVectorizer(tokenizer=my_tokenizer, max_features=1000)

### 문서별 특징 벡터 추출

In [None]:
# 특징 집합과 특징 벡터 계산을 위한 데이터 추출
tVectorizer.fit(sample_corpus)
print(tVectorizer.get_feature_names_out())

In [None]:
# 특징 벡터 추출
sample_tfidf_dtm = tVectorizer.transform(sample_corpus)
print(sample_tfidf_dtm.toarray())

## 다음(Daum) 영화 리뷰 TF-IDF 벡터 추출

In [None]:
# csv 파일 → DataFrame으로 업로드
import pandas as pd
movie_df = pd.read_csv('./data/daum_movie_review.csv')
movie_df.head()
review_corpus = movie_df['review']

In [None]:
# Vectorizer 객체 생성
from sklearn.feature_extraction.text import TfidfVectorizer
review_tv = TfidfVectorizer(tokenizer=my_tokenizer, max_features=1000)

In [None]:
# Vectorizer 모델 생성
review_tv.fit(review_corpus)

In [None]:
# 특징 집합 구성 단어 확인
review_tv.get_feature_names_out()

In [None]:
# 새로운 텍스트의 tfidf 특징 벡터 추출
print(review_tv.transform(["이 영화 굿~~~~"]))

**[참고] Tfidf 특징 벡터 추출 모델을 파일로 저장하기**

In [None]:
import joblib
joblib.dump(review_tv, './model/daum_review_tv.pkl')

In [None]:
loaded_tv = joblib.load('./model/daum_review_tv.pkl')

In [None]:
print(loaded_tv.transform(["이 영화 굿~~~~"]))