**문서 데이터를 표 형태의 데이터로 바꾸는 방법**

단어빈도수 이용방법

TF - IDF ( term frequency - inverse document frequency)

In [1]:
import numpy as np
from sklearn.feature_extraction.text import  CountVectorizer, TfidfVectorizer

from sklearn.svm import LinearSVC
from sklearn.datasets import fetch_20newsgroups

In [2]:

# 문서 데이터로 사용할 뉴스 그룹 테마 설정
categories = ['alt.atheism', 'soc.religion.christian', 'comp.graphics', 'sci.med']

# 본문 이외의 뉴스 그룹 게시물 데이터 제거
remove = ('headers', 'footers', 'quotes')

# 학습 데이터 설정
twenty_train = fetch_20newsgroups(subset='train', remove=remove, categories=categories)

# 검정 데이터 설정
twenty_test = fetch_20newsgroups(subset='test', remove=remove, categories=categories)

Downloading 20news dataset. This may take a few minutes.
Downloading dataset from https://ndownloader.figshare.com/files/5975967 (14 MB)


In [3]:
# 문서 데이터를 단어 빈도 수로 변환하는 모델 생성
count_vect = CountVectorizer()

# 학습 데이터에서 단어 빈도 수의 특징을 생성하고 학습 후 변환
X_train_counts = count_vect.fit_transform(twenty_train.data)

# 검정 데이터에서 단어 빈도 수의 특징을 생성하고 검정 후 변환
X_test_count = count_vect.transform(twenty_test.data)

# 선형 서포트 벡터 머신 모델 생성
model = LinearSVC (max_iter= 20000)

model.fit (X_train_counts, twenty_train.target)

predicted = model.predict ( X_test_count)

In [4]:
# 예측 결과와 학습 데이터의 종속 변수가 같을 때의 평균 계산

print (np.mean (predicted == twenty_test.target))

0.7423435419440746


이전은 linearSVC이용

다음은 TF-IDF이용

In [5]:
# 문서 데이터를 TF-IDF로 변환하는 모델 생성
# Term Frequency/ Inverse Document Frequency
tf_vect = TfidfVectorizer()

# 학습 데이터에서 TF-IDF의 특징을 생성하고 학습 후 변환
X_train_tfidf = tf_vect.fit_transform(twenty_train.data)

# 검정 데이터에서 TF-IDF의 특징을 생성하고 검정 후 변환
X_test_tfidf = tf_vect.transform(twenty_test.data)

# 선형 서포트 벡터 머신 모델 생성
model = LinearSVC (max_iter= 20000)

model.fit (X_train_tfidf, twenty_train.target)

predicted = model.predict ( X_test_tfidf)
print (np.mean (predicted == twenty_test.target))

0.8149134487350199


단어 빈도수로 데이터를 변환했을 때보다 정확도가 높음

TF-IDF를 이용하는 것이 문서 데이터의 특성을 잘 나타낸다고 말할 수 있다