# 문서 분류(Document Classification)

## 데이터 준비
* 문서 분류에 필요한 데이터는 scikit-learn이 제공하는 20개의 주제를 가지는 뉴스그룹 데이터를 사용
* 텍스트는 CounterVectorizer를 거쳐 DTM으로 변환
* DTM은문서에 등장하는 단어들을 빈도 수 별로 표현한 행렬

In [6]:
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.model_selection import train_test_split

news = fetch_20newsgroups()

In [20]:
news.keys()

dict_keys(['data', 'filenames', 'target_names', 'target', 'DESCR'])

In [19]:
news.data[:2]

["From: lerxst@wam.umd.edu (where's my thing)\nSubject: WHAT car is this!?\nNntp-Posting-Host: rac3.wam.umd.edu\nOrganization: University of Maryland, College Park\nLines: 15\n\n I was wondering if anyone out there could enlighten me on this car I saw\nthe other day. It was a 2-door sports car, looked to be from the late 60s/\nearly 70s. It was called a Bricklin. The doors were really small. In addition,\nthe front bumper was separate from the rest of the body. This is \nall I know. If anyone can tellme a model name, engine specs, years\nof production, where this car is made, history, or whatever info you\nhave on this funky looking car, please e-mail.\n\nThanks,\n- IL\n   ---- brought to you by your neighborhood Lerxst ----\n\n\n\n\n",
 "From: guykuo@carson.u.washington.edu (Guy Kuo)\nSubject: SI Clock Poll - Final Call\nSummary: Final call for SI clock reports\nKeywords: SI,acceleration,clock,upgrade\nArticle-I.D.: shelley.1qvfo9INNc3s\nOrganization: University of Washington\nLines: 

In [16]:
news.target_names

['alt.atheism',
 'comp.graphics',
 'comp.os.ms-windows.misc',
 'comp.sys.ibm.pc.hardware',
 'comp.sys.mac.hardware',
 'comp.windows.x',
 'misc.forsale',
 'rec.autos',
 'rec.motorcycles',
 'rec.sport.baseball',
 'rec.sport.hockey',
 'sci.crypt',
 'sci.electronics',
 'sci.med',
 'sci.space',
 'soc.religion.christian',
 'talk.politics.guns',
 'talk.politics.mideast',
 'talk.politics.misc',
 'talk.religion.misc']

In [25]:
x = news.data
y = news.target

cv = CountVectorizer()
x = cv.fit_transform(x)

x_train, x_test, y_train, y_test = train_test_split(x,y, test_size=0.3)
print(x_train.shape, y_train.shape, x_test.shape, y_test.shape)

(7919, 130107) (7919,) (3395, 130107) (3395,)


In [34]:
print(x_train[0]) #0번째 문서에서 , 56979 인덱스 단어가 2번 등장했다.

  (0, 1494)	1
  (0, 3354)	1
  (0, 6475)	1
  (0, 14115)	1
  (0, 15006)	1
  (0, 16455)	1
  (0, 25358)	1
  (0, 25399)	2
  (0, 25517)	1
  (0, 25591)	1
  (0, 25597)	1
  (0, 26304)	1
  (0, 26362)	1
  (0, 26501)	1
  (0, 26509)	2
  (0, 26920)	1
  (0, 26926)	1
  (0, 27436)	2
  (0, 28012)	1
  (0, 28146)	6
  (0, 28601)	2
  (0, 28621)	2
  (0, 28955)	1
  (0, 29241)	4
  (0, 29246)	1
  :	:
  (0, 114661)	1
  (0, 114688)	1
  (0, 114696)	1
  (0, 114702)	2
  (0, 114731)	3
  (0, 114808)	1
  (0, 115475)	12
  (0, 116709)	2
  (0, 118142)	1
  (0, 118983)	1
  (0, 120584)	1
  (0, 120590)	1
  (0, 121397)	1
  (0, 123422)	1
  (0, 123575)	1
  (0, 123759)	2
  (0, 124033)	1
  (0, 124055)	12
  (0, 124332)	2
  (0, 124640)	1
  (0, 125035)	1
  (0, 125053)	9
  (0, 125296)	1
  (0, 128402)	2
  (0, 128420)	1


## scikit-learn을 이용한 문서 분류

In [32]:
from sklearn.metrics import accuracy_score

### Logistic Regression
* 이중분류모델
* Logistic Regression은 특성상 다중 분류에는 적합하지 않음
* 선형 회귀 모델에 시그모이드 함수를 적용

In [None]:
from sklearn.linear_model import LogisticRegression

LR = LogisticRegression(solver='liblinear')
LR.fit(x_train, y_train)
pred = LR.predict(x_test)
acc = accuracy_score(pred, y_test)
print(acc)

## Support Vector Machines
* 회귀, 분류, 이상치 탐지 등에 사용되는 지도학습 방법
* 클래스 사이의 경계에 위치한 데이터 포인트를 서포트 벡터(support vector)라고 함
* 각 서포트 벡터가 클래스 사이의 결정 경계를 구분하는데 얼마나 중요한지를 학습
* 각 서포트 벡터의 