**7주차 과제 - 문서 분류**

- 과제: 아래 코드를 실행하고 실행화면을 캡쳐하여 반드시 **pdf** 파일로 변환하여 제출하시오.
- 유의사항: 본 과제의 목적은 학생들께서 아래 코드를 이용하여 문서 분류를 경험해 보는 것입니다. 이 코드를 그대로 실행하여 제출해도 되지만 7주차 실습파일을 참고로 하여 전처리 방법과 알고리즘 등을 변경해 가면 실습하기를 추천합니다.

# 1. 20 뉴스그룹 데이터 준비

- 데이터셋 설명: http://qwone.com/~jason/20Newsgroups/
- scikit-learn 라이브러리: http://scikit-learn.org/0.19/datasets/twenty_newsgroups.html

In [None]:
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer

# 20 뉴스그룹 데이터의 20개 주제 중 2개만을 선택
categories = ['comp.graphics', 'sci.space']

# 20 newsgroups 데이터셋에서 training data를 가져옴
# 본문을 제외한 텍스트의 특정 부분('headers', 'footers', 'quotes')을 제거
newsgroups_train = fetch_20newsgroups(subset='train',
                                      remove=('headers', 'footers', 'quotes'),
                                      categories=categories)

# 20 newsgroups 데이터셋에서 test data를 가져옴
newsgroups_test = fetch_20newsgroups(subset='test',
                                     remove=('headers', 'footers', 'quotes'),
                                     categories=categories)

# training data와 test data 크기
print('# Training data sample size:', len(newsgroups_train.data))
print('# Test data sample size:', len(newsgroups_test.data))

# 2. TF-IDF 기반 특성 추출

In [2]:
from sklearn.feature_extraction.text import TfidfVectorizer

X_train = newsgroups_train.data
y_train = newsgroups_train.target

X_test = newsgroups_test.data
y_test = newsgroups_test.target

# max_features=2000: 최대로 사용할 단어 특성의 수
# min_df=5: 단어가 적어도 5개의 문서에 나와야 함
# max_df=0.5: 단어가 전체 문서의 50% 이상에 나오지 않아야 함
tfidf = TfidfVectorizer(max_features=2000, min_df=5, max_df=0.5)

# training/test data를 feature 벡터로 변환
X_train_tfidf = tfidf.fit_transform(X_train)
X_test_tfidf = tfidf.transform(X_test)

# **3. 로지스틱 회귀를 이용한 문서 분류**

In [None]:
from sklearn.linear_model import LogisticRegression

# TF-IDF 기반 feature 벡터를 이용한 로지스틱 회귀 적합
LR_clf_tfidf = LogisticRegression(max_iter=1000, random_state=3002)
LR_clf_tfidf.fit(X_train_tfidf, y_train)

print('# Training accuracy: {:.3f}'.format(LR_clf_tfidf.score(X_train_tfidf, y_train)))
print('# Test accuracy: {:.3f}'.format(LR_clf_tfidf.score(X_test_tfidf, y_test)))

In [None]:
pred = LR_clf_tfidf.predict(X_test_tfidf[:2])

print('# Predicted labels:', pred)
print('# Predicted categories:', newsgroups_train.target_names[pred[0]], newsgroups_train.target_names[pred[1]])