# Chapter 08. 텍스트 분석

* 텍스트 분류 : 문서가 어떤 카테고리에 속하는지 분류. 지도학습 이용. 예시) 기사를 연애/정치/사회/문화 카테고리로 분류, 스팸 메일 검출 프로그램
* 감성 분석 : 텍스트에 나타나는 감정, 기분 등 주관적인 요소를 분석하는 기법. 지도학습, 비지도학습 둘다 가능. 예시) sns 감정 분석, 제품 리뷰 분석, 여론조사 분석
* 텍스트 요약 : 주요 주제나 사상을 추출하는 기법. 토픽 모델링이 대표적.
* 텍스트 군집화와 유사도 측정 : 비슷한 유형의 문서끼리 군집화.

## 01. 텍스트 분석 이해

머신러닝 알고리즘은 숫자형 데이터만 입력받을 수 있어, 비정형 텍스트 데이터를 어떻게 피처 형태로 추출하고, 의미있는 값을 부여하는가는 매우 중요한 요소이다.

#### 텍스트 분석 수행 프로세스
1. 텍스트 전처리 : 대/소문자 변경, 특수문자 삭제 등 클렌징 작업, 토큰화, Stop word 제거 작업, 어근 추출(Stemming/Lemmatization) 등 텍스트 정규화 작업 
2. 피처 벡터화/추출 : 전처리된 텍스트에서 피처를 추출하고 벡터 값 할당. 대표적으로 BOW와 워드투벡이 있으며, BOW는 카운트 기반과 Tf-idf 기반 벡터화가 있다.
3. ML 모델 수립 및 학습/예측/평가 : 벡터화된 데이터 셋에 모델을 적용해 학습/예측 및 평가 수행

![image.png](attachment:image.png)

#### 파이썬 기반 NLP, 텍스트 분석 패키지

* NLTK : 가장 대표적이나 수행 속도 측면에서 아쉬워 실제로는 많이 쓰지 않음.
* Gensim : 토픽 모델링 분야
* SpaCy : 뛰어난 수행 성능으로 최근 가장 주목 받음

## 02. 텍스트 전처리 - 텍스트 정규화

#### 클렌징
텍스트 분석에 방해되는 문자를 제거

#### 텍스트 토큰화 - 문장 토큰화

In [1]:
from nltk import sent_tokenize

In [2]:
#마침표, 개행문자 등 데이터 셋 다운로드. 처음에만 다운로드하면 됨
import nltk
nltk.download('punkt') 

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\JIHYE\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


True

In [5]:
text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
You can see it out your window or on your television. \
You feel it when you go to work, or go to church or pay your taxes.'

sentences = sent_tokenize(text=text_sample)

In [6]:
print(type(sentences), len(sentences))
print(sentences)

<class 'list'> 3
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


NLTK 패키지의 sent_tokenize()에 의해 문장 단위로 토큰화되어 list 객체에 문자열을 저장

#### 텍스트 토큰화 - 단어 토큰화

In [7]:
from nltk import word_tokenize

sentence = "The Matrix is everywhere its all around us, here even in this room."
words = word_tokenize(sentence)
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


NLTK 패키지의 word_tokenize()에 의해 단어 단위로 토큰화되어 list 객체에 문자열을 저장

이제 두 함수를 모두 사용하여 문장별로 단어 토큰화 해보자.

In [8]:
from nltk import word_tokenize, sent_tokenize

#문장별 단어 토큰화 함수
def tokenize_text(text):
    #문장 토큰화
    sentences = sent_tokenize(text)
    #분리된 문장별 단어 토큰화
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    return word_tokens

#수행해보기
word_tokens = tokenize_text(text_sample)
print(type(word_tokens), len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


#### n-gram
문장을 단어별로 토큰화할 경우 문맥의 의미가 무시된다. 이를 보완하기 위해 n-gram이 도입되었다. n-gram은 연속된 n개의 단어를 하나의 토큰화 단위로 분리하는 것이다. \
2-gram 예: Agent Smith knocks the door --> (Agent, Smith), (Smith, knocks), (knocks, the), (the, door)

#### Stop word 제거

의미없는 단어를 제거하는 과정으로, NLTK에 다양한 언어의 스톱 워드가 저장되어 있다.

In [9]:
#nltk 패키지의 불용어 사전 다운로드
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\JIHYE\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [12]:
print('영어 stop words 개수:', len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

영어 stop words 개수: 179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


한국어는 없음
![image.png](attachment:image.png)

In [15]:
import nltk

stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []
all_deleted_words = []

#문장별 토큰화된 단어 목록에서 스톱 워드를 제거하는 반복문
for sentence in word_tokens:
    filtered_words = []
    deleted_words = []
    #개별 문장별 제거
    for word in sentence:
        #소문자로 먼저 변환
        if word not in stopwords:
            filtered_words.append(word)
        else:
            deleted_words.append(word)
    all_tokens.append(filtered_words)
    all_deleted_words.append(deleted_words)
    
print(all_tokens) #스톱워드 제거 결과
print(all_deleted_words) #제거된 스톱워드들

[['The', 'Matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['You', 'see', 'window', 'television', '.'], ['You', 'feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]
[['is', 'its', 'all', 'here', 'in', 'this'], ['can', 'it', 'out', 'your', 'or', 'on', 'your'], ['it', 'when', 'you', 'to', 'or', 'to', 'or', 'your']]


#### Stemming과 Lemmatization

Stemming과 Lemmatization은 문법적 또는 의미적으로 변화하는 단어의 원형을 찾는 것이다. 두 기능은 유사하지만, Stemming은 일부 철자가 훼손된 단어를 추출하는 경향이 있다. 반면, Lemmatization은 문법 + 의미적 부분을 감안해 더 정교하고, 오랜 시간을 필요로 한다.\
NLTK는 Porter, Lancaster, Snowball Stemmer 등 다양한 Stemmer와 WordNetLemmatizer라는 Lemmatizatizer를 제공한다.

Stemmer와 Lemmatizier를 비교해보자

In [17]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked'))
print(stemmer.stem('amusing'), stemmer.stem('amuses'), stemmer.stem('amused'))
print(stemmer.stem('happier'), stemmer.stem('happiest'))
print(stemmer.stem('fancier'), stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


Stemmer : 진행형, 3인칭 단수, 과거형 모두 ing, s, ed를 인식하여 원형으로 잘 변환한다. 반면 amuse는 단순히 해당 글자들을 삭제함으로써 원형인 amuse 대신 amus로 반환한다. 형용사도 마찬가지로 비교급, 최상급의 원형을 잘 찾지 못한다.

Lemmatization은 정확한 원형 단어 추출을 위해 품사를 입력해줘야 한다.

In [18]:
from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('wordnet')

lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing', 'v'), lemma.lemmatize('amuses', 'v'), lemma.lemmatize('amused', 'v'))
print(lemma.lemmatize('happier', 'a'), lemma.lemmatize('happiest', 'a'))
print(lemma.lemmatize('fancier', 'a'), lemma.lemmatize('fanciest', 'a'))

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\JIHYE\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\wordnet.zip.


amuse amuse amuse
happy happy
fancy fancy


In [19]:
print(lemma.lemmatize('amusing'), lemma.lemmatize('amuses'), lemma.lemmatize('amused'))

amusing amuses amused


품사를 입력해주지 않으면 변화가 없다.

## Bag of Words - BOW

문서가 가진 모든 단어를 문맥이나 순서에 상관없이 봉투에 넣고 흔들어 섞는다는 의미로 Bag of Words(BOW) 모델이라 한다.

예시 - 카운트 기반 BOW
![image.png](attachment:image.png)

단점 : 문맥 의미 반영 부족, 희소 행렬 문제

#### BOW 피처 벡터화

M개의 문서가 있고, 모든 단어 갯수가 N개일 때, M*N개의 단어 피처로 이루어진 행렬을 구성하게 된다. 각 행렬 원소에는 카운트 또는 Tf-Idf의 값으로 채워진다.

![image.png](attachment:image.png)

* 카운트 기반 : 빈도수 자체
* Tf-Idf 기반 : 개별 문서에서 자주 나타나면 높은 가중치를 주지만, 모든 문서에서 전반적으로 자주 나타나면 패널티를 준다
![image.png](attachment:image.png)

#### 사이킷런으로 Count 및 Tf-idf 벡터화 구현 : CountVectorizer, TfidfVectorizer

소문자 변환 - 토큰화(n_gram_range 반영하여 단어 기준) - 텍스트 정규화(stemmer, lemmatize는 지원하지 않아 stop words 제거만 수행) - 피처 벡터화(max_df, min_df, max_features 등 파라미터 반영)

#### 희소행렬을 처리 형식

희소 행렬 변환을 위해 사이파이를 주로 사용한다.
* COO 형식 : 0이 아닌 데이터만 별도의 Array에 저장, 그 데이터의 행과 열의 위치를 별도의 배열로 저장

In [22]:
import numpy as np

dense = np.array([[3,0,1], [0,2,0]]) #만들고자 하는 행렬

from scipy import sparse

#0이 아닌 데이터 추출
data = np.array([3,1,2])
#행과 열의 위치를 배열로 생성 - 3의 위치는 (0,0), 1의 위치는 (0,2), 2의 위치는 (1,1)
row_pos = np.array([0,0,1])
col_pos = np.array([0,2,1])
#sparse 패키지의 coo_matrix를 이용해 COO 형식으로 희소 행렬 생성
sparse_coo = sparse.coo_matrix((data, (row_pos, col_pos)))
sparse_coo

<2x3 sparse matrix of type '<class 'numpy.int32'>'
	with 3 stored elements in COOrdinate format>

COO 형식의 희소 행렬 객체 변수 sparse_coo를 toarray()를 이용해 행렬로 출력하자

In [23]:
sparse_coo.toarray()

array([[3, 0, 1],
       [0, 2, 0]])

* CSR 형식 : COO 형식에서의 행, 열 위치의 위치 배열을 이용
![image.png](attachment:image.png)

In [28]:
from scipy import sparse

dense2 = np.array([[0, 0, 1, 0, 0, 5],
[1, 4, 0, 3, 2, 5],
[0, 6, 0, 3, 0, 0],
[2, 0, 0, 0, 0, 0],
[0, 0, 0, 1, 0, 8],
[1, 0, 0, 0, 0, 0]])

# 0이 아닌 데이터 추출
data2 = np.array([1, 5, 1, 4, 3, 2, 5, 6, 3, 2, 7, 8, 1])
# 행 위치와 열 위치를 각각 array로 생성
row_pos = np.array([0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5])
col_pos = np.array([2, 5, 0, 1, 3, 4, 5, 1, 3, 0, 3, 5, 0])
# COO 형식으로 변환
sparse_coo = sparse.coo_matrix((data2, (row_pos, col_pos)))

# 행 위치 배열의 고유한 값의 시작 위치 인덱스를 배열로 생성
row_pos_ind = np.array([0, 2, 7, 9, 10, 12, 13])
# CSR 형식으로 변환
sparse_csr = sparse.csr_matrix((data2, col_pos, row_pos_ind))

print('COO 변환')
print(sparse_coo.toarray())

print('\nCSR 변환')
print(sparse_csr.toarray())

COO 변환
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]

CSR 변환
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


실제로 사용하는 방법 : coo_matrix, csr_matrix, toarray 메소드 이용

In [33]:
dense3 = np.array([[0, 0, 1, 0, 0, 5],
[1, 4, 0, 3, 2, 5],
[0, 6, 0, 3, 0, 0],
[2, 0, 0, 0, 0, 0],
[0, 0, 0, 7, 0, 8],
[1, 0, 0, 0, 0, 0]])
coo = sparse.coo_matrix(dense3)
csr = sparse.csr_matrix(dense3)
print("coo형식\n", coo)
print(coo.toarray())
print("csr형식\n", csr)
print(csr.toarray())

coo형식
   (0, 2)	1
  (0, 5)	5
  (1, 0)	1
  (1, 1)	4
  (1, 3)	3
  (1, 4)	2
  (1, 5)	5
  (2, 1)	6
  (2, 3)	3
  (3, 0)	2
  (4, 3)	7
  (4, 5)	8
  (5, 0)	1
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
csr형식
   (0, 2)	1
  (0, 5)	5
  (1, 0)	1
  (1, 1)	4
  (1, 3)	3
  (1, 4)	2
  (1, 5)	5
  (2, 1)	6
  (2, 3)	3
  (3, 0)	2
  (4, 3)	7
  (4, 5)	8
  (5, 0)	1
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


## 04. 텍스트 분류 실습 - 20 뉴스그룹 분류

In [34]:
from sklearn.datasets import fetch_20newsgroups

#데이터셋 다운로드
news_data = fetch_20newsgroups(subset = 'all', random_state =156)
print(news_data.keys())

dict_keys(['data', 'filenames', 'target_names', 'target', 'DESCR'])


In [36]:
#fetch_20newsgroups( ) API가 로컬 컴퓨터에 저장하는 디렉터리와 파일명
news_data.filenames

array(['C:\\Users\\JIHYE\\scikit_learn_data\\20news_home\\20news-bydate-train\\rec.motorcycles\\104321',
       'C:\\Users\\JIHYE\\scikit_learn_data\\20news_home\\20news-bydate-train\\rec.motorcycles\\103229',
       'C:\\Users\\JIHYE\\scikit_learn_data\\20news_home\\20news-bydate-test\\sci.electronics\\54286',
       ...,
       'C:\\Users\\JIHYE\\scikit_learn_data\\20news_home\\20news-bydate-train\\rec.autos\\102799',
       'C:\\Users\\JIHYE\\scikit_learn_data\\20news_home\\20news-bydate-train\\comp.sys.ibm.pc.hardware\\60175',
       'C:\\Users\\JIHYE\\scikit_learn_data\\20news_home\\20news-bydate-train\\rec.sport.baseball\\104387'],
      dtype='<U95')

In [35]:
import pandas as pd

print('target 클래스의 값과 분포도 \n', pd.Series(news_data.target).value_counts().sort_index())
print('target 클래스의 이름들 \n', news_data.target_names)

target 클래스의 값과 분포도 
 0     799
1     973
2     985
3     982
4     963
5     988
6     975
7     990
8     996
9     994
10    999
11    991
12    984
13    990
14    987
15    997
16    910
17    940
18    775
19    628
dtype: int64
target 클래스의 이름들 
 ['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc', 'comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware', 'comp.windows.x', 'misc.forsale', 'rec.autos', 'rec.motorcycles', 'rec.sport.baseball', 'rec.sport.hockey', 'sci.crypt', 'sci.electronics', 'sci.med', 'sci.space', 'soc.religion.christian', 'talk.politics.guns', 'talk.politics.mideast', 'talk.politics.misc', 'talk.religion.misc']


In [37]:
print(news_data.data[0])

From: egreen@east.sun.com (Ed Green - Pixel Cruncher)
Subject: Re: Observation re: helmets
Organization: Sun Microsystems, RTP, NC
Lines: 21
Distribution: world
Reply-To: egreen@east.sun.com
NNTP-Posting-Host: laser.east.sun.com

In article 211353@mavenry.altcit.eskimo.com, maven@mavenry.altcit.eskimo.com (Norman Hamer) writes:
> 
> The question for the day is re: passenger helmets, if you don't know for 
>certain who's gonna ride with you (like say you meet them at a .... church 
>meeting, yeah, that's the ticket)... What are some guidelines? Should I just 
>pick up another shoei in my size to have a backup helmet (XL), or should I 
>maybe get an inexpensive one of a smaller size to accomodate my likely 
>passenger? 

If your primary concern is protecting the passenger in the event of a
crash, have him or her fitted for a helmet that is their size.  If your
primary concern is complying with stupid helmet laws, carry a real big
spare (you can put a big or small head in a big helmet, bu

뉴스그룹 기사의 내용뿐 아니라 제목, 작성자, 소속, 이메일 등 다양한 정보를 가지고 있음. 내용 이외의 정보는 제거해야 내용 자체로 카테고리를 분류하는 훈련의 의미가 있을 것이다. (포함하면 작성자와 소속, 이메일 만으로도 너무 높은 성능을 보이고, 이는 순수 텍스트를 활용하지 않는다는 면에서 의미가 없기 때문이다.)

In [48]:
from sklearn.datasets import fetch_20newsgroups

#subset = 'train'을 이용해 학습용 데이터만 추출
#remove = ('headers','footers','quotes')로 내용만 추출
train_news = fetch_20newsgroups(subset='train', remove = ('headers','footers','quotes'), random_state = 156)
X_train = train_news.data
y_train = train_news.target

#subset = 'test'을 이용해 테스트용 데이터만 추출
#remove = ('headers','footers','quotes')로 내용만 추출
test_news = fetch_20newsgroups(subset='test', remove = ('headers','footers','quotes'), random_state = 156)
X_test = test_news.data
y_test = test_news.target

print('학습 데이터 크기 {0}, 테스트 데이터 크기 {1}'.format(len(train_news.data), len(test_news.data)))

학습 데이터 크기 11314, 테스트 데이터 크기 7532


In [49]:
X_train[0]

"\n\nWhat I did NOT get with my drive (CD300i) is the System Install CD you\nlisted as #1.  Any ideas about how I can get one?  I bought my IIvx 8/120\nfrom Direct Express in Chicago (no complaints at all -- good price & good\nservice).\n\nBTW, I've heard that the System Install CD can be used to boot the mac;\nhowever, my drive will NOT accept a CD caddy is the machine is off.  How can\nyou boot with it then?\n\n--Dave\n"

In [50]:
y_train[0]

4

피처 벡터화 및 모델링을 진행해보자.\
주의할 점은, 테스트 데이터에 적용할 때, 학습 데이터에서 fit()한 벡터라이저 객체를 이용해야 한다는 것이다. 그래야 벡터라이저 결과 피처 개수가 동일해 진다.

* 카운트 기반 벡터화로 모델링

In [52]:
from sklearn.feature_extraction.text import CountVectorizer

# 카운트 벡터라이저로 피처 벡터화 변환 수행
cnt_vect = CountVectorizer()
cnt_vect.fit(X_train)
X_train_cnt_vect = cnt_vect.transform(X_train)

# 학습 데이터로 fit된 벡터라이저를 이용해 테스트 데이터 피처 벡터화 수행
X_test_cnt_vect = cnt_vect.transform(X_test)

print('학습 데이터 벡터화 결과 shpae : ', X_train_cnt_vect.shape)
print('테스트 데이터 벡터화 결과 shpae : ', X_test_cnt_vect.shape)

학습 데이터 벡터화 결과 shpae :  (11314, 101631)
테스트 데이터 벡터화 결과 shpae :  (7532, 101631)


피처의 개수는 101631개로 동일한 것을 확인할 수 있다.

피처 벡터화된 데이터에 로지스틱 회귀를 적용해보자.

In [54]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

#logisticRegression을 이용한 학습, 예측, 평가
lr_clf = LogisticRegression()
lr_clf.fit(X_train_cnt_vect, y_train)
pred = lr_clf.predict(X_test_cnt_vect)
print('CountVectorized Logistic Regression의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test, pred)))

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


CountVectorized Logistic Regression의 예측 정확도는 0.608


* Tf-idf 기반 벡터화로 모델링

In [55]:
from sklearn.feature_extraction.text import TfidfVectorizer

#TfIdf 벡터라이저로 피처 벡터화 변환 수행
tfidf_vect = TfidfVectorizer()
tfidf_vect.fit(X_train)
X_train_tfidf_vect = tfidf_vect.transform(X_train)

# 학습 데이터로 fit된 벡터라이저를 이용해 테스트 데이터 피처 벡터화 수행
X_test_tfidf_vect = tfidf_vect.transform(X_test)

print('학습 데이터 벡터화 결과 shpae : ', X_train_tfidf_vect.shape)
print('테스트 데이터 벡터화 결과 shpae : ', X_test_tfidf_vect.shape)

학습 데이터 벡터화 결과 shpae :  (11314, 101631)
테스트 데이터 벡터화 결과 shpae :  (7532, 101631)


In [56]:
lr_clf = LogisticRegression()
lr_clf.fit(X_train_tfidf_vect, y_train)
pred = lr_clf.predict(X_test_tfidf_vect)
print('TF-IDF Logistic Regression의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test,pred)))

TF-IDF Logistic Regression의 예측 정확도는 0.674


TF-IDF가 좀 더 높은 정확도를 보인다. 일반적으로 문서가 많으면 카운트보다 tfidf가 더 좋은 결과를 도출한다.

성능을 향상시키기 위해서는 최적의 ML알고리즘을 선택하는 것과 최상의 피처 전처리를 수행하는 것이 있다. 다음과 같이 파라미터를 좀 더 적용하여 진행해보자.\
스톱 워드 : 'None' -> 'English' \
ngram_range : (1,1) -> (1,2) \
max_df : 미설정 -> 300

In [57]:
tfidf_vect = TfidfVectorizer(stop_words = 'english', ngram_range = (1,2), max_df = 300)
tfidf_vect.fit(X_train)
X_train_tfidf_vect = tfidf_vect.transform(X_train)
X_test_tfidf_vect = tfidf_vect.transform(X_test)

lr_clf = LogisticRegression()
lr_clf.fit(X_train_tfidf_vect, y_train)
pred = lr_clf.predict(X_test_tfidf_vect)
print('TF-IDF Logistic Regression의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test,pred)))

TF-IDF Logistic Regression의 예측 정확도는 0.692


성능이 약간 개선되었다.

이번에는 그리드 서치를 통해 모델의 하이퍼 파라미터 최적화를 수행해보자.

In [58]:
from sklearn.model_selection import GridSearchCV

#최적의 C값 도출 튜닝 수행. cv는 3폴드로 설정
params = {'C':[0.01,0.1,1,5,10]}
grid_cv_lr = GridSearchCV(lr_clf, param_grid = params, cv = 3, scoring = 'accuracy', verbose = 1)
grid_cv_lr.fit(X_train_tfidf_vect, y_train)
print('LogisticRegression best C parameter : ', grid_cv_lr.best_params_)

#최적 C값으로 학습된 모델 적용하여 예측 및 정확도 평가
pred = grid_cv_lr.predict(X_test_tfidf_vect)
print('TF-IDF Logistic Regression의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test,pred)))

Fitting 3 folds for each of 5 candidates, totalling 15 fits


[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.


KeyboardInterrupt: 

#### 사이킷런 파이프라인 사용 및 그리드서치와의 결합

파이프라인을 사용하면 데이터 전처리부터 모델링까지 통일된 API 기반에서 처리할 수 있어 더 직관적이다. 또한, 대용량의 피처 벡터화 결과를 따로 저장하지 않고 스트림 기반에서 바로 입력할 수 있어 수행 시간을 절약할 수 있다.

위에서 진행한 내용을 파이프라인으로 구현해보자.

In [None]:
from sklearn.pipeline import Pipeline

#tfidf벡터라이저 객체와, 로지스틱회귀 객체를 파이프라인으로 연결하는 객체 pipeline
pipeline = Pipeline([('tfidf_vect', TfidfVectorizer(stop_words = 'english', ngram_range = (1,2), max_df = 300)),
                    ('lr_clf', LogisticrRegression(C = 10))])

#벡터라이저를 위한 별도의 fit, transform 필요없음
#로지스틱회귀모델을 위한 별도의 fit, predict 필요없음
#파이프라인의 fit으로 벡터라이저와 모델링 피팅 한꺼번에 가능, predict로 한꺼번에 가능
pipeline.fit(X_train, y_train)
pred = pipeline.predict(X_test)
print('파이프라인을 통한 로지스틱 회귀의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test,pred)))

이번에는 그리드서치에 파이프라인을 입력하여 벡터라이저와 모델의 하이퍼 파라미터를 함께 최적화히해보자. 그리드서치에 입력할 피처 설정이 조금 바뀌니 주의하자.

이 예제는 파이프라인 + 그리드 서치로 27개의 파라미터 * 3번의 CV로 총 81번 학습하기 때문에 약 24분이 소모된다고 한다. 돌려보지는 않겠다.

In [None]:
from sklearn.pipeline import Pipeline

pipeline = Pipeline([
    ('tfidf_vect', TfidfVectorizer(stop_words = 'english')),
    ('lr_clf', LogisticRegression())
])

# 파이프라인에 기술된 각 객체변수에 언더바 2개를 연달아 붙여 피처를 설정한다
# 3*3*3 총 27개의 파이프라인 경우의 수를 입력했다.
params = {'tfidf_vect__ngram_range': [(1,1), (1,2), (1,3)],
         'tfidf_vect__max_df': [100, 300, 700],
         'lr_clf__C': [1,5,10]
         }

# 그리드서치의 생성자에 Estimator가 아닌 파이프라인 객체 입력
grid_cv_pipe = GridSearchCV(pipeline, param_grid = params, cv = 3, scoring = 'accuracy', verbose = 1)
grid_cv_pipe.fit(X_train, y_train)
print(grid_cv_pipe.best_params_, grid_cv_pipe.best_score_)

pred = grid_cv_pipe.predict(X_test)
print('파이프라인을 통한 로지스틱 회귀의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test,pred)))

결과를 첨부하면 다음과 같다.
![image.png](attachment:image.png)