# **Chapter 08  [텍스트 분석]**

**텍스트 분석의 기술 영역*
<br>
- 텍스트 분류(Text Classification)
- 감성 분석(Sentiment Analysis)
- 텍스트 요약(Text Summarization)
- 텍스트 군집화(Clustering)와 유사도 측정

## **01. 텍스트 분석 이해**

<span style="color:red">****피처 벡터화(Feature Vectorization)***</span><br>
: 텍스트를 word(또는 word 일부분) 기반의 다수의 피처를 추출하고 이 피처에 단어 빈도수와 같은 숫자값을 부여하여 텍스트를 단어의 조합인 벡터값으로 표현

**파이썬 기반의 NLP, 텍스트 분석 패키지*
<br>
- **NLTK**
- **Genism**
- **SpaCy**

## **02. 텍스트 사전 준비 작업(텍스트 전처리) - 텍스트 정규화**

### **① 클렌징**

텍스트에서 분석에 오히려 방해가 되는 불필요한 문자, 기호 등을 사전에 제거한느 작업

### **② 텍스트 토큰화(Tokenization)**

**문장 토큰화(Sentence Tokenization)**<br>
: 문장의 마침표(.), 개행문자(\n) 등 문장의 마지막을 뜻하는 기호에 따라 분리

In [None]:
from nltk import sent_tokenize
import nltk
nltk.download('punkt')

text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
               You can see it out your window or on your television. \
               You feel it when you go to work, or go to church or pay your taxes.'

sentences = sent_tokenize(text=text_sample)

print(type(sentences), len(sentences))
print(sentences)

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
<class 'list'> 3
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


**단어 토큰화(Word Tokenization)**<br>
: 문장을 단어로 토큰화하는 것으로, 기본적으로 공백, 콤마(,), 마침표(.), 개행문자 등으로 단어를 분리하지만, 정규 표현식을 이용해 다양한 유형으로 토크화를 수행할 수 있음

In [None]:
from nltk import word_tokenize

sentence = 'The Matrix is everywhere its all around us, here even in this room.'
words = word_tokenize(sentence)
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


**문장별 단어 토큰화**

In [None]:
from nltk import word_tokenize, sent_tokenize

# 여러 개의 문장으로 된 입력 데이터를 문장별로 단어 토큰화하게 만드는 함수 생성
def tokenize_text(text):
    
    # 문장별로 분리 토큰
    sentences = sent_tokenize(text)
    # 분리된 문장별 단어 토큰화
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    return word_tokens

# 여러 문장에 대해 문장별 단어 토큰화 수행
word_tokens = tokenize_text(text_sample)
print(type(word_tokens), len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


**n-gram**<br>
: 문장을 단어별로 하나씩 토큰화할 경우 문맥적인 의미는 무시될 수밖에 없기 때문에 이를 조금이라도 해결하고자 도입된 것으로, 연속된 n개의 단어를 하나의 토큰화 단위로 분리해 내는 것

### **③ 스톱 워드 제거**

***스톱 워드(Stop Word)**<br>
: 분석에는 큰 의미가 없는 단어

In [None]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to /root/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [None]:
print('영어 stop words 개수 :', len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

영어 stop words 개수 : 179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


In [None]:
import nltk

stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []
# 위 예제에서 3개의 문장별로 얻은 word_tokens list에 대해 스톱 워드를 제거하는 반복문
for sentence in word_tokens:
    filtered_words = []
    # 개별 문장별로 토큰화된 문장 list에 대해 스톱 워드를 제거하는 반복문
    for word in sentence:
        # 모두 소문자로 변환
        word = word.lower()
        # 토큰화된 개별 단어가 스톱 워드의 단어에 포함되지 않으면 word_tokens에 추가
        if word not in stopwords:
            filtered_words.append(word)
    all_tokens.append(filtered_words)

print(all_tokens)

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


### **④ Stemming과 Lemmatization**

***Stemming & Lemmatization**<br>
: 문법적 또는 의미적으로 변화하는 단어의 원형을 찾는 것

***Stemming**

In [None]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked'))
print(stemmer.stem('amusing'), stemmer.stem('amuses'), stemmer.stem('amused'))
print(stemmer.stem('happier'), stemmer.stem('happiest'))
print(stemmer.stem('fancier'), stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


***Lemmatization**

In [None]:
from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('wordnet')

lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing', 'v'), lemma.lemmatize('amuses', 'v'), lemma.lemmatize('amused', 'v'))
print(lemma.lemmatize('happier', 'a'), lemma.lemmatize('happiest', 'a'))
print(lemma.lemmatize('fancier', 'a'), lemma.lemmatize('fanciest', 'a'))

[nltk_data] Downloading package wordnet to /root/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!
amuse amuse amuse
happy happy
fancy fancy


## **03. Bag of Words - BOW**

<span style="color:blue">****BOW(Bag of Words)***</span><br>
: 문서가 가진 모든 단어를 **문맥이나 순서를 무시**하고 일괄적으로 단어에 대해 빈도값을 부여해 피처값을 추출하는 모델

- **장점**
    - 쉽고 빠른 구축
<br>
- **단점**
    - 문맥 의미(Senmantic Context) 반영 부족
    - 희소 행렬 문제

### <span style="color:red">***BOW 피처 벡터화***</span>

각 문서의 **텍스트를 단어로 추출해 피처로 할당*하고, **각 단어의 발생 빈도와 같은 값을 이 피처에 값으로 부여**해 각 문서를 이 단어 피처의 발생 빈도값으로 구성된 **벡터**로 만드는 기법

**M개의 텍스트 문서**가 있고, 이 문서에서 모든 단어를 추출해 나열했을 때 **N개의 단어**가 있다고 가정<br>
→ <span style="color:green">***M * N개의 단어 피처로 이루어진 행렬***</span>을 구성

- **카운트 기반의 벡터화**<br>
: 각 문서에서 해당 단어가 나타나는 횟수, 즉 Count를 부여하는 경우<br>
→ **카운트값이 높을수록 중요한 단어로 인식**
- **TF-IDF(Term Frequency - Inverse Document Frequency) 기반의 벡터화**<br>
: 개별 문서에서 자주 나타나는 단어에 높은 **가중치**를 주되, 모든 문서에서 전반적으로 자주 나타나는 단어에 대해서는 **페널티**를 주는 방식

#### **사이킷런의 Count 및 TF-IDF 벡터화 구현 : CountVectorizer, TfidVectorizer**

***파라미터**<br>
- *max_df / min_df / max_features / stop_words / ngram_range / analyzer / token_pattern / tokenizer*

### **BOW 벡터화를 위한 희소 행렬**

희소 행렬을 물리적으로 적은 메모리 공간을 차지할 수 있도록 변환해야 하는데, 대표적인 방법으로 ***COO 형식***과 ***CSR 형식***이 있음

#### **희소 행렬 - COO(Coordinate : 좌표)형식**

0이 아닌 데이터만 별도의 데이터 배열(Array)에 저장하고, **그 데이터가 가리키는 행과 열의 위치**를 별도의 배열로 저장하는 방식

In [None]:
import numpy as np

dense = np.array([[3, 0, 1], [0, 2, 0]])

dense

array([[3, 0, 1],
       [0, 2, 0]])

In [None]:
from scipy import sparse

# 0이 아닌 데이터 추출
data = np.array([3, 1, 2])

# 행 위치와 열 위치를 각각 배열로 생성
row_pos = np.array([0, 0, 1])
col_pos = np.array([0, 2, 1])

# sparse 패키지의 coo_matrix를 이용해 COO 형식으로 희소 행렬 생성
sparse_coo = sparse.coo_matrix((data, (row_pos, col_pos)))

sparse_coo

<2x3 sparse matrix of type '<class 'numpy.int64'>'
	with 3 stored elements in COOrdinate format>

In [None]:
# 다시 밀집 형태의 행렬로 출력
sparse_coo.toarray()

array([[3, 0, 1],
       [0, 2, 0]])

#### **희소 행렬 - CSR(Compressed Sparse Row) 형식**

**행 위치 배열 내에 있는 고유한 값의 시작 위치**만 다시 별도의 위치 배열로 가지는 변환 방식으로, **COO 방식보다 메모리가 적게 들고 빠른 연산이 가능**

In [None]:
from scipy import sparse

dense2 = np.array([[0, 0, 1, 0, 0, 5],
                   [1, 4, 0, 3, 2, 5],
                   [0, 6, 0, 3, 0, 0],
                   [2, 0, 0, 0, 0, 0],
                   [0, 0, 0, 7, 0, 8],
                   [1, 0, 0, 0, 0, 0]])

# 0이 아닌 데이터 추출
data2 = np.array([1, 5, 1, 4, 3, 2, 5, 6, 3, 2, 7, 8, 1])

# 행 위치와 열 위치를 각각 array로 생성
row_pos = np.array([0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5])
col_pos = np.array([2, 5, 0, 1, 3, 4, 5, 1, 3, 0, 3, 5, 0])

# COO 형식으로 변환
sparse_coo = sparse.coo_matrix((data2, (row_pos, col_pos)))

# 행 위치 배열의 고유한 값의 시작 위치 인덱스를 배열로 생성
row_pos_ind = np.array([0, 2, 7, 9, 10, 12, 13])

# CSR 형식으로 변환
sparse_csr = sparse.csr_matrix((data2, col_pos, row_pos_ind))

print('### COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인 ###')
print(sparse_coo.toarray())
print('================')
print('### CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인 ###')
print(sparse_csr.toarray())

### COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인 ###
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
### CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인 ###
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


In [None]:
# 실제로는...
dense3 = np.array([[0, 0, 1, 0, 0, 5],
                   [1, 4, 0, 3, 2, 5],
                   [0, 6, 0, 3, 0, 0],
                   [2, 0, 0, 0, 0, 0],
                   [0, 0, 0, 7, 0, 8],
                   [1, 0, 0, 0, 0, 0]])

coo = sparse.coo_matrix(dense3)
csr = sparse.csr_matrix(dense3)

print('### COO ###')
print(coo)
print('===================')
print('### CSR ###')
print(csr)

### COO ###
  (0, 2)	1
  (0, 5)	5
  (1, 0)	1
  (1, 1)	4
  (1, 3)	3
  (1, 4)	2
  (1, 5)	5
  (2, 1)	6
  (2, 3)	3
  (3, 0)	2
  (4, 3)	7
  (4, 5)	8
  (5, 0)	1
### CSR ###
  (0, 2)	1
  (0, 5)	5
  (1, 0)	1
  (1, 1)	4
  (1, 3)	3
  (1, 4)	2
  (1, 5)	5
  (2, 1)	6
  (2, 3)	3
  (3, 0)	2
  (4, 3)	7
  (4, 5)	8
  (5, 0)	1


## **04. 텍스트 분류 실습 - 20 뉴스그룹 분류**

In [None]:
from sklearn.datasets import fetch_20newsgroups

news_data = fetch_20newsgroups(subset='all', random_state=156)

In [None]:
print(news_data.keys())

dict_keys(['data', 'filenames', 'target_names', 'target', 'DESCR'])


In [None]:
import pandas as pd

print('### target 클래스의 값과 분포도 ###\n', pd.Series(news_data.target).value_counts().sort_index())
print('=============')
print('### target 클래스의 이름들 ###\n', news_data.target_names)

### target 클래스의 값과 분포도 ###
 0     799
1     973
2     985
3     982
4     963
5     988
6     975
7     990
8     996
9     994
10    999
11    991
12    984
13    990
14    987
15    997
16    910
17    940
18    775
19    628
dtype: int64
### target 클래스의 이름들 ###
 ['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc', 'comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware', 'comp.windows.x', 'misc.forsale', 'rec.autos', 'rec.motorcycles', 'rec.sport.baseball', 'rec.sport.hockey', 'sci.crypt', 'sci.electronics', 'sci.med', 'sci.space', 'soc.religion.christian', 'talk.politics.guns', 'talk.politics.mideast', 'talk.politics.misc', 'talk.religion.misc']


In [None]:
print(news_data.data[0])

From: egreen@east.sun.com (Ed Green - Pixel Cruncher)
Subject: Re: Observation re: helmets
Organization: Sun Microsystems, RTP, NC
Lines: 21
Distribution: world
Reply-To: egreen@east.sun.com
NNTP-Posting-Host: laser.east.sun.com

In article 211353@mavenry.altcit.eskimo.com, maven@mavenry.altcit.eskimo.com (Norman Hamer) writes:
> 
> The question for the day is re: passenger helmets, if you don't know for 
>certain who's gonna ride with you (like say you meet them at a .... church 
>meeting, yeah, that's the ticket)... What are some guidelines? Should I just 
>pick up another shoei in my size to have a backup helmet (XL), or should I 
>maybe get an inexpensive one of a smaller size to accomodate my likely 
>passenger? 

If your primary concern is protecting the passenger in the event of a
crash, have him or her fitted for a helmet that is their size.  If your
primary concern is complying with stupid helmet laws, carry a real big
spare (you can put a big or small head in a big helmet, bu

### **텍스트 정규화**

**내용을 제외하고 제목 등의 다른 정보는 제거**<br>
→ 이 피처들을 포함하면 웬만한 ML 알고리즘을 적용해도 상당히 높은 예측 성능을 나타냄

In [None]:
from sklearn.datasets import fetch_20newsgroups

# subset='train'으로 학습용 데이터만 추출, romove=('headers', 'footers', 'quotes')로 내용만 추출
train_news = fetch_20newsgroups(subset='train', remove=('headers', 'footers', 'quotes'), random_state=156)
X_train = train_news.data
y_train = train_news.target

# subset='test'로 학습용 데이터만 추출, romove=('headers', 'footers', 'quotes')로 내용만 추출
test_news = fetch_20newsgroups(subset='test', remove=('headers', 'footers', 'quotes'), random_state=156)
X_test = test_news.data
y_test = test_news.target

print('Train Set 크기 : {0}, Test Set : {1}'.format(len(train_news.data), len(test_news.data)))

Train Set 크기 : 11314, Test Set : 7532


### **피처 벡터화 변환과 머신러닝 모델 학습/예측/평가**

<span style="color:red">***주의할 점!**</span><br>
<br>
**테스트 데이터에서 CountVectorizer를 적용할 때**는 <span style="color:blue">**반드시 학습 데이터를 이용해 fit()이 수행된 CountVectorizer 객체를 이용해 테스트 데이터를 변환(transform)**</span>해야 함!

#### **① Count 기반**

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# Count Vectorization으로 피처 벡터화 변환 수행
cnt_vect = CountVectorizer()
cnt_vect.fit(X_train)
X_train_cnt_vect = cnt_vect.transform(X_train)

# 학습 데이터로 fit()된 CountVectorizer를 이용해 테스트 데이터를 피처 벡터화 변환 수행
X_test_cnt_vect = cnt_vect.transform(X_test)

print('학습 데이터 텍스트의 CountVectorizer Shape :', X_train_cnt_vect.shape)

학습 데이터 텍스트의 CountVectorizer Shape : (11314, 101631)


In [None]:
# 로지스틱 회귀를 적용해 뉴스그룹에 대한 분류를 예측
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# LogisticRegression을 이용해 학습/예측/평가 수행
lr_clf = LogisticRegression()
lr_clf.fit(X_train_cnt_vect, y_train)
pred = lr_clf.predict(X_test_cnt_vect)
print('CountVectorized Logistic Regression의 예측 정확도 : {0:.3f}'.format(accuracy_score(y_test, pred)))

CountVectorized Logistic Regression의 예측 정확도 : 0.608


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


#### **② TF-IDF 기반**

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

# TF-IDF 벡터화를 적용해 Train Set과 Test Set 변환
tfidf_vect = TfidfVectorizer()
tfidf_vect.fit(X_train)
X_train_tfidf_vect = tfidf_vect.transform(X_train)

# 학습 데이터로 fit()된 TfidVectorizer를 이용해 테스트 데이터를 피처 벡터화 변환 수행
X_test_tfidf_vect = tfidf_vect.transform(X_test)

print('학습 데이터 텍스트의 TfidfVectorizer Shape :', X_train_tfidf_vect.shape)

학습 데이터 텍스트의 TfidfVectorizer Shape : (11314, 101631)


In [None]:
# 로지스틱 회귀를 적용해 뉴스그룹에 대한 분류를 예측
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# LogisticRegression을 이용해 학습/예측/평가 수행
lr_clf = LogisticRegression()
lr_clf.fit(X_train_tfidf_vect, y_train)
pred = lr_clf.predict(X_test_tfidf_vect)
print('TfidfVectorized Logistic Regression의 예측 정확도 : {0:.3f}'.format(accuracy_score(y_test, pred)))

TfidfVectorized Logistic Regression의 예측 정확도 : 0.674


***TF-IDF가 단순 Count 기반보다 훨씬 높은 예측 정확도 제공***

#### **③ 다양한 파라미터 적용**

In [None]:
# stop words 필터링을 추가하고 n-gram을 기본 (1, 1)에서 (1, 2)로 변경해서 피처 벡터화 적용
tfidf_vect = TfidfVectorizer(stop_words='english', ngram_range=(1, 2), max_df=300)
tfidf_vect.fit(X_train)
X_train_tfidf_vect = tfidf_vect.transform(X_train)
X_test_tfidf_vect = tfidf_vect.transform(X_test)

lr_clf = LogisticRegression()
lr_clf.fit(X_train_tfidf_vect, y_train)
pred = lr_clf.predict(X_test_tfidf_vect)
print('TF-IDF Vectorized Logistic Regression의 예측 정확도 : {0:.3f}'.format(accuracy_score(y_test, pred)))

TF-IDF Vectorized Logistic Regression의 예측 정확도 : 0.692


#### **④ GridSearchCV**

In [None]:
from sklearn.model_selection import GridSearchCV

# 최적 C값을 도출하는 튜닝을 수행하고, CV는 3 폴드 세트로 설정
params = {'C': [0.01, 0.1, 1, 5, 10]}
grid_cv_lr = GridSearchCV(lr_clf, param_grid=params, cv=3, scoring='accuracy', verbose=1)
grid_cv_lr.fit(X_train_tfidf_vect, y_train)
print('Logistic Regression best C parameter :', grid_cv_lr.best_params_)

# 최적 C값으로 학습된 grid_cv로 예측 및 정확도 평가
pred = grid_cv_lr.predict(X_test_tfidf_vect)
print('TF-IDF Vectorized Logistic Regression의 예측 정확도 : {0:.3f}'.format(accuracy_score(y_test, pred)))

Fitting 3 folds for each of 5 candidates, totalling 15 fits


[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative sol

Logistic Regression best C parameter : {'C': 10}
TF-IDF Vectorized Logistic Regression의 예측 정확도 : 0.701


### **사이킷런 파이프라인(Pipeline) 사용 및 GridSearchCV와의 결합**

- **머신러닝에서의 Pipeline**<br>
: 데이터의 가공, 변환 등의 전처리와 알고리즘 적용을 마치 '수도관(Pipe)에서 물이 흐르듯' 한꺼번에 스트림 기반으로 처리한다는 의미

In [None]:
# pipeline = Pipeline([('tfidf_vect', TfidfVectorizer(stop_words='english')),
#                      ('lr_clf', LogisticRegression(random_state=156))])

In [None]:
from sklearn.pipeline import Pipeline

# TfidfVectorizer 객체를 tfidf_vect로, LogisticRegression 객체를 lr_clf로 생성하는 Pipeline 생성
pipeline = Pipeline([('tfidf_vect', TfidfVectorizer(stop_words='english', ngram_range=(1, 2), max_df=300)),
                     ('lr_clf', LogisticRegression(C=10))])

# 별도의 TfidfVectorizer 객체의 fit(), transform()과 LogisticRegression의 fit(), predict()가 필요 없음
# pipeline의 fit()과 predict()만으로 한꺼번에 피처 벡터화와 ML 학습/예측이 가능
pipeline.fit(X_train, y_train)
pred = pipeline.predict(X_test)
print('Pipeline을 통한 LogisticRegression의 예측 정확도 : {0:.3f}'.format(accuracy_score(y_test, pred)))

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


Pipeline을 통한 LogisticRegression의 예측 정확도 : 0.701


GridSearchCV에 Estimator가 아닌 Pipeline을 입력한 경우에는 param_grid의 입력값 설정이 기존과 다름-!<br>
→ **객체 변수명에 <span style="color:orange">언더바('_') 2개</span>를 연달아 붙인 뒤 파라미터명을 결합**

In [None]:
from sklearn.pipeline import Pipeline

pipeline = Pipeline([
    ('tfidf_vect', TfidfVectorizer(stop_words='english')),
    ('lr_clf', LogisticRegression())
])

# Pipeline에 기술된 각각의 객체 변수에 언더바(_) 2개를 연달아 붙여 GridSearchCV에 사용될 파라미터/하이퍼마라미터 이름과 값을 설정
params = {'tfidf_vect__ngram_range': [(1, 1), (1, 2), (1, 3)],
          'tfidf_vect__max_df': [100, 300, 700],
          'lr_clf_C': [1, 5, 10]}

# GridSearchCV의 생성자에 Estimator가 아닌 Pipeline 객체 입력
grid_cf_pipe = GridSearchCV(pipeline, param_grid=params, cv=3, scoring='accuracy', verbose=1)
grid_cv_pipe.fit(X_train, y_train)
print('parameters :', grid_cv_pipe.best_params_, '\n', 'best score :', grid_cv_pipe.best_score_)

pred = grid_cv_pipe.predict(X_test)
print('Pipeline을 통한 Logistic Regression의 예측 정확도 : {0:.3f}'.format(accuracy_score(y_test, pred)))