# Bag of Word(BOW)

In [32]:
import numpy as np
import pandas as pd
import warnings
warnings.filterwarnings('ignore')

In [18]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer

## CountVectorizer

In [29]:
text = ["누구나 한번쯤은 사랑에 웃고", 
        "누구나 한번쯤은 사랑에 울고",
        "그것이 바로 사랑 사랑 사랑이야"]

In [48]:
cv = CountVectorizer()

# 피처들의 벡터화된 값만 확인
temp_vec = cv.fit_transform(text)
print(temp_vec.toarray())

# 피처 컬럼명을 나타내는 값 확인
temp_vec_dict = cv.vocabulary_.items()
print(sorted(temp_vec_dict))
print()

[[0 1 0 0 1 0 0 1 1]
 [0 1 0 0 1 0 1 0 1]
 [1 0 1 2 0 1 0 0 0]]
[('그것이', 0), ('누구나', 1), ('바로', 2), ('사랑', 3), ('사랑에', 4), ('사랑이야', 5), ('울고', 6), ('웃고', 7), ('한번쯤은', 8)]



In [49]:
cv2 = CountVectorizer(ngram_range = (1, 2))

# 피처들의 벡터화된 값만 확인
temp_vec = cv2.fit_transform(text)
print(temp_vec.toarray())

# 피처 컬럼명을 나타내는 값 확인
temp_vec_dict = cv2.vocabulary_.items()
print(sorted(temp_vec_dict))

[[0 0 1 1 0 0 0 0 0 1 0 1 0 0 1 1 1]
 [0 0 1 1 0 0 0 0 0 1 1 0 0 1 0 1 1]
 [1 1 0 0 1 1 2 1 1 0 0 0 1 0 0 0 0]]
[('그것이', 0), ('그것이 바로', 1), ('누구나', 2), ('누구나 한번쯤은', 3), ('바로', 4), ('바로 사랑', 5), ('사랑', 6), ('사랑 사랑', 7), ('사랑 사랑이야', 8), ('사랑에', 9), ('사랑에 울고', 10), ('사랑에 웃고', 11), ('사랑이야', 12), ('울고', 13), ('웃고', 14), ('한번쯤은', 15), ('한번쯤은 사랑에', 16)]


In [50]:
cv3 = CountVectorizer(stop_words = ['그것이', '바로'])

# 피처들의 벡터화된 값만 확인
temp_vec = cv3.fit_transform(text)
print(temp_vec.toarray())

# 피처 컬럼명을 나타내는 값 확인
temp_vec_dict = cv3.vocabulary_.items()
print(sorted(temp_vec_dict))


[[1 0 1 0 0 1 1]
 [1 0 1 0 1 0 1]
 [0 2 0 1 0 0 0]]
[('누구나', 0), ('사랑', 1), ('사랑에', 2), ('사랑이야', 3), ('울고', 4), ('웃고', 5), ('한번쯤은', 6)]


## TF-IDF Vectorizer

In [55]:
tfidf = TfidfVectorizer()

# 피처들의 벡터화된 값만 확인
temp_vec = tfidf.fit_transform(text)
print(np.round(temp_vec.toarray(), 2) ) # 가중치, 페널티를 고려해서 점수가 나옴

# 피처 컬럼명을 나타내는 값 확인
temp_vec_dict = tfidf.vocabulary_.items()
print(sorted(temp_vec_dict))

[[0.   0.46 0.   0.   0.46 0.   0.   0.6  0.46]
 [0.   0.46 0.   0.   0.46 0.   0.6  0.   0.46]
 [0.38 0.   0.38 0.76 0.   0.38 0.   0.   0.  ]]
[('그것이', 0), ('누구나', 1), ('바로', 2), ('사랑', 3), ('사랑에', 4), ('사랑이야', 5), ('울고', 6), ('웃고', 7), ('한번쯤은', 8)]


In [56]:
tfidf2 = TfidfVectorizer(min_df = 2)

# 피처들의 벡터화된 값만 확인
temp_vec = tfidf2.fit_transform(text)
print(np.round(temp_vec.toarray(), 2) ) # 가중치, 페널티를 고려해서 점수가 나옴

# 피처 컬럼명을 나타내는 값 확인
temp_vec_dict = tfidf2.vocabulary_.items()
print(sorted(temp_vec_dict))

[[0.58 0.58 0.58]
 [0.58 0.58 0.58]
 [0.   0.   0.  ]]
[('누구나', 0), ('사랑에', 1), ('한번쯤은', 2)]


#### 정규표현식 활용해서 정규화 후 피처벡터화

In [100]:
import re

def ko_tokenize(text):
    text = re.sub('(\w+)[은에를]', '\g<1>', text)
    text = re.sub('[이야]', '', text)
    text = re.sub('(\w+)[고]', '\g<1>다', text)
    return text

In [101]:
text_x = text.copy()
print(text_x)

texts = [ko_tokenize(t) for t in text_x]
print(texts)

['누구나 한번쯤은 사랑에 웃고', '누구나 한번쯤은 사랑에 울고', '그것이 바로 사랑 사랑 사랑이야']
['누구나 한번쯤 사랑 웃다', '누구나 한번쯤 사랑 울다', '그것 바로 사랑 사랑 사랑']


In [102]:
tfidf3 = TfidfVectorizer()

# 피처들의 벡터화된 값만 확인
temp_vec = tfidf3.fit_transform(texts)
print(np.round(temp_vec.toarray(), 2) ) # 가중치, 페널티를 고려해서 점수가 나옴

# 피처 컬럼명을 나타내는 값 확인
temp_vec_dict = tfidf3.vocabulary_.items()
print(sorted(temp_vec_dict))

[[0.   0.48 0.   0.37 0.   0.63 0.48]
 [0.   0.48 0.   0.37 0.63 0.   0.48]
 [0.44 0.   0.44 0.78 0.   0.   0.  ]]
[('그것', 0), ('누구나', 1), ('바로', 2), ('사랑', 3), ('울다', 4), ('웃다', 5), ('한번쯤', 6)]


## 희소행렬

In [2]:
from scipy import sparse
import numpy as np

### COO

In [5]:
# 피처벡터화된 원본 배열 예시
arr = np.array([[1, 0, 2], [0, 4, 0]])

# 0이 아닌 데이터만 배열화
data = np.array([1, 2, 4])

# 행/열 인덱스화 
row_idx = np.array([0, 0, 1])
col_idx = np.array([0, 2, 1])


sparse_coo = sparse.coo_matrix((data, (row_idx, col_idx)))
print(sparse_coo)

print(sparse_coo.toarray())

  (0, 0)	1
  (0, 2)	2
  (1, 1)	4
[[1 0 2]
 [0 4 0]]


### CSR

In [8]:
# 피처벡터화된 원본 배열 예시
arr = np.array([[0,0,1,0,0,5], [1,4,0,3,2,5], [0,6,0,3,0,0], [2,0,0,0,0,0], [0,0,0,7,0,8], [1,0,0,0,0,0]])

# 0이 아닌 데이터만 배열화
data = np.array([1, 5, 1, 4, 3, 2, 5, 6, 3, 2, 7, 8, 1])

# 행/열 인덱스화 
row_idx = np.array([0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5])
col_idx = np.array([2, 5, 0, 1, 3, 4, 5, 1, 3, 0, 3, 5, 0])
# 행 인덱스의 인덱스화
row_idx_idx = np.array([0, 2, 7, 9, 10, 12, 13])

 
sparse_csr = sparse.csr_matrix((data, col_idx, row_idx_idx))
print(sparse_csr)

print(sparse_csr.toarray())

  (0, 2)	1
  (0, 5)	5
  (1, 0)	1
  (1, 1)	4
  (1, 3)	3
  (1, 4)	2
  (1, 5)	5
  (2, 1)	6
  (2, 3)	3
  (3, 0)	2
  (4, 3)	7
  (4, 5)	8
  (5, 0)	1
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


### 배열과 희소행렬 변환 방식(coo, csr)을 입력하면 반환해주는 사용자 함수 만들기

In [15]:

def sparse_transform(arr, method = 'coo', return_arr = False):
    # 0이 아닌 숫자만 채운 배열 만들기
    data = arr[arr != 0]
    
    # 행/열 인덱스 배열 만들기
    row_idx = np.where(arr != 0)[0]
    col_idx = np.where(arr != 0)[1]
    
    # 행 인덱스의 인덱스 배열 만들기
    row_idx_idx = np.array([np.where(row_idx == idx)[0] for idx in set(row_idx)])
    
    # coo/csr 변환
    if method == 'coo':
        sparse_coo = sparse.coo_matrix((data, (row_idx, col_idx)))
        if return_arr:
            return sparse_coo.toarray()
        else:
            print(sparse_coo.toarray())
    elif method == 'csr':
        sparse_csr = sparse.csr_matrix((data, col_idx, row_idx_idx))
        if return_arr:
            return sparse_csr.toarray()
        else:
            print(sparse_csr.toarray())
            
sparse_transform(arr, method = 'coo', return_arr = False)

[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


  row_idx_idx = np.array([np.where(row_idx == idx)[0] for idx in set(row_idx)])


# 실습: 뉴스그룹 분류 

## 데이터 불러오기

In [104]:
import pandas as pd
from sklearn.datasets import fetch_20newsgroups

In [106]:
news_data = fetch_20newsgroups(subset = 'all', random_state = 156)
news_data.keys()

dict_keys(['data', 'filenames', 'target_names', 'target', 'DESCR'])

In [107]:
# 레이블 데이터들 탐색

print('레이블 value: ', pd.Series(news_data.target).value_counts().sort_index())
print('레이블 이름: ', news_data.target_names)

레이블 value:  0     799
1     973
2     985
3     982
4     963
5     988
6     975
7     990
8     996
9     994
10    999
11    991
12    984
13    990
14    987
15    997
16    910
17    940
18    775
19    628
dtype: int64
레이블 이름:  ['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc', 'comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware', 'comp.windows.x', 'misc.forsale', 'rec.autos', 'rec.motorcycles', 'rec.sport.baseball', 'rec.sport.hockey', 'sci.crypt', 'sci.electronics', 'sci.med', 'sci.space', 'soc.religion.christian', 'talk.politics.guns', 'talk.politics.mideast', 'talk.politics.misc', 'talk.religion.misc']


In [113]:
print(news_data.data[0])

From: egreen@east.sun.com (Ed Green - Pixel Cruncher)
Subject: Re: Observation re: helmets
Organization: Sun Microsystems, RTP, NC
Lines: 21
Distribution: world
Reply-To: egreen@east.sun.com
NNTP-Posting-Host: laser.east.sun.com

In article 211353@mavenry.altcit.eskimo.com, maven@mavenry.altcit.eskimo.com (Norman Hamer) writes:
> 
> The question for the day is re: passenger helmets, if you don't know for 
>certain who's gonna ride with you (like say you meet them at a .... church 
>meeting, yeah, that's the ticket)... What are some guidelines? Should I just 
>pick up another shoei in my size to have a backup helmet (XL), or should I 
>maybe get an inexpensive one of a smaller size to accomodate my likely 
>passenger? 

If your primary concern is protecting the passenger in the event of a
crash, have him or her fitted for a helmet that is their size.  If your
primary concern is complying with stupid helmet laws, carry a real big
spare (you can put a big or small head in a big helmet, bu

In [122]:
# 학습용 데이터 로드

train_news = fetch_20newsgroups(subset = 'train', remove = ('headers', 'footers', 'quotes'),
                                random_state = 156)

print(train_news.data[0])
print(train_news.target[0])



What I did NOT get with my drive (CD300i) is the System Install CD you
listed as #1.  Any ideas about how I can get one?  I bought my IIvx 8/120
from Direct Express in Chicago (no complaints at all -- good price & good
service).

BTW, I've heard that the System Install CD can be used to boot the mac;
however, my drive will NOT accept a CD caddy is the machine is off.  How can
you boot with it then?

--Dave

4


In [116]:
X_train = train_news.data
y_train = train_news.target

In [121]:
# 테스트용 데이터 로드


test_news = fetch_20newsgroups(subset = 'test', remove = ('headers', 'footers', 'quotes'),
                                random_state = 156)

print(test_news.data[0])
print(test_news.target[0])

The tech support line for GCC is 1-800-231-1570.
4


In [120]:
X_test = test_news.data
y_test = test_news.target

In [124]:
# 데이터 크기 확인

print(len(X_train), len(y_train))
print(len(X_test), len(y_test))

11314 11314
7532 7532


## 1.  CountVectorizer 피처벡터화

In [125]:
from sklearn.feature_extraction.text import CountVectorizer

In [130]:
cnt_vect = CountVectorizer()

# 학습용 데이터 학습
cnt_vect.fit(X_train)

# 학습용 데이터 피처벡터화
X_train_cnt_vect = cnt_vect.transform(X_train)


print(X_train_cnt_vect.toarray())
print(X_train_cnt_vect.shape)

[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]
(11314, 101631)


In [136]:
# 피처 names 확인

print(sorted(cnt_vect.vocabulary_.keys())[:20])

['00', '000', '0000', '00000', '000000', '00000000', '0000000004', '00000000b', '00000001', '00000001b', '00000010', '00000010b', '00000011', '00000011b', '00000074', '00000093', '000000e5', '00000100', '00000100b', '00000101']


In [131]:
# 테스트용 데이터 피처벡터화
X_test_cnt_vect = cnt_vect.transform(X_test)

print(X_test_cnt_vect.toarray())
print(X_test_cnt_vect.shape)

[[0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 ...
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]
 [0 0 0 ... 0 0 0]]
(7532, 101631)


In [None]:
rint(sorted(cnt_vect.vocabulary_.keys())[:20])

## 로지스틱 회귀 모델링 적용

In [133]:
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score
import warnings
warnings.filterwarnings('ignore')

#### solver = 'liblinear'

In [137]:
lr_clf = LogisticRegression(solver = 'liblinear')

# 학습
lr_clf.fit(X_train_cnt_vect, y_train)

# 예측
pred = lr_clf.predict(X_test_cnt_vect)

# 평가
accuracy = accuracy_score(y_test, pred)
print(f'정확도: {accuracy:.4f}')

정확도: 0.6166


#### solver = 'lbfgs'

In [140]:
lr_clf2 = LogisticRegression(solver = 'lbfgs')

# 학습
lr_clf2.fit(X_train_cnt_vect, y_train)

# 예측
pred2 = lr_clf2.predict(X_test_cnt_vect)

# 평가
accuracy2 = accuracy_score(y_test, pred2)
print(f'정확도: {accuracy:.4f}')

정확도: 0.6166


- 크게 차이 없음.. 분명히 다중분류와 큰 데이터셋에는 lbfgs가 성능이 좋다고 알려져있었는데,, ㅋㅋ

## 2.  TF-IDFVectorizer 피처벡터화

In [139]:
from sklearn.feature_extraction.text import TfidfVectorizer

In [141]:
tfidf_vect = TfidfVectorizer()

# 학습
tfidf_vect.fit(X_train)

# 학습용 데이터 피처벡터화
X_train_tf_vect = tfidf_vect.transform(X_train)

print(X_train_tf_vect.toarray())
print(X_train_tf_vect.shape)

[[0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]
(11314, 101631)


In [142]:
# 테스트용 데이터 피처벡터화
X_test_tf_vect = tfidf_vect.transform(X_test)

print(X_test_tf_vect.toarray())
print(X_test_tf_vect.shape)

[[0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 ...
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]
 [0. 0. 0. ... 0. 0. 0.]]
(7532, 101631)


## 로지스틱 회귀 모델링 적용

#### solver = 'liblinear'

In [144]:
lr_clf3 = LogisticRegression(solver = 'liblinear')

# 학습
lr_clf3.fit(X_train_tf_vect, y_train)

# 예측
pred3 = lr_clf3.predict(X_test_tf_vect)

# 평가
accuracy = accuracy_score(y_test, pred3)
print(f'정확도: {accuracy:.4f}')

정확도: 0.6775


#### solver = 'lbfgs'

In [145]:
lr_clf4 = LogisticRegression(solver = 'lbfgs')

# 학습
lr_clf4.fit(X_train_tf_vect, y_train)

# 예측
pred4 = lr_clf4.predict(X_test_tf_vect)

# 평가
accuracy4 = accuracy_score(y_test, pred4)
print(f'정확도: {accuracy:.4f}')

정확도: 0.6775


### 결론
- count 기반보다 tf-idf 기반으로 피처벡터화 후 모델 적용한 것이 성능이 좋게 나타남
- 머신러닝 성능을 좋게 하는 방법 두가지는,
    - 최신 ml알고리즘 사용
    - 최상의 피처 전처리 수행
- 분류모델링 하이퍼파라미터 튜닝해보겠음

## 로지스틱회귀 하이퍼파라미터 튜닝

#### 임의의 하이퍼파라미터 적용

In [147]:
tfidf_vect = TfidfVectorizer(stop_words = 'english',
                             max_df = 300,
                             ngram_range = (1, 2))

# 학습
tfidf_vect.fit(X_train)

# 학습용 데이터 피처벡터화
X_train_tf_vect = tfidf_vect.transform(X_train)
print(X_train_tf_vect.shape)

# 테스트용 데이터 피처벡터화
X_test_tf_vect = tfidf_vect.transform(X_test)
print(X_test_tf_vect.shape)

(11314, 943453)
(7532, 943453)


#### 로지스틱 회귀모델링

In [149]:
lr_clf = LogisticRegression(solver = 'liblinear')

# 학습
lr_clf.fit(X_train_tf_vect, y_train)

# 예측
pred_tf = lr_clf.predict(X_test_tf_vect)

# 평가
accuracy = accuracy_score(y_test, pred_tf)
print(f'정확도: {accuracy:.4f}')

정확도: 0.6901


#### GridSearchCV를 활용한 로지스틱 회귀 하이퍼파라미터 튜닝

In [150]:
from sklearn.model_selection import GridSearchCV

params = {'C': [ 0.01, 0.1, 1, 5, 10]}


grid_clf = GridSearchCV(lr_clf,
                        param_grid = params, 
                        cv = 3,
                        scoring = 'accuracy',
                        verbose = 1)

# 학습
grid_clf.fit(X_train_tf_vect, y_train)

# 최적 파라미터 추출
print(f'최적의 파라미터: {grid_clf.best_params_}')

# 최적 파라미터로 예측
pred = grid_clf.predict(X_test_tf_vect)

# 평가
accuracy = accuracy_score(y_test, pred)
print(f'정확도: {accuracy}')

Fitting 3 folds for each of 5 candidates, totalling 15 fits


[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done  15 out of  15 | elapsed:  4.3min finished


최적의 파라미터: {'C': 10}
정확도: 0.7039298990971854


### 결론
- 로지스틱 분류회귀 하이퍼파라미터 튜닝하니까 뭐~ 0.01정도 올랐다
- 분류 학습 말고, 피처벡터화 하이퍼파라미터 튜닝은 안되는지?

## 파이프라인을 활용한 알고리즘 설계
- <b>파이프라인</b>:
    - 피처 벡터화와 ML 알고리즘 학습/예측을 위한 코드 작성을 한 번에 할 수 있음
    - 머신러닝에서 Pipeline이란 데이터의 가공, 변환 등의 전처리와 알고리즘을 통일된 API 기반에서 처리할 수 있어 더 직관적인 코드를 짤 수 있음
    - 또한, 대용량의 피처 벡터화 결과를 별도의 데이터로 저장하지 않고 스트림 기반에서 바로 ML알고리즘의 데이터로 입력할 수 있기 때문에 수행 시간을 절약할 수 있음
    - 피처 벡터화 뿐 아니라 모든 데이터 전처리 작업(스케일링, 벡터 정규화, pca 등)과 Estimator(분류, 회귀)를 결합할 수 있음
    - 그리고 객체별 별도의 fit(), transform(), predict()등의 함수가 필요없음

In [151]:
from sklearn.pipeline import Pipeline

In [156]:
# 파이프라인 설계

pipeline = Pipeline([
    ('tfidf_vect', TfidfVectorizer(stop_words = 'english',
                                   ngram_range = (1,2),
                                   max_df = 300)),
    ('lr_clf', LogisticRegression(solver = 'liblinear',
                                  C = 10))
])

In [157]:
# 학습용 데이터 적용  
pipeline.fit(X_train, y_train)

# 테스트 데이터 적용
pred = pipeline.predict(X_test)

# 평가
accuracy = accuracy_score(y_test, pred)
print(f'정확도: {accuracy:.4f}')

정확도: 0.7039


### 파이프라인에 GridSearchCV 적용하여 최적의 하이퍼파라미터 도출

In [158]:
from sklearn.pipeline import Pipeline

In [165]:
pipeline = Pipeline([
    ('tfidf_vect', TfidfVectorizer(stop_words = 'english')),
    ('lr_clf', LogisticRegression())
])

In [173]:
pipeline.get_params().keys()

dict_keys(['memory', 'steps', 'verbose', 'tfidf_vect', 'lr_clf', 'tfidf_vect__analyzer', 'tfidf_vect__binary', 'tfidf_vect__decode_error', 'tfidf_vect__dtype', 'tfidf_vect__encoding', 'tfidf_vect__input', 'tfidf_vect__lowercase', 'tfidf_vect__max_df', 'tfidf_vect__max_features', 'tfidf_vect__min_df', 'tfidf_vect__ngram_range', 'tfidf_vect__norm', 'tfidf_vect__preprocessor', 'tfidf_vect__smooth_idf', 'tfidf_vect__stop_words', 'tfidf_vect__strip_accents', 'tfidf_vect__sublinear_tf', 'tfidf_vect__token_pattern', 'tfidf_vect__tokenizer', 'tfidf_vect__use_idf', 'tfidf_vect__vocabulary', 'lr_clf__C', 'lr_clf__class_weight', 'lr_clf__dual', 'lr_clf__fit_intercept', 'lr_clf__intercept_scaling', 'lr_clf__l1_ratio', 'lr_clf__max_iter', 'lr_clf__multi_class', 'lr_clf__n_jobs', 'lr_clf__penalty', 'lr_clf__random_state', 'lr_clf__solver', 'lr_clf__tol', 'lr_clf__verbose', 'lr_clf__warm_start'])

In [175]:
params = {'tfidf_vect__ngram_range': [(1, 1), (1, 2), (1, 3)],
          'tfidf_vect__max_df': [100, 300, 500],
          'tfidf_vect__min_df': [10, 20, 50],
          'lr_clf__C': [1, 5, 10]}

grid_clf_pipe = GridSearchCV(pipeline, 
                             param_grid = params,
                             cv = 3,
                             scoring = 'accuracy',
                             verbose = 1)

# 학습
grid_clf_pipe.fit(X_train, y_train)


# 최적의 하이퍼파라미터 
print(f'최적 파라미터: {grid_clf_pipe.best_params_}')
print(f'최적 score: {grid_clf_pipe.best_score_}')


# 예측
pred = grid_clf_pipe.predict(X_test)

# 평가
accuracy = accuracy_score(y_test, pred)
print(f'정확도: {accuracy: .4f}')

Fitting 3 folds for each of 81 candidates, totalling 243 fits


[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
[Parallel(n_jobs=1)]: Done 243 out of 243 | elapsed: 38.7min finished


최적 파라미터: {'lr_clf__C': 5, 'tfidf_vect__max_df': 500, 'tfidf_vect__min_df': 10, 'tfidf_vect__ngram_range': (1, 1)}
최적 score: 0.7136287291931064
정확도:  0.6691
