In [6]:
'''
I. 텍스트 분석의 이해
    - 비정형데이터인 텍스트를 word 기반의 다수 피처로 추출하고 단어 빈도수와 같은 값을 부여해서 벡터화하는 피처벡터화를 통해 분석
    - 텍스트를 피처 벡터화해서 변환하는 방법에는 BOW(Bag of Words)와 Word2Vec이 있음(이 책에서는 BOW만 설명)
    - 수행 순서는
        (i) 텍스트 사전준비(전처리) : 대소문자변경, 특수문자삭제, 단어 토큰화, 의미없는단어(Stop word)제거, 어근추출 등
        (ii) 피처벡터화/추출 : 가공된 텍스트 데이터에 벡터값 할당
        (iii) ML러닝 수립,학습,예측,평가
    
    1. 파이썬 기반의 NLP(National Language Processing), 텍스트 분석 패키지
        - NLTK : 대표적인 NLP 패키지, 방대한 데이터 세트와 서브모듈을 가지고 있음, 수행 속도가 느려서 실제 대량의 데이터 기반에서는 제대로 활용 X
        - Gensim : 토픽 모데링 분야에서 두각, Word2Vec 구현 등 신기능 제공, SpaCy와 함께 가장 많이 사용
        - SpaCy : 뛰어난 성능으로 최근에 가장 주목을 받음
    
        - 사이킷런은 NLP를 위한 라이브러리는 없지만 텍스트를 일정 수준으로 가공한 후 사용할 수 있는 기능은 많음 -> 다양한 텍스트 분석을 위해서는 위의 라이브러리들을 함께 사용해야 함

II. 텍스트 사전 준비 작업(텍스트 전처리) - 텍스트 정규화
    - 클렌징, 토큰화, 필터링, 스톱워드제거, 철자수정, Stemming, Lemmatization 등
    - 클렌징 : 불필요한 문자(태그 등) 제거
    - 토큰화 : 문서에서 문장을 분리하는 문장 토큰화와 문장에서 단어를 분리하는 단어 토큰화로 구분
    
'''
# NLTK를 이용한 문장 토큰화(!pip install nltk 선행)
import nltk
from nltk import sent_tokenize
#nltk.download('punkt') ; 마침표, 개행문자 등의 데이터세트 다운(최초 1회만 필요)


text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
               You can see it out your window or on your television. \
               You feel it when you go to work, or go to church or pay your taxes.'
sentences = sent_tokenize(text=text_sample) #문장으로 구성된 list객체 반환
print(type(sentences), len(sentences))
print(sentences)

<class 'list'> 3
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


In [7]:
#NLTK를 이용한 단어 토큰화
from nltk import word_tokenize
#BOW와 같이 단어 순서가 중요하지 않은 경우 단어 토큰화만 사용해도 됨

sentence = "The Matrix is everywhere its all around us, here even in this room."
words = word_tokenize(sentence)
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


In [8]:
# 문장 토큰화 + 단어 토큰화

#여러개의 문장으로 된 입력 데이터를 문장별로 단어 토큰화 만드는 함수 생성
def tokenize_text(text):
    
    # 문장별로 분리 토큰
    sentences = sent_tokenize(text)
    # 분리된 문장별 단어 토큰화
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    return word_tokens

#여러 문장들에 대해 문장별 단어 토큰화 수행. 
word_tokens = tokenize_text(text_sample)
print(type(word_tokens),len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


In [26]:
'''
    - 스톱워드 제거: 영어에서 is, the, a, will 등 제거
    - nltk.download('stopwords')를 통해 각 언어의 스톱워드를 다운 가능
'''
#영어의 stopword 개수와 20개 정도 확인
print(len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


In [27]:
# Stopword 필터링

import nltk
stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []
for sentence in word_tokens:
    filtered_words=[]
    # 개별 문장별로 tokenize된 sentence list에 대해 stop word 제거 Loop
    for word in sentence:
        #소문자로 모두 변환합니다. 
        word = word.lower()
        # tokenize 된 개별 word가 stop words 들의 단어에 포함되지 않으면 word_tokens에 추가
        if word not in stopwords:
            filtered_words.append(word)
    all_tokens.append(filtered_words)
    
print(all_tokens)

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


In [29]:
'''
    - Stemming과 Lemmatization : 문법적,의미적으로 변화하는 단어(시제 같은 것)의 원형을 찾는것; Lemmatization이 보다 정교하고 의미론적인 기반에서 단어 원형을 찾음(대신 시간이 오래걸림)
    - NLTK에서는 Stemming을 위해서는 Porter, Lancaster, Snowball Stemmer, Lemmatization을 위해서는 WordNetLemmatizer를 제공
'''
#NLTK의 LancasterStemmer 이용
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'),stemmer.stem('works'),stemmer.stem('worked')) #stem('단어')를 통해 단어의 Stemming 가능
print(stemmer.stem('amusing'),stemmer.stem('amuses'),stemmer.stem('amused'))
print(stemmer.stem('happier'),stemmer.stem('happiest'))
print(stemmer.stem('fancier'),stemmer.stem('fanciest')) #원형을 못찾는 경우도 많음

work work work
amus amus amus
happy happiest
fant fanciest


In [30]:
#WordnetLemmatizer이용, 일반적으로 Lemmatization을 위해서는 보다 정확한 원형 단어 추출을 위해 품사를 입력해줘야함
from nltk.stem import WordNetLemmatizer
import nltk
#nltk.download('wordnet') 선행

lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing','v'),lemma.lemmatize('amuses','v'),lemma.lemmatize('amused','v'))
print(lemma.lemmatize('happier','a'),lemma.lemmatize('happiest','a'))
print(lemma.lemmatize('fancier','a'),lemma.lemmatize('fanciest','a')) #보다 정확한 원형 추출 가능

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\1\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\wordnet.zip.


amuse amuse amuse
happy happy
fancy fancy


In [2]:
'''
III. Bag of Words - BOW
    - 문서가 가지는 모든 단어를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도값을 부여 해 피처값을 추출하는 모델
    - 각 단어에 고유의 인덱스를 부여하고 해당 인덱스에 단어의 빈도수를 부여
    - 장점: 쉽고 빠른 구축 / 단점: 문맥 의미 반영 부족, 희소 행렬 문제(학습하다보면 칼럼은 수십만개가 됨 -> 테스트에는 대부분의 피처가 0이 되는 현상 ->수행시간과 예측성능 하락)
    
    1. BOW 피처 벡터화
        - 텍스트 -> 벡터로 만드는 것
        - 일반적으로 BOW의 픽처벡터화는 카운트 기반의 벡터화와 TF-IDF(Term Frequency-Inverse Document Frequency) 기반의 벡터화 두가지 방식이 있음
            (i) 카운트 기반 벡터화 : 단어 피처에 값을 부여할 때 각 문서에서 해당 단어가 나타나는 횟수를 부여하는 경우 -> 카운트 값이 높을 수록 중요한 단어로 인식 but 언어의 특성상 문장에서 자주 사용될 수 밖에 없는 단어까지 높은 값을 부여하게 됨
            (ii) TF-IDF 기반 벡터화 : 카운트 기반 벡터화의 문제 보완 -> 개별 문서에서 자주 나타나는 단어에 높은 가중치를 주되, 모든 문서에서 전반적으로 자주 나타나는 단어에 대해서는 패널티를 주는 방식
                                      수식으로 나타내면 TFIDF_i = TF_i * log(N/DF_i) , TF_i는 개별 문서에서의 단어 i빈도, N은 전체 문서 개수, DF_i는 단어 i를 가지고있는 문서 개수
    
    2. 사이킷런의 Count 및 TF-IDF 벡터화 구현 : CountVectorizer, TfidfVectorizer
        - CounterVectorizer 클래스는 소문자 일괄 변환, 토큰화, 스톱워드 필터링 등 전처리도 함께 수행 입력 파라미터는
            (i) max_df : 전체 문서에 걸쳐서 너무 높은 빈도수를 가지는 단어 피처를 제외하기 위한 파라미터, 정수(N)로 입력하면 전체문서에서 N개 이하로 나타나는 단어만 피처로 추출, 부동소수점(0<=k<=1)로 입력하면 전체문서에 걸쳐 빈도수 0~k%까지 단어만 피처로 추출하고 나머지 (1-k)%는 피처로 추출 X
            (ii) min_df : 전체 문서에 걸쳐 너무 낮은 비도수를 가지는 단어를 제외하기 위한 파라미터, 정수(N)는 N개 이하 제외, 부동소수점(k)는 하위 k% 포함 X
            (iii) max_features : 추출하는 피처의 개수를 제한 ex) 2000으로 설정하면 가장 높은 빈도를 가지는 단어순으로 2000개까지만 피처로 추출
            (iv) stop_words : 'english'로 지정하면 영어의 스톱 워드로 지정된 단어는 추출에서 제외
            (v) n_gram_range : 단어순서를 어느정도 보강하기 위한 n_gram 범위 설정, 튜플형태로 (범위 최솟값, 범위 최대값) 지정, ex) (1,2)로 지정하면 토큰화된 단어를 1개씩 순서대로 2개씩 묶어서 추출
            (vi) analyzer : 피처추출을 수행한 단위를 지정, 디폴트는 word
            (vii) token_pattern : 토큰화를 수행하는 정규 표현식 패턴 지정, 디폴트는 '\b\w\w+\b'로 공백 또는 개행문자 등으로 구분된 단어분리자(\b) 사이의 2문자 이상의 단어를 토큰으로 분리, analyzer='word'로 설정했을 때만 변경 가능
            (viii) tokenizer : 토큰화를 별도의 커스텀 함수로 이용시 적용
    
        - 피처벡터화 순서 : (i) 전처리(소문자처리등) ->(ii) n_gram_range 반영 후 토큰화 -> (iii) 정규화(스톱 워드 필터링, tokenizer에 Stemming 혹은 Lemmatization 적용해서 어근변환 등) -> (iv) 토큰화된 단어를 피처로 추출하고 단어 빈도수 벡터값 적용
        - TF-IDF 벡터화는 TfidfVectorizer 사용, 사용방법은 동일
        
    3. BOW 벡터화를 위한 희소 행렬
        - 대규모 행렬의 대부분 값을 0이 차지하는 행렬을 '희소행렬'이라고 함 -> BOW 형태를 가진 언어 모델의 피처 벡터화는 대부분 희소행렬
        - 희소행렬은 너무 많은 메모리 공간이 필요 -> 물리적으로 적은 메모리 공간을 차지하도록 변환 -> 대표적인 방법으로 COO형식와 CSR형식이 있음
        - 일반적으로 큰 희소행렬을 저장하고 계산을 수행하는 능력이 CSR이 더 뛰어나기 때문에 CSR을 많이 사용
        
    4. 희소행렬 - COO형식
        - COO형식은 0이 아닌 데이터만 별도의 데이터 배열에 저장하고, 그 데이터가 가리키는 행과 열의 위치를 별도의 배열로 저장하는 방식
        - ex) [[3,0,1],[0,2,0]]의 경우 0이 아닌 데이터가 있는 위치를 (row,col)로 표시하면 (0,0),(0,2),(1,1) -> 로우와 칼럼을 따로 저장하면 로우는 [0,0,1],칼럼은 [0,2,1]
        - 희소행렬 변환은 사이파이의 sparse 모듈 이용
'''
import numpy as np

dense = np.array([[3,0,1],[0,2,0]])

from scipy import sparse
# 0이 아닌 데이터 추출
data = np.array([3,1,2])

#행 위치와 열 위치를 각각 배열로 생성
row_pos = np.array([0,0,1])
col_pos = np.array([0,2,1])

#sparse 패키지의 coo_matrix를 이용, COO 형식으로 희소 행렬 생성
sparse_coo = sparse.coo_matrix((data,(row_pos,col_pos))) #sparse_coo는 COO 형식의 희소행렬객체변수

sparse_coo.toarray() # 다시 밀집 형태의 행렬로 추력

array([[3, 0, 1],
       [0, 2, 0]])

In [3]:
'''
    5. 희소 행렬 - CSR형식
        - COO 형식이 행과 열의 위치를 나타내기 위해서 반복적은 위치데이터를 사용해야하는 문제점을 해결
'''

#먼저 COO방식의 문제점을 먼저 알아보면
dense2 = np.array([[0,0,1,0,0,5],
             [1,4,0,3,2,5],
             [0,6,0,3,0,0],
             [2,0,0,0,0,0],
             [0,0,0,7,0,8],
             [1,0,0,0,0,0]])

# 0 이 아닌 데이터 추출
data2 = np.array([1, 5, 1, 4, 3, 2, 5, 6, 3, 2, 7, 8, 1])

# 행 위치와 열 위치를 각각 array로 생성 
row_pos = np.array([0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5]) 
'''
1이 반복적으로 나타남 -> 행 위치 배열이 0부터 순차적으로 증가한다는 점을 이용하면 이러한 반복을 제거할 수 있음
여기서 행 위치를 다시 위치배열로 변환하는 것이 CSR의 핵심
[0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5]를 다시 변환하면 [0,2,7,9,10,12]가 됨 + 맨 마지막에는 데이터의 총 항목 개수를 배열에 추가
-> 최종적으로 CRS변환된 배열은 [0,2,7,9,10,12,13]
'''

col_pos = np.array([2, 5, 0, 1, 3, 4, 5, 1, 3, 0, 3, 5, 0])

# COO 형식으로 변환 
sparse_coo = sparse.coo_matrix((data2, (row_pos,col_pos)))

# 행 위치 배열의 고유한 값들의 시작 위치 인덱스를 배열로 생성
row_pos_ind = np.array([0, 2, 7, 9, 10, 12, 13])

# CSR 형식으로 변환 
sparse_csr = sparse.csr_matrix((data2, col_pos, row_pos_ind))

print('COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_coo.toarray())
print('CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_csr.toarray())

COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


In [4]:
#실제 사용시에는 밀집행렬을 그대로 파라미터로 입력하면 됨
dense3 = np.array([[0,0,1,0,0,5],
             [1,4,0,3,2,5],
             [0,6,0,3,0,0],
             [2,0,0,0,0,0],
             [0,0,0,7,0,8],
             [1,0,0,0,0,0]])

coo = sparse.coo_matrix(dense3)
csr = sparse.csr_matrix(dense3)

In [6]:
print(coo.toarray())
print(csr.toarray())

[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


In [7]:
'''
IV. 텍스트 분류 실습 - 20 뉴스그룹 분류
    - 사이킷런 예제 데이터인 20 뉴스그룹 데이터세트를 이용, 테스트 분류 적용
    - fetch_20newsgroups() API를 이용, 예제데이터를 제공받은 후 벡터화 -> 로지스틱회귀를 이용해 분류
'''
from sklearn.datasets import fetch_20newsgroups

news_data = fetch_20newsgroups(subset='all',random_state=156) #네트워크 연결되어 있어야함
print(news_data.keys()) #key값 확인, filenames는 컴퓨터에 저장된 디렉터리와 파일명

dict_keys(['data', 'filenames', 'target_names', 'target', 'DESCR'])


In [11]:
#target 데이터 구성 확인
import pandas as pd
print(pd.Series(news_data.target).value_counts().sort_index())
print('\n',news_data.target_names)

0     799
1     973
2     985
3     982
4     963
5     988
6     975
7     990
8     996
9     994
10    999
11    991
12    984
13    990
14    987
15    997
16    910
17    940
18    775
19    628
dtype: int64

 ['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc', 'comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware', 'comp.windows.x', 'misc.forsale', 'rec.autos', 'rec.motorcycles', 'rec.sport.baseball', 'rec.sport.hockey', 'sci.crypt', 'sci.electronics', 'sci.med', 'sci.space', 'soc.religion.christian', 'talk.politics.guns', 'talk.politics.mideast', 'talk.politics.misc', 'talk.religion.misc']


In [12]:
#데이터 값 확인
print(news_data.data[0])

From: egreen@east.sun.com (Ed Green - Pixel Cruncher)
Subject: Re: Observation re: helmets
Organization: Sun Microsystems, RTP, NC
Lines: 21
Distribution: world
Reply-To: egreen@east.sun.com
NNTP-Posting-Host: laser.east.sun.com

In article 211353@mavenry.altcit.eskimo.com, maven@mavenry.altcit.eskimo.com (Norman Hamer) writes:
> 
> The question for the day is re: passenger helmets, if you don't know for 
>certain who's gonna ride with you (like say you meet them at a .... church 
>meeting, yeah, that's the ticket)... What are some guidelines? Should I just 
>pick up another shoei in my size to have a backup helmet (XL), or should I 
>maybe get an inexpensive one of a smaller size to accomodate my likely 
>passenger? 

If your primary concern is protecting the passenger in the event of a
crash, have him or her fitted for a helmet that is their size.  If your
primary concern is complying with stupid helmet laws, carry a real big
spare (you can put a big or small head in a big helmet, bu

In [1]:
#순수 텍스트 분석을 위해 제목 등의 정보를 없앤 데이터셋 이용
from sklearn.datasets import fetch_20newsgroups
#subset='train'으로 학습용 데이터만 추출
train_news = fetch_20newsgroups(subset='train',remove=('header','footers','quotes'))

X_train = train_news.data
y_train = train_news.target

#subset='test'로 테스트용 데이터만 추출
test_news = fetch_20newsgroups(subset='test',remove=('header','footers','quotes'))

X_test = test_news.data
y_test = test_news.target

print(len(X_train), len(X_test))

11314 7532


In [2]:
#피처 벡터화, 머신러닝 모델 학습/예측/평가

#학습용,테스트용 데이터를 모두 CountVectorizer를 이용해 피처벡터화
#주의해야할 점은 테스트 데이터를 변환할 때 학습 데이터를 이용해 fit()이 수행된 CountVectorizer 객체를 이용해야 함

from sklearn.feature_extraction.text import CountVectorizer

#Count 기반 피처 벡터화 수행
cnt_vect= CountVectorizer()
cnt_vect.fit(X_train)
X_train_cnt_vect = cnt_vect.transform(X_train)

X_test_cnt_vect = cnt_vect.transform(X_test)

print(X_test_cnt_vect.shape)

(7532, 99238)


In [3]:
#로지스틱 회귀로 예측
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

lf_clf = LogisticRegression()
lf_clf.fit(X_train_cnt_vect, y_train)
pred = lf_clf.predict(X_test_cnt_vect)
print(accuracy_score(y_test, pred))

0.7465480616038237


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


In [34]:
#TF-IDF 기반 벡터화 수행
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vect = TfidfVectorizer()
tfidf_vect.fit(X_train)
X_train_tfidf_vect = tfidf_vect.transform(X_train)
X_test_tfidf_vect = tfidf_vect.transform(X_test)

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

lf_clf = LogisticRegression()
lf_clf.fit(X_train_tfidf_vect, y_train)
pred = lf_clf.predict(X_test_tfidf_vect)
print(accuracy_score(y_test, pred)) # TF-IDF가 더 높은 정확성을 보임

0.782129580456718


In [9]:
# TF-IDF에 파라미터 적용
# stop words 필터링과 max_depth변수 추가
# ngram_range 변수도 기본 (1,1)에서 (1,2)로 바꾸려고 했으나 메모리 과부화 때문인지 작동이 안돼서 변경X
from sklearn.feature_extraction.text import TfidfVectorizer
tfidf_vect = TfidfVectorizer(stop_words='english', max_df=300)
tfidf_vect.fit(X_train)
X_train_tfidf_vect = tfidf_vect.transform(X_train)
X_test_tfidf_vect = tfidf_vect.transform(X_test)

lr_clf = LogisticRegression()
lr_clf.fit(X_train_tfidf_vect , y_train)
pred = lr_clf.predict(X_test_tfidf_vect)
print(accuracy_score(y_test ,pred))

#stop_words만 설정했을 땐 정확도가 상승했는데 max_df까지 설정하니 오히려 정확도가 하락

0.7773499734466277


In [10]:
#모델 하이퍼 파라미터 튜닝
#시간 + 메모리 문제로 실행 X
'''
from sklearn.model_selection import GridSearchCV

# 최적 C 값 도출 튜닝 수행. CV는 3 Fold셋으로 설정. 
params = { 'C':[0.01, 0.1, 1, 5, 10]}
grid_cv_lr = GridSearchCV(lr_clf ,param_grid=params , cv=3 , scoring='accuracy' , verbose=1 )
grid_cv_lr.fit(X_train_tfidf_vect , y_train)
print('Logistic Regression best C parameter :',grid_cv_lr.best_params_ )

# 최적 C 값으로 학습된 grid_cv로 예측 수행하고 정확도 평가. 
pred = grid_cv_lr.predict(X_test_tfidf_vect)
print('TF-IDF Vectorized Logistic Regression 의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test ,pred)))
'''

Fitting 3 folds for each of 5 candidates, totalling 15 fits


[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative sol

KeyboardInterrupt: 

In [None]:
#파이프라인 사용
#파이프라인을 이용하면 전처리 + 학습, 예측, 평가를 통일된 스트림에서 실행 가능
from sklearn.pipeline import Pipeline

# TfidfVectorizer 객체를 tfidf_vect 객체명으로, LogisticRegression객체를 lr_clf 객체명으로 생성하는 Pipeline생성
pipeline = Pipeline([
    ('tfidf_vect', TfidfVectorizer(stop_words='english', ngram_range=(1,2), max_df=300)),
    ('lr_clf', LogisticRegression(C=10))
])

# 별도의 TfidfVectorizer객체의 fit_transform( )과 LogisticRegression의 fit(), predict( )가 필요 없음. 
# pipeline의 fit( ) 과 predict( ) 만으로 한꺼번에 Feature Vectorization과 ML 학습/예측이 가능. 
pipeline.fit(X_train, y_train)
pred = pipeline.predict(X_test)
print('Pipeline을 통한 Logistic Regression 의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test ,pred)))

In [None]:
#파이프라인 + GridSearchCV
#시간이 오래걸림 + 메모리 과부하로 직접 실행은 X 이런 코드가 있다는 것만 알기

'''
from sklearn.pipeline import Pipeline

pipeline = Pipeline([
    ('tfidf_vect', TfidfVectorizer(stop_words='english')),
    ('lr_clf', LogisticRegression())
])

# Pipeline에 기술된 각각의 객체 변수에 언더바(_)2개를 연달아 붙여 GridSearchCV에 사용될 
# 파라미터/하이퍼 파라미터 이름과 값을 설정. . 
params = { 'tfidf_vect__ngram_range': [(1,1), (1,2), (1,3)],
           'tfidf_vect__max_df': [100, 300, 700],
           'lr_clf__C': [1,5,10]
}

# GridSearchCV의 생성자에 Estimator가 아닌 Pipeline 객체 입력
grid_cv_pipe = GridSearchCV(pipeline, param_grid=params, cv=3 , scoring='accuracy',verbose=1)
grid_cv_pipe.fit(X_train , y_train)
print(grid_cv_pipe.best_params_ , grid_cv_pipe.best_score_)

pred = grid_cv_pipe.predict(X_test)
print('Pipeline을 통한 Logistic Regression 의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test ,pred)))
'''