## [Chapter 8] 텍스트 분석

### 00. NLP이냐 텍스트 분석이냐?

NLP는 머신이 인간의 언어를 이해하고 해석하는 데 더 중점을 두고 기술이 발전해 왔으며, 텍스트 마이닝(Text Mining)이라고도 불리는 텍스트 분석은 비정형 텍스트에서 의미 있는 정보를 추출하는 것에 좀 더 중점을 두고 기술이 발전해옴.  
NLP 기술이 발전함에 따라 텍스트 분석도 더욱 정교하게 발전하였으며, 텍스트 분석은 머신러닝, 언어 이해, 통계 등을 활용해 모델을 수립하고 정보를 추출해 비지니스 인텔리전스(Business Intelligene)나 예측 분석 등의 분석 작업을 주로 수행함.
- **텍스트 분류(Text Classification)** : 지도학습을 적용하여 문서가 특정 분류 또는 카테고리에 속하는 것을 예측하는 기법.  
ex) 신문기사 내용의 카테고리 분류, 스팸 메일 검출 등
- **감성 분석(Sentiment Analysis)** : 텍스트에서 나타나는 감정/판단/믿음/의견/기분 등의 주관적인 요소를 분석하는 기법. 텍스트 분석에서 가장 활발하게 사용되고 있는 분야로, 지도학습과 비지도학습 모두 이용해 적용할 수 있음.  
ex) 감정 분석, 리뷰, 여론조사 의견 분석 등
- **텍스트 요약(Summarization)** : 텍스트 내 중요한 주제나 중심 사상을 추출하는 기법.  
ex) 토픽 모델링(Topic Modeling)
- **텍스트 군집화(Clustering)와 유사도 측정** : 비슷한 유형의 문서에 대해 군집화ㅑ를 수행하는 기법. 텍스트 분류를 비지도학습으로 수행하는 방법의 일환으로 사용될 수 있음. 유사도 측정 역시 문서들간의 유사도를 측정해 비슷한 문서끼리 모을 수 있는 방법.

### 01. 텍스트 분석 이해

텍스트 분석은 비정형 데이터인 텍스트를 분석하는 것임. 머신러닝 알고리즘에는 숫자형 피처 기반 데이터만 입력받을 수 있기 때문에, **텍스트를 머신러닝에 적용하기 위해서는 비정형 텍스트 데이터를 어떻게 피처 형태로 추출하고 어떻게 의미 있는 값을 부여하는가가 매우 중요한 요소임.**  
텍스트를 word 기반의 다수의 피처로 추출하고 이 피처에 단어 빈도수 등의 숫자 값을 부여하여 **<font color=orange>텍스트를 단어 조합의 벡터값으로 표현하는 것을 퓨ㅣ처 벡터화(Feature Vectorization) 또는 피처 추출(Feature Extraction)이라고 함.</font>** 텍스트를 벡터값을 가지는 피처로 변환하는 것은 머신러닝 모델을 적용하기 전에 수행해야 할 매우 중요한 요소이며, BOW(Bag of Words)와 Word2Vec 방법이 이에 해당함.  
</br>
#### 텍스트 분석 수행 프로세스
1. 텍스트 사전 준비작업(텍스트 전처리) : 텍스트를 피처로 만들기 전 클렌징, 대/소문자 변경, 특수문자 삭제 등의 클렌징 작업, 토큰화 작업, 의미 없는 단어(Stop word) 제거 작업, 어근 추출(Stemming/Lemmatization) 등의 텍스트 정규화 작업을 수행하는 것.
2. 피처 벡터화/추출 : 사전 준비 작업으로 가공된 텍스트에서 피처를 추출하고 벡터값을 할당함. BOW와 Word2Vec이 이에 해당하며, BOW는 대표적으로 Count 기반과 TF-IDF 기반 벡터화가 있음.
3. ML 모델 수립 및 학습/예측/평가 : 피처 벡터화된 데이터 세트에 ML 모델을 적용해 학습/예측 및 평가를 수행함.  

</br>

#### 파이썬 기반의 NLP, 텍스트 분석 패키지
- NLTK(Natural Language Toolkit for Python) : 파이썬의 가장 대표적인 NLP 패키지. 방대한 데이터 세트와 서브 모듈으르 가지고 있으며 NLP의 거의 모든 영역을 커버하고 있음. 하지만 수행 속도 측면에서 아쉬운 부분이 있어, 실제 대량의 데이터 기반에서는 제대로 활용되지 못하고 있음.
- Gensim : 토픽 모델링 분야에서 가장 두각을 나타내는 패키지. 토픽 모델링을 쉽게 구현할 수 있는 기능 뿐만 아니라 Word2Vecc 등의 신기능도 제공함. SpaCy와 함께 가장 많이 사용되는 NLP 패키지임.
- SpaCy : 뛰어난 수행 성능으로 최근 가장 주목을 받는 NLP 패키지. 많은 NLP 애플리케이션에서 SpaCy를 사용하는 사례가 늘고 있음.

### 02. 텍스트 사전 준비 작업(텍스트 전처리) - 텍스트 정규화

**텍스트 정규화**는 텍스트를 머신러닝 알고리즘이나 NLP 애플리케이션에 입력 데이터로 사용하기 위해 클렌징, 정제, 토큰화, 어근화 등의 **<font color=orange>다양한 텍스트 데이터의 사전 작업을 수행하는 것</font>**을 의미함. 텍스트 정규화 작업은 텍스트 분석에서 매우 중요하며, 크게 다음과 같이 분류할 수 있음.
- 클렌징(Cleansing)
- 토큰화(Tokenization)
- 필터링/스톱 워드 제거/철자 수정
- Stemming
- Lemmatization

</br>

#### 클렌징
텍스트에서 분석에 방해가 되는 불필요한 문자, 기호 등을 사전에 제거하는 작업.  
ex) HTML, XML 태그나 특정 기호 제거  
</br>
#### 텍스트 토큰화
##### 문장 토큰화
문장 토큰화(sentence tokenization)는 문장의 마침표, 개행문자 등 문장의 마지막을 뜻하는 기호에 따라 분리하는 것이 일반적임. 또한 정규 표현식에 따른 문장 토큰화도 가능함. **일반적으로 문장 토큰화는 각 문장이 가지는 시맨틱적인 의미가 중요한 요소로 사용될 때 사용함.**

In [1]:
# sent_tokenize() 를 이용한 토큰화 수행 예제
# 3개의 문장으로 이루어진 텍스트 문서를 문장으로 각각 분리하는 예제

from nltk import sent_tokenize

import nltk
nltk.download('punkt')

text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
               You can see it out your window or on your television. \
               You feel it when you go to work, or go to church or pay your taxes.'
sentences = sent_tokenize(text=text_sample)
print(type(sentences),len(sentences))
print(sentences)

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\mining\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.


<class 'list'> 3
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


→ sent_tokenize()가 반환하는 것은 각각의 문장으로 구성된 list 객체

##### 단어 토큰화
단어 토큰화(Word Tokenization)는 문장을 단어로 토큰화하는 것. 기본적으로 공백, 콤마, 마침표, 개행문자 등으로 단어를 분리하지만, 정규 표현식을 이용해 다양한 유형으로 토큰화를 수행할 수 있음.  
구분자를 이용해 단어를 토큰화할 수 있으므로, BOW와 같이 단어의 순서가 중요하지 않은 경우 문장 토큰화를 사용하지 않고 단어 토큰화만 사용해도 충분함.

In [2]:
# word_tokenize()를 이용한 단어 토큰화 예제
from nltk import word_tokenize

sentence = "The Matrix is everywhere its all around us, here even in this room."
words = word_tokenize(sentence)
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


In [3]:
# 문장 별로 단어 토큰화 적용하기

from nltk import word_tokenize, sent_tokenize

#여러개의 문장으로 된 입력 데이터를 문장별로 단어 토큰화 만드는 함수 생성
def tokenize_text(text):
    
    # 문장별로 분리 토큰
    sentences = sent_tokenize(text)
    # 분리된 문장별 단어 토큰화
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    return word_tokens

#여러 문장들에 대해 문장별 단어 토큰화 수행. 
word_tokens = tokenize_text(text_sample)
print(type(word_tokens),len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


→ 문장을 단어별로 하나씩 토큰화할 경우 문맥적인 의미는 무시됨. 이를 조금이라도 해결하고자 도입된 것이 연속된 n개의 단어를 하나의 토큰화 단위로 분리해 내는 n-gram. 

#### 스톱 워드 제거
스톱 워드(Stop word)는 **분석에 큰 의미가 없는 단어**를 지칭함. 영어의 is, the, a. will 처럼 문장 구성 필수 문법 요소이지만 문맥적으로 큰 의미가 없는 단어가 이에 해당함. 빈번하게 등장하기 떄문에 중요한 단어로 인지될 수 있으므로, 스톱 워드를 제거하는 것이 중요한 전처리 작업임.

In [4]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\mining\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [5]:
print('영어 stop words 갯수:',len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

영어 stop words 갯수: 179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


In [6]:
import nltk

stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []
# 위 예제의 3개의 문장별로 얻은 word_tokens list 에 대해 stop word 제거 Loop
for sentence in word_tokens:
    filtered_words=[]
    # 개별 문장별로 tokenize된 sentence list에 대해 stop word 제거 Loop
    for word in sentence:
        #소문자로 모두 변환합니다. 
        word = word.lower()
        # tokenize 된 개별 word가 stop words 들의 단어에 포함되지 않으면 word_tokens에 추가
        if word not in stopwords:
            filtered_words.append(word)
    all_tokens.append(filtered_words)
    
print(all_tokens)

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


#### Stemming과 Lemmatization
**<font color=orange>Stemming과 Lemmatization은 문법적 또는 의미적으로 변화하는 단어의 원형을 찾는 것.</font>** Stemming은 원형 단어로 변환 시 일반적인 방법을 적용하거나 더 단순화된 방법을 적용해 일부 철자가 훼손된 어근 단어를 추출하는 경향이 있음. Lemmatization이 Stemming보다 정교하며 의미론적인 기반에서 단어의 원형을 찾음. 품사와 같은 문법적인 요소와 더 의미적인 부분을 감안해 정확한 철자로 된 어근 단어를 찾아주기 때문에 변환에 더 오랜 시간을 필요로 함.

In [7]:
# Stemming

from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'),stemmer.stem('works'),stemmer.stem('worked'))
print(stemmer.stem('amusing'),stemmer.stem('amuses'),stemmer.stem('amused'))
print(stemmer.stem('happier'),stemmer.stem('happiest'))
print(stemmer.stem('fancier'),stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


→ Stemmer을 사용할 경우 정확한 원형을 찾지 못하고 철자가 다른 어근 단어로 인식하는 경우가 발생함.

In [8]:
# Lemmatization
# Lemmatization은 단어를 입력할 때 품사도 같이 입력해야 함.

from nltk.stem import WordNetLemmatizer

import nltk
nltk.download('wordnet')

lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing','v'),lemma.lemmatize('amuses','v'),lemma.lemmatize('amused','v'))
print(lemma.lemmatize('happier','a'),lemma.lemmatize('happiest','a'))
print(lemma.lemmatize('fancier','a'),lemma.lemmatize('fanciest','a'))

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\mining\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\wordnet.zip.


amuse amuse amuse
happy happy
fancy fancy


→ Lemmatization은 Stemming보다 정확하게 원형 단어를 추출해줌을 확인.

### 03. Bag of Words - BOW

**<font color=orange>Bag of Words 모델은 문서가 가지는 모든 단어를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도 값을 부여해 피처 값을 추출하는 모델임.</font>** 문서 내 모든 단어를 한꺼번에 봉투(Bag) 안에 넣은 뒤 흔들어 섞는다는 의미임.
![image.png](attachment:image.png)
</br>
<BOW 모델의 장점>
- 쉽고 빠른 구축이 가능함.  
→ 예상보다 문서의 특징을 잘 나타내기에 전통적으로 여러 분야에서 활용도가 높음.  

<BOW 모델의 단점>
- 문맥 의미(Semantic Context) 반영 부족 : 단어의 순서를 고려하지 않기 때문에 문장 내 단어의 문맥적인 의미가 무시됨. 이를 보완하기 위해 n_gram 기법을 활용할 수 있으나, 제한적인 부분에 그치므로 문맥적인 해석을 처리하지 못하는 단점이 있음.
- 희소 행렬 문제(희소성, 희소 행렬) : BOW를 수행하면 희소 행렬 형태의 데이터 세트가 만들어지기 쉬움. 매우 많은 문서에서 단어의 총 개수는 수만~수십만 개가 될 수 있는데, 하나의 문서에 있는 단어는 이 중 극히 일부분이므로 대부분의 데이터는 0 값으로 채워지게 되는데, 이처럼 대규모의 칼럼으로 구성된 행렬에서 대부분의 값이 0으로 채워지는 행렬을 희소 행렬(Sparse Matrix)이라고 함. (cf. 희소 행렬의 반대는 대부분의 값이 0이 아닌 의미 있는 값으로 채워져 있는 밀집 행렬(Dense Matrix).)  

</br>

#### BOW 피처 벡터화
머신러닝 알고리즘은 숫자형 피처를 데이터로 받아 동작하기 때문에 텍스트는 특정 의미를 가지는 숫자형 값인 벡터 값으로 변환해야 하는데, 이러한 변환을 피처 벡터화라고 함. 피처 벡터화는 기존 텍스트 데이터를 또 다른 형태의 피처의 조합으로 변경하기 때문에 넓은 범위의 피처 추출에 포함함.  
</br>
BOW 모델에서 피처 벡터화를 수행한다는 것은 모든 문서에서 모든 단어를 칼럼 형태로 나열하고 각 문서에서 해당 단어의 횟수나 정규화된 빈도를 값으로 부여하는 데이터 세트 모델로 변경하는 것. 일반적으로 BOW의 피처 벡터화는 카운트 기반의 벡터화, TF-IDF(Team Frequency - Inverse Document Frequency) 기반의 벡터화 두 가지 방식이 있음.
</br>
**<font color=orange>단어 피처에 값을 부여할 때 각 문서에 해당 단어가 나타나는 회수를 부여하는 경우를 카운트 벡터화</font>**라고 하며, 카운트 값이 높을수록 중요한 단어로 인식됨. 그러나 카운트만 부여할 경우 문서의 특징을 나타내기보다는 언어의 특성상 문장에서 자주 사용될 수밖에 없는 단어까지 높은 값을 부여하게 됨. 이를 보완하기 위해 TF-IDF 벡터화를 사용함.  
![image-2.png](attachment:image-2.png)
**<font color=orange>TF-IDF는 개별 문서에 자주 나타나는 단어에 높은 가중치를 주되, 모든 문서에서 전반적으로 자주 나타나는 단어에 대해서는 페널티를 주는 방식으로 값을 부여함.</font>** 문서마다 텍스트가 길고 문서의 개수가 많은 경우 카운트 방식보다는 TF-IDF 방식을 사용하는 것이 더 좋은 예측 성능을 보장할 수 있음.  
</br>
#### 사이킷런의 Count 및 TF-IDF 벡터화 구현: CountVectorizer, TfidfVectorizer
사이킷런의 CountVectorizer 클래스는 단지 피처 벡터화만 수행하는 것이 아닌, 텍스트 전처리도 함께 수행하며 fit()과 transform()을 통해 피처 벡터화된 객체를 반환함.
<CountVectorizer 입력 파라미터>
- max_df : 너무 높은 빈도수를 가지는 단어 피처를 제외하기 위한 파라미터로, max_df=100 처럼 정수값을 가지면 100개 이하로 나타나는 단어만 피처로 추출, Max_df=0.95 처럼 부동소수점 값을 가지면 빈도수 0%~95% 까지의 단어만 피처로 추출하고 상위 5%는 피처로 추출하지 않음.
- min_df : 너무 낮은 빈도수를 가지는 단어 피처를 제외하기 위한 파라미터로, 크게 중요하지 않거나 가비지성 단어일 확률이 높은 단어 피처를 제외하기 위함. 작동 방식은 max_df와 동일함.
- max_features : 추출하는 피처의 개수를 제한하며 정수로 값을 지정함. 가장 높은 빈도를 가지는 단어 순으로 정렬해 정수값 만큼만 피처로 추출함.
- stop_words : 'english'로 지정하면 영어의 스톱 워드로 지정된 단어를 추출에서 제외함.
- n_gram_range : BOW 모델의 단어 순서를 어느 정도 보강하기 위한 n_gram 범위로, 튜플 형태로 (범위 최솟값, 범위 최댓값)을 지정함.
- analyzer : 피처 추출을 수행한 단위로, 디폴트는 'word'.
- token_pattern : 토큰화를 수행하는 정규 표현식 패턴. 디폴트 값은 '\b\w\w+\b'로, 공백 또는 개행 문자 등으로 구분된 단어 분리자 사이의 2문자 이상의 단어를 토큰으로 분리함.
- tokenizer : 토큰화를 별도의 커스텀 함수로 이용시 적용. 일반적으로 CountTokenizer 클래스에서 어근 변환 시 이를 수행하는 별도의 함수를 tokenizer 파라미터에 적용하면 됨.

![image-3.png](attachment:image-3.png)  
사이킷런에서 TF-IDF 벡터화는 TfidfVectorizer 클래스를 이용하며, 파라미터와 변화 방법은 위와 동일함.

</br>

#### BOW 벡터화를 위한 희소 행렬
대규모 행렬의 대부분의 값을 0이 차지하는 행렬을 희소 행렬이라고 하며, BOW 형태를 가진 언어 모델의 피처 벡터화는 대부분 희소 행렬임. 희소 행렬은 불필요한 0 값이 메모리 공간에 할당되어 메모리 공간이 많이 필요하며, 행렬의 크기가 커서 연산 시에도 데이터 액세스를 위한 시간이 많이 소모됨. 따라서 COO 형식과 CSR 형식을 사용하여 희소 행렬을 물리적으로 적은 메모리 공간을 차지할 수 있도록 변환해야 함.  
( cf. 희소 행렬 더 자세한 설명 참고 : https://radish-greens.tistory.com/1 )  
</br>
#### 희소 행렬 - COO 형식
COO 형식은 0이 아닌 데이터만 별도의 데이터 배열에 저장하고, 그 데이터가 가리키는 행과 열의 위치를 별도의 배열로 저장하는 방식. 파이썬에서는 희소 행렬 변한을 위해 주로 사이파이(Scipy)를 이용함.

In [9]:
# 2차원 데이터 생성

import numpy as np

dense = np.array( [ [ 3, 0, 1 ], [0, 2, 0 ] ] )

In [10]:
from scipy import sparse

# 0 이 아닌 데이터 추출
data = np.array([3,1,2])

# 행 위치와 열 위치를 각각 array로 생성 
row_pos = np.array([0,0,1])
col_pos = np.array([0,2,1])

# sparse 패키지의 coo_matrix를 이용하여 COO 형식으로 희소 행렬 생성
sparse_coo = sparse.coo_matrix((data, (row_pos,col_pos)))

In [12]:
sparse_coo.toarray()

array([[3, 0, 1],
       [0, 2, 0]])

#### 희소 행렬 - CSR 형식
CSR(Compressed Sparse Row) 형식은 COO 형식이 행과 열의 위치를 나타내기 위해서 반복적인 위치 데이터를 사용해야 하는 문제점을 해결한 방식.

In [13]:
from scipy import sparse

dense2 = np.array([[0,0,1,0,0,5],
             [1,4,0,3,2,5],
             [0,6,0,3,0,0],
             [2,0,0,0,0,0],
             [0,0,0,7,0,8],
             [1,0,0,0,0,0]])

# 0 이 아닌 데이터 추출
data2 = np.array([1, 5, 1, 4, 3, 2, 5, 6, 3, 2, 7, 8, 1])

# 행 위치와 열 위치를 각각 array로 생성 
row_pos = np.array([0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5])
col_pos = np.array([2, 5, 0, 1, 3, 4, 5, 1, 3, 0, 3, 5, 0])

# COO 형식으로 변환 
sparse_coo = sparse.coo_matrix((data2, (row_pos,col_pos)))

# 행 위치 배열의 고유한 값들의 시작 위치 인덱스를 배열로 생성
row_pos_ind = np.array([0, 2, 7, 9, 10, 12, 13])

# CSR 형식으로 변환 
sparse_csr = sparse.csr_matrix((data2, col_pos, row_pos_ind))

print('COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_coo.toarray())
print('CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_csr.toarray())

COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


In [14]:
# 실제 사용 시에는 밀집 행렬을 생성 파라미터로 입력
dense3 = np.array([[0,0,1,0,0,5],
             [1,4,0,3,2,5],
             [0,6,0,3,0,0],
             [2,0,0,0,0,0],
             [0,0,0,7,0,8],
             [1,0,0,0,0,0]])

coo = sparse.coo_matrix(dense3)
csr = sparse.csr_matrix(dense3)

### 04. 텍스트 분류 실습 - 20 뉴스그룹 분류

In [15]:
from sklearn.datasets import fetch_20newsgroups

news_data = fetch_20newsgroups(subset='all',random_state=156)

In [16]:
print(news_data.keys())

dict_keys(['data', 'filenames', 'target_names', 'target', 'DESCR'])


In [17]:
import pandas as pd

print('target 클래스의 값과 분포도 \n',pd.Series(news_data.target).value_counts().sort_index())
print('target 클래스의 이름들 \n',news_data.target_names)

target 클래스의 값과 분포도 
 0     799
1     973
2     985
3     982
4     963
5     988
6     975
7     990
8     996
9     994
10    999
11    991
12    984
13    990
14    987
15    997
16    910
17    940
18    775
19    628
dtype: int64
target 클래스의 이름들 
 ['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc', 'comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware', 'comp.windows.x', 'misc.forsale', 'rec.autos', 'rec.motorcycles', 'rec.sport.baseball', 'rec.sport.hockey', 'sci.crypt', 'sci.electronics', 'sci.med', 'sci.space', 'soc.religion.christian', 'talk.politics.guns', 'talk.politics.mideast', 'talk.politics.misc', 'talk.religion.misc']


In [18]:
print(news_data.data[0])

From: egreen@east.sun.com (Ed Green - Pixel Cruncher)
Subject: Re: Observation re: helmets
Organization: Sun Microsystems, RTP, NC
Lines: 21
Distribution: world
Reply-To: egreen@east.sun.com
NNTP-Posting-Host: laser.east.sun.com

In article 211353@mavenry.altcit.eskimo.com, maven@mavenry.altcit.eskimo.com (Norman Hamer) writes:
> 
> The question for the day is re: passenger helmets, if you don't know for 
>certain who's gonna ride with you (like say you meet them at a .... church 
>meeting, yeah, that's the ticket)... What are some guidelines? Should I just 
>pick up another shoei in my size to have a backup helmet (XL), or should I 
>maybe get an inexpensive one of a smaller size to accomodate my likely 
>passenger? 

If your primary concern is protecting the passenger in the event of a
crash, have him or her fitted for a helmet that is their size.  If your
primary concern is complying with stupid helmet laws, carry a real big
spare (you can put a big or small head in a big helmet, bu

In [19]:
from sklearn.datasets import fetch_20newsgroups

# subset='train'으로 학습용(Train) 데이터만 추출, remove=('headers', 'footers', 'quotes')로 내용만 추출
train_news= fetch_20newsgroups(subset='train', remove=('headers', 'footers', 'quotes'), random_state=156)
X_train = train_news.data
y_train = train_news.target
print(type(X_train))

# subset='test'으로 테스트(Test) 데이터만 추출, remove=('headers', 'footers', 'quotes')로 내용만 추출
test_news= fetch_20newsgroups(subset='test',remove=('headers', 'footers','quotes'),random_state=156)
X_test = test_news.data
y_test = test_news.target
print('학습 데이터 크기 {0} , 테스트 데이터 크기 {1}'.format(len(train_news.data) , len(test_news.data)))

<class 'list'>
학습 데이터 크기 11314 , 테스트 데이터 크기 7532


In [20]:
# 학습 데이터를 이용해 fit(), 테스트 데이터를 변환(transform) 해야함에 유의
# fit_transform() 사용하면 안됨.

from sklearn.feature_extraction.text import CountVectorizer

# Count Vectorization으로 feature extraction 변환 수행. 
cnt_vect = CountVectorizer()
cnt_vect.fit(X_train , y_train)
X_train_cnt_vect = cnt_vect.transform(X_train)

# 학습 데이터로 fit( )된 CountVectorizer를 이용하여 테스트 데이터를 feature extraction 변환 수행. 
X_test_cnt_vect = cnt_vect.transform(X_test)

print('학습 데이터 Text의 CountVectorizer Shape:',X_train_cnt_vect.shape)

학습 데이터 Text의 CountVectorizer Shape: (11314, 101631)


In [21]:
# 로지스틱 회귀를 적용하여 뉴스그룹에 대한 분류 예측

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# LogisticRegression을 이용하여 학습/예측/평가 수행. 
lr_clf = LogisticRegression()
lr_clf.fit(X_train_cnt_vect , y_train)
pred = lr_clf.predict(X_test_cnt_vect)
print('CountVectorized Logistic Regression 의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test,pred)))

CountVectorized Logistic Regression 의 예측 정확도는 0.607


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [22]:
# TF-IDF 기반 벡터화

from sklearn.feature_extraction.text import TfidfVectorizer

# TF-IDF Vectorization 적용하여 학습 데이터셋과 테스트 데이터 셋 변환. 
tfidf_vect = TfidfVectorizer()
tfidf_vect.fit(X_train)
X_train_tfidf_vect = tfidf_vect.transform(X_train)
X_test_tfidf_vect = tfidf_vect.transform(X_test)

# LogisticRegression을 이용하여 학습/예측/평가 수행. 
lr_clf = LogisticRegression()
lr_clf.fit(X_train_tfidf_vect , y_train)
pred = lr_clf.predict(X_test_tfidf_vect)
print('TF-IDF Logistic Regression 의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test ,pred)))

TF-IDF Logistic Regression 의 예측 정확도는 0.674


In [23]:
# stop words 필터링을 추가하고 ngram을 기본(1,1)에서 (1,2)로 변경하여 Feature Vectorization 적용.
tfidf_vect = TfidfVectorizer(stop_words='english', ngram_range=(1,2), max_df=300 )
tfidf_vect.fit(X_train)
X_train_tfidf_vect = tfidf_vect.transform(X_train)
X_test_tfidf_vect = tfidf_vect.transform(X_test)

lr_clf = LogisticRegression()
lr_clf.fit(X_train_tfidf_vect , y_train)
pred = lr_clf.predict(X_test_tfidf_vect)
print('TF-IDF Vectorized Logistic Regression 의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test ,pred)))

TF-IDF Vectorized Logistic Regression 의 예측 정확도는 0.692


In [24]:
from sklearn.model_selection import GridSearchCV

# 최적 C 값 도출 튜닝 수행. CV는 3 Fold셋으로 설정. 
params = { 'C':[0.01, 0.1, 1, 5, 10]}
grid_cv_lr = GridSearchCV(lr_clf ,param_grid=params , cv=3 , scoring='accuracy' , verbose=1 )
grid_cv_lr.fit(X_train_tfidf_vect , y_train)
print('Logistic Regression best C parameter :',grid_cv_lr.best_params_ )

# 최적 C 값으로 학습된 grid_cv로 예측 수행하고 정확도 평가. 
pred = grid_cv_lr.predict(X_test_tfidf_vect)
print('TF-IDF Vectorized Logistic Regression 의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test ,pred)))

Fitting 3 folds for each of 5 candidates, totalling 15 fits


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver opt

Logistic Regression best C parameter : {'C': 10}
TF-IDF Vectorized Logistic Regression 의 예측 정확도는 0.701


#### 사이킷런 파이프라인(Pipeline) 사용 및 GridSearchCV와의 결합
사이킷런의 Pipeline 클래스를 이용하면 피처 벡터화와 ML 알고리즘 학습/예측을 위한 코드 작성을 한 번에 진행할 수 있음. 데이터의 전처리와 머신러닝 학습 과정을 통일된 API 기반에서 처리할 수 있어 더 직관적인 ML 모델 코드를 생성할 수 있으며, 대용량 데이터의 피처 벡터화 결과를 별도 데이터로 저장하지 않고 스트림 기반에서 바로 머신러닝 알고리즘의 데이터로 입력할 수 있기 때문에 수행 시간을 절약할 수 있음. 일반적으로 **<font color=orange>사이킷런 파이프라인은 텍스트 기반의 피처 벡터화뿐만 아니라 모든 데이터 전처리 작업과 Estimator를 결합할 수 있음.</font>**

In [25]:
from sklearn.pipeline import Pipeline

# TfidfVectorizer 객체를 tfidf_vect 객체명으로, LogisticRegression객체를 lr_clf 객체명으로 생성하는 Pipeline생성
pipeline = Pipeline([
    ('tfidf_vect', TfidfVectorizer(stop_words='english', ngram_range=(1,2), max_df=300)),
    ('lr_clf', LogisticRegression(C=10))
])

# 별도의 TfidfVectorizer객체의 fit_transform( )과 LogisticRegression의 fit(), predict( )가 필요 없음. 
# pipeline의 fit( ) 과 predict( ) 만으로 한꺼번에 Feature Vectorization과 ML 학습/예측이 가능. 
pipeline.fit(X_train, y_train)
pred = pipeline.predict(X_test)
print('Pipeline을 통한 Logistic Regression 의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test ,pred)))

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


Pipeline을 통한 Logistic Regression 의 예측 정확도는 0.701


In [26]:
from sklearn.pipeline import Pipeline

pipeline = Pipeline([
    ('tfidf_vect', TfidfVectorizer(stop_words='english')),
    ('lr_clf', LogisticRegression())
])

# Pipeline에 기술된 각각의 객체 변수에 언더바(_)2개를 연달아 붙여 GridSearchCV에 사용될 
# 파라미터/하이퍼 파라미터 이름과 값을 설정. . 
params = { 'tfidf_vect__ngram_range': [(1,1), (1,2), (1,3)],
           'tfidf_vect__max_df': [100, 300, 700],
           'lr_clf__C': [1,5,10]
}

# GridSearchCV의 생성자에 Estimator가 아닌 Pipeline 객체 입력
grid_cv_pipe = GridSearchCV(pipeline, param_grid=params, cv=3 , scoring='accuracy',verbose=1)
grid_cv_pipe.fit(X_train , y_train)
print(grid_cv_pipe.best_params_ , grid_cv_pipe.best_score_)

pred = grid_cv_pipe.predict(X_test)
print('Pipeline을 통한 Logistic Regression 의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test ,pred)))

Fitting 3 folds for each of 27 candidates, totalling 81 fits


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver opt

KeyboardInterrupt: 

→ GirdSearchCV에 Estimator가 아닌 Pipeline을 입력. 이 경우엔 Pipeline을 구성하는 피처 벡터와 객체의 파라미터와 Estimator 객체의 하이퍼 파라미터를 각각 구별하기 위해 객체 명과 파라미터명/하이퍼 파라미터명을 결합해 Key값으로 할당함. Pipeline+GridSearchCV를 적용하기 위해서는 매우 많은 튜닝 시간이 소모됨. 결과는 아쉽지만 크게 개선은 되지 않았음.