# CHAPTER 08. 텍스트 분석

### NLP이냐 텍스트 분석이냐 ?
#### NLP
: 머신이 인간의 언어를 이해하고 해석하는데 중점을 두고 기술이 발전해왔다. 텍스트 분석을 향상하게 하는 기반기술
#### 텍스트 분석
: 텍스트 마이닝이라고 불리며 비정형 텍스트에서 의미 있는 정보를 추출하는 것에 좀 더 중점을 두고 기술이 발전해왔다. 머신러닝, 언어 이해, 통계 등을 활용해 모델을 수립하고 정보를 추출해 비즈니스 인텔리전스나 예측 분석 등의 분석 작업을 주로 수행한다.
- **텍스트 분류(Text Classification)** : 문서가 특정 분류 또는 카테고리에 속하는 것을 예측하는 기법
- **감성 분석(Sentiment Analysis)** : 텍스트에서 나타나는 감정/판단/믿음/의견/기분 등의 주관적인 요소를 분석하는 기법을 총칭
- **텍스트 요약(Summarization)** : 텍스트 내에서 중요한 주제나 중심 사상을 추출하는 기법
- **텍스트 군집화(Clustering)와 유사도 측정** : 비슷한 유형의 문서에 대해 군집화를 수행하는 기법

## 01. 텍스트 분석의 이해
- **텍스트 분석** : 비정형 데이터인 텍스트를 분석하는 것. 
- 비정형 텍스트 데이터를 어떻게 피처 형태로 추출하고 추출된 피처에 의미 있는 값을 부여하는가 하는 것이 매우 중요한 요소이다.
- **피처 벡터화(피처 추출)** : 텍스트를 word 기반의 다수의 피처로 추출하고 이 피처에 단어 빈도수와 같은 숫자 값을 부여하면 텍스트는 단어의 조합인 벡터값으로 표현된다. 
	- **BOW(Bag of Words)와 Word2Vec** : 대표적으로 텍스트를 피처 벡터화해서 변환하는 방법
	- 텍스트를 벡터값으로 가지는 피처로 변환하는 것은 머신러닝 모델을 적용하기 전에 수행해야 할 매우 중요한 요소이다.

### 텍스트 분석 수행 프로세스
1. **텍스트 사전 준비작업(텍스트 전처리)**: 텍스트를 피처로 만들기 전에 텍스트 정규화 작업을 수행하는 것을 말한다.
2. **피처 벡터화/추출** : 사전 준비 작업으로 가공된 텍스트에 피처를 추출하고 여기에 벡터 값을 할당한다.
3. **ML 모델 수립 및 학습/예측/평가**


### 파이썬 기반의 NLP, 텍스트 분석 패키지
- **NLTK(National Language Toolkit for Python)** : 파이썬의 가장 대표적인 NLP 패키지. 방대한 데이터 세트와 서브 모듈을 가족 있으며 NLP의 거의 모든 영역을 커버하고 있다. 하지만 수행 속도 측면에서 아쉬운 부분이 있어서 실제 대량의 데이터 기반에서는 제대로 활용되지 못하고 있다.
- **Gensim** : 토픽 모델링 분야에서 가장 두각을 나타내는 패키지이다. Word2Vec 구현 등의 다양한 신기능 제공. SpaCy와 함께 가장 많이 사용되는 NLP 패키지이다. 
- **SpaCy** : 뛰어난 수행 성능으로 최근 가장 주목을 받는 NLP 패키지

## 02. 텍스트 사전 준비 작업(텍스트 전처리) - 텍스트 정규화
- **텍스트 정규화** : 머신러닝 알고리즘이나 NLP 어플리케이션에 입력 데이터로 사용하기 위해 클렌징, 정제, 토큰화, 어근화 등의 다양한 텍스트 데이터의 사전 작업을 수행하는 것. 텍스트 분석에서 이러한 텍스트 정규화 작업이 매우 중요하다.

### < 텍스트 정규화 작업 >
### 1. 클렌징
: 텍스트에서 분석에 오히려 방해가 되는 불필요한 문자, 기호 등을 사전에 제거하는 작업

### 2. 텍스트 토큰화 
#### 1) 문장 토큰화
: 문장의 마침표(.), 개행문자(\n) 등 문장의 마지막을 뜻하는 기호에 따라 분리하는 것이 일반적이다. 또한 정규 표현식에 따른 문장 토큰화도 가능하다. 


각 문장이 가지는 시맨틱적인 의미가 중요한 요소로 사용될 때 사용한다 ! ! 
- **sent_tokenize** : NLTK에서 일반적으로 많이 쓰이는 API

In [1]:
# 예제
from nltk import sent_tokenize
import nltk
nltk.download('punkt')

text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
               You can see it out your window or on your television. \
               You feel it when you go to work, or go to church or pay your taxes.'
sentences = sent_tokenize(text=text_sample)
print(type(sentences), len(sentences))
print(sentences)

<class 'list'> 3
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


[nltk_data] Downloading package punkt to /Users/wizdom/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


sent_tokenize()가 반환하는 것은 각각의 문장으로 구성된 list 객체이다.

#### 2) 단어 토큰화
: 문장을 단어로 토큰화하는 것이다. 기본적으로 공백, 콤마, 마침표, 개행문자 등으로 단어를 분리하지만, 정규 표현식을 이용해 다양한 유형으로 토큰화를 수행할 수 있다. 


단어의 순서가 중요하지 않은 경우 문장 토큰화를 사용하지 않고 단어 토큰화만 사용한다.
- **word_tokenize** : NLTK에서 기본으로 제공하는 단어 토큰화 API


In [2]:
# 예제
from nltk import word_tokenize

sentence = "The Matrix is everywhere its all around us, here even in this room."
words = word_tokenize(sentence)
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


In [3]:
# sent_tokenize와 word_tokenize를 조합해 문서에 대해 모든 단어 토큰화 하기

from nltk import word_tokenize, sent_tokenize

# 여러 개의 문장으로 된 입력 데이터를 문장별로 단어 토큰화하게 만드는 함수 생성
def tokenize_text(text):
    
    # 문장별로 분리 토큰
    sentences = sent_tokenize(text)
    # 분리된 문장별 단어 토큰화
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    return word_tokens

# 여러 문장에 대해 문장별 단어 토큰화 수행
word_tokens = tokenize_text(text_sample)
print(type(word_tokens), len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


3개의 리스트 객체를 내포하는 리스트가 출력되었다. 그리고 내포된 개별 리스트 객체는 각각 문장별로 토큰화된 단어를 요소로 가지고 있다.

문장을 단어별로 하나씩 토큰화 할 경우 문맥적인 의미는 무시될 수 밖에 없다. 이러한 문제를 조금이라도 해결해 보고자 도입 된 것이 n-gram이다.
- **n_gram** : 연속된 n개의 단어를 하나의 토큰화 단위로 분리해 내는 것이다. n개 단어 크기 윈도우를 만들어 문장의 처음부터 오른쪽으로 움직이면서 토큰화를 수행한다. 
	- 예) 2-gram(bigram)으로 만들기
	- “Agent Smith knocks the door”
	- -> (Agent, Smith), (Smith, knocks), (knocks, the), (the, door)
	- 이와 같이 연속적으로 2개의 단어들을 순차적으로 이동하면서 단어들을 토큰화한다.

### 스톱 워드 제거
: 분석에 큰 의미가 없는 단어를 지칭한다. (영어에서 is, the, a will 등 문장을 구성하는 필수 문법 요소지만 문맥적으로 큰 의미가 없는 단어)
- 이 단어의 경우 문법적인 특성으로 인해 특히 빈번하게 텍스트에 나타나므로 이것들을 사전에 제거하지 않으면 그 빈번함으로 인해 오히려 중요한 단어로 인지될 수 있다. 따라서 이 단어들을 제거하는 것이 중요한 전처리 작업이다.
- 언어별로 스톱 워드가 목록화돼 있다. NLTK 가 가장 다양하게 제공

In [4]:
import nltk
nltk.download('stopwords')

print('영어 stop words 개수:', len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

영어 stop words 개수: 179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


[nltk_data] Downloading package stopwords to
[nltk_data]     /Users/wizdom/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


In [5]:
# word_tokens 리스트에 대해 stopwords를 필터링으로 제거해 분석을 위한 의미있는 단어만 추출

import nltk

stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []
# 위 예제의 3개의 문장별로 얻은 word_tokens list 에 대해 stop word 제거 Loop
for sentence in word_tokens:
    filtered_words=[]
    # 개별 문장별로 tokenize된 sentence list에 대해 stop word 제거 Loop
    for word in sentence:
        #소문자로 모두 변환
        word = word.lower()
        # tokenize 된 개별 word가 stop words 들의 단어에 포함되지 않으면 word_tokens에 추가
        if word not in stopwords:
            filtered_words.append(word)
    all_tokens.append(filtered_words)
    
print(all_tokens)

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


is, this와 같은 스톱워드가 필터링을 통해 제거 됐음을 알 수 있다.

### Stemming과 Lemmatization
: 문법적으로 또는 의미적으로 변화하는 단어의 원형을 찾는 것
- Lemmatization이 Stemming보다 정교하며 의미론적인 기반에서 단어의 원형을 찾는다.


- 대표적 Stemmer : Porter, Lancaster, Snowball Stemmer
- Lemmatization을 위해서는 WordNetLemmatizer 사용

#### Stemming과 Lemmatization 비교

- **LancasterStemmer 이용**
    - LancasterStemmer()와 같이 필요한 Stemmer 객체를 생성한 뒤 이 객체의 stem(‘단어’) 메서드를 호출하면 원하는 ‘단어’의 Stemming이 가능|

In [6]:
# LancasterStemmer를 이용해 Stemmer 살펴보기

from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'),stemmer.stem('works'),stemmer.stem('worked'))
print(stemmer.stem('amusing'),stemmer.stem('amuses'),stemmer.stem('amused'))
print(stemmer.stem('happier'),stemmer.stem('happiest'))
print(stemmer.stem('fancier'),stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


단순하게 원형 단어를 찾는다. 따라서 amuse와 형용사인 happy, fancy의 경우 단어의 정확한 원형을 찾지 못하는 것을 볼 수 있다.

- **WordNetLemmatizer 이용**
	- Lemmatization은 보다 정확한 원형 단어 추출을 위해 단어의 **품사**를 입력해주어야 한다.

In [7]:
# WordNetLemmatizer를 이용한 LEmmatization 수행
from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('wordnet')

lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing','v'),lemma.lemmatize('amuses','v'),lemma.lemmatize('amused','v'))
print(lemma.lemmatize('happier','a'),lemma.lemmatize('happiest','a'))
print(lemma.lemmatize('fancier','a'),lemma.lemmatize('fanciest','a'))

[nltk_data] Downloading package wordnet to /Users/wizdom/nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


amuse amuse amuse
happy happy
fancy fancy


앞의 Stemmer보다 정확하게 원형 단어를 추출해줌을 알 수 있다.

## 03. Bag of Words - BOW
: 문서가 가지는 모든 단어를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도 값을 부여해 피처 값을 추출하는 모델이다. 

- 장점 
	- 쉽고 빠른 구축. 문서의 특징을 잘 나타낼 수 있는 모델이라 전통적으로 여러 분야에서 활용도가 높다.
- 단점 
	- **문맥 의미(Semantix Context) 반영 부족** : BOW는 단어의 순서를 고려하지 않기 때문에 문장 내에서 단어의 문맥적인 의미가 무시된다. 
	- **희소 행렬 문제(희소성, 희소 행렬)** : BOW로 피처 벡터화를 수행하면 희소 행렬 형태의 데이터 세트가 만들어지기 쉽다. 

### BOW 피처 벡터화
- **피처 백터화** : 텍스트를 특정의미를 가지는 숫자형 값인 벡터 값으로 변환해주는 것. 피처 벡터화는 기존 텍스트 데이터를 또 다른 형태의 피처의 조합으로 변경하기 때문에 넓은 범위의 피처 추출에 포함한다.


#### BOW 모델에서 피처 벡터화를 수행한다는 것
: 모든 문서에서 모든 단어를 칼럼 형태로 나열하고 각 문서에서 해당 안어의 횟수나 정규화된 빈도를 값으로 부여하는 데이터 세트 모델로 변경하는 것. 
- BOW 피처 벡터화 방식
	1. **카운트 기반의 벡터화** : 단어 피처에 값을 부여할 때 각 문서에 해당 단어가 나타나는 횟수, 즉 count를 부여하는 경우.
        - 카운트 벡터화에서는 카운트 값이 높을수록 중요한 단어로 인식 된다.
        - 그러나 카운트만 부여할 경우, 그 문서의 특징을 나타내기보다는 언어의 특성상 문장에서 자주 사용될 수 밖에 없는 단어까지 높은 값을 부여하게 된다.
	2. **TF-IDF 기반의 벡터화** : 카운트 벡터화의 문제를 보완하기 위해 사용한다. 개별 문서에서 자주 나타나는 단어에 높은 가중치를 주되, 모든 문서에서 전반적으로 자주 나타나는 단어에 대해서는 페널티를 주는 방식으로 값을 부여한다.


문서마다 텍스트가 길고 문서의 개수가 많을 경우 카운트 방식보다는 TF-IDF 방식을 사용하는 것이 더 좋은 예측 성능을 보장할 수 있다.

### 사이킷런의 Count 및 TF-IDF 벡터화 구현: CountVectorizer, TfidfVectorizer
- **CountVectorizer 클래스** : 카운트 기반의 벡터화를 구현한 클래스. 소문자 일괄 변환, 토큰화, 스톱 워드 필터링 등의 텍스트 전처리도 함께 수행한다.


- **CountVectorizer 클래스를 이용해 카운트 기반의 피처 여러개의 문서로 구성된 텍스트의 피처 벡터화 방법**
	1. 영어의 경우 모든 문자를 소문자로 변경하는 등의 전처리 작업 수행
	2. 디폴트로 단어 기준으로 n_gram_range를 반영해 각 단어 토큰화
	3. 텍스트 정규화 수행
		- stop_words 파라미터가 주어진 경우, 스톱 워드 필터링만 가능하다.
		- Stemming과 Lemmatization 같은 어근 변환은 CounterVectorizer에서 직접 지원하진 않지만, 이를 위한 함수를 만들거나 외부 패키지로 미리 텍스트 정규화 수행 필요하다.
	4. 파라미터를 이용해 토큰화된 단어를 피처로 추출하고 단어 빈도수 벡터 값을 적용한다. 


- **TfidfVectorizer 클래스** : TF-IDF 벡터화. (파라미터와 변환방법은 CountVectorizer와 동일하다)

### BOW 벡터화를 위한 희소 행렬
난이도가 있는 ML모델을 수립하기 위해서는 이러한 희소행렬이 **어떤 형태**로 돼 있는지 알아야한다.
- BOW 형태를 가진 언어 모델의 피처 벡터화는 대부분 희소 행렬이다. 
- 희소행렬은 너무 많은 불필요한 0값이 메모리 공간에 할당되어 메모리 공간이 많이 필요하며, 행렬의 크기가 커서 연산 시에도 데이터 액세스를 위한 시간이 많이 소모 된다.
- 따라서 이러한 희소 해열ㄹ을 물리적으로 적은 메모리 공간을 차지할 수 있도록 변환해야 하는데, 대표적인 방법으로 **COO 형식과 CSR 형식**이 있다.
	- 일반적으로 큰 희소행렬을 저장하고 계산을 수행하는 능력이 CSR형식이 더 뛰어나기 때문에 CSR을 많이 사용한다. 

### 희소 행렬 - COO 형식
: 0이 아닌 데이터만 별도의 데이터 배열에 저장하고, 그 데이터가 가리키는 행과 열의 위치를 별도의 배열로 저장하는 방식
- 희소 행렬 변환을 위해 사이파이를 이용한다. **사이파이의 sparse 패키지**는 희소 행렬 변환을 위해 다양한 모듈을 제공한다.

In [8]:
# 넘파이 ndarray 객체로 만들기

import numpy as np

dense = np.array([[3, 0 , 1], [0, 2, 0]])

In [10]:
# 위 밀집행렬을 COO 형식의 희소 행렬로 변환
from scipy import sparse

# 0이 아닌 데이터 추출
data = np.array([3, 1, 2])

# 행 위치와 열 위치를 각각 배열로 생성
row_pos = np.array([0, 0, 1])
col_pos = np.array([0, 2, 1])

# sparse 패키지의 coo_matrix를 이용해 COO 형식으로 희소 행렬 생성
sparse_coo = sparse.coo_matrix((data, (row_pos, col_pos)))

In [11]:
# toarray() 메서드를 이용해 다시 밀집 형태의 행렬로 출력하기 

sparse_coo.toarray()

array([[3, 0, 1],
       [0, 2, 0]])

다시 원래의 데이터 행렬로 추출됨을 알 수 있다.

### 희소 행렬 - CSR 형식
: COO 형식이 행과 열의 위치를 나타내기 위해서 반복적인 위치 데이터를 사용해야 하는 문제점을 해결한 방식
- CSR : Compressed Sparse Row의 약자. 이처럼 행 위치 배열 내에 있는 고유한 값의 시작 위치만 다시 별도의 위치 배열로 가지는 변환 방식을 의미한다.
- 고유 값의 시작 위치만 알고 있으면 얼마든지 행 위치 배열을 다시 만들 수 있기에 COO 방식보다 메모리가 적게 들고 빠른 연산이 가능하다.


- CSR 방식의 변환은 **csr_matrix 클래스** 이용
	- 0이 아닌 데이터 배열과 열 위치 배열, 그리고 행 위치 배열의 고유한 값의 시작 위치 배열을 생성 파라미터로 입력한다.

In [12]:
from scipy import sparse

dense2 = np.array([[0,0,1,0,0,5],
             [1,4,0,3,2,5],
             [0,6,0,3,0,0],
             [2,0,0,0,0,0],
             [0,0,0,7,0,8],
             [1,0,0,0,0,0]])

# 0 이 아닌 데이터 추출
data2 = np.array([1, 5, 1, 4, 3, 2, 5, 6, 3, 2, 7, 8, 1])

# 행 위치와 열 위치를 각각 array로 생성 
row_pos = np.array([0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5])
col_pos = np.array([2, 5, 0, 1, 3, 4, 5, 1, 3, 0, 3, 5, 0])

# COO 형식으로 변환
sparse_coo = sparse.coo_matrix((data2, (row_pos, col_pos)))

# 행 위치 배열의 고유한 값들의 시작 위치 인덱스를 배열로 생성
row_pos_ind = np.array([0, 2, 7, 9, 10, 12, 13])

# CSR 형식으로 변환 
sparse_csr = sparse.csr_matrix((data2, col_pos, row_pos_ind))

print('COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_coo.toarray())
print('CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_csr.toarray())

COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


In [14]:
dense3 = np.array([[0,0,1,0,0,5],
             [1,4,0,3,2,5],
             [0,6,0,3,0,0],
             [2,0,0,0,0,0],
             [0,0,0,7,0,8],
             [1,0,0,0,0,0]])

coo = sparse.coo_matrix(dense3)
csr = sparse.csr_matrix(dense3)

실제 사용 시에는 이와 같이 밀집 행렬을 생성 파라미터로 입력하면 희소 행렬로 생성한다.

## 04. 텍스트 분류 실습 - 20 뉴스그룹 분류
- **텍스트 분류**는 특정 문서의 분류를 학습 데이터를 통해 학습해 모델을 생성한 뒤 이 학습 모델을 이용해 다른 문서의 분류를 예측하는 것이다.
- 희소 행렬에 분류를 효과적으로 잘 처리할 수 있는 알고리즘은 **로지스틱 회귀, 선형 서포트 벡터 머신, 나이브 베이즈 등**이다.

### 1) 텍스트 정규화


In [19]:
from sklearn.datasets import fetch_20newsgroups

news_data = fetch_20newsgroups(subset='all', random_state=156)

In [20]:
# key 값 확인
print(news_data.keys())

dict_keys(['data', 'filenames', 'target_names', 'target', 'DESCR'])


딕셔너리와 유사한 bunch 객체를 반환한다. 

In [22]:
# Target 클래스 구성 확인
import pandas as pd

print('target 클래스의 값과 분포도 \n', pd.Series(news_data.target).value_counts().sort_index())
print('target 클래스의 이름들 \n', news_data.target_names)

target 클래스의 값과 분포도 
 0     799
1     973
2     985
3     982
4     963
5     988
6     975
7     990
8     996
9     994
10    999
11    991
12    984
13    990
14    987
15    997
16    910
17    940
18    775
19    628
dtype: int64
target 클래스의 이름들 
 ['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc', 'comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware', 'comp.windows.x', 'misc.forsale', 'rec.autos', 'rec.motorcycles', 'rec.sport.baseball', 'rec.sport.hockey', 'sci.crypt', 'sci.electronics', 'sci.med', 'sci.space', 'soc.religion.christian', 'talk.politics.guns', 'talk.politics.mideast', 'talk.politics.misc', 'talk.religion.misc']


In [23]:
# 개별 데이터가 텍스트로 어떻게 구성돼 있는지 하나만 추출해 값 확인

print(news_data.data[0])

From: egreen@east.sun.com (Ed Green - Pixel Cruncher)
Subject: Re: Observation re: helmets
Organization: Sun Microsystems, RTP, NC
Lines: 21
Distribution: world
Reply-To: egreen@east.sun.com
NNTP-Posting-Host: laser.east.sun.com

In article 211353@mavenry.altcit.eskimo.com, maven@mavenry.altcit.eskimo.com (Norman Hamer) writes:
> 
> The question for the day is re: passenger helmets, if you don't know for 
>certain who's gonna ride with you (like say you meet them at a .... church 
>meeting, yeah, that's the ticket)... What are some guidelines? Should I just 
>pick up another shoei in my size to have a backup helmet (XL), or should I 
>maybe get an inexpensive one of a smaller size to accomodate my likely 
>passenger? 

If your primary concern is protecting the passenger in the event of a
crash, have him or her fitted for a helmet that is their size.  If your
primary concern is complying with stupid helmet laws, carry a real big
spare (you can put a big or small head in a big helmet, bu

뉴스그룹 기사의 내용뿐만 아니라 뉴스그룹 제목,  작성자, 소속, 이메일 등의 다양한 정보를 가지고 있다. 

In [24]:
from sklearn.datasets import fetch_20newsgroups

# 내용 제외하고 제목 등의 다른 정보 제거
# 왜냐하면 제목과 소속, 이메일 주소 등의 헤더와 푸터 정보들은 뉴스 그룹 분류의 target 클래스 값과 유사한 데이터를 가지고 있는 경우가 많기 때문
# subset='train'으로 학습용(Train) 데이터만 추출, remove=('headers', 'footers', 'quotes')로 내용만 추출
train_news= fetch_20newsgroups(subset='train', remove=('headers', 'footers', 'quotes'), random_state=156)
X_train = train_news.data
y_train = train_news.target
print(type(X_train))

# subset='test'으로 테스트(Test) 데이터만 추출, remove=('headers', 'footers', 'quotes')로 내용만 추출
test_news= fetch_20newsgroups(subset='test',remove=('headers', 'footers','quotes'),random_state=156)
X_test = test_news.data
y_test = test_news.target
print('학습 데이터 크기 {0} , 테스트 데이터 크기 {1}'.format(len(train_news.data) , len(test_news.data)))

<class 'list'>
학습 데이터 크기 11314 , 테스트 데이터 크기 7532


### 피처 벡터화 변환과 머신러닝 모델 학습/예측/평가

#### count 기반으로 피처 벡터화가 적용된 데이터 세트에 대한 로지스틱 회귀 예측

In [25]:
from sklearn.feature_extraction.text import CountVectorizer

# Count Vectorization으로 feature extraction 변환 수행. 
cnt_vect = CountVectorizer()
cnt_vect.fit(X_train)
X_train_cnt_vect = cnt_vect.transform(X_train)

# 학습 데이터로 fit( )된 CountVectorizer를 이용하여 테스트 데이터를 feature extraction 변환 수행. 
X_test_cnt_vect = cnt_vect.transform(X_test)

print('학습 데이터 Text의 CountVectorizer Shape:',X_train_cnt_vect.shape)

학습 데이터 Text의 CountVectorizer Shape: (11314, 101631)


In [26]:
# 피처 벡터화된 데이터에 로지스틱 회귀를 적용해 뉴스그룹에 대한 분류 예측

from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# LogisticRegression을 이용하여 학습/예측/평가 수행. 
lr_clf = LogisticRegression()
lr_clf.fit(X_train_cnt_vect , y_train)
pred = lr_clf.predict(X_test_cnt_vect)
print('CountVectorized Logistic Regression 의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test,pred)))

CountVectorized Logistic Regression 의 예측 정확도는 0.606


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


#### TF-IDF기반 벡터화가 적용된 데이터 세트에 대한 로지스틱 회귀 예측¶

In [28]:
from sklearn.feature_extraction.text import TfidfVectorizer

# TF-IDF Vectorization 적용하여 학습 데이터셋과 테스트 데이터 셋 변환. 
tfidf_vect = TfidfVectorizer()
tfidf_vect.fit(X_train)
X_train_tfidf_vect = tfidf_vect.transform(X_train)
X_test_tfidf_vect = tfidf_vect.transform(X_test)

# LogisticRegression을 이용하여 학습/예측/평가 수행. 
lr_clf = LogisticRegression()
lr_clf.fit(X_train_tfidf_vect, y_train)
pred = lr_clf.predict(X_test_tfidf_vect)
print('TF-IDF Logistic Regression 의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test ,pred)))

TF-IDF Logistic Regression 의 예측 정확도는 0.674


TF-IDF가 단순 카운트 기반보다 훨씬 높은 예측 정확도를 제공한다. 일반적으로 문서 내에 텍스트가 많고 많은 문서를 가지는 텍스트 분석에서 카운트 벡터화보다는 TF-IDF 벡터화가 좋은 예측 결과를 도출한다.

#### 기본 파라미터 -> 다양한 파라미터 적용해서 예측하기

In [29]:
# stop words 필터링을 추가하고 ngram을 기본(1,1)에서 (1,2)로, max_df=300으로 변경하여 Feature Vectorization 적용.
tfidf_vect = TfidfVectorizer(stop_words='english', ngram_range=(1,2), max_df=300 )
tfidf_vect.fit(X_train)
X_train_tfidf_vect = tfidf_vect.transform(X_train)
X_test_tfidf_vect = tfidf_vect.transform(X_test)

lr_clf = LogisticRegression()
lr_clf.fit(X_train_tfidf_vect, y_train)
pred = lr_clf.predict(X_test_tfidf_vect)
print('TF-IDF Vectorized Logistic Regression 의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test ,pred)))

TF-IDF Vectorized Logistic Regression 의 예측 정확도는 0.692


기본 파라미터를 적용했을때보다 좀 더 높은 예측 정확도를 제공한다.

#### GridSearchCV를 이용해 로지스틱 회귀의 하이퍼 파라미터 최적화 수행

In [30]:
from sklearn.model_selection import GridSearchCV

# 최적 C 값 도출 튜닝 수행. CV는 3 Fold셋으로 설정. 
params = { 'C':[0.01, 0.1, 1, 5, 10]}
grid_cv_lr = GridSearchCV(lr_clf, param_grid=params, cv=3, scoring='accuracy', verbose=1 )
grid_cv_lr.fit(X_train_tfidf_vect, y_train)
print('Logistic Regression best C parameter :',grid_cv_lr.best_params_)

# 최적 C 값으로 학습된 grid_cv로 예측 수행하고 정확도 평가. 
pred = grid_cv_lr.predict(X_test_tfidf_vect)
print('TF-IDF Vectorized Logistic Regression 의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test ,pred)))

Fitting 3 folds for each of 5 candidates, totalling 15 fits


[Parallel(n_jobs=1)]: Using backend SequentialBackend with 1 concurrent workers.
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/pre

Logistic Regression best C parameter : {'C': 10}
TF-IDF Vectorized Logistic Regression 의 예측 정확도는 0.701


0.701으로 이전보다 약간 더 향상된 성능 수치가 되었다.

### 사이킷런 파이프라인(PIpeline) 사용 및 GridSearchCV와의 결합

#### Pipe line
: 데이터의 가공, 변환 등의 전처리와 알고리즘 적용을 마치 수도관에서 물이 흐르듯 한꺼번에 스트림 기반으로 처리한다는 의미
- 피처 벡터화와 ML 알고리즘 학습/예측을 위한 코드 작성을 한 번에 진행할 수 있다.
- 데이터의 전처리와 머신러닝 학습 과정을 통일된 API 기반에서 처리할 수 있어 더 직관적인 ML 모델 코드 생성할 수 잇다.
- 대용량 데이터의 피처 벡터화 결과를 별도 데이터로 저장하지 않고 스트림 기반에서 바로 머신러닝 알고리즘의 데이터로 입력할 수 있기 때문에 수행시간 절약할 수 있다.
- 텍스트 기반의 피처 벡터화뿐만 아니라 모든 데이터 전처리 작업과 estimator 결합할 수 있다.

In [31]:
from sklearn.pipeline import Pipeline

# TfidfVectorizer 객체를 tfidf_vect 객체명으로, LogisticRegression객체를 lr_clf 객체명으로 생성하는 Pipeline생성
pipeline = Pipeline([
    ('tfidf_vect', TfidfVectorizer(stop_words='english', ngram_range=(1,2), max_df=300)),
    ('lr_clf', LogisticRegression(C=10))
])

# 별도의 TfidfVectorizer객체의 fit_transform( )과 LogisticRegression의 fit(), predict( )가 필요 없음. 
# pipeline의 fit( ) 과 predict( ) 만으로 한꺼번에 Feature Vectorization과 ML 학습/예측이 가능. 
pipeline.fit(X_train, y_train)
pred = pipeline.predict(X_test)
print('Pipeline을 통한 Logistic Regression 의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test ,pred)))

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


Pipeline을 통한 Logistic Regression 의 예측 정확도는 0.701


- 사이킷런은 GridSearchCV 클래스의 생성 파라미터로 pipeline을 입력해 pipeline 기반에서도 하이퍼 파라미터 튜닝을 GridSearchCV 방식으로 진행할 수 있게 지원
- GridSearchCV에 estimator가 아닌 Pipeline을 입력할 경우
	- 딕셔너리 형태의 key와 value값을 가진다. 
	- key값에서 하이퍼 파라미터명이 객체 변수명과 결합돼 제공된다.


- Pipeline + GridSearchCV를 적용할 때 유의할 점
	- 모두의 파라미터를 최적화하려면 너무 많은 튜닝 시간이 소모된다는 점
	- 피처 벡터화에 사용되는 파라미터와 GridSearchCV 하이퍼 파라미터를 합치면 최적화를 위한 너무 많은 경우의 수가 발생하기 쉽다.

In [None]:
###### GridSearchCV에 Pipeline을 입력하면서 TfidfVectorizer의 파라미터와 로지스틱 회귀의 하이퍼 파라미터를 함께 최적화

from sklearn.pipeline import Pipeline

pipeline = Pipeline([
    ('tfidf_vect', TfidfVectorizer(stop_words='english')),
    ('lr_clf', LogisticRegression())
])

# Pipeline에 기술된 각각의 객체 변수에 언더바(_)2개를 연달아 붙여 GridSearchCV에 사용될 
# 파라미터/하이퍼 파라미터 이름과 값을 설정. . 
params = { 'tfidf_vect__ngram_range': [(1,1), (1,2), (1,3)],
           'tfidf_vect__max_df': [100, 300, 700],
           'lr_clf__C': [1,5,10]
}

# GridSearchCV의 생성자에 Estimator가 아닌 Pipeline 객체 입력
grid_cv_pipe = GridSearchCV(pipeline, param_grid=params, cv=3 , scoring='accuracy',verbose=1)
grid_cv_pipe.fit(X_train , y_train)
print(grid_cv_pipe.best_params_ , grid_cv_pipe.best_score_)

pred = grid_cv_pipe.predict(X_test)
print('Pipeline을 통한 Logistic Regression 의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test ,pred)))

최적화한 파라미터 기반으로 테스트 데이터 세트에 대해 예측했을 때 정확도는 약 0.702로 크게 개선 되지 않았다.