# 텍스트 분석

#### NLP이냐 텍스트 분석이냐?
- 머신러닝이 보편화되면서 NLP(National Language Processing)와 텍스트 분석(TA)을 구분하는 것은 큰 의미가 없음
    - 굳이 구분하면, NLP는 머신이 이간의 언어를 이해하고 해석하는데 중점을 둠
    - 텍스트 분석은 비정형 텍스트에서 의미 있는 정보를 추출하는 것에 좀 더 중점을 둠
- 텍스트 분석의 영역
    - 텍스트 분류: 문서가 특정 분류 또는 카테고리에 속하는 것을 예측하는 기법을 통칭
    - 감성 분석: 텍스트에 나타나는 감점/의견/기분 등의 주관적인 요소를 분석하는 기법을 총칭
    - 텍스트 요약: 텍스트 내에서 중요한 중심 사상을 추출하는 기법
    - 텍스트 군집화와 유사도 측정: 비슷한 유형의 문서에 대해 군집화하는 기법

## 8.1 텍스트 분석 이해
- 텍스트 분석은 비정형 데이터인 텍스트를 분석하는 것
- 텍스트를 word 기반의 다수의 피처로 추출하고 이 피처에 단어 빈도수와 같은 숫자값을 부여(이를 피처 벡터화 또는 피처 추출이라함)
    - 대표적인 피처 벡터화해서 변환하는 방법은 BOW(Bag of Words)와 Word2Vec 방법이 존재(여기서는 BOW만)
        - BOW에는 Count 기반과 TF-IDF기반 벡터화가 있음

#### 텍스트 분석 수행 프로세스
- 1. 텍스트 사전 준비작업(텍스트 전처리): 텍스트를 피처로 만들기 전 클렌징(대/소문자 변경, 특수문자 삭제, 의미없는 단어 제거 등)
- 2. 피처 벡터화: 가공된 텍스트에서 피처를 추출하고 여기에 벡터 값을 할당
- 3. ML 모델 수립 및 학습/예측/평가: 피처 벡터화된 데이터 세트에 ML 모델을 적용해 학습/예측 및 평가를 수행

#### 파이썬 기반의 NLP, 텍스트 분석 패키지
- NTLF: 파이썬의 가장 대표적인 NLP패키지로, 방대한 데이터 세트와 서브 모듈을 가지며 대부분의 NLP 영역을 커버하나 수행 속도가 상대적으로 느림
- Gensim: 토픽 모델링 분야에서 가장 두각을 나타내는 패키지로, 쉽게 구현할 수 있는 기능을 제공하며 SpaCy와 함께 가장 많이 사용되는 패키지
- SpaCy: 뛰어난 수행 성능으로 최근 가장 주목을 받는 NLP 패키지로, 많은 NLP 애플리케이션에서 사용하는 추세
- 보통은 위의 3가지를 포함한 여러 전용 NLP 패키지를 결합하여 작성하는 경우가 많음

## 8.2 텍스트 사전 준비 작업(텍스트 전처리) - 텍스트 정규화
- 텍스트 작업 분류
    - 클렌징
    - 토큰화
    - 필터링/스톱 워드 제거/철자 수정
    - Stemming
    - Lemmatization

#### 클렌징
- 텍스트에서 분석에 방해가 되는 불필요한 문자, 기호 등을 사전에 제거하는 작업(EX - HEML, XML 태그나 특정 기호)

#### 토큰화
- 문서에서 문장을 분리하는 문장 토큰화(마침표(.), 개행문자(\n) 등 마지막의 등장하는 기호에 따라 분류하는 것이 일반적)
- 단어를 토큰으로 분리하는 단어 토큰화(문장을 단어로 토큰화하는 것으로 보통 공백, 콤마(,), 마침표(,) 등으로 분류)

In [1]:
# 문장 토큰화(일반적으로 NTLK에서 많이 쓰이는 sent_tokenize를 이용)
from nltk import sent_tokenize

import nltk
nltk.download('punkt') # punkt ==> 마침표, 개행 문자 등의 데이터 세트를 다운로드 받는 것

text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
               You can see it out your window or on your television. \
               You feel it when you go to work, or go to church or pay your taxes.'
sentences = sent_tokenize(text=text_sample) # sent_tokenize가 반환하는 것은 각각의 문장으로 된 리스트 객체
print(type(sentences),len(sentences)) # 반환된 리스트 객체가 3개의 문장으로 된 문자열을 가지고 있다는 것을 알 수 있음
print(sentences)

<class 'list'> 3
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Yoo\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


In [2]:
# 단어 토큰화(NTLK에서 기본적으로 제공하는 word_tokenize를 이용)
from nltk import word_tokenize

sentence = "The Matrix is everywhere its all around us, here even in this room."
words = word_tokenize(sentence)
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


In [3]:
# 토큰화
from nltk import word_tokenize, sent_tokenize

#여러개의 문장으로 된 입력 데이터를 문장별로 단어 토큰화 만드는 함수 생성
def tokenize_text(text):
    
    # 문장별로 분리 토큰
    sentences = sent_tokenize(text)
    # 분리된 문장별 단어 토큰화
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    return word_tokens

#여러 문장들에 대해 문장별 단어 토큰화 수행. 
word_tokens = tokenize_text(text_sample)
print(type(word_tokens),len(word_tokens))
print(word_tokens)
# 문장을 단어 하나별로 토큰화 할 경우 문맥적인 의미는 무시되게 됨, 이를 해결하고자 사용하는 것이 n-gram
# "Agent Smith knocks the door"를 2-gram으로 만들면 (Agent,Smith), (Smith, knocks), (knocks, the), (the, door)으로 토큰화함

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


#### 스톱 워드 제거
- 스톱 워드는 분석에 큰 의미가 없는 단어를 지칭(EX - is, the, a, will 등)
- 문장을 구성하는 필수 문법 요소이나 문맥적으로는 큰 의미가 없는 단어가 이에 해당함(제거하지 않으면 그 빈도수로 인해 중요하다고 인식함)

In [4]:
import nltk
nltk.download('stopwords') # stopwords ==> 언어별 스톱 워드가 목록화 되어 있는 파일을 다운로드 받는 것

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Yoo\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [5]:
print('영어 stop words 갯수:',len(nltk.corpus.stopwords.words('english'))) # 영어의 경우 스톱 워드가 179개
print(nltk.corpus.stopwords.words('english')[:20])

영어 stop words 갯수: 179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


In [6]:
import nltk

stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []
# 위 예제의 3개의 문장별로 얻은 word_tokens list 에 대해 stop word 제거 Loop
for sentence in word_tokens:
    filtered_words=[]
    # 개별 문장별로 tokenize된 sentence list에 대해 stop word 제거 Loop
    for word in sentence:
        #소문자로 모두 변환합니다. 
        word = word.lower()
        # tokenize 된 개별 word가 stop words 들의 단어에 포함되지 않으면 word_tokens에 추가
        if word not in stopwords:
            filtered_words.append(word)
    all_tokens.append(filtered_words)
    
print(all_tokens) # is, this와 같은 스톱 워드가 필터링을 통해 제거됨

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


#### Stemming과 Lemmatization
- 단어는 문법적인 요소에 따라 단어가 다양하게 변화하므로 문법적 또는 의미적으로 변화되는 단어의 원형을 찾는 것
- Lemmatization이 Stemming보다 정교하며 의미론적인 단어의 원형을 찾음
    - Stemming은 원형 단어로 변환 시 일반적인 방법, 더 단순화된 방법을 통해 원래 단어에서 일부 철자가 훼손된 어근 단어를 추출하는 경향이 있음
    - Lemmatization은 품사와 문법적인 요소와 더 더 의미적인 부분을 감안해 정확한 철자로 된 어근을 찾아줌(다만, 시간이 더 오래걸림)
- NLTK는 다양한 Stemmer를 제공하는데 대표적으로 Porter, Lancaster, Snowball, Stemmer가 있음
- NLTK는 Lemmatization을 위해 WordNetLemmatizer를 제공

In [7]:
# Stemming은 진행형, 3인칭 단수, 과거형에 따른 동사, 그리고 비교, 최상에 따른 형용사 변화에 따라 더 단순한 원형을 찾아줌
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'),stemmer.stem('works'),stemmer.stem('worked')) # Stemmer 객체 생성 뒤 이 객체에 stem() 매서드를 호출 
print(stemmer.stem('amusing'),stemmer.stem('amuses'),stemmer.stem('amused')) # amuse라는 원형을 제대로 찾지 못함
print(stemmer.stem('happier'),stemmer.stem('happiest')) # happy라는 원형도 찾지 못함
print(stemmer.stem('fancier'),stemmer.stem('fanciest')) # fancy라는 원형도 찾지 못함

work work work
amus amus amus
happy happiest
fant fanciest


In [8]:
# 일반적으로 Lemmatization은 그 단어의 품사를 입력해줘야 함(동사 -> v, 형용사 -> a)
from nltk.stem import WordNetLemmatizer

import nltk
nltk.download('wordnet')

lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing','v'),lemma.lemmatize('amuses','v'),lemma.lemmatize('amused','v'))
print(lemma.lemmatize('happier','a'),lemma.lemmatize('happiest','a'))
print(lemma.lemmatize('fancier','a'),lemma.lemmatize('fanciest','a')) # Stemmer보다 정확하게 원형 단어를 찾음

[nltk_data] Downloading package wordnet to
[nltk_data]     C:\Users\Yoo\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


amuse amuse amuse
happy happy
fancy fancy


## 8.3 BOW - Bag of Words
- BOW 모델은 문서가 가지는 단어를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도 값을 부여해 피처를 추출하는 모델
- BOW 모델의 장점
    - 쉽고 빠른 구축
    - 예상보다 문서의 특징을 잘 나타내는 전통적인 모델(여러 분야의 활용도가 높음)
- BOW 모델의 단점
    - 문맥 의미 반영 부족: 단어의 순서를 고려하지 않기 때문에 문맥적인 의미가 무시됨(이를 부분적으로나마 n-gram 기법을 활용 가능)
    - 희소 행렬 문제: 많은 문서에서 단어 추출 시, 희소 행렬 데이터 세트가 만들어지기 쉬움(문서마다 단어가 다 다르므로)

#### BOW 피처 벡터화
- Count 기반: 단어 피처에 값을 부여할 때, 각 문서에서 해당 단어가 나타나는 횟수에 따라 부여
    - 그 문서의 특징을 나타내기보다는 언어의 특성상 문장에서 자주 사용될 수밖에 없는 단어까지 높은 값을 부여하는 단점이 존재
- TF-IDF: 개별 문서에서 자주 나타나는 단어에 높은 가중치를 주되, 모든 문서에서 전반적으로 자주 나타나는 단어에 대해서는 패널티 부여
    - 범용적인 언어가 자주 사용될 수 있으므로 이에 패널티를 주는 방식(Count 기반의 단점을 극복한 것)
- 문서마다 텍스트가 길고 개수가 많을 경우 TF-IDE 방식을 사용하는 것이 더 좋은 예측 성능을 보장할 수 있음

#### 사이킷런의 Count 및 TF-IDF 벡터화 구현: CountVectorizer, TfidfVectorizer
- CountVectorizer는 피처 벡터화 외에 소문자 일괄 변화, 토큰화, 스톱 워드 필터링 등의 텍스트 전처리도 함께 수행
- 주요 입력 파라미터
    - max_df: 전체 문서에 걸쳐서 너무 높은 빈도수를 가지는 단어 피처를 제외하기 위한 파라미터(100 -> 100개 이하, 0.95 -> 상위 5% 자름)
    - min_df: 전체 문서에 걸쳐서 너무 낮은 빈도수를 가지는 단어 피처를 제외하기 위한 파라미터(2 -> 2개 이상, 0.02 -> 하위 2% 자름)
    - max_features: 추출하는 피처의 개수를 제한하며 정수로 값을 지정
    - stop_word: 'english'로 지정하면 영어의 스톱 워드로 지정된 단어는 추출을 제외
    - n_gram_range: BOW 모델의 단어 순서를 어느 정도 보강하기 위한 n_gram 범위를 설정( (1,2) -> 토큰화된 단어 1개, 2개씩 묶어서 추출)
    - analyzer: 피처 추출을 위한 단위를 지정(디폴트는 'work', character의 특정 범위를 피처로 만드는 경우를 적용할 때 사용)
    - token_pattern: 토큰화를 수행하는 정규 표현식 패턴을 지정(analyzer='word'일때만 변경 가능하나 변경하는 경우는 거의 없음)
    - tokenizer: 토큰화를 별도의 커스텀 함수로 이용시 적용(일반적으로 CountTokenizer 클래스에서 어근 변환 시 별도 함수를 적용)
- CountVectorizer를 이용한 텍스트 피처 벡터화 방법
    - 1. 사전 데이터 가공: 모든 문자를 소문자로 변환하는 등의 사전 작업(디폴트로 lowercase='True')
    - 2. 토근화: 디폴트는 단어 기준(analyzer='True')이며 n_gram_range를 반영하여 토큰화 수행
    - 3. 텍스트 정규화: Stop words 필터링만 수행
    - 4. 피처 벡터화: max_df, min_df 등의 파라미터를 반영하여 토큰화된 단어를 피처로 추출하고 단어 빈도수 벡터 값을 적용
- TF-IDF 벡터화는 TfidfVectorizer 클래스를 이용하는데 파라미터 변환 방법은 CountVectorizer와 동일

#### BOW 벡터화를 위한 희소 행렬
- BOW 형태를 가진 언어 모델의 피처 벡터화는 대부분 희소행렬
- 희소행렬은 너무 많은 불필요한 0 값이 메모리 공간에 할당되어 많은 메모리 공간이 필요하며, 연산 시에도 많은 시간을 보모함

#### 희소 행렬 - COO 형식
- COO 형식은 0이 아닌 데이터만 별로의 데이터 배열에 저장하고, 그 데이터가 가르키는 행과 열의 위치를 별도의 배열로 저장하는 방식
- 파이썬에서는 희소 행렬 변환을 위해 주로 사이파이(Scipy)를 이용(사이파이의 sparse 패키지가 희소 행렬 변환을 위한 다양한 모듈 제공)

In [9]:
import numpy as np

dense = np.array([ [ 3, 0, 1 ], [0, 2, 0 ] ])

In [10]:
from scipy import sparse

# 0 이 아닌 데이터 추출
data = np.array([3,1,2])

# 행 위치와 열 위치를 각각 array로 생성 
row_pos = np.array([0,0,1])
col_pos = np.array([0,2,1])

# sparse 패키지의 coo_matrix를 이용하여 COO 형식으로 희소 행렬 생성
sparse_coo = sparse.coo_matrix((data, (row_pos,col_pos)))

In [11]:
sparse_coo.toarray()

array([[3, 0, 1],
       [0, 2, 0]])

#### 희소 행렬 - CSR 형식
- CSR 형식은 CCO 형식이 행과 열의 위치를 나타내기 위해 반복적인 위치 데이터를 사용해야 하는 문제점을 해결한 방식
- 행 위치 배열 내에 있는 고유한 값의 시작 위치만 다시 별도의 위치 배열로 가지는 변환 방식을 의미

In [12]:
from scipy import sparse

dense2 = np.array([[0,0,1,0,0,5],
                   [1,4,0,3,2,5],
                   [0,6,0,3,0,0],
                   [2,0,0,0,0,0],
                   [0,0,0,7,0,8],
                   [1,0,0,0,0,0]])

# 0 이 아닌 데이터 추출
data2 = np.array([1, 5, 1, 4, 3, 2, 5, 6, 3, 2, 7, 8, 1])

# 행 위치와 열 위치를 각각 array로 생성 
row_pos = np.array([0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5])
col_pos = np.array([2, 5, 0, 1, 3, 4, 5, 1, 3, 0, 3, 5, 0])

# COO 형식으로 변환 
sparse_coo = sparse.coo_matrix((data2, (row_pos,col_pos)))

# 행 위치 배열의 고유한 값들의 시작 위치 인덱스를 배열로 생성(row_pos의 값이 변화하는 지점을 저장함)
row_pos_ind = np.array([0, 2, 7, 9, 10, 12, 13])

# CSR 형식으로 변환 
sparse_csr = sparse.csr_matrix((data2, col_pos, row_pos_ind))

print('COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_coo.toarray())
print('CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_csr.toarray())

COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


In [13]:
dense3 = np.array([[0,0,1,0,0,5],
                  [1,4,0,3,2,5],
                  [0,6,0,3,0,0],
                  [2,0,0,0,0,0],
                  [0,0,0,7,0,8],
                  [1,0,0,0,0,0]])

coo = sparse.coo_matrix(dense3)
csr = sparse.csr_matrix(dense3)

In [14]:
print(coo, '\n')
print(csr)

  (0, 2)	1
  (0, 5)	5
  (1, 0)	1
  (1, 1)	4
  (1, 3)	3
  (1, 4)	2
  (1, 5)	5
  (2, 1)	6
  (2, 3)	3
  (3, 0)	2
  (4, 3)	7
  (4, 5)	8
  (5, 0)	1 

  (0, 2)	1
  (0, 5)	5
  (1, 0)	1
  (1, 1)	4
  (1, 3)	3
  (1, 4)	2
  (1, 5)	5
  (2, 1)	6
  (2, 3)	3
  (3, 0)	2
  (4, 3)	7
  (4, 5)	8
  (5, 0)	1


## 8.4 텍스트 분류 실습 - 20 뉴스그룹 분류
- 사이킷런에서 제공하는 20 뉴스그룹 데이터를 피처 벡터화로 변환하면 희소행렬이 됨
- 이러한 희소 행렬에 분류를 효과적으로 잘 처리할 수 있는 알고리즘은 로지스틱 회귀, 선형 SVM, 나이브 베이지 등이 존재

#### 텍스트 정규화

In [15]:
from sklearn.datasets import fetch_20newsgroups

news_data = fetch_20newsgroups(subset='all',random_state=156)

In [16]:
print(news_data.keys())

dict_keys(['data', 'filenames', 'target_names', 'target', 'DESCR'])


In [17]:
import pandas as pd

print('target 클래스의 값과 분포도 \n',pd.Series(news_data.target).value_counts().sort_index()) # 타깃 클래스는 20개로 구성
print('target 클래스의 이름들 \n',news_data.target_names)

target 클래스의 값과 분포도 
 0     799
1     973
2     985
3     982
4     963
5     988
6     975
7     990
8     996
9     994
10    999
11    991
12    984
13    990
14    987
15    997
16    910
17    940
18    775
19    628
dtype: int64
target 클래스의 이름들 
 ['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc', 'comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware', 'comp.windows.x', 'misc.forsale', 'rec.autos', 'rec.motorcycles', 'rec.sport.baseball', 'rec.sport.hockey', 'sci.crypt', 'sci.electronics', 'sci.med', 'sci.space', 'soc.religion.christian', 'talk.politics.guns', 'talk.politics.mideast', 'talk.politics.misc', 'talk.religion.misc']


In [18]:
print(news_data.data[0]) # 텍스트 데이터는 뉴스그룹의 기사의 내용, 제목, 장성자, 소속, 이메일 등 다양한 정보를 가지고 있음

From: egreen@east.sun.com (Ed Green - Pixel Cruncher)
Subject: Re: Observation re: helmets
Organization: Sun Microsystems, RTP, NC
Lines: 21
Distribution: world
Reply-To: egreen@east.sun.com
NNTP-Posting-Host: laser.east.sun.com

In article 211353@mavenry.altcit.eskimo.com, maven@mavenry.altcit.eskimo.com (Norman Hamer) writes:
> 
> The question for the day is re: passenger helmets, if you don't know for 
>certain who's gonna ride with you (like say you meet them at a .... church 
>meeting, yeah, that's the ticket)... What are some guidelines? Should I just 
>pick up another shoei in my size to have a backup helmet (XL), or should I 
>maybe get an inexpensive one of a smaller size to accomodate my likely 
>passenger? 

If your primary concern is protecting the passenger in the event of a
crash, have him or her fitted for a helmet that is their size.  If your
primary concern is complying with stupid helmet laws, carry a real big
spare (you can put a big or small head in a big helmet, bu

In [19]:
# 내용 이외의 불필요 데이터 제거(이메일, 소속 등은 대부분 유사하므로 성능이 높아지며, 이런 것을 포함하는 건 분석 목적과 맞지 않음)
from sklearn.datasets import fetch_20newsgroups

# subset='train'으로 학습용(Train) 데이터만 추출, remove=('headers', 'footers', 'quotes')로 내용만 추출
train_news= fetch_20newsgroups(subset='train', remove=('headers', 'footers', 'quotes'), random_state=156)
X_train = train_news.data
y_train = train_news.target
print(type(X_train))

# subset='test'으로 테스트(Test) 데이터만 추출, remove=('headers', 'footers', 'quotes')로 내용만 추출
test_news= fetch_20newsgroups(subset='test',remove=('headers', 'footers','quotes'),random_state=156)
X_test = test_news.data
y_test = test_news.target
print('학습 데이터 크기 {0} , 테스트 데이터 크기 {1}'.format(len(train_news.data) , len(test_news.data)))

<class 'list'>
학습 데이터 크기 11314 , 테스트 데이터 크기 7532


#### 피처 벡터화 변환과 머신러닝 모델 학습/예측/평가
- CountVectorizer 사용 시 학습 데이터를 이용해 fit()이 수행된 CountVectorizer 객체를 이용해 데이터를 변환해야 함
    - 이렇게 해야만 학습 시 설정된 피처 개수와 테스트 데이터를 변환할 피처 개수가 같아짐

In [20]:
from sklearn.feature_extraction.text import CountVectorizer

# Count Vectorization으로 feature extraction 변환 수행. 
cnt_vect = CountVectorizer() # 전부 디폴트로 적용
cnt_vect.fit(X_train , y_train) # fit 적용
X_train_cnt_vect = cnt_vect.transform(X_train) # 수행된 CountVectorizer 객체로 transform 수행

# 학습 데이터로 fit( )된 CountVectorizer를 이용하여 테스트 데이터를 feature extraction 변환 수행. 
X_test_cnt_vect = cnt_vect.transform(X_test)

print('학습 데이터 Text의 CountVectorizer Shape:',X_train_cnt_vect.shape)

학습 데이터 Text의 CountVectorizer Shape: (11314, 101631)


In [21]:
# Count 기반
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

# LogisticRegression을 이용하여 학습/예측/평가 수행. 
lr_clf = LogisticRegression()
lr_clf.fit(X_train_cnt_vect , y_train)
pred = lr_clf.predict(X_test_cnt_vect)
print('CountVectorized Logistic Regression 의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test,pred)))

CountVectorized Logistic Regression 의 예측 정확도는 0.607


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


In [22]:
# TF-IDF 기반
from sklearn.feature_extraction.text import TfidfVectorizer

# TF-IDF Vectorization 적용하여 학습 데이터셋과 테스트 데이터 셋 변환. 
tfidf_vect = TfidfVectorizer() # 전부 디폴트로 적용
tfidf_vect.fit(X_train)
X_train_tfidf_vect = tfidf_vect.transform(X_train)
X_test_tfidf_vect = tfidf_vect.transform(X_test)

# LogisticRegression을 이용하여 학습/예측/평가 수행. 
lr_clf = LogisticRegression()
lr_clf.fit(X_train_tfidf_vect , y_train)
pred = lr_clf.predict(X_test_tfidf_vect)
print('TF-IDF Logistic Regression 의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test ,pred))) # 더 좋은 성능을 보임

TF-IDF Logistic Regression 의 예측 정확도는 0.674


In [23]:
# TF-IDF 기반(stop words 필터링을 추가하고 ngram을 기본(1,1)에서 (1,2)로 변경하여 Feature Vectorization 적용)
tfidf_vect = TfidfVectorizer(stop_words='english', ngram_range=(1,2), max_df=300 )
tfidf_vect.fit(X_train)
X_train_tfidf_vect = tfidf_vect.transform(X_train)
X_test_tfidf_vect = tfidf_vect.transform(X_test)

lr_clf = LogisticRegression()
lr_clf.fit(X_train_tfidf_vect , y_train)
pred = lr_clf.predict(X_test_tfidf_vect)
print('TF-IDF Vectorized Logistic Regression 의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test ,pred))) # 전처리 후 성능 향상

TF-IDF Vectorized Logistic Regression 의 예측 정확도는 0.692


In [24]:
# 로지스틱 회귀 그리드 서치 적용(시간이 오래 걸리므로 생략)
"""
from sklearn.model_selection import GridSearchCV

# 최적 C 값 도출 튜닝 수행. CV는 3 Fold셋으로 설정. 
params = { 'C':[0.01, 0.1, 1, 5, 10]}
grid_cv_lr = GridSearchCV(lr_clf ,param_grid=params , cv=3 , scoring='accuracy' , verbose=1 )
grid_cv_lr.fit(X_train_tfidf_vect , y_train)
print('Logistic Regression best C parameter :',grid_cv_lr.best_params_ )

# 최적 C 값으로 학습된 grid_cv로 예측 수행하고 정확도 평가. 
pred = grid_cv_lr.predict(X_test_tfidf_vect)
print('TF-IDF Vectorized Logistic Regression 의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test ,pred))) # 그리드 서치 후 성능 향상
"""

"\nfrom sklearn.model_selection import GridSearchCV\n\n# 최적 C 값 도출 튜닝 수행. CV는 3 Fold셋으로 설정. \nparams = { 'C':[0.01, 0.1, 1, 5, 10]}\ngrid_cv_lr = GridSearchCV(lr_clf ,param_grid=params , cv=3 , scoring='accuracy' , verbose=1 )\ngrid_cv_lr.fit(X_train_tfidf_vect , y_train)\nprint('Logistic Regression best C parameter :',grid_cv_lr.best_params_ )\n\n# 최적 C 값으로 학습된 grid_cv로 예측 수행하고 정확도 평가. \npred = grid_cv_lr.predict(X_test_tfidf_vect)\nprint('TF-IDF Vectorized Logistic Regression 의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test ,pred))) # 그리드 서치 후 성능 향상\n"

#### 사이킷런 파이프라인 사용 및 GrideSearchCV와 결합
- 파이프라인을 사용하면 피처 벡터화와 ML 알고리즘 학습/예측을 위한 코드 작성을 한 번에 진행할 수 있음(모든 전처리와 결합 가능)

In [25]:
from sklearn.pipeline import Pipeline

# TfidfVectorizer 객체를 tfidf_vect 객체명으로, LogisticRegression객체를 lr_clf 객체명으로 생성하는 Pipeline생성
pipeline = Pipeline([
    ('tfidf_vect', TfidfVectorizer(stop_words='english', ngram_range=(1,2), max_df=300)),
    ('lr_clf', LogisticRegression(C=10))
])

# 별도의 TfidfVectorizer객체의 fit_transform( )과 LogisticRegression의 fit(), predict( )가 필요 없음. 
# pipeline의 fit( ) 과 predict( ) 만으로 한꺼번에 Feature Vectorization과 ML 학습/예측이 가능. 
pipeline.fit(X_train, y_train)
pred = pipeline.predict(X_test)
print('Pipeline을 통한 Logistic Regression 의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test ,pred)))

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression


Pipeline을 통한 Logistic Regression 의 예측 정확도는 0.701


In [26]:
# 파이프 라인을 통한 통합 그리드 서치(시간이 오래 걸리므로 생략)
"""
from sklearn.pipeline import Pipeline

pipeline = Pipeline([
    ('tfidf_vect', TfidfVectorizer(stop_words='english')),
    ('lr_clf', LogisticRegression())
])

# Pipeline에 기술된 각각의 객체 변수에 언더바(_)2개를 연달아 붙여 GridSearchCV에 사용될 파라미터/하이퍼 파라미터 이름과 값을 설정 
params = { 'tfidf_vect__ngram_range': [(1,1), (1,2), (1,3)],
           'tfidf_vect__max_df': [100, 300, 700],
           'lr_clf__C': [1,5,10]
} # 3 * 3 * 3 * cv =27 * cv 번 시행됨

# GridSearchCV의 생성자에 Estimator가 아닌 Pipeline 객체 입력
grid_cv_pipe = GridSearchCV(pipeline, param_grid=params, cv=3 , scoring='accuracy',verbose=1)
grid_cv_pipe.fit(X_train , y_train)
print(grid_cv_pipe.best_params_ , grid_cv_pipe.best_score_)

pred = grid_cv_pipe.predict(X_test)
print('Pipeline을 통한 Logistic Regression 의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test ,pred)))
"""

"\nfrom sklearn.pipeline import Pipeline\n\npipeline = Pipeline([\n    ('tfidf_vect', TfidfVectorizer(stop_words='english')),\n    ('lr_clf', LogisticRegression())\n])\n\n# Pipeline에 기술된 각각의 객체 변수에 언더바(_)2개를 연달아 붙여 GridSearchCV에 사용될 파라미터/하이퍼 파라미터 이름과 값을 설정 \nparams = { 'tfidf_vect__ngram_range': [(1,1), (1,2), (1,3)],\n           'tfidf_vect__max_df': [100, 300, 700],\n           'lr_clf__C': [1,5,10]\n} # 3 * 3 * 3 * cv =27 * cv 번 시행됨\n\n# GridSearchCV의 생성자에 Estimator가 아닌 Pipeline 객체 입력\ngrid_cv_pipe = GridSearchCV(pipeline, param_grid=params, cv=3 , scoring='accuracy',verbose=1)\ngrid_cv_pipe.fit(X_train , y_train)\nprint(grid_cv_pipe.best_params_ , grid_cv_pipe.best_score_)\n\npred = grid_cv_pipe.predict(X_test)\nprint('Pipeline을 통한 Logistic Regression 의 예측 정확도는 {0:.3f}'.format(accuracy_score(y_test ,pred)))\n"