# CH8. 텍스트 분석
---
NLP는 머신이 인간의 언어를 이해하고 해석하는데 더 중점을 두고 기술이 발전해 왔으며, 텍스트 마이닝(Text Mining)이라고도 불리는 텍스트 분석은 비정형 텍스트에서 의미 있는 정보를 추출하는 것에 좀 더 중점을 두고 기술이 발전해왔다. NLP는 텍스트 분석을 향상하게 하는 기반 기술이라고 볼 수도 있다. 텍스트 분석은 머신러닝, 언어 이해, 통계 등을 활용해 모델을 수립하고 정보를 추출해 비즈니스 인텔리전스나 예측 분석 등의 분석 작업을 주로 수행한다. 
- **텍스트 분류(Text Classification; Text Categorization)**: 문서가 특정 분류 또는 카테고리에 속하는 것을 예측하는 기법을 통칭함. 예를 들어 특정 신문 기사 내용이 연애/정치/사회/문화 중 어떤 카테고리에 속하는지 자동으로 분류하거나 스팸 메일 검출 같은 프로그램이 이에 속함. 지도학습을 적용함.
- **감성 분석(Sentiment Analysis)**: 텍스트에서 나타나는 감정/판단/믿음/의견/기분 등 주관적인 요소를 분석하는 기법을 통칭함. 소셜 미디어 감정 분석, 영화나 제품에 대한 긍정 또는 리뷰, 여론조사 의견 분석 등 다양한 영역에서 활용됨. Text Analytics에서 가장 활발하게 사용되고 있는 분야임. 지도학습 방법뿐만 아니라 비지도학습을 이용해 적용할 수 있음
- **텍스트 요약(Summarization)**: 텍스트 내에서 중요한 주제나 중심 사상을 추출하는 기법임. 대표적으로 토픽 모델링(Topic Modeling)이 있음.
- **텍스트 군집화(Clustering)와 유사도 측정**: 비슷한 유형의 문서에 대해 군집화를 수행하는 기법임. 텍스트 분류를 비지도학습으로 수행하는 방법의 일환으로 사용될 수 있음. 유사도 측정 역시 문서들간의 유사도를 측정해 비슷한 문서끼리 모을 수 있는 방법임.
## 01. 텍스트 분석의 이해
---
- 텍스트 분석은 비정형 데이터인 텍스트를 분석하는 것이다. 머신러닝 알고리즘은 숫자형의 피처 기반 데이터만 입력받을 수 있기 때문에 텍스트를 머신러닝에 적용하기 위해서는 비정형 텍스트 데이터를 어떻게 피처 형태로 추출하고 추출된 피처에 의미 있는 값을 부여하는가 하는 것이 매우 중요한 요소이다. **텍스트를 word 기반의 다수의 피처로 추출하고 이 피처에 단어 빈도수와 같은 숫자 값을 부여하면 텍스트는 단어의 조합인 벡터값으로 표현될 수 있는데, 이렇게 텍스트를 변환하는 것을 피처 벡터화(Feature Vectorization) 또는 피처 추출(Feature Extraction)이라고 한다. 대표적으로 텍스트를 피처 벡터화해서 변환하는 방법에는 BOW(Bag of Words)와 Word2Vec 방법이 있다.** 텍스트를 벡터값을 가지는 피처로 변환하는 것은 머신러닝 모델을 적용하기 전에 수행해야할 매우 중요한 요소이다. 



### 1) 텍스트 분석 수행 프로세스
1. **텍스트 사전 준비작업(텍스트 전처리)**: 텍스트를 피처로 만들기 전에 미리 클렌징, 대/소문자 변경, 특수문자 삭제 등의 클렌징 작업. 단어(Word)등의 토큰화 작업. 의미 없는 단어(Stop word) 제거 작업, 어근 추출(Stemming/Lemmatization) 등의 텍스트 정규화 작업을 수행한느 것을 통칭한다.                   
2. **피처 벡터화/추출**: 사전 준비 작업으로 가공된 텍스트에서 피처를 추출하고 여기에 벡터 값을 할당한다. 대표적인 방법은 BOW와 Word2Vec이 있으며, BOW는 대표적으로 Count 기반과 TF-IDF 기반 벡터화가 있다.               
3. **ML 모델 수립 및 학습/예측/평가**: 피처 벡터화된 데이터 세트에 ML 모델을 적용해 학습/예측 및 평가를 수행한다.        

## 02. 텍스트 사전 준비 작업(텍스트 전처리)  - 텍스트 정규화
---
텍스트 자체를 바로 피처로 만들 수는 없다. 이를 위해 사전에 텍스트를 가공하는 준비 작업이 필요하다. **텍스트 정규화는 텍스트를 머신러닝 알고리즘이나 NLP 애플리케이션에 입력 데이터로 사용하기 위해 클렌징, 정제, 토큰화, 어근화 등의 다양한 텍스트 데이터의 사전 작업을 수행하는 것을 의미한다. 텍스트 분석은 이러한 텍스트 정규화 작업이 매우 중요하다.** 텍스트 정규화 작업은 다음과 같이 분류할 수 있다.
- 클렌징(Cleansing)
- 토큰화(Tokenization)
- 필터링/스톱 워드 제거/털자 수정
- Stemming
- Lemmatization
### - 클렌징(Cleansing)
텍스트에서 분석에 오히려 방해가 되는 불필요한 문자, 기호 등을 사전에 제거하는 작업이다. 예를 들어 HTML, XML 태그나 특정 기호 등을 사전에 제거한다.
### - 텍스트 토큰화(Tokenization)
토큰화의 유형은 문서에서 문장을 분리하는 문장 토큰화와 문장에서 단어를 토큰으로 분리하는 단어 토큰화로 나눌 수 있다. NTKL은 이를 위해 다양한 API를 제공한다. 
#### 문장 토큰화(Sentence Tokenization)
- 문장 토큰화는 문장의 마침표(.), 개행문자(\n) 등 문장의 마지막을 뜻하는 기호에 따라 분리하는 것이 일반적이다. 또한 정규 표현식에 따른 문장 토큰화도 가능하다. 
- 일반적으로 **문장 토큰화는 각 문장이 가지는 시맨틱적인 의미가 중요한 요소로 사용될 때 사용한다.**


- 3개의 문장으로 이루어진 텍스트 문서를 문장으로 각각 분리하는 예제                  
  - NTLK에서 일반적으로 많이 쓰이는 sent_tokenize를 이용해 토큰화를 수행해 보겠다.
  - sent_tokenize()가 반환하는 것은 각각의 문장으로 구성된 list 객체이다.
  - NTKL의 경우 단어 사전과 같이 참조가 필요한 데이터 세트의 경우 인터넷으로 다운로드 받을 수 있다.

In [2]:
from nltk import sent_tokenize
import nltk
nltk.download('punkt')

[nltk_data] Downloading package punkt to C:\Users\JIEUN
[nltk_data]     OH\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


True

In [3]:
text_sample = 'The Matrix is everywhere its all around us, here even in this room. \
               You can see it out your window or on your television. \
               You feel it when you go to work, or go to church or pay your taxes.'
sentences = sent_tokenize(text=text_sample)
print(type(sentences), len(sentences))
print(sentences)

<class 'list'> 3
['The Matrix is everywhere its all around us, here even in this room.', 'You can see it out your window or on your television.', 'You feel it when you go to work, or go to church or pay your taxes.']


-> 반환된 list 객체가 3개의 문장으로 된 문자열을 가지고 있다.

#### 단어 토큰화(Word Tokenization)
- 단어 토큰화는 문장을 단어로 토큰화하는 것이다.
- 기본적으로 공백, 콤마(,), 마침표(.), 개행문자 등으로 단어를 분리하지만, 정규 표현식을 이용해 다양한 유형으로 토큰화를 수행할 수 있다.
- 마침표(.)나 개행문자와 같이 문장을 분리하는 구분자를 이용해 단어를 토큰화할 수 있으며 **Bag of Words와 같이 단어의 순서가 중요하지 않은 경우 문장 토큰화를 사용하지 않고 단어 토큰화만 사용해도 충분하다.**

In [5]:
from nltk import word_tokenize

sentence = 'The Matrix is everywhere its all around us, here even in this room.'
words = word_tokenize(sentence)
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


- 이번에는 sent_tokenize와 word_tokenize를 조합해 문서에 대해서 모든 단어를 토큰화해보기
- 앞서 선언된 3개의 문장으로 된 text_sample을 문장별로 단어 토큰화를 적용해보기
  - 먼저 문서를 문장으로 나누고, 개별 문장을 다시 단어로 토큰화하는 tokenize_text() 함수를 생성한다

In [6]:
from nltk import word_tokenize, sent_tokenize

# 여러 개의 문장으로 된 입력 데이터를 문장별로 단어 토큰화하게 만드는 함수 생성
def tokenize_text(text):
    
    # 문장별로 분리 토큰
    sentences = sent_tokenize(text)
    # 분리된 문장별 단어 토큰화
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    return word_tokens

# 여러 문장에 대해 문장별 단어 토큰화 수행
word_tokens = tokenize_text(text_sample)
print(type(word_tokens), len(word_tokens))
print(word_tokens)

<class 'list'> 3
[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


-> 3개의 문장을 문장별로 먼저 토큰화했으므로 word_tokens 변수는 3개의 리스트 객체를 내포하는 리스트이다. 내포된 개별 리스트 객체는 각각 문장별로 토큰화된 단어를 요소로 가지고 있다.

문장을 단어별로 하나씩 토큰화 할 경우 문맥적인 의미는 무시될 수 밖에 없다. 이러한 문제를 조금이라도 해결해 보고자 도입된 것이 n-gram이다.
#### -  n-gram
연속된 n개의 단어를 하나의 토큰화 단위로 분리해내는 것이다. n개 단어 크기 윈도우를 만들어 문장의 처음부터 오른쪽으로 움직이면서 토큰화를 수행한다.

### - 스톱 워드(Stop word) 제거
- 스톱 워드는 분석에 큰 의미가 없는 단어를 지칭한다. 가령 영어에서 is, the, a, will 등 문장을 구성하는 필수 문법 요소지만 문맥적으로 큰 의미가 없는 단어가 이에 해당한다. 이 단어의 경우 문법적인 특성으로 인해 특히 빈번하게 텍스트에 나타나므로 이것들을 사전에 제거하지 않으면 그 빈번함으로 인해 오히려 중요한 단어로 인지될 수 있다. 따라서 **이 의미 없는 단어를 제거하는 것이 중요한 전처리 작업이다.**
- 언어별로 이러한 스톱 워드가 목록화돼 있다. NLTK의 경우 가장 다양한 언어의 스톱 워드를 제공한다.

In [7]:
import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to C:\Users\JIEUN
[nltk_data]     OH\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

- NTLK의 English의 경우 몇 개의 stopwords가 있는지 알아보기

In [8]:
print(len(nltk.corpus.stopwords.words('english')))
print(nltk.corpus.stopwords.words('english')[:20])

179
['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're", "you've", "you'll", "you'd", 'your', 'yours', 'yourself', 'yourselves', 'he', 'him', 'his']


-> 영어의 경우 스톱 워드 개수가 179개이다.

- 위 예제에서 3개의 문장별로 단어를 토큰화해 생성된 word_tokens 리스트에 대해서 stopwords를 필터링으로 제거해 분석을 위한 의미 있는 단어만 추출해보기

In [10]:
import nltk

stopwords = nltk.corpus.stopwords.words('english')
all_tokens = []
# 위 예제에서 3개의 문장별로 얻은 word_tokens list에 대해 스톱 워드를 제거하는 반복문
for sentence in word_tokens:
    filtered_words = []
    # 개별 문장별로 토큰화된 문장 list에 대해 스톱 워드를 제거하는 반복문
    for word in sentence:
        # 소문자로 모두 변환
        word = word.lower()
        # 토큰화된 개별 단어가 스톱 워드의 단어에 포함되지 않으면 word_tokens에 추가
        if word not in stopwords:
            filtered_words.append(word)
    all_tokens.append(filtered_words)
    
print(all_tokens)

[['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.'], ['see', 'window', 'television', '.'], ['feel', 'go', 'work', ',', 'go', 'church', 'pay', 'taxes', '.']]


-> is, this와 같은 스톱 워드가 제거됨

### - Stemming과 Lemmatization
많은 언어에서 문법적인 요소에 따라 단어가 다양하게 변한다. 영어의 경우 과거/현재, 3인칭 단수 여부, 진행형 등 매우 많은 조건에 따라 원래 단어가 변환한다.
- 두 기능 모두 원형 단어를 찾는다는 목적은 유사하지만, **Lemmatization이 Stemming보다 정교하며 의미론적인 기반에서 단어의 원형을 찾는다. Stemming은 원형 단어로 변환 시 일반적인 방법을 적용하거나 더 단순화된 방법을 적용해 원래 단어에서 일부 철자가 훼손된 어근 단어를 추출하는 경향이 있다. 이해 반해 Lemmatization은 품사와 같은 문법적인 요소와 더 의미적인 부분을 감안해 정확한 철자로 된 어근 단어를 찾아준다. 따라서 Lemmatization이 Stemming보다 변환에 더 오랜 시간을 필요로 한다.**
- Stemming은 진행형, 3인칭 단수, 과거형에 따른 동사, 그리고 비교, 최상에 따른 형용사의 변화에 따라 더 단순하게 원형 단어를 찾아준다.
- NLTK는 다양한 Stemmer를 제공한다. 대표적으로 Porter, Lancaster, Snowball Stemmer가 있다. 그리고 Lemmatization을 위해서는 WordNetLemmatizer를 제공한다. 

- Stemming과 Lemmatization 비교

- NLTK의 LancasterStemmer를 이용해 Stemmer 살펴보기
  - NLTK에서는 LancasterStemmer()와 같이 필요한 Stemmer 객체를 생성한 뒤 이 객체의 stem('단어') 메서드를 호출하면 원하는 '단어'의 Stemming이 가능함.

In [11]:
from nltk.stem import LancasterStemmer
stemmer = LancasterStemmer()

print(stemmer.stem('working'), stemmer.stem('works'), stemmer.stem('worked'))
print(stemmer.stem('amusing'), stemmer.stem('amuses'), stemmer.stem('amused'))
print(stemmer.stem('happier'), stemmer.stem('happiest'))
print(stemmer.stem('fancier'), stemmer.stem('fanciest'))

work work work
amus amus amus
happy happiest
fant fanciest


->  Stemmer의 경우 기본 단어에 ing, s, ed가 붙는 단순한 변화를 가진 work를 제외하고 원형을 잘 추출하지 못함

- WordNetLemmatizer를 이용해 Lemmatization 수행
  - 일반적으로 Lemmatization은 보다 정확한 원형 단어 추출을 위해 단어의 '품사'를 입력해줘야함. 

In [16]:
from nltk.stem import WordNetLemmatizer
import nltk
nltk.download('wordnet')

lemma = WordNetLemmatizer()
print(lemma.lemmatize('amusing', 'v'), lemma.lemmatize('amues', 'v'), lemma.lemmatize('amused', 'v'))
print(lemma.lemmatize('happier', 'a'), lemma.lemmatize('happiest', 'a'))
print(lemma.lemmatize('fancier', 'a'), lemma.lemmatize('fanciest', 'a'))

[nltk_data] Downloading package wordnet to C:\Users\JIEUN
[nltk_data]     OH\AppData\Roaming\nltk_data...
[nltk_data]   Package wordnet is already up-to-date!


amuse amues amuse
happy happy
fancy fancy


-> Stemmer보다 정확하게 원형 단어를 추출함

## 03. Bag of Words - BOW
---
- **Bag of Words 모델은 문서가 가지는 모든 단어(Words)를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도 값을 부여해 피처 값을 추출하는 모델이다.** 문서 내 모든 단어를 한꺼번에 봉투(Bag)안에 넣은 뒤에 흔들어서 섞는다는 의미로 Bag of Words(BOW) 모델이라고 한다. 
- 다음 2개의 문장을 BOW의 단어 수(Word Count) 기반으로 피처를 추출해보기
![image.png](attachment:image.png)
![image-2.png](attachment:image-2.png)
- BOW 모델의 장점은 쉽고 빠른 구축에 있다. 단순히 단어의 발생 횟수에 기반하고 있지만, 예상보다 문서의 특징을 잘 나타낼 수 있는 모델이어서 전통적으로 여러 분야에서 활용도가 높다. 
- 하지만 BOW 기반의 NLP 연구는 여러 가지 제약에 부딪히고 있는데, 대표적인 단점은 다음과 같다.
  - **문맥 의미(Semantic Context) 반영 부족**: BOW는 단어의 순서를 고려하지 않기 때문에 문장 내에서 단어의 문맥적인 의미가 무시된다. 문맥적인 해석을 처리하는데 제한이 있다.
  - **희소 행렬 문제**: BOW로 피처 벡화를 수행하면 희소 행렬 형태의 데이터 세트가 만들어지기 쉽다. 많은 문서에서 단어를 추출하면 매우 많은 단어가 칼럼으로 만들어진다. 문서마다 서로 다른 단어로 구성되기에 단어가 문서마다 나타나지 않는 경우가 훨씬 많다. 즉, 매우 많은 문서에서 단어의 총 개수는 수만 ~ 수십만 개가 될 수 있는데, 하나의 문서에 있는 단어는 이 중 극히 일부분이므로 대부분의 데이터는 0 값으로 채워지게 된다. 이처럼 대규모의 칼럼으로 구성된 행렬에서 대부분의 값이 0으로 채워지는 행렬을 희소 행렬(Sparse Matrix)라고 한다. 이와는 반대로 대부분의 값이 0이 아닌 의미 있는 값으로 채워져 있는 행렬을 밀집 행렬(Dense Matrix)라고 한다. 희소 행렬은 일반적으로 ML 알고리즘의 수행 시간과 예측 성능을 떨어뜨리기 때문에 희소 행렬을 위한 특별 기법이 마련돼있다. 
### 1) BOW 피처 벡터화
- 머신러닝 알고리즘은 일반적으로 숫자형 피처를 데이터로 입력받아 동작하기 때문에 텍스트와 같은 데이터는 머신러닝 알고리즘에 바로 입력할 수 없다. 따라서 텍스트는 특정 의미를 가지는 숫자형 값인 벡터 값으로 변환해야 하는데, 이러한 변환을 피처 벡터화라고 한다. 예를 들어 **피처 벡터화는 각 문서(Document)의 텍스트를 단어로 추출해 피처로 할당하고, 각 단어의 발생 빈도와 같은 값을 이 피처에 값으로 부여해 각 문서를 이 단어 피처의 발생 빈도 값으로 구성된 벡터로 만드는 기법이다.** 피처 벡터화는 기존 텍스트 데이터를 또 다른 형태의 피처의 조합으로 변경하기 때문에 넓은 범위의 피처 추출에 포함한다. 
- BOW 모델에서 피처 벡터화를 수행한다는 것은 모든 문서에서 모든 단어를 칼럼 형태로 나열하고 각 문서에서 해당 단어의 횟수나 정규화된 빈도를 값으로 부여하는 데이터 세트 모델로 변경하는 것이다. 예를 들어 M개의 텍스트 문서가 있고, 이 문서에서 모든 단어를 추출해 나열했을 때 N개의 단어가 있다고 가정하면 피처 벡터화를 수행하면 M개의 문서는 각각 N개의 값이 할당된 피처의 벡터 세트가 된다. 결과적으로는 M X N개의 단어 피처로 이뤄진 행렬을 구성하게 된다.
![image-3.png](attachment:image-3.png)
- 일반적으로 BOW의 피처 벡터화는 두 가지 방식이 있다.
#### Count 기반의 벡터화:             
   **단어 피처에 값을 부여할 때 각 문서에서 해당 단어가 나타나는 횟수, 즉 Count를 부여하는 경우를 카운트 벡터화라고 한다. 카운트 벡터화에서는 카운트 값이 높을수록 중요한 단어로 인식된다. 그러나 카운트만 부여할 경우 그 문서의 특징을 나타내기보다는 언어의 특성상 문장에서 자주 사용될 수 밖에 없는 단어까지 높은 값을 부여하게 된다.**
#### TF-IDF(Term Frequency - Inverse Document Frequency) 기반의 벡터화:                    
  이러한 문제를 보완하기 위해 TF-IDF 벡터화를 사용한다. **TF-IDF는 개별 문서에서 자주 나타나는 단어에 높은 가중치를 주되, 모든 문서에서 전반적으로 자주 나타나는 단어에 대해서는 페널티를 주는 방식으로 값을 부여한다.** 모든 문서에서 반복적으로 자주 발생하는 단어에 대해서는 페널티를 부여하는 방식으로 단어에 대한 가중치의 균형을 맞추는 것이다. 문서마다 텍스트가 길고 문서의 개수가 많은 경우 카운트 방식보다는 TF-IDF 방식을 사용하는 것이 더 좋은 예측 성능을 보장할 수 있다. 
![image-4.png](attachment:image-4.png)

### 2) 사이킷런의 Count및 TF-IDF 벡터화 구현: CountVectorizer, TfidfVectorizer
사이킷런의 CountVectorizer 클래스는 피처 벡터화 뿐만 아니라 소문자 일괄 변환, 토큰화, 스톱 워드 필터링 등의 텍스트 전처리도 함께 수행한다. CountVectorizer 또한 fit()과 transform()을 통해 피처 벡터화된 객체를 반환한다.
#### - 입력 파라미터
  - **max_df**: 전체 문서에 걸쳐서 너무 높은 빈도수를 가지는 단어 피처를 제외하기 위한 파라미터. max_df=100 이면 전체 문서에 걸쳐 100개 이하로 나타나는 단어만 피처로 추출한다. max_df=0.95이면 전체 문서에 걸쳐 빈도수 0~95%까지의 단어만 피처로 추출한다.
  - **min_df**: 전체 문서에 걸쳐서 너무 낮은 빈도수를 가지는 단어 피처를 제외하기 위한 파라미터. min_df에 설정된 값보다 적은 빈도수를 가진다면 이 단어는 크게 중요하지 않거나 garbage성 단어일 확률이 높다. min_df=2이면 2번 이하로 나타나는 단어는 피처로 추출하지 않는다. min_df=0.02이면 전체 문서에 걸쳐서 하위 2% 이하의 빈도수를 가지는 단어는 피처로 추출하지 않는다.
  - **max_features**: 추출하는 피처의 개수를 제한하며 정수로 값을 지정한다. 가령 max_features=2000으로 지정할 경우 가장 높은 빈도를 가지는 단어 순으로 정렬해 2000개까지만 피처로 추출한다.
  - **stop_words**: 'english'로 지정하면 영어의 스톱 워드로 지정된 단어는 추출에서 제외한다.
  - **n_gram_range**: BOW로 모델의 단어 순서를 어느 정도 보강하기 위한 n_gram 범위를 설정한다. 튜플 형태로 지정한다. 예를 들어 (1,1)로 지정하면 토큰화된 단어를 1개씩 피처로 추출한다. (1,2)로 지정하면 토큰화된 단어를 1개씩, 그리고 순서대로 2개씩 묶어서 피처로 추출한다.
  - **analyzer**: 피처 추출을 수행한 단위를 지정한다. 디폴트는 word이다.
  - **token_pattern**: 토큰화를 수행하는 정규 표현식을 지정한다. 
  - **tokenizer**: 토큰화를 별도의 커스텀 함수로 이용시 적용한다.
  

#### - CountVectorizer 클래스를 이용해 카운트 기반의 피처 여러 개의 문서로 구성된 텍스트 피처 벡터화 방법
1) 영어의 경우 모든 문자를 소문자로 변경하는 등의 전처리 작업을 수행한다.              
2) 디폴트 단어 기준으로 n_gram_range를 반영해 각 단어를 토큰화한다.                     
3) 텍스트 정규화를 수행한다.         
단, stop_words 파라미터가 주어진 경우 스톱 워드 필터링만 가능하다. Stemming과 Lemmatization 같은 어근 변환은 CountVectorizer에서 직접 지원하진 않으나 tokenizer 파라미터에 커스텀 어근 변환 함수를 적용하여 어근 변환을 수행할 수 있다.             
4) max_df, min_df, max_features 등의 파라미터를 이용해 토큰화된 단어를 피처로 추출하고 단어 빈도수 벡터 값을 적용한다.
![image.png](attachment:image.png)
- 사이킷런에서 TF-IDF 벡터화는 TfidfVectorizer 클래스를 이용한다. 파라미터 변환 방법은 CountVectorizer와 동일하다.

### 3) BOW 벡터화를 위한 희소 행렬
- 사이킷런의 CountVectorizer/TfidfVectorizer를 이용해 텍스트를 피처 단위로 벡터화해 변환하고 CSR 형태의 희소 행렬을 반환한다. 
- 모든 문서에 있는 단어를 중복을 제거하고 피처로 만들면 일반적으로 수만 개에서 수십만 개의 단어가 만들어진다. 이러한 대규모 행렬이 생성되더라도 레코드의 각 문서가 가지는 단어의 수는 제한적이기 때문에 이 행렬의 값은 대부분 0이 차지할 수 밖에 없다. 이처럼 **대규모 행렬의 대부분의 값을 0이 차지하는 행렬을 가리켜 희소 행렬이라고 한다. BOW 형태를 가진 언어 모델의 피처 벡터화는 대부분 희소 행렬이다.**
![image.png](attachment:image.png)
- 희소 행렬은 너무 많은 불필요한 0값이 메모리 공간에 할당되어 메모리 공간이 많이 필요하며, 행렬의 크기가 커서 연산 시에도 데이터 엑세스를 위한 시간이 많이 소모된다. 따라서 이러한 희소 행렬을 물리적으로 적은 메모리 공간을 차지할 수 있도록 변환해야 하는데, 대표적인 방법으로 COO 형식과 CSR 형식이 있다. 일반적으로 큰 희소 행렬을 저장하고 계산을 수행하는 능력이 CSR 형식이 더 뛰어나기 때문에 CSR을 많이 사용한다.
### 희소 행렬 - COO 형식
- **COO(Cordinate) 형식은 0이 아닌 데이터만 별도의 데이터 배열에 저장하고, 그 데이터가 가리키는 행과 열의 위치를 별도의 배열로 저장하는 방식이다.** 예를 들어 [[3, 0, 1,],[0, 2, 0]]과 같은 2차원 데이터가 있다고 가정하자. 0이 아닌 데이터는 [3, 1, 2]이며 0이 아닌 데이터가 있는 위치를 (row, col)로 표시하면 (0, 0), (0, 2), (1, 1)가 된다. 로우와 칼럼을 별도의 배열로 저장하면 로우는 [0, 0, 1]이고 칼럼은 [0, 2, 1]이다. 
- 파이썬에서 희소 행렬 변환을 위해서 주로 Scipy를 이용한다. Scipy의 sparse 패키지는 희소 행렬 변환을 위해 다양한 모듈을 제공한다.
### 희소 행렬 - CSR 형식
- **CSR(Compressed Sparse Row) 형식은 COO 형식이 행과 열의 위치를 나타내기 위해서 반복적인 위치 데이터를 사용해야 하는 문제점을 해결한 방식이다.** 행 위치 배열이 0부터 순차적으로 증가하는 값으로 이뤄졌다는 특성을 고려하면 행 위치 배열의 고유한 값의 시작 위치만 표기하는 방법으로 반복적으로 나타나는 값을 제거할 수 있다. **행 위치 배열 내에 있는 고유한 값의 시작 위치만 다시 별도의 위치 배열로 가지는 변환 방식을 의미한다.**
![image-2.png](attachment:image-2.png)
![image-3.png](attachment:image-3.png)
- 이렇게 고유 값의 시작 위치만 알고 있으면 얼마든지 행 위치 배열을 다시 만들 수 있기에 COO 방식보다 메모리가 적게 들고 빠른 연산이 가능하다.
- CSR 방식의 변환은 Scipy의 csr_matrix 클래스를 이용해 쉽게 할 수 있다. 0이 아닌 데이터 배열과 열 위치 배열, 행 위치 배열의 고유한 값의 시작 위치 배열을 파라미터로 입력하면 된다.
- 사이킷런의 CountVectorizer나 TfidfVectorizer 클래스로 변환된 피처 벡터화 행렬은 모두 Scipy의 CSR 형태의 희소 행렬이다.


In [8]:
from scipy import sparse

dense3 = np.array([[0, 0, 1, 0, 0, 5],
                   [1, 4, 0, 3, 2, 5],
                   [0, 6, 0, 3, 0, 0],
                   [2, 0, 0, 0, 0, 0],
                   [0, 0, 0, 7, 0, 8],
                   [1, 0, 0, 0, 0, 0]])

coo = sparse.coo_matrix(dense3)
csr = sparse.coo_matrix(dense3)

In [9]:
print(coo)

  (0, 2)	1
  (0, 5)	5
  (1, 0)	1
  (1, 1)	4
  (1, 3)	3
  (1, 4)	2
  (1, 5)	5
  (2, 1)	6
  (2, 3)	3
  (3, 0)	2
  (4, 3)	7
  (4, 5)	8
  (5, 0)	1


In [10]:
print(csr)

  (0, 2)	1
  (0, 5)	5
  (1, 0)	1
  (1, 1)	4
  (1, 3)	3
  (1, 4)	2
  (1, 5)	5
  (2, 1)	6
  (2, 3)	3
  (3, 0)	2
  (4, 3)	7
  (4, 5)	8
  (5, 0)	1


## 04. 텍스트 분류 실습 - 20 뉴스그룹 분류
- 사이킷런이 내부에 가지고 있는 예제 데이터인 20 뉴스그룹 데이터 세트를 이용해 텍스트 분류를 적용해보겠다. 텍스트 분류는 특정 문서의 분류를 학습 데이터를 통해 학습해 모델을 생성한 뒤 이 학습 모델을 이용해 다른 문서의 분류를 예측하는 것이다. 
- 사이킷런은 fetch_20newsgroups() API를 이용해 뉴스그룹의 분류를 수행해 볼 수 있는 예제 데이터를 제공한다.
- 텍스트를 피처 벡터화로 변환하면 일반적으로 희소 행렬 형태가 된다. 그리고 이러한 희소 행렬에 분류를 효과적으로 잘 처리할 수 있는 알고리즘은 로지스틱 회귀, 선형 서포트 벡터 머신, 나이브 베이즈 등이다. 이중 로지스틱 회귀를 이용해 분류를 수행하겠다. **텍스트를 기반으로 분류를 수행할 때는 먼저 텍스트를 정규화한 뒤 피처 벡터화를 적용한다. 그리고 이후에 적합한 머신러닝 알고리즘을 적용해 분류를 학습/예측/평가한다.**

### 1) 텍스트 정규화

In [14]:
from sklearn.datasets import fetch_20newsgroups

news_data = fetch_20newsgroups(subset='all', random_state=156)

- fetch_20newsgroups()는 딕셔너리와 유사한 Bunch 객체를 반환한다. key 값 확인해보기

In [15]:
print(news_data.keys())

dict_keys(['data', 'filenames', 'target_names', 'target', 'DESCR'])


- filenames라는 key는 fetch_20newsgroups() API가 인터넷에서 내려받아 로컬 컴퓨터에 저장하는 디렉터리와 파일명을 지칭한다.
- Target 클래스 구성 살펴보기

In [16]:
import pandas as pd 

# target 클래스의 값과 분포도
print(pd.Series(news_data.target).value_counts().sort_index())
# 클래스의 이름들
print(news_data.target_names)

0     799
1     973
2     985
3     982
4     963
5     988
6     975
7     990
8     996
9     994
10    999
11    991
12    984
13    990
14    987
15    997
16    910
17    940
18    775
19    628
dtype: int64
['alt.atheism', 'comp.graphics', 'comp.os.ms-windows.misc', 'comp.sys.ibm.pc.hardware', 'comp.sys.mac.hardware', 'comp.windows.x', 'misc.forsale', 'rec.autos', 'rec.motorcycles', 'rec.sport.baseball', 'rec.sport.hockey', 'sci.crypt', 'sci.electronics', 'sci.med', 'sci.space', 'soc.religion.christian', 'talk.politics.guns', 'talk.politics.mideast', 'talk.politics.misc', 'talk.religion.misc']


-> Target 클래스의 값은 0부터 19까지 20개로 구성돼있다.

- 개별 데이터가 텍스트로 어떻게 구성돼있는지 알아보기

In [17]:
print(news_data.data[0])

From: egreen@east.sun.com (Ed Green - Pixel Cruncher)
Subject: Re: Observation re: helmets
Organization: Sun Microsystems, RTP, NC
Lines: 21
Distribution: world
Reply-To: egreen@east.sun.com
NNTP-Posting-Host: laser.east.sun.com

In article 211353@mavenry.altcit.eskimo.com, maven@mavenry.altcit.eskimo.com (Norman Hamer) writes:
> 
> The question for the day is re: passenger helmets, if you don't know for 
>certain who's gonna ride with you (like say you meet them at a .... church 
>meeting, yeah, that's the ticket)... What are some guidelines? Should I just 
>pick up another shoei in my size to have a backup helmet (XL), or should I 
>maybe get an inexpensive one of a smaller size to accomodate my likely 
>passenger? 

If your primary concern is protecting the passenger in the event of a
crash, have him or her fitted for a helmet that is their size.  If your
primary concern is complying with stupid helmet laws, carry a real big
spare (you can put a big or small head in a big helmet, bu

-> 텍스트 데이터를 확인해보면 뉴스그룹 기사의 내용뿐만 아니라 뉴스그룹 제목, 작성자, 소속, 이메일 등의 다양한 정보를 가지고 있다. 이 중에서 내용을 제외하고 제목 등의 다른 정보는 제거한다. 왜냐하면 제목과 소속, 이메일 주소 등의 헤더와 푸터 정보들은 뉴스그룹 분류의 Target 클래스 값과 유사한 데이터를 가지고 있는 경우가 많기 때문이다. 이 피처들을 포함하게 되면 웬만한 ML 알고리즘을 적용해도 상당히 높은 예측 성능을 나타낸다. 따라서 이들 헤더와 푸터 정보를 포함하는 것은 이 장에서 수행하려는 텍스트 분석의 의도를 벗어나기에 순수한 텍스트만으로 구성된 기사 내용으로 어떤 뉴스그룹에 속하는지 분류할 것이다.
- remove 파라미터를 이용하면 뉴스그룹 기사의 헤더(header), 푸터(footer) 등을 제거할 수 있다.
- fetch_20newsgroups()는 subset 파라미터를 이용해 학습 데이터 세트와 테스트 데이터 세트를 분리해 내려받을 수 있다.

In [21]:
from sklearn.datasets import fetch_20newsgroups

# subset='train'으로 학습용 데이터만 추출, remove=('headers', 'footers', 'quotes')로 내용만 추출
train_news = fetch_20newsgroups(subset='train', remove=('headers', 'footers', 'quotes'), random_state=156)
X_train = train_news.data
y_train = train_news.target

# subset='test'으로 학습용 데이터만 추출, remove=('headers', 'footers', 'quotes')로 내용만 추출
test_news = fetch_20newsgroups(subset='test', remove=('headers', 'footers', 'quotes'), random_state=156)
X_test = test_news.data
y_test = test_news.target
print(len(train_news.data), len(test_news.data))

11314 7532


### 2) 피처 벡터화 변환과 머신러닝 모델 학습/예측/평가
- 학습 데이터는 11314개의 뉴스그룹 문서가 리스트 형태로 주어지고 테스트 데이터는 7532개의 문서가 역시 리스트 형태로 주어졌다. CountVectorizer를 이용해 학습 데이터의 텍스트를 피처 벡터화하겠다. 테스트 데이터 역시 피처 벡터화를 수행하는데, 한 가지 반드시 유의해야 할 점이 있다. **테스트 데이터에서 CountVectorizer를 적용할 때는 반드시 학습 데이터를 이용해 fit()이 수행된 CountVectorizer의 피처 개수와 테스트 데이터를 CountVectorizer로 변환할 피처 개수가 같아진다. 테스트 데이터의 피처 벡터화는 학습 데이터에 사용된 CountVectorizer 객체 변수인 cnt_vect.transform()을 이용해 변환한다.**                    
=> 테스트 데이터의 피처 벡터화 시 fit_transform()을 사용하면 안된다.

#### - Count 기반으로 피처 벡터화

In [23]:
from sklearn.feature_extraction.text import CountVectorizer

# Count Vectorization으로 피처 벡터화 변환 수행
cnt_vect = CountVectorizer()
cnt_vect.fit(X_train)
X_train_cnt_vect = cnt_vect.transform(X_train)

# 학습 데이터로 fit()된 CountVectorizer를 이용해 테스트 데이터를 피처 벡터화 변환 수행
X_test_cnt_vect = cnt_vect.transform(X_test)

print(X_train_cnt_vect.shape)

(11314, 101631)


-> 학습 데이터를 피처 벡터화한 결과 11314개의 문서에서 피처, 즉 단어가 101631개가 만들어짐. 

- 피처 벡터화된 데이터에 로지스틱 회귀를 적용해 뉴스그룹에 대한 분류를 예측해보기

In [24]:
from sklearn.linear_model import LogisticRegression 
from sklearn.metrics import accuracy_score 

# LogisticRegression을 이용해 학습/예측/평가 수행
lr_clf = LogisticRegression()
lr_clf.fit(X_train_cnt_vect, y_train)
pred = lr_clf.predict(X_test_cnt_vect)
print(accuracy_score(y_test, pred))

0.6078066914498141


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


-> Count 기반으로 피처 벡터화된 데이터 세트에 대한 로지스틱 회귀의 예측 정확도는 약 61%이다.

#### - TF-IDF 기반으로 피처 벡터화

In [25]:
from sklearn.feature_extraction.text import TfidfVectorizer

# TF-IDF 벡터화를 적용해 학습 데이터 세트와 테스트 데이터 세트 변환
tfidf_vect = TfidfVectorizer()
tfidf_vect.fit(X_train)
X_train_tfidf_vect = tfidf_vect.transform(X_train)
X_test_tfidf_vect = tfidf_vect.transform(X_test)

# LogistcRegression을 이용해 학습/예측/평가 수행
lr_clf = LogisticRegression()
lr_clf.fit(X_train_tfidf_vect, y_train)
pred = lr_clf.predict(X_test_tfidf_vect)
print(accuracy_score(y_test, pred))

0.6736590546999469


-> TF-IDF 기반의 피처 벡터화된 데이터 세트에 대한 로지스틱 회귀의 예측 정확도는 약 67%이다.
- Tf-IDF가 단순 카운트 기반보다 훨씬 높은 예측 정확도를 제공한다. **일반적으로 문서 내에 텍스트가 많고 많은 문서를 가지는 텍스트 분석에서 카운트 벡터화보다는 TF-IDF 벡터화가 좋은 예측 결과를 도출한다.**

- **텍스트 분석에서 머신러닝 모델의 성능을 향상시키는 중요한 2가지 방법은 최적의 ML 알고리즘을 선택하는 것과 최상의 피처 전처리를 수행하는 것이다. 텍스트 정규화나 Count/TF-IDF 기반 피처 벡터화를 어떻게 효과적으로 적용했는지가 텍스트 기반의 머신러닝 성능에 큰 영향을 미칠 수 있다.**

- TfidfVectorizer 클래스의 스톱 워드를 기존 'None'에서 'english'로 변경하고, ngram_range는 기존 (1,1)에서 (1,2)로, max_df=300으로 변경한 뒤 다시 예측 성능을 측정해보기

In [28]:
# stop words 필터링을 추가하고 ngram을 기본 (1, 1)에서 (1, 2)로 변경해 피처 벡터화 적용
tfidf_vect = TfidfVectorizer(stop_words='english', ngram_range=(1, 2), max_df=300)
tfidf_vect.fit(X_train)
X_train_tfidf_vect = tfidf_vect.transform(X_train)
X_test_tfidf_vect = tfidf_vect.transform(X_test)

lr_clf = LogisticRegression()
lr_clf.fit(X_train_tfidf_vect, y_train)
pred = lr_clf.predict(X_test_tfidf_vect)
print(accuracy_score(y_test, pred))

0.6922464152947424


- GridSearchCV를 이용해 로지스틱 회귀의 하이퍼 파라미터 최적화 수행하기
  - 로지스틱 회귀의 C 파라미터만 변경하면서 최적의 C값을 찾은 뒤 이 C값으로 학습된 모델에서 테스트 데이터로 예측해 성능을 평가하기
  

In [None]:
from sklearn.model_selection import GridSearchCV

# 최적 C값 도출 튜닝 수행. CV는 3 폴드 세트로 설정
params = {'C':[0.01, 0.1, 1, 5, 10]}
grid_cv_lr = GridSearchCV(lr_clf, param_grid=params, cv=3, scoring='accuracy', verbose=1)
grid_cv_lr.fit(X_train_tfidf_vect, y_train)
print(grid_cv_lr.best_params_)

# 최적 C값으로 학습된 grid_cv로 예측 및 정확도 평가
pred = grid_cv_lr.predict(X_test_tfidf_vect)
print(accuray_score(y_test, pred))

-> 로지스틱 회귀의 C가 10일 때 GridSearchCV의 교차 검증 테스트에서 가장 좋은 예측 성능을 나타냈으며, 이를 테스트 데이터에 적용하면 약 을 약간 향상된 성능 수치가 됐다.

### 3) 사이킷런 Pipeline 사용 및 GridSearchCV와의 결합
- 사이킷런의 Pipeline 클래스를 이용하면 피처 벡터화와 ML 알고리즘 학습/예측을 위한 코드 작성을 한 번에 진행할 수 있다. 일반적으로 머신러닝에서 Pipeline이란 데이터의 가공, 변환 등의 전처리와 알고리즘 적용을 마치 수도관(Pipe)에서 물이 흐르듯 한꺼번에 스트림 기반으로 처리한다는 의미이다. 이렇게 Pipeline을 이용하면 데이터의 전처리와 머신러닝 학습 과정을 통일된 API 기반에서 처리할 수 있어 더 직관적인 ML 모델 코드를 생성할 수 있다. 또한 대용량 데이터의 피처 벡터화 결과를 별도 데이터로 저장하지 않고 스트림 기반에서 바로 머신러닝 알고리즘의 데이터로 입력할 수 있기 때문에 수행 시간을 절약할 수 있다. 
- 일반적으로 사이킷런 파이프라인은 텍스트 기반의 피처 벡터화뿐만 아니라 모든 데이터 전처리 작업과 Estimator를 결합할 수 있다. 
- Pipeline 객체는 선언 방법

```
pipeline = Pipeline([('tfidf_vect', TfidfVectorizer(stop_word='english')), ('lr_clf', LogisticRegression(random_state=156))])
```
-> 이것은 TfidfVectorizer 객체를 tfidf_vect라는 객체 변수 명으로, LogisticRegression 객체를 lr_clf라는 객체 변수 명으로 생성한 뒤 이 두 개의 객체를 파이프라인으로 연결하는 Pipeline 객체를 생성한다는 의미이다. 또한 기존 TfidfVectorizer의 학습 데이터와 테스트 데이터에 대한 fit()과 transform() 수행을 통한 피처 벡터화와 LogisticRegressor의 fit()과 predict() 수행을 통한 머신러닝 모델의 학습과 예측이 Pipeline의 fit()과 predict()로 통일돼 수행됐다. 

- 위에서 텍스트 분류 예제 코드를 Pipeline을 이용해 다시 작성하기 

In [32]:
from sklearn.pipeline import Pipeline

# TfidfVectorizer 객체를 tfidf_vect로 LogisticRegression 객체를 lr_clf로 생성하는 Pipeline 생성
pipeline = Pipeline([
    ('tfidf_vect', TfidfVectorizer(stop_words='english', ngram_range=(1, 2), max_df=300)),
    ('lr_clf', LogisticRegression(C=10))
])

# 별도의 TfidfVectorizer 객체의 fit(), transform()과 LogisticRegression의 fit(), predict()가 필요없음
# pipeline의 fit()과 predict만으로 한꺼번에 피처 벡터화와 ML 학습/예측이 가능
pipeline.fit(X_train, y_train)
pred = pipeline.predict(X_test)
print(accuracy_score(y_test, pred))

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


0.7010090281465746


-> Pipeline을 통한 로지스틱 회귀의 예측 정확도는 약 70%이다.

- 사이킷런은 GridSearchCV 클래스의 생성 파라미터로 Pipeline을 입력해 Pipeline 기반에서도 하이퍼 파라미터 튜닝을 GridSearchCV 방식으로 진행할 수 있게 지원한다. 
- GridSearchCV에 Pipeline을 입력하면서 TfidfVectorizer의 파라미터와 LogisticRegression의 하이퍼 파라미터를 함께 최적화하기
  - GridSearchCV에 Estimator가 아닌 Pipeline을 입력할 경우에는 param_grid의 입력 값 설정이 딕셔너리 형태의 Key와 Value 값을 가진다. 다만, Key 값을 살펴보면 하이퍼 파라미터명이 객체 변수명과 결합돼 제공된다. 개별 객체 명과 파라미터명/하이퍼 파라미터명을 결합해 Key 값으로 할당하는 것이다. 예를 들어 TfidfVectorizer 객체 변수인 tfidf_vect의 ngram_range 파라미터 값을 변화시키면서 최적화하기를 원한다면 객체 변수명인 tfidf_vect에 언더바 2개를 연달아 붙인 뒤 파라미터명인 ngram_range를 결합해 'tfidf_vect__ngram_range'를 Key 값으로 할당하는 것이다. 
- Pipeline + GridSearchCV를 적용할 때 유의할 점은 모두의 파라미터를 최적화하려면 너무 많은 튜닝 시간이 소모된다는 점이다. 피처 벡터화에 사용되는 파라미터와 GridSearchCV 하이퍼 파라미터를 합치면 최적화를 위한 너무 많은 경우의 수가 발생하기 쉽다. 
  

In [None]:
pipeline = Pipeline([
    ('tfidf_vect', TfidfVectorizer(stop_words='english')),
    ('lr_clf', LogisticRegression())
])

# Pipeline에 기술된 각각의 객체 변수에 언더바 2개를 연달아 붙여 GridSearchCV에 사용됨
# 파라미터/하이퍼 파라미터 이름과 값을 설정
params= {'tfidf_vect__ngram_range': [(1, 1), (1, 2), (1, 3)],
         'tfidf_vect__max_df': [100, 300, 700],
         'lr_clf__C': [1, 5, 10]}

# GridSearchCV의 생성자 Estimator가 아닌 Pipeline 객체 입력 
grid_cv_pipe = GridSearchCV(pipeline, param_grid=params, cv=3, scoring='accuracy', verbose=1)
grid_cv_pipe.fit(X_train, y_train)
print(grid_cv_pipe.best_params_, grid_cv_pipe.best_score_)

pred = grid_cv_pipe.predict(X_test)
print(accuracy_score(y_test, pred))

Fitting 3 folds for each of 27 candidates, totalling 81 fits


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(
STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver opt

-> TfidfVectorizer 객체의 max_df 파라미터가 700, ngram_range 파라미터가 (1, 2)로 피처 벡터화된 데이터 세트에 LogisticRegression의 C 하이퍼 파라미터에 10을 적용해 예측 분류를 수행할 때 가장 좋은 검증 세트 성능 수치가 도출됐다. 이런 최적화된 파라미터를 기반으로 테스트 데이터 세트에 대해 예측했을 때의 정확도는 약 로 크게 개선되진 않았다. 

## 05. 감성분석(Sentiment Analysis)
---
### 1) 감성 분석 
- 감성 분석은 문서의 주관적인 감성/의견/감정/기분 등을 파악하기 위한 방법으로 소셜 미디어, 여론조사, 온라인 리뷰, 피드백 등 다양한 분야에서 활용되고 있다. **감성 분석은 문서 내 텍스트가 나타내는 여러 가지 주관적인 단어와 문맥을 기반으로 감성(Sentiment) 수치를 계산하는 방법을 이용한다. 이러한 감성 지수는 긍정 감성 지수와 부정 감성 지수로 구성되며 이들 지수를 합산해 긍정 감성 또는 부정 감성을 결정한다.**
- 감성 분석은 머신러닝 관점에서 지도학습과 비지도학습 방식으로 나눌 수 있다.
  - 지도학습: 학습 데이터와 타깃 레이블 값을 기반으로 감성 분석 학습을 수행한 뒤 이를 기반으로 다른 데이터의 감성 분석을 예측하는 방법으로 일반적인 텍스트 기반의 분류와 거의 동일하다.
  - 비지도학습: 'Lexicon'이라는 일종의 감성 어휘 사전을 이용한다. Lexicon은 감성 분석을 위한 용어와 문맥에 대한 다양한 정보를 가지고 있으며, 이를 이용해 문서의 긍정적, 부정적 감성 여부를 판단한다. 

### 2) 지도학습 기반 감성 분석 실습 - IMDB 영화평
먼저 지도학습 기반으로 감성 분석을 수행하겠다. 유명한 IMDB의 영화 사이트의 영화평을 이용하겠다.(감성 분석이라는 타이틀이 붙었지만 지도학습 기반 감성 분석은 텍스트 기반의 이진 분류라고 표현하고 싶다.)               
- 영화평의 텍스트를 분석해 감성 분석 결과가 긍정 또는 부정인지를 예측하는 모델을 만들어보기
  - quoting = 3으로 설정해주면 인용구(따옴표) 무시

In [24]:
import pandas as pd

review_df = pd.read_csv('C:/Users/JIEUN OH/OneDrive/바탕 화면/파머완_데이터/labeledTrainData.tsv', header=0, sep='\t', quoting=3)
review_df.head(3)

Unnamed: 0,id,sentiment,review
0,"""5814_8""",1,"""With all this stuff going down at the moment ..."
1,"""2381_9""",1,"""\""The Classic War of the Worlds\"" by Timothy ..."
2,"""7759_3""",0,"""The film starts with a manager (Nicholas Bell..."


- 피처 설명
  - id: 각 데이터의 id
  - sentiment: 영화평의 Sentiment 결과 값(Target Label). 1은 긍정적 평가, 0은 부정적 평가
  - review: 영화평의 텍스트

- review 피처 텍스트 값 살펴보기

In [3]:
print(review_df.review[0])

"With all this stuff going down at the moment with MJ i've started listening to his music, watching the odd documentary here and there, watched The Wiz and watched Moonwalker again. Maybe i just want to get a certain insight into this guy who i thought was really cool in the eighties just to maybe make up my mind whether he is guilty or innocent. Moonwalker is part biography, part feature film which i remember going to see at the cinema when it was originally released. Some of it has subtle messages about MJ's feeling towards the press and also the obvious message of drugs are bad m'kay.<br /><br />Visually impressive but of course this is all about Michael Jackson so unless you remotely like MJ in anyway then you are going to hate this and find it boring. Some may call MJ an egotist for consenting to the making of this movie BUT MJ and most of his fans would say that he made it for the fans which if true is really nice of him.<br /><br />The actual feature film bit when it finally sta

-> HTML 형식에서 추출해 >br/< 태그가 여전히 존재한다. 이 문자열은 피처 벡터화할 필요가 없으니 삭제하겠다
- **replace()를 str에 적용해 >br/< 태그를 공백으로 모두 바꾸겠다.**
- 영어가 아닌 숫자/특수문자 역시 Sentiment를 위한 피처로는 별 의미가 없으므로 모두 공란으로 변경하겠다.
- 숫자/특수문자를 찾고 이를 변환하는 것은 정규 표현식을 이용한다. 파이썬의 re 모듈은 편리하게 정규 표현식을 지원한다. 정규 표현식 [^a-zA-Z]의 의미는 영어 대/소문자가 아닌 모든 문자를 찾는 것이다. 
- **re.sub('[^a-zA-Z]', '', x)는 영어 대/소문자가 아닌 모든 문자를 찾아서 공란으로 변경한다.**


In [25]:
import re

# <br> html 태그는 replace 함수로 공백으로 변환
review_df.review = review_df.review.str.replace('<br />', ' ')

# 파이썬의 정규 표현식 모듈인 re를 이용해 영어 문자열이 아닌 문자는 모두 공백으로 변환
review_df.review = review_df.review.apply(lambda x: re.sub('[^a-zA-Z]', ' ', x))

- target값 클래스인 sentiment 칼럼을 별도로 추출해 target값 데이터 세트를 만들고, 원본 데이터 세트에서 id와 sentiment 칼럼을 삭제해 피처 데이터 세트를 생성한다.
- 학습용/테스트용 데이터 세트로 분리하기

In [26]:
from sklearn.model_selection import train_test_split

class_df = review_df.sentiment
feature_df = review_df.drop(['id', 'sentiment'], axis=1)

In [27]:
X_train, X_test, y_train, y_test = train_test_split(feature_df, class_df, test_size=0.3, random_state=156)

X_train.shape, X_test.shape

((17500, 1), (7500, 1))

-> 학습용 데이터는 17500개의 리뷰, 테스트용 데이터는 7500개의 리뷰로 구성되었다.

- 감상평(Review) 텍스트를 피처 벡터화한 후에 ML 분류 알고리즘을 적용해 예측 성능을 측정하기
  - Pipeline 객체를 이용해 이 두 가지를 한꺼번에 수행하기: 먼저 Count 벡터화를 적용해 예측 성능을 측정하고, 다음으로 TF-IDF 벡터화를 적용해보기, 로지스틱 회귀 사용
  - 예측 성능 평가는 이진 분류임을 고려해 테스트 데이터 세트의 정확도와 ROC-AUC 모두 측정

In [30]:
from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer
from sklearn.pipeline import Pipeline
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score, roc_auc_score

# 스톱 워드는 English, filtering, ngram은 (1,2)로 설정해 CountVectorization수행. 
# LogisticRegression의 C는 10으로 설정. 
pipeline = Pipeline([
    ('cnt_vect', CountVectorizer(stop_words='english', ngram_range=(1, 2))),
    ('lr_clf', LogisticRegression(C=10)) ]) # C 값이 작으면 훈련을 덜 복잡 (강한 규제)

# Pipeline 객체를 이용하여 fit(), predict()로 학습/예측 수행. predict_proba()는 roc_auc때문에 수행.  
pipeline.fit(X_train.review, y_train)
pred = pipeline.predict(X_test.review)
pred_probs = pipeline.predict_proba(X_test.review)[:, 1]

print(accuracy_score(y_test, pred), roc_auc_score(y_test, pred_probs))

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


0.886 0.9502704586842705


- TF-IDF 벡터화를 적용해 다시 예측 성능 측정하기 

In [31]:
# 스톱 워드는 English, filtering, ngram은 (1, 2)로 설정해 TF-IDF 벡터화 수행
# LogisticRegression의 C는 10으로 설정
pipeline = Pipeline([
    ('tfidf_vect', TfidfVectorizer(stop_words='english', ngram_range=(1, 2))),
    ('lr_clf', LogisticRegression(C=10)) ])

# pipeline 객체를 이용해 fit(), predict()로 학습/예측 수행, predict_proba()는 roc_auc 때문에 수행
pipeline.fit(X_train.review, y_train)
pred = pipeline.predict(X_test.review)
pred_probs = pipeline.predict_proba(X_test.review)[:, 1]

print(accuracy_score(y_test, pred), roc_auc_score(y_test, pred_probs))

0.8936 0.959799823582973


-> TF-IDF 기반 피처 벡터화의 예측 성능이 조금 더 나아졌다.

### 3) 비지도학습 기반 감성 분석 소개
- 비지도 감성 분석은 Lexion을 기반으로 하는 것이다. 위의 지도 감성 분석은 데이터 세트가 레이블 값을 가지고 있었다. **하지만 많은 감성 분석용 데이터는 이러한 결정된 레이블 값을 가지고 있지 않다. 이러한 경우에 Lexicon은 유용하게 사용될 수 있다.**
- **Lexicon은 주로 감성만을 분석하기 위해 지원하는 감성 어휘 사전이다. 감성 사전은 긍정(Positive) 감성 또는 부정(Negative) 감성의 정도를 의미하는 수치를 가지고 있으며 이를 감성 지수(Polarity score)이라고 한다. 이 감성 지수는 단어의 위치나 주변 단어, 문맥, POS(Part of Speech) 등을 참고해 결정된다.** 이러한 감성 사전을 구현한 대표격은 NLTK 패키지이다. NLTK에 감성 사전인 Lexicon 모듈도 포함돼 있다.
- NLP에서 제공하는 WordNet 모듈은 방대한 영어 어휘 사전이다. WordNet은 단순한 어휘 사전이 아닌 시맨틱 분석을 제공하는 어휘 사전이다.
- 시맨틱의 의미는 '문맥상 의미'이다. 동일한 단어나 문장이라도 다른 환경과 문맥에서는 다르게 표현되거나 이해될 수 있다.
- **WordNet은 다양한 상황에서 같은 어휘라도 다르게 사용되는 어휘의 시맨틱 정보(문맥상 의미)를 제공하며, 이를 위해 각각의 품사로 구성된 개별 단어를 Synset(Sets of cognitive synonyms)이라는 개념을 이용해 표현한다. Synset은 단순한 하나의 단어가 아니라 그 단어가 가지는 문맥, 시맨틱 정보를 제공하는 WordNet의 핵심 개념이다.**
- NLTK의 감성 사전이 감성에 대한 훌륭한 사전 역할을 제공한 장점은 있지만, 예측 성능은 그리 좋지 못하다는 단점이 있다. 그 때문에 실제 업무의 적용은 NLTK 패키지가 아닌 다른 감성 사전을 적용하는 것이 일반적이다.
- NLTK를 포함한 대표적인 감성 사전: SentiWordNet, VADER, Pattern
![image.png](attachment:image.png)
- SentiWordNet의 경우 예측 정확도가 그리 높지 않아서 잘 사용되지 않지만, 시맨틱 기반의 사전 구축 방식을 좀 더 자세히 이해할 수 있다.

### 4) VADER를 이용한 감성 분석
- **VADER은 소셜 미디어 감성 분석 용도로 만들어진 룰 기반의 Lexicon이다. VADER은 SentimentIntensityAnalyzer 클래스를 이용해 쉽게 감성 분석을 제공한다.**
- 먼저 SentimentIntensityAnalyzer 객체를 생성한 뒤에 문서별로 polarity_scores() 메서드를 호출해 감성 점수를 구한 뒤, 해당 문서의 감성 점수가 특정 임계값 이상이면 긍정, 그렇지 않으면 부정으로 판단한다. polarity_scores() 메서드는 딕셔너리 형태의 감성 점수를 반환한다. 'neg'는 부정 감성 지수, 'neu'는 중립 감성 지수, 'pos'는 긍정 감성 지수, compound는 neg, neu, pos score를 적절히 조합해 -1에서 1사이의 감성 지수를 표현한 값이다. compound score를 기반으로 부정 감성 또는 긍정 감성 여부를 결정한다. 보통 0.1 이상이면 긍정 감성, 그 이하이면 부정 감성으로 판단하나 상황에 따라 이 임계값을 적절히 조정해 예측 성능을 조절한다.

- IMDB의 감상평 한 개만 감성 분석 수행해보기

In [35]:
from nltk.sentiment.vader import SentimentIntensityAnalyzer
import pandas as pd

review_df = pd.read_csv('C:/Users/JIEUN OH/OneDrive/바탕 화면/파머완_데이터/labeledTrainData.tsv', header=0, sep='\t', quoting=3)

senti_analyzer = SentimentIntensityAnalyzer()
senti_scores = senti_analyzer.polarity_scores(review_df.review[0])
print(senti_scores)

{'neg': 0.13, 'neu': 0.744, 'pos': 0.126, 'compound': -0.8278}


- VADER를 이용해 IMDB의 감상평 전체의 감성 분석을 수행하기
  - vader_polarity() 함수를 새롭게 만든다. 입력 파라미터로 영화 감상평 텍스트와 긍정/부정을 결정하는 임계값을 가지고, polarity_scores() 메서드를 호출해 감성 결과를 반환한다.
  - review_df의 apply lambda 식을 통해 vader_polarity() 함수를 호출해 각 문서별로 감성 결과를 vader_preds라는 review_df의 새로운 칼럼으로 저장한 뒤, 저장된 감성 분석 결과를 기반으로 VADER의 예측 성능을 측정하겠다.

In [None]:
def vader_polarity(review, threshold=0.1):
    analyzer = SentimentIntensityAnalyzer()
    scores = analyzer.polarity_scores(review)
    
    # compound 값에 기반해 threshold 입력값보다 크면 1, 그렇지 않으면 0을 반환
    agg_score = scores['compound']
    final_sentiment = 1 if agg_score >= threshold else 0
    return final_sentiment

# apply lambda 식을 이용해 레코드별로 vader_polarity()를 수행하고 결과를 vader_preds에 저장
review_df['vader_preds'] = review_df.review.apply(lambda x: vader_polarity(x, 0.1))
y_target = review_df.sentiment.values
vader_preds = review_df.vader_preds.values

In [40]:
import numpy as np
from sklearn.metrics import confusion_matrix, precision_score, recall_score

print(confusion_matrix(y_target, vader_preds))
# 정확도
print(accuracy_score(y_target, vader_preds), 4)
# 정밀도
print(np.round(precision_score(y_target, vader_preds), 4))
# 재현율
print(np.round(recall_score(y_target, vader_preds), 4))

[[ 6819  5681]
 [ 1936 10564]]
0.69532 4
0.6503
0.8451


### 6) 토픽 모델링(Topic Modeling) - 20 뉴스그룹
- **토픽 모델링이란 문서 집합에 숨어 있는 주제를 찾아내는 것이다.** 많은 양의 문서가 있을 때 사람이 이 문서를 다 읽고 핵심 주제를 찾는 것은 매우 많은 시간이 소모된다. 이 경우에 머신러닝 기반의 토픽 모델링을 적용해 숨어 있는 중요 주제를 효과적으로 찾아낼 수 있다. 사람이 수행하는 토픽 모델링은 더 함축적인 의미로 문장을 요약하는 것에 반해, **머신러닝 기반의 토픽 모델은 숨겨진 주제를 효과적으로 표현할 수 있는 중심 단어를 함축적으로 추출한다.**
- 머신러닝 기반의 토픽 모델링에 자주 사용되는 기법은 LSA(Latent Semantic Analysis)와 LDA(Latent Dirichlet Allocation)이다.
- 토픽 모델링을 20 뉴스그룹 데이터 세트를 이용해 적용해보겠다. 20 뉴스그룹은 다음과 같이 20가지의 주제를 가진 뉴스그룹의 데이터를 가지고 있다.
![image.png](attachment:image.png)
- 이 중 모코사이클, 야구, 그래픽스, 윈도우, 중동, 기독교, 전자공학, 의학의 8개 주제룰 추출하고 이들 텍스트에 LDA 기반의 토픽 모델링을 적용해보겠다.
- 사이킷런은 LDA(Latent Dirichlet Allocation) 기반의 토픽 모델링은 LatentDirichletAllocation 클래스로 제공한다.
- LDA는 Count 기반의 벡터화만 사용한다.

- 먼저 LDA 토픽 모델링을 위해 fetch_20newsgroups() API는 categories 파라미터를 통해 필요한 주제만 필터링해 추출하고 추출된 텍스트를 Count 기반으로 벡터화 변환하겠다. 
  - max_features=1000으로 word 피처의 개수를 제한하고, ngram_range는 (1, 2)로 설정하고 피처 벡터화 변환하겠다.

In [1]:
from sklearn.datasets import fetch_20newsgroups
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.decomposition import LatentDirichletAllocation

# 모토사이클, 야구, 그래픽스, 윈도우즈, 중동, 기독교, 전자공학, 의학 8개 주제를 추출
cats = ['rec.motorcycles', 'rec.sport.baseball', 'comp.graphics', 'comp.windows.x',
        'talk.politics.mideast', 'soc.religion.christian', 'sci.electronics', 'sci.med']

# 위에서 cats 변수로 기재된 카테고리만 추출. fetch_20newsgroups()의 categories에 cats 입력
news_df = fetch_20newsgroups(subset='all', remove=('headers', 'footers', 'quotes'),
                             categories=cats, random_state=0)

# LDA는 Count기반의 벡터화만 적용한다.
count_vect = CountVectorizer(max_df=0.95, max_features=1000, min_df=2, stop_words='english',
                             ngram_range=(1, 2))
feat_vect = count_vect.fit_transform(news_df.data)
print(feat_vect.shape)

(7862, 1000)


-> feat_vect 모두 7862개의 문서가 1000개의 피처로 구성된 행렬 데이터이다.
- 이렇게 피처 벡터화된 데이터 세트를 기반으로 LDA 모델링을 수행하기 
  - 토픽의 개수는 위의 뉴스그룹에서 추출한 주제와 동일한 8개로 정하기
  - LatentDirichletAllocation 클래스의 n_components 파라미터를 이용해 토픽 개수를 조정함

In [2]:
lda = LatentDirichletAllocation(n_components=8, random_state=0)
lda.fit(feat_vect)

- LatentDirichletAllocation 객체의 components_ 속성은 개별 토픽별로 각 word 피처가 얼마나 많이 그 토픽에 할당됐는지에 대한 수치를 가지고 있다. 높은 값일수록 해당 word 피처는 그 토픽의 중심 word가 된다. 

In [3]:
print(lda.components_.shape)
lda.components_

(8, 1000)


array([[3.60992018e+01, 1.35626798e+02, 2.15751867e+01, ...,
        3.02911688e+01, 8.66830093e+01, 6.79285199e+01],
       [1.25199920e-01, 1.44401815e+01, 1.25045596e-01, ...,
        1.81506995e+02, 1.25097844e-01, 9.39593286e+01],
       [3.34762663e+02, 1.25176265e-01, 1.46743299e+02, ...,
        1.25105772e-01, 3.63689741e+01, 1.25025218e-01],
       ...,
       [3.60204965e+01, 2.08640688e+01, 4.29606813e+00, ...,
        1.45056650e+01, 8.33854413e+00, 1.55690009e+01],
       [1.25128711e-01, 1.25247756e-01, 1.25005143e-01, ...,
        9.17278769e+01, 1.25177668e-01, 3.74575887e+01],
       [5.49258690e+01, 4.47009532e+00, 9.88524814e+00, ...,
        4.87048440e+01, 1.25034678e-01, 1.25074632e-01]])

-> components_는 array[8, 1000]으로 구성돼있다. 8개의 토픽별로 1000개의 word 피처가 해당 토픽별로 연관도 값을 가지고 있다.
- components_array의 0번째 row, 10번째 col에 있는 값은 Topic #0에 대해서 피처 벡터화된 행렬에서 10번째 칼럼에 해당하는 피처가 Topic #0에 연관되는 수치 값을 가지고 있다.
- lda_model.components_ 값만으로는 각 토픽별 word 연관도를 보기 어렵다.

- display_topics() 함수를 만들어서 각 토픽별로 연관도가 높은 순으로 Word를 나열해보기
  - 20 뉴스그룹에서 모토사이클, 야구, 그래픽스, 윈도우즈, 중동, 기독교, 전자공학, 의학 8개를 주제로 추출했는데, 8개의 토픽으로 모델링이 잘 됐는지 확인해보기

In [5]:
def display_topics(model, feature_names, no_top_words):
    for topic_index, topic in enumerate(model.components_):
        print('Topic #', topic_index)
        
        # components_array에서 가장 값이 큰 순으로 정렬했을 때, 그 값의 array 인덱스를 반환
        topic_word_indexes = topic.argsort()[::-1]
        top_indexes = topic_word_indexes[:no_top_words]
        
        # top_indexes 대상인 인덱스별로 feature_names에 해당하는 word feature 추출 후 join으로 concat
        feature_concat = ' '.join([feature_names[i] for i in top_indexes])
        print(feature_concat)
        
# CountVectorizer객체 내의 전체 word의 명칭을 get_features_name()를 통해 추출
feature_names = count_vect.get_feature_names()

# 토픽별로 가장 연관도가 높은 word를 15개만 추출
display_topics(lda, feature_names, 15)

Topic # 0
year 10 game medical health team 12 20 disease cancer 1993 games years patients good
Topic # 1
don just like know people said think time ve didn right going say ll way
Topic # 2
image file jpeg program gif images output format files color entry 00 use bit 03
Topic # 3
like know don think use does just good time book read information people used post
Topic # 4
armenian israel armenians jews turkish people israeli jewish government war dos dos turkey arab armenia 000
Topic # 5
edu com available graphics ftp data pub motif mail widget software mit information version sun
Topic # 6
god people jesus church believe christ does christian say think christians bible faith sin life
Topic # 7
use dos thanks windows using window does display help like problem server need know run


-> Topic #1의 경우 명확하지 않고 일반적인 단어가 주를 이루고 있다. Topic #2의 경우는 명확하게 컴퓨터 그래픽스 영역의 주제어가 추출됐다. Topic #4는 중동 분쟁 등에 관련된 주제어가 추출됐다. Topic #5의 경우는 애매하지만 윈도우 운영체제와 관련된 주제어가 일부 추출됐다. Topic #6는 기독교에 관련된 주제어가 추출됐다. Topic #0, #1, #3, #7이 주로 애매한 주제어가 추출됐다. 특히 모토사이클, 야구 주제의 경우 명확한 주제어가 추출되지 않았다.