# 1. 텍스트 분석 개요

## 1) NLP냐 텍스트 분석이냐?

머신러닝이 보편화되면서 __`NLP(National Language Processing)`__ 와 __`텍스트 분석(Text Analytics)`__ 을 구분하는 것이 큰 의미는 없어보이지만, 굳이 구분 하자면 NLP는 기계가 인간의 언어를 이해하고 해석하는 데 더 중점을 두고 기술이 발전해 왔으며, 텍스트 마이닝은 비정형 텍스트에서 의미 있는 정보를 추출하는 것에 좀 더 중점을 두고 기술이 발전해왔다.  

예를 들어 `NLP`의 영역에는 언어를 해석하기 위한 기계 번역, 자동으로 질문을 해석하고 답을 해주는 질의 응답 시스템 등의 영역에서 텍스트 분석과 차별점이 있다. 즉, NLP는 텍스트 분석을 향상하게 하는 기반 기술이라고 볼 수 있다.  
NLP와 텍스트 분석의 발전 근간에는 머신러닝이 존재한다. 
예전의 텍스트를 구성하는 언어적인 룰이나 업무의 룰에 따라 텍스트를 분석하는 룰 기반 시스템에서, 머신러닝의 텍스트 데이터를 기반으로 모델을 학습하고 예측하는 기반으로 변경되면서 많은 기술적 발전이 가능해졌다.  

`텍스트 분석`은 머신러닝, 언어 이해, 통계 등을 활용해 모델을 수립하고 정보를 추출해 BI나 예측 분석 등의 분석 작업을 주로 수행한다.  

* __`텍스트 분류(Text Classification)`__ : Text Categorization 이라고도 한다. 문서가 특정 분류 또는 카테고리에 속하는 것을 예측하는 기법  
ex) 특정 신문기사 내용이 연애/정치/사회/문화 중 어떤 카테고리에 속하는지 자동으로 분류, 스팸메일 자동 분류 시스템, 지도학습을 적용한다.  


* __`감성 분석(Sentiment Analysis)`__: 텍스트에서 나타나는 감정/판단/믿음/의견/기분 등의 주관적인 요소를 분석하는 기법  
ex) 소셜 미디어 감성 분석, 영화 or 제품에 대한 긍정 또는 여론조가 의견 분석 등의 다양한 영역에서 활용  
Text Analystics에서 가장 활발하게 사용되고 있는 분야. 지도학습 뿐만 아니라 비지도학습도 적용  

* __`텍스트 요약(Summarization)`__ : 텍스트 내에서 중요한 주제나 중심 사상을 추출하는 기법.  
ex) 토픽 모델링(Topic Modeling)  


* __`텍스트 군집화(Clustering)와 유사도 측정`__ : 비슷한 유형의 문서에 대해 군집화를 수행하는 기법. 텍스트 분류를 비지도학습으로 수행하는 기법의 일환이 될 수도 있다. 유사도 측정 역시 문서들간의 유사도를 축정해 비슷한 문서끼리 모을 수 있는 방법

## 2) 텍스트 분석 이해

텍스트 분석은 말 그대로 텍스트를 분석하는 기법이다. 지금까지 ML 모델은 주어진 정형 데이터 기반에서 모델을 수립하고 학습하여 결과를 예측하였다. 그리고 머신러닝 알고리즘은 numeric 피쳐 기반의 데이터만 입력받을 수 있기 때문에 텍스트를 머신러닝에 적용하기 위해서는 비정형 텍스트 데이터를 어떻게 피쳐 형태로 추출하고 추출된 피쳐에 의미 있는 값을 부여할지가 관건이였다.  

텍스트를 word 기반의 다수 피쳐로 추출하고 이 피쳐에 단어 빈도수가 같은 숫자 값을 부여하면 텍스트는 단어의 조합인 벡터값으로 표현될 수 있는데, 이렇게 텍스트를 변환하는 것을 `피쳐 벡터화(Feature Vectorization)` 또는 `피쳐 추출(Feature Extraction)` 이라고 한다.  

대표적인 피쳐 벡터화 기법은 `BOW(Bag of Words)` 와 `Word2Vec` 방법이 있다.

### 1] 텍스트 분석 수행 프로세스

머신러닝 기반의 텍스트 분석 프로세스는 다음과 같은 프로세스 순으로 수행된다.

1. __`텍스트 데이터 전처리`__ : 텍스트를 피쳐로 만들기 전에 미리 클렌징, 대/소문자 변경, 특수문자 삭제 등의 클렌진 작업, 단어(Word) 등의 토큰화 작업, 의미 없는 단어(Stop Word) 제거 작업, 어근 추출(Stemming/Lemmatization) 등의 텍스트 정규화 작업을 수행  


2. __`피쳐 벡터화/추출`__ : 전처리 작업으로 가공된 텍스트에서 피쳐를 추출하고 벡터값 할당  
대표적으로 BOW, Word2Vec이 있고 BOW는 대표적으로 Count 기반의 TF-IDF 기반 벡터화 존재  


3. __`ML 모델 수립 및 학습/예측/평가`__ : 피쳐 벡터화 된 데이터 세트에 ML 모델을 학습하여 최종 결과 예측  

![image.png](attachment:image.png)

### 2] 파이썬 기반의  NLP, 텍스트 분석 패키지

* __`NLTK(Natural Language Toolkit for Python)`__ : 파이썬의 가장 대표적인 NLP 패키지. 방대한 데이터 세트와 서브 모듈을 가지고 있으며, NLP의 거의 모든 영역을 커버하고 있다. 많은 NLP 패키지가 NLTK의 영향을 받아 작성되고 있다. 수행 속도 측면에서 아쉬운 부분이 있어서 실제 대량의 데이터 기반에서는 활용되지 못하고 있다.  


* __`Gensim`__ : 토픽 모델링 분야에서 가장 두각을 나타내는 패키지. 오래전부터 토픽 모델링을 쉽게 구현할 수 있는 기능을 제공해 왔다. Word2Vec 구현 등의 다양한 신기능 제공. SpaCy와 함께 가장 많이 사용되는 NLP 패키지  


* __`SpaCy`__ : 최근 뛰어난 수행 성능으로 가장 주목받고 있는 NLP 패키지.

# 2. 텍스트 전처리(정규화)

앞서 설명했듯, 텍스트 자체를 머신러닝 모델에 학습시킬 수 없다. 따라서 적당한 텍스트 데이터 전처리 과정을 거쳐 텍스트들을 벡터화 한 후 머신러닝 알고리즘에 적용해야 한다.  

* 클렌징(Cleansing)  
* 토큰화(Tokenization)  
* 필터링/스톱 워드 제거/철자 수정  
* Stemming(어간 추출)  
* Lemmatization(표제어 추출)

## 1) 클렌징(Cleansing) & 정규화(Nomalization)

텍스트 토큰화 전,후에는 텍스트 데이터를 용도에 맞게 Cleansing, normalization 하는 일을 항상 함께한다.  

* `Cleansing` : 가지고 있는 corpus로부터 노이즈 데이터를 제거한다.  
* `Normalization` : 표현 방법이 다른 단어들을 통합시켜 같은 단어로 만들어준다.  

클렌징 작업은 토큰화 작업에 방해가 되는 부분들을 배제시키고 토큰화 작업을 수행하기 위해 앞서 이뤄지기도 하지만, 토큰화 작업 이후 남아있는 노이즈를 추가로 제거하기 위해 지속적으로 이루어진다고 생각하면 된다.

### 1] 규칙에 기반한 단어들의 표기 통합

필요에 따라 직접 코딩을 통해 정의할 수 있는 정규화 규칙의 예로서 같은 의미를 갖고있음에도, 표기가 다른 단어들을 하나의 단어로 정규화하는 방법을 사용할 수 있다.  

예를 들어 USA와 US는 같은 의미를 가지고 있다. 따라서 우리는 정규화를 통해 하나의 의미를 가지는 단어로 통합할 수 있다. 또 하나의 예로 uh-huh 와 uhhuh는 형태는 다르지만 같은 의미를 가지고 있다. 마찬가지로 정규화 작업을 통해 같은 의미를 가지는 단어로 통합할 수 있다.  

표기가 다른 단어들을 통합하는 방법인 `어간 추출(Stemming)` , `표제어 추출(Lemmatization)`은 뒤에서 자세히 다루자.

### 2] 대, 소문자 통합

한국어는 해당사항이 아니지만, 영어는 대, 소문자 구분이 명확하기 때문에 이를 통합하여 정규화하여 변환 작업을 하곤 한다.  

소문자 변환이 왜 유용한지 예를 들어보자. Automobile이라는 단어가 문장의 첫 단어였기때문에 A가 대문자였다고 생각해보자. 여기에 소문자 변환을 사용하면, automobile을 찾는 질의(query)의 결과로서 Automobile도 찾을 수 있게 된다. 검색 엔진에서 사용자가 페라리 차량에 관심이 있어서 페라리를 검색해본다고 하자. 엄밀히 말해서 사실 사용자가 검색을 통해 찾고자하는 결과는 a Ferrari car라고 봐야한다. 하지만 검색 엔진은 소문자 변환을 적용했을 것이기 때문에 ferrari만 쳐도 원하는 결과를 얻을 수 있을 것이다.  

물론 대문자와 소문자를 무작정 통합해서는 안 된다. 대문자와 소문자가 구분되어야 하는 경우도 있다. 가령 미국을 뜻하는 단어 US와 우리를 뜻하는 us는 구분되어야 한다.. 또 회사 이름(General Motors)나, 사람 이름(Bush) 등은 대문자로 유지되는 것이 옳다.  

이러한 작업은 더 많은 변수를 사용해서 소문자 변환을 언제 사용할지 결정하는 머신 러닝 시퀀스 모델로 더 정확하게 진행시킬 수 있다. 하지만 만약 올바른 대문자 단어를 얻고 싶은 상황에서 훈련에 사용하는 코퍼스가 사용자들이 단어의 대문자, 소문자의 올바른 사용 방법과 상관없이 소문자를 사용하는 사람들로부터 나온 데이터라면 이러한 방법 또한 그다지 도움이 되지 않을 수 있다. 결국에는 예외 사항을 크게 고려하지 않고, 모든 코퍼스를 소문자로 바꾸는 것이 종종 더 실용적인 해결책이 되기도 한다.

### 3] 불필요한 단어의 제거

Cleansing 작업에서 해야되는 노이즈 데이터는 자연어가 아니면서 아무 의미도 갖지 않는 문자(특수문자 등)를 의미하기도 하지만, 분석하고자 하는 단어가 아닌 자연어를 제거하는 것도 포함된다.  

불필요한 데이터를 제거하는 방법은 불용어(Stop Word) 제거, 등장 빈도가 가장 적은 단어 제거, 길이가 짧은 단어 제거 등이 있다.

### 4] 정규 표현식(Regular Expression)

얻어낸 corpus에서 노이즈 데이터의 특징을 잡아낼 수 있다면, 정규 표현식을 통해서 이를 제거할 수 있는 경우가 많습다. HTML 문서로부터 가져온 corpus라면 문서 여기저기에 HTML 태그가 있다. 뉴스 기사를 크롤링 했다면, 기사마다 게재 시간이 적혀져 있을 수 있다. 정규 표현식은 이러한 corpus 내에 계속해서 등장하는 글자들을 규칙에 기반하여 한 번에 제거하는 방식으로서 매우 유용하다.

## 2) 텍스트 토큰화(Tokenization)

토큰화의 유형은 문서에서 문장을 분리하는 문장 토큰화와 문장에서 단어를 토큰으로 분리하는 단어 토큰화로 나뉜다.

### 1] 단어 토큰화(Word Tokenization)

토큰의 기준을 단어(word)로 하는 경우, 단어 토큰화(word tokenization)라고 한다다. 다만, 여기서 단어(word)는 단어 단위 외에도 단어구, 의미를 갖는 문자열로도 간주되기도 한다.  

기본적으로 공백, 콤마(,), 마침표(.), 개행문자 등으로 단어를 분리하지만, 정규 표현식을 이용해 다양한 유형의 토큰화를 수행할 수 있다.  
마침표(.)나 개행문자와 같이 문장을 분리하는 구분자를 이용해 단어를 토큰화할 수 있으며, `Bag of Word`와 같이 단어의 순서가 중요하지 않은 경우 문장 토큰화를 사용하지 않고 단어 토큰화만 사용해도 충분하다.  

일반적으로 문장 토큰화는 각 문장이 가지는 시맨틱적인 의미가 중요한 요소로 사용될 때 사용한다.

In [1]:
import nltk
nltk.download('punkt') # 마침표, 개행 문자 등의 데이터셋 다운

from nltk import word_tokenize

sentence = "The Matrix is everywhere its all around us, here even in this room."
words = word_tokenize(sentence)
print(type(words), len(words))
print(words)

<class 'list'> 15
['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.']


[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\jinho\AppData\Roaming\nltk_data...
[nltk_data]   Package punkt is already up-to-date!


토큰화를 하다보면, 예상치 못한 경우가 발생해서 토큰화의 기준을 생각해봐하는 경우가 발생한다. 예를들어 영어에서 아포스트로피(')가 들어가있는 단어는 어떻게 구분할까?  

__Don't__ 와 __Jone's__ 라는 단어가 있다고 하자. 만약 `word_tokenize`로 토큰화를 한다면 결과는 다음과 같을것이다.

In [2]:
# word_tokenization

print('단어 토큰화1 :',word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화1 : ['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


`word_tokenize`는 __Don't__를 __Do와 n't__로 분리하였으며, 반면 __Jone's__는 __Jone과 's__로 분리한 것을 확인할 수 있습니다.  

그렇다면 `wordPunctTokenizer`는 어떻게 처리할까?

In [3]:
# WordPunctTokenizer

from nltk.tokenize import WordPunctTokenizer

print('단어 토큰화2 :',WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화2 : ['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


`WordPunctTokenizer`는 구두점을 별도로 분류하는 특징을 갖고 있기 때문에, 앞서 확인했던 `word_tokenize`와는 달리 __Don't__를 __Don과 '와 t__ 로 분리하였으며, 이와 마찬가지로 __Jone's__를 __Jone과 '와 s__ 로 분리한 것을 확인할 수 있다.  

케라스 또한 토큰화 도구로서 `text_to_word_sequence`를 지원합니다.

In [4]:
#text_to_word_sequence

from tensorflow.keras.preprocessing.text import text_to_word_sequence

print('단어 토큰화3 :',text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

단어 토큰화3 : ["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


케라스의 `text_to_word_sequence`는 기본적으로 모든 알파벳을 소문자로 바꾸면서 마침표나 컴마, 느낌표 등의 구두점을 제거한다. 하지만 __don't__나 __jone's__ 와 같은 경우 아포스트로피는 보존하는 것을 볼 수 있다.

#### 단어 토큰화 주의사항

* __구두점이나 특수문자를 단순 제거해서는 안된다.__  

갖고있는 코퍼스에서 단어들을 걸러낼 때, 구두점이나 특수 문자를 단순히 제외하는 것은 옳지 않다. 코퍼스에 대한 정제 작업을 진행하다보면, 구두점조차도 하나의 토큰으로 분류하기도 한다. 예로 마침표(.)와 같은 경우는 문장의 경계를 알 수 있는데 도움이 되므로 단어를 뽑아낼 때, 마침표(.)를 제외하지 않을 수 있다.  

또 다른 예로 $30,000의 경우 3만 달러를 의미한다. 만약 구두점 및 특수문자를 다 제거한다면 30000으로 기존의 3만 달러의 의미를 알 수 없게 된다.

* __줄임말과 단어 내 띄어쓰기가 있는 경우__  

토큰화 작업에서 영어의 아포스트로피(')는 압축된 단어를 다시 펼치는 역할을 한다. 예를 들어 what're는 what are의 줄임말이며, we're는 we are의 줄임말이다. 위의 예에서 re를 `접어(clitic)`이라고 한다. 즉, 단어가 줄임말로 쓰일 때 생기는 형태를 말한다. 가령 I am을 줄인 I'm이 있을 때, m을 접어라고 한다.  

New York이라는 단어나 rock 'n' roll이라는 단어를 보자. 이 단어들은 하나의 단어이지만 중간에 띄어쓰기가 존재한다. 사용 용도에 따라서, 하나의 단어 사이에 띄어쓰기가 있는 경우에도 하나의 토큰으로 봐야하는 경우도 있을 수 있으므로, 토큰화 작업은 저러한 단어를 하나로 인식할 수 있는 능력도 가져야한다.

####  표준 토큰화 예제

토큰화 방법 중 하나인 `Penn Treebank Tokenization`의 규칙에 대해서 소개하고, 토큰화의 결과를 확인해보자.  

* 하이푼으로 구성된 단어는 하나로 유지한다.  

* doesn't와 같이 아포스트로피로 '접어'가 함께하는 단어는 분리해준다.

In [5]:
# TreebankWordTokenizer

from nltk.tokenize import TreebankWordTokenizer

tokenizer = TreebankWordTokenizer()

text = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print('트리뱅크 워드토크나이저 :',tokenizer.tokenize(text))

트리뱅크 워드토크나이저 : ['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


In [6]:
print('트리뱅크 워드토크나이저 :',tokenizer.tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))

트리뱅크 워드토크나이저 : ['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


결과를 보면, 각각 규칙1과 규칙2에 따라서 home-based는 하나의 토큰으로 취급하고 있으며, dosen't의 경우 does와 n't는 분리되었음을 볼 수 있다.  

문장 토큰화와 단어 토큰화 모두 정규 표현식을 활용하여 토큰화하는 작업도 가능하다. 문장 토큰화는 문장 자체가 중요한 의미를 가질 경우 사용되며, 일반적으로는 단어 토큰화만 사용해도 충분하다.

####  정리

* __`word_tokenize`__ : 띄어쓰기 기반으로 분리. 콤마(,), 마침표(.)는 별도의 토큰으로 구분  
ex) Don't -> "Do" + "n't" / Jone's -> "Jone" + "'s"  


* __`WordPunctTokenizer`__ : 구두점으로 토큰 분류, 어퍼스트로피 별도의 토큰으로 구분  
ex) Don't -> "Don" + "'" + "t" / Jone's -> "Jone" + "'" + "s"  


* __`vtext_to_word_sequence`__ : 모든 알파벳 소문자 변환, 구두점 삭제, 어퍼스트로피 보존  
ex) Don't -> "don't" / Jone's -> "jone's"  


* __`TreebankWordTokenizer`__ : 하이푼(-) 단어는 하나로 유지, 어퍼스트로피 접어는 함께 분리  
ex) Don't -> "Do" + "n't" / Jone's -> "Jone" + "'s"   

### 2] 문장 토큰화(Sentence Tokenization)

`문장 토큰화(Sentence Tokenization)`는 문장의 마침표(.), 개행문자(\n) 등 문장의 마지막을 뜻하는 기호에 따라 분리하는 것이 일반적이다. 또한 정규 표현식에 따른 문장 토큰화도 가능하다. 보통 분류하고자 하는 corpus가 문장 단위로 구분되어 있지 않아서 이를 사용하고자 하는 용도에 맞게 문장 토큰화가 필요할 수 있다.  

주로 사이킷런의 `NLTK`를 통해 문장 토큰화를 진행한다.

In [7]:
# sent_tokenize

from nltk.tokenize import sent_tokenize

text = "His barber kept his word. But keeping such a huge secret to himself was driving him crazy. Finally, the barber went up a mountain and almost to the edge of a cliff. He dug a hole in the midst of some reeds. He looked about, to make sure no one was near."
print('문장 토큰화1 :',sent_tokenize(text))

문장 토큰화1 : ['His barber kept his word.', 'But keeping such a huge secret to himself was driving him crazy.', 'Finally, the barber went up a mountain and almost to the edge of a cliff.', 'He dug a hole in the midst of some reeds.', 'He looked about, to make sure no one was near.']


마침표를 기준으로 문장이 잘 분류되었음을 알 수 있다.  

그럼 마침표(.)가 자주 등장하는 문장의 경우엔 어떨까?

In [8]:
text = "I am actively looking for Ph.D. students. and you are a Ph.D student."
print('문장 토큰화2 :',sent_tokenize(text))

문장 토큰화2 : ['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


`NLTK`는 단순히 마침표를 구분자로 하여 문장을 구분하지 않았기 때문에, Ph.D.를 문장 내의 단어로 인식하여 성공적으로 인식하는 것을 볼 수 있다.  

한국어에 대한 문장 토큰화 도구 또한 존재한다.

In [9]:
# !pip install kss

In [10]:
import kss

text = '딥 러닝 자연어 처리가 재미있기는 합니다. 그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다. 이제 해보면 알걸요?'
print('한국어 문장 토큰화 :',kss.split_sentences(text))

[Korean Sentence Splitter]: Initializing Pynori...


한국어 문장 토큰화 : ['딥 러닝 자연어 처리가 재미있기는 합니다.', '그런데 문제는 영어보다 한국어로 할 때 너무 어렵습니다.', '이제 해보면 알걸요?']


#### 한국어에서 토큰화의 어려움

대부분 영어권 언어로 개발되어 있는 패키지들의 특성 상 New York 같은 합성어나 he's와 같이 줄임말에 대한 예외처리만 한다면, 띄어쓰기를 기준으로 하는 띄어쓰기 토큰화도 어느정도 알고리즘이 잘 개발되어 있다. 하지만, 한국어는 영어와 달리 띄어쓰기만으로는 토큰화가 부족하다.  

한국어의 경우 조사 등의 영어와는 다른 형태를 가지기 때문에 흔히 `어절 토큰화`는 한국어 NLP에서 지양되고 있다.

예를 들어 그(he/him)이라는 단어가 있다고 하자. 영어의 경우 he/him으로 구분하면 그 의미가 잘 보존되지만 한국어의 경우 그가, 그에게, 그는 그로부터 등 '그'라는 주어 뒤에 __조사__ 가 붙기 때문에 단어 그 자체의 의미를 보존하며 분류하기 어렵다.  

따라서 한국어 토큰화에서는 __`형태소(morpheme`__ 란 개념을 반드시 이해해야 한다. 형태소란 뜻을 가진 가장 작은 말의 단위를 의미한다. 이 형태소는 `자립 형태소`와 `의존 형태소`로 나뉜다.  

* __`자립 형태소`__ : 접사, 어미, 조사와 상관없이 자립하여 사용할 수 있는 형태소. 그 자체로 단어가 된다.  
ex) 체언(명사, 대명사, 수사), 수식언(관형사, 부사), 감탄사 등  


* __`의존 형태소`__ : 다른 형태소와 결합하여 사용되는 형태소.  
ex) 접사, 어미, 조사, 어간  

예를 들어 __뽀로로가 생선을 먹었다__ 라는 문장이 있다고 하자. 이 문장을 띄어쓰기 단위로 토큰화한다면 결과는 다음과 같다.  

["뽀로로가" , "생선을" , "먹었다"]  

해당 문장을 형태소 단위로 분해하면 결과는 다음과 같다.  

* 자립 형태소 : 뽀로로, 생선  

* 의존 형태소 : -가, -을, 먹-, -었, -다  

각각의 형태소 마다 의미를 가지고 있는 한국어의 특성 상 형태소 분해를 통해 토큰화를 수행해야 그 의미가 잘 보존된다.

또 하나의 문제점은 띄어쓰기가 영어보다 잘 지켜지지 않는다는 것이다.  

영어는 띄어쓰기를 지키지 않으면 문장 해석이 어렵다. 하지만 한국어의 경우 영어보다 단어의 모호성이 존재하지 않기 때문에 띄어쓰기를 하지 않아도 상대적으로 쉽게 문장 해석이 가능하다.  

__제가이렇게띄어쓰기를전혀하지않고글을썼다고하더라도글을이해할수있습니다.__  

__Tobeornottobethatisthequestion__

다음 두 문장은 같은 의미를 지닌 언어만 다른 문장이다.  

한국어의 경우 띄어쓰기를 하지 않아도 어느정도 문장 이해가 가능하지만, 영어의 경우는 거의 해석이 어려움에 가까울 정도로 문장 이해가 어렵다.  

결론적으로 한국어는 수많은 corpus 에서 띄어쓰기가 무시되는 경우가 많아 자연어 처리가 어렵다.

#### 품사 태깅(Part of speech tagging)

단어는 표기는 같지만 품사에 따라서 단어의 의미가 달라지기도 한다.  

예를 들어서 영어 단어 'fly'는 동사로는 '날다'라는 의미를 갖지만, 명사로는 '파리'라는 의미를 갖고있다. 한국어도 마찬가지이다. '못'이라는 단어는 명사로서는 망치를 사용해서 목재 따위를 고정하는 물건을 의미하지만 부사로서의 '못'은 '먹는다', '달린다'와 같은 동작 동사를 할 수 없다는 의미로 쓰인다.  

결국 단어의 의미를 제대로 파악하기 위해서는 해당 단어가 어떤 품사로 쓰였는지 보는 것이 주요 지표가 될 수도 있다. 그에 따라 단어 토큰화 과정에서 각 단어가 어떤 품사로 쓰였는지를 구분해놓기도 하는데, 이 작업을 품사 태깅(part-of-speech tagging)이라고 한다.

NLTK에서는 Penn Treebank POS Tags라는 기준을 사용하여 품사를 태깅합니다.

In [11]:
# nltk.download('averaged_perceptron_tagger')

from nltk.tokenize import word_tokenize
from nltk.tag import pos_tag

text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
tokenized_sentence = word_tokenize(text)

print('단어 토큰화 :',tokenized_sentence)
print('품사 태깅 :',pos_tag(tokenized_sentence))

단어 토큰화 : ['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']
품사 태깅 : [('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')]


* PRP : 인칭 대명사  
* VBP : 동사  
* RB : 부사  
* VBG : 현재부사  
* IN : 전치사  
* NNP : 고유명사  
* NNS : 복수형 명사  
* CC : 접속사  
* DT : 관사

한국어 자연어 처리를 위해서는 KoNLPy(코엔엘파이)라는 파이썬 패키지를 사용할 수 있다. 코엔엘파이를 통해서 사용할 수 있는 형태소 분석기로 Okt(Open Korea Text), 메캅(Mecab), 코모란(Komoran), 한나눔(Hannanum), 꼬꼬마(Kkma)가 있다.

In [12]:
#!pip install konlpy

In [13]:
'''
from konlpy.tag import Okt
from konlpy.tag import Kkma

okt = Okt()
kkma = Kkma()

print('OKT 형태소 분석 :',okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('OKT 품사 태깅 :',okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('OKT 명사 추출 :',okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요")) 

print('꼬꼬마 형태소 분석 :',kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('꼬꼬마 품사 태깅 :',kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))
print('꼬꼬마 명사 추출 :',kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  

'''

# KoNLPy 설치하고 해보자..!

'\nfrom konlpy.tag import Okt\nfrom konlpy.tag import Kkma\n\nokt = Okt()\nkkma = Kkma()\n\nprint(\'OKT 형태소 분석 :\',okt.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))\nprint(\'OKT 품사 태깅 :\',okt.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))\nprint(\'OKT 명사 추출 :\',okt.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요")) \n\nprint(\'꼬꼬마 형태소 분석 :\',kkma.morphs("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))\nprint(\'꼬꼬마 품사 태깅 :\',kkma.pos("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))\nprint(\'꼬꼬마 명사 추출 :\',kkma.nouns("열심히 코딩한 당신, 연휴에는 여행을 가봐요"))  \n\n'

이제 문장 토큰화를 한 후 각 문장 별 단어 토큰화를 해보자.

In [14]:
from nltk import word_tokenize, sent_tokenize

#여러개의 문장으로 된 입력 데이터를 문장별로 단어 토큰화 만드는 함수 생성
def tokenize_text(text):
    
    # 문장별로 분리 토큰
    sentences = sent_tokenize(text)
    # 분리된 문장별 단어 토큰화
    word_tokens = [word_tokenize(sentence) for sentence in sentences]
    return word_tokens

#여러 문장들에 대해 문장별 단어 토큰화 수행. 
word_tokens = tokenize_text(text)
print(type(word_tokens),len(word_tokens))
print(word_tokens)

<class 'list'> 2
[['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.'], ['and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']]


문장을 단어별로 하나씩 토큰화 할 경우 문맥적인 의미는 무시될 수 밖에 없다. 이러한 문제를 조금이나마 해결해 보고자 도입한 것이 `n-gram`이다. n-gram은 연속된 n개의 단어를 하나의 토큰화 단위로 분리하는 것을 의미한다. n개 단어 크기 윈도우를 만들어 문장의 처음부터 오른쪽으로 움직이면서 토큰화를 수행한다.

예를 들어 "Agent Smith knocks the door" 를 2-gram(bigram)으로 만들면 (Agent, Smith), (Smith, knocks), (knocks, the), (the, door)와 같이 연속적으로 2개의 단어들을 순차적으로 이동하면서 단어들을 토큰화한다.  

n-gram에 대한 보다 자세한 설명은 추후에 따로 포스팅하도록 하겠다.

## 3) 불용어 제거(Stop Word)

__`불용어(Stop Word)`__ 는 분석에 큰 의미가 없는 단어를 지칭한다. 즉, 자주 등장하지만 분석하는 것에 있어서 큰 도움이 되지 않는 단어들을 제거하는 것이다.  

예를 들면 I, my, me, over, 조사, 접미사 같은 단어는 문장에 자주 등장하고 문장을 구성하는 필수 문법 요소지만, 문맥적으로 큰 의미가 없는 단어가 이에 해당한다. 이 단어의 경우 문법적인 특성로 인해 빈번하게 텍스트에 나타나므로 이것들을 사전에 제거하지 않으면 그 빈번함으로 인해 오히려 중요한 단어로 인지될 수 있다. 따라서 이 의미없는 단어를 제거하는 것이 중요한 전처리 작업이다.  

불용어(Stop Word)는 NTLK에서 미리 리스트화 되어있다.

In [15]:
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize 
from konlpy.tag import Okt

import nltk
nltk.download('stopwords')

[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\jinho\AppData\Roaming\nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [16]:
stop_words_list = stopwords.words('english')
print('불용어 개수 :', len(stop_words_list))
print('불용어 10개 출력 :',stop_words_list[:10])

불용어 개수 : 179
불용어 10개 출력 : ['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', "you're"]


In [17]:
example = "Family is not an important thing. It's everything."
stop_words = set(stopwords.words('english')) 

word_tokens = word_tokenize(example)

result = []
for word in word_tokens: 
    if word not in stop_words: 
        result.append(word) 

print('불용어 제거 전 :',word_tokens) 
print('불용어 제거 후 :',result)

불용어 제거 전 : ['Family', 'is', 'not', 'an', 'important', 'thing', '.', 'It', "'s", 'everything', '.']
불용어 제거 후 : ['Family', 'important', 'thing', '.', 'It', "'s", 'everything', '.']


위 코드는 "Family is not an important thing. It's everything."라는 임의의 문장을 정의하고, NLTK의 word_tokenize를 통해서 단어 토큰화를 수행한다. 그리고 단어 토큰화 결과로부터 NLTK가 정의하고 있는 불용어를 제외한 결과를 출력한다. 결과적으로 'is', 'not', 'an'과 같은 단어들이 문장에서 제거되었음을 볼 수 있다.

### 한국어 불용어 제거

한국어에서 불용어를 제거하는 방법으로는 간단하게는 토큰화 후에 조사, 접속사 등을 제거하는 방법이 있다. 하지만 불용어를 제거하려고 하다보면 조사나 접속사와 같은 단어들뿐만 아니라 명사, 형용사와 같은 단어들 중에서 불용어로서 제거하고 싶은 단어들이 생기기도 한다.   

결국에는 사용자가 직접 불용어 사전을 만들게 되는 경우가 많다. 이번에는 직접 불용어를 정의해보고, 주어진 문장으로부터 사용자가 정의한 불용어 사전으로부터 불용어를 제거해보자.   

아래의 불용어는 임의 선정한 것으로 실제 의미있는 선정 기준이 아니다.

In [18]:
okt = Okt()

example = "고기를 아무렇게나 구우려고 하면 안 돼. 고기라고 다 같은 게 아니거든. 예컨대 삼겹살을 구울 때는 중요한 게 있지."
stop_words = "를 아무렇게나 구 우려 고 안 돼 같은 게 구울 때 는"

stop_words = set(stop_words.split(' '))
word_tokens = okt.morphs(example)

result = [word for word in word_tokens if not word in stop_words]

print('불용어 제거 전 :',word_tokens) 
print('불용어 제거 후 :',result)

불용어 제거 전 : ['고기', '를', '아무렇게나', '구', '우려', '고', '하면', '안', '돼', '.', '고기', '라고', '다', '같은', '게', '아니거든', '.', '예컨대', '삼겹살', '을', '구울', '때', '는', '중요한', '게', '있지', '.']
불용어 제거 후 : ['고기', '하면', '.', '고기', '라고', '다', '아니거든', '.', '예컨대', '삼겹살', '을', '중요한', '있지', '.']


한글 불용어들은 csv로 따로 저장해여 미리 지정해두는것이 일반적이다.

## 4) Stemming(어간 추출) & Lemmatizatoin(표제어 추출)

많은 언어에서 문법적인 요소에 따라 단어가 다양하게 변한다. 영어의 경우 과거/현재, 3인칭 단수 여부, 진행형 등 매우 많은 조건이 존재한다. 가령 work는 동사 원형인 단어지만, 과거형은 worked, 3인칭 단수일 때 works, 진행형인 경우 working 등 다양하게 달라진다. `Stemming`과 `Lemmatization`은 문법적 또는 의미적으로 변화하는 단어의 원형을 찾는 것이다.  

두 기능 모두 원형 단어를 찾는다는 목적은 유사하지만, Lemmatization(표제어 추출)이 Stemming(어간 추출)보다 정고하며 의미론적인 기반에서 단어의 원형을 찾는다.  

* __`Stemming(어간 추출)`__ : 원형 단어로 변환 시 일반적인 방법을 적용하거나 더 단순화된 방법을 적용해 원래 단어에서 일부 철자가 훼손된 어근 단어를 추출하는 경향  


* __`Lemmatization(표제어 추출)`__ : 품사와 같은 문법적인 요소와 더 의미적인 부분을 감안해 정확한 철자로 된 어근 단어를 찾아준다.  

따라서 Lemmatization이 Stemming 보다 수행 시간이 더 오래 걸린다.

### 1] Stemming(어간 추출)

__`Stemming(어간 추출)`__ 은 정해진 규칙만 보고 단어의 어미를 자르는 단순화한 추출이라고 할 수 있다. 즉, 원형 단어로 변환 시 일반적인 방법을 적용하거나 더 단순화된 방법을 적용해 원래 단어에서 일부 철자가 훼손된 어근 단어를 추출하는 경향이 있다.  

어간 추출 알고리즘 중 하나인 포터 알고리즘에 대해 아래의 예제를 살펴보자.

In [30]:
from nltk.stem import PorterStemmer
from nltk.tokenize import word_tokenize

stemmer = PorterStemmer()

sentence = "This was not the map we found in Billy Bones's chest, but an accurate copy, complete in all things--names and heights and soundings--with the single exception of the red crosses and the written notes."
tokenized_sentence = word_tokenize(sentence)

print('어간 추출 전 :', tokenized_sentence)
print('어간 추출 후 :',[stemmer.stem(word) for word in tokenized_sentence])

어간 추출 전 : ['This', 'was', 'not', 'the', 'map', 'we', 'found', 'in', 'Billy', 'Bones', "'s", 'chest', ',', 'but', 'an', 'accurate', 'copy', ',', 'complete', 'in', 'all', 'things', '--', 'names', 'and', 'heights', 'and', 'soundings', '--', 'with', 'the', 'single', 'exception', 'of', 'the', 'red', 'crosses', 'and', 'the', 'written', 'notes', '.']
어간 추출 후 : ['thi', 'wa', 'not', 'the', 'map', 'we', 'found', 'in', 'billi', 'bone', "'s", 'chest', ',', 'but', 'an', 'accur', 'copi', ',', 'complet', 'in', 'all', 'thing', '--', 'name', 'and', 'height', 'and', 'sound', '--', 'with', 'the', 'singl', 'except', 'of', 'the', 'red', 'cross', 'and', 'the', 'written', 'note', '.']


형태학적 분석을 기반으로 어간을 추출한 것이기 때문에 실제로 사전에 존재하지 않는 단어들이 추출되었음을 알 수 있다.  포터 알고리즘의 어간 추출은 아래의 규칙을 가진다.

ALIZE → AL  
ANCE → 제거  
ICAL → IC  

규칙을 따르면 아래의 단어들은 다음과 같이 추출된다.  

formalize → formal  
allowance → allow  
electricical → electric  

실제로 코드를 통해 확인해보자

In [31]:
words = ['formalize', 'allowance', 'electricical']

print('어간 추출 전 :',words)
print('어간 추출 후 :',[stemmer.stem(word) for word in words])

어간 추출 전 : ['formalize', 'allowance', 'electricical']
어간 추출 후 : ['formal', 'allow', 'electric']


포터 어간 추출기는 정밀하게 설계되어 정확도가 높으므로 영어 자연어 처리에서 어간 추출을 하고자 한다면 가장 합리적인 선택이라고 알려져있다.  

NLTK에서는 포터 알고리즘 외에도 `랭커스터 스태머(Lancaster Stemmer)` 알고리즘을 지원한다.  

포터 알고리즘와 랭커스터 스태머의 결과를 비교해보자.

In [32]:
from nltk.stem import PorterStemmer
from nltk.stem import LancasterStemmer

porter_stemmer = PorterStemmer()
lancaster_stemmer = LancasterStemmer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
print('어간 추출 전 :', words)
print('포터 스테머의 어간 추출 후:',[porter_stemmer.stem(w) for w in words])
print('랭커스터 스테머의 어간 추출 후:',[lancaster_stemmer.stem(w) for w in words])

어간 추출 전 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
포터 스테머의 어간 추출 후: ['polici', 'do', 'organ', 'have', 'go', 'love', 'live', 'fli', 'die', 'watch', 'ha', 'start']
랭커스터 스테머의 어간 추출 후: ['policy', 'doing', 'org', 'hav', 'going', 'lov', 'liv', 'fly', 'die', 'watch', 'has', 'start']


동일한 단어들의 나열에 대해서 두 스태머는 전혀 다른 결과를 보여줍니다. 두 스태머 알고리즘은 서로 다른 알고리즘을 사용하기 때문입니다. 그렇기 때문에 이미 알려진 알고리즘을 사용할 때는, 사용하고자 하는 코퍼스에 스태머를 적용해보고 어떤 스태머가 해당 코퍼스에 적합한지를 판단한 후에 사용하여야 합니다.

### 2] Lemmatization(표제어 추출)

표제어는 한글로는 `표제어` 또는 `기본 사전형 단어`의 의미를 가진다. 즉 __`Lemmatization(표제어 추출)`__ 은 단어들이 다른 형태를 가지더라도, 그 뿌리 단어를 찾아서 단어의 개수를 줄일 수 있는지 판단한다.  

예를 들어 am, are, is는 서로 스팰링이 다르고 쓰이는 곳도 다르지만, 해당 단어들의 뿌리는 be 이다. 이때 우리는 am, are, is의 표제어는 be 라고 한다.  

표제어 추출을 하는 가장 섬세한 방법은 단어의 형태소를 파악하는 것이다. 형태소는 어간과 접사가 존재한다.  

__`어간`__ : 단어의 의미를 담고 있는 단어의 핵심 부분  

__`접사`__ : 단어에 추가적인 의미를 주는 부분  



In [23]:
# nltk.download('wordnet')

In [22]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']

print('표제어 추출 전 :',words)
print('표제어 추출 후 :',[lemmatizer.lemmatize(word) for word in words])

표제어 추출 전 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
표제어 추출 후 : ['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


Lemmatization(표제어 추출)은 Stemming(어간 추출)과는 달리 단어의 형태가 적절히 보존되는 양상을 보이는 특징이 있다. 하지만 예외적인 경우도 있다.  

위의 경우를 살펴보자.  
dy, ha와 같이 형태를 알 수 없는 적절하지 못한 단어를 출력하고 있음을 볼 수 있다. 이는 표제어 추출이 본래 단어의 품사 정보를 알아야만 정확한 결과를 얻을 수 있기 때문에 이러한 한계점이 초래된다.  

이를 어느정도 해결하기 위해 우리는 __`WordNetLemmatizer`__ 를 통해 단어가 동사 품사라는 사실을 알 수 있다. 즉, dies와 watched, has가 문장에서 동사로 쓰였다는 것을 알려준다면 표제어 추출기는 품사의 정보를 보전하면서 정확한 표제어를 출력할 것이다.

In [26]:
# 동사 변경
print(lemmatizer.lemmatize('dies', 'v'))
print(lemmatizer.lemmatize('watched', 'v'))
print(lemmatizer.lemmatize('has', 'v'))

die
watch
have


In [29]:
print(lemma.lemmatize('amusing','v'),lemma.lemmatize('amuses','v'),lemma.lemmatize('amused','v'))
print(lemma.lemmatize('happier','a'),lemma.lemmatize('happiest','a'))
print(lemma.lemmatize('fancier','a'),lemma.lemmatize('fanciest','a'))

amuse amuse amuse
happy happy
fancy fancy


`Lemmatization`은 문맥을 고려하며 수행했을 때의 결과는 해당 단어의 품사 정보를 보존한다. 하지만 어간 추출을 수행한 결과는 품사 정보가 보존되지 않는다.  

더 정확히는 어간 추출을 한 결과는 사전에 존재하지 않는 단어일 경우가 많다.

# 3. Bag of Words - BOW

단어의 표현 방법은 크게 __`국소 표현(Local Representation)`__ 방법과 __`분산 표현(Distributed Representation)`__ 방법으로 나뉜다.  

`Local Representation`은 해당 단어 그 자체만 보고, 특정값을 mapping하여 단어를 표현하는 방법이며, `Distributed Representation`은 그 단어를 표현하고자 주변을 참고하여 단어를 표현하는 방법이다.  

쉽게 이해하기 위해 예를 들어보자.  

puppy(강아지), cute(귀여운), lovely(사랑스러운)이라는 단어가 있다고 하자. 우리는 각 단어에 1,2,3 번으로 매핑하여 값을 부여한다면 이는 `Local Representation`이라 한다.  

puppy(강아지)라는 단어 근처에 주로 cute(귀여운), lovely(사랑스러운) 이라는 단어가 등장하기 때문에, puppy라는 단어는 cute, lovely한 느낌이다로 단어를 정의한다. 이를 `Distributed Representation` 이라 한다.  

간단히 말하면, Local Representation은 단어의 의미, 뉘앙스를 표현할 수 없지만, Distributed Representation은 단어의 뉘앙스를 표현할 수 있게 된다.  

Local Representation(국소 표현 방법)을 Discrete Representation(이산 표현) 이라고도 하며, 분산 표현(Distributed Representation) 연속 표현(Continuous Representation) 이라고도 함.

![image.png](attachment:image.png)

위 그림은 단어 추출을 구분하는 기준을 나타낸 것이다.  

우리가 살펴보려는 __`Bag of Words`__ 는 국소 표현에 속하며, 단어의 빈도수를 카운트(Count)하여 단어를 수치화하는 단어 표현 방법이다. 

## 1) Bag of Words란?

__`Bag of Words`__ 란 단어들의 순서는 전혀 고려하지 않고, 일괄적으로 단어에 대해 빈도값을 부여해 피쳐 값을 추출하는 모델이다. 쉽게 말해 텍스트 데이터의 수치화 표현 방법이다. 문서 내 모든 단어를 한꺼번에 봉투(Bag)안에 넣은 뒤에 흔들엇 섞는다는 의미로 Bag of Words(BOW) 모델이라고 한다.  

![image.png](attachment:image.png)  
출처: https://slideplayer.com/slide/7073400/

BOW를 만드는 과정을 두 가지 과정으로 생각해보자.  

1. 각 단어에 고유한 정수 인덱스를 부여한다. # 단어 집합 생성  
2. 각 인덱스의 위치에 단어 토큰의 등장 횟수를 기록한 벡터를 만든다.  

예제를 통해 좀 더 자세히 살펴보자.

In [34]:
from konlpy.tag import Okt

okt = Okt()

def build_bag_of_words(document):
    # 온점 제거 및 형태소 분석
    document = document.replace('.', '')
    tokenized_document = okt.morphs(document)

    word_to_index = {}
    bow = []

    for word in tokenized_document:  
        if word not in word_to_index.keys():
            word_to_index[word] = len(word_to_index)  
        # BoW에 전부 기본값 1을 넣는다.
            bow.insert(len(word_to_index) - 1, 1)
        else:
            # 재등장하는 단어의 인덱스
            index = word_to_index.get(word)
            # 재등장한 단어는 해당하는 인덱스의 위치에 1을 더한다.
            bow[index] = bow[index] + 1

    return word_to_index, bow

In [35]:
doc1 = "정부가 발표하는 물가상승률과 소비자가 느끼는 물가상승률은 다르다."
vocab, bow = build_bag_of_words(doc1)
print('vocabulary :', vocab)
print('bag of words vector :', bow)

vocabulary : {'정부': 0, '가': 1, '발표': 2, '하는': 3, '물가상승률': 4, '과': 5, '소비자': 6, '느끼는': 7, '은': 8, '다르다': 9}
bag of words vector : [1, 2, 1, 1, 2, 1, 1, 1, 1, 1]


`BOW` 함수를 만들어 doc1을 출력해보자.  

vocabulary에 출력된 결과는 doc1의 문장을 토큰화하여 각각 고유한 숫자값을 부여한 것이다.  
bag of words vector은 해당 단어들이 전체 문장에서 나온 횟수를 출력한 벡터값이다.  
"물가상승률", "가" 는 2번 나왔기 때문에 2로 출력되었음을 알 수 있다.

In [36]:
doc2 = '소비자는 주로 소비하는 상품을 기준으로 물가상승률을 느낀다.'

vocab, bow = build_bag_of_words(doc2)
print('vocabulary :', vocab)
print('bag of words vector :', bow)

vocabulary : {'소비자': 0, '는': 1, '주로': 2, '소비': 3, '하는': 4, '상품': 5, '을': 6, '기준': 7, '으로': 8, '물가상승률': 9, '느낀다': 10}
bag of words vector : [1, 1, 1, 1, 1, 1, 2, 1, 1, 1, 1]


In [37]:
doc3 = doc1 + ' ' + doc2
vocab, bow = build_bag_of_words(doc3)
print('vocabulary :', vocab)
print('bag of words vector :', bow)

vocabulary : {'정부': 0, '가': 1, '발표': 2, '하는': 3, '물가상승률': 4, '과': 5, '소비자': 6, '느끼는': 7, '은': 8, '다르다': 9, '는': 10, '주로': 11, '소비': 12, '상품': 13, '을': 14, '기준': 15, '으로': 16, '느낀다': 17}
bag of words vector : [1, 2, 1, 2, 3, 1, 2, 1, 1, 1, 1, 1, 1, 1, 2, 1, 1, 1]


BOW는 각 단어가 등장한 횟수를 수치화하는 텍스트 표현 방법이므로 주로 어떤 단어가 주로 등장하였는지를 기준으로 문서가 어떤 성격을 주로 가지는 문서인지를 판가름할 수 있는 도구로 사용되기도 한다.  

예시로 강아지, 고양이와 같은 동물이 주로 나오는 문서라면 '동물'과 관련된 문서임을 간접적으로 알 수 있다.

`BOW` 모델의 장점은 쉽고 빠른 구축이다. 단순히 단어의 발생 횟수에 기반하고 있지만, 예상보다 문서의 특징을 잘 나타낼 수 있는 모델이어서 전통적으로 여러 분야에서 활용도가 높다. 하지만 BOW 기반의 NLP 연구는 여러가지 제약이 있는데, 대표적인 단점은 다음과 같다.  

* __`문맥 의미(Semantic Context) 반영 부족`__ : BOW는 단어의 순서를 고려하지 않기 때문에 문장 내에서 단어의 문맥적인 의미가 무시된다. 이를 보완하기 위해 n-gram 기법을 활용할 수 있지만, 제한적인 부분에 그치므로 언어의 많은 부분을 차지하는 문맥적인 해석을 처리하지 못하는 단점이 존재한다.  


* __`희소 행렬 분해(희소성, 희소 행렬)`__ : BOW로 피쳐 벡터화를 수행하면 sparse matrix 형태의 데이터 세트가 만들어지기 쉽다. sparse matrix는 일반적으로 ML 알고리즘의 수행 시간과 예측 성능을 떨어뜨리기 때문에 희소 행렬을 위한 특별한 기법이 따로 마련되어 있다.

## 2) BOW 피쳐 벡터화

머신러닝 알고리즘은 피쳐를 수치화로 받아서 학습을 하기 때문에 모든 피쳐는 수치로 변환되어야 한다. 따라서 텍스트 또한 수치로 변경하여 머신러닝 알고리즘에 적용해야 한다.  

__`피쳐 벡터화`__ 는 각 문제의 텍스트를 단어로 추출해 피쳐로 할당하고, 각 단어의 발생 빈도와 같은 값을 피쳐에 값으로 부여해 각 문서를 이 단어 피쳐의 발생 빈도 값으로 구성된 벡터로 만드는 기법을 의미한다. 피쳐 벡터화는 기존 텍스트 데이터를 또 다른 형태의 피쳐 조합으로 변경하기 때문에 넓은 범위의 피쳐 추출에 포함된다.  

만약 M개의 텍스트 문서가 있고, N개의 단어가 있다면, 해당 행렬은 $M x N$ 형태를 가진다.  

일반적으로 BOW의 피쳐 벡터화는 두 가지 방식이 있다.  

* __`CountVectorizer`__ : 단어 피쳐에 값을 부여할 때 각 문서에서 해당 단어가 나타나는 횟수를 부여하는 것. 카운트 값이 높을 수록 중요한 단어로 인식  


* __`TF-IDF`__ :  CountVectorizer의 자주 사용될 수 밖에 없는 단어들의 높은 값 부여라는 단점을 보완하기 위해 사용되는 기법. 개별 문서에서 자주 나타나는 단어에 높은 가중치를 주되, 모든 문서에서 전반적으로 나타나는 단어에 대해서는 페널티를 주는 방식  



__< CountVectorizer 하이퍼 파라미터 >__  

* __`max_df`__ : 전체 문서에 걸쳐서 너무 높은 빈도수를 가지는 단어 피쳐를 제외하기 위한 파라미터. 스톱 워드와 비슷한 문법적인 특성으로 반복적인 단어일 가능성이 높은 단어를 제거하기 위해 사용  
max_df = 100 과 같이 정수값을 가지면 100개 이하로 나타나는 단어만 피쳐로 추출  
max_df = 0.95와 같이 소수점 값을 가지면 전체 문서에 걸쳐 빈도수 95%까지만 추출  


* __`min_df`__ : 전체 문서에 걸쳐서 너무 낮은 빈도수를 가지는 단어 피쳐를 제외하기 위한 파라미터. `max_df`와 동일한 원리  


* __`max_features`__ : 추출하는 피쳐의 개수의 상한을 지정.  
max_features = 2000으로 지정할 경우 가장 높은 빈도를 가지는 2000개의 단어만 피쳐로 추출  


* __`stop_words`__ : 'english'로 지정하면 영어의 스톱 워드로 지정된 단어는 추출에서 제외  


* __`n_gram_range`__ : BOW 모델의 단어 순서를 어느정도 보강하기 위한 n_gram 범위 설정. 튜플 형태로 지정  
n_gram_range = (1,1)인 경우 토큰화된 단어를 1개씩 피쳐로 추출  
n_gram_range = (1,2)인 경우 토근화된 단어를 1개씩, 그리고 순서대로 2개씩 묶어서 피쳐로 추출  


* __`anaylzer`__ : 피쳐 추출을 수행한 단위를 지정. default = 'word'. word가 아니라 character의 특정 범위를 피쳐로 만드는 특정한 경우 등을 적용할 때 사용  


* __`tokon_pattern`__ : 토큰화를 수행하는 정규 표현식 패턴을 지정. default = '\b\w\w+\b'.공백 또는 개행 문자 등으로 구분된 단어 분리자(\b) 사이의 2문자(문자 or 숫자, 즉 영숫자) 이상의 단어(word)를 토큰으로 분리.  
anaylzer = 'word'로 설정했을 때만 변경 가능하나, default 값을 변경하는 경우는 거의 발생하지 않는다.  


* __`tokenizer`__ : 토큰화를 별도의 커스텀 함수로 이용시 적용. 일반적으로 CountTokenizer 클래스에서 어근 변환 시 이를 수행하는 별도의 함수를 tokenizer 파라미터에 적용.

__< 피쳐 벡터화 프로세스 >__  

1. __`사전 데이터 가공`__ : 모든 문자를 소문자로 변환하는 등의 사전 작업 수행 (default로 lowercase = True)  


2. __`토큰화`__ : default는 단어 기준(anaylzer = True)이며 n_gram_range를 반영하여 토큰화 수행  


3. __`텍스트 정규화`__ : Stop Words 필터링만 수행. Stemmer, Lemmatize는 CountVectorizer 자체에서 지원되지 않음  
이를 위한 함수를 만들거나 외부 패키지로 미리 Text Normalization 수행 필요  


4. __`피쳐 벡터화`__ : max_df, min_df, max_features 등의 파라미터를 반영하여 Token된 단어들을 feature extraction 후 vectorization 적용

### 1] CountVectorizer

가장 단순한 특징으로, 텍스트에서 단위별 등장횟수를 카운팅하여 수치 벡터화 하는 것이다.  

방법은 먼저 단어 사전을 만들고, 카운팅 할 corpus를 확인하며 그 단어 사전의 횟수를 카운팅하는 것이다.  

아래의 예시를 살펴보자.

In [47]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = ['you know I want your love. because I love you.']
vector = CountVectorizer()

# 코퍼스로부터 각 단어의 빈도수를 기록
print('bag of words vector :', vector.fit_transform(corpus).toarray()) 

# 각 단어의 인덱스가 어떻게 부여되었는지를 출력
print('vocabulary :',vector.vocabulary_)

bag of words vector : [[1 1 2 1 2 1]]
vocabulary : {'you': 4, 'know': 1, 'want': 3, 'your': 5, 'love': 2, 'because': 0}


you know I want your love. because I love you. 라는 문장을 CountVectorizer을 수행하였다.  

vocabulary를 보면 각각의 단어에 고유한 인덱스값이 부여되었으며, bag of words vector를 보면 각 인덱스에 할당된 단어들의 빈도수가 명시되어 있음을 알 수 있다.  

`CountVectorizer`는 기본적으로 길이가 2 이상인 문자에 대해서만 토큰으로 인식하기 때문에 적절한 Cleansing이 필요하다.  

여기서 주의할 점은 단지 띄어쓰기만을 기준으로 단어를 자르는 낮은 수준의 토큰화를 진행하여 BOW를 만든다는 점이다. 이는 영어의 경우 띄어쓰기만으로 토큰화가 수행되기 때문에 문제가 없지만, 한국어의 경우 CountVectorizer를 적용하면, 조사 등의 이이유로 제대로 BOW가 만들어지지 않을 수 있다.

__사용자가 직접 정의한 불용여 사용__

In [48]:
text = ["Family is not an important thing. It's everything."]
vect = CountVectorizer(stop_words=["the", "a", "an", "is", "not"])
print('bag of words vector :',vect.fit_transform(text).toarray())
print('vocabulary :',vect.vocabulary_)

bag of words vector : [[1 1 1 1 1]]
vocabulary : {'family': 1, 'important': 2, 'thing': 4, 'it': 3, 'everything': 0}


__CountVectorizer__에서 제공하는 자체 불용어 사용__

In [49]:
text = ["Family is not an important thing. It's everything."]
vect = CountVectorizer(stop_words="english")
print('bag of words vector :',vect.fit_transform(text).toarray())
print('vocabulary :',vect.vocabulary_)

bag of words vector : [[1 1 1]]
vocabulary : {'family': 0, 'important': 1, 'thing': 2}


__NLTK에서 지원하는 불용어 사용__

In [50]:
text = ["Family is not an important thing. It's everything."]
stop_words = stopwords.words("english")
vect = CountVectorizer(stop_words=stop_words)
print('bag of words vector :',vect.fit_transform(text).toarray()) 
print('vocabulary :',vect.vocabulary_)

bag of words vector : [[1 1 1 1]]
vocabulary : {'family': 1, 'important': 2, 'thing': 3, 'everything': 0}


### 2] TF-IDF

__`TF-IDf`__ 는 위에서 언급했듯 CountVectorizer의 단점을 보완하기 위해 개발된 기법이다.  

* `TF(Term Frequency)` : 특정 단어가 하나의 데이터 안에서 등장하는 횟수  


* `DF(Document Frequency)` : 특정 단어가 여러 데이터에 자주 등장하는지를 알려주는 지표  


* `IDF(Inverse Document Frequency)` : DF에 역수를 취한 값  

-> `TF-IDF` : TF와 IDF를 곱한 값. 즉 TF가 높고 DF가 낮을수록 값이 커지는 것을 이용하는 것이다. 해당 문장(단위) 안에서는 많이 등장하지만, 다른 문서들까지 전체에서는 적게 사용될수록, 분별력 있는 특징이라는 것이다.  

TF-IDF에 대한 자세한 설명은 추후에 추가로 포스팅하겠다.

In [51]:
import pandas as pd # 데이터프레임 사용을 위해
from math import log # IDF 계산을 위해

docs = [
  '먹고 싶은 사과',
  '먹고 싶은 바나나',
  '길고 노란 바나나 바나나',
  '저는 과일이 좋아요'
] 
vocab = list(set(w for doc in docs for w in doc.split()))
vocab.sort()

In [53]:
# 총 문서의 수
N = len(docs) 

def tf(t, d):
    return d.count(t)

def idf(t):
    df = 0
    for doc in docs:
        df += t in doc
    return log(N/(df+1))

def tfidf(t, d):
    return tf(t,d)* idf(t)

In [55]:
result = []

# 각 문서에 대해서 아래 연산을 반복
for i in range(N):
    result.append([])
    d = docs[i]
    for j in range(len(vocab)):
        t = vocab[j]
        result[-1].append(tf(t, d))

tf_ = pd.DataFrame(result, columns = vocab)
tf_

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
0,0,0,0,1,0,1,1,0,0
1,0,0,0,1,1,0,1,0,0
2,0,1,1,0,2,0,0,0,0
3,1,0,0,0,0,0,0,1,1


In [56]:
result = []
for j in range(len(vocab)):
    t = vocab[j]
    result.append(idf(t))

idf_ = pd.DataFrame(result, index=vocab, columns=["IDF"])
idf_

Unnamed: 0,IDF
과일이,0.693147
길고,0.693147
노란,0.693147
먹고,0.287682
바나나,0.287682
사과,0.693147
싶은,0.287682
저는,0.693147
좋아요,0.693147


In [58]:
result = []
for i in range(N):
    result.append([])
    d = docs[i]
    for j in range(len(vocab)):
        t = vocab[j]
        result[-1].append(tfidf(t,d))

tfidf_ = pd.DataFrame(result, columns = vocab)
tfidf_

Unnamed: 0,과일이,길고,노란,먹고,바나나,사과,싶은,저는,좋아요
0,0.0,0.0,0.0,0.287682,0.0,0.693147,0.287682,0.0,0.0
1,0.0,0.0,0.0,0.287682,0.287682,0.0,0.287682,0.0,0.0
2,0.0,0.693147,0.693147,0.0,0.575364,0.0,0.0,0.0,0.0
3,0.693147,0.0,0.0,0.0,0.0,0.0,0.0,0.693147,0.693147


__사이킷런 활용__

In [59]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = [
    'you know I want your love',
    'I like you',
    'what should I do ',    
]

vector = CountVectorizer()

# 코퍼스로부터 각 단어의 빈도수를 기록
print(vector.fit_transform(corpus).toarray())

# 각 단어와 맵핑된 인덱스 출력
print(vector.vocabulary_)

[[0 1 0 1 0 1 0 1 1]
 [0 0 1 0 0 0 0 1 0]
 [1 0 0 0 1 0 1 0 0]]
{'you': 7, 'know': 1, 'want': 5, 'your': 8, 'love': 3, 'like': 2, 'what': 6, 'should': 4, 'do': 0}


In [60]:
from sklearn.feature_extraction.text import TfidfVectorizer

corpus = [
    'you know I want your love',
    'I like you',
    'what should I do ',    
]

tfidfv = TfidfVectorizer().fit(corpus)
print(tfidfv.transform(corpus).toarray())
print(tfidfv.vocabulary_)

[[0.         0.46735098 0.         0.46735098 0.         0.46735098
  0.         0.35543247 0.46735098]
 [0.         0.         0.79596054 0.         0.         0.
  0.         0.60534851 0.        ]
 [0.57735027 0.         0.         0.         0.57735027 0.
  0.57735027 0.         0.        ]]
{'you': 7, 'know': 1, 'want': 5, 'your': 8, 'love': 3, 'like': 2, 'what': 6, 'should': 4, 'do': 0}


## 3) BOW 벡터화를 위한 Sparse Matrix

CountVectorizer, TfidfVectorizer를 이용해 피처 벡터화를 하면 상당히 많은 칼럼이 생긴다. 모든 문서에 포함된 모든 고유 단어를 피처로 만들어주기 때문이다. 모든 문서의 단어를 피처로 만들어주면 수만 개에서 수십만 개의 단어가 만들어진다. 이렇게 대규모의 행렬이 생기더라도 각 문서에 포함된 단어의 수는 제한적이기 때문에 행렬의 대부분의 값은 0으로 채워진다.  

이렇듯 대부분 값이 0으로 채워진 행렬을 __`희소 행렬(Sparse Matrix)`__이라고 한다.  

![image.png](attachment:image.png)  
출처: Quora  



반대로 대부분의 값이 0이 아닌 값으로 채워진 행렬을 __`밀집 행렬(Dense Martix)`__ 이라고 한다. BOW 형태를 가진 언어 모델의 피쳐 벡터화는 대부분 sparse matrix를 만든다.  

sparse matrix는 너무 많은 불필요한 0 값으로 인해 메모리 낭비가 심하다. 또한 행렬의 크기가 커서 연산 시 시간도 많이 소모된다. 따라서 sparse matrix을 메모리 낭비가 적도록 변환해야 하는데, 대표적인 방법이 __`COO 형식`__과 __`CSR 형식`__ 이다.

### 1] COO 형식

__`COO(Coordinate:좌표)`__ 형식은 0이 아닌 데이터만 별도의 배열에 저장하고, 그 데이터가 가리키는 행과 열의 위치를 별도의 배열로 저장하는 방식이다.  

예를 들어  
![image.png](attachment:image.png)

다음과 같은 행렬이 있다고 가정하자.  

여기서 0이 아닌 값은 [3.1.2] 이다.  
3의 행과 열의 위치는 (0,0)이고, 1은 (0,2), 2는 (1,1) 이다.  
따라서 0이 아닌 값의 행과 열의 위치를 각각 모으면 행위치는 [0,0,1], 열위치는 [0,2,1]이다.  

따라서 이 세개의 배열만 저장해도 이를 통해 원본 행렬을 구할 수 있다. 방대한 원본 행렬을 저장하지 않고 간단한 COO 형식의 배열을 저장하여 메모리 낭비를 줄일 수 있다. 

In [61]:
import numpy as np

dense = np.array( [ [ 3, 0, 1 ], [0, 2, 0 ] ] )

In [62]:
from scipy import sparse

# 0 이 아닌 데이터 추출
data = np.array([3,1,2])

# 행 위치와 열 위치를 각각 array로 생성 
row_pos = np.array([0,0,1])
col_pos = np.array([0,2,1])

# sparse 패키지의 coo_matrix를 이용하여 COO 형식으로 희소 행렬 생성
sparse_coo = sparse.coo_matrix((data, (row_pos,col_pos)))

# 다시 원본행렬로 변환
sparse_coo.toarray()

array([[3, 0, 1],
       [0, 2, 0]])

### 2] CSR 형식

`COO 형식`은 행과 열의 위치를 나타내기 때문에 반복적인 위치 데이터를 사용해야 한다. 이러한 문제점을 해결하기 위한 방식이 __`CSR(Compressed Sparse Row) 형식`__ 이다.  

아래의 예를 살펴보자.  

![image.png](attachment:image.png)

COO 형식으로 변환하기 위해 만들어진 0이 아닌 값의 배열은 __[1, 5, 1, 4, 3, 2, 5, 6, 3, 2, 7, 8, 1]__ 이다.  

행과 열 위치 배열은 다음과 같다. 

행 위치 배열 = __[0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5]__  
열 위치 배열 = __[2, 5, 0, 1, 3, 4, 5, 1, 3, 0, 3, 5, 0]__  

행 위치 배열을 보면 0,1,2,3,4,5가 반복적으로 출력됨을 알 수 있다. 행 위치 배열이 0부터 순차적으로 증가한다는 특성을 고려해 행 위치 배열의 고유한 값의 시작 위치만 표기하는 방법으로 이런 반복을 제거할 수 있다. 0의 시작 인덱스는 0이고, 1의 시작은 2이며, 2의 시작 인덱스는 7이다.  

따라서 행 위치 배열인 __[0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5]__ 을 행 위치 배열 내 고유한 값의 시작 위치인 배열 __[0, 2, 7, 9, 10, 12]__ 로 변환하면 반복도 줄이고 메모리도 적게 사용할 수 있다.  
마지막에는 총항목의 개수를 추가해주면 된다.  

즉, CSR 형식으로 변환된 행 위치 배열 : __[0, 2, 7, 9, 10, 12, 13]__  

이렇듯 COO 형식의 문제점을 보완하기 위한 방식이 `CSR 형식` 이다.  
COO 형식에 비해 메모리가 적게 들고 빠른 연산이 가능하며, 일반적으로 COO 보다 CSR을 많이 쓴다.  

실제로 CountVectorizer, TF-IDF 에서는 CSR 형식이 default이다.

In [64]:
from scipy import sparse

dense2 = np.array([[0,0,1,0,0,5],
             [1,4,0,3,2,5],
             [0,6,0,3,0,0],
             [2,0,0,0,0,0],
             [0,0,0,7,0,8],
             [1,0,0,0,0,0]])

# 0 이 아닌 데이터 추출
data2 = np.array([1, 5, 1, 4, 3, 2, 5, 6, 3, 2, 7, 8, 1])

# 행 위치와 열 위치를 각각 array로 생성 
row_pos = np.array([0, 0, 1, 1, 1, 1, 1, 2, 2, 3, 4, 4, 5])
col_pos = np.array([2, 5, 0, 1, 3, 4, 5, 1, 3, 0, 3, 5, 0])

# COO 형식으로 변환 
sparse_coo = sparse.coo_matrix((data2, (row_pos,col_pos)))

# 행 위치 배열의 고유한 값들의 시작 위치 인덱스를 배열로 생성
row_pos_ind = np.array([0, 2, 7, 9, 10, 12, 13])

# CSR 형식으로 변환 
sparse_csr = sparse.csr_matrix((data2, col_pos, row_pos_ind))

print('COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_coo.toarray())
print('CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인')
print(sparse_csr.toarray())

COO 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]
CSR 변환된 데이터가 제대로 되었는지 다시 Dense로 출력 확인
[[0 0 1 0 0 5]
 [1 4 0 3 2 5]
 [0 6 0 3 0 0]
 [2 0 0 0 0 0]
 [0 0 0 7 0 8]
 [1 0 0 0 0 0]]


# 4. 텍스트 분류 실습 - 20 뉴스그룹 분류

In [67]:
from sklearn.datasets import fetch_20newsgroups

news_data = fetch_20newsgroups(subset='all',random_state=156)

KeyboardInterrupt: 

In [None]:
print(news_data.keys())