## <b>M3_키워드 분석(Keyword Analysis)</b>

- 키워드란 텍스트 자료의 중요한 내용을 압축적으로 제시하는 단어 또는 문구이다.
- 키워드 분석이란 불용어 제거와 어간추출 및 형태소 분석 등을 시행한 후 텍스트에서 많이 등장하는 형태소의 등장 빈도를 분석함으로써 핵심어를 추출하는 것이다.   
- 특정 텍스트 자료에 많이 나타나는 형태소가 그 텍스트 주제를 표출할 가능성이 높다는 가정에 기초한다.  
- 물론, 빈도 분석에서 영어의 전치사나 한국어의 조사와 같이 의미를 별로 담고 있지 않은 불용어는 제외하는 것이 좋다.
- 키워드 분석은 텍스트의 주제 추정, 텍스트 유사도, 검색 엔진의 검색 결과 우선 순위 측정 등 다양하게 사용될 수 있다.

### 1. 데이터 전처리

> 데이터셋 파일 읽기
- 네이버 영화 리뷰 데이터 https://raw.githubusercontent.com/e9t/nsmc/master/ratings.txt

> 리뷰 데이터만 추출

- 'document' 제외

### 2. 형태소 분석

> 불용어(Stopwords) 제거를 위한 불용어 사전 만들기

* 형태소 분석을 통해 조사, 접속사 등의 제거 가능하다.
* 하지만 한국어는 명사에서도 상당히 많은 불필요한 단어들이 포함한다.
* 사용자가 직접 불용어 사전을 유지하면서 불필요한 단어 제거 필요하다.
* 불용어 예: `영화 전 난 일 걸 뭐 줄 만 건 분 개 끝 잼 이거 번 중 듯 때 게 내 말 나 수 거 점 것`
* 빈도가 너무 커서 분석에 방해되는 단어도 제거 필요하다.(예: `영화`)

In [None]:
stop_words = '영화 전 난 일 걸 뭐 줄 만 건 분 개 끝 잼 이거 번 중 듯 때 게 내 말 나 수 거 점 것'

> 불용어를 제외하여 형태소 분석 - 명사만 추출(5분 소요)

* 한글 텍스트에 대해서 형태소 분석 수행한다.
* 분석으로 추출하는 명사 중에서 불용어에 포함되지 않은 텍스트만 추출하여 저장한다.

In [None]:
from kiwipiepy import Kiwi

kiwi = Kiwi()

In [None]:
from tqdm import tqdm

review_token = []

for review in tqdm(reviews):
      for token in kiwi.tokenize(review):
            if (token.tag[0] == 'N') & (token.form not in stop_words):
                  review_token.append(token.form)
      
print(review_token[:100])

### 3. 빈도 분석

> 단어 빈도수 측정

* 단어 빈도수 측정에는 `collections` 패키지의 `Counter` 함수를 이용한다.
* `collections` 패키지는 내장 패키지로 별도 설치가 필요 없다.
* `counter`를 이용하면 각 단어와 각 단어의 빈도 수를 딕셔너리로 편리하게 생성 가능하다.

> 단어 빈도 시각화(그래프)

>> 한글 폰트 설정

In [None]:
import matplotlib as mpl
import matplotlib.pyplot as plt
from matplotlib import font_manager as fm

In [None]:
plt.style.use('default')

- 폰트 설정

>> 세로 막대 그래프 그리기

In [None]:
plt.figure(figsize=(15,10))
plt.bar(top_c.keys(), top_c.values(), color = "red", width = 0.5) 
plt.title('빈도수')

plt.show();

> 단어 빈도 시각화(워드클라우드; WordCloud)

* 텍스트에 담겨있는 여러 형태소들의 등장 빈도를 가장 직관적으로 시각화하는 방법이다.
* 텍스트에 등장하는 단어를 그 등장 빈도에 따라 서로 크기가 다르게 구름 형태로 표현함으로써, 단어의 빈도 수를 한번에 알 수 있다.
* 최근에 많은 서비스들이 어떤 핵심어가 많이 등장했는가를 워드클라우드 형식으로 시각화한다.
* 빈도 수만을 시각적으로 표현한 것이기 때문에, 단어들 사이의 연관성이나 의미 구조 등을 분석하는 데는 한계가 있다.

>> 파이썬에서 워드 클라우드를 시각화하기 위해 `matplotlib`와 `WordCloud`를 사용한다.

In [None]:
from wordcloud import WordCloud

>> WordCloud를 이용해 객체를 생성해주고, `generate_from_frequencies()` 함수로 빈도 수에 따라 워드클라우드 생성한다.

In [None]:
wc = WordCloud(font_path = 'gulim',  width=800, height=400, scale=2.0, max_font_size=250, max_words=200, background_color='white')
gen = wc.generate_from_frequencies(c)

plt.figure(figsize = (10, 10)) 
plt.axis('off') 
plt.imshow(gen); 