## 0. 세팅 - 함수 정의 및 데이터 불러오기

### 라이브러리 설치 및 로드 

In [None]:
!pip install wordcloud

### 데이터 로드

In [None]:
import numpy as np
from konlpy.tag import Mecab; mecab = Mecab()
# 워드클라우드 관련
from wordcloud import WordCloud
from PIL import Image
# 자연어처리 관련
import nltk
# 파일 처리 관련
import pandas as pd
import os

### 전처리 함수 정의 

In [None]:
FEATURE_POS = ["Noun", "Verb", "Adverb", "Adjective"]


def text_cleaning(doc):
    # 한국어를 제외한 글자를 제거하는 패턴.
    doc = re.sub("[^ㄱ-ㅎㅏ-ㅣ가-힣 ]", "", doc)
    
    # 특수문자를 제거하는 패턴.
    #doc = re.sub("[\{\}\[\]\/?.,;:|\)*~`!^\-_+<>@\#$%&\\\=\(\'\"]", " ", doc)
    
    # 영문 빼고 모두 제거하는 패턴.
    #doc = doc.replace("\n", " ")
    #doc = re.sub("[^A-Za-z ]", "", doc)
    
    return doc

def define_stopwords(path):
    
    SW = set()
    # 불용어를 추가하는 방법 1.
    # SW.add("있다")
    SW.add("있어요")
    SW.add("대한")
    SW.add("합니다")
    SW.add("하는")
    
    # 불용어를 추가하는 방법 2.
    # stopwords-ko.txt에 직접 추가
    
    with open(path, encoding="utf-8") as f:
        for word in f:
            SW.add(word.strip())
            
    return SW

def text_tokenizing(doc, tokenizer):
    """
    Input Parameter :
    
    doc - tokenizing 하는 실제 데이터.
    tokenizer - token의 단위.
    """
    
    if tokenizer == "words":
        return [word for word in doc.split() if word not in SW and len(word) > 1]
    
    elif tokenizer == "nouns":
        
        
    elif tokenizer == "morphs":
        
    
    
    elif tokenizer == "predefined":
        
        documents = []
        text_pos = [pair for pair in okt.pos(doc) if pair[0] not in SW and len(pair[0]) > 1]
        words = []

        for word, pos in text_pos:
            if pos in FEATURE_POS:
                words.append(word)

        return words

**Q1. 만약에 MeCab을 사용하려면 어떻게 해야할까?**

### tokenizer 지정하기 

In [None]:
tokenizer = "nouns" # "words" / "nouns" / "morphs" / "predefined"

### Pre-processing (cleansing, tokenizing)

In [None]:
SW = define_stopwords("data/stopwords-ko.txt")

In [None]:
tokenized_documents = 

## 1. 빈도 분석

In [None]:
import nltk
from pprint import pprint

total_tokens = 
print(len(total_tokens))

text = nltk.Text(total_tokens)
print(len(set(text.tokens)))
# top 10 뽑기


In [None]:
# 빈도 출력 갯수.
from nltk import FreqDist

topN = 50

x = []
y = []
wordInfo = dict()

for vocab, count in text.vocab().most_common(topN):
    x.append(vocab)
    y.append(count)
    wordInfo[vocab] = count
    
test = {"Counts" : x, "Samples" : y}
print(x[:5])
print(y[:5])

### 빈도 분석 히스토그램 출력 

In [None]:
import seaborn as sns
import matplotlib.pyplot as plt
import platform
from matplotlib import font_manager, rc
%matplotlib inline

# 글꼴 설정

path = "c:/Windows/Fonts/malgun.ttf"
if platform.system() == 'Darwin':
    rc('font', family='AppleGothic')
elif platform.system() == 'Windows':
    font_name = font_manager.FontProperties(fname=path).get_name()
    rc('font', family=font_name)
else:
    font_name = font_manager.FontProperties(fname="/usr/share/fonts/nanumfont/NanumGothic.ttf")
    rc('font', family="NanumGothic")

plt.figure(figsize=(16, 24))
plt.title("네이버 뉴스 상위 %d 빈도 분석 히스토그램" % (topN) , fontsize=18)
plt.xlabel("Samples")
plt.ylabel("Counts")
sns.barplot(x="Samples", y="Counts", data=test, palette="rainbow")
plt.show()

### 빈도 분석 워드클라우드 출력 

In [None]:
# 워드클라우드에 들어갈 단어 갯수 변경.
topN = 100

# for windows : font_path='c:/Windows/Fonts/malgun.ttf'
# for macOS : font_path = "/usr/share/fonts/nanumfont/NanumGothic.ttf"

# 워드클라우드 만들 배경 그림 경로. ex) cloud.png

mask = np.array(Image.open("data/cloud.png"))
wordcloud = WordCloud(font_path = "malgun",
                      relative_scaling = 0.2,
                      mask=mask,
                      background_color='white',
                      colormap="twilight"
                      ).generate_from_frequencies(wordInfo)
plt.figure(figsize=(16,16))
plt.imshow(wordcloud)
plt.axis("off")
plt.savefig("./wordcloud_naverNews(count).png")
plt.show()

## 2. TF-IDF 분석

* Term Frequency - Inverse Document Frequency(TF-IDF)는 단어의 절대 빈도와 문서간의 상대빈도 정보를 모두 활용하는 분석 방법입니다.



* 단어가 무조건 많다고 좋은게 아니기 때문에, **특정 문서에만** 많은 단어를 주요 단어로 선정하고 싶습니다.



* 그렇기에, 한 문서에는 많고 다른 문서에는 적은 단어를 계산을 통해 자동으로 찾아주는 방법을 사용합니다.

### TF-IDF 구하기 

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd

#TfidfVectorizer의 input으로 만들기 위한 전처리.
tfidf_docs = 

tfidf = 

# tfidf 형태로 변환.
X_tfidf = 

terms = tfidf.get_feature_names()

# sum tfidf frequency of each term through documents
sums = X_tfidf.sum(axis=0)

# connecting term to its sums frequency
df = []
for col, term in enumerate(terms):
    df.append( (term, sums[0,col] ))

ranking = pd.DataFrame(df, columns=['Term','TF-IDF'])
rankInfo = ranking.sort_values('TF-IDF', ascending=False)[:50]

x = list(rankInfo["Term"])
y = list(rankInfo["TF-IDF"])

tfidfInfo = dict()

for vocab, tfidf in zip(x, y):
    tfidfInfo[vocab] = tfidf

print(x[:5])
print(y[:5])
print()
print(rankInfo)

### TF-IDF 히스토그램 출력

In [None]:
plt.figure(figsize=(16, 24))
plt.title("네이버 뉴스 상위 %d TF-IDF 분석 히스토그램" % (topN) , fontsize=18)
plt.xlabel("Samples")
plt.ylabel("Counts")
sns.barplot(x="TF-IDF", y="Term", data=rankInfo, palette="rainbow")
plt.show()

### TF-IDF 기준 워드클라우드 출력 

In [None]:
### 워드클라우드에 들어갈 단어 갯수 변경.

# for windows : font_path='c:/Windows/Fonts/malgun.ttf'
# for macOS : font_path = "/usr/share/fonts/nanumfont/NanumGothic.ttf"

# 워드클라우드 만들 배경 그림 경로. ex) cloud.png

mask = np.array(Image.open("data/cloud.png"))
wordcloud = WordCloud(font_path = "malgun",
                      relative_scaling = 0.2,
                      #stopwords=STOPWORDS,
                      mask=mask,
                      background_color='white',
                      colormap="twilight"
                      ).generate_from_frequencies(tfidfInfo)
plt.figure(figsize=(16,16))
plt.imshow(wordcloud)
plt.axis("off")
plt.savefig("./wordcloud_naverNews(tfidf).png")
plt.show()

## 3. TextRank 분석 (키워드 추출 알고리즘) 

* Main Concept : 중요한 단어와 함깨 등장하는 단어도 중요하다!



* 문장 내에 같이 등장하는 단어(co-occurence) 정보를 반영하여, 중요단어를 선정함.



* TF-IDF는 문서 내에 동시등장 정보를 활용하지 않기 때문에, 이를 활용하여 주요 단어를 선정하는 기법이 TextRank입니다.

<small>Reference : https://towardsdatascience.com/textrank-for-keyword-extraction-by-python-c0bae21bcec0</small>

In [None]:
!git clone https://github.com/lovit/textrank.git  ## 맨처음에 한번만 실행시켜주세요!

### TextRank를 위한 tokenizing 함수 재정의 

In [None]:
def word_tokenizer(doc):
    return [word for word in doc.split() if word not in SW and len(word) > 1]
    
def noun_tokenizer(doc):
    return [word for word in okt.nouns(doc) if word not in SW and len(word) > 1]
        
def morph_tokenizer(doc):
    return [word for word in okt.morphs(doc) if word not in SW and len(word) > 1]


def predefined_tokenizer(doc):
    text_pos = [pair for pair in okt.pos(doc) if pair[0] not in SW and len(pair[0]) > 1]
    words = []

    for word, pos in text_pos:
        if pos in FEATURE_POS:
            words.append(word)

    return words

In [None]:
from textrank.textrank import KeywordSummarizer


if tokenizer == "words":
    tokenize_func = word_tokenizer

elif tokenizer == "nouns":
    tokenize_func = noun_tokenizer

elif tokenizer == "morphs":
    tokenize_func = morph_tokenizer
    
elif tokenizer == "predefined":
    tokenize_func = predefined_tokenizer

# TextRank 함수 정의
keyword_extractor = KeywordSummarizer(
    tokenize = ,
    min_count=,                   # number of minimum appear
    window=-1,                     # cooccurrence within a sentence
    min_cooccurrence=2,
    vocab_to_idx=None,             # you can specify vocabulary to build word graph
    df=0.85,                       # PageRank damping factor
    max_iter=100,                  # PageRank maximum iteration
    verbose=False
)

In [None]:
# TextRank 수행
keywords = 
keywords

In [None]:
x = []
y = []
textRankInfo = dict()

for vocab, score in keywords:
    x.append(vocab)
    y.append(score)
    textRankInfo[vocab] = score
    
test = {"TextRank Score" : x, "Term" : y}
print(x[:5])
print(y[:5])

In [None]:
plt.figure(figsize=(16, 24))
plt.title("네이버 뉴스 상위 %d 키워드 분석 히스토그램" % (topN) , fontsize=18)
plt.xlabel("Term")
plt.ylabel("TextRank Score")
sns.barplot(x="Term", y="TextRank Score", data=test, palette="rainbow")
plt.show()

In [None]:
mask = np.array(Image.open("data/cloud.png"))
wordcloud = WordCloud(font_path = "malgun",
                      relative_scaling = 0.2,
                      #stopwords=STOPWORDS,
                      mask=mask,
                      background_color='white',
                      colormap="twilight"
                      ).generate_from_frequencies(textRankInfo)
plt.figure(figsize=(16,16))
plt.imshow(wordcloud)
plt.axis("off")
plt.savefig("./wordcloud_NSMC(textRank).png")
plt.show()

## Go Further? 

**Q2. 어떤 작업들을 하면 더 좋은 결과를 볼 수 있을까요?**

1. 단어? 명사? 형태소?

<br><br>


2. 텍스트 정규화 -> 비슷한 뜻을 가진 단어 합치기

<br><br>



3. 띄어쓰기는 멀쩡할까?


<br><br>



4. 딥러닝으로 해보면 어떨까? 


**Q3. TF-IDF와 TextRank에서 키워드의 순위가 차이가 나는 이유는 무엇일까?**