## [강의] KoNLPy 단어 토큰화 (1) Okt
#### 토큰화 : 코퍼스에서 용도에 맞게 분류하는 작업
- KoNLPy는 단어 토큰화가 아니라 정확히는 형태소단위로 형태소 토큰화(morpheme tokenization)를 수행  
- 형태소란 의미를 가지는 최소의 단위  
- 문구 (phrase)를 입력 받아 태깅된 형태소를 출력

In [None]:
from konlpy.tag import Okt  
tagger = Okt() 

text = "열심히 코딩한 당신, 연휴에는 여행을 가봐요"
print(tagger.morphs(text))      # 형태소
print(tagger.pos(text))         # 형태소 + 품사 태킹
print(tagger.nouns(text))       # 명사 추출

## [강의] KoNLPy 단어 토큰화 (2) Hannanum
#### Hannanum : 카이스트 SWRC 연구소에서 개발한 오픈소스 형태소 분석기

In [None]:
from konlpy.tag import Hannanum
tagger = Hannanum()

text = "열심히 코딩한 당신, 연휴에는 여행을 가봐요"
print(tagger.morphs(text))      # 형태소
print(tagger.pos(text))         # 형태소 + 품사 태킹
print(tagger.nouns(text))       # 명사 추출

## [강의] KoNLPy 단어 토큰화 (3) Kkma
#### Okt 형태소 분석기와 다른 꼬꼬마(Kkma) 형태소 분석기로 단어 토큰화 실습
- 앞서 실습한 Okt 형태소 분석기와는 다른 결과를 나타내는 것을 알 수 있음  
- 형태소 분석기는 필요 용도에 어떤 형태소 분석기가 가장 적절한지를 판단하고 사용

In [None]:
from konlpy.tag import Kkma  
tagger = Kkma()  

text = "열심히 코딩한 당신, 연휴에는 여행을 가봐요"
print(tagger.morphs(text))      # 형태소
print(tagger.pos(text))             # 형태소 + 품사 태킹
print(tagger.nouns(text))        # 명사 추출

## [강의] 정제 (cleaning)와 정규화 (normalization)
#### 노이즈를 제거하고 같은 의미의 단어를 통합
- 결측값과 이상치(outlier)를 제거

In [None]:
from konlpy.tag import Hannanum
from collections import Counter

tagger = Hannanum()

text = "대한민국은 민주공화국이다. 대한민국의 주권은 국민에게 있고, 국민은 그 대표자나 국민투표에 의하여 주권을 행사한다."
result = tagger.morphs(text)

c = Counter(result)
print(c.most_common(5))

#### "은"과 "." 의미 없는 정보로 제거하고 분석해야 함

In [None]:
stop_words = ["은", ".", "이", "다", "의", "에게", "있", "고", "그", "에", "어", "을", "하", "ㄴ다", ","]
result = [x for x in result if x not in stop_words]

c = Counter(result)## [강의] 정제 (cleaning)와 정규화 (normalization)
#### 노이즈를 제거하고 같은 의미의 단어를 통합
: 결측값과 이상치(outlier)를 제거
print(c.most_common(5))

# ---------------- 주피터 노트북 커널을 리스타트 해 주세요 ----------------

## [강의] 어근 동일화(stemming) - 한국어
#### tagger.morphs(text, stem=True)

In [None]:
from konlpy.tag import Okt
tagger = Okt()
text = "한글 자연어 처리는 재밌다. 이제부터 열심히 해야지."

print(tagger.morphs(text))
print(tagger.morphs(text, stem=True))

In [None]:
text = "한다 하겠다 할것이다"
print(tagger.morphs(text, stem=True))

## [강의] KoNLPy 어간 추출
#### 용언: ‘동사’, ‘형용사’는 어간과 어미의 결합 / KoNLPy를 활용한 용언 추출

In [None]:
from konlpy.tag import Okt

document = "봄과 함께 찾아온 따뜻한 신제품 소식"
tagger = Okt()

words = tagger.pos(document, stem=True) #stem=True 어근 형태
print(words)

#### 명사, 동사, 형용사만 추출

In [None]:
clean_words = []
for word in words:
    if word[1] in ["Noun", "Verb", "Adjective"]:
        clean_words.append(word[0])

print(clean_words)

#### 명사만 추출

In [None]:
clean_words = tagger.nouns(document) #명사 추출
print(clean_words)

# ---------------- 주피터 노트북 커널을 리스타트 해 주세요 ----------------

## [강의] KoNLPy 텍스트 전처리 후 워드 클라우드로 표현
#### 뉴스 텍스트 데이터를 전처리해 보기

In [None]:
from konlpy.tag import Okt
import re

# 분석할 텍스트 읽어오기
with open("news.txt", "r", encoding="utf-8") as f:
    content = f.read()

# 불필요한 심볼 없애기
p = re.compile("[\Wa-zA-Z0-9_]+")
content = re.sub(p, " ", content)

# 형태소 분석 및 단어 추출
tagger = Okt()
morphs = tagger.pos(content)
print(morphs)

In [None]:
# 명사만 추출하기
words = []
for word, pos in morphs:
    if pos == "Noun":
        words.append(word)
print(words)

In [None]:
from collections import Counter

# 불용어 제거
stopwords = ["출처", "뉴스", "원본", "링크"]
result = [x for x in words if x not in stopwords and len(x) > 1]
print(result)

# 빈도 분석, 각 단어들이 몇 번 사용되었는지 분석
c = Counter(result)
print(c.most_common(10))

#### 워드 클라우드로 그려보기

In [None]:
from wordcloud import WordCloud
import matplotlib.pyplot as plt
from os import path

# 한국어 경로 설정
# 리눅스 : 나눔 고딕 폰트 설치 후 사용하기
FONT_PATH = "C:/Windows/Fonts/malgun.ttf"

text = " ".join(result)
wordcloud = WordCloud(max_font_size=100, max_words=30, background_color="white",
                      relative_scaling=.5, font_path=FONT_PATH).generate(text)
plt.figure()
plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off")
plt.show()

# 워드 클라우드 및 이미지를 파일로 저장
wordcloud.to_file("news.png")

# ---------------- 주피터 노트북 커널을 리스타트 해 주세요 ----------------

## [강의 및 실습] 문재인 대통령 취임사 분석
취임사 전문: https://news.joins.com/article/21558717

#### 텍스트 로드 및 명사만 추출

In [None]:
import pandas as pd
from konlpy.tag import Hannanum

hannanum = Hannanum()

f = open("문재인대통령취임사.txt", "r", encoding="utf-8")
lines = f.readlines()
f.close()

text = " ".join(lines)
temp = []

#명사만 추출한 후 추출된 명사를 리스트에 저장
nouns = hannanum.nouns(text)
for noun in nouns:
    if len(noun) > 1 :
        temp.append(noun)
print(temp)

#### 같은 의미를 지닌 단어를 하나로 합침

In [None]:
merge_words = {
    "국민들" : "국민",
    "대통령의" : "대통령"
}
temp_merged = []
for word in temp:
    for k, v in merge_words.items():
        word = word.replace(k, v)
    temp_merged.append(word)

temp = temp_merged
print(temp)

#### Series 객체 생성 및 단어 빈도수 확인 (상위 10개)

In [None]:
s = pd.Series(temp)
s1 = s.value_counts()
s1.head(10)

In [None]:
#### 같은 의미를 지닌 단어를 하나로 합침
merge_words = {
    "국민들" : "국민",
    "대통령의" : "대통령"
}
temp_merged = []
for word in temp:
    for k, v in merge_words.items():
        word = word.replace(k, v)
    temp_merged.append(word)

temp = temp_merged
print(temp)

#### 워드 클라우드 생성

In [None]:
from wordcloud import WordCloud
import matplotlib.pyplot as plt

# 리눅스 : /usr/share/fonts
wordcloud = WordCloud(
    font_path="c:/Windows/Fonts/malgun.ttf", 
    background_color="white", 
    width=800, 
    height=800)
wordcloud = wordcloud.generate(" ".join(temp))

fig = plt.figure(figsize=(10, 10))
plt.imshow(wordcloud, interpolation="bilinear")
plt.axis("off")
plt.show()
fig.savefig("wordcloud.png")