**4주차 실습 - 한국어 전처리**

*** 출처 ***
*   딥 러닝을 이용한 자연어 처리 입문(https://wikidocs.net/book/2155)
*   파이썬 텍스트 마이닝 완벽 가이드



# **0. KoNLPy(Korean NLP in Python) 설치**
- KoNLPy("코엔엘파이", "ko en el PIE"): 한국어 자연어처리를 위한 파이썬 패키지

In [1]:
!curl -s https: // raw.githubusercontent.com/teddylee777/machine-learning/master/ 99-Misc/ 01-Colab/mecab-colab.sh | bash

In [2]:
import nltk  # Natural Language Toolkit 라이브러리

nltk.download('punkt')  # 토크나이저 모듈 다운로드

ModuleNotFoundError: No module named 'nltk'

# **1. 토큰화(Tokenization)**

## 1-1. 단어 토큰화
- KoNLPy에서 제공하는 형태소 분석기: Okt(Open Korea Text), Mecab(메캅), Komoran(코모란), Hannanum(한나눔), 꼬꼬마(Kkma) 등

- KoNLPy의 형태소 분석기의 공통 method: morphs(토큰화), pos(품사 태깅), nouns(명사 추출)

- 형태소 분석기 마다 분석 결과가 다름

In [6]:
# Okt(Open Korea Text)
from konlpy.tag import Okt
# Komoran(코모란)
from konlpy.tag import Komoran
# Hannanum(한나눔)
from konlpy.tag import Hannanum
# 꼬꼬마(Kkma)
from konlpy.tag import Kkma

okt = Okt()
komoran = Komoran()
hannanum = Hannanum()
kkma = Kkma()

text = "세종대왕은 온 백성이 자유롭게 자신의 의사를 표현하고 정보를 얻을 수 있는 세상을 꿈꾸며 한글을 창제하였습니다"

print("Okt: ", okt.morphs(text))
print("Komoran: ", komoran.morphs(text))
print("Hannanum: ", hannanum.morphs(text))
print("Kkma: ", kkma.morphs(text))

Okt:  ['세종대왕', '은', '온', '백성', '이', '자유롭게', '자신', '의', '의사', '를', '표현', '하고', '정보', '를', '얻을', '수', '있는', '세상', '을', '꿈꾸며', '한글', '을', '창제', '하였습니다']
Komoran:  ['세종대왕', '은', '오', 'ㄴ', '백성', '이', '자유', '롭', '게', '자신', '의', '의사', '를', '표현', '하', '고', '정보', '를', '얻', '을', '수', '있', '는', '세상', '을', '꿈꾸', '며', '한글', '을', '창제', '하', '았', '습니다']
Hannanum:  ['세종대왕', '은', '오', 'ㄴ', '백성', '이', '자유', '롭', '게', '자신', '의', '의사', '를', '표현', '하고', '정보', '를', '얻', '을', '수', '있', '는', '세상', '을', '꿈꾸', '며', '한글', '을', '창제', '하', '었습니다']
Kkma:  ['세종', '대왕', '은', '오', 'ㄴ', '백성', '이', '자유', '롭', '게', '자신', '의', '의사', '를', '표현', '하', '고', '정보', '를', '얻', '을', '수', '있', '는', '세상', '을', '꿈꾸', '며', '한글', '을', '창제', '하', '였', '습니다']


## 1-2. 문장 토큰화

In [7]:
from nltk.tokenize import sent_tokenize  # 문장 토크나이저

para_kor = """세종대왕은 온 백성이 자유롭게 자신의 의사를 표현하고 정보를 얻을 수 있는 세상을 꿈꾸며 ‘한글’을 창제하였습니다.
국립국어원은 그 꿈을 이어가는 중추적인 기관으로서 사명을 다할 것입니다.
한국어와 한글이, 남과 북을 넘어 온 세상 사람들이 소통하는 도구가 되어 우리의 삶을 더욱 풍성하게 하는 데에 힘을 보태겠습니다."""

sent_tokenize(para_kor)  # 문장 단위로 텍스트를 분할

['세종대왕은 온 백성이 자유롭게 자신의 의사를 표현하고 정보를 얻을 수 있는 세상을 꿈꾸며 ‘한글’을 창제하였습니다.',
 '국립국어원은 그 꿈을 이어가는 중추적인 기관으로서 사명을 다할 것입니다.',
 '한국어와 한글이, 남과 북을 넘어 온 세상 사람들이 소통하는 도구가 되어 우리의 삶을 더욱 풍성하게 하는 데에 힘을 보태겠습니다.']

# **2. 불용어 제거**

In [8]:
okt = Okt()

text = "세종대왕은 온 백성이 자유롭게 자신의 의사를 표현하고 정보를 얻을 수 있는 세상을 꿈꾸며 한글을 창제하였습니다"
stop_words = "은 이 의 을 를 하고 있는 하였습니다"

# 불용어 문자열을 공백을 기준으로 나눠서 집합으로 변환
stop_words = set(stop_words.split(' '))

# 단어 토큰화
word_tokens = okt.morphs(text)

# 토큰화된 텍스트에서 불용어를 제거
result = [word for word in word_tokens if not word in stop_words]

print('불용어 제거 전 :', word_tokens)
print('불용어 제거 후 :', result)

불용어 제거 전 : ['세종대왕', '은', '온', '백성', '이', '자유롭게', '자신', '의', '의사', '를', '표현', '하고', '정보', '를', '얻을', '수', '있는', '세상', '을', '꿈꾸며', '한글', '을', '창제', '하였습니다']
불용어 제거 후 : ['세종대왕', '온', '백성', '자유롭게', '자신', '의사', '표현', '정보', '얻을', '수', '세상', '꿈꾸며', '한글', '창제']


In [10]:


stop_words_file = open("data/korean_stopwords.txt", "r", encoding='UTF8')
stop_words_text = stop_words_file.read()
stop_words_text


'가\n가까스로\n가령\n각\n각각\n각자\n각종\n갖고말하자면\n같다\n같이\n개의치않고\n거니와\n거바\n거의\n것\n것과 같이\n것들\n게다가\n게우다\n겨우\n견지에서\n결과에 이르다\n결국\n결론을 낼 수 있다\n겸사겸사\n고려하면\n고로\n곧\n공동으로\n과\n과연\n관계가 있다\n관계없이\n관련이 있다\n관하여\n관한\n관해서는\n구\n구체적으로\n구토하다\n그\n그들\n그때\n그래\n그래도\n그래서\n그러나\n그러니\n그러니까\n그러면\n그러므로\n그러한즉\n그런 까닭에\n그런데\n그런즉\n그럼\n그럼에도 불구하고\n그렇게 함으로써\n그렇지\n그렇지 않다면\n그렇지 않으면\n그렇지만\n그렇지않으면\n그리고\n그리하여\n그만이다\n그에 따르는\n그위에\n그저\n그중에서\n그치지 않다\n근거로\n근거하여\n기대여\n기점으로\n기준으로\n기타\n까닭으로\n까악\n까지\n까지 미치다\n까지도\n꽈당\n끙끙\n끼익\n나\n나머지는\n남들\n남짓\n너\n너희\n너희들\n네\n넷\n년\n논하지 않다\n놀라다\n누가 알겠는가\n누구\n다른\n다른 방면으로\n다만\n다섯\n다소\n다수\n다시 말하자면\n다시말하면\n다음\n다음에\n다음으로\n단지\n답다\n당신\n당장\n대로 하다\n대하면\n대하여\n대해 말하자면\n대해서\n댕그\n더구나\n더군다나\n더라도\n더불어\n더욱더\n더욱이는\n도달하다\n도착하다\n동시에\n동안\n된바에야\n된이상\n두번째로\n둘\n둥둥\n뒤따라\n뒤이어\n든간에\n들\n등\n등등\n딩동\n따라\n따라서\n따위\n따지지 않다\n딱\n때\n때가 되어\n때문에\n또\n또한\n뚝뚝\n라 해도\n령\n로\n로 인하여\n로부터\n로써\n륙\n를\n마음대로\n마저\n마저도\n마치\n막론하고\n만 못하다\n만약\n만약에\n만은 아니다\n만이 아니다\n만일\n만큼\n말하자면\n말할것도 없고\n매\n매번\n메쓰겁다\n몇\n모\n모두\n무렵\n무릎쓰고\n무슨\n무엇\n무엇때문에\n물론\n및\n바꾸어말하면\n바꾸어말하자면\n바꾸어서 말하면\n바꾸어서 한다

In [11]:
stop_words_set = set(stop_words_text.split('\n'))
stop_words_set

{'가',
 '가까스로',
 '가령',
 '각',
 '각각',
 '각자',
 '각종',
 '갖고말하자면',
 '같다',
 '같이',
 '개의치않고',
 '거니와',
 '거바',
 '거의',
 '것',
 '것과 같이',
 '것들',
 '게다가',
 '게우다',
 '겨우',
 '견지에서',
 '결과에 이르다',
 '결국',
 '결론을 낼 수 있다',
 '겸사겸사',
 '고려하면',
 '고로',
 '곧',
 '공동으로',
 '과',
 '과연',
 '관계가 있다',
 '관계없이',
 '관련이 있다',
 '관하여',
 '관한',
 '관해서는',
 '구',
 '구체적으로',
 '구토하다',
 '그',
 '그들',
 '그때',
 '그래',
 '그래도',
 '그래서',
 '그러나',
 '그러니',
 '그러니까',
 '그러면',
 '그러므로',
 '그러한즉',
 '그런 까닭에',
 '그런데',
 '그런즉',
 '그럼',
 '그럼에도 불구하고',
 '그렇게 함으로써',
 '그렇지',
 '그렇지 않다면',
 '그렇지 않으면',
 '그렇지만',
 '그렇지않으면',
 '그리고',
 '그리하여',
 '그만이다',
 '그에 따르는',
 '그위에',
 '그저',
 '그중에서',
 '그치지 않다',
 '근거로',
 '근거하여',
 '기대여',
 '기점으로',
 '기준으로',
 '기타',
 '까닭으로',
 '까악',
 '까지',
 '까지 미치다',
 '까지도',
 '꽈당',
 '끙끙',
 '끼익',
 '나',
 '나머지는',
 '남들',
 '남짓',
 '너',
 '너희',
 '너희들',
 '네',
 '넷',
 '년',
 '논하지 않다',
 '놀라다',
 '누가 알겠는가',
 '누구',
 '다른',
 '다른 방면으로',
 '다만',
 '다섯',
 '다소',
 '다수',
 '다시 말하자면',
 '다시말하면',
 '다음',
 '다음에',
 '다음으로',
 '단지',
 '답다',
 '당신',
 '당장',
 '대로 하다',
 '대하면',
 '대하여',
 '대해 말하자면',
 '대해서',
 '댕그',


In [12]:
# 불용어 사전(stop_words_set)을 활용하여 불용어를 제거
result = [word for word in word_tokens if not word in stop_words_set]

print('불용어 제거 전 :', word_tokens)
print('불용어 제거 후 :', result)

불용어 제거 전 : ['세종대왕', '은', '온', '백성', '이', '자유롭게', '자신', '의', '의사', '를', '표현', '하고', '정보', '를', '얻을', '수', '있는', '세상', '을', '꿈꾸며', '한글', '을', '창제', '하였습니다']
불용어 제거 후 : ['세종대왕', '은', '온', '백성', '자유롭게', '의사', '표현', '하고', '정보', '얻을', '수', '있는', '세상', '꿈꾸며', '한글', '창제', '하였습니다']


# **3. 품사 태깅**

In [13]:
okt = Okt()
komoran = Komoran()
hannanum = Hannanum()
kkma = Kkma()

text = "세종대왕은 온 백성이 자유롭게 자신의 의사를 표현하고 정보를 얻을 수 있는 세상을 꿈꾸며 한글을 창제하였습니다"

# 토큰화 결과와 함께 각 토큰마다 해당하는 품사 태그가 표시됨
print(okt.pos(text))
print(komoran.pos(text))
print(hannanum.pos(text))
print(kkma.pos(text))

[('세종대왕', 'Noun'), ('은', 'Josa'), ('온', 'Noun'), ('백성', 'Noun'), ('이', 'Josa'), ('자유롭게', 'Adjective'), ('자신', 'Noun'), ('의', 'Josa'), ('의사', 'Noun'), ('를', 'Josa'), ('표현', 'Noun'), ('하고', 'Josa'), ('정보', 'Noun'), ('를', 'Josa'), ('얻을', 'Verb'), ('수', 'Noun'), ('있는', 'Adjective'), ('세상', 'Noun'), ('을', 'Josa'), ('꿈꾸며', 'Verb'), ('한글', 'Noun'), ('을', 'Josa'), ('창제', 'Noun'), ('하였습니다', 'Verb')]
[('세종대왕', 'NNP'), ('은', 'JX'), ('오', 'VV'), ('ㄴ', 'ETM'), ('백성', 'NNG'), ('이', 'JKS'), ('자유', 'NNG'), ('롭', 'XSA'), ('게', 'EC'), ('자신', 'NNG'), ('의', 'JKG'), ('의사', 'NNG'), ('를', 'JKO'), ('표현', 'NNG'), ('하', 'XSV'), ('고', 'EC'), ('정보', 'NNG'), ('를', 'JKO'), ('얻', 'VV'), ('을', 'ETM'), ('수', 'NNB'), ('있', 'VV'), ('는', 'ETM'), ('세상', 'NNG'), ('을', 'JKO'), ('꿈꾸', 'VV'), ('며', 'EC'), ('한글', 'NNG'), ('을', 'JKO'), ('창제', 'NNG'), ('하', 'XSV'), ('았', 'EP'), ('습니다', 'EC')]
[('세종대왕', 'N'), ('은', 'J'), ('오', 'P'), ('ㄴ', 'E'), ('백성', 'N'), ('이', 'J'), ('자유', 'N'), ('롭', 'X'), ('게', 'E'), ('자신', 'N'), ('의', 'J'),

In [14]:
# 토큰화 결과에서 명사만을 추출
print(okt.nouns(text))
print(komoran.nouns(text))
print(hannanum.nouns(text))
print(kkma.nouns(text))

['세종대왕', '온', '백성', '자신', '의사', '표현', '정보', '수', '세상', '한글', '창제']
['세종대왕', '백성', '자유', '자신', '의사', '표현', '정보', '수', '세상', '한글', '창제']
['세종대왕', '백성', '자유', '자신', '의사', '표현', '정보', '수', '세상', '한글', '창제']
['세종', '세종대왕', '대왕', '백성', '자유', '자신', '의사', '표현', '정보', '수', '세상', '한글', '창제']


# **4. 문서 탐색**
- 문서 내의 문자의 수, 토큰의 수, 자주 등장하는 단어 등 문서를 탐색(https://konlpy.org/en/latest/examples/explore/)


In [16]:
# 빈도 계산 모듈
from collections import Counter

# konlpy 라이브러리
from konlpy.corpus import kolaw
from konlpy.tag import Hannanum
from konlpy.utils import concordance, pprint
from matplotlib import pyplot

# 대한민국 헌법 텍스트 파일(constitution.txt) 읽기
doc = kolaw.open('constitution.txt').read()

# Hannanum 형태소 분석기를 사용하여 품사 태깅
pos = Hannanum().pos(doc)

# 품사 태깅된 결과 빈도 계산
cnt = Counter(pos)

# 텍스트의 문자 수, 단어 수(띄어쓰기 기준), 품사 태깅된 집합
print('nchars  :', len(doc))
print('ntokens :', len(doc.split()))
print('nmorphs :', len(set(pos)))

# 가장 빈도가 높은 상위 20개 형태소
print('\nTop 20 frequent morphemes:')
pprint(cnt.most_common(20))

# "대한민국"이 텍스트 내에서 나타나는 위치를 찾아서 출력
print('\nLocations of "대한민국" in the document:')
concordance(u'대한민국', doc, show=True)

nchars  : 18884
ntokens : 4178
nmorphs : 1499

Top 20 frequent morphemes:
[(('의', 'J'), 396),
 (('.', 'S'), 340),
 (('하', 'X'), 291),
 (('에', 'J'), 283),
 (('ㄴ다', 'E'), 241),
 (('ㄴ', 'E'), 223),
 (('이', 'J'), 221),
 (('을', 'J'), 211),
 (('은', 'J'), 184),
 (('어', 'E'), 176),
 (('를', 'J'), 148),
 (('ㄹ', 'E'), 134),
 (('하', 'P'), 124),
 (('는', 'J'), 117),
 (('법률', 'N'), 115),
 ((',', 'S'), 99),
 (('는', 'E'), 97),
 (('있', 'P'), 96),
 (('되', 'X'), 94),
 (('수', 'N'), 91)]

Locations of "대한민국" in the document:
0	대한민국헌법 유구한 역사와
9	대한국민은 3·1운동으로 건립된 대한민국임시정부의 법통과 불의에
98	총강 제1조 ① 대한민국은 민주공화국이다. ②대한민국의
100	① 대한민국은 민주공화국이다. ②대한민국의 주권은 국민에게
110	나온다. 제2조 ① 대한민국의 국민이 되는
126	의무를 진다. 제3조 대한민국의 영토는 한반도와
133	부속도서로 한다. 제4조 대한민국은 통일을 지향하며,
147	추진한다. 제5조 ① 대한민국은 국제평화의 유지에
787	군무원이 아닌 국민은 대한민국의 영역안에서는 중대한
1836	파견 또는 외국군대의 대한민국 영역안에서의 주류에
3620	경제 제119조 ① 대한민국의 경제질서는 개인과


[0, 9, 98, 100, 110, 126, 133, 147, 787, 1836, 3620]

# **5. 연속된 단어(collocation) 찾기**
- 한국어 단어의 연관성을 분석하기 위해 NLTK의 'collocations'를 사용하여 연속된 단어를 찾음(https://konlpy.org/en/latest/examples/collocations/)

In [21]:
from konlpy.tag import Kkma
from konlpy.corpus import kolaw
from konlpy.utils import pprint
from nltk import collocations

# collocation 방법 선택
#measures = collocations.BigramAssocMeasures()  # bi-gram
measures = collocations.TrigramAssocMeasures()  # tri-gram
#measures = collocations.QuadgramAssocMeasures()  # quad-gram

doc = kolaw.open('constitution.txt').read()

# Kkma 형태소 분석기를 사용하여 품사 태깅
tagged_words = Kkma().pos(doc)

# 품사 태깅된 결과에서 단어만 추출
words = [w for w, t in tagged_words]

# stopword 정의
ignored_words = [u'안녕']

# finder 정의
#finder = collocations.BigramCollocationFinder.from_words(words)
finder = collocations.TrigramCollocationFinder.from_words(words)
# finder = collocations.QuadgramCollocationFinder.from_words(words)

# 단어 길이가 2 미만이거나 stopword에 포함된 경우 제외
finder.apply_word_filter(lambda w: len(w) < 2 or w in ignored_words)

# 빈도가 3 이하인 경우 제외
finder.apply_freq_filter(3)

# collocation을 계산하고 상위 10개 출력
pprint(finder.nbest(measures.pmi, 10))


[('민주적', '기본', '질서'),
 ('누구', '든지', '체포'),
 ('지방', '자치', '단체'),
 ('중앙', '선거', '관리'),
 ('선거', '관리', '위원회'),
 ('재적', '의원', '과반수'),
 ('원로', '자문', '회의'),
 ('탄핵', '또는', '금고'),
 ('체포', '또는', '구속'),
 ('국가', '원로', '자문')]


# **6. 한국어 구문 분석**

- 한국어 텍스트에서 명사구(Noun Phrase), 동사구(Verb Phrase), 형용사구(Adjective Phrase)를 추출

In [22]:
import konlpy
import nltk
import matplotlib.pyplot as plt

# 품사 태깅 수행
sentence = u'만 6세 이하의 초등학교 취학 전 자녀를 양육하기 위해서는'
words = konlpy.tag.Okt().pos(sentence)

# 구(Chunk) 문법을 정의
grammar = """
NP: {<N.*>*<Suffix>?}   # 명사구
VP: {<V.*>*}            # 동사구
AP: {<A.*>*}            # 형용사구
"""
# 정규 표현식 기반 파서를 생성
parser = nltk.RegexpParser(grammar)

# 구(Chunk) 추출
chunks = parser.parse(words)

# 전체 트리 구조를 출력
print("# 전체 트리 구조 출력")
print(chunks.pprint())

# 명사구(NP)만 출력
print("\n# 명사구(NP)만 출력")
for subtree in chunks.subtrees():
    if subtree.label() == 'NP':
        print(' '.join((e[0] for e in list(subtree))))
        print(subtree.pprint())

# 동사구(VP)만 출력
print("\n# 동사구(VP)만 출력")
for subtree in chunks.subtrees():
    if subtree.label() == 'VP':
        print(' '.join((e[0] for e in list(subtree))))
        print(subtree.pprint())


# 전체 트리 구조 출력
(S
  (NP 만/Noun 6/Number 세/Noun 이하/Noun)
  의/Josa
  (NP 초등학교/Noun 취학/Noun 전/Noun 자녀/Noun)
  를/Josa
  (NP 양육/Noun)
  (VP 하기/Verb)
  (NP 위/Noun)
  (VP 해서는/Verb))
None

# 명사구(NP)만 출력
만 6 세 이하
(NP 만/Noun 6/Number 세/Noun 이하/Noun)
None
초등학교 취학 전 자녀
(NP 초등학교/Noun 취학/Noun 전/Noun 자녀/Noun)
None
양육
(NP 양육/Noun)
None
위
(NP 위/Noun)
None

# 동사구(VP)만 출력
하기
(VP 하기/Verb)
None
해서는
(VP 해서는/Verb)
None
