# NLP_문장의 단어로 분할하기
> 한국어 문장을 단어로 분할하고, 형태소를 분석한다. 

## 라이브러리 설치 필요(nltk, konlpy)

In [10]:
# !pip install nltk 
# !pip install konlpy

In [33]:
# 라이브러리 불러오기
import nltk
# nltk.download() # 데이터 다운로드
from konlpy.tag import Okt
import sys
from collections import Counter

In [2]:
# Okt 객체 생성
okt = Okt()

# 형태소 분석해보기
malist = okt.pos("눈이 싫어하는 것을 사랑하는 것은 내 가슴이니, 보이는 것에 상관없이 기꺼이 사랑에 빠져든다", norm=True, stem=True)
print(malist)

[('눈', 'Noun'), ('이', 'Josa'), ('싫어하다', 'Adjective'), ('것', 'Noun'), ('을', 'Josa'), ('사랑', 'Noun'), ('하다', 'Verb'), ('것', 'Noun'), ('은', 'Josa'), ('내', 'Noun'), ('가슴', 'Noun'), ('이니', 'Josa'), (',', 'Punctuation'), ('보이다', 'Verb'), ('것', 'Noun'), ('에', 'Josa'), ('상관없다', 'Adjective'), ('기꺼이', 'Adverb'), ('사랑', 'Noun'), ('에', 'Josa'), ('빠져들다', 'Verb')]


In [3]:
# 형태소 분석해보기2
malist2 = okt.pos("그대 잔인한 만큼 현명하길, 지나친 경멸로 내 침묵하는 인내를 괴롭히지 말기를", norm=True, stem=True)
print(malist2)

[('그대', 'Noun'), ('잔인하다', 'Adjective'), ('만큼', 'Noun'), ('현명하다', 'Adjective'), (',', 'Punctuation'), ('지나치다', 'Verb'), ('경멸', 'Noun'), ('로', 'Josa'), ('내', 'Noun'), ('침묵', 'Noun'), ('하다', 'Verb'), ('인내', 'Noun'), ('를', 'Josa'), ('괴롭히다', 'Verb'), ('말기', 'Noun'), ('를', 'Josa')]


In [4]:
print(type(malist2))

<class 'list'>


In [5]:
# 문장에 포함된 형태소를 mor list에 저장
mor = []
for i in malist:
    # print(type(i))
    print(i[1])
    mor.append(i[1])
    
mor

# 중복 제거
mor = list(set(mor))
print(mor)

Noun
Josa
Adjective
Noun
Josa
Noun
Verb
Noun
Josa
Noun
Noun
Josa
Punctuation
Verb
Noun
Josa
Adjective
Adverb
Noun
Josa
Verb
['Punctuation', 'Verb', 'Adjective', 'Adverb', 'Noun', 'Josa']


## 품사별로 정리하기
> 위에서 뽑은 형태소 분석 데이터는 list type이며, 각 값들은 tuple 형태이다. 각 값들을 형태소 군별로 분리하여 분석해본다. 

In [6]:
# 두 list 통합
total_li = malist+malist2

# 동사(를 포함한 특정 품사) 탐색하는 함수
def find_verb(li, mor):
    search_keyword = mor
    mor_li=[i for i in li if search_keyword in i]
    return mor_li

In [14]:
# 전체 list 품사별로 분리
mod = sys.modules[__name__]

for i in mor:
    setattr(mod, 'mor_{}'.format(i), find_verb(total_li, i))

In [15]:
mor_Adjective 

[('싫어하다', 'Adjective'),
 ('상관없다', 'Adjective'),
 ('잔인하다', 'Adjective'),
 ('현명하다', 'Adjective')]

In [16]:
mor_Adverb

[('기꺼이', 'Adverb')]

In [17]:
mor_Josa

[('이', 'Josa'),
 ('을', 'Josa'),
 ('은', 'Josa'),
 ('이니', 'Josa'),
 ('에', 'Josa'),
 ('에', 'Josa'),
 ('로', 'Josa'),
 ('를', 'Josa'),
 ('를', 'Josa')]

In [18]:
mor_Noun

[('눈', 'Noun'),
 ('것', 'Noun'),
 ('사랑', 'Noun'),
 ('것', 'Noun'),
 ('내', 'Noun'),
 ('가슴', 'Noun'),
 ('것', 'Noun'),
 ('사랑', 'Noun'),
 ('그대', 'Noun'),
 ('만큼', 'Noun'),
 ('경멸', 'Noun'),
 ('내', 'Noun'),
 ('침묵', 'Noun'),
 ('인내', 'Noun'),
 ('말기', 'Noun')]

In [19]:
mor_Verb

[('하다', 'Verb'),
 ('보이다', 'Verb'),
 ('빠져들다', 'Verb'),
 ('지나치다', 'Verb'),
 ('하다', 'Verb'),
 ('괴롭히다', 'Verb')]

## 보다 긴 문장 시험해보기
> 위에서는 비교적 간단한 문장으로 형태소 분석을 해보았다. 이번에는 한 문단에 해당하는 글을 넣어보자.

In [28]:
# 텍스트 파일 불러오기
with open('sonet121.txt', 'r', encoding='utf-8') as f:
    lines = f.readline()
    
lines

'비열하다 평가되는 것보다는 진짜 비열한 것이 더 낫다. 그렇지도 않은데, 그렇다며 비난받고, 우리의 생각이 아니라 타인들의 시선에 의해서 그렇게 간주되어 당연한 즐거움을 잃을 바에는. 어찌하여 타인의 그릇되고 불순한 눈들이 내 즐거운 혈기에 대해 알은체하는가? 나보다 더 저열한 이가 내 잘못에 대해 염탐하며, 내가 좋다고 생각하는 것을 그들 마음대로 나쁘다 단정짓는가? 됐다, 나는 나이니, 나를 욕하는 이들은 자신의 잘못이나 되돌아보기를. 내가 바르고 그들이 비뚤어졌을지도 모르니. 그들의 야비한 생각으로 내 행동이 평가되어서는 안 된다. 모든 사람은 악하며 그 악함으로 군림하려는 보편적인 사악함을 그들이 지니고 있는 것이 아니라면.'

In [29]:
# Okt 객체 생성
okt = Okt()

# 형태소 분석해보기
paragraph_list = okt.pos(lines, norm=True, stem=True)
print(paragraph_list)

[('비열하다', 'Adjective'), ('평가', 'Noun'), ('되다', 'Verb'), ('것', 'Noun'), ('보다는', 'Josa'), ('진짜', 'Noun'), ('비열하다', 'Adjective'), ('것', 'Noun'), ('이', 'Josa'), ('더', 'Noun'), ('낫다', 'Noun'), ('.', 'Punctuation'), ('그렇다', 'Adjective'), ('않다', 'Verb'), (',', 'Punctuation'), ('그렇다', 'Adjective'), ('비난', 'Noun'), ('받다', 'Verb'), (',', 'Punctuation'), ('우리', 'Noun'), ('의', 'Josa'), ('생각', 'Noun'), ('이', 'Josa'), ('아니다', 'Adjective'), ('타인', 'Noun'), ('들', 'Suffix'), ('의', 'Josa'), ('시선', 'Noun'), ('에', 'Josa'), ('의하다', 'Adjective'), ('그렇게', 'Adverb'), ('간주', 'Noun'), ('되어다', 'Verb'), ('당연하다', 'Adjective'), ('즐거움', 'Noun'), ('을', 'Josa'), ('잃다', 'Verb'), ('바', 'Noun'), ('에는', 'Josa'), ('.', 'Punctuation'), ('어찌하여', 'Noun'), ('타인', 'Noun'), ('의', 'Josa'), ('그릇되다', 'Adjective'), ('불순', 'Noun'), ('한', 'Josa'), ('눈', 'Noun'), ('들', 'Suffix'), ('이', 'Josa'), ('내', 'Noun'), ('즐겁다', 'Adjective'), ('혈기', 'Noun'), ('에', 'Josa'), ('대해', 'Noun'), ('알은체', 'Noun'), ('하다', 'Verb'), ('?', 'Punctuation'), ('나'

In [30]:
# 품사 리스트 만들기
def make_mor_li(li):
    mor_li=[]
    for i in li:
        mor_li.append(i[1])
    mor_li = list(set(mor_li))
    return mor_li

mor_li = make_mor_li(paragraph_list)

['Punctuation', 'Verb', 'Adjective', 'Adverb', 'Noun', 'Suffix', 'Josa']

In [37]:
# 동사 체크
verb = find_verb(paragraph_list, 'Verb')
count = Counter(verb)
count.most_common(6)

[(('하다', 'Verb'), 5),
 (('되다', 'Verb'), 2),
 (('되어다', 'Verb'), 2),
 (('않다', 'Verb'), 1),
 (('받다', 'Verb'), 1),
 (('잃다', 'Verb'), 1)]

In [38]:
# 형용사 체크
adj = find_verb(paragraph_list, 'Adjective')
count = Counter(adj)
count

Counter({('비열하다', 'Adjective'): 2,
         ('그렇다', 'Adjective'): 2,
         ('아니다', 'Adjective'): 2,
         ('의하다', 'Adjective'): 1,
         ('당연하다', 'Adjective'): 1,
         ('그릇되다', 'Adjective'): 1,
         ('즐겁다', 'Adjective'): 1,
         ('좋다', 'Adjective'): 1,
         ('나쁘다', 'Adjective'): 1,
         ('야비하다', 'Adjective'): 1,
         ('악하다', 'Adjective'): 2,
         ('사악하다', 'Adjective'): 1,
         ('있다', 'Adjective'): 1})

In [40]:
# 명사 체크
noun = find_verb(paragraph_list, 'Noun')
count = Counter(noun)
count.most_common(5)

[(('내', 'Noun'), 5),
 (('그', 'Noun'), 5),
 (('것', 'Noun'), 4),
 (('생각', 'Noun'), 3),
 (('평가', 'Noun'), 2)]