[KoNLPy](http://konlpy.org/ko/latest) 는 Python에서 한국어 텍스트의 전처리를 할 수 있도록 토크나이징 / 품사 태깅 / 명사 추출을 하는 Packages입니다. 

KoNLPy에는 트위터 형태소 분석기, 한나눔, 꼬꼬마, 코모란, 한국어-매캅 등 다양한 종류의 공개된 한국어 형태소 분석기들이 들어있습니다. 각 형태소 분석기마다 구현된 언어가 다릅니다. 특히 자바로 구현된 형태소 분석기들을 사용하기 위해서 JPype1을 먼저 설치하여야 합니다. 

이번 실습에서는 꼬꼬마, 트위터 분석기, 한나눔을 이용하겠습니다. 

In [1]:
from konlpy.tag import Kkma, Twitter, Hannanum
from pprint import pprint

여러 개의 형태소 분석기를 비교하기 위해서 각 형태소 분석기들을 이름과 함께 tuple로 만들어, 이를 list에 넣어둡니다. 

In [2]:
taggers = [('kkma', Kkma()), ('twitter', Twitter()), ('hannanum', Hannanum())]

print를 할 때 %s는 해당 자리에 str이 들어간다는 의미입니다. 해당되는 값은 % 뒤의 튜플 안에 넣어줄 수 있습니다. 

String format에 넣을 수 있는 것들은 %d (int), %f (float), %r (boolean) 등이 있습니다. 

%10s를 이용하면 우측 정렬로 해당 str의 길이가 10보다 짧을 경우, 나머지를 모두 빈 칸으로 채워줍니다. 

In [3]:
for tagger in taggers:
    name = tagger[0]       # tagger라는 tuple의 0번째 요소
    tagger = tagger[1]     # tagger라는 tuple의 1번째 요소
    print('tagger name = %10s\tclass_name = %s' % (name, tagger.__class__))

tagger name =       kkma	class_name = <class 'konlpy.tag._kkma.Kkma'>
tagger name =    twitter	class_name = <class 'konlpy.tag._twitter.Twitter'>
tagger name =   hannanum	class_name = <class 'konlpy.tag._hannanum.Hannanum'>


비슷하게 %.3f를 이용하면 float의 소수점 3자리 까지만 출력해줍니다. 

In [4]:
'%.3f' % 1.3205533

'1.321'

참고로 [https://pyformat.info/](https://pyformat.info/) 를 살펴보면 {}를 이용하는 format도 볼 수 있습니다. %s를 이용하면 타입을 지정할 수 있다는 장점도 있습니다. 

taggers list 안의 자료들이 다른 자료 2개로 이뤄진 튜플이란 것을 알기 때문에 

    for tagger in taggers:
    
대신, tagger[0], tagger[1]을 미리 지정할 수 있습니다. 

    for name, tagger in taggers:

In [5]:
for name, tagger in taggers:
    print('tagger name = %10s\tclass_name = %s' % (name, tagger.__class__))

tagger name =       kkma	class_name = <class 'konlpy.tag._kkma.Kkma'>
tagger name =    twitter	class_name = <class 'konlpy.tag._twitter.Twitter'>
tagger name =   hannanum	class_name = <class 'konlpy.tag._hannanum.Hannanum'>


함수를 실행는 시간을 보고 싶을 때에는 %%time 예약어를 이용하면 좋습니다

패키지마다 품사표가 다릅니다. Hannanum에서 '이건'이란 어절이 [('이', 'N'), ('이', 'J'), ('건', 'E')]으로 나오는 것은 '이'라는 글자가 명사(N), 조사(J)가 있기 때문입니다

In [6]:
%%time
print('pos_tagger name = %s' % taggers[2][0])
pprint(taggers[2][1].pos('이건 테스트 문장입니다'))

pos_tagger name = hannanum
[('이', 'N'),
 ('이', 'J'),
 ('건', 'E'),
 ('테스트', 'N'),
 ('문장', 'N'),
 ('이', 'J'),
 ('ㅂ니다', 'E')]
CPU times: user 2.02 s, sys: 128 ms, total: 2.15 s
Wall time: 612 ms


패키지마다 품사표가 좀 다릅니다. 각 품사표를 확인하고 싶다면 [KoNLPy][konlpy_page]의 [품사 태그 비교표][tag_table]를 보셔도 좋고, 아래와 같이 각 형태소 분석기의 태그셋을 확인하셔도 좋습니다

[konlpy_page]: http://konlpy.org/ko/v0.4.4/morph/
[tag_table]: https://docs.google.com/spreadsheets/d/1OGAjUvalBuX-oZvZ_-9tEfYD2gQe7hTGsgUpiiBSXI8/edit#gid=0

In [7]:
print('pos_tagger name = %s' % taggers[0][0])
pprint(taggers[0][1].tagset)

pos_tagger name = kkma
{'EC': '연결 어미',
 'ECD': '의존적 연결 어미',
 'ECE': '대등 연결 어미',
 'ECS': '보조적 연결 어미',
 'EF': '종결 어미',
 'EFA': '청유형 종결 어미',
 'EFI': '감탄형 종결 어미',
 'EFN': '평서형 종결 어미',
 'EFO': '명령형 종결 어미',
 'EFQ': '의문형 종결 어미',
 'EFR': '존칭형 종결 어미',
 'EP': '선어말 어미',
 'EPH': '존칭 선어말 어미',
 'EPP': '공손 선어말 어미',
 'EPT': '시제 선어말 어미',
 'ET': '전성 어미',
 'ETD': '관형형 전성 어미',
 'ETN': '명사형 전성 어미',
 'IC': '감탄사',
 'JC': '접속 조사',
 'JK': '조사',
 'JKC': '보격 조사',
 'JKG': '관형격 조사',
 'JKI': '호격 조사',
 'JKM': '부사격 조사',
 'JKO': '목적격 조사',
 'JKQ': '인용격 조사',
 'JKS': '주격 조사',
 'JX': '보조사',
 'MA': '부사',
 'MAC': '접속 부사',
 'MAG': '일반 부사',
 'MD': '관형사',
 'MDN': '수 관형사',
 'MDT': '일반 관형사',
 'NN': '명사',
 'NNB': '일반 의존 명사',
 'NNG': '보통명사',
 'NNM': '단위 의존 명사',
 'NNP': '고유명사',
 'NP': '대명사',
 'NR': '수사',
 'OH': '한자',
 'OL': '외국어',
 'ON': '숫자',
 'SE': '줄임표',
 'SF': '마침표, 물음표, 느낌표',
 'SO': '붙임표(물결,숨김,빠짐)',
 'SP': '쉼표,가운뎃점,콜론,빗금',
 'SS': '따옴표,괄호표,줄표',
 'SW': '기타기호 (논리수학기호,화폐기호)',
 'UN': '명사추정범주',
 'VA': '형용사',
 'VC': '지정사',
 'VCN': "부

In [8]:
print('pos_tagger name = %s' % taggers[1][0])
pprint(taggers[1][1].tagset)

pos_tagger name = twitter
{'Adjective': '형용사',
 'Adverb': '부사',
 'Alpha': '알파벳',
 'Conjunction': '접속사',
 'Determiner': '관형사',
 'Eomi': '어미',
 'Exclamation': '감탄사',
 'Foreign': '외국어, 한자 및 기타기호',
 'Hashtag': '트위터 해쉬태그',
 'Josa': '조사',
 'KoreanParticle': '(ex: ㅋㅋ)',
 'Noun': '명사',
 'Number': '숫자',
 'PreEomi': '선어말어미',
 'Punctuation': '구두점',
 'ScreenName': '트위터 아이디',
 'Suffix': '접미사',
 'Unknown': '미등록어',
 'Verb': '동사'}


12개로 이뤄진 실제 뉴스 기사에 대하여 각각의 형태소 분석기를 적용해 보겠습니다. 

In [9]:
sents = ['최순실 씨가 외국인투자촉진법 개정안 통과와 예산안 반영까지 꼼꼼이 챙긴 건데, 이른바 외촉법, 어떤 법이길래 최 씨가 열심히 챙긴 걸까요. 자신의 이해관계와 맞아 떨어지는 부분이 없었는지 취재기자와 한걸음 더 들여다보겠습니다. 이서준 기자, 우선 외국인투자촉진법 개정안, 어떤 내용입니까?',
        '한마디로 대기업이 외국 투자를 받아 계열사를 설립할 때 규제를 완화시켜 주는 법안입니다. 대기업 지주사의 손자 회사가 이른바 증손회사를 만들 때 지분 100%를 출자해야 합니다. 대기업의 문어발식 계열사 확장을 막기 위한 조치인데요. 외촉법 개정안은 손자회사가 외국 투자를 받아서 증손회사를 만들 땐 예외적으로 50% 지분만 투자해도 되게끔 해주는 내용입니다.',
        '그만큼 쉽게 완화해주는 거잖아요. 그때 기억을 더듬어보면 야당의 반발이 매우 심했습니다. 그 이유가 뭐였죠? ',
        '대기업 특혜 법안이라는 취지였는데요. (당연히 그랬겠죠.) 당시 박영선 의원의 국회 발언을 들어보시겠습니다. [박영선 의원/더불어민주당 (2013년 12월 31일) : 경제의 근간을 흔드는 법을 무원칙적으로 이렇게 특정 재벌 회사에게 특혜를 주기 위해 간청하는 민원법을 우리가 새해부터 왜 통과시켜야 합니까.]',
        '최순실 씨 사건을 쫓아가다 보면 본의 아니게 이번 정부의 과거로 올라가면서 복기하는 듯한 느낌이 드는데 이것도 바로 그중 하나입니다. 생생하게 기억합니다. 이 때 장면들은. 특정 재벌 회사를 위한 특혜라고 말하는데, 어떤 기업을 말하는 건가요?',
        'SK와 GS 입니다. 개정안이 통과되는 걸 전제로 두 회사는 외국 투자를 받아 증손회사 설립을 진행중이었기 때문인데요. 당시 개정안이 통과되지 않으면 두 기업이 수조원의 손실이 생길 수 있는 것으로 알려져 있었습니다. 허창수 GS 회장과 김창근 SK회장은 2013년 8월 박 대통령과 청와대에서 대기업 회장단 오찬자리에서 외촉법 통과를 요청한 바도 있습니다. ',
        '물론 두 기업과 최순실 씨와 연결고리가 나온 건 아니지만, 정 전 비서관 녹취파일 속 최 씨는 외촉법에 상당히 집착을 하는 걸로 보이긴 합니다.',
        '네 그렇습니다. 통화 내용을 다시 짚어보면요. 최 씨는 외촉법 관련 예산이 12월 2일, 반드시 되어야 한다, 작년 예산으로 돼서는 안 된다고 얘기하고 있는데요. 다시 말해서 외촉법 관련 예산안이 내년에 반영되어야 한다고 압박을 하고 있는 겁니다. 그러면서 "국민을 볼모로 잡고 있다"며 "국회와 정치권에 책임을 묻겠다"고 으름장까지 놓고 있는데요. 매우 집착하는 모습인데요. 이에 대해서 정 전 비서관이 "예산이 그렇게 빨리 통과된 적 없습니다"고 말하자 말을 끊으면서 매우 흥분한 듯, "그렇더라도, 그렇더라도" 하면서 "야당이 공약 지키라고 하면서 협조는 안 한다", "대통령으로 할 수 있는 일이 없다", "불공정 사태와 난맥상이 나온다"며 굉장한 압박까지 하고 있습니다.',
        '이 얘기들만 들여다봐도 마치 본인이 대통령처럼 얘기하고 있습니다. 내용들 보면 그렇지 않습니까? 혹시 최 씨가 이 외촉법 통과로 이득을 본 경우도 있습니까. ',
        '최 씨가 입김을 넣어 차은택 씨가 주도를 한 걸로 알려진 K컬처밸리 사업이 그렇다는 얘기가 나오고 있습니다. 외촉법을 편법으로 활용해 1% 금리를 적용받았다는 지적이 나오고 있습니다. 본격 사업이 추진되기 전 최순실 국정개입 사건이 터지기는 했지만, 이외에도 다른 혜택을 받았는지는 조사가 필요해 보입니다. ',
        '그런데 녹취파일을 보면 "남자1"이 등장합니다. 이 사람은 누구입니까?',
        '정 전 비서관을 "정 과장님"으로 부르며 반말을 하는 남자인데요. 최순실 씨처럼 정 전 비서관을 하대하고 있습니다. 또 청와대 내부 정보를 알고 있는 듯하고 또 인사에까지 개입하려고 하고 있습니다. 그렇기 때문에 정윤회 씨로 추정은 됩니다만 확인은 되지 않습니다.'
]

In [10]:
len(sents)

12

어떤 라이브러리를 쓸지 선택하기 전에, 내 데이터의 프로세싱 시간은 얼마나 걸리는지, 그리고 그 처리 품질은 어떤지 먼저 확인을 해야 합니다. 1개의 기사에 대하여 각각의 형태소 분석기 별 프로세싱 시간을 비교하였습니다.

    time.time()
    
은 컴퓨터 시간의 기준점으로부터의 현재 시간을 초단위로 나타내 줍니다. 그렇기 때문에 작업 전의 시간을 

    process_time = time.time()
    
으로 정한 뒤, 작업이 모두 끝난 시간을 빼주면, 작업 시간이 초 단위로 계산됩니다. 

    ...
    
    process_time = time.time() - process_time

각 tagger의 결과물은 tokens 안에 넣어둡니다. 

In [11]:
import time

tokens = []

for name, tagger in taggers:
    
    process_time = time.time()
    _tokens = []
    
    for sent in sents:
        _tokens += tagger.pos(sent)
        
    process_time = time.time() - process_time
    tokens.append(_tokens)
    
    print('tagger name = %10s, %.3f secs' % (name, process_time))

tagger name =       kkma, 6.787 secs
tagger name =    twitter, 0.799 secs
tagger name =   hannanum, 0.121 secs


whos 명령어는 현재 파일의 kernel이 메모리에 올려둔 변수들을 보여줍니다. 이 때 앞에 under-bar, _ 가 들어간 변수들은 whos에 보이지 않습니다. 

In [12]:
whos

Variable       Type        Data/Info
------------------------------------
Hannanum       type        <class 'konlpy.tag._hannanum.Hannanum'>
Kkma           type        <class 'konlpy.tag._kkma.Kkma'>
Twitter        type        <class 'konlpy.tag._twitter.Twitter'>
name           str         hannanum
pprint         function    <function pprint at 0x7eff570396a8>
process_time   float       0.12050938606262207
sent           str         정 전 비서관을 "정 과장님"으로 부르며 반말<...> 씨로 추정은 됩니다만 확인은 되지 않습니다.
sents          list        n=12
tagger         Hannanum    <konlpy.tag._hannanum.Han<...>object at 0x7eff48c9bc88>
taggers        list        n=3
time           module      <module 'time' (built-in)>
tokens         list        n=3


모든 토큰을 그대로 나열해 보는 것은 무리가 있어보입니다. 형태소 분석기 별로 고유한 단어와 그 개수를 세어보겠습니다. 그리고 그 전에도 '최순실'이라는 이름이 꼬꼬마 형태소 분석기에서 '최', '순', '실'로 나누어지는 것이 보이네요. 이는 꼬꼬마 형태소 분석기가 학습할 때, '최순실'이라는 이름이 학습데이터에 없었기 때문입니다. 이를 주로 out of vocabulary problem이라 부릅니다. 

In [13]:
print(tokens[0])

[('최', 'NNP'), ('순', 'NNG'), ('실', 'NNG'), ('씨', 'NNB'), ('가', 'JKS'), ('외국인', 'NNG'), ('투자', 'NNG'), ('촉진법', 'NNG'), ('개정안', 'NNG'), ('통과', 'NNG'), ('와', 'JC'), ('예산안', 'NNG'), ('반영', 'NNG'), ('까지', 'JX'), ('꼼꼼이', 'MAG'), ('챙기', 'VV'), ('ㄴ', 'ETD'), ('것', 'NNB'), ('이', 'VCP'), ('ㄴ데', 'ECD'), (',', 'SP'), ('이른바', 'MAG'), ('외촉', 'NNG'), ('법', 'NNG'), (',', 'SP'), ('어떤', 'MDT'), ('법', 'NNG'), ('이', 'VCP'), ('길래', 'ECD'), ('최', 'NNP'), ('씨', 'NNB'), ('가', 'JKS'), ('열심히', 'MAG'), ('챙기', 'VV'), ('ㄴ', 'ETD'), ('걸', 'VV'), ('ㄹ까요', 'EFQ'), ('.', 'SF'), ('자신', 'NNG'), ('의', 'JKG'), ('이해관계', 'NNG'), ('와', 'JKM'), ('맞', 'VV'), ('아', 'ECD'), ('떨어지', 'VV'), ('는', 'ETD'), ('부분', 'NNG'), ('이', 'JKS'), ('없', 'VA'), ('었', 'EPT'), ('는지', 'ECS'), ('취재', 'NNG'), ('기자', 'NNG'), ('와', 'JKM'), ('한걸음', 'NNG'), ('더', 'MAG'), ('들여다보', 'VV'), ('겠', 'EPT'), ('습니다', 'EFN'), ('.', 'SF'), ('이서', 'NNG'), ('주', 'VV'), ('ㄴ', 'ETD'), ('기자', 'NNG'), (',', 'SP'), ('우선', 'MAG'), ('외국인', 'NNG'), ('투자', 'NNG'), ('촉진법', 'NNG'

각 단어들이 몇 번 등장하였는지 그 횟수를 카운팅하겠습니다. 이 때 가장 좋지 않은 방법인 (1) dict를 이용하는 법, 조금 더 나은 (2) defaultdict를 이용하는 법, (3) collections.Counter를 이용하는 법을 모두 살펴봅니다. 

In [14]:
counter = {}
for word in tokens[0]:
    if word in counter:
        counter[word] = counter[word] + 1
    else:
        counter[word] = 1   

print(list(counter.items())[:5], '...')

[(('으로', 'JKM'), 9), (('지', 'VXV'), 2), (('라는', 'ETD'), 1), (('쫓아가', 'VV'), 1), (('통과', 'NNG'), 7)] ...


정렬은 sorted를 이용합니다. sorted 함수의 key를 통하여 정렬의 기준을 지정할 수 있습니다. 

lambda는 이름이 없는 함수를 의미합니다. counter는 dict이므로 keys(), values, items()를 가집니다. 이 때 items()의 return은 [(key, value), (key, value), ...] 형태이기 때문에 정렬 대상 (key, value)를 x로 볼 때, x의 1번째 값 x[1]을 기준으로 정렬하라는 의미이며, 순서는 1, 2, 3, ..의 오름차순이 아닌 역순으로 하라는 의미입니다. 

sorted의 return type은 list이기 때문에 가장 앞쪽의 5개만 slice하여 살펴봅니다. 

In [15]:
# 정렬
sorted(counter.items(), key=lambda x:x[1], reverse=True)[:5]

[(('.', 'SF'), 37),
 (('을', 'JKO'), 24),
 (('이', 'JKS'), 20),
 (('"', 'SS'), 18),
 (('이', 'VCP'), 17)]

lambda 대신에 sorting 함수를 지정할 수도 있습니다. my_key는 x라는 값을 입력받아서 sorting에 이용할 변수를 만들어 줍니다. 이 때 함수 안에서 다양한 값의 변형을 할 수도 있습니다. reverse를 False로 하면서 같은 결과를 얻기 위해서는 return x[1] 대신 return -1 * x[1]을 해줄 수도 있습니다. 

In [16]:
def my_key(x):
    return -1 * x[1]

sorted(counter.items(), key=my_key)[:5]

[(('.', 'SF'), 37),
 (('을', 'JKO'), 24),
 (('이', 'JKS'), 20),
 (('"', 'SS'), 18),
 (('이', 'VCP'), 17)]

그런데 Python에서는 if word in counter: else: 와 같은 구문을 한 줄로 아름답게 코딩할 수 있도록 defaultdict를 제공해줍니다. dict.get(key, 0)과 같은 효과가 있습니다. 더해서 명사, tag의 첫 글자가 NN으로 시작하는 것만 선택해서 카운팅 하겠습니다.

In [17]:
from collections import defaultdict

counter = defaultdict(lambda: 0)
nouns = [word for word in tokens[0] if word[1][:2] == 'NN']

for word in nouns:
    counter[word] += 1
    
pprint(sorted(counter.items(), key=lambda x:x[1], reverse=True))

[(('법', 'NNG'), 11),
 (('씨', 'NNB'), 11),
 (('최', 'NNP'), 10),
 (('회사', 'NNG'), 8),
 (('외촉', 'NNG'), 8),
 (('통과', 'NNG'), 7),
 (('것', 'NNB'), 7),
 (('투자', 'NNG'), 6),
 (('정', 'NNG'), 6),
 (('개정안', 'NNG'), 5),
 (('대기업', 'NNG'), 5),
 (('전', 'NNG'), 5),
 (('순', 'NNG'), 5),
 (('실', 'NNG'), 5),
 (('내용', 'NNG'), 4),
 (('얘기', 'NNG'), 4),
 (('비서관', 'NNG'), 4),
 (('대통령', 'NNG'), 3),
 (('예산', 'NNG'), 3),
 (('월', 'NNM'), 3),
 (('증손', 'NNG'), 3),
 (('특혜', 'NNG'), 3),
 (('기업', 'NNG'), 3),
 (('박', 'NNG'), 3),
 (('때', 'NNG'), 3),
 (('외국', 'NNG'), 3),
 (('고', 'NNG'), 2),
 (('법안', 'NNG'), 2),
 (('반영', 'NNG'), 2),
 (('회장', 'NNG'), 2),
 (('관련', 'NNG'), 2),
 (('촉진법', 'NNG'), 2),
 (('지분', 'NNG'), 2),
 (('집착', 'NNG'), 2),
 (('외국인', 'NNG'), 2),
 (('남자', 'NNG'), 2),
 (('수', 'NNB'), 2),
 (('사업', 'NNG'), 2),
 (('완화', 'NNG'), 2),
 (('당시', 'NNG'), 2),
 (('기자', 'NNG'), 2),
 (('사건', 'NNG'), 2),
 (('때문', 'NNB'), 2),
 (('청와대', 'NNG'), 2),
 (('파일', 'NNG'), 2),
 (('설립', 'NNG'), 2),
 (('의원', 'NNG'), 2),
 (('예산안', 'NNG')

빈도수가 작은 경우도 많아서 좀 복잡해 보입니다. 최소한 2번 이상 나온 단어들만 살펴보겠습니다.

In [18]:
counter = {word:freq for word, freq in counter.items() if (freq >= 2) and (word[1][:2] == 'NN')}
pprint(sorted(counter.items(), key=lambda x:x[1], reverse=True))

[(('씨', 'NNB'), 11),
 (('법', 'NNG'), 11),
 (('최', 'NNP'), 10),
 (('외촉', 'NNG'), 8),
 (('회사', 'NNG'), 8),
 (('것', 'NNB'), 7),
 (('통과', 'NNG'), 7),
 (('투자', 'NNG'), 6),
 (('정', 'NNG'), 6),
 (('대기업', 'NNG'), 5),
 (('개정안', 'NNG'), 5),
 (('순', 'NNG'), 5),
 (('실', 'NNG'), 5),
 (('전', 'NNG'), 5),
 (('내용', 'NNG'), 4),
 (('얘기', 'NNG'), 4),
 (('비서관', 'NNG'), 4),
 (('특혜', 'NNG'), 3),
 (('대통령', 'NNG'), 3),
 (('기업', 'NNG'), 3),
 (('예산', 'NNG'), 3),
 (('박', 'NNG'), 3),
 (('증손', 'NNG'), 3),
 (('때', 'NNG'), 3),
 (('월', 'NNM'), 3),
 (('외국', 'NNG'), 3),
 (('고', 'NNG'), 2),
 (('법안', 'NNG'), 2),
 (('설립', 'NNG'), 2),
 (('반영', 'NNG'), 2),
 (('회장', 'NNG'), 2),
 (('영선', 'NNG'), 2),
 (('의원', 'NNG'), 2),
 (('계열사', 'NNG'), 2),
 (('집착', 'NNG'), 2),
 (('일', 'NNM'), 2),
 (('촉진법', 'NNG'), 2),
 (('개입', 'NNG'), 2),
 (('지분', 'NNG'), 2),
 (('기억', 'NNG'), 2),
 (('때문', 'NNB'), 2),
 (('외국인', 'NNG'), 2),
 (('남자', 'NNG'), 2),
 (('수', 'NNB'), 2),
 (('사업', 'NNG'), 2),
 (('녹취', 'NNG'), 2),
 (('완화', 'NNG'), 2),
 (('특정', 'NNG'), 

최순실 -> [최, 순, 실], 박영선 -> [박, 영선]으로 나눠진 걸 볼 수 있습니다. 그런데 적어도 지금 시기의 뉴스 분석을 하기 위해서는 놓쳐서는 안되는 이름같습니다.

그리고 카운팅을 하기 위해서는 사실 더 좋은 클래스를 Python에서 제공해 주고 있습니다. 위 작업을 가장 짧게 코딩해 보겠습니다.

In [19]:
from collections import Counter

counter = Counter(tokens[0])
counter = {word:freq for word, freq in counter.items() if (freq >= 4) and (word[1][:2] == 'NN')}
pprint(sorted(counter.items(), key=lambda x:x[1], reverse=True))

[(('씨', 'NNB'), 11),
 (('법', 'NNG'), 11),
 (('최', 'NNP'), 10),
 (('외촉', 'NNG'), 8),
 (('회사', 'NNG'), 8),
 (('것', 'NNB'), 7),
 (('통과', 'NNG'), 7),
 (('정', 'NNG'), 6),
 (('투자', 'NNG'), 6),
 (('순', 'NNG'), 5),
 (('대기업', 'NNG'), 5),
 (('개정안', 'NNG'), 5),
 (('실', 'NNG'), 5),
 (('전', 'NNG'), 5),
 (('내용', 'NNG'), 4),
 (('얘기', 'NNG'), 4),
 (('비서관', 'NNG'), 4)]


이제 모든 형태소 분석기들로부터, '최순실'이라는 이름이 제대로 잡혔는지, 그리고 빈도수가 4 이상인 명사들은 어떤 것들이 있는지를 확인해보겠습니다. 

두 개의 리스트에 있는 아이템을 동시에 가져오는 방법으로 zip이 있습니다. 이것 역시 Python의 매우 유용한 기능입니다. 

In [20]:
list_1 = [1, 2, 3, 4]
list_2 = ['a', 'b', 'c']

for entry_1, entry_2 in zip(list_1, list_2):
    print(entry_1, entry_2)

1 a
2 b
3 c


In [21]:
for (name, _), _tokens in zip(taggers, tokens):
    print('\n\nPart of speech tagger: %s' % name)
    counter = Counter(_tokens)
    counter = {word:freq for word, freq in counter.items() if (freq >= 4) and (word[1][:1] == 'N')}
    pprint(sorted(counter.items(), key=lambda x:x[1], reverse=True))



Part of speech tagger: kkma
[(('씨', 'NNB'), 11),
 (('법', 'NNG'), 11),
 (('최', 'NNP'), 10),
 (('외촉', 'NNG'), 8),
 (('회사', 'NNG'), 8),
 (('것', 'NNB'), 7),
 (('통과', 'NNG'), 7),
 (('정', 'NNG'), 6),
 (('투자', 'NNG'), 6),
 (('순', 'NNG'), 5),
 (('대기업', 'NNG'), 5),
 (('개정안', 'NNG'), 5),
 (('실', 'NNG'), 5),
 (('전', 'NNG'), 5),
 (('내용', 'NNG'), 4),
 (('얘기', 'NNG'), 4),
 (('비서관', 'NNG'), 4)]


Part of speech tagger: twitter
[(('씨', 'Noun'), 11),
 (('회사', 'Noun'), 8),
 (('외촉법', 'Noun'), 8),
 (('통과', 'Noun'), 7),
 (('이', 'Noun'), 6),
 (('대기업', 'Noun'), 5),
 (('개정안', 'Noun'), 5),
 (('정', 'Noun'), 5),
 (('최', 'Noun'), 5),
 (('전', 'Noun'), 5),
 (('최순실', 'Noun'), 5),
 (('요', 'Noun'), 4),
 (('내용', 'Noun'), 4),
 (('투자', 'Noun'), 4),
 (('비서', 'Noun'), 4),
 (('관', 'Noun'), 4)]


Part of speech tagger: hannanum
[(('외촉법', 'N'), 7),
 (('통과', 'N'), 7),
 (('대기업', 'N'), 5),
 (('최', 'N'), 5),
 (('말', 'N'), 5),
 (('전', 'N'), 5),
 (('개정안', 'N'), 5),
 (('최순실', 'N'), 5),
 (('비서관', 'N'), 4),
 (('것', 'N'), 4),
 (('회사'

모든 데이터에 적합할 정도로 universial corpus로부터 학습된 한국어 형태소 분석기는 '아직'까지는 없습니다. 그리고 한국어로 기술되었다고 하더라도, 차용한 글자만 한글일 뿐, 한국어는 아닌 언어들도 많이 있습니다. 특히 도메인 특수 용어들이 이에 해당합니다. 

사용할 수 있는 알고리즘들이 여러개일 경우에는 주어진 시간 안에 작업이 끝날 수 있는지와 주어진 데이터에 대한 형태소 분석기의 경향, 정성적 품질이 어느 정도인지 반드시 확인하고 이용하여야 합니다. 