# 참고자료 : KoNLPY 공식홈페이지
https://konlpy.org/ko/v0.4.3/api/konlpy.tag/#konlpy.tag._kkma.Kkma

In [4]:
import pandas as pd
train= pd.read_csv('korean-hate-speech/labeled/train.tsv' ,sep='\t')
dev= pd.read_csv('korean-hate-speech/labeled/dev.tsv' ,sep='\t')

# 1. Hannanum

#### KAIST의 SWRC (Semantic Web Research Center)에서 Java로 작성된 형태소 분석기 및 POS 태거
- analyze(phrase) : 구문 분석기

- morphs(phrase) : 형태소 분석 Parse phrase to morphemes.

- nouns(phrase) : 명사 추출기

- pos(phrase, ntags=9, flatten=True) :POS tagger.(HMM 기반이며, 태그의 확률을 계산함)


In [2]:
from konlpy.tag import Hannanum
hannanum = Hannanum()
print("\n구문 : ")
print(hannanum.analyze('롯데마트의 흑마늘 양념 치킨이 논란이 되고 있다.'))
print("\n형태소 : ")
print(hannanum.morphs('롯데마트의 흑마늘 양념 치킨이 논란이 되고 있다.'))
print("\n명사 : ")
print(hannanum.nouns('롯데마트의 흑마늘 양념 치킨이 논란이 되고 있다.'))
print("\nPOS tagger : ")
print(hannanum.pos('롯데마트의 흑마늘 양념 치킨이 논란이 되고 있다.'))


구문 : 
[[[('롯데마트', 'ncn'), ('의', 'jcm')], [('롯데마트의', 'ncn')], [('롯데마트', 'nqq'), ('의', 'jcm')], [('롯데마트의', 'nqq')]], [[('흑마늘', 'ncn')], [('흑마늘', 'nqq')]], [[('양념', 'ncn')]], [[('치킨', 'ncn'), ('이', 'jcc')], [('치킨', 'ncn'), ('이', 'jcs')], [('치킨', 'ncn'), ('이', 'ncn')]], [[('논란', 'ncpa'), ('이', 'jcc')], [('논란', 'ncpa'), ('이', 'jcs')], [('논란', 'ncpa'), ('이', 'ncn')]], [[('되', 'nbu'), ('고', 'jcj')], [('되', 'nbu'), ('이', 'jp'), ('고', 'ecc')], [('되', 'nbu'), ('이', 'jp'), ('고', 'ecs')], [('되', 'nbu'), ('이', 'jp'), ('고', 'ecx')], [('되', 'paa'), ('고', 'ecc')], [('되', 'paa'), ('고', 'ecs')], [('되', 'paa'), ('고', 'ecx')], [('되', 'pvg'), ('고', 'ecc')], [('되', 'pvg'), ('고', 'ecs')], [('되', 'pvg'), ('고', 'ecx')], [('되', 'px'), ('고', 'ecc')], [('되', 'px'), ('고', 'ecs')], [('되', 'px'), ('고', 'ecx')]], [[('있', 'paa'), ('다', 'ef')], [('있', 'px'), ('다', 'ef')]], [[('.', 'sf')], [('.', 'sy')]]]

형태소 : 
['롯데마트', '의', '흑마늘', '양념', '치킨', '이', '논란', '이', '되', '고', '있', '다', '.']

명사 : 
['롯데마트', '흑마늘', '양념', '치킨'

# 2. Kkma

#### 서울대 지능형 데이터 시스템 (IDS) 연구실에서 개발 한 자바로 작성된 형태소 분석기 및 자연어 처리 시스템
- morphs(phrase) : Parse phrase to morphemes.

- nouns(phrase) : Noun extractor.

- pos(phrase, flatten=True) :POS tagger.

- sentences(phrase) :Sentence detection.

In [3]:
from konlpy.tag import Kkma
kkma = Kkma()
print("\n형태소 :")
print(kkma.morphs('롯데마트의 흑마늘 양념 치킨이 논란이 되고 있다.'))
print("\n명사 :")
print(kkma.nouns('롯데마트의 흑마늘 양념 치킨이 논란이 되고 있다.'))
print("\npos태거 :")
print(kkma.pos('롯데마트의 흑마늘 양념 치킨이 논란이 되고 있다.'))
print("\n문장감지 :")
print(kkma.sentences('롯데마트의 흑마늘 양념 치킨이 논란이 되고 있다.'))


형태소 :
['롯데', '마트', '의', '흑', '마늘', '양념', '치킨', '이', '논란', '이', '되', '고', '있', '다', '.']

명사 :
['롯데', '롯데마트', '마트', '흑', '흑마늘', '마늘', '양념', '치킨', '논란']

pos태거 :
[('롯데', 'NNP'), ('마트', 'NNG'), ('의', 'JKG'), ('흑', 'NNG'), ('마늘', 'NNG'), ('양념', 'NNG'), ('치킨', 'NNG'), ('이', 'JKS'), ('논란', 'NNG'), ('이', 'JKC'), ('되', 'VV'), ('고', 'ECE'), ('있', 'VXV'), ('다', 'EFN'), ('.', 'SF')]

문장감지 :
['롯데 마트의 흑 마늘 양념 치킨이 논란이 되고 있다.']


- **명사만 추출한 경우, 합성어에 존재하는 모든 명사를 분해해서 제공 (빈도를 기반으로 분석한다면 처리해야 함)**

# 3. Komoran

#### 2013 년부터 Shineware에서 개발한 Java로 작성된 비교적 새로운 오픈 소스 한국어 형태소 분석기

- morphs : 형태소
- nouns : 명사
- pos : pos태거

In [4]:
from konlpy.tag import Komoran
Komoran = Komoran()
print("\n형태소 :pos")
print(Komoran.morphs('롯데마트의 흑마늘 양념 치킨이 논란이 되고 있다.'))
print("\n명사 :pos")
print(Komoran.nouns('롯데마트의 흑마늘 양념 치킨이 논란이 되고 있다.'))
print("\npos태거 :pos")
print(Komoran.pos('롯데마트의 흑마늘 양념 치킨이 논란이 되고 있다.'))


형태소 :pos
['롯데마트', '의', '흑', '마늘', '양념', '치킨', '이', '논란', '이', '되', '고', '있', '다', '.']

명사 :pos
['롯데마트', '흑', '마늘', '양념', '치킨', '논란']

pos태거 :pos
[('롯데마트', 'NNP'), ('의', 'JKG'), ('흑', 'NNG'), ('마늘', 'NNP'), ('양념', 'NNG'), ('치킨', 'NNP'), ('이', 'JKS'), ('논란', 'NNG'), ('이', 'JKS'), ('되', 'VV'), ('고', 'EC'), ('있', 'VX'), ('다', 'EF'), ('.', 'SF')]


# 4. Mecab

#### 일본 형태소 분석가에 의해 개발되었지만 추후 한국어에 적합하게 수정됨

In [5]:
from konlpy.tag import Mecab

mecab = Mecab(dicpath="C:\\mecab\\mecab-ko-dic")

print("\n형태소 :")
print(mecab.morphs('롯데마트의 흑마늘 양념 치킨이 논란이 되고 있다'))
print("\n명사 :")
print(mecab.nouns('롯데마트의 흑마늘 양념 치킨이 논란이 되고 있다.'))
print("\npos태거 :")
print(mecab.pos('롯데마트의 흑마늘 양념 치킨이 논란이 되고 있다.'))


형태소 :
['롯데마트', '의', '흑', '마늘', '양념', '치킨', '이', '논란', '이', '되', '고', '있', '다']

명사 :
['롯데마트', '마늘', '양념', '치킨', '논란']

pos태거 :
[('롯데마트', 'NNP'), ('의', 'JKG'), ('흑', 'IC'), ('마늘', 'NNG'), ('양념', 'NNG'), ('치킨', 'NNG'), ('이', 'JKS'), ('논란', 'NNG'), ('이', 'JKS'), ('되', 'VV'), ('고', 'EC'), ('있', 'VX'), ('다', 'EF'), ('.', 'SF')]


# 5. Okt : 과거 Twitter

#### 한국어 트위터 기반으로 작성된 라이브러리
- morphs : 형태소
- nouns : 명사
- pos : pos태거

In [6]:
from konlpy.tag import Okt
okt = Okt()
print("\n형태소 :pos")
print(okt.morphs('롯데마트의 흑마늘 양념 치킨이 논란이 되고 있다.'))
print("\n명사 :pos")
print(okt.nouns('롯데마트의 흑마늘 양념 치킨이 논란이 되고 있다.'))
print("\npos태거 :pos")
print(okt.pos('롯데마트의 흑마늘 양념 치킨이 논란이 되고 있다.'))


형태소 :pos
['롯데', '마트', '의', '흑마', '늘', '양념', '치킨', '이', '논란', '이', '되고', '있다', '.']

명사 :pos
['롯데', '마트', '흑마', '늘', '양념', '치킨', '논란']

pos태거 :pos
[('롯데', 'Noun'), ('마트', 'Noun'), ('의', 'Josa'), ('흑마', 'Noun'), ('늘', 'Noun'), ('양념', 'Noun'), ('치킨', 'Noun'), ('이', 'Josa'), ('논란', 'Noun'), ('이', 'Josa'), ('되고', 'Verb'), ('있다', 'Adjective'), ('.', 'Punctuation')]


- 명사만 추출한 경우, 합성어에 존재하는 모든 명사를 분해해서 제공 (빈도를 기반으로 분석한다면 처리해야 함)
- 심지어, 흑마늘에서 '흑마'와 '늘'을 따로 구분함

# 형태소 분석기 속도 비교 

In [7]:
#7896개 데이터셋 적용
train

Unnamed: 0,comments,contain_gender_bias,bias,hate
0,(현재 호텔주인 심정) 아18 난 마른하늘에 날벼락맞고 호텔망하게생겼는데 누군 계속...,False,others,hate
1,....한국적인 미인의 대표적인 분...너무나 곱고아름다운모습...그모습뒤의 슬픔을...,False,none,none
2,"...못된 넘들...남의 고통을 즐겼던 넘들..이젠 마땅한 처벌을 받아야지..,그래...",False,none,hate
3,"1,2화 어설펐는데 3,4화 지나서부터는 갈수록 너무 재밌던데",False,none,none
4,1. 사람 얼굴 손톱으로 긁은것은 인격살해이고2. 동영상이 몰카냐? 메걸리안들 생각...,True,gender,hate
...,...,...,...,...
7891,힘내세요~ 응원합니다!!,False,none,none
7892,힘내세요~~삼가 고인의 명복을 빕니다..,False,none,none
7893,힘내세용 ^^ 항상 응원합니닷 ^^ !,False,none,none
7894,힘내소...연기로 답해요.나도 53살 인데 이런일 저런일 다 있더라구요.인격을 믿습...,False,none,none


# 전체 시간 비교

In [None]:
import time
from konlpy.tag import Hannanum,Kkma, Mecab,Twitter, Komoran

library_list = [('hannanum',Hannanum()),
                ('kkma', Kkma()), ('Komoran', Komoran()),
                ('mecab',Mecab(dicpath="C:\\mecab\\mecab-ko-dic")),
                ('twitter', Twitter())]
results = []
for name, tagger in library_list:
    nouns = []
    process_time = time.time()
    
    for text in train['comments']:
        nouns.append(tagger.nouns(text))
    process_time = time.time() - process_time
    print('tagger name = %10s, %.3f secs' % (name, process_time))
    results.append((name,process_time))

  warn('"Twitter" has changed to "Okt" since KoNLPy v0.4.5.')


tagger name =   hannanum, 36.426 secs
tagger name =       kkma, 285.910 secs


In [None]:
for name, tagger in library_list:
    nouns = []
    process_time = time.time()
    
    for text in train['comments']:
        nouns.append(tagger.nouns(text))
    process_time = time.time() - process_time
    print('tagger name = %10s, %.3f secs' % (name, process_time))
    results.append((name,process_time))

# 5가지 명사 분석 비교

실질적으로 악플데이터셋을 분석하기 위해서 악플 데이터셋에 최적화된 형태소 분석기가 필요함<br>
즉, 아래 5가지 샘플을 통해 각각의 형태소 분석기의 성능을 비교하여 추후 사용할 라이브러리를 최종선정하고자 함
1. '(현재 호텔주인 심정) 아18 난 마른하늘에 날벼락맞고 호텔망하게생겼는데 누군 계속 추모받네....'
    - 띄어쓰기 올바르지 않은 구조, 18의 욕설


2. '....한국적인 미인의 대표적인 분...너무나 곱고아름다운모습...그모습뒤의 슬픔을 미처 알지못했네요ㅠ'
     - 띄어쓰기 올바르지 않은 구조


3. '1. 사람 얼굴 손톱으로 긁은것은 인격살해이고2. 동영상이 몰카냐? 메걸리안들 생각이 없노'
    - 숫자, 매걸리안 등 새로운 단어
  
  
4. '10+8 진짜 이승기랑 비교된다'
    - 숫자로 비꼬는 문장
  
  
5. '180이하 호빗 한남들은 결혼 하지마셈 ㅋ 돈없으면 연애도 하지마셈 ㅋ 니들 호빗 유전자 받아서 고통받을 네 후손은 뭔죄임?'
    - ㅋ 하나 있는 문장, 음슴체

In [1]:
texts = ['(현재 호텔주인 심정) 아18 난 마른하늘에 날벼락맞고 호텔망하게생겼는데 누군 계속 추모받네....',
        '....한국적인 미인의 대표적인 분...너무나 곱고아름다운모습...그모습뒤의 슬픔을 미처 알지못했네요ㅠ',
        '1. 사람 얼굴 손톱으로 긁은것은 인격살해이고2. 동영상이 몰카냐? 메걸리안들 생각이 없노',
        '10+8 진짜 이승기랑 비교된다',
        '180이하 호빗 한남들은 결혼 하지마셈 ㅋ 돈없으면 연애도 하지마셈 ㅋ 니들 호빗 유전자 받아서 고통받을 네 후손은 뭔죄임?']

In [2]:
import time
from konlpy.tag import Hannanum,Kkma, Mecab,Okt, Komoran

library_list = [('hannanum',Hannanum()),
                ('kkma', Kkma()), ('Komoran', Komoran()),
                ('mecab',Mecab(dicpath="C:\\mecab\\mecab-ko-dic")),
                ('Okt', Okt())]
results = []
for name, tagger in library_list:
    nouns = []
    process_time = time.time()
    
    for text in texts:
        nouns.append(tagger.nouns(text))
    process_time = time.time() - process_time
    print('tagger name = %10s, %.3f secs' % (name, process_time))
    results.append((name,nouns))

tagger name =   hannanum, 1.152 secs
tagger name =       kkma, 11.624 secs
tagger name =    Komoran, 0.025 secs
tagger name =      mecab, 0.002 secs
tagger name =        Okt, 3.147 secs


In [23]:
result_df = pd.DataFrame(results, columns=['형태소 분석기','내용'])
result_df.set_index(result_df['형태소 분석기'], drop=True,inplace=True)
result_df

Unnamed: 0_level_0,형태소 분석기,내용
형태소 분석기,Unnamed: 1_level_1,Unnamed: 2_level_1
hannanum,hannanum,"[[호텔주인, 심정, 아18, 마른하늘, 날벼락맞고, 호텔망하게생겼는데, 누, 추모..."
kkma,kkma,"[[현재, 호텔, 호텔주인, 주인, 심정, 18, 마른, 마른하늘, 하늘, 날벼락,..."
Komoran,Komoran,"[[호텔, 주인, 심정, 아, 18, 하늘, 날벼락, 호텔, 망, 추모], [한국,..."
mecab,mecab,"[[현재, 호텔, 주인, 심정, 난, 하늘, 날벼락, 호텔, 누군, 추모], [한국..."
Okt,Okt,"[[현재, 호텔, 주인, 심정, 난, 마른하늘, 날벼락, 호텔, 누, 계속, 추모]..."


In [46]:
def name_num(name,num):
    print('\n\'',name, '분석 결과입니다.')
    print(result_df.loc[name,'내용'][num])

In [59]:
name_num('hannanum',0)
name_num('kkma',0)
name_num('Komoran',0)
name_num('mecab',0)
name_num('Okt',0)


' hannanum 분석 결과입니다.
['호텔주인', '심정', '아18', '마른하늘', '날벼락맞고', '호텔망하게생겼는데', '누', '추모']

' kkma 분석 결과입니다.
['현재', '호텔', '호텔주인', '주인', '심정', '18', '마른', '마른하늘', '하늘', '날벼락', '누', '누군', '군', '계속', '추모']

' Komoran 분석 결과입니다.
['호텔', '주인', '심정', '아', '18', '하늘', '날벼락', '호텔', '망', '추모']

' mecab 분석 결과입니다.
['현재', '호텔', '주인', '심정', '난', '하늘', '날벼락', '호텔', '누군', '추모']

' Okt 분석 결과입니다.
['현재', '호텔', '주인', '심정', '난', '마른하늘', '날벼락', '호텔', '누', '계속', '추모']


- hannanum : 명사 추출 시, 동사 및 띄어쓰기 구분 못함
- kkma : 명사 추출 시, 합성어의 경우 반복적으로 명사 도출 => 빈도수 분석 불가
- **Komaran : 명사 추출 시, 18의 숫자도 들어옴**
- **Mecab : 명사 추출 시 가장 깔끔하게 명사를 뽑음**
- Okt : 명사 추출 시, 나름 괜찮은 성능

In [60]:
name_num('hannanum',1)
name_num('kkma',1)
name_num('Komoran',1)
name_num('mecab',1)
name_num('Okt',1)


' hannanum 분석 결과입니다.
['한국적', '미인', '대표적', '분', '곱고아름다운모습', '그모습뒤', '알지못했네요ㅠ']

' kkma 분석 결과입니다.
['한국적', '미인', '대표적', '분', '모습', '모습뒤', '뒤', '슬픔', 'ㅠ']

' Komoran 분석 결과입니다.
['한국', '미인', '대표', '분', '모습', '모습', '뒤', '슬픔']

' mecab 분석 결과입니다.
['한국', '미인', '대표', '분', '모습', '모습', '뒤', '슬픔']

' Okt 분석 결과입니다.
['한국', '미인', '대표', '분', '곱', '모습', '모습', '뒤', '슬픔', '미처']


In [61]:
name_num('hannanum',2)
name_num('kkma',2)
name_num('Komoran',2)
name_num('mecab',2)
name_num('Okt',2)


' hannanum 분석 결과입니다.
['1.', '사람', '얼굴', '손톱', '것', '인격살해이고2', '동영상', '몰카냐', '메걸리안들', '생각', '없노']

' kkma 분석 결과입니다.
['1', '사람', '얼굴', '손톱', '인격', '인격살해', '살해', '2', '동영상', '카', '메', '메걸리안', '걸리', '안', '생각', '없노']

' Komoran 분석 결과입니다.
['사람', '얼굴', '손톱', '것', '인격', '살해', '이고', '동영상', '몰', '메', '걸리', '안', '생각']

' mecab 분석 결과입니다.
['사람', '얼굴', '손톱', '것', '인격', '살해', '동영상', '몰카', '걸리', '안들', '생각']

' Okt 분석 결과입니다.
['사람', '얼굴', '손톱', '인격', '살해', '동영상', '몰카', '메걸', '리안', '생각']


In [62]:
name_num('hannanum',3)
name_num('kkma',3)
name_num('Komoran',3)
name_num('mecab',3)
name_num('Okt',3)


' hannanum 분석 결과입니다.
['10+8', '진짜', '이승기', '비교']

' kkma 분석 결과입니다.
['10', '8', '승기', '비교']

' Komoran 분석 결과입니다.
['이승기', '비교']

' mecab 분석 결과입니다.
['이승기', '비교']

' Okt 분석 결과입니다.
['진짜', '이승기', '비교']


In [63]:
name_num('hannanum',4)
name_num('kkma',4)
name_num('Komoran',4)
name_num('mecab',4)
name_num('Okt',4)


' hannanum 분석 결과입니다.
['180', '호빗', '한남들', '결혼', '하지마셈', 'ㅋ', '돈', '연애', '하지마셈', 'ㅋ', '니들', '호빗', '유전자', '네', '후손', '뭔죄']

' kkma 분석 결과입니다.
['180', '180이하', '이하', '호', '호빗', '빗', '한남', '결혼', '마', '마셈', '셈', 'ㅋ', '돈', '연애', '니들', '유전자', '고통', '후손', '죄', '죄임', '임']

' Komoran 분석 결과입니다.
['이하', '호빗', '남', '결혼', '셈', '돈', '연애', '셈', '니들', '호빗', '유전자', '고통', '후손', '죄']

' mecab 분석 결과입니다.
['이하', '남', '결혼', '셈', '돈', '연애', '셈', '니', '유전자', '고통', '후손', '죄']

' Okt 분석 결과입니다.
['이하', '호빗', '한남', '결혼', '셈', '돈', '연애', '셈', '니', '호빗', '유전자', '고통', '네', '후손', '죄임']


# 분석 결과

- Komoran 과 mecab 형태소 분석기가 가장 적합하다고 판단
1. Komoran
    - 많은 단어 명사를 포함시킴 (ex. 호빗까지도) 
    - 간혹 noise 존재 가능( ex. '몰', '메', '걸리', '안', )
2. Mecab 
    - 가장 정제되고 안정된 단어 print
    - 그러나 호빗 같은 단어는 없음 ( 단어장에 없는 단어는 추출 안되는 현상 )