In [1]:
from konlpy.tag import Kkma, Hannanum, Komoran, Okt, Mecab
from tqdm import tqdm, tqdm_pandas
from collections import Counter
import matplotlib.pyplot as plt
import seaborn as sns
import pandas as pd
import re
import emoji
import time

In [2]:
!pip install memory_profiler

Collecting memory_profiler
  Downloading memory_profiler-0.61.0-py3-none-any.whl (31 kB)
Installing collected packages: memory_profiler
Successfully installed memory_profiler-0.61.0


In [3]:
from memory_profiler import memory_usage


In [4]:
Kkma = Kkma()
okt = Okt()
Komoran = Komoran()
hannanum = Hannanum()
mecab = Mecab()
# Khaiii

# 형태소분석기

## 1. 비교 대상
- Kkma
- Okt
- Komoran
- Hannanum
- Mecab

## 2. 비교 주제

### (1) 시간
- 로딩 시간

### (2) 분석 범주
- 자소구분 여부
- 형태소 분석 정확도

### (3) 띄어쓰기 구분
- 띄어쓰기 구분 성능

### (4) 동일의미어 구분
- 동일한 의미를 가진 단어 구분 여부
- 오탈자 구분

### (5) 필요 환경
- Java
- numpy

### (6) 메모리 활용
- 메모리 과부화 여부

### (7) 미등록어 처리
- 미등록어 처리 성능
- 사전 추가 기능

## 3. 비교 정리

## 4. 결론

---
### 비교 주제

---
#### 1. 시간

In [None]:
df = pd.read_parquet('./data/test.parquet')

In [None]:
def time_test(tagger, text):
    time_sum = 0

    for sentence in tqdm(text):
        start = time.time()
        try:
            tagger.pos(sentence)
        except:
            pass
        end = time.time()

        time_sum = end - start
    
    return time_sum

In [None]:
time_check = df[:100]

texts = time_check['contents'][:]
time_list = []

for tagger in [Kkma, okt, Komoran, hannanum, mecab]:
    time_list.append(time_test(tagger, texts))

sns.set_style('whitegrid')

tagger = [Kkma, okt, Komoran, hannanum, mecab]:

plt.figure(figsize=(12,8))
plt.bar(tagger, time_list, color='g')
plt.title('tag time for 100 data')
plt.xticks(fontsize=14)
plt.ylabel('total time(s)')

---
#### (2) 분석 범주
- 자소구분 여부
- 형태소 분석 정확도

In [None]:
sent_list = df['keyword_dict'][0]['밀크']


for i in range(3):
    test_sentence = sent_list[i]
    print(f'text{i} : ', test_sentence, '\n')

    for tagger in [Kkma, okt, Komoran, hannanum, mecab]:
        print(f'{tagger} 형태소 분석기(noun) : ', tagger.noun(test_sentence), '\n')
        

    print('\n----------------------\n')
    
    for tagger in [Kkma, okt, Komoran, hannanum, mecab]:
        print(f'{tagger} 형태소 분석기(pos) : ', tagger.pos(test_sentence), '\n')

In [None]:
# 자소 구분
option1 = []

# 형태소 구분 방식
option2 = []

###############################
## 작성


nlpy_df = pd.DataFrame({'자소 구분' : option1, '형태소 구분 방식' : option2})
nlpy_df

---
#### (3) 띄어쓰기 구분
- 띄어쓰기 구분 성능

In [None]:
option3 = []


nlpy_df['띄어쓰기'] = option3

---
#### (4) 동일의미어 구분
- 동일한 의미를 가진 단어 구분 여부
- 오탈자 구분

In [None]:
noun_Kkma = []
noun_okt = []
noun_Komoran = []
noun_hannanum = []
noun_mecab = []

for text in df['contents']:
    
    noun_Kkma.append(Kkma.nouns(text))
    Kkma_memory = f"{memory_usage()[0]:.2f} MiB"

    noun_okt.append(okt.nouns(text))
    okt_memory = f"{memory_usage()[0]:.2f} MiB"

    noun_Komoran.append(Komoran.nouns(text))
    Komoran_memory = f"{memory_usage()[0]:.2f} MiB"

    noun_hannanum.append(hannanum.nouns(text))
    hannanum_memory = f"{memory_usage()[0]:.2f} MiB"

    noun_mecab.append(mecab.nouns(text))
    mecab_memory = f"{memory_usage()[0]:.2f} MiB"


Kkma_nouns_counter = Counter(noun_Kkma)
noun_Kkma_top = dict(Kkma_nouns_counter.most_common(100))

okt_nouns_counter = Counter(noun_okt)
noun_okt_top = dict(okt_nouns_counter.most_common(100))

Komoran_nouns_counter = Counter(noun_Komoran)
noun_Komoran_top = dict(Komoran_nouns_counter.most_common(100))

hannanum_nouns_counter = Counter(noun_hannanum)
noun_hannanum_top = dict(hannanum_nouns_counter.most_common(100))

mecab_nouns_counter = Counter(noun_mecab)
noun_mecab_top = dict(mecab_nouns_counter.most_common(100))

print(noun_Kkma_top)
print(noun_okt_top)
print(noun_Komoran_top)
print(noun_hannanum_top)
print(noun_mecab_top)

---
#### (5) 필요 환경?!?!?!(미완)
- Java Path 필요
    - Komoran
    - Mecab
- numpy

---
#### (6) 메모리 활용
- 메모리 과부화 여부

In [None]:
memory_dict = {'Kkma' : Kkma_memory, 'okt' : okt_memory, 'Komoran' : Komoran_memory, 'hannanum' : hannanum_memory, 'mecab' : mecab_memory}

for i in range(len(memory_dict)):
    key = memory_dict.keys()[i]
    value = memory_dict.get(key)
    print(f'{key} 메모리 사용량 : ', value)

---
#### (7) 미등록어 처리
- 미등록어 처리 성능
- 사전 추가 기능
    - Mecab은 미등록어 발생 시 사전 추가 가능

미등록 언어 구별자 찾기

In [None]:
Kkma.tagset

In [None]:
okt.tagset

In [None]:
Komoran.tagset

In [None]:
hannanum.tagset

In [None]:
mecab.tagset

미등록 언어 개수 및 종류 파악하기

In [None]:
pos_Kkma = []
pos_okt = []
pos_Komoran = []
pos_hannanum = []
pos_mecab = []

for text in tqdm(df['contents']):
    pos_Kkma.append(Kkma.pos(text))

for text in tqdm(df['contents']):
    pos_okt.append(okt.pos(text))

for text in tqdm(df['contents']):
    pos_Komoran.append(Komoran.pos(text))

for text in tqdm(df['contents']):
    pos_hannanum.append(hannanum.pos(text))

for text in tqdm(df['contents']):
    pos_mecab.append(mecab.pos(text))

# 미등록 언어 찾기
non_Kkma = []
non_okt = []
non_Komoran = []
non_hannanum = []
non_mecab = []

for i in pos_Kkma:
    if i[1] == ???:
        non_Kkma.append(i)
    else:
        pass

for i in pos_okt:
    if i[1] == ???:
        non_okt.append(i)
    else:
        pass

for i in pos_Komoran:
    if i[1] == ???:
        non_Komoran.append(i)
    else:
        pass

for i in pos_hannanum:
    if i[1] == ???:
        non_hannanum.append(i)
    else:
        pass

for i in pos_mecab:
    if i[1] == ???:
        non_mecab.append(i)
    else:
        pass

In [None]:
lenght_list = []
non_tagger_list = [non_Kkma, non_okt, non_Komoran, non_hannanum, non_mecab]:

for i in non_tagger_list:
    lenght_list.append(len(i))

sns.set_style('whitegrid')



plt.figure(figsize=(12,8))
plt.bar(non_tagger_list, lenght_list, color='b')
plt.title('tag unregistered language')
plt.xticks(fontsize=14)
plt.ylabel('Count')

## 3. 비교정리

## 4. 결론 : 

- 어쩌구저쩌구