# 형태소 분석(Konlpy의 Twitter와 Soynlp 비교)

In [50]:
from konlpy.tag import Twitter
from soynlp.tokenizer import LTokenizer, MaxScoreTokenizer

In [51]:
twitter_tag = Twitter()
l_tokenizer = LTokenizer()
max_tokenizer = MaxScoreTokenizer()

## 띄어쓰기가 잘 안 된 경우 

In [45]:
# 관련 texts
texts = ['난파스타가 좋아요', '이렇게연속된문장은잘리지않습니다만']

In [46]:
# twitter의 morphs 메소드
for text in texts:
    print(twitter_tag.morphs(text))

['난파', '스타', '가', '좋', '아요']
['이렇게', '연속', '된', '문장', '은', '잘리', '지', '않', '습니다만']


In [53]:
# soynlp의 l_tokenizer 메소드 
for text in texts:
    print(l_tokenizer.tokenize(text))

# 임의의 score를 부여한 경우 (등록된 단어는 점수 우선순위에 따라 따로 token화함)
l_tokenizer_score = LTokenizer(scores={'파스타': 1.0, '문장': 1.0})
for text in texts:
    print(l_tokenizer_score.tokenize(text))

print('=> score를 부여해도 띄어쓰기가 잘 안되면 소용 없음')

['난파스타가', '좋아요']
['이렇게연속된문장은잘리지않습니다만']
['난파스타가', '좋아요']
['이렇게연속된문장은잘리지않습니다만']
=> score를 부여해도 띄어쓰기가 잘 안되면 소용 없음


In [55]:
# soynlp의 max_tokenizer 메소드
for text in texts:
    print(max_tokenizer.tokenize(text))

# 임의의 score를 부여한 경우 (등록된 단어는 점수 우선순위에 따라 따로 token화함)
max_tokenizer_score = MaxScoreTokenizer(scores={'파스타': 1.0, '파스': 0.3, '문장': 1.0})
for text in texts:
    print(max_tokenizer_score.tokenize(text))

['난파스타가', '좋아요']
['이렇게연속된문장은잘', '리지않습니다만']
['난', '파스타', '가', '좋아요']
['이렇게연속된', '문장', '은잘리지않습니다만']


## 띄어쓰기가 잘 된 경우

In [56]:
# 관련 texts
texts = ['난 파스타가 좋아요'
        , '데이터마이닝을 공부한다'
        , '데이터분석을 위해서 데이터마이닝을 공부한다']

In [57]:
# twitter의 morphs 메소드 
for text in texts:
    print(twitter_tag.morphs(text))

['난', '파스타', '가', '좋', '아요']
['데이터마이닝', '을', '공부', '한', '다']
['데이터', '분석', '을', '위해서', '데이터마이닝', '을', '공부', '한', '다']


In [58]:
# soynlp의 l_tokenizer 메소드 
for text in texts:
    print(l_tokenizer.tokenize(text))

# 임의의 score를 부여한 경우 (등록된 단어는 점수 우선순위에 따라 따로 token화함)
scores={'데이터': 0.5, '데이터마이닝':0.5, '공부': 0.5, '파스타': 0.5}
l_tokenizer_score = LTokenizer(scores=scores)
for text in texts:
    print(l_tokenizer_score.tokenize(text))

['난', '파스타가', '좋아요']
['데이터마이닝을', '공부한다']
['데이터분석을', '위해서', '데이터마이닝을', '공부한다']
['난', '파스타', '가', '좋아요']
['데이터마이닝', '을', '공부', '한다']
['데이터', '분석을', '위해서', '데이터마이닝', '을', '공부', '한다']


In [59]:
# soynlp의 max_tokenizer 메소드
for text in texts:
    print(max_tokenizer.tokenize(text))

# 임의의 score를 부여한 경우 (등록된 단어는 점수 우선순위에 따라 따로 token화함)
max_tokenizer_score = MaxScoreTokenizer(scores=scores)
for text in texts:
    print(max_tokenizer_score.tokenize(text))

['난', '파스타가', '좋아요']
['데이터마이닝을', '공부한다']
['데이터분석을', '위해서', '데이터마이닝을', '공부한다']
['난', '파스타', '가', '좋아요']
['데이터마이닝', '을', '공부', '한다']
['데이터', '분석을', '위해서', '데이터마이닝', '을', '공부', '한다']


## 기능 분석 관련 소견 및 기타

- 속도와 tolerance 기능을 제외 한다면, soynlp의 LTokenizer의 필요성을 모르겠음 (MaxScoreTokenizer로 모두 대체 가능)
- 다루지 않은 것: soynlp의 RegexTokenizer, twitter의 nouns와 pos 메소드 

### 참고

- https://github.com/lovit/soynlp/blob/master/tutorials/tokenizer_usage.ipynb