# soynlp

한국어 분석을 위한 pure python code 입니다. 학습데이터를 이용하지 않으면서 데이터에 존재하는 단어를 찾거나, 문장을 단어열로 분해, 혹은 품사 판별을 할 수 있는 비지도학습 접근법을 지향합니다.

soynlp 에서 제공하는 WordExtractor 나 NounExtractor 는 여러 개의 문서로부터 학습한 통계 정보를 이용하여 작동합니다. 비지도학습 기반 접근법들은 통계적 패턴을 이용하여 단어를 추출하기 때문에 하나의 문장 혹은 문서에서 보다는 어느 정도 규모가 있는 동일한 집단의 문서 (homogeneous documents) 에서 잘 작동합니다. 영화 댓글들이나 하루의 뉴스 기사처럼 같은 단어를 이용하는 집합의 문서만 모아서 Extractors 를 학습하시면 좋습니다. 이질적인 집단의 문서들은 하나로 모아 학습하면 단어가 잘 추출되지 않습니다.

### Setup

In [None]:
 !pip install soynlp

### Noun Extractor

In [11]:
from soynlp.utils import DoublespaceLineCorpus
corpus_path = '2016-10-20.txt'
sents = DoublespaceLineCorpus(corpus_path, iter_sent=True)
#sents=['우왕 코모란도 오픈소스가 되었어요']

In [12]:
from soynlp.noun import LRNounExtractor
noun_extractor = LRNounExtractor()
nouns1 = noun_extractor.train_extract(sents) # list of str like

[Noun Extractor] used default noun predictor; Sejong corpus predictor
[Noun Extractor] used noun_predictor_sejong
[Noun Extractor] All 2398 r features was loaded
[Noun Extractor] scanning was done (L,R) has (160030, 81637) tokens
[Noun Extractor] building L-R graph was done000 / 223357 sents
[Noun Extractor] 26634 nouns are extracted


In [13]:
nouns1

{'4위': NounScore_v1(frequency=86, score=0.841787224137931, known_r_ratio=0.9830508474576272),
 '무참': NounScore_v1(frequency=7, score=0.992198, known_r_ratio=0.42857142857142855),
 '재민': NounScore_v1(frequency=5, score=0.75232875, known_r_ratio=1.0),
 '늘씬': NounScore_v1(frequency=20, score=0.9938078947368421, known_r_ratio=1.0),
 '키트': NounScore_v1(frequency=18, score=0.7882281, known_r_ratio=1.0),
 '권리': NounScore_v1(frequency=1035, score=0.9384321777301928, known_r_ratio=0.9579487179487179),
 '본당': NounScore_v1(frequency=26, score=0.9446927777777776, known_r_ratio=1.0),
 '생가': NounScore_v1(frequency=18, score=0.9986608571428571, known_r_ratio=0.4375),
 '1매': NounScore_v1(frequency=16, score=0.999605, known_r_ratio=0.3333333333333333),
 '입찰': NounScore_v1(frequency=196, score=0.6393817575757575, known_r_ratio=0.6226415094339622),
 '박멸': NounScore_v1(frequency=8, score=0.7429095, known_r_ratio=0.75),
 '점주': NounScore_v1(frequency=12, score=0.9991603000000001, known_r_ratio=1.0),
 '끔찍': 

In [14]:
from soynlp.noun import NewsNounExtractor
noun_extractor = NewsNounExtractor()
nouns2 = noun_extractor.train_extract(sents) # list of str like

used default noun predictor; Sejong corpus based logistic predictor
C:/ProgramData/Anaconda3/lib/site-packages/soynlp
local variable 'f' referenced before assignment
local variable 'f' referenced before assignment
scan vocabulary ... 
done (Lset, Rset, Eojeol) = (658116, 363342, 403882)
predicting noun score was done                                        
before postprocessing 237871
_noun_scores_ 50196
checking hardrules ... done0 / 50196+(이)), NVsubE (사기(당)+했다) ... done
after postprocessing 36027
extracted 2365 compounds from eojeolss ... 87000 / 87714

In [15]:
nouns2

{'독자제공': NewsNounScore(score=0, frequency=26, feature_proportion=0, eojeol_proportion=1.0, n_positive_feature=0, unique_positive_feature_proportion=0),
 '총격현장': NewsNounScore(score=0, frequency=5, feature_proportion=0, eojeol_proportion=1.0, n_positive_feature=0, unique_positive_feature_proportion=0),
 '연합뉴스자료사진': NewsNounScore(score=0, frequency=40, feature_proportion=0, eojeol_proportion=1.0, n_positive_feature=0, unique_positive_feature_proportion=0),
 '원전사태': NewsNounScore(score=0, frequency=4, feature_proportion=0, eojeol_proportion=1.0, n_positive_feature=0, unique_positive_feature_proportion=0),
 '자료사진': NewsNounScore(score=0, frequency=377, feature_proportion=0.0, eojeol_proportion=0.9973474801061007, n_positive_feature=0, unique_positive_feature_proportion=0),
 '군사기술': NewsNounScore(score=0, frequency=5, feature_proportion=0, eojeol_proportion=1.0, n_positive_feature=0, unique_positive_feature_proportion=0),
 '잠수함발사탄도미사일': NewsNounScore(score=0, frequency=18, feature_proportio

In [13]:
from soynlp.noun import LRNounExtractor_v2
noun_extractor = LRNounExtractor_v2(verbose=True)
nouns3 = noun_extractor.train_extract(sents)

[Noun Extractor] use default predictors
[Noun Extractor] num features: pos=1260, neg=1173, common=12
[Noun Extractor] counting eojeols
[EojeolCounter] n eojeol = 403896 from 223357 sents. mem=0.827 Gb                    
[Noun Extractor] complete eojeol counter -> lr graph
[Noun Extractor] has been trained. #eojeols=4434442, mem=0.973 Gb
[Noun Extractor] batch prediction was completed for 146445 words
[Noun Extractor] checked compounds. discovered 69793 compounds
[Noun Extractor] postprocessing detaching_features : 118538 -> 101025
[Noun Extractor] postprocessing ignore_features : 101025 -> 100918
[Noun Extractor] postprocessing ignore_NJ : 100918 -> 100496
[Noun Extractor] 100496 nouns (69793 compounds) with min frequency=1
[Noun Extractor] flushing was done. mem=1.085 Gb                    
[Noun Extractor] 80.22 % eojeols are covered


In [14]:
nouns3

{'고흥웰빙유자석류특구': NounScore(frequency=13, score=1.0),
 '북한인권국제협력대사': NounScore(frequency=7, score=1.0),
 '전국새마을지도자대회': NounScore(frequency=25, score=1.0),
 '한미연례안보협의회의': NounScore(frequency=26, score=1.0),
 '경기창조경제혁신센터': NounScore(frequency=41, score=1.0),
 '아우디폭스바겐코리아': NounScore(frequency=139, score=1.0),
 '한국방송광고진흥공사': NounScore(frequency=11, score=1.0),
 '국립해양문화재연구소': NounScore(frequency=13, score=1.0),
 '농촌융복합산업사업자': NounScore(frequency=5, score=1.0),
 '전남여성일자리박람회': NounScore(frequency=4, score=1.0),
 '광주창조경제혁신센터': NounScore(frequency=6, score=1.0),
 '거점국립대총장협의회': NounScore(frequency=2, score=1.0),
 '한국교원단체총연합회': NounScore(frequency=2, score=0.6666666666666666),
 '순천만국제교향악축제': NounScore(frequency=3, score=1.0),
 '한국지역대학연합회의': NounScore(frequency=4, score=1.0),
 '5272만7800주': NounScore(frequency=2, score=1.0),
 '한국정보통신진흥협회': NounScore(frequency=4, score=1.0),
 '의결권행사전문위원회': NounScore(frequency=2, score=1.0),
 '국립줄기세포재생센터': NounScore(frequency=14, score=1.0),
 '부산글로벌종합촬영소': NounScore(f

In [15]:
list(noun_extractor._compounds_components.items())[:5]

[('잠수함발사탄도미사일', ('잠수함', '발사', '탄도미사일')),
 ('미사일대응능력위원회', ('미사일', '대응', '능력', '위원회')),
 ('글로벌녹색성장연구소', ('글로벌', '녹색성장', '연구소')),
 ('시카고옵션거래소', ('시카고', '옵션', '거래소')),
 ('대한민국특수임무유공', ('대한민국', '특수', '임무', '유공'))]

### LTokenizer

L parts 에는 명사/동사/형용사/부사가 위치할 수 있습니다. 어절에서 L 만 잘 인식한다면 나머지 부분이 R parts 가 됩니다. LTokenizer 에는 L parts 의 단어 점수를 입력합니다.

In [17]:
from soynlp.tokenizer import LTokenizer

scores = {'데이':0.5, '데이터':0.5, '데이터마이닝':0.5, '공부':0.5, '공부중':0.45}
tokenizer = LTokenizer(scores=scores)

sent = '데이터마이닝을 공부한다'

print(tokenizer.tokenize(sent, flatten=False))
#[['데이터마이닝', '을'], ['공부', '중이다']]

print(tokenizer.tokenize(sent))
# ['데이터마이닝', '을', '공부', '중이다']

[('데이터마이닝', '을'), ('공부', '한다')]
['데이터마이닝', '을', '공부', '한다']


만약 WordExtractor 를 이용하여 단어 점수를 계산하였다면, 단어 점수 중 하나를 택하여 scores 를 만들 수 있습니다. 아래는 Forward cohesion 의 점수만을 이용하는 경우입니다. 그 외에도 다양하게 단어 점수를 정의하여 이용할 수 있습니다.

In [20]:
from soynlp.word import WordExtractor
from soynlp.utils import DoublespaceLineCorpus

file_path = '2016-10-20.txt'
corpus = DoublespaceLineCorpus(file_path, iter_sent=True)

word_extractor = WordExtractor(
    min_frequency=100, # example
    min_cohesion_forward=0.05,
    min_right_branching_entropy=0.0
)

word_extractor.train(corpus)
words = word_extractor.extract()

cohesion_score = {word:score.cohesion_forward for word, score in words.items()}
tokenizer = LTokenizer(scores=cohesion_score)

training was done. used memory 1.554 Gb
all cohesion probabilities was computed. # words = 16942
all branching entropies was computed # words = 355061
all accessor variety was computed # words = 355061


In [23]:
words

{'킬': Scores(cohesion_forward=0, cohesion_backward=0, left_branching_entropy=1.1691421745453585, right_branching_entropy=1.8682557309398882, left_accessor_variety=23, right_accessor_variety=33, leftside_frequency=117, rightside_frequency=547),
 '정': Scores(cohesion_forward=0, cohesion_backward=0, left_branching_entropy=4.820589072122775, right_branching_entropy=4.256819540774882, left_accessor_variety=484, right_accessor_variety=386, leftside_frequency=35310, rightside_frequency=10081),
 '험': Scores(cohesion_forward=0, cohesion_backward=0, left_branching_entropy=1.6486614968422426, right_branching_entropy=4.495352516313444, left_accessor_variety=18, right_accessor_variety=178, leftside_frequency=111, rightside_frequency=1843),
 '뒷': Scores(cohesion_forward=0, cohesion_backward=0, left_branching_entropy=3.3325202270297383, right_branching_entropy=0.10239245498738406, left_accessor_variety=53, right_accessor_variety=2, leftside_frequency=466, rightside_frequency=0),
 '셔': Scores(cohesion

### MaxScoreTokenizer

띄어쓰기가 제대로 지켜지지 않은 데이터라면, 문장의 띄어쓰기 기준으로 나뉘어진 단위가 L + [R] 구조라 가정할 수 없습니다. 하지만 사람은 띄어쓰기가 지켜지지 않은 문장에서 익숙한 단어부터 눈에 들어옵니다. 이 과정을 모델로 옮긴 MaxScoreTokenizer 역시 단어 점수를 이용합니다.

In [24]:
from soynlp.tokenizer import MaxScoreTokenizer

scores = {'파스': 0.3, '파스타': 0.7, '좋아요': 0.2, '좋아':0.5}
tokenizer = MaxScoreTokenizer(scores=scores)

print(tokenizer.tokenize('난파스타가좋아요'))
# ['난', '파스타', '가', '좋아', '요']

print(tokenizer.tokenize('난파스타가 좋아요', flatten=False))
# [[('난', 0, 1, 0.0, 1), ('파스타', 1, 4, 0.7, 3),  ('가', 4, 5, 0.0, 1)],
#  [('좋아', 0, 2, 0.5, 2), ('요', 2, 3, 0.0, 1)]]

['난', '파스타', '가', '좋아', '요']
[[('난', 0, 1, 0.0, 1), ('파스타', 1, 4, 0.7, 3), ('가', 4, 5, 0.0, 1)], [('좋아', 0, 2, 0.5, 2), ('요', 2, 3, 0.0, 1)]]


MaxScoreTokenizer 역시 WordExtractor 의 결과를 이용하실 때에는 위의 예시처럼 적절히 scores 를 만들어 사용합니다. 이미 알려진 단어 사전이 있다면 이 단어들은 다른 어떤 단어보다도 더 큰 점수를 부여하면 그 단어는 토크나이저가 하나의 단어로 잘라냅니다.

### RegexTokenizer

규칙 기반으로도 단어열을 만들 수 있습니다. 언어가 바뀌는 부분에서 우리는 단어의 경계를 인식합니다. 예를 들어 "아이고ㅋㅋㅜㅜ진짜?" 는 [아이고, ㅋㅋ, ㅜㅜ, 진짜, ?]로 쉽게 단어열을 나눕니다.

In [25]:
from soynlp.tokenizer import RegexTokenizer

tokenizer = RegexTokenizer()

print(tokenizer.tokenize('이렇게연속된문장은잘리지않습니다만'))
# ['이렇게연속된문장은잘리지않습니다만']

print(tokenizer.tokenize('숫자123이영어abc에섞여있으면ㅋㅋ잘리겠죠'))
# ['숫자', '123', '이영어', 'abc', '에섞여있으면', 'ㅋㅋ', '잘리겠죠']

['이렇게연속된문장은잘리지않습니다만']
['숫자', '123', '이영어', 'abc', '에섞여있으면', 'ㅋㅋ', '잘리겠죠']


  ('english & latin', re.compile(u"[a-zA-ZÀ-ÿ]+[[`']?s]*|[a-zA-ZÀ-ÿ]+", re.UNICODE))
