In [45]:
# 형태소 = token
# 형태소 분석 = tokenize

# 패키지 설치

In [1]:
# pip install kiwipiepy

In [40]:
from kiwipiepy import Kiwi, Match
kiwi = Kiwi()

# Kiwi
- Kiwi (num_workers=0, model_path=None, load_default_dict=True, integrate_allomorph=True, model_type='knlm', typos=None, typo_cost_threshold=2.5)

1. num_workers (DEFAULT: 0)
    - num_workers= 0 : 현재 환경에서 사용가능한 모든 코어 활용
    - num_workers= 1 : 단일 코어만 활용
    - num_workers= 2이상 : 단어 추출 및 형태소 분석에 멀티 코어를 활용하여 조금 더 빠른 속도로 분석 진행 가능
2. model_path (DEFAULT: kiwipiepy_model패키지로부터 모델 경로 불러옴)
    - 형태소 분석 모델이 있는 경로 지정
3. load_default_dict
    - 추가 사전 로드 여부 (추가 사전 : 위키백과의 표제어 타이틀 모음)
    - True : 로딩 및 분석 시간이 증가하지만 다양한 고유명사를 좀 더 잘 잡아낼 수 있음
    - False : 분석 결과에 원치 않는 고유명사가 잡히는 것을 방지
4. integrate_allomorph
    - 의미는 동일하나, 음운 환경에 따라 형태가 달라지는 어미 자동 통합 여부
    - True / False
    - ex) '아/어', '았/었'
5. model_type
    - 형태소 분석에 사용할 언어 모델 지정
    - knlm 또는 sbg (상대적으로 느리지만 먼 거리에 있는 형태소 간의 관계 포착 가능한 강력한 모델)
6. typos
    - 형태소 분석시 간단한 오타 교정
    - None : 오타 교정 X
7. typo_cost_threshold
    - 오타 교정을 허용할 최대 오타 비용 설정

# 코퍼스로부터 미등록 단어 추출

## Kiwi.extract_words(texts, min_cnt, max_word_len, min_score)
- extract_words(texts, min_cnt=10, max_word_len=10, min_score=0.25, pos_score=-3.0, lm_filter=True)

1. texts
    - Iterable[str] 형태의 분석 대상 텍스트
2. min_cnt
    - 텍스트 내에서 추출 단어가 최소 몇 번 이상 등장하는 지 결정
    - 입력 텍스트가 클수록 값을 높여야 함
3. max_word_len
    - 추출할 단어의 최대 길이
    - 너무 크게 설정시 단어 스캔 시간이 길어지므로 적절하게 조정해야함
4. min_score
    - 추출할 단어의 최소 단어 점수 (DEFAULT : 0.25)
    - 낮출수록 단어가 아닌 형태가 추출될 가능성이 높아짐
    - 높을수록 추출되는 단어의 개수가 줄어듦
5. pos_score
    - 추출할 단어의 최소 명사 점수 (DEFAULT : -3)
    - 낮출수록 명사가 아닌 단어들이 추출될 가능성이 높음
    - 높을수록 추출되는 명사의 개수가 줄어듦
6. lm_filter
    - 품사 및 언어 모델을 이용한 필터링을 사용 여부
    - True / False

## Kiwi.extract_add_words(texts, min_cnt, max_word_len, min_score, pos_score)

# 사용자 사전 관리
<사전 목록 수정>
- 사전 추가 (개별) : kiwi.add_user_word ('형태(동사/형동사)', '품사')
    - 사용자 사전에 동사/형용사 추가시, 그 활용형도 함께 등재됨
- 사전 추가 (일괄) : kiwi.add_re_rule ('품사', '기존 데이터', '새로운 데이터', 패널티)
    - '해당 품사' 중 '기존 데이터'로 끝나는 것들을 -> '새로운 데이터'로 대체하여 일괄 삽입
    - 이 때 변형된 종결어미에는 '패널티'를 부여하여 원 형태소보다 우선하지 않도록 함
- 문자열 오타 교정 : kiwi.add_pre_analyzed_word('오타', [('기분석 형태', '품사', 시작점, 끝점), ('기분석 형태', '품사', 시작점, 끝점), ...., ('기분석 형태', '품사', 시작점, 끝점)], 패널티)

In [None]:
# 예시1

In [15]:
kiwi.add_user_word("김갑갑", "NNP")

True

In [16]:
kiwi.tokenize("김갑갑이 누구야")

[Token(form='김갑갑', tag='NNP', start=0, len=3),
 Token(form='이', tag='JKS', start=3, len=1),
 Token(form='누구', tag='NP', start=5, len=2),
 Token(form='야', tag='JKV', start=7, len=1)]

## 사전 추가 (개별) : kiwi.add_user_word
- 사용자 사전에 동사/형용사 추가시, 그 활용형도 함께 등재됨

In [None]:
# 예시2
# 사전에 등재되어 있지 않은 동사 `팅기다`를 분석하면, 엉뚱한 결과가 출력됨
# 형태소 `팅기/VV`를 사전에 등록시, 해당 형태소의 모든 활용형이 자동으로 추가됨# 따라서, `팅겼다`, `팅길` 등의 형태를 모두 분석 가능해짐

In [17]:
kiwi.tokenize('팅겼다')

[Token(form='팅', tag='NNG', start=0, len=1),
 Token(form='기', tag='VV', start=1, len=1),
 Token(form='었', tag='EP', start=1, len=1),
 Token(form='다', tag='EF', start=2, len=1)]

In [18]:
kiwi.add_user_word('팅기', 'VV')

True

In [19]:
kiwi.tokenize('팅겼다')

[Token(form='팅기', tag='VV', start=0, len=2),
 Token(form='었', tag='EP', start=1, len=1),
 Token(form='다', tag='EF', start=2, len=1)]

## 사전 추가 (일괄) : kiwi.add_re_rule

In [20]:
# 예시3
# 변형된 형태소를 일괄적으로 추가하여 대상 텍스트에 맞춰 분석 성능 증대.
kiwi.tokenize("안녕하세영, 제 이름은 이세영이에영. 학생이세영?")

[Token(form='안녕', tag='NNG', start=0, len=2),
 Token(form='하', tag='XSA', start=2, len=1),
 Token(form='세영', tag='EF', start=3, len=2),
 Token(form=',', tag='SP', start=5, len=1),
 Token(form='저', tag='NP', start=7, len=1),
 Token(form='의', tag='JKG', start=7, len=1),
 Token(form='이름', tag='NNG', start=9, len=2),
 Token(form='은', tag='JX', start=11, len=1),
 Token(form='이세영', tag='NNP', start=13, len=3),
 Token(form='이', tag='VCP', start=16, len=1),
 Token(form='에영', tag='EF', start=17, len=2),
 Token(form='.', tag='SF', start=19, len=1),
 Token(form='학생', tag='NNG', start=21, len=2),
 Token(form='이', tag='VCP', start=23, len=1),
 Token(form='세영', tag='EF', start=24, len=2),
 Token(form='?', tag='SF', start=26, len=1)]

In [None]:
# 종결어미(EF) 중 '요'로 끝나는 것들을 -> '영'으로 대체하여 일괄 삽입 
# 이 때 변형된 종결어미에는 -3의 패널티를 부여하여 원 형태소보다 우선하지 않도록 합니다.
# 새로 삽입된 형태소들이 반환됩니다

In [23]:
kiwi.add_re_rule('EF', '요$', '영', -3.0)

[]

In [24]:
# 동일한 문장을 재분석시, 분석 결과가 개선된 것을 확인 가능
kiwi.tokenize("안녕하세영, 제 이름은 이세영이에영. 님도 학생이세영?")

[Token(form='안녕', tag='NNG', start=0, len=2),
 Token(form='하', tag='XSA', start=2, len=1),
 Token(form='세영', tag='EF', start=3, len=2),
 Token(form=',', tag='SP', start=5, len=1),
 Token(form='저', tag='NP', start=7, len=1),
 Token(form='의', tag='JKG', start=7, len=1),
 Token(form='이름', tag='NNG', start=9, len=2),
 Token(form='은', tag='JX', start=11, len=1),
 Token(form='이세영', tag='NNP', start=13, len=3),
 Token(form='이', tag='VCP', start=16, len=1),
 Token(form='에영', tag='EF', start=17, len=2),
 Token(form='.', tag='SF', start=19, len=1),
 Token(form='님', tag='NNG', start=21, len=1),
 Token(form='도', tag='JX', start=22, len=1),
 Token(form='학생', tag='NNG', start=24, len=2),
 Token(form='이', tag='VCP', start=26, len=1),
 Token(form='세영', tag='EF', start=27, len=2),
 Token(form='?', tag='SF', start=29, len=1)]

## 문자열 오타 교정 : kiwi.add_pre_analyzed_word

In [None]:
# 예시 4
# 기분석 형태를 등록하여 원하는 대로 분석되지 않는 문자열을 교정 가능
# ex) `사겼대`는 오타가 들어간 형태라 제대로 분석되지 않습니다.

In [25]:
kiwi.tokenize('걔네 둘이 사겼대')

[Token(form='걔', tag='NP', start=0, len=1),
 Token(form='네', tag='XSN', start=1, len=1),
 Token(form='둘', tag='NR', start=3, len=1),
 Token(form='이', tag='JKS', start=4, len=1),
 Token(form='사', tag='NR', start=6, len=1),
 Token(form='기', tag='VV', start=7, len=1),
 Token(form='었', tag='EP', start=7, len=1),
 Token(form='대', tag='EF', start=8, len=1)]

In [None]:
# add_pre_analyzed_word : 교정

In [26]:
 kiwi.add_pre_analyzed_word('사겼대', ['사귀/VV', '었/EP', '대/EF'], -3)

True

In [27]:
kiwi.tokenize('걔네 둘이 사겼대')
# 단, 사귀/VV, 었/EP, 대/EF의 시작위치가 모두 6, 길이가 모두 3으로 잘못 잡히는 문제가 보입니다.
# 이를 고치기 위해서는 add_pre_analyzed_word시 각 형태소의 위치정보도 함께 입력해주어야합니다.

[Token(form='걔', tag='NP', start=0, len=1),
 Token(form='네', tag='XSN', start=1, len=1),
 Token(form='둘', tag='NR', start=3, len=1),
 Token(form='이', tag='JKS', start=4, len=1),
 Token(form='사귀', tag='VV', start=6, len=3),
 Token(form='었', tag='EP', start=6, len=3),
 Token(form='대', tag='EF', start=6, len=3)]

In [28]:
kiwi = Kiwi()
kiwi.add_pre_analyzed_word('사겼대', [('사귀', 'VV', 0, 2), ('었', 'EP', 1, 2), ('대', 'EF', 2, 3)], -3)
# 형태, 품사, 시작지점, 끝지점

True

In [29]:
kiwi.tokenize('걔네 둘이 사겼대')

[Token(form='걔', tag='NP', start=0, len=1),
 Token(form='네', tag='XSN', start=1, len=1),
 Token(form='둘', tag='NR', start=3, len=1),
 Token(form='이', tag='JKS', start=4, len=1),
 Token(form='사귀', tag='VV', start=6, len=2),
 Token(form='었', tag='EP', start=7, len=1),
 Token(form='대', tag='EF', start=8, len=1)]

### sbg
- SkipBigram(sbg)
- kiwi = Kiwi(model_type='sbg', typos='basic')
    - sbg : 기존의 knlm과 달리 먼 거리에 있는 형태소를 고려할 수 있는 더 강력한 언어 모델
    - basic : 간단한 오타 교정 기능 (시간 5~10초 소요)

In [33]:
kiwi = Kiwi(model_type='knlm')
kiwi.tokenize('이 번호로 전화를 이따가 꼭 반드시 걸어.')

# 걷다/걸다 중 틀리게 '걷다'를 선택했음.

[Token(form='이', tag='MM', start=0, len=1),
 Token(form='번호', tag='NNG', start=2, len=2),
 Token(form='로', tag='JKB', start=4, len=1),
 Token(form='전화', tag='NNG', start=6, len=2),
 Token(form='를', tag='JKO', start=8, len=1),
 Token(form='이따가', tag='MAG', start=10, len=3),
 Token(form='꼭', tag='MAG', start=14, len=1),
 Token(form='반드시', tag='MAG', start=16, len=3),
 Token(form='걷', tag='VV-I', start=20, len=1),
 Token(form='어', tag='EF', start=21, len=1),
 Token(form='.', tag='SF', start=22, len=1)]

In [34]:
kiwi = Kiwi(model_type='sbg')

kiwi.tokenize('이 번호로 전화를 이따가 꼭 반드시 걸어.')

# 걷다/걸다 중 바르게 '걸다'를 선택했음.

[Token(form='이', tag='MM', start=0, len=1),
 Token(form='번호', tag='NNG', start=2, len=2),
 Token(form='로', tag='JKB', start=4, len=1),
 Token(form='전화', tag='NNG', start=6, len=2),
 Token(form='를', tag='JKO', start=8, len=1),
 Token(form='이따가', tag='MAG', start=10, len=3),
 Token(form='꼭', tag='MAG', start=14, len=1),
 Token(form='반드시', tag='MAG', start=16, len=3),
 Token(form='걸', tag='VV', start=20, len=1),
 Token(form='어', tag='EC', start=21, len=1),
 Token(form='.', tag='SF', start=22, len=1)]

In [38]:
kiwi = Kiwi(model_type='sbg', typos='basic')

In [36]:
kiwi.tokenize('외않됀대?')

[Token(form='왜', tag='MAG', start=0, len=1),
 Token(form='안', tag='MAG', start=1, len=1),
 Token(form='되', tag='VV', start=2, len=1),
 Token(form='ᆫ대', tag='EF', start=2, len=2),
 Token(form='?', tag='SF', start=4, len=1)]

In [39]:
kiwi.tokenize('장례희망이 뭐냐는 선섕님의 질문에 벙어리가 됫따') 

[Token(form='장례', tag='NNG', start=0, len=2),
 Token(form='희망', tag='NNG', start=2, len=2),
 Token(form='이', tag='JKS', start=4, len=1),
 Token(form='뭐', tag='NP', start=6, len=1),
 Token(form='이', tag='VCP', start=7, len=0),
 Token(form='냐는', tag='ETM', start=7, len=2),
 Token(form='선생', tag='NNG', start=10, len=2),
 Token(form='님', tag='XSN', start=12, len=1),
 Token(form='의', tag='JKG', start=13, len=1),
 Token(form='질문', tag='NNG', start=15, len=2),
 Token(form='에', tag='JKB', start=17, len=1),
 Token(form='벙어리', tag='NNG', start=19, len=3),
 Token(form='가', tag='JKC', start=22, len=1),
 Token(form='되', tag='VV', start=24, len=1),
 Token(form='엇', tag='EP', start=24, len=1),
 Token(form='다', tag='EF', start=25, len=1)]

# 형태소 분석 Kiwi().tokenize()

In [2]:
# tokenize : 형태소 분석 결과를 리스트로 반환
kiwi.tokenize("안녕하세요 형태소 분석기 키위입니다.")

[Token(form='안녕하세요', tag='NNP', start=0, len=5),
 Token(form='형태소', tag='NNG', start=6, len=3),
 Token(form='분석기', tag='NNG', start=10, len=3),
 Token(form='키위', tag='NNG', start=14, len=2),
 Token(form='이', tag='VCP', start=16, len=1),
 Token(form='ᆸ니다', tag='EF', start=16, len=3),
 Token(form='.', tag='SF', start=19, len=1)]

## normalize_coda

In [3]:
# normalize_coda : 받침으로 인한 분석 깨짐 방지
kiwi.tokenize("ㅋㅋㅋ 이런 것도 분석이 될까욬ㅋㅋ?", normalize_coda=True)

[Token(form='ㅋㅋㅋ', tag='SW', start=0, len=3),
 Token(form='이런', tag='MM', start=4, len=2),
 Token(form='것', tag='NNB', start=7, len=1),
 Token(form='도', tag='JX', start=8, len=1),
 Token(form='분석', tag='NNG', start=10, len=2),
 Token(form='이', tag='JKC', start=12, len=1),
 Token(form='되', tag='VV', start=14, len=1),
 Token(form='ᆯ까요', tag='EF', start=14, len=3),
 Token(form='ㅋㅋㅋ', tag='SW', start=16, len=3),
 Token(form='?', tag='SF', start=19, len=1)]

## 불용어 관리 Stopwords

In [5]:
from kiwipiepy.utils import Stopwords
stopwords = Stopwords()

In [6]:
kiwi.tokenize("분석 결과에서 불용어만 제외하고 출력할 수도 있다.", stopwords=stopwords)

[Token(form='분석', tag='NNG', start=0, len=2),
 Token(form='결과', tag='NNG', start=3, len=2),
 Token(form='불', tag='NNG', start=8, len=1),
 Token(form='용어', tag='NNG', start=9, len=2),
 Token(form='제외', tag='NNG', start=13, len=2),
 Token(form='출력', tag='NNG', start=18, len=2),
 Token(form='있', tag='VA', start=25, len=1)]

## 불용어 목록 수정 add, remove

In [7]:
stopwords.add(('결과', 'NNG'))

In [8]:
kiwi.tokenize("분석 결과에서 불용어만 제외하고 출력할 수도 있다.", stopwords=stopwords)

[Token(form='분석', tag='NNG', start=0, len=2),
 Token(form='불', tag='NNG', start=8, len=1),
 Token(form='용어', tag='NNG', start=9, len=2),
 Token(form='제외', tag='NNG', start=13, len=2),
 Token(form='출력', tag='NNG', start=18, len=2),
 Token(form='있', tag='VA', start=25, len=1)]

## tokenize 개별 정보 추출하기

In [9]:
tokens = kiwi.tokenize("각 토큰은 여러 정보를 담고 있습니다.")
tokens

[Token(form='각', tag='MM', start=0, len=1),
 Token(form='토큰', tag='NNG', start=2, len=2),
 Token(form='은', tag='JX', start=4, len=1),
 Token(form='여러', tag='MM', start=6, len=2),
 Token(form='정보', tag='NNG', start=9, len=2),
 Token(form='를', tag='JKO', start=11, len=1),
 Token(form='담', tag='VV', start=13, len=1),
 Token(form='고', tag='EC', start=14, len=1),
 Token(form='있', tag='VX', start=16, len=1),
 Token(form='습니다', tag='EF', start=17, len=3),
 Token(form='.', tag='SF', start=20, len=1)]

In [10]:
tokens[0]

Token(form='각', tag='MM', start=0, len=1)

In [11]:
tokens[0].form # 형태소의 형태 정보
tokens[0].tag # 형태소의 품사 정보
tokens[0].start # 시작 지점 (문자 단위)
tokens[0].end # 끝 지점 (문자 단위)
tokens[0].word_position # 현 문장에서의 어절 번호 (몇 번째 단어)
tokens[0].sent_position # 형태소가 속한 문장 번호
tokens[0].line_number # 형태소가 속한 줄의 번호

0

## 문장 분리

In [12]:
kiwi.split_into_sents("여러 문장으로 구성된 텍스트네 이걸 분리해줘")

[Sentence(text='여러 문장으로 구성된 텍스트네', start=0, end=16, tokens=None, subs=[]),
 Sentence(text='이걸 분리해줘', start=17, end=24, tokens=None, subs=[])]

In [14]:
# 문장 분리 + 형태소 분석 : 동시에 수행하기
kiwi.split_into_sents("여러 문장으로 구성된 텍스트네 이걸 분리해줘", return_tokens=True)

[Sentence(text='여러 문장으로 구성된 텍스트네', start=0, end=16, tokens=[Token(form='여러', tag='MM', start=0, len=2), Token(form='문장', tag='NNG', start=3, len=2), Token(form='으로', tag='JKB', start=5, len=2), Token(form='구성', tag='NNG', start=8, len=2), Token(form='되', tag='XSV', start=10, len=1), Token(form='ᆫ', tag='ETM', start=10, len=1), Token(form='텍스트', tag='NNG', start=12, len=3), Token(form='이', tag='VCP', start=15, len=0), Token(form='네', tag='EF', start=15, len=1)], subs=[]),
 Sentence(text='이걸 분리해줘', start=17, end=24, tokens=[Token(form='이거', tag='NP', start=17, len=2), Token(form='ᆯ', tag='JKO', start=18, len=1), Token(form='분리', tag='NNG', start=20, len=2), Token(form='하', tag='XSV', start=22, len=1), Token(form='어', tag='EC', start=22, len=1), Token(form='주', tag='VX', start=23, len=1), Token(form='어', tag='EF', start=23, len=1)], subs=[])]

## 문장 복원 (형태소 결합) : kiwi.join()

In [None]:
# kiwi.join([('형태소', '품사'), ('형태소','품사' ), .., ('형태소','품사')])

In [None]:
kiwi.join([('길', 'NNG'), ('을', 'JKO'), ('묻', 'VV'), ('어요', 'EF')])

In [None]:
kiwi.join([('흙', 'NNG'), ('이', 'JKS'), ('묻', 'VV'), ('어요', 'EF')])

In [20]:
# analyze : score, result가 튜플의 형태로 반환
kiwi.analyze("형태소 분석 결과입니다", top_n=5)

[([Token(form='형태소', tag='NNG', start=0, len=3),
   Token(form='분석', tag='NNG', start=4, len=2),
   Token(form='결과', tag='NNG', start=7, len=2),
   Token(form='이', tag='VCP', start=9, len=1),
   Token(form='ᆸ니다', tag='EF', start=9, len=3)],
  -29.27370262145996),
 ([Token(form='형태소', tag='NNG', start=0, len=3),
   Token(form='분석', tag='NNG', start=4, len=2),
   Token(form='결과', tag='NNG', start=7, len=2),
   Token(form='이', tag='VCP', start=9, len=1),
   Token(form='ᆸ니다', tag='EC', start=9, len=3)],
  -36.541473388671875),
 ([Token(form='형태소', tag='NNG', start=0, len=3),
   Token(form='분석', tag='NNG', start=4, len=2),
   Token(form='결과', tag='NNG', start=7, len=2),
   Token(form='입', tag='NNG', start=9, len=1),
   Token(form='니다', tag='EF', start=10, len=2)],
  -50.577144622802734),
 ([Token(form='형태소', tag='NNG', start=0, len=3),
   Token(form='분석', tag='NNG', start=4, len=2),
   Token(form='결과', tag='NNG', start=7, len=2),
   Token(form='입', tag='VV-R', start=9, len=1),
   Token(form