# 필요한 패키지 import
- kiwi 형태소 분석기

In [2]:
# !pip install kiwi
# !pip install kiwipiepy
# !pip install pandas scikit-learn matplotlib wordcloud konlpy
# !pip install kiwi-python
# !pip install kiwi-kr

In [3]:
from google.colab import drive
drive.mount('/content/drive')

Mounted at /content/drive


In [4]:
import json
import pandas as pd
from kiwipiepy import Kiwi

# 수행과정
- 구축해놓은 국방 전용 말뭉치 사전을 통해 kiwi 형태소 분석기를 학습
- 기존 국방용어가 학습되지않은 kiwi와 학습된 kiwi의 성능 비교

# KIWI 학습
- 국방전용 말뭉치 사전의 '용어' 칼럼을 add_user_word()로 학습
- '5세대 전투기': 띄어쓰기가 있는 국방 전용 단어를 한 단어로 인식

In [5]:
# 1. 말뭉치사전.json 파일 로드
with open('/content/drive/MyDrive/크롤링프로젝트_정리본/말뭉치사전/말뭉치사전.json', 'r', encoding='utf-8') as f:
    data = json.load(f)

# 2. Kiwi 초기화
kiwi = Kiwi()

# 3. 각 용어에 대해 형태소 분석을 실행하고, 사용자 사전에 추가하기
for item in data:
    term = item['용어']
    category = item['분야']
    sub_category = item['세부항목']
    definition = item['설명']
    source = item['출처']
    examples = item['용례리스트']
    example_sources = item['용례출처리스트']

    # 4. 용어를 사용자 사전에 하나씩 추가
    kiwi.add_user_word(term, tag='NNP')  # 고유명사로 등록

    # 5. 형태소 분석 실행
    result = kiwi.analyze(term)

    # 형태소 분석 결과 출력
    print("형태소 분석 결과:")
    for word, tag in result:
        print(f"({word}, {tag})")

    print("="*50)  # 구분선

형태소 분석 결과:
([Token(form='45형 데어링급 구축함', tag='NNP', start=0, len=12)], -12.459455490112305)
형태소 분석 결과:
([Token(form='5세대 전투기', tag='NNP', start=0, len=7)], -12.459455490112305)
형태소 분석 결과:
([Token(form='5호 전차 판터', tag='NNP', start=0, len=8)], -12.459455490112305)
형태소 분석 결과:
([Token(form='99식 소총', tag='NNP', start=0, len=6)], -12.459455490112305)
형태소 분석 결과:
([Token(form='A-10', tag='NNP', start=0, len=4)], -12.459455490112305)
형태소 분석 결과:
([Token(form='A-4 스카이호크 공격기', tag='NNP', start=0, len=13)], -12.459455490112305)
형태소 분석 결과:
([Token(form='A-6 인트루더', tag='NNP', start=0, len=8)], -12.459455490112305)
형태소 분석 결과:
([Token(form='AC-130 건십', tag='NNP', start=0, len=9)], -12.459455490112305)
형태소 분석 결과:
([Token(form='AGM-86', tag='NNP', start=0, len=6)], -12.459455490112305)
형태소 분석 결과:
([Token(form='AH-1Z 바이퍼', tag='NNP', start=0, len=9)], -12.459455490112305)
형태소 분석 결과:
([Token(form='AIR-2 지니', tag='NNP', start=0, len=8)], -12.459455490112305)
형태소 분석 결과:
([Token(form='AK', tag='SL', start=0, l

## 결과
: 띄어쓰기가 있는 국방 용어를 하나의 단어로 인식 가능하게함
- 기존 kiwi : 국방 용어인 '현무 미사일' => 현무, 미사일 로 토큰화
- 학습된 kiwi : 국방 용어인 '현무 미사일' => [현무 미사일] 한 단어로 인식

- 기존 kiwi 형태소 분석기

In [6]:
# 1. Kiwi 초기화
kiwi = Kiwi()

sentence = "대한민국의 흑표 전차는 T-50 전차와 함께 우수한 열차포의 성능을 가지고, 현무 미사일도 있습니다."
result = kiwi.analyze(sentence)
print(result)

[([Token(form='대한민국', tag='NNP', start=0, len=4), Token(form='의', tag='JKG', start=4, len=1), Token(form='흑표', tag='NNP', start=6, len=2), Token(form='전차', tag='NNG', start=9, len=2), Token(form='는', tag='JX', start=11, len=1), Token(form='T', tag='SL', start=13, len=1), Token(form='-', tag='SO', start=14, len=1), Token(form='50', tag='SN', start=15, len=2), Token(form='전차', tag='NNG', start=18, len=2), Token(form='와', tag='JKB', start=20, len=1), Token(form='함께', tag='MAG', start=22, len=2), Token(form='우수', tag='NNG', start=25, len=2), Token(form='하', tag='XSA', start=27, len=1), Token(form='ᆫ', tag='ETM', start=27, len=1), Token(form='열차포', tag='NNP', start=29, len=3), Token(form='의', tag='JKG', start=32, len=1), Token(form='성능', tag='NNG', start=34, len=2), Token(form='을', tag='JKO', start=36, len=1), Token(form='가지', tag='VV', start=38, len=2), Token(form='고', tag='EC', start=40, len=1), Token(form=',', tag='SP', start=41, len=1), Token(form='현무', tag='NNG', start=43, len=2), Toke

- 학습시킨 kiwi

In [7]:
with open('/content/drive/MyDrive/크롤링프로젝트_정리본/말뭉치사전/말뭉치사전.json', 'r', encoding='utf-8') as f:
    data = json.load(f)

custom_words = [(item["용어"], "NNP") for item in data]

for word, tag in custom_words:
    try:
        kiwi.add_user_word(word, tag)
    except Exception as e:
        print(f"단어 추가 실패: {word} -> {e}")

- 결과
: '현무 미사일' , '5세대 전투기', '알레이버크급 구축함' 모두 하나의 단어로 인식

In [8]:
sentence = "대한민국의 흑표 전차는 T-50 전차와 함께 우수한 열차포의 성능을 가지고, 현무 미사일과 5세대 전투기와 알레이버크급 구축함도 있습니다."
result = kiwi.analyze(sentence)

print("형태소 분석 결과:")
for token in result[0][0]:
    print(f"{token.form} ({token.tag})")

형태소 분석 결과:
대한민국 (NNP)
의 (JKG)
흑표 (NNP)
전차 (NNG)
는 (JX)
T-50 (NNP)
전 (MM)
차 (NNG)
와 (JKB)
함께 (MAG)
우수 (NNG)
하 (XSA)
ᆫ (ETM)
열차포 (NNP)
의 (JKG)
성능 (NNG)
을 (JKO)
가지 (VV)
고 (EC)
, (SP)
현무 미사일 (NNP)
과 (JC)
5세대 전투기 (NNP)
와 (JC)
알레이버크급 구축함 (NNP)
도 (JX)
있 (VV)
습니다 (EF)
. (SF)


# 기존 Kiwi vs 국방전용사전 학습 Kiwi
- 두 형태소분석기를 가지고 '용례' 칼럼의 형태소 분석 진행
- 국방 용어가 어떻게 토큰화 되었는지를 비교

## kiwi 세팅
- kiwi_default : 기존 형태소 분석기
- kiwi_custom : 국방전용 사전 학습 형태소 분석기

In [9]:
# 1) Kiwi 객체 준비
#    - kiwi_default: 디폴트 사전만 사용
#    - kiwi_custom : 사용자 사전(국방용어) 추가

kiwi_default = Kiwi()
kiwi_custom  = Kiwi()

# 1-1) 사용자 사전(무기.json) 로드
with open('/content/drive/MyDrive/크롤링프로젝트_정리본/말뭉치사전/말뭉치사전.json',
          'r', encoding='utf-8') as f:
    data = json.load(f)

# 1-2) custom_words 리스트 생성
custom_words = [(item["용어"], "NNP") for item in data]

# 1-3) kiwi_custom에 단어 등록
for word, tag in custom_words:
    try:
        kiwi_custom.add_user_word(word, tag)
    except Exception as e:
        print(f"단어 추가 실패: {word} -> {e}")

## 용례테이블
- 형태소 분석기를 적용할 용례 테이블 불러오기

In [12]:
example = pd.read_csv('/content/drive/MyDrive/크롤링프로젝트_정리본/용례테이블/용례테이블.csv')

## 형태소 분석 함수 정의
- analyze_custom : 국방 전용 사전을 학습시킨 kiwi를 통한 형태소 분석 함수
- analyze_default : 기존 kiwi를 통한 형태소 분석 함수

In [13]:
def analyze_custom(text):
    tokens = kiwi_custom.analyze(str(text))[0][0]
    return [(tok.form, tok.tag) for tok in tokens]

def analyze_default(text):
    tokens = kiwi_default.analyze(str(text))[0][0]
    return [(tok.form, tok.tag) for tok in tokens]

example['커스텀형태소분석'] = example['용례'].apply(analyze_custom)
example['기본형태소분석'] = example['용례'].apply(analyze_default)

print(example[['용례','커스텀형태소분석','기본형태소분석']].head())

                                                  용례  \
0  전 세계에서 저피탐 기술이 가장 발달된 것으로 알려진 미국은 최근 저피탐 성능을 키...   
1  러시아의 5세대 전투기인 Su-57(일명 PAK-PA)에는 Tikhomirov NI...   
2  5세대 전투기인 F-22, F-35 개발 이후 스텔스 성능은 군사용 항공기에 필수적...   
3  ■ PL-10 (중국)중국에서 2004년부터 5세대 전투기용으로 개발한  5세대 단...   
4  A-10이라는 무인기의 개발도 병행하였는데 7~15km 상공을 24시간 체공 비행하...   

                                            커스텀형태소분석  \
0  [(전, MM), (세계, NNG), (에서, JKB), (저피탐, NNG), (기...   
1  [(러시아, NNP), (의, JKG), (5세대 전투기, NNP), (이, VCP...   
2  [(5세대 전투기, NNP), (이, VCP), (ᆫ, ETM), (F, SL), ...   
3  [(■, SW), (PL, SL), (-, SO), (10, SN), ((, SSO...   
4  [(A-10, NNP), (이, VCP), (라는, ETM), (무인기, NNG),...   

                                             기본형태소분석  
0  [(전, MM), (세계, NNG), (에서, JKB), (저피탐, NNG), (기...  
1  [(러시아, NNP), (의, JKG), (5, SN), (세대, NNG), (전투...  
2  [(5, SN), (세대, NNG), (전투기, NNG), (이, VCP), (ᆫ,...  
3  [(■, SW), (PL, SL), (-, SO), (10, SN), ((, SSO...  
4  [(A, SL), (-, SO), (10, SN), (이, VCP), (라는, ET..

## 성능 비교
- 두 형태소 분석기의 국방 전용 사전에 있는 '용어'의 인식률을 비교
- def_cnt: 기존 형태소 분석기의 '용어' 인식 횟수
- cust_cnt : 학습된 형태소 분석기의 '용어' 인식 횟수

In [15]:
# 인식률 비교: custom_words에 있는 term별로
#    - occurrences: 문장에 등장한 횟수
#    - default_recognized: 기본 사전이 토큰으로 인식한 횟수
#    - custom_recognized : 커스텀 사전이 토큰으로 인식한 횟수
#    - default_rate, custom_rate


records = []
for term, _ in custom_words:
    mask  = example['용례'].str.contains(term) # True(1), False(0)로 반환해 sum()
    total = mask.sum()
    if total == 0:
        continue

    # 용어가 포함된 용례들만 가지고 형태소 분석
    def_cnt = example[mask]['용례'].apply(
        lambda s: term in [tok.form for tok in kiwi_default.analyze(s)[0][0]] # 기존 형태소분석기를 통해 나온 토큰리스트에 국방 용어가 한 단어로 인식되어있는지 확인
    ).sum() # True, False 결과의 합 => 한 단어로 인식된 횟수
    cust_cnt = example[mask]['용례'].apply(
        lambda s: term in [tok.form for tok in kiwi_custom.analyze(s)[0][0]] # 학습된 형태소분석기를 통해 나온 토큰리스트에 국방 용어가 한 단어로 인식되어있는지 확인
    ).sum()

    records.append({
        'term': term,
        'occurrences': total,
        'default_recognized': def_cnt,
        'custom_recognized': cust_cnt,
        'default_rate': def_cnt / total,
        'custom_rate' : cust_cnt / total,
    })

df_rates = pd.DataFrame(records).sort_values('custom_rate', ascending=False)

## 결과
ex)
- 흑표 : 총 출현수: 41회, 기존 형태소 분석기의 인식된 횟수: 32회, 학습된 형태소 분석기의 인식된 횟수 : 41회
- 45형 데어링급 구축함 : 총 출현수: 8회, 기존 형태소 분석기의 인식된 수: 0회, 학습된 형태소 분석기의 인식됫 횟수 : 8회

In [16]:
# 상위 20개 결과 출력
print(df_rates.head(20))

             term  occurrences  default_recognized  custom_recognized  \
263            흑표           41                  32                 41   
0    45형 데어링급 구축함            8                   0                  8   
261        현무 미사일            3                   0                  3   
2        5호 전차 판터            6                   0                  6   
3          99식 소총           16                   0                 16   
244   패트리어트 PAC-3            9                   0                  9   
243      티거 II 전차            2                   0                  2   
241        특수작전차량           11                   0                 11   
240       톰슨 기관단총           25                   0                 25   
239    토우 대전차 미사일           33                   0                 33   
238    토마호크 순항미사일           43                   0                 43   
237      타우러스 미사일            7                   0                  7   
236           킬체인           54                   6 

## 국방신문_무기체계
- 분석할 용례의 출처를 '국방신문_무기체계'로 한정

In [67]:
import re

records = []
for term, _ in custom_words:
    # 출처 필터
    mask_source = example['출처'] == '국방신문_무기체계'

    # term을 “단어 경계”로 감싸서 literal 매칭
    #    (?<!\w) = 앞이 영숫자/언더바가 아닌 위치
    #    (?!\w)  = 뒤가 영숫자/언더바가 아닌 위치
    pat = rf'(?<!\w){re.escape(term)}(?!\w)'
    mask_term = example['용례'].str.contains(pat, regex=True, na=False)


    # 출처가 '국방신문_무기체계' 이고, 용례에 term이 포함된 행만 선택
    mask = mask_source & mask_term
    total = mask.sum()
    if total == 0:
        continue

    # 기본 사전 인식 횟수
    def_cnt = example.loc[mask, '용례'].apply(
        lambda s: term in [tok.form for tok in kiwi_default.analyze(s)[0][0]]
    ).sum()

    # 커스텀 사전 인식 횟수
    cust_cnt = example.loc[mask, '용례'].apply(
        lambda s: term in [tok.form for tok in kiwi_custom.analyze(s)[0][0]]
    ).sum()

    records.append({
        'term': term,
        'occurrences': total,
        'default_recognized': def_cnt,
        'custom_recognized':  cust_cnt,
        'default_rate':      def_cnt  / total,
        'custom_rate':       cust_cnt / total,
    })

df_rates = pd.DataFrame(records)

df_rates = df_rates.sort_values('custom_rate', ascending=False)

## 결과
- A-10과 같이 특수문자가 포함되거나 띄어쓰기가 있는 용어는 기존 형태소분석기가 제대로 인식X

In [68]:
df_rates.head()

Unnamed: 0,term,occurrences,default_recognized,custom_recognized,default_rate,custom_rate
0,5세대 전투기,13,0,13,0.0,1.0
1,A-10,6,0,6,0.0,1.0
3,B-2 스피릿,4,0,4,0.0,1.0
4,F-2,1,0,1,0.0,1.0
5,F-22 랩터,3,0,3,0.0,1.0


- 출현횟수가 많은 상위 15개의 용어 확인

In [71]:
df_top15 = df_rates.sort_values('occurrences', ascending=False)[:15]
df_top15.to_csv("/content/drive/MyDrive/크롤링프로젝트_정리본/kiwi성능시각화.csv", index=False, encoding = 'utf-8-sig')
df_top15

Unnamed: 0,term,occurrences,default_recognized,custom_recognized,default_rate,custom_rate
45,정찰위성,31,25,31,0.806452,1.0
23,라팔,26,13,26,0.5,1.0
36,아파치,22,22,20,1.0,0.909091
41,장갑차,21,21,19,1.0,0.904762
15,경항공모함,17,17,17,1.0,1.0
42,장사정포,16,16,16,1.0,1.0
8,J-20,14,0,6,0.0,0.428571
0,5세대 전투기,13,0,13,0.0,1.0
54,함포,12,12,12,1.0,1.0
12,T-50,12,0,8,0.0,0.666667


## 2가지 이슈
1. 학습된 형태소 분석기의 인식률이 1보다 낮은 경우
2. 기존 형태소 분석기보다 학습된 형태소 분석기의 인식률이 낮은 경우

### 1.학습된 형태소 분석기의 인식률이 1보다 낮은 경우
- 아파치, 장갑차, J-20, T-50


In [82]:
# 1) custom_rate < 1 인 용어만 추출
low = df_top15[df_top15['custom_rate'] < 1]['term']
low

Unnamed: 0,term
36,아파치
41,장갑차
8,J-20
12,T-50


- 이유
1. 아파치, 장갑차 :  단어 사전의 용어에는 ['아파치', '아파치 가디언', '장갑차', '상륙돌격장갑차'] 가 존재함 => 복합어 용어 안에 단일 용어 존재
    - ex) 아파치 가디언 : "아파치 가디언"이 포함된 문장은 1)"아파치"의 문장, 2)"아파치 가디언"의 문장 으로 인식됨.
    - "아파치"의 문장으로 인식된 경우, 학습된 형태소분석기의 토큰화 결과 "아파치" 용어를 인식하지 못하고 "아파치 가디언"으로 인식하여 "아파치"의 인식률이 1 미만이 됨

2. J-20, T-50 : 특별한 이유없이 해당 용어를 인식하지 못하는 문장 존재

- 해당 용어 형태소 분석 결과 확인

In [88]:
# 2) 샘플로 보고 싶은 개수
n_samples = 3

for term in low:
    print(f"\n=== 용어: {term} (custom_rate < 1) ===")

    # 3) 출처 제한과 literal 매칭
    mask_source = example['출처'] == '국방신문_무기체계'
    pat = rf'(?<!\w){re.escape(term)}(?!\w)'
    mask_term = example['용례'].str.contains(pat, regex=True, na=False)
    subset    = example[mask_src & mask_term]

    # 4) 커스텀 사전으로도 인식된 문장
    hit = subset[ subset['용례'].apply(
        lambda s: term in [tok.form for tok in kiwi_custom.analyze(s)[0][0]]
    ) ]
    # 5) 못 잡은 문장
    miss = subset[ ~subset['용례'].apply(
        lambda s: term in [tok.form for tok in kiwi_custom.analyze(s)[0][0]]
    ) ]

    print(f" - 전체 대상 문장 수: {len(subset)}")
    print(f"   • 인식된 문장 수: {len(hit)}")
    print(f"   • 못 잡은 문장 수: {len(miss)}\n")

    # 6) 못 잡은 예시 몇 개 출력
    for text in miss['용례'].head(n_samples):
        default_toks = [tok.form for tok in kiwi_default.analyze(text)[0][0]]
        custom_toks  = [tok.form for tok in kiwi_custom.analyze(text)[0][0]]
        print("문장:", text)
        print("  기본 토큰:", default_toks)
        print("  커스텀 토큰:", custom_toks)
        print()


=== 용어: 아파치 (custom_rate < 1) ===
 - 전체 대상 문장 수: 22
   • 인식된 문장 수: 20
   • 못 잡은 문장 수: 2

문장: 새 기종은 ‘아파치 가디언’(AH-64E) 공격헬기와 함께 임무 수행 때 작전지역에 먼저 투입돼 각종 정보를 실시간으로 전송할 수 있고, 단독으로 공격도 할 수 있다.
  기본 토큰: ['새', '기종', '은', '‘', '아파치', '가디언', '’', '(', 'AH', '-', '64', 'E', ')', '공격', '헬기', '와', '함께', '임무', '수행', '때', '작전', '지역', '에', '먼저', '투입', '되', '어', '각종', '정보', '를', '실시간', '으로', '전송', '하', 'ᆯ', '수', '있', '고', ',', '단독', '으로', '공격', '도', '하', 'ᆯ', '수', '있', '다', '.']
  커스텀 토큰: ['새', '기종', '은', '‘', '아파치 가디언', '’', '(', 'AH', '-', '64', 'E', ')', '공격', '헬기', '와', '함께', '임무', '수행', '때', '작전', '지역', '에', '먼저', '투입', '되', '어', '각종', '정보', '를', '실시간', '으로', '전송', '하', 'ᆯ', '수', '있', '고', ',', '단독', '으로', '공격', '도', '하', 'ᆯ', '수', '있', '다', '.']

문장: 새 기종은 ‘아파치 가디언’(AH-64E) 공격헬기와 함께 임무 수행 때 작전지역에 먼저 투입돼 각종 정보를 실시간으로 전송할 수 있고, 단독으로 공격도 할 수 있다.
  기본 토큰: ['새', '기종', '은', '‘', '아파치', '가디언', '’', '(', 'AH', '-', '64', 'E', ')', '공격', '헬기', '와', '함께', '임무', '수행', '때', '작전', '지역', '에', '먼저', '투입', '되',

### 2.기존 형태소 분석기보다 학습된 형태소 분석기의 인식률이 낮은 경우

- 아파치, 장갑차

In [89]:
worse = df_top15[df_top15['custom_rate'] < df_top15['default_rate']]
worse

Unnamed: 0,term,occurrences,default_recognized,custom_recognized,default_rate,custom_rate
36,아파치,22,22,20,1.0,0.909091
41,장갑차,21,21,19,1.0,0.904762


#### 인식률의 왜곡 발생
기존 형태소 분석기보다 인식률이 떨어지는 경우 존재 => 해당 용어 : 아파치, 장갑차
- 이유 : 단어 사전의 용어에는 ['아파치', '아파치 가디언', '장갑차', '상륙돌격장갑차'] 가 존재함 => 복합어 용어 안에 단일 용어 존재
- 아파치 가디언 : "아파치 가디언"이 포함된 문장은 1)"아파치"의 문장, 2)"아파치 가디언"의 문장 으로 인식됨.
- '아파치'의 문장으로 인식한 경우, 학습된 형태소 분석기는 아파치 가디언을 하나의 토큰으로 인식하는 반면에 , 기존 형태소 분석기는 아파치 가디언을 [아파치, 가디언] 으로 인식하기 때문에 '아파치'의 인식률이 기존 형태소분석기에서 더 높게 나타남

In [90]:
for term in worse['term']:
    print(f"\n=== 용어: {term} (커스텀에서 못 잡은 예) ===")

    # 원본에서 term이 들어간 문장들만 필터

    mask_source = example['출처'] == '국방신문_무기체계'
    pat = rf'(?<!\w){re.escape(term)}(?!\w)'
    mask_term = example['용례'].str.contains(pat, regex=True, na=False)
    subset    = example[mask_src & mask_term]

    # 커스텀 토큰화 후 term이 없는(못 인식된) 문장만 골라냄
    missed = subset[
        subset['용례'].apply(
            lambda s: term not in [tok.form for tok in kiwi_custom.analyze(s)[0][0]]
        )
    ]

    # 못 잡힌 예시가 없는 경우
    if missed.empty:
        print("  > 커스텀 사전에서는 모두 인식했습니다.")
        continue

    # 샘플 출력 (최대 5개만)
    for text in missed['용례'].head(5):
        default_tokens = [tok.form for tok in kiwi_default.analyze(text)[0][0]]
        custom_tokens  = [tok.form for tok in kiwi_custom.analyze(text)[0][0]]
        print("\n문장:", text)
        print("  기본 사전 토큰화:", default_tokens)
        print("  커스텀 사전 토큰화:", custom_tokens)


=== 용어: 아파치 (커스텀에서 못 잡은 예) ===

문장: 새 기종은 ‘아파치 가디언’(AH-64E) 공격헬기와 함께 임무 수행 때 작전지역에 먼저 투입돼 각종 정보를 실시간으로 전송할 수 있고, 단독으로 공격도 할 수 있다.
  기본 사전 토큰화: ['새', '기종', '은', '‘', '아파치', '가디언', '’', '(', 'AH', '-', '64', 'E', ')', '공격', '헬기', '와', '함께', '임무', '수행', '때', '작전', '지역', '에', '먼저', '투입', '되', '어', '각종', '정보', '를', '실시간', '으로', '전송', '하', 'ᆯ', '수', '있', '고', ',', '단독', '으로', '공격', '도', '하', 'ᆯ', '수', '있', '다', '.']
  커스텀 사전 토큰화: ['새', '기종', '은', '‘', '아파치 가디언', '’', '(', 'AH', '-', '64', 'E', ')', '공격', '헬기', '와', '함께', '임무', '수행', '때', '작전', '지역', '에', '먼저', '투입', '되', '어', '각종', '정보', '를', '실시간', '으로', '전송', '하', 'ᆯ', '수', '있', '고', ',', '단독', '으로', '공격', '도', '하', 'ᆯ', '수', '있', '다', '.']

문장: 새 기종은 ‘아파치 가디언’(AH-64E) 공격헬기와 함께 임무 수행 때 작전지역에 먼저 투입돼 각종 정보를 실시간으로 전송할 수 있고, 단독으로 공격도 할 수 있다.
  기본 사전 토큰화: ['새', '기종', '은', '‘', '아파치', '가디언', '’', '(', 'AH', '-', '64', 'E', ')', '공격', '헬기', '와', '함께', '임무', '수행', '때', '작전', '지역', '에', '먼저', '투입', '되', '어', '각종', '정보', '를', '실시간', '으로', '전송', '하'

## 추가 보완
: 기존 인식률은 그대로 두고, 복합어의 경우를 대비해 어떤 토큰 안에라도 부분 문자열로 포함된 비율을 새로운 인식률로 지정

- ex) “아파치 가디언”이라는 하나의 토큰 결과에서도 “아파치”에 대해서는 부분 일치로 인정 => '아파치'의 인식률이 학습된 형태소 분석기의 기존 인식률보다 올라감(아파치 횟수+1, 아파치 가디언 횟수+1)

- default_substring_rate : 기존 형태소분석기의 부분일치 인식률
- custom_substring_rate : 학습된 형태소분석기의 부분일치 인식률

In [91]:
def exact_match(tokens, term):
    return term in tokens

def substring_match(tokens, term): # 복합어에 포함되어 있는 용어 확인을 위함
    return any(term in tok for tok in tokens)

records = []
for term, _ in custom_words:

    mask_source = example['출처'] == '국방신문_무기체계'
    pat = rf'(?<!\w){re.escape(term)}(?!\w)'
    mask_term = example['용례'].str.contains(pat, regex=True, na=False)
    mask = mask_src & mask_term

    total = mask.sum()
    if total == 0:
        continue

    # 기본 사전 Exact / Substring
    def_exact_cnt     = example[mask]['용례'].apply(
        lambda s: exact_match(
            [tok.form for tok in kiwi_default.analyze(s)[0][0]],
            term
        )
    ).sum()
    def_substring_cnt = example[mask]['용례'].apply(
        lambda s: substring_match(
            [tok.form for tok in kiwi_default.analyze(s)[0][0]],
            term
        )
    ).sum()

    # 커스텀 사전 Exact / Substring
    cust_exact_cnt     = example[mask]['용례'].apply(
        lambda s: exact_match(
            [tok.form for tok in kiwi_custom.analyze(s)[0][0]],
            term
        )
    ).sum()
    cust_substring_cnt = example[mask]['용례'].apply(
        lambda s: substring_match(
            [tok.form for tok in kiwi_custom.analyze(s)[0][0]], # 학습된 형태소 분석기로 나온 토큰들 중에 해당 복합어 토큰 안에 단어사전에 존재하는 용어가 존재한다면 그 용어의 인식횟수도 증가시킴
            term
        )
    ).sum()

    records.append({
        'term': term,
        'occurrences': total,
        'default_exact': def_exact_cnt,
        'custom_exact':  cust_exact_cnt,
        'default_exact_rate':     def_exact_cnt     / total,
        'custom_exact_rate':      cust_exact_cnt    / total,
        'default_substring_rate': def_substring_cnt / total,
        'custom_substring_rate':  cust_substring_cnt / total,
    })

df_rates = pd.DataFrame(records)

## 결과
> 왜곡이 발생했던 용어 : 아파치, 장갑차


- 복합어가 전체 토큰으로 잡혔을 때도, 핵심 부분까지 놓치지 않음
- default_substring_rate < custom_substring_rate : 옳바른 결과

In [92]:
df_rates[df_rates['term'].isin(['장갑차','아파치'])]

Unnamed: 0,term,occurrences,default_exact,custom_exact,default_exact_rate,custom_exact_rate,default_substring_rate,custom_substring_rate
36,아파치,22,22,20,1.0,0.909091,1.0,1.0
41,장갑차,21,21,19,1.0,0.904762,1.0,1.0
