# KENT
## 말뭉치 생성 보조 도구

### 개체명 치환
<!-- <서론> -->

#### kent.utils.expand_entities(text, entities)
말뭉치 생성 과정에서 사용될 개체명은 `dict` 자료 구조를 기반으로 관리됩니다. `dict`의 `key`는 **개체명**, `value`는 **개체명을 표현할 수있는 문자열**의 `tuple`입니다. 이렇게 정의한 개체명은 문장 내에서 `{개체명}`으로 사용할 수 있습니다.

```python
>>> expand_entities(
        text='왜 {주택용} {전기요금}에 {누진제}를 적용하나요?',
        entities={
            '주택용': ('주택용', '주택'),
            '전기요금': ('전기요금', '전기세'),
            '누진제': ('누진제', '누진제도', '누진세'),
        })
['왜 주택용 전기요금에 누진제를 적용하나요?',
 '왜 주택용 전기요금에 누진제도를 적용하나요?',
 '왜 주택용 전기요금에 누진세를 적용하나요?',
 '왜 주택용 전기세에 누진제를 적용하나요?',
 '왜 주택용 전기세에 누진제도를 적용하나요?',
 '왜 주택용 전기세에 누진세를 적용하나요?',
 '왜 주택 전기요금에 누진제를 적용하나요?',
 '왜 주택 전기요금에 누진제도를 적용하나요?',
 '왜 주택 전기요금에 누진세를 적용하나요?',
 '왜 주택 전기세에 누진제를 적용하나요?',
 '왜 주택 전기세에 누진제도를 적용하나요?',
 '왜 주택 전기세에 누진세를 적용하나요?']
```


만약 정의한 개체명이 문장 내에서 선택적으로 등장할 경우, 해당 개체명은 `{개체명?}`과 같은 형식으로 문장 내에서 사용할 수 있습니다.

```python
>>> expand_entities(
        text='왜 {주택용?} {전기요금}에 {누진제}를 적용하나요?',
        entities={
            '주택용': ('주택용', '주택'),
            '전기요금': ('전기요금', '전기세'),
            '누진제': ('누진제', '누진제도', '누진세'),
        })
['왜 주택용 전기요금에 누진제를 적용하나요?',
 '왜 주택용 전기요금에 누진제도를 적용하나요?',
 '왜 주택용 전기요금에 누진세를 적용하나요?',
 '왜 주택용 전기세에 누진제를 적용하나요?',
 '왜 주택용 전기세에 누진제도를 적용하나요?',
 '왜 주택용 전기세에 누진세를 적용하나요?',
 '왜 주택 전기요금에 누진제를 적용하나요?',
 '왜 주택 전기요금에 누진제도를 적용하나요?',
 '왜 주택 전기요금에 누진세를 적용하나요?',
 '왜 주택 전기세에 누진제를 적용하나요?',
 '왜 주택 전기세에 누진제도를 적용하나요?',
 '왜 주택 전기세에 누진세를 적용하나요?',
 '왜 전기요금에 누진제를 적용하나요?',
 '왜 전기요금에 누진제도를 적용하나요?',
 '왜 전기요금에 누진세를 적용하나요?',
 '왜 전기세에 누진제를 적용하나요?',
 '왜 전기세에 누진제도를 적용하나요?',
 '왜 전기세에 누진세를 적용하나요?']
```


*참고*: 다음과 같이 **개체명을 표현할 수 있는 문자열**에서 다른 **개체명**을 `{개체명}`으로 참조할 수 있습니다. 
```python
>>> {
    '누진제': ('누진제', '누진제도', '{누진세}'),
    '누진세': ('누진세', '누진료', '누진 금액'),
}
```

### 조사 선택
한국어의 조사는 선행 글자의 종성 여부에 따라 그 모양이 변화합니다. 일반적인 경우, 조사의 선행 글자가 정적으로 결정되기 때문에 조사 선택 문제가 발생하지 않습니다. 하지만 **개체명 치환**을 활용할 경우, 개체명 치환 결과에 따라 조사의 선행 글자가 동적으로 결정되며 따라서 조사 선택 문제가 발생합니다. 이러한 문제를 해결하기 위해 `KENT`에서는 다음과 같은 조사 선택 함수를 제공합니다.

#### kent.utils.josa.resolve_josa(text)
`text` 내에서 조사를 `[글자]/[조사]`와 같이 사용할 경우, 해당 조사는 선행 글자의 종성 여부를 고려하여 선택됩니다.

```python
>>> resolve_josa('홍길동/는 실존 인물일까?')
'홍길동은 실존 인물일까?'
>>> resolve_josa('김첨지/는 소설 운수 좋은 날의 등장 인물이다.')
'김첨지는 소설 운수 좋은 날의 등장 인물이다.'
>>> resolve_josa('소나기/은 황순원/가 집필한 단편 소설이다.')
'소나기는 황순원이 집필한 단편 소설이다.'
```

### 예시

In [9]:
entities = {
    '전기요금': ('전기요금', '전기료', '전기세'),
    '기본요금': ('기본요금', '기본료'),
    '주택용': ('주택용', '주택', '주거용'),
    '누진제': ('누진제', '누진제도', '{누진세}'),
    '누진세': ('누진세', '누진료', '누진 금액'),
    '납부': ('납부', '지불', '결제'),
    '에는': ('에는', '엔'),
    '에서는': ('에서는', '에선'),
    '가능한가요': ('가능한가요', '가능합니까'),
    '싶어요': ('싶어요', '싶습니다'),
}

In [14]:
sentences = [
    '미리 {전기요금}/을 {납부}하고 싶은데 {가능한가요}?',
    '미리 {전기요금}/을 {납부}하고 {싶어요}',
    '{전기요금}/을 미리 {납부}하고 {싶어요}',
    '{전기요금}/을 미리 {납부}할 수 있나요?',
    '{전기요금}/을 선납하고 {싶어요}',
    '{전기요금}의 선납이 {가능한가요}?',
    '{전기요금} 선납이 {가능한가요}?',
    '{전기요금?} {기본요금}/은 무엇이고 어떻게 계산합니까?',
    '{전기요금?} {기본요금}/이 무엇인가요?',
    '{전기요금?} {기본요금}/이 뭔가요?',
    '{전기요금?} {기본요금}/은 어떻게 계산하나요?',
    '{전기요금?} {기본요금}/은 어떻게 산출되나요?',
    '{전기요금}/은 어떤 방법으로 계산합니까?',
    '{전기요금} 계산 방법 알려주세요',
    '{전기요금} 계산 방법 설명해주세요',
    '{전기요금} 계산은 어떻게 진행되나요?',
    '{주택용} {전기요금}에만 {누진제}/를 적용하는 이유는 무엇입니까?',
    '{주택용} {전기요금}에만 {누진제}/를 적용하는 이유는 무엇인가요?',
    '{주택용?} {전기요금}에 {누진제}/를 적용하는 이유는 무엇입니까?',
    '{주택용?} {전기요금}에 {누진제}/를 적용하는 이유는 무엇인가요?',
    '왜 {주택용?} {전기요금}에 {누진제}/를 적용하나요?',
    '왜 {주택용} {전기요금}에만 {누진제}/를 적용하나요?',
    '카카오페이 청구서{에는} 어떤 내역이 포함되나요?',
    '카카오페이 청구서{에서는} 어떤 내역을 확인할 수 있나요?',
    '카카오페이 청구서에서 요금 {납부}도 {가능한가요}?',
    '카카오페이 청구서에서 요금 {납부}/가 {가능한가요}?',
    '카카오페이 청구서에서 {전기요금} {납부}도 {가능한가요}?',
    '카카오페이 청구서로 요금 {납부}/를 할 수 있나요?',
    '카카오페이 청구서로 {전기요금} {납부}/를 할 수 있나요?',
    '카카오페이 청구서로 {전기요금} {납부}/가 {가능한가요}',
    '카카오페이 청구서로 요금 {납부}/가 {가능한가요}'
]

In [15]:
import random

from kent.utils import expand_entities
from kent.utils.josa import resolve_josa

for sentence in sentences:
    print('In:', sentence)
    print('Out:')
    for populated_sentence in expand_entities(sentence, entities):
        print('-', resolve_josa(populated_sentence))
    print()

In: 미리 {전기요금}/을 {납부}하고 싶은데 {가능한가요}?
Out:
- 미리 전기요금을 납부하고 싶은데 가능한가요?
- 미리 전기요금을 납부하고 싶은데 가능합니까?
- 미리 전기요금을 지불하고 싶은데 가능한가요?
- 미리 전기요금을 지불하고 싶은데 가능합니까?
- 미리 전기요금을 결제하고 싶은데 가능한가요?
- 미리 전기요금을 결제하고 싶은데 가능합니까?
- 미리 전기료를 납부하고 싶은데 가능한가요?
- 미리 전기료를 납부하고 싶은데 가능합니까?
- 미리 전기료를 지불하고 싶은데 가능한가요?
- 미리 전기료를 지불하고 싶은데 가능합니까?
- 미리 전기료를 결제하고 싶은데 가능한가요?
- 미리 전기료를 결제하고 싶은데 가능합니까?
- 미리 전기세를 납부하고 싶은데 가능한가요?
- 미리 전기세를 납부하고 싶은데 가능합니까?
- 미리 전기세를 지불하고 싶은데 가능한가요?
- 미리 전기세를 지불하고 싶은데 가능합니까?
- 미리 전기세를 결제하고 싶은데 가능한가요?
- 미리 전기세를 결제하고 싶은데 가능합니까?

In: 미리 {전기요금}/을 {납부}하고 {싶어요}
Out:
- 미리 전기요금을 납부하고 싶어요
- 미리 전기요금을 납부하고 싶습니다
- 미리 전기요금을 지불하고 싶어요
- 미리 전기요금을 지불하고 싶습니다
- 미리 전기요금을 결제하고 싶어요
- 미리 전기요금을 결제하고 싶습니다
- 미리 전기료를 납부하고 싶어요
- 미리 전기료를 납부하고 싶습니다
- 미리 전기료를 지불하고 싶어요
- 미리 전기료를 지불하고 싶습니다
- 미리 전기료를 결제하고 싶어요
- 미리 전기료를 결제하고 싶습니다
- 미리 전기세를 납부하고 싶어요
- 미리 전기세를 납부하고 싶습니다
- 미리 전기세를 지불하고 싶어요
- 미리 전기세를 지불하고 싶습니다
- 미리 전기세를 결제하고 싶어요
- 미리 전기세를 결제하고 싶습니다

In: {전기요금}/을 미리 {납부}하고 {싶어요}
Out:
- 전기요금을 미리 납부하고 싶어요
- 전기요금을 미리 납부하고 싶습니다
- 전기요금을 미리 지불하고 싶