# 토큰화

토큰화(tokenization)는 자연어를 **모델이 이해할 수 있는 또는 모델이 다룰 수있는 기본 단위(Token)** 분할하는 과정을 말한다.   
토큰으로 나누는 단위는 설계에 따라 문장, 어절, 형태소, 서브워드, 문자, 자모/알파벳 등 다양한 방식으로 나눌 수 있다.   
- 예
```bash
원문: "자연어 처리는 재미있다"
토큰화: ["자연어", "처리", "는", "재미있다"]
```

## 토큰화 방식
- **단어 기반 토큰화(Word-Level Tokenization)**
    - 어절(공백으로 구분) 또는 형태소 단위로 단어를 나누는 전통적인 방식이다.
    - **한국어**는 교착어로 하나의 단어에 다양한 조사/어미가 결합된다. 그래서 어절단위로 토큰화할 경우 어휘사전의 크기가 기하급수적으로 늘어나는 문제가 있다.
      - 예) "학교", "학교가", "학교를", "학교에", "학교에서", "학교로", "학교의", ...
    - 이로 인해 미등록어휘(OOV - Out of Vocabulary)의 증가, 같은 의미를 가지는 단어들이 Vocab에 중복 등록, 메모리 낭비, 학습효율성 저하 등 다양한 문제가 생긴다.
    - 그래서 **한국어의 경우 형태소 단위 토큰화**가 필요하다.

- **서브워드 기반(Subword-level) — BPE, WordPiece, Unigram**
    - Transformer 기반 모델(BERT, GPT, LLaMA 등)에서 표준으로 사용하는 방식.
    - 단어를 기준으로 토큰화하지 않고 **문자(character)와 단어(word)의 중간 수준인 서브워드(subword) 단위로 토큰화**한다.
    - **동작 원리**:
        - 자주 등장하는 문자열 조합(서브워드)을 하나의 토큰으로 구성한다.
        - 빈도가 높은 단어는 하나의 토큰으로, 빈도가 낮거나 희귀한 단어는 여러 서브워드로 분할한다.
    - **예시**:
        ```bash
        입력: "나는 밥을 먹었습니다. 나는 어제 밥을 했습니다."
        
        서브워드 토큰화 결과 (예시):
        ["나는", "밥", "을", "먹", "었", "습니다", ".", "나는", "어제", "밥", "을", "하", "었", "습니다", "."]
        ```
    - **장점**:
        - **미등록 단어(OOV) 문제 해결**: 모든 단어를 서브워드 조합으로 표현 가능
        - **어휘 사전 크기 최적화**: 단어 단위보다 작고, 문자 단위보다 효율적
        - **다국어 지원**: 언어에 구애받지 않는 범용적 토큰화
        - **형태론적 의미 포착**: 접두사, 접미사 등의 의미를 학습 가능
    - **주요 알고리즘**:
        - **BPE (Byte Pair Encoding)**: 가장 빈번한 연속 바이트/문자 쌍을 반복적으로 병합
        - **WordPiece**: BERT에서 사용, BPE와 유사하지만 likelihood 기반으로 병합
        - **Unigram**: 확률 모델 기반으로 최적의 서브워드 분할 선택


# 한국어 형태소 분석기

- kiwipiepy와 konlpy 는 대표적인 한국어 형태소 분석기이다.

## kiwipiepy
**kiwipiepy**는 C++로 구현된 한국어 형태소 분석기 Kiwi(Korean Intelligent Word Identifier)를 Python 환경에서 사용할 수 있도록 한 라이브러리이다. 

- 빠른 속도  
- 최신 품사 체계 지원  
- 사용자 사전 확장 용이  
- 최근 가장 널리 쓰이는 한국어 토크나이저 중 하나이다.
- https://github.com/bab2min/kiwipiepy
  
### 설치 방법

```bash
pip install kiwipiepy
```


In [1]:
! uv pip install ipykernel ipywidgets

[2mResolved [1m31 packages[0m [2min 409ms[0m[0m
[2mInstalled [1m3 packages[0m [2min 67ms[0m[0m
 [32m+[39m [1mipywidgets[0m[2m==8.1.8[0m
 [32m+[39m [1mjupyterlab-widgets[0m[2m==3.0.16[0m
 [32m+[39m [1mwidgetsnbextension[0m[2m==4.0.15[0m


### 주요 클래스 및 함수

#### Kiwi 클래스
- Kiwi의 핵심 클래스이며, 형태소 분석과 토큰화 기능을 모두 제공한다.
- Kiwi 품사는 세종 말뭉치를 기반으로 한다.
  - 품사 시작 글자
  - 체언(명사, 대명사): `N`, 용언(동사, 형용사): `V`, 수식언(관형사, 부사): `M`,  관계언(조사):`J`, 어미: `E`, 기호: `S`
    - https://github.com/bab2min/kiwipiepy?tab=readme-ov-file#%ED%92%88%EC%82%AC-%ED%83%9C%EA%B7%B8
- 메소드
  - `tokenzie(text)`: 형태소 분석 기반 토큰화 수행
  - `analyze(text)`: tokenize보다 좀 더 상세한 분석을 진행한다. 여러 분석결과를 조회할 수있다.
  - `add_user_word(word, pos, score)`: 사전에 직접 단어 등록
  - `space(text)`: 띄어 쓰기 교정

In [6]:
import kiwipiepy

In [7]:
from kiwipiepy import Kiwi
from pprint import pprint # 자료구조 출력을 보기 좋게 print 해줌

In [None]:
#!uv pip uninstall kiwipiepy

[2mUninstalled [1m1 package[0m [2min 23ms[0m[0m
 [31m-[39m [1mkiwipiepy[0m[2m==0.22.1[0m


In [6]:
!uv pip install kiwipiepy==0.21.0

[2mResolved [1m5 packages[0m [2min 4.35s[0m[0m
   [36m[1mBuilding[0m[39m kiwipiepy-model[2m==0.21.0[0m
[36m[1mDownloading[0m[39m kiwipiepy [2m(2.3MiB)[0m
 [32m[1mDownloading[0m[39m kiwipiepy
      [32m[1mBuilt[0m[39m kiwipiepy-model[2m==0.21.0[0m
[2mPrepared [1m2 packages[0m [2min 3.97s[0m[0m
[2mUninstalled [1m1 package[0m [2min 27ms[0m[0m
[2mInstalled [1m2 packages[0m [2min 10ms[0m[0m
 [32m+[39m [1mkiwipiepy[0m[2m==0.21.0[0m
 [31m-[39m [1mkiwipiepy-model[0m[2m==0.22.0[0m
 [32m+[39m [1mkiwipiepy-model[0m[2m==0.21.0[0m


In [8]:
kiwi = Kiwi()

In [9]:
# 토큰화

text = "나는 자연어 처리를 공부한다. \n내일은 뭘 공부할까?"
tokens = kiwi.tokenize(text)
pprint(tokens)

[Token(form='나', tag='NP', start=0, len=1),
 Token(form='는', tag='JX', start=1, len=1),
 Token(form='자연어 처리', tag='NNP', start=3, len=6),
 Token(form='를', tag='JKO', start=9, len=1),
 Token(form='공부', tag='NNG', start=11, len=2),
 Token(form='하', tag='XSV', start=13, len=1),
 Token(form='ᆫ다', tag='EF', start=13, len=2),
 Token(form='.', tag='SF', start=15, len=1),
 Token(form='내일', tag='NNG', start=18, len=2),
 Token(form='은', tag='JX', start=20, len=1),
 Token(form='뭐', tag='NP', start=22, len=1),
 Token(form='ᆯ', tag='JKO', start=22, len=1),
 Token(form='공부', tag='NNG', start=24, len=2),
 Token(form='하', tag='XSV', start=26, len=1),
 Token(form='ᆯ까', tag='EF', start=26, len=2),
 Token(form='?', tag='SF', start=28, len=1)]


In [None]:
# Token 객체에서 속성값들 조회
for token in tokens:
    r = f"토큰문자열:{token.form}, 원형(lemma):{token.lemma}, 품사(tag): {token.tag}, 시작위치:{token.start}, 글자수:{token.len}, 토큰이 있는 행번호:{token.line_number}, 몇 번째 문장에 있는지 : {token.sub_sent_position}, 문장에서 몇 번째 토큰인지:{token.word_position}"
    print(r) 

토큰문자열:나, 원형(lemma):나, 품사(tag): NP, 시작위치:0, 글자수:1, 토큰이 있는 행번호:0, 몇 번째 문장에 있는지 : 0, 문장에서 몇 번째 토큰인지:0
토큰문자열:는, 원형(lemma):는, 품사(tag): JX, 시작위치:1, 글자수:1, 토큰이 있는 행번호:0, 몇 번째 문장에 있는지 : 0, 문장에서 몇 번째 토큰인지:0
토큰문자열:자연어 처리, 원형(lemma):자연어 처리, 품사(tag): NNP, 시작위치:3, 글자수:6, 토큰이 있는 행번호:0, 몇 번째 문장에 있는지 : 0, 문장에서 몇 번째 토큰인지:1
토큰문자열:를, 원형(lemma):를, 품사(tag): JKO, 시작위치:9, 글자수:1, 토큰이 있는 행번호:0, 몇 번째 문장에 있는지 : 0, 문장에서 몇 번째 토큰인지:2
토큰문자열:공부, 원형(lemma):공부, 품사(tag): NNG, 시작위치:11, 글자수:2, 토큰이 있는 행번호:0, 몇 번째 문장에 있는지 : 0, 문장에서 몇 번째 토큰인지:3
토큰문자열:하, 원형(lemma):하, 품사(tag): XSV, 시작위치:13, 글자수:1, 토큰이 있는 행번호:0, 몇 번째 문장에 있는지 : 0, 문장에서 몇 번째 토큰인지:3
토큰문자열:ᆫ다, 원형(lemma):ᆫ다, 품사(tag): EF, 시작위치:13, 글자수:2, 토큰이 있는 행번호:0, 몇 번째 문장에 있는지 : 0, 문장에서 몇 번째 토큰인지:3
토큰문자열:., 원형(lemma):., 품사(tag): SF, 시작위치:15, 글자수:1, 토큰이 있는 행번호:0, 몇 번째 문장에 있는지 : 0, 문장에서 몇 번째 토큰인지:3
토큰문자열:내일, 원형(lemma):내일, 품사(tag): NNG, 시작위치:18, 글자수:2, 토큰이 있는 행번호:1, 몇 번째 문장에 있는지 : 0, 문장에서 몇 번째 토큰인지:0
토큰문자열:은, 원형(lemma):은, 품사(tag): JX, 시작위치:20, 글자수:1, 토큰이 있는 행번호:1, 몇 번째 문장에 있는지 : 0, 

In [21]:
# 여러 문서를 토큰화 할 때는 list로 묶어서 전달.
# 결과: Iterable -> 한 번에 한 문서의 결과를 반환.
text_list = ["나는 자연어 처리를 공부한다. 자연어처리는 nlp라고 한다.", "내일은 뭘 공부할까?"]
tokens = kiwi.tokenize(text_list)
tokens

<map at 0x17067b29090>

In [22]:
for token_list in tokens:
    print(token_list)

[Token(form='나', tag='NP', start=0, len=1), Token(form='는', tag='JX', start=1, len=1), Token(form='자연어 처리', tag='NNP', start=3, len=6), Token(form='를', tag='JKO', start=9, len=1), Token(form='공부', tag='NNG', start=11, len=2), Token(form='하', tag='XSV', start=13, len=1), Token(form='ᆫ다', tag='EF', start=13, len=2), Token(form='.', tag='SF', start=15, len=1), Token(form='자연어 처리', tag='NNP', start=17, len=5), Token(form='는', tag='JX', start=22, len=1), Token(form='nlp', tag='SL', start=24, len=3), Token(form='이', tag='VCP', start=27, len=0), Token(form='라고', tag='EC', start=27, len=2), Token(form='하', tag='VV', start=30, len=1), Token(form='ᆫ다', tag='EF', start=30, len=2), Token(form='.', tag='SF', start=32, len=1)]
[Token(form='내일', tag='NNG', start=0, len=2), Token(form='은', tag='JX', start=2, len=1), Token(form='뭐', tag='NP', start=4, len=1), Token(form='ᆯ', tag='JKO', start=4, len=1), Token(form='공부', tag='NNG', start=6, len=2), Token(form='하', tag='XSV', start=8, len=1), Token(form='

In [23]:
# 상세한 토큰화 분석 - analyze()

text1 = "나는 자연어 처리를 공부한다"
result = kiwi.analyze(text1, top_n=2)
pprint(result)



[([Token(form='나', tag='NP', start=0, len=1),
   Token(form='는', tag='JX', start=1, len=1),
   Token(form='자연어 처리', tag='NNP', start=3, len=6),
   Token(form='를', tag='JKO', start=9, len=1),
   Token(form='공부', tag='NNG', start=11, len=2),
   Token(form='하', tag='XSV', start=13, len=1),
   Token(form='ᆫ다', tag='EF', start=13, len=2)],
  -36.87178421020508),
 ([Token(form='나', tag='NP', start=0, len=1),
   Token(form='는', tag='JX', start=1, len=1),
   Token(form='자연어 처리', tag='NNP', start=3, len=6),
   Token(form='를', tag='JKO', start=9, len=1),
   Token(form='공부', tag='NNG', start=11, len=2),
   Token(form='하', tag='XSV', start=13, len=1),
   Token(form='ᆫ다', tag='EC', start=13, len=2)],
  -42.1435661315918)]


In [24]:
text_list = ["나는 자연어 처리를 공부한다. 자연어처리는 nlp라고 한다.", "내일은 뭘 공부할까?"]
result = kiwi.analyze(text_list, top_n=2)
for r in result:
    pprint(r)

[([Token(form='나', tag='NP', start=0, len=1),
   Token(form='는', tag='JX', start=1, len=1),
   Token(form='자연어 처리', tag='NNP', start=3, len=6),
   Token(form='를', tag='JKO', start=9, len=1),
   Token(form='공부', tag='NNG', start=11, len=2),
   Token(form='하', tag='XSV', start=13, len=1),
   Token(form='ᆫ다', tag='EF', start=13, len=2),
   Token(form='.', tag='SF', start=15, len=1),
   Token(form='자연어 처리', tag='NNP', start=17, len=5),
   Token(form='는', tag='JX', start=22, len=1),
   Token(form='nlp', tag='SL', start=24, len=3),
   Token(form='이', tag='VCP', start=27, len=0),
   Token(form='라고', tag='EC', start=27, len=2),
   Token(form='하', tag='VV', start=30, len=1),
   Token(form='ᆫ다', tag='EF', start=30, len=2),
   Token(form='.', tag='SF', start=32, len=1)],
  -64.47059631347656),
 ([Token(form='나', tag='VV', start=0, len=1),
   Token(form='는', tag='ETM', start=1, len=1),
   Token(form='자연어 처리', tag='NNP', start=3, len=6),
   Token(form='를', tag='JKO', start=9, len=1),
   Token(form=

In [25]:
# 띄어쓰기 교정  space

text = "자연어처리는재미있는분야이다.또재미있는것은뭐가있을까?"
result = kiwi.space(text)
result



'자연어 처리는 재미있는 분야이다. 또 재미있는 것은 뭐가 있을까?'

In [26]:
text_list = ["자연어처리는재미있는분야이다.또재미있는것은뭐가있을까?", "아버지가방에들어가신다."]
result = kiwi.space(text_list)
result
for r in result:
    print(r)


자연어 처리는 재미있는 분야이다. 또 재미있는 것은 뭐가 있을까?
아버지가 방에 들어가신다.


In [None]:
# 문장분리 = split_into_sents()
txt = "비형은 아침나절부터 불쾌합니다 퇴직금 탈탈털어 차린 작은 사무소에는 일거리다운 일거리도 들어오지 않고, 아침부터 꿈자리는 사납고, 장난전화까지... 빡쳐서 오늘은 닫고 휴업할까? 하는 참에 누군가 사무실 문aaa불법적인 일만 아니면 뭐든 해드리죠. 남자는 여전히 못 미더운 눈초리였다.그렇게 못 믿겠음 딴데 가던가. 속으로 궁시렁거린 비형은, 남자에게 무슨 일을 맡기실 것이냐 물었다. 남자가 부탁한 것은 사람 뒷조사. 그는 얼마 전 양녀로 들어온 자신의 여동생에 대한 뒷조사를 부탁한다. 여동생에게 무슨 문제라도...? 남자는 안경을 한번 치켜올리더니 날카로운 어투로 되받았다. 알것 없습니다. 당신은 단지 미화가 집에 오기까지 어디서 무엇을 했는지만 조사해 주면 됩니다. 잘 차려입은 양복에 고급스러워 보이는 시계, 남자는 분명 부잣집 도련님일 것이다. 게다가 최근 남자의 아버지가 들였다는 양녀... 일을 시작하기 전에 편견을 가지는 것은 좋지 않지만, 비형은 일의 윤곽이 대강 그려지는 것 같았다. 좋습니다. 선금으로 십 정도 받죠. 사흘 뒤면 될 것 같은데, 이쪽으로 오시겠습니까? 아니면 제가 그쪽으로 갈까요? 제가 들으러 오죠. 남자는 더는 이런 불쾌한 곳에 있기 싫다는 듯, 수표 한장을 비형 앞에 던져놓고, 휭하니 나가 버렸다 자료가 많을 수록 조사가 더 빨라질텐데.. 붙임성 없긴 그는 이번 달치 밥값이나 겨우 될까 싶은 수표로 잠시 손장난을 하다, 이내 파트너를 부르러 사무실을 나섰다"
result = kiwi.split_into_sents(txt)
result

[Sentence(text='비형은 아침나절부터 불쾌합니다 퇴직금 탈탈털어 차린 작은 사무소에는 일거리다운 일거리도 들어오지 않고, 아침부터 꿈자리는 사납고, 장난전화까지...', start=0, end=82, tokens=None, subs=[]),
 Sentence(text='빡쳐서 오늘은 닫고 휴업할까?', start=83, end=99, tokens=None, subs=[]),
 Sentence(text='하는 참에 누군가 사무실 문을 두들깁니다.', start=100, end=123, tokens=None, subs=[]),
 Sentence(text='들어온 건 안경을 쓴 신경질적인 남자였다', start=124, end=146, tokens=None, subs=[]),
 Sentence(text='비형은 웃으며 방문자를 맞았다.', start=146, end=163, tokens=None, subs=[]),
 Sentence(text='남자는 감정하듯 주위를 둘러보았다.', start=164, end=183, tokens=None, subs=[]),
 Sentence(text='여기가, 심부름센터 맞죠?', start=183, end=197, tokens=None, subs=[]),
 Sentence(text='그의 눈이 푹 가라앉은 접대용 소파에 꽂혔다.', start=198, end=223, tokens=None, subs=[]),
 Sentence(text='일처리는 확실합니까?', start=224, end=235, tokens=None, subs=[]),
 Sentence(text='그쯤 되자, 돈줄을 향한 비형의 환한 웃음도 조금 일그러졌다.', start=236, end=270, tokens=None, subs=[]),
 Sentence(text='불법적인 일만 아니면 뭐든 해드리죠.', start=271, end=291, tokens=None, subs=[]),
 Sentence(text='남자는 여전히 못 미더운 눈초리였다.', s

In [30]:
# 위 분리된 문장에서 띄어쓰기 교정
for sent in result :
    print(kiwi.space(sent.text))

비형은 아침나절부터 불쾌합니다 퇴직금 탈탈 털어 차린 작은 사무소에는 일거리다운 일거리도 들어오지 않고, 아침부터 꿈자리는 사납고, 장난 전화까지...
빡 쳐서 오늘은 닫고 휴업할까?
하는 참에 누군가 사무실 문을 두들깁니다.
들어온 건 안경을 쓴 신경질적인 남자였다
비형은 웃으며 방문자를 맞았다.
남자는 감정하듯 주위를 둘러보았다.
여기가, 심부름 센터 맞죠?
그의 눈이 푹 가라앉은 접대용 소파에 꽂혔다.
일 처리는 확실합니까?
그쯤 되자, 돈줄을 향한 비형의 환한 웃음도 조금 일그러졌다.
불법적인 일만 아니면 뭐든 해 드리죠.
남자는 여전히 못 미더운 눈초리였다.
그렇게 못 믿겠음
딴 데 가던가.
속으로 궁시렁거린 비형은, 남자에게 무슨 일을 맡기실 것이냐 물었다.
남자가 부탁한 것은 사람 뒷조사.
그는 얼마 전 양녀로 들어온 자신의 여동생에 대한 뒷조사를 부탁한다.
여동생에게 무슨 문제라도...?
남자는 안경을 한번 치켜올리더니 날카로운 어투로 되받았다.
알 것 없습니다.
당신은 단지 미화가 집에 오기까지 어디서 무엇을 했는지만 조사해 주면 됩니다.
잘 차려 입은 양복에 고급스러워 보이는 시계, 남자는 분명 부잣집 도련님일 것이다.
게다가 최근 남자의 아버지가 들였다는 양녀...
일을 시작하기 전에 편견을 가지는 것은 좋지 않지만, 비형은 일의 윤곽이 대강 그려지는 것 같았다.
좋습니다.
선금으로 십 정도 받죠.
사흘 뒤면 될 것 같은데, 이쪽으로 오시겠습니까?
아니면 제가 그쪽으로 갈까요?
제가 들으러 오죠.
남자는 더는 이런 불쾌한 곳에 있기 싫다는 듯, 수표 한 장을 비형 앞에 던져 놓고, 휭하니 나가 버렸다
자료가 많을 수록 조사가 더 빨라질 텐데..
붙임성 없긴 그는 이번 달치 밥값이나 겨우 될까 싶은 수표로 잠시 손 장난을 하다, 이내 파트너를 부르러 사무실을 나섰다


In [None]:
txt1 = "어제 친구가 '집에 가고 싶다.'라고 이야기 했다."
result = kiwi.split_into_sents(txt1) # 결과 : list[Sentence]
print(result)

[Sentence(text="어제 친구가 '집에 가고 싶다.'라고 이야기 했다.", start=0, end=28, tokens=None, subs=[Sentence(text='집에 가고 싶다.', start=8, end=17, tokens=None, subs=None)])]


In [36]:
print(result[0].text)

어제 친구가 '집에 가고 싶다.'라고 이야기 했다.


In [37]:
sent = result[0]
if sent.subs != None:
    print(sent.subs[0].text)

집에 가고 싶다.


In [None]:
#####################################################################################
# 사전에 사용자단어 추가 - add_user_word(단어, 품사,score)
# score : 토큰화 할 때 그 단어의 우선순위를 조절하는 가중치 값. 클 수록 더 선호하게 된다
#        0: 중립값, 고유명사들은 0를 지정한다.
# 딥러닝 : 5, 딥 : 10, 러닝 :10  >> 딥, 러닝으로 나누는 것을 더 선호하게 된다.
#####################################################################################

text2 = "박새로이가 왔다."
kiwi.tokenize(text2)

[Token(form='박새', tag='NNG', start=0, len=2),
 Token(form='로', tag='JKB', start=2, len=1),
 Token(form='이', tag='NNG', start=3, len=1),
 Token(form='가', tag='JKS', start=4, len=1),
 Token(form='오', tag='VV', start=6, len=1),
 Token(form='었', tag='EP', start=6, len=1),
 Token(form='다', tag='EF', start=7, len=1),
 Token(form='.', tag='SF', start=8, len=1)]

In [39]:
kiwi.add_user_word("박새로이","NP", 0)
kiwi.tokenize(text2)

[Token(form='박새로이', tag='NP', start=0, len=4),
 Token(form='가', tag='JKS', start=4, len=1),
 Token(form='오', tag='VV', start=6, len=1),
 Token(form='었', tag='EP', start=6, len=1),
 Token(form='다', tag='EF', start=7, len=1),
 Token(form='.', tag='SF', start=8, len=1)]

In [40]:
##########################################
# 불용어(Stop words) 처리 - 토큰화 했을 때 제거할 토큰(단어)들.
#########################################

# kiwi에서 제공하는 불용어

from kiwipiepy.utils import Stopwords

sw = Stopwords()
sw

<kiwipiepy.utils.Stopwords at 0x170728773e0>

In [41]:
# 불용어 조회

sw.stopwords

{('ᆫ', 'ETM'),
 ('ᆫ', 'JX'),
 ('ᆫ다', 'EF'),
 ('ᆯ', 'ETM'),
 ('가', 'JKS'),
 ('같', 'VA'),
 ('것', 'NNB'),
 ('게', 'EC'),
 ('겠', 'EP'),
 ('고', 'EC'),
 ('고', 'JKQ'),
 ('과', 'JC'),
 ('과', 'JKB'),
 ('그', 'MM'),
 ('그', 'NP'),
 ('기', 'ETN'),
 ('까지', 'JX'),
 ('나', 'NP'),
 ('년', 'NNB'),
 ('는', 'ETM'),
 ('는', 'JX'),
 ('다', 'EC'),
 ('다', 'EF'),
 ('다고', 'EC'),
 ('다는', 'ETM'),
 ('대하', 'VV'),
 ('더', 'MAG'),
 ('던', 'ETM'),
 ('도', 'JX'),
 ('되', 'VV'),
 ('되', 'XSV'),
 ('들', 'XSN'),
 ('등', 'NNB'),
 ('따르', 'VV'),
 ('때', 'NNG'),
 ('때문', 'NNB'),
 ('라', 'EC'),
 ('라는', 'ETM'),
 ('로', 'JKB'),
 ('를', 'JKO'),
 ('만', 'JX'),
 ('만', 'NR'),
 ('말', 'NNG'),
 ('며', 'EC'),
 ('면', 'EC'),
 ('면서', 'EC'),
 ('명', 'NNB'),
 ('받', 'VV'),
 ('보', 'VV'),
 ('부터', 'JX'),
 ('사람', 'NNG'),
 ('성', 'XSN'),
 ('수', 'NNB'),
 ('아니', 'VCN'),
 ('않', 'VX'),
 ('어', 'EC'),
 ('어', 'EF'),
 ('어서', 'EC'),
 ('어야', 'EC'),
 ('없', 'VA'),
 ('었', 'EP'),
 ('에', 'JKB'),
 ('에게', 'JKB'),
 ('에서', 'JKB'),
 ('와', 'JC'),
 ('와', 'JKB'),
 ('우리', 'NP'),
 ('원', 'NNB'),


In [42]:
len(sw.stopwords)

100

In [43]:
text = "나는 자연어 처리를 공부한다. 자연어 처리는 NLP라고 한다."
result = kiwi.tokenize(text)
result

[Token(form='나', tag='NP', start=0, len=1),
 Token(form='는', tag='JX', start=1, len=1),
 Token(form='자연어 처리', tag='NNP', start=3, len=6),
 Token(form='를', tag='JKO', start=9, len=1),
 Token(form='공부', tag='NNG', start=11, len=2),
 Token(form='하', tag='XSV', start=13, len=1),
 Token(form='ᆫ다', tag='EF', start=13, len=2),
 Token(form='.', tag='SF', start=15, len=1),
 Token(form='자연어 처리', tag='NNP', start=17, len=6),
 Token(form='는', tag='JX', start=23, len=1),
 Token(form='NLP', tag='SL', start=25, len=3),
 Token(form='이', tag='VCP', start=28, len=0),
 Token(form='라고', tag='EC', start=28, len=2),
 Token(form='하', tag='VV', start=31, len=1),
 Token(form='ᆫ다', tag='EF', start=31, len=2),
 Token(form='.', tag='SF', start=33, len=1)]

In [None]:
# stopwords 들 제거 - stopword객체.filter(토큰list)

result2=sw.filter(result)
result2

[Token(form='자연어 처리', tag='NNP', start=3, len=6),
 Token(form='공부', tag='NNG', start=11, len=2),
 Token(form='자연어 처리', tag='NNP', start=17, len=6),
 Token(form='NLP', tag='SL', start=25, len=3),
 Token(form='라고', tag='EC', start=28, len=2)]

In [46]:
#불용어 추가/삭제
# sw.add(("단어","품사태그")) # 품사 tag 생략 >> NNP(고유명사)
# sw.remove(("단어", "품사Tag"))

In [51]:
result = kiwi.tokenize("이름이 박새로이입니다.")
print(result)
sw.filter(result)

[Token(form='이름', tag='NNG', start=0, len=2), Token(form='이', tag='JKS', start=2, len=1), Token(form='박새로이', tag='NP', start=4, len=4), Token(form='이', tag='VCP', start=8, len=1), Token(form='ᆸ니다', tag='EF', start=8, len=3), Token(form='.', tag='SF', start=11, len=1)]


[Token(form='이름', tag='NNG', start=0, len=2),
 Token(form='박새로이', tag='NP', start=4, len=4),
 Token(form='ᆸ니다', tag='EF', start=8, len=3)]

In [52]:
sw.add(("박새로이","NP"))
sw.filter(result)

[Token(form='이름', tag='NNG', start=0, len=2),
 Token(form='ᆸ니다', tag='EF', start=8, len=3)]

In [53]:
sw.remove(('박새로이', 'NP'))
sw.filter(result)

[Token(form='이름', tag='NNG', start=0, len=2),
 Token(form='박새로이', tag='NP', start=4, len=4),
 Token(form='ᆸ니다', tag='EF', start=8, len=3)]

In [55]:
#명사만 추출

result = kiwi.tokenize("나는 NLP 공부를 어제부터 시작했습니다.")
token_list = []
for token in result:
    if token.tag.startswith('N'): # 명사는 N으로 시작
       token_list.append(token)

token_list

[Token(form='나', tag='NP', start=0, len=1),
 Token(form='공부', tag='NNG', start=7, len=2),
 Token(form='어제', tag='NNG', start=11, len=2),
 Token(form='시작', tag='NNG', start=16, len=2)]

## KoNLPy(코엔엘파이)
- KoNLPY는 한국어 자연어 처리(Natural Language Processing) 파이썬 라이브러리이다.  한국어 처리를 위한 tokenize, 형태소 분석, 어간추출, 품사부착(POS Tagging) 등의 기능을 제공한다. 
- http://KoNLPy.org/ko/latest/
- 기존의 개발된 다양한 형태소 분석기를 통합해서 동일한 interface로 호출 할 수 있게 해준다.

### KoNLPy 설치
- 설치 순서
  1. Java 실행환경 설치
  2. JPype1 설치
  3. koNLPy 설치

1. **Java 설치**
  - https://www.oracle.com/java/technologies/downloads/
    - OS에 맞는 설치 버전을 다운받아 설치한다.
    - MAC: ARM일 경우: **ARM64 CPU** - ARM64 DMG Installer, **Intel CPU**: x64 DMG Installer
  - 시스템 환경변수 설정
      - `JAVA_HOME` : 설치 경로 지정
      - `Path` : `설치경로\bin` 경로 지정

2. **JPype1 설치**
   - 파이썬에서 자바 모듈을 호출하기 위한 연동 패키지
   - 설치: `pip install JPype1`

3. **KoNLPy 설치**
- `pip install konlpy`

In [None]:
# ! uv pip install jpype1 konlpy

In [1]:
import konlpy

: 

### 형태소 분석기/사전
- 형태소 사전을 내장하고 있으며 형태소 분석 함수들을 제공하는 모듈

#### KoNLPy 제공 형태소 분석기
- Open Korean Text
    - 트위터에서 개발
    - https://github.com/open-korean-text/open-korean-text
- Hannanum(한나눔)
    - KAIST Semantic Web Research Center 에서 개발
    - http://semanticweb.kaist.ac.kr/hannanum/
- Kkma(꼬꼬마)
    - 서울대학교 IDS(Intelligent Data Systems) 연구실 개발.
    - http://kkma.snu.ac.kr/
- Komoran(코모란)
    - Shineware에서 개발.
    - 오픈소스버전과 유료버전이 있음
    - https://github.com/shin285/KOMORAN
- Mecab(메카브) 
    - 일본어용 형태소 분석기를 한국에서 사용할 수 있도록 수정
    - windows에서는 설치가 안됨
    - https://bitbucket.org/eunjeon/mecab-ko


### 형태소 분석기 공통 메소드
- `morphs(string)` : 형태소 단위로 토큰화(tokenize)
- `nouns(string)` : 명사만 추출하여 토큰화(tokenize)    
- `pos(string)`: 품사 부착
    - 형태소 분석기 마다 사용하는 품사태그가 다르다.
        - https://konlpy-ko.readthedocs.io/ko/v0.5.2/morph/
- `tagset`: 형태소 분석기가 사용하는 품사태그 설명하는 속성. 

In [None]:
from konlpy.tag import Okt

okt = Okt()

In [None]:
# 형태소 기반으로 토큰화
txt = "자연어 처리 공부를 어제 시작했습니다. 자연어 처리는 쉽습니다."

result = okt.morphs(txt)
result

In [None]:
result_nouns = okt.nouns(txt) # 명사만 추출해서 토큰화
result_nouns

In [None]:
# 품사 부착(POS Tagging)
result_pos = okt.pos(txt)
result_pos

In [None]:
# 조사 구두점 제거
result = []
for word, tag in result_pos:
   if tag not in ['josa', 'Punctuation'] :
      result.append((word, tag))
result

In [None]:
# 품사 tag 를 확인

okt.tagset

In [None]:
from konlpy.tag import Komoran
komoran = Komoran()
komoran.tagset

In [None]:
# 원형복원(표제어추출) - Okt 의 기능
result = okt.morphs(txt, stem=True)
result

In [None]:
# 비속어 처리 - Okt 기능
txt = "반갑습니당."
txt = "이것도 되나욬ㅋㅋㅋㅋㅋㅋㅋ"
okt.morphs(txt, norm=True)

# WordCloud

WordCloud는 텍스트 데이터에서 단어의 등장 빈도를 시각적으로 표현한 그래픽이다.
- 특징
  - 자주 등장하는 단어일수록 글자 크기가 커진다.
  - 텍스트 전체의 주제를 직관적으로 파악할 수 있다.
  - 문서의 핵심키워드를 빠르게 파악할 수 있어 텍스트 분석에서 탐색적 데이터 분석(EDA) 단계에서 자주 활용된다.
- 설치
  - `pip install wordcloud`

In [None]:
from konlpy.corpus import kolaw
kolaw.fileids()

In [None]:
with kolaw.open('constitution.txt') as f:
    txt = f.read()

txt[:100]

In [None]:
# 1. 토큰화 - 명사

from konlpy.tag import Okt
okt = Okt()
token_nouns = okt.nouns(txt)
print(len(token_nouns))

# 2글자 이상인 것만 남기기.
token_nouns = [token for token in token_nouns if len(token)>=2]
print(len(token_nouns))

token_nouns[:5]

In [None]:
# 단어의 개수를 카운트
from collections import Counter

freq = Counter(token_nouns) #{단어 : 출연개수}
freq

In [None]:
# 빈도수 높은 순서로 n개 조회 top - k
freq.most_common(n=5)

In [None]:
# wordcloud 정의
# 한글폰트 경로가 필요. (코랩에 한글 폰트 설치)

# !sudo apt install fonts-nanum # 코랩이서 사용한 것

In [None]:
# 경로 확인
font_path = "/usr/share/fonts/truetype/nanum/NanumGothic.ttf"

In [None]:
#wordcloud 구현
from wordcloud import WordCloud
wc = WordCloud(
    font_path=font_path,
    max_words = 150, #wordcloud에 나올 최대 단어수, 순서: 빈도수(순서: 빈도수)
    min_font_size=10, #제일 빈도수가 적은 단어의 폰트 크기(최소 폰트 크기)
    relative_scaling=0.5, # 단어 크기를 빈도수 비율에 얼마나 민감하게 반영할 지
                         # 조절하는 값. 0~1 사이 실수 지정. 0: 빈도 차이를 거의 반영 안함.
                         # 1: 빈도수 차이를 크게 반영. 적은 것은 더 작게 많은 것은 더 크게
    width = 500, # 그래프 크기(pixel)
    height = 400,
    background_color = "white", # 배경색. 디폴트 : 블랙 # 컬러 헥사코드로 지정 가능
    prefer_horizontal=0.5 # 가로 방향, 세로방향에서 가로방향으로 쓴 단어의 비율

In [None]:
# t생성 - 값 : {단어:빈도수}
wc_img = wc.generate_from_frequencies(freq)

In [None]:
print(wc_img)
# 파일로 저장
wc_img.to_file("constitution_wc.png")

In [None]:
import matplotlib.pyplot as plt

plt.imshow(wc_img)
plt.axis("off")
plt.show()