# 토큰화 (Tokenization)

- 텍스트를 분석하기 위해 최소한의 의미를 가지는 가장 작은 단위인 토큰으로 분리하는 과정
- 언어별로 토큰화 방법이 다르며, 한국어의 경우 형태소 분석을 병행하는 경우가 많음
- 중요성
 - 텍스트 분할
   - 긴 글을 단어, 문장 혹은 의미 단위로 분리하여 모델이 각 단어의 의미를 파악할 수 있게 함
 - 후속 처리의 기초
   - 불용어 제거, 정규화 등의 이후 단계에서 각 토큰을 개별적으로 다루기 때문에 필수적임


- 예시
  - Machine learning methods including ANN have been applied in compound activity prediction for a long time.
    - Machine / learning / methods / including / ANN / have / been / applied / in / compound / activity / prediction / for / a / long / time.

  - 어제 한화가 롯데에게 9:15로 지고 말았다.
    - 어제 / 한화 / 가 / 롯데 / 에게 / 9:15 / 로  / 지고 / 말았다.
    - 구두점이나 특수문자를 전부 제거하는 작업만으로는 토큰화를 진행하기 어려울 수 있음




## 단어 토큰화 (Word Tokenization)




- 텍스트를 단어 단위로 분리함
- 영문 단어 토큰화
  - 공백과 구두점 기반 분리
    - 영어는 단어 간에 공백이 있고, 구두점을 통해 문장의 경계를 나타냄
  - 접어 및 축약어 처리
    - 영어에서는 don’t, I’m과 같은 축약어가 있어 이를 적절히 처리해야 함
  - 특수문자 및 숫자 처리
    - 이메일 주소, URL, 숫자 등의 처리방안

### 공백 기반 토큰화

In [None]:
text = "Hello, world! This is a test. Let's see how it tokenizes words."
tokens = text.split()
print("토큰화 결과:", tokens)

- 단순히 공백을 기준으로 분리하기 때문에 구두점과 축약어가 제대로 처리되지 않음
- 일반적인 NLP 작업에는 적합하지 않음

### nltk 라이브러리를 활용한 토큰화

In [None]:
!pip install nltk
import nltk
nltk.download('punkt_tab')  # 토큰화를 위한 데이터 다운로드, Colab, 우분투

In [None]:
from nltk.tokenize import word_tokenize
text = "Hello, world! This is a test. Let's see how it tokenizes words."
tokens = word_tokenize(text)
print("토큰화 결과:", tokens)

nltk 설명
- 구두점 처리
  - NLTK의 word_tokenize 함수는 구두점을 별도의 토큰으로 인식함
- 축약어 처리
  - Let’s가 Let과 ‘s로 분리됨
- 숫자 및 특수문자
  - 숫자나 특수문자도 토큰으로 분리됨

### spacy 라이브러리를 활용한 토큰화

In [None]:
!pip install spacy
!python -m spacy download en_core_web_sm  # 영어 모델 다운로드

In [None]:
import spacy
nlp = spacy.load("en_core_web_sm")
text = "Hello, world! This is a test. Let's see how it tokenizes words."
doc = nlp(text)
tokens = [token.text for token in doc]
print("토큰화 결과:", tokens)

spacy 설명
- NLTK와 결과가 유사함
- 추가로 품사 태깅이나 개체명 인식 등의 기능을 함께 사용할 수 있음


## 형태소 토큰화 (Morphological Tokenization)

- 단어를 구성하는 최소 의미 단위인 형태소로 분리
- 한국어 형태소 토큰화
  - 교착어 특성
    - 조사와 어미가 단어에 붙어 있어 형태소 분석이 필요
  - 띄어쓰기의 불규칙성
    - 띄어쓰기가 영어처럼 엄격하지 않으며, 원시 데이터에 띄어쓰기 오류가 빈번히 발생
  - 복합어와 신조어 처리
    - 새로운 단어와 복합어를 정확히 분리하고 인식하기 어려움


- 한국어의 토큰화 과정에서 형태소는 중요한 역할을 담당
- 화분에 예쁜 꽃이 피었다.
    - 화분(명사) + 에(조사) + 예쁘(어간) + ㄴ(어미) + 꽃(명사) + 이(조사) + 피(어간) + 었(어미) + 다(어미)
    - 자립 형태소: 명사, 수사, 부사, 감탄사
    - 의존 형태소: 조사, 어미 어간


### 한국어 형태소 분석 라이브러리



KoNLPy
- Okt (Open Korea Text)
- Kkma
- Komoran
- Hannanum

각 형태소 분석기의 사전과 알고리즘이 다르기 때문에, 형태소 분석기마다 결과가 다를 수 있음

형태소 추출: 텍스트를 형태소 단위로 분리

품사 태깅: 각 형태소에 품사 태그를 부착

명사 추출: 텍스트에서 명사를 추출


In [None]:
# KoNLPy 설치
!pip install konlpy

#### Okt를 이용한 형태소 토큰화

In [None]:
text = "한국어 자연어 처리는 어렵지만 재미있습니다!"
from konlpy.tag import Okt
okt = Okt()

# 형태소 추출
morphs = okt.morphs(text)
print("형태소:", morphs)

# 품사 태깅
pos = okt.pos(text)
print("품사 태깅:", pos)

# 명사 추출
nouns = okt.nouns(text)
print("명사:", nouns)

#### Kkma를 이용한 형태소 토큰화

In [None]:
text = "한국어 자연어 처리는 어렵지만 재미있습니다!"
from konlpy.tag import Kkma
kkma = Kkma()

# 형태소 추출
morphs = kkma.morphs(text)
print("형태소:", morphs)

# 품사 태깅
pos = kkma.pos(text)
print("품사 태깅:", pos)

# 명사 추출
nouns = kkma.nouns(text)
print("명사:", nouns)

#### Komoran을 이용한 형태소 토큰화

In [None]:
text = "한국어 자연어 처리는 어렵지만 재미있습니다!"
from konlpy.tag import Komoran
komoran = Komoran()

# 형태소 추출
morphs = komoran.morphs(text)
print("형태소:", morphs)

# 품사 태깅
pos = komoran.pos(text)
print("품사 태깅:", pos)

# 명사 추출
nouns = komoran.nouns(text)
print("명사:", nouns)

#### Hannanum을 이용한 형태소 토큰화

In [None]:
text = "한국어 자연어 처리는 어렵지만 재미있습니다!"
from konlpy.tag import Hannanum
hannanum = Hannanum()

# 형태소 추출
morphs = hannanum.morphs(text)
print("형태소:", morphs)

# 품사 태깅
pos = hannanum.pos(text)
print("품사 태깅:", pos)

# 명사 추출
nouns = hannanum.nouns(text)
print("명사:", nouns)

## 문장 토큰화 (Sentence Tokenization)

- 텍스트를 문장 단위로 분리
- 일반적으로 마침표, 느낌표, 물음표 등을 기준으로 분리
- 한국어에서는 따옴표나 줄임표 등의 처리에 주의해야 함
- 문장 토큰화 역시 다양한 방법으로 수행할 수 있음

#### Regex를 이용한 문장 토큰화

In [None]:
import re

text = "Hello, world! How are you doing today? This is an example of sentence tokenization. Let's see how it works. BTW, Dr. Kim has not medical doctor."

# 정규식을 이용한 문장 토큰화
sentence_endings = re.compile(r'[.!?]')
sentences = sentence_endings.split(text)

# 공백 제거
sentences = [sentence.strip() for sentence in sentences if sentence.strip() != '']

print("문장 토큰화 결과:")
for idx, sentence in enumerate(sentences):
    print(f"문장 {idx+1}: {sentence}")

- 정규식을 사용하여 마침표, 느낌표, 물음표를 기준으로 텍스트를 분리
- 간단하지만 약어 처리 등에서 한계가 있음

#### nltk를 이용한 문장 토큰화

In [None]:
!pip install nltk
import nltk
nltk.download('punkt_tab')  # 토큰화를 위한 데이터 다운로드

In [None]:
from nltk.tokenize import sent_tokenize

text = "Hello, world! How are you doing today? This is an example of sentence tokenization. Let's see how it works. BTW, Dr. Kim has not medical doctor."

# 문장 토큰화 수행
sentences = sent_tokenize(text)

print("문장 토큰화 결과:")
for idx, sentence in enumerate(sentences):
    print(f"문장 {idx+1}: {sentence}")

- sent_tokenize 함수는 주어진 텍스트를 문장 단위로 분리
- 내부적으로 PunktSentenceTokenizer를 사용하여 문장 경계를 인식
- 약어와 마침표 등을 고려하여 정확한 문장 분리를 수행

#### spacy를 이용한 문장 토큰화

In [None]:
!pip install spacy
!python -m spacy download en_core_web_sm  # 영어 모델 다운로드

In [None]:
import spacy
nlp = spacy.load('en_core_web_sm')

text = "Hello, world! How are you doing today? This is an example of sentence tokenization. Let's see how it works. BTW, Dr. Kim has not medical doctor."

# 문장 토큰화 수행
doc = nlp(text)
sentences = list(doc.sents)

print("문장 토큰화 결과:")
for idx, sentence in enumerate(sentences):
    print(f"문장 {idx+1}: {sentence.text}")

- spacy의 nlp 객체를 통해 텍스트를 처리하고, doc.sents를 사용하여 문장 단위로 분리
- 언어 모델에 기반하여 문장 경계를 인식하므로 정확도가 높음

#### 한국어 문장 토큰화 예제

In [None]:
!pip install kss

In [None]:
import kss

text = "안녕하세요. 오늘은 자연어 처리를 배웁니다! 기쁘지 않나요? 저는 정말 기대돼요."

# 문장 토큰화 수행
sentences = kss.split_sentences(text)

print("문장 토큰화 결과:")
for idx, sentence in enumerate(sentences):
    print(f"문장 {idx+1}: {sentence}")

- kss (Korean sentence splitter)는 한국어 문장 분리를 위한 라이브러리
- 한국어의 특성을 고려하여 문장 토큰화 수행


# 실습

## 텍스트 토큰화 적용하기

이전에 실습한 내용을 참고하여 주어진 문장을 단어 단위로 토큰화 하세요.

NLTK의 work_tokenize 함수를 사용하지 않고 정규식을 이용하여 토큰화를 구현해보세요.


예시 입력

```
text = "Hello! How are you doing today? I'm doing fine."
```

목표 출력

```
['Hello', 'How', 'are', 'you', 'doing', 'today', 'I', "'m", 'doing', 'fine']
```


## 텍스트 토큰화 적용하기

이전에 실습한 내용을 참고하여 주어진 텍스트를 문장 단위로 토큰화하세요.

NLTK의 sent_tokenize 함수를 사용하세요

예시 입력
```
text = "Mr. Smith went to Washington. He arrived on Jan. 15th. It was a sunny day."
```

목표 출력
```
['Mr. Smith went to Washington.', 'He arrived on Jan. 15th.', 'It was a sunny day.']
```

### 텍스트 토큰화 적용하기

이전에 실습한 내용을 참고하여 주어진 한국어 문장을 형태소 단위로 토큰화하고, 명사만 추출하세요.

KoNLPy의 Okt 형태소 분석기를 사용하세요

예시 입력
```
text = "자연어 처리는 인공지능의 한 분야입니다."
```

목표 출력
```
['자연어', '처리', '인공지능', '분야']
```

## 텍스트 토큰화 적용하기

이전에 실습한 내용을 참고하여 정규식을 사용하여 이메일 주소와 URL을 특수 토큰 <EMAIL>과 <URL>로 대체하고, 공백을 기준으로 토큰화하세요.

예시 입력
```
text = "문의사항이 있으시면 example@example.com 또는 http://example.com 으로 연락주세요."
```
목표 출력
```
['문의사항이', '있으시면', '<EMAIL>', '또는', '<URL>', '으로', '연락주세요']
```