## 텍스트의 토큰화
**자연어 처리(NLP)에서 토큰화(Tokenization)**
- 텍스트 분석, 언어 번역, 감정 분석 등 다양한 NLP 작업을 위해 텍스트를 준비하는 기본 단계입니다.
- 토큰화는 텍스트를 단어, 문구, 기호 또는 기타 의미 있는 요소(토큰)로 분해하는 작업을 포함합니다. 이 과정에서 생성된 토큰은 추가 처리 및 분석을 위한 기본 구성 요소가 됩니다.

토큰화의 목적
- 토큰화의 주요 목적은 텍스트 데이터를 단순화하여 알고리즘이 이해하고 처리할 수 있도록 관리하기 쉽게 만드는 것입니다. 이를 통해 텍스트의 복잡성을 줄이고 일관성을 유지함으로써, 다양한 NLP 작업에서 효율적인 분석과 처리가 가능해집니다.

토큰화의 유형
- 토큰화는 다양한 수준에서 수행될 수 있으며, 각 유형은 특정 NLP 작업의 요구 사항에 따라 선택됩니다:
  - 단어 토큰화 (Word Tokenization):
    텍스트를 개별 단어로 분해합니다.
    예: "ChatGPT is amazing!" → ["ChatGPT", "is", "amazing", "!"]
  - 문장 토큰화 (Sentence Tokenization):
    텍스트를 개별 문장으로 분해합니다.
    예: "Hello world. How are you?" → ["Hello world.", "How are you?"]
  - 하위 단어 토큰화 (Subword Tokenization):
    단어를 더 작은 의미 단위로 분해합니다. 주로 BPE(Byte Pair Encoding)나 WordPiece 알고리즘을 사용합니다.
    예: "unhappiness" → ["un", "hap", "pi", "ness"]
  - 문자 토큰화 (Character Tokenization):
    텍스트를 개별 문자로 분해합니다.
    예: "Hello" → ["H", "e", "l", "l", "o"]

토큰화의 과정
- 토큰화 과정은 일반적으로 다음 단계로 구성됩니다:
  - 텍스트 정규화 (Text Normalization):
    모든 텍스트를 소문자로 변환하여 일관성을 유지합니다.
    불필요한 구두점과 공백을 제거합니다.
    예: "Hello, World!" → "hello world"
  - 구분자 사용 (Delimiter-based Tokenization):
    공백이나 구두점을 기준으로 텍스트를 분해합니다.
    예: "hello world" → ["hello", "world"]
  - 고급 토큰화 기법 (Advanced Tokenization Techniques):
    언어의 문법적, 의미적 구조를 고려하여 토큰을 생성합니다.
    BPE, WordPiece, SentencePiece 등의 알고리즘을 사용합니다.

토큰화의 중요성
- 토큰화는 NLP 작업에서 매우 중요한 역할을 합니다. 잘못된 토큰화는 후속 처리와 분석의 정확도에 큰 영향을 미칠 수 있습니다.
- 반면, 올바른 토큰화는 텍스트 데이터를 효과적으로 전처리하고 분석할 수 있게 합니다.

## 고급 토큰화 기법
언어의 문법적, 의미적 구조를 고려하여 토큰을 생성하는 것은 텍스트의 의미를 더 잘 보존하고, 더 정확한 분석과 처리를 가능하게 하기 위한 고급 토큰화 기법입니다. 이러한 기법들은 단순히 공백이나 구두점을 기준으로 텍스트를 분해하는 것을 넘어, 단어의 의미와 형태, 문장의 구조 등을 이해하여 더 정교한 토큰을 생성합니다.


형태소 분석 (Morphological Analysis):
- 단어를 구성하는 최소 의미 단위인 형태소를 분석합니다.
- 예를 들어, "cats"는 "cat"과 복수형 접미사 "s"로 분해됩니다.
- 형태소 분석기는 단어의 어간과 접사(접두사, 접미사)를 인식하고 분리합니다.

어간 추출 (Stemming):
- 단어의 어간을 추출하여 형태를 단순화합니다.
- 예: "running", "runs", "ran" → "run"
- 포터 스테머(Porter Stemmer)와 같은 알고리즘이 사용됩니다.

어근 추출 (Lemmatization):
- 단어의 어근을 추출하여 형태를 표준화합니다. 어간 추출보다 더 정교합니다.
- 예: "running", "ran" → "run"
- 품사 정보를 사용하여 정확한 어근을 찾아냅니다. 예를 들어, "better"는 어근 "good"으로 변환됩니다.
- WordNetLemmatizer와 같은 도구가 사용됩니다.

BPE (Byte Pair Encoding):
- 자주 등장하는 바이트 쌍을 병합하여 점진적으로 단어를 분해합니다.
- 예: "lowest"가 "l", "o", "w", "e", "s", "t"로 분해되고, 자주 등장하는 "lo", "we"가 결합되어 "low", "est"로 변환됩니다.
- BPE는 신경망 번역 모델과 같은 대규모 언어 모델에서 널리 사용됩니다.

WordPiece:
- BPE와 유사하지만, 서브워드(subword) 단위로 토큰을 생성합니다.
- 예: "unhappiness" → ["un", "##happiness"]
- 트랜스포머 모델(BERT 등)에서 사용됩니다.

SentencePiece:
- 언어에 중립적인 방식으로 텍스트를 서브워드 단위로 분해합니다.
- BPE와 유사하지만, 문장을 토큰화하는 과정에서 공백을 고려하지 않음.
- 예: "unhappiness" → ["un", "ha", "ppiness"]
- Google의 T5, ALBERT 모델에서 사용됩니다.

In [4]:
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.preprocessing.sequence import pad_sequences
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Flatten, Embedding
from tensorflow.keras.utils import to_categorical
from numpy import array

# 텍스트 전처리와 관련한 함수 중  text_to_word_sequence를 부러오기
from tensorflow.keras.preprocessing.text import text_to_word_sequence

text = '해보지 않으면 해낼 수 없다'

result = text_to_word_sequence(text)
print('\n원문: \n',text)
print('\n토큰화:\n',result)


원문: 
 해보지 않으면 해낼 수 없다

토큰화:
 ['해보지', '않으면', '해낼', '수', '없다']


- Tokenizer' 클래스는 텍스트를 정수 시퀀스로 변환하도록 설계
- fit_on_texts(docs): 이 메소드는 문장 목록(docs)을 인수로 사용하여 token 개체에서 호출된다. 텍스트 목록을 기반으로 내부 어휘를 업데이트하여 토크나이저가 이러한 텍스트로 작업할 수 있도록 준비한다. 말뭉치의 각 고유 단어에 색인을 할당하고 단어 빈도와 같은 다양한 측정항목을 계산하는 작업이 포함된다.
- token.word_counts: 토크나이저를 텍스트에 맞춘 후 word_counts는 키가 입력 텍스트에서 발견된 단어이고 값은 각 단어의 발생 횟수인 OrderedDict를 제공한다. 'OrderedDict'를 사용하면 단어가 텍스트에서 처음 나타나는 순서대로 정렬.
- token.document_count: 이 속성은 처리된 총 문서(또는 문장) 수를 표시
- token.word_docs: word_counts와 유사한 OrderedDict이지만 단어의 빈도 대신 각 단어가 나타나는 문서 수를 표시
- token.word_index: 이 속성은 단어를 고유하게 할당된 정수에 매핑하는 OrderedDict를 제공. 모델에는 숫자 입력이 필요하므로 이는 기계 학습 모델의 텍스트를 벡터화하는 데 필요

In [6]:
docs = ['먼저 텍스트의 각 단어를 나누어 토큰화합니다.',
        '텍스트의 단어로 토큰화해야 딥러닝에서 인식됩니다.',
        '토큰화한 결과는 딥러닝에서 사용할 수 있습니다.']

token = Tokenizer() #토큰화 함수 지정
token.fit_on_texts(docs) #토큰화 함수에 문장 적용

# 단어의 빈도수를 계산한 결과를 각 옵션에 맞추어 출력
# Tokenizer()의 word_counts함수는 순서를 기억하는 OrderedDict 클래스를 사용
print('\n단어 카운트:\n', token.word_counts)
print('\n문장 카운트:',token.document_count)
print('\n각 단어가 몇 개의 문장에 포함되어 있는가:\n', token.word_docs)
# token.word_index의 출력 순서는 제공된 텍스트 코퍼스의 각 단어의 빈도에 따라 가장 빈번한 단어부터 가장 빈도가 낮은 단어까지 결정
# 동일한 빈도의 경우는 먼저 등장한 단어가 더 낮은 인덱스를 할당
print('\n각 단어에 매겨진 인덱스 값:\n', token.word_index)


단어 카운트:
 OrderedDict([('먼저', 1), ('텍스트의', 2), ('각', 1), ('단어를', 1), ('나눈어', 1), ('토큰화합니다', 1), ('단어로', 1), ('토큰화해야', 1), ('딥러닝에서', 2), ('인식됩니다', 1), ('토큰화한', 1), ('결과는', 1), ('사용할', 1), ('수', 1), ('있습니다', 1)])

문장 카운트: 3

각 단어가 몇 개의 문장에 포함되어 있는가:
 defaultdict(<class 'int'>, {'단어를': 1, '각': 1, '토큰화합니다': 1, '먼저': 1, '나눈어': 1, '텍스트의': 2, '단어로': 1, '인식됩니다': 1, '토큰화해야': 1, '딥러닝에서': 2, '토큰화한': 1, '있습니다': 1, '결과는': 1, '사용할': 1, '수': 1})

각 단어에 매겨진 인덱스 값:
 {'텍스트의': 1, '딥러닝에서': 2, '먼저': 3, '각': 4, '단어를': 5, '나눈어': 6, '토큰화합니다': 7, '단어로': 8, '토큰화해야': 9, '인식됩니다': 10, '토큰화한': 11, '결과는': 12, '사용할': 13, '수': 14, '있습니다': 15}


In [9]:
docs = ['검찰이 제시한 혐의 사실 전부를 재판부가 무죄로 판단하면서 이 회장은 검찰 기소 이후 3년 5개월여 만에 시름을 덜게 됐다.',
'검찰 항소로 2심 재판이 진행될 것이란 전망이 나오지만,']

token = Tokenizer()
token.fit_on_texts(docs)

print('\n단어 카운트:\n', token.word_counts)
print('\n문장 카운트:',token.document_count)
print('\n각 단어가 몇개의 문장에 포함되어있는가:\n', token.word_docs)
print('\n각 단어에 매겨진 인덱스 값:\n', token.word_index)


단어 카운트:
 OrderedDict([('검찰이', 1), ('제시한', 1), ('혐의', 1), ('사실', 1), ('전부를', 1), ('재판부가', 1), ('무죄로', 1), ('판단하면서', 1), ('이', 1), ('회장은', 1), ('검찰', 2), ('기소', 1), ('이후', 1), ('3년', 1), ('5개월여', 1), ('만에', 1), ('시름을', 1), ('덜게', 1), ('됐다', 1), ('항소로', 1), ('2심', 1), ('재판이', 1), ('진행될', 1), ('것이란', 1), ('전망이', 1), ('나오지만', 1)])

문장 카운트: 2

각 단어가 몇개의 문장에 포함되어있는가:
 defaultdict(<class 'int'>, {'만에': 1, '재판부가': 1, '전부를': 1, '판단하면서': 1, '시름을': 1, '혐의': 1, '3년': 1, '됐다': 1, '기소': 1, '덜게': 1, '5개월여': 1, '사실': 1, '이': 1, '무죄로': 1, '검찰이': 1, '회장은': 1, '제시한': 1, '검찰': 2, '이후': 1, '2심': 1, '진행될': 1, '전망이': 1, '재판이': 1, '항소로': 1, '것이란': 1, '나오지만': 1})

각 단어에 매겨진 인덱스 값:
 {'검찰': 1, '검찰이': 2, '제시한': 3, '혐의': 4, '사실': 5, '전부를': 6, '재판부가': 7, '무죄로': 8, '판단하면서': 9, '이': 10, '회장은': 11, '기소': 12, '이후': 13, '3년': 14, '5개월여': 15, '만에': 16, '시름을': 17, '덜게': 18, '됐다': 19, '항소로': 20, '2심': 21, '재판이': 22, '진행될': 23, '것이란': 24, '전망이': 25, '나오지만': 26}


In [12]:
import nltk
nltk.download('punkt')


[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt.zip.


True

In [14]:
import nltk
nltk.download('wordnet')


[nltk_data] Downloading package wordnet to /root/nltk_data...


True

In [15]:
from nltk.stem import PorterStemmer
from nltk.stem import WordNetLemmatizer
from nltk.tokenize import word_tokenize

# 어간 추출기와 표제어 추출기 초기화
stemmer = PorterStemmer()
lemmatizer = WordNetLemmatizer()

# 예제 문장
sentence = "과일을 과일이 과일이라고"
tokens = word_tokenize(sentence)

# 어간 추출
stems = [stemmer.stem(token) for token in tokens]
print("어간 추출:", stems)

# 표제어 추출
lemmas = [lemmatizer.lemmatize(token) for token in tokens]
print("표제어 추출:", lemmas)


어간 추출: ['과일을', '과일이', '과일이라고']
표제어 추출: ['과일을', '과일이', '과일이라고']


In [22]:
!pip install konlpy


Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl.metadata (1.9 kB)
Collecting JPype1>=0.7.0 (from konlpy)
  Downloading JPype1-1.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.9 kB)
Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m73.3 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading JPype1-1.5.0-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (488 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m488.6/488.6 kB[0m [31m29.5 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: JPype1, konlpy
Successfully installed JPype1-1.5.0 konlpy-0.6.0


In [23]:
from konlpy.tag import Okt

# Okt 형태소 분석기 초기화
okt = Okt()

# 예제 문장
sentence = "과일을 과일이 과일이라고"

# 형태소 분석 및 표제어 추출
tokens = okt.morphs(sentence)
print("형태소 분석:", tokens)

# 표제어 추출
# 한국어에서 표제어 추출을 위해서는 형태소 분석을 통해 얻은 결과를 활용
# '과일'이 동일한 형태로 유지되지만, 일반적으로 '형태소'가 추출됨.


형태소 분석: ['과일', '을', '과일', '이', '과일', '이라고']


In [24]:
from konlpy.tag import Okt
from collections import Counter

# Okt 형태소 분석기 초기화
okt = Okt()

# 예제 문장
sentence = "과일을 과일이 과일이라고"

# 형태소 분석
tokens = okt.morphs(sentence)
print("형태소 분석 결과:", tokens)

# 형태소의 빈도 계산
token_counts = Counter(tokens)
print("형태소 빈도:", token_counts)


형태소 분석 결과: ['과일', '을', '과일', '이', '과일', '이라고']
형태소 빈도: Counter({'과일': 3, '을': 1, '이': 1, '이라고': 1})


Keras의 Tokenizer를 사용하여 텍스트 데이터를 정수 인덱스 시퀀스로 변환한 후, 이를 One-Hot Encoding 형식으로 변환하는 과정은 NLP 모델의 입력 데이터를 준비하는 중요한 단계입니다.

Tokenizer를 사용한 텍스트 토큰화

word_index:
- token.word_index는 각 단어를 고유한 정수 인덱스로 매핑한 딕셔너리입니다. 키는 단어이고, 값은 해당 단어의 인덱스입니다.
- 이 딕셔너리의 길이(len(token.word_index))는 말뭉치에 있는 고유 단어의 총 개수를 나타냅니다.

word_size:
- word_size는 고유 단어의 총 개수에 1을 더한 값입니다. 이는 NLP에서 일반적인 관행으로, "0" 인덱스를 포함하기 위해 사용됩니다.
- "0" 인덱스는 패딩(padding)에 사용되거나, 구현에 따라 알 수 없는 단어를 나타낼 수 있습니다.

One-Hot Encoding:
- to_categorical 함수는 클래스 벡터(정수 인덱스)를 바이너리 클래스 행렬로 변환합니다.
- x는 단어를 나타내는 정수 인덱스의 목록 또는 배열이어야 하며, - to_categorical은 이를 One-Hot Encoding 형식으로 변환합니다.
- 각 정수에 대해 해당 인덱스 위치만 1로 설정되고 나머지 위치는 0인 벡터를 생성합니다.

num_classes:
- num_classes는 총 클래스 수를 지정합니다. 이 경우 어휘 크기(word_size)로 설정되어, One-Hot Encoding에 어휘의 모든 단어에 대한 슬롯과 추가 "0" 인덱스가 있는지 확인합니다.

In [21]:
# keras Tokenizer의 fit_on_texts 메소드는 일반적으로 문자열의 리스트를 기대하기 때문에, 단일 문자열을 입력하는 것은 적절하지 않다
text = '오랫동안 꿈꾸는 이는 그 꿈을 닮아간다'
token = Tokenizer()
token.fit_on_texts([text])
print(token.word_index)

{'오랫동안': 1, '꿈꾸는': 2, '이는': 3, '그': 4, '꿈을': 5, '닮아간다': 6}


In [20]:
text = '오랫동안 꿈꾸는 이는 그 꿈을 닮아간다'
token = Tokenizer()
token.fit_on_texts(text)
print(token.word_index)

{'꿈': 1, '는': 2, '오': 3, '랫': 4, '동': 5, '안': 6, '꾸': 7, '이': 8, '그': 9, '을': 10, '닮': 11, '아': 12, '간': 13, '다': 14}


In [17]:
x = token.texts_to_sequences([text])
print(x)

[[1, 2, 3, 4, 5, 6]]


In [18]:
# 인덱스 수에 하나를 추가해서 원-핫 인코딩 배열 만들기
# word_size에 1을 추가하는 이유는 Keras의 Tokenizer를 사용할 때 0 인덱스를 패딩을 위해 예약하는 관례 때문
word_size = len(token.word_index) +1
x = to_categorical(x, num_classes=word_size)
print(x)

[[[0. 1. 0. 0. 0. 0. 0.]
  [0. 0. 1. 0. 0. 0. 0.]
  [0. 0. 0. 1. 0. 0. 0.]
  [0. 0. 0. 0. 1. 0. 0.]
  [0. 0. 0. 0. 0. 1. 0.]
  [0. 0. 0. 0. 0. 0. 1.]]]
