# 텍스트 데이터 다루기

## 1. 전처리: 자연어 노이즈 제거

### 1.1 노이즈 유형: 문장부호

- 문장부호(구두점) 앞뒤에 공백 추가

In [1]:
"""
str.replace(old, new)
- 문자열에서 old 값을 찾아 new 값으로 모두 바꾸는 함수
- 새로운 문자열을 반환하며, 원본 문자열은 변하지 않음
"""
def pad_punctuation(sentence, punc):
    # 주어진 문장부호 리스트(punc)에 있는 각 기호에 대해 반복
    for p in punc:
        # 해당 문장부호 앞뒤에 공백을 추가하여 문장 내 모든 문장부호 변환
        sentence = sentence.replace(p, " " + p + " ")
    # 공백이 추가된 문장 반환
    return sentence

sentence = "Hi, my name is john."

# 문장부호 리스트
print(pad_punctuation(sentence, [".", "?", "!", ","]))

Hi ,  my name is john . 


<br>

### 1.2 노이즈 유형: 대소문자

In [2]:
sentence = "First, open the first chapter."

print(sentence.lower())

first, open the first chapter.


In [3]:
sentence = "First, open the first chapter."

print(sentence.upper())

FIRST, OPEN THE FIRST CHAPTER.


<br>

### 1.3 노이즈 유형: 특수문자

정규표현식(regular expression)
- 문장에서 특정 문자를 제외한 나머지를 공백으로 치환

In [4]:
import re

sentence = "He is a ten-year-old boy."
# 알파벳 소문자/대문자와 .,?!를 제외한 나머지 문자를 공백으로 치환
# → 공백, 하이픈(-), 숫자, 특수기호 등
sentence = re.sub("([^a-zA-Z.,?!])", " ", sentence)

print(sentence)

He is a ten year old boy.


<br>

### 1.4: 텍스트 정제 전처리 함수

결과 해석
- “w-a-t-e-r” → "w a t e r" (하이픈 제거)
- 대소문자 → 소문자로 통일됨
- 마침표와 쉼표 → 앞뒤로 공백 삽입됨
- 특수문자 —는 제거됨
- 줄바꿈은 그대로 유지됨


In [5]:
# From The Project Gutenberg
# (https://www.gutenberg.org/files/2397/2397-h/2397-h.htm)

corpus = \
"""
In the days that followed I learned to spell in this uncomprehending way a great many words, among them pin, hat, cup and a few verbs like sit, stand and walk.
But my teacher had been with me several weeks before I understood that everything has a name.
One day, we walked down the path to the well-house, attracted by the fragrance of the honeysuckle with which it was covered.
Some one was drawing water and my teacher placed my hand under the spout.
As the cool stream gushed over one hand she spelled into the other the word water, first slowly, then rapidly.
I stood still, my whole attention fixed upon the motions of her fingers.
Suddenly I felt a misty consciousness as of something forgotten—a thrill of returning thought; and somehow the mystery of language was revealed to me.
I knew then that "w-a-t-e-r" meant the wonderful cool something that was flowing over my hand.
That living word awakened my soul, gave it light, hope, joy, set it free!
There were barriers still, it is true, but barriers that could in time be swept away.
"""

def cleaning_text(text, punc, regex):
    # (1) 문장부호 공백추가
    for p in punc:
        text = text.replace(p, " " + p + " ")

    # (3) 특수문자 제거 + (2) 소문자로 변환
    text = re.sub(regex, " ", text).lower()

    return text

print(cleaning_text(corpus, [".", ",", "!", "?"], "([^a-zA-Z0-9.,?!\n])"))


in the days that followed i learned to spell in this uncomprehending way a great many words ,  among them pin ,  hat ,  cup and a few verbs like sit ,  stand and walk . 
but my teacher had been with me several weeks before i understood that everything has a name . 
one day ,  we walked down the path to the well house ,  attracted by the fragrance of the honeysuckle with which it was covered . 
some one was drawing water and my teacher placed my hand under the spout . 
as the cool stream gushed over one hand she spelled into the other the word water ,  first slowly ,  then rapidly . 
i stood still ,  my whole attention fixed upon the motions of her fingers . 
suddenly i felt a misty consciousness as of something forgotten a thrill of returning thought  and somehow the mystery of language was revealed to me . 
i knew then that  w a t e r  meant the wonderful cool something that was flowing over my hand . 
that living word awakened my soul ,  gave it light ,  hope ,  joy ,  set it free !

<br>
<br>

## 2. 토큰화


### 2.1 공백 기반 토큰화

문장을 공백으로 나누어 토큰화
- 단어 단위로 토큰화를 수행하며, 간단하고 빠른 토큰화 방법
- 하지만 단어 내의 구두점, 대소문자, 축약어 등을 처리하지 못하며
- 영어에서는 약어나 이니셜 등이 문제가 됨

In [6]:
corpus = \
"""
in the days that followed i learned to spell in this uncomprehending way a great many words ,  among them pin ,  hat ,  cup and a few verbs like sit ,  stand and walk .
but my teacher had been with me several weeks before i understood that everything has a name .
one day ,  we walked down the path to the well house ,  attracted by the fragrance of the honeysuckle with which it was covered .
some one was drawing water and my teacher placed my hand under the spout .
as the cool stream gushed over one hand she spelled into the other the word water ,  first slowly ,  then rapidly .
i stood still ,  my whole attention fixed upon the motions of her fingers .
suddenly i felt a misty consciousness as of something forgotten a thrill of returning thought  and somehow the mystery of language was revealed to me .
i knew then that  w a t e r  meant the wonderful cool something that was flowing over my hand .
that living word awakened my soul ,  gave it light ,  hope ,  joy ,  set it free !
there were barriers still ,  it is true ,  but barriers that could in time be swept away .
"""

tokens = corpus.split()

print("문장이 포함하는 Tokens:", tokens)

문장이 포함하는 Tokens: ['in', 'the', 'days', 'that', 'followed', 'i', 'learned', 'to', 'spell', 'in', 'this', 'uncomprehending', 'way', 'a', 'great', 'many', 'words', ',', 'among', 'them', 'pin', ',', 'hat', ',', 'cup', 'and', 'a', 'few', 'verbs', 'like', 'sit', ',', 'stand', 'and', 'walk', '.', 'but', 'my', 'teacher', 'had', 'been', 'with', 'me', 'several', 'weeks', 'before', 'i', 'understood', 'that', 'everything', 'has', 'a', 'name', '.', 'one', 'day', ',', 'we', 'walked', 'down', 'the', 'path', 'to', 'the', 'well', 'house', ',', 'attracted', 'by', 'the', 'fragrance', 'of', 'the', 'honeysuckle', 'with', 'which', 'it', 'was', 'covered', '.', 'some', 'one', 'was', 'drawing', 'water', 'and', 'my', 'teacher', 'placed', 'my', 'hand', 'under', 'the', 'spout', '.', 'as', 'the', 'cool', 'stream', 'gushed', 'over', 'one', 'hand', 'she', 'spelled', 'into', 'the', 'other', 'the', 'word', 'water', ',', 'first', 'slowly', ',', 'then', 'rapidly', '.', 'i', 'stood', 'still', ',', 'my', 'whole', 'attenti

<br>

### 2.2 형태소 기반 토큰화

단어의 의미를 고려하여 토큰화
- 형태소: 단어를 구성하는 가장 작은 의미 단위
- 단어 내의 구성 요소인 접두사, 접미사, 어근 등을 고려하여 토큰화
- 단어의 형태와 문법적인 정보를 보존할 수 있으며, 정보 검색이나 언어 학습에서 효과적

In [7]:
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl.metadata (1.9 kB)
Collecting JPype1>=0.7.0 (from konlpy)
  Downloading jpype1-1.5.2-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.9 kB)
Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m82.3 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading jpype1-1.5.2-cp311-cp311-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (494 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m494.1/494.1 kB[0m [31m33.9 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: JPype1, konlpy
Successfully installed JPype1-1.5.2 konlpy-0.6.0


In [8]:
from konlpy.tag import Hannanum,Kkma,Komoran,Okt  # Mecab 제외 (설치 이슈)

In [9]:
tokenizer_list = [Hannanum(), Kkma(), Komoran(), Okt()] # Mecab() 제외

kor_text = '코로나바이러스는 2019년 12월 중국 우한에서 처음 발생한 뒤 전 세계로 확산된, 새로운 유형의 호흡기 감염 질환입니다.'

for tokenizer in tokenizer_list:
    print('[{}] \n{}'.format(tokenizer.__class__.__name__, tokenizer.pos(kor_text)))

[Hannanum] 
[('코로나바이러스', 'N'), ('는', 'J'), ('2019년', 'N'), ('12월', 'N'), ('중국', 'N'), ('우한', 'N'), ('에서', 'J'), ('처음', 'M'), ('발생', 'N'), ('하', 'X'), ('ㄴ', 'E'), ('뒤', 'N'), ('전', 'N'), ('세계', 'N'), ('로', 'J'), ('확산', 'N'), ('되', 'X'), ('ㄴ', 'E'), (',', 'S'), ('새롭', 'P'), ('은', 'E'), ('유형', 'N'), ('의', 'J'), ('호흡기', 'N'), ('감염', 'N'), ('질환', 'N'), ('이', 'J'), ('ㅂ니다', 'E'), ('.', 'S')]
[Kkma] 
[('코로나', 'NNG'), ('바', 'NNG'), ('이러', 'MAG'), ('슬', 'VV'), ('는', 'ETD'), ('2019', 'NR'), ('년', 'NNM'), ('12', 'NR'), ('월', 'NNM'), ('중국', 'NNG'), ('우', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('에', 'VV'), ('서', 'ECD'), ('처음', 'NNG'), ('발생', 'NNG'), ('하', 'XSV'), ('ㄴ', 'ETD'), ('뒤', 'NNG'), ('전', 'NNG'), ('세계', 'NNG'), ('로', 'JKM'), ('확산', 'NNG'), ('되', 'XSV'), ('ㄴ', 'ETD'), (',', 'SP'), ('새', 'NNG'), ('롭', 'XSA'), ('ㄴ', 'ETD'), ('유형', 'NNG'), ('의', 'JKG'), ('호흡기', 'NNG'), ('감염', 'NNG'), ('질환', 'NNG'), ('이', 'VCP'), ('ㅂ니다', 'EFN'), ('.', 'SF')]
[Komoran] 
[('코로나바이러스', 'NNP'), ('는', 'JX'), ('2019', 'SN'

```
[Mecab]
[('코로나', 'NNP'), ('바이러스', 'NNG'), ('는', 'JX'), ('2019', 'SN'), ('년', 'NNBC'), ('12', 'SN'), ('월', 'NNBC'), ('중국', 'NNP'), ('우한', 'NNP'), ('에서', 'JKB'), ('처음', 'NNG'), ('발생', 'NNG'), ('한', 'XSV+ETM'), ('뒤', 'NNG'), ('전', 'NNG'), ('세계', 'NNG'), ('로', 'JKB'), ('확산', 'NNG'), ('된', 'XSV+ETM'), (',', 'SC'), ('새로운', 'VA+ETM'), ('유형', 'NNG'), ('의', 'JKG'), ('호흡기', 'NNG'), ('감염', 'NNG'), ('질환', 'NNG'), ('입니다', 'VCP+EF'), ('.', 'SF')]
```

공백 기반이나 형태소 기반의 토큰화 기법들은 모두 의미를 가지는 단위로 토큰을 생성한다. 이 기법의 경우, 데이터에 포함되는 모든 단어를 처리할 수는 없기 때문에 자주 등장한 상위 N개의 단어만 사용하고 나머지는 <unk>같은 특수한 토큰(Unknown Token)으로 치환해버린다. 자원과 데이터가 한정되어 있기 때문에 이 또한 불가피한 손실이다.

하지만 이것은 종종 OOV(Out-Of-Vocabulary) 문제를 야기한다.
- 모델이 학습할 때는 본 적이 없는 단어나 문장이 테스트 데이터에 등장하여 발생하는 문제
- 이러한 단어나 문장은 모델이 인식하지 못하고, 예측 오류를 일으키게 됨
- 이를 해결하고자  Wordpiece Model이 등장

Wordpiece Model(WPM)
- pre+view와 pre+dict로 보는 것처럼
- 한 단어를 여러 개의 Subword의 집합으로 보는 방법



<br>

### 2.3 Byte Pair Encoding(BPE)

단어를 기본 단위인 문자(character) 단위로 분해한 후, 가장 자주 등장하는 문자의 쌍(pair)을 하나의 문자로 대체하는 방식으로 동작

- 모든 단어를 문자(바이트)들의 집합으로 취급하여 자주 등장하는 문자 쌍을 합치면
- 접두어나 접미어의 의미를 캐치할 수 있고
- 처음 등장하는 단어는 문자(알파벳)들의 조합으로 나타내어
- OOV 문제를 완전히 해결할 수 있다는 것

이를 통해 기존에 없던 단어가 등장하더라도, 해당 단어를 구성하는 문자들의 조합이 기존에 등장했던 문자 쌍과 일치하는 경우, 기존에 등장했던 토큰들의 조합으로 변환하여 OOV 문제를 해결할 수 있다.

> BPE는 OOV 문제를 해결하고, 텍스트 데이터를 더 효율적으로 인코딩하여 데이터의 압축을 향상시키는 효과를 가지고 있다.

<br>

[참고] 정규표현식 Lookaround

| 문법         | 이름                  | 의미 (의역)         | 방향       |
| ---------- | ------------------- | --------------- | -------- |
| `(?=...)`  | Lookahead           | 뒤에 이게 **있어야 함** | 앞에서 뒤 확인 |
| `(?!...)`  | Negative Lookahead  | 뒤에 이게 **없어야 함** | 앞에서 뒤 확인 |
| `(?<=...)` | Lookbehind          | 앞에 이게 **있어야 함** | 뒤에서 앞 확인 |
| `(?<!...)` | Negative Lookbehind | 앞에 이게 **없어야 함** | 뒤에서 앞 확인 |


In [10]:
"""
Byte Pair Encoding(BPE) 알고리즘의 간단한 예제 구현
: 단어들을 점차적으로 더 큰 단위의 subword(부분단어) 토큰으로 병합하는 과정 반복

    1. 단어(공백으로 분리된 문자들의 나열)와 빈도수가 주어졌을 때
    2. 가장 자주 등장하는 문자 쌍을 찾아 하나의 토큰처럼 취급하고
    3. 이를 여러 단계(num_merges)에 걸쳐 반복하여
    4. 서브워드 단위로 어휘를 축소(압축)하는 방식
    → NLP에서 subword tokenization의 핵심 아이디어
"""

import re, collections

# 초기 단어 사전
#  key: 공백으로 분리된 문자들의 나열
#  value: 해당 단어가 등장한 횟수(빈도수)
vocab = {
    'l o w '      : 5,
    'l o w e r '  : 2,
    'n e w e s t ': 6,
    'w i d e s t ': 3
}

num_merges = 5  # 병합 수행 횟수


# 문자쌍 빈도수 계산 함수
def get_stats(vocab):
    """
    현재 단어 사전에서 등장하는 문자 쌍(2-gram)의 빈도수 계산

    Parameters
    ----------
    vocab : dict
        key: 공백 단위 문자로 이루어진 단어(str)
        value: 해당 단어의 빈도수(int)

    Returns
    -------
    dict
        key: 문자쌍(tuple of str)
        valye: 총 등장 빈도수(int)
        {
          ('e', 's'): 6,
           ...
        }
    """
    pairs = collections.defaultdict(int)

    for word, freq in vocab.items():
        # 공백 기준 문자 리스트 생성
        symbols = word.split()  # 'l o w ' → ['l', 'o', 'w']

        for i in range(len(symbols) - 1):
            pairs[symbols[i], symbols[i + 1]] += freq  # 문자쌍 빈도수 누적

    return pairs


# 문자쌍 병합 함수
def merge_vocab(pair, v_in):
    """
    가장 자주 등장한 문자쌍을 하나의 토큰처럼 병합하여 vocab 업데이트

    Parameters
    ----------
    pair : tuple of str
        병합할 문자쌍  e.g., ('e', 's')
    v_in : dict
        현재 vocab 사전

    Returns
    -------
    v_out : dict
        문자쌍 병합 후 업데이트된 vocab
    merge_token : str
        병합된 새 토큰  e.g., 'es'
    """
    v_out = {}

    # ('e', 's') → 'e s'
    # 정규표현식 특수문자 대응을 위해 escape 처리: 'e s' → 'e\\ s'
    bigram = re.escape(' '.join(pair))

    # 정규표현식 객체 생성
    # (?<!\S): 바로 앞이 '공백' 또는 줄의 시작 (단어 경계 앞)
    #   → (?<!): Lookbehind
    #   → \S : 공백이 아닌 문자 (non-space)
    #   →  공백이 아닌 문자가 바로 앞에 없어야 한다
    # (?!\S) : 바로 뒤가 '공백' 또는 줄의 끝 (단어 경계 뒤)
    #   → (?! ): Lookahead
    #   → 공백이 아닌 문자가 바로 뒤에 없어야 한다
    # → 이 조건은 'e s'처럼 정확히 공백으로 분리된 문자쌍만 매칭
    p = re.compile(r'(?<!\S)' + bigram + r'(?!\S)')

    # vocab의 모든 단어에 대해 문자쌍 병합
    for word in v_in:
        # word = 'n e w e s t '

        # p.sub(a, b): b 문자열에서 p에 매칭되는 부분을 a로 바꿔줌
        # 'e s' → 'es' 로 바꾸기
        # 'n e w e s t ' → 'n e w es t '
        # → 정규표현식으로 해당 문자쌍을 붙여서 하나의 토큰으로 만듦
        w_out = p.sub(''.join(pair), word)

        # 병합된 단어를 새로운 vocab에 저장 (기존 빈도수 유지)
        v_out[w_out] = v_in[word]

    # 병합된 새 vocab와 병합된 토큰 문자열('es') 반환
    return v_out, pair[0] + pair[1]


# 병합된 토큰 목록 저장 (최종 subword vocabulary)
token_vocab = []

# 가장 자주 등장하는 문자쌍 병합
for i in range(num_merges):
    print(">> Step {0}".format(i + 1))

    # 현재 vocab에서 모든 문자쌍 빈도수 계산
    pairs = get_stats(vocab)
    # 가장 자주 등장한 문자쌍
    # [참고] max() 함수는 반드시 iterable 하나를 기준으로 동작
    #       → 딕셔너리를 iterable로 사용하면 기본 반복 대상은 key
    best = max(pairs, key=pairs.get)  # 비교 기준: key(pairs의 value)
    # 해당 문자쌍을 병합하여 vocab 업데이트
    vocab, merge_tok = merge_vocab(best, vocab)
    print("다음 문자 쌍을 치환:", merge_tok)
    print("변환된 Vocab:\n", vocab, "\n")

    # 병합된 토큰 기록
    token_vocab.append(merge_tok)

# 최종 병합된 토큰 리스트
print("Merged Vocab:", token_vocab)

>> Step 1
다음 문자 쌍을 치환: es
변환된 Vocab:
 {'l o w ': 5, 'l o w e r ': 2, 'n e w es t ': 6, 'w i d es t ': 3} 

>> Step 2
다음 문자 쌍을 치환: est
변환된 Vocab:
 {'l o w ': 5, 'l o w e r ': 2, 'n e w est ': 6, 'w i d est ': 3} 

>> Step 3
다음 문자 쌍을 치환: lo
변환된 Vocab:
 {'lo w ': 5, 'lo w e r ': 2, 'n e w est ': 6, 'w i d est ': 3} 

>> Step 4
다음 문자 쌍을 치환: low
변환된 Vocab:
 {'low ': 5, 'low e r ': 2, 'n e w est ': 6, 'w i d est ': 3} 

>> Step 5
다음 문자 쌍을 치환: ne
변환된 Vocab:
 {'low ': 5, 'low e r ': 2, 'ne w est ': 6, 'w i d est ': 3} 

Merged Vocab: ['es', 'est', 'lo', 'low', 'ne']
