# 텍스트 전처리(Text preprocessing)

데이터를 용도에 맞게 토큰화(tokenization) & 정제(cleaning) & 정규화(normalization)

## 토큰화(Tokenization)

코퍼스(corpus)에서 토큰(token) 단위로 나누는 작업

※ token: 의미있는 단위

### -  단어 토큰화(Word Tokenization)

영어: 특수기호를 예외처리하여 띄어쓰기 위주로 토큰화\
한글: 형태소를 기준으로 토큰화

### - 품사 태깅(Part-of-speech tagging)

품사에 따라 단어의 의미가 달라지기 때문에 품사를 구분

In [1]:
## 영어 단어 토큰화 & 품사 태깅
from nltk.tokenize import word_tokenize # 단어 토큰화
from nltk.tag import pos_tag # 품사태깅
text = "I am actively looking for Ph.D. students. and you are a Ph.D. student."
tokenized_sentence = word_tokenize(text)

print('단어 토큰화: ', tokenized_sentence)
print('품사 태깅: ', pos_tag(tokenized_sentence)) # (단어, 품사)

단어 토큰화:  ['I', 'am', 'actively', 'looking', 'for', 'Ph.D.', 'students', '.', 'and', 'you', 'are', 'a', 'Ph.D.', 'student', '.']
품사 태깅:  [('I', 'PRP'), ('am', 'VBP'), ('actively', 'RB'), ('looking', 'VBG'), ('for', 'IN'), ('Ph.D.', 'NNP'), ('students', 'NNS'), ('.', '.'), ('and', 'CC'), ('you', 'PRP'), ('are', 'VBP'), ('a', 'DT'), ('Ph.D.', 'NNP'), ('student', 'NN'), ('.', '.')]


In [2]:
## 한글
from konlpy.tag import Okt

k_text = "열심히 코딩한 당신, 연휴에는 여행을 가봐요"
okt = Okt()
print('형태소 분석: ', okt.morphs(k_text))
print('품사 태깅: ', okt.pos(k_text))
print('명사 추출: ', okt.nouns(k_text))

형태소 분석:  ['열심히', '코딩', '한', '당신', ',', '연휴', '에는', '여행', '을', '가봐요']
품사 태깅:  [('열심히', 'Adverb'), ('코딩', 'Noun'), ('한', 'Josa'), ('당신', 'Noun'), (',', 'Punctuation'), ('연휴', 'Noun'), ('에는', 'Josa'), ('여행', 'Noun'), ('을', 'Josa'), ('가봐요', 'Verb')]
명사 추출:  ['코딩', '당신', '연휴', '여행']


### - 문장 토큰화(Sentence Tokenization)

코퍼스 내에서 문장 단위로 구분\
단순 물음표나 마침표로 구분x

In [3]:
from nltk.tokenize import sent_tokenize
text = "I am actively looking for Ph.D. students. and you are a Ph.D student."
print(sent_tokenize(text)) # Ph.D

['I am actively looking for Ph.D. students.', 'and you are a Ph.D student.']


### => 여러 토큰화 패키지가 있기에 상황에 맞게 사용!

## 정제(Cleaning) and 정규화(Normalization) 

정제: 노이즈 데이터(목적에 맞지 않는 단어들) 제거\
ex) 불용어 제거, 등장빈도 적은 단어 제거, 특수문자제거\

정규화: 표현방법이 다른 단어들을 통합시켜서 같은 단어로 만듬\
ex) USA = US, uh-huh = uhhuh, 대소문자 통합

### - 어간 추출(Stemming) and 표제어 추출(Lemmatization)

=> 정규화 기법을 통해 문서 내 단어의 수 줄이기\
=> BoW 표현을 사용하는 nlp문제에 주로 사용

### - 표제어 추출(Lemmatization)

단어들로 부터 뿌리 단어(표제어)를 찾아가서 단어개수 줄이기\
ex) am, are, is -> be

In [4]:
from nltk.stem import WordNetLemmatizer

lemmatizer = WordNetLemmatizer()

words = ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 
         'fly', 'dies', 'watched', 'has', 'starting']
print('표제어 추출 전: ', words)
print('표제어 추출 후: ', [lemmatizer.lemmatize(word) for word in words])

표제어 추출 전:  ['policy', 'doing', 'organization', 'have', 'going', 'love', 'lives', 'fly', 'dies', 'watched', 'has', 'starting']
표제어 추출 후:  ['policy', 'doing', 'organization', 'have', 'going', 'love', 'life', 'fly', 'dy', 'watched', 'ha', 'starting']


단어의 형태를 보존하는 양상\
입력 단어의 품사 정보를 알려주면 성능향상

In [5]:
lemmatizer.lemmatize('dies', 'v')

'die'

=> 품사 정보 보존

### - 어간 추출(Stemming)

정해진 규칙만 보고 어림짐작으로 단어의 어미를 자르는 방식

**Stemming**\
am → am\
the going → the go\
having → hav

**Lemmatization**\
am → be\
the going → the going\
having → have

### - 불용어(Stopword)

정제작업\
ex) i,my,me,over은 의미분석에 기여x

In [6]:
from nltk.corpus import stopwords # nltk에서 정의한 불용어
from nltk.tokenize import word_tokenize
from konlpy.tag import Okt

stop_word_list = stopwords.words('english') # 영어의 불용어 리스트
print('불용어 개수: ', len(stop_word_list))
print('불용어 출력: ', stop_word_list[:5])

불용어 개수:  179
불용어 출력:  ['i', 'me', 'my', 'myself', 'we']


### - 정규 표현식

특정 규칙으로 텍스트 데이터 정제

In [7]:
import re
r = re.compile("a.c") # a + 아무거나 + c 형태의 규칙
r.search("abc")

<re.Match object; span=(0, 3), match='abc'>

## 정수 인코딩(Integer Encoding)

텍스트 -> 숫자 과정 전에 각 단어를 고유 정수로 mapping하는 작업\
주로 빈도수 순으로 단어 집합(vocabulary)를 만들고 순서대로 정수 부여

In [8]:
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

In [9]:
raw_text = "A barber is a person. a barber is good person. a barber is huge person. he Knew A Secret! The Secret He Kept is huge secret. Huge secret. His barber kept his word. a barber kept his word. His barber kept his secret. But keeping and keeping such a huge secret to himself was driving the barber crazy. the barber went up a huge mountain."

In [10]:
sentences = sent_tokenize(raw_text) # 문장 토큰화

텍스트를 수치화 하기 전에 텍스트로 할 수 있는 최대한의 전처리과정

1. 정제작업과 정규화 작업 (소문자화, 불용어&단어길이2이하 단어 제외)
2. 단어 토큰화

In [11]:
vocab = {}
preprocessed_sentences =[]
stop_words = set(stopwords.words('english'))

for sentence in sentences:
    tokenized_sentence = word_tokenize(sentence) # 단어 토큰화
    result = []
    
    for word in tokenized_sentence:
        word = word.lower() # 소문자화(정규화)
        
        if word not in stop_words: # 불용어면 제거(정제)
            if len(word) > 2: # 길이 2 이하면 제거(정제)
                result.append(word)
                if word not in vocab: # mapping 하기 위한 vocabulary 만들기
                    vocab[word] = 0
                vocab[word] += 1 # 빈도수에 따른 정렬을 위해 기록
    preprocessed_sentences.append(result)
print(preprocessed_sentences)

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]


In [12]:
print('vocabulary: ', vocab)

vocabulary:  {'barber': 8, 'person': 3, 'good': 1, 'huge': 5, 'knew': 1, 'secret': 6, 'kept': 4, 'word': 2, 'keeping': 2, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1}


### dictionary 이용해서 정수인코딩

In [13]:
vocab_sorted = sorted(vocab.items(), key=lambda x: x[1], reverse=True)
vocab_sorted

[('barber', 8),
 ('secret', 6),
 ('huge', 5),
 ('kept', 4),
 ('person', 3),
 ('word', 2),
 ('keeping', 2),
 ('good', 1),
 ('knew', 1),
 ('driving', 1),
 ('crazy', 1),
 ('went', 1),
 ('mountain', 1)]

In [14]:
## 빈도수 상위 5개 단어만 사용(정제)
vocab_size = 5
word_to_index = {}
i = 0
for (word, freq) in vocab_sorted[:5]:
    i += 1
    word_to_index[word] = i
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


**Out-Of-Vocabulary(OOV)**: 단어집합에 없는 단어

In [15]:
word_to_index['oov'] = len(word_to_index) + 1
word_to_index

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'oov': 6}

In [16]:
## sentences를 word_to_index를 이용해 mapping
encoded_sentences = []
for sentence in preprocessed_sentences:
    encoded_sentence = []
    for word in sentence:
        try:
            encoded_sentence.append(word_to_index[word])
        except: # oov일때
            encoded_sentence.append(word_to_index['oov'])
    encoded_sentences.append(encoded_sentence)
encoded_sentences

[[1, 5],
 [1, 6, 5],
 [1, 3, 5],
 [6, 2],
 [2, 4, 3, 2],
 [3, 2],
 [1, 4, 6],
 [1, 4, 6],
 [1, 4, 2],
 [6, 6, 3, 2, 6, 1, 6],
 [1, 6, 3, 6]]

### tensorflow 이용해서 정수인코딩

In [17]:
from tensorflow.keras.preprocessing.text import Tokenizer

In [18]:
preprocessed_sentences

[['barber', 'person'],
 ['barber', 'good', 'person'],
 ['barber', 'huge', 'person'],
 ['knew', 'secret'],
 ['secret', 'kept', 'huge', 'secret'],
 ['huge', 'secret'],
 ['barber', 'kept', 'word'],
 ['barber', 'kept', 'word'],
 ['barber', 'kept', 'secret'],
 ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'],
 ['barber', 'went', 'huge', 'mountain']]

In [19]:
vocab_size = 5
# 빈도수 많은 것만 고려(정제)
# padding(index 0)포함 +1
tokenizer = Tokenizer(num_words=vocab_size+1)
tokenizer.fit_on_texts(preprocessed_sentences)
tokenizer.word_index # 빈도수 순으로 mapping

{'barber': 1,
 'secret': 2,
 'huge': 3,
 'kept': 4,
 'person': 5,
 'word': 6,
 'keeping': 7,
 'good': 8,
 'knew': 9,
 'driving': 10,
 'crazy': 11,
 'went': 12,
 'mountain': 13}

In [20]:
tokenizer.word_counts # 빈도수

OrderedDict([('barber', 8),
             ('person', 3),
             ('good', 1),
             ('huge', 5),
             ('knew', 1),
             ('secret', 6),
             ('kept', 4),
             ('word', 2),
             ('keeping', 2),
             ('driving', 1),
             ('crazy', 1),
             ('went', 1),
             ('mountain', 1)])

In [21]:
# 상위 5개만 단어 인코딩, 나머지는 제거(oov 제거)
tokenizer.texts_to_sequences(preprocessed_sentences)

[[1, 5],
 [1, 5],
 [1, 3, 5],
 [2],
 [2, 4, 3, 2],
 [3, 2],
 [1, 4],
 [1, 4],
 [1, 4, 2],
 [3, 2, 1],
 [1, 3]]

In [22]:
## oov 고려 할경우
vocab_size = 5
tokenizer = Tokenizer(num_words=vocab_size+2, oov_token='oov') 
tokenizer.fit_on_texts(preprocessed_sentences)

In [23]:
tokenizer.word_index['oov'] # oov의 index=1

1

In [24]:
tokenizer.texts_to_sequences(preprocessed_sentences)

[[2, 6],
 [2, 1, 6],
 [2, 4, 6],
 [1, 3],
 [3, 5, 4, 3],
 [4, 3],
 [2, 5, 1],
 [2, 5, 1],
 [2, 5, 3],
 [1, 1, 4, 3, 1, 2, 1],
 [2, 1, 4, 1]]

## 패딩(Padding)

여러 문장을 동시에 처리하기 위해 각 문자의 길이를 같게 만드는 작업

### tensorflow로 패딩

In [25]:
from tensorflow.keras.preprocessing.sequence import pad_sequences

tokenizer = Tokenizer()
tokenizer.fit_on_texts(preprocessed_sentences)
encoded = tokenizer.texts_to_sequences(preprocessed_sentences)
encoded

[[1, 5],
 [1, 8, 5],
 [1, 3, 5],
 [9, 2],
 [2, 4, 3, 2],
 [3, 2],
 [1, 4, 6],
 [1, 4, 6],
 [1, 4, 2],
 [7, 7, 3, 2, 10, 1, 11],
 [1, 12, 3, 13]]

In [26]:
padded = pad_sequences(encoded)
padded

array([[ 0,  0,  0,  0,  0,  1,  5],
       [ 0,  0,  0,  0,  1,  8,  5],
       [ 0,  0,  0,  0,  1,  3,  5],
       [ 0,  0,  0,  0,  0,  9,  2],
       [ 0,  0,  0,  2,  4,  3,  2],
       [ 0,  0,  0,  0,  0,  3,  2],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  6],
       [ 0,  0,  0,  0,  1,  4,  2],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 0,  0,  0,  1, 12,  3, 13]])

In [28]:
padded = pad_sequences(encoded, padding='post') # post: 0을 뒤에 채우기
padded

array([[ 1,  5,  0,  0,  0,  0,  0],
       [ 1,  8,  5,  0,  0,  0,  0],
       [ 1,  3,  5,  0,  0,  0,  0],
       [ 9,  2,  0,  0,  0,  0,  0],
       [ 2,  4,  3,  2,  0,  0,  0],
       [ 3,  2,  0,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  6,  0,  0,  0,  0],
       [ 1,  4,  2,  0,  0,  0,  0],
       [ 7,  7,  3,  2, 10,  1, 11],
       [ 1, 12,  3, 13,  0,  0,  0]])

## 원-핫 인코딩(One-Hot Encoding)

벡터변환 과정\
그전에 정수인코딩 필수

### tensorflow를 이용한 onehot encoding

In [33]:
text = "나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

In [37]:
## 정수 인코딩
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

tokenizer = Tokenizer()
tokenizer.fit_on_texts([text])
tokenizer.word_index

{'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}

In [38]:
sub_text = "점심 먹으러 갈래 메뉴는 햄버거 최고야"
encoded = tokenizer.texts_to_sequences([sub_text])[0]
encoded

[2, 5, 1, 6, 3, 7]

In [39]:
## 원핫 인코딩
one_hot = to_categorical(encoded)
one_hot

array([[0., 0., 1., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 1., 0., 0.],
       [0., 1., 0., 0., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 1., 0.],
       [0., 0., 0., 1., 0., 0., 0., 0.],
       [0., 0., 0., 0., 0., 0., 0., 1.]], dtype=float32)

**원핫 인코딩 한계**\
차원수 증가, 유사도 표현x

## 한국어 전처리 패키지

### PyKoSpacing

띄어쓰기 되어 있지 않은 문장을 띄어쓰기해주기

### Py-Hanspell

맞춤법 보정

### SOYNLP 
품사 태깅, 단어 토큰화\
=> 한 단어로 자주 등장하는 것을 학습하여 새로 등장한 단어에 대한 형태소분석 가능

### Customized KoNLPy
형태소 분석기를 사용하여 단어 토큰화를 할 때 사람이름을 미리 사전에 추가하는 패키지