## 텍스트 전처리 및 분석 and 언어 모델 및 워드 임베딩 개념/설명
- 클렌징(cleansing)
- 불용어(stopwords) 제거
- 토큰화(tokenize)
- 형태소 분석 : 어근추출(Stemming), 원형복원(Lemmatization), 품사부착(POS Tagging))
- 워드 임베딩(Word Embedding)

### Profile Report

In [None]:
# DataFrame을 자동 분석 및 리포트 생성
import pandas_profiling
pr = dataframe.profile_report()
#dataframe.profile_report() 또는 pr -- 바로 리포트 결과 보기
pr.to_file('./pr_report.html') #리포트를 html 파일로 저장

In [None]:
# 토큰화(Tokenization)

# 단어 토큰화(Word Tokenization)
# 1) 구두점이나 특수 문자를 단순 제외해서는 안 된다
# 2) 줄임말과 단어 내에 띄어쓰기가 있는 경우
# 문장 토큰화(Sentence Tokenization)

In [363]:
from nltk.tokenize import TreebankWordTokenizer
tb_tokenizer = TreebankWordTokenizer()
text = "Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."
print(tb_tokenizer.tokenize(text))

# 표준으로 쓰이고 있는 토큰화 방법 중 하나인 Penn Treebank Tokenization의 규칙
# 규칙 1. 하이푼으로 구성된 단어는 하나로 유지
# 규칙 2. doesn't와 같이 아포스트로피로 '접어'가 함께하는 단어는 분리
# 규칙1과 규칙2에 따라서 home-based는 하나의 토큰으로 취급; dosen't의 경우 does와 n't는 분리

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


In [357]:
from nltk.tokenize import word_tokenize  
print(word_tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))  
# word_tokenize는 Don't를 Do와 n't로 분리하였으며, 반면 Jone's는 Jone과 's로 분리

['Do', "n't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr.', 'Jone', "'s", 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [362]:
print(word_tokenize("Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."))

['Starting', 'a', 'home-based', 'restaurant', 'may', 'be', 'an', 'ideal', '.', 'it', 'does', "n't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


In [356]:
from nltk.tokenize import WordPunctTokenizer  
print(WordPunctTokenizer().tokenize("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))
# NLTK의 WordPunctTokenizer는 구두점을 별도로 분류하는 특징을 갖고 있기때문에, word_tokenize와는 달리 Don't를 Don과 '와 t로 분리
# 이와 마찬가지로 Jone's를 Jone과 '와 s로 분리

['Don', "'", 't', 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', ',', 'Mr', '.', 'Jone', "'", 's', 'Orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop', '.']


In [361]:
print(WordPunctTokenizer().tokenize("Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."))

['Starting', 'a', 'home', '-', 'based', 'restaurant', 'may', 'be', 'an', 'ideal', '.', 'it', 'doesn', "'", 't', 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own', '.']


In [355]:
from tensorflow.keras.preprocessing.text import text_to_word_sequence
print(text_to_word_sequence("Don't be fooled by the dark sounding name, Mr. Jone's Orphanage is as cheery as cheery goes for a pastry shop."))
# Keras의 text_to_word_sequence는 기본적으로 모든 알파벳을 소문자로 바꾸면서 온점이나 컴마, 느낌표 등의 구두점을 제거
# 하지만 don't나 jone's와 같은 경우 아포스트로피는 보존

["don't", 'be', 'fooled', 'by', 'the', 'dark', 'sounding', 'name', 'mr', "jone's", 'orphanage', 'is', 'as', 'cheery', 'as', 'cheery', 'goes', 'for', 'a', 'pastry', 'shop']


In [360]:
print(text_to_word_sequence("Starting a home-based restaurant may be an ideal. it doesn't have a food chain or restaurant of their own."))

['starting', 'a', 'home', 'based', 'restaurant', 'may', 'be', 'an', 'ideal', 'it', "doesn't", 'have', 'a', 'food', 'chain', 'or', 'restaurant', 'of', 'their', 'own']


In [None]:
# 정제(Cleaning) and 정규화(Normalization)

# 1. 규칙에 기반한 표기가 다른 단어들의 통합
# 2. 대, 소문자 통합
# 3. 불필요한 단어의 제거(Removing Unnecessary Words)
# (1) 등장 빈도가 적은 단어(Removing Rare words)
# (2) 길이가 짧은 단어(Removing words with very a short length)
# 4. 정규 표현식(Regular Expression)

In [364]:
# 영어권 언어에서는 길이가 짧은 단어를 삭제하는 것만으로도 어느정도 자연어 처리에서 크게 의미가 없는 단어들을 제거하는 효과를 볼 수 있음
# 즉, 영어권 언어에서 길이가 짧은 단어들은 대부분 불용어에 해당
# 길이가 짧은 단어를 제거하는 2차 이유는 길이를 조건으로 텍스트를 삭제하면서 단어가 아닌 구두점들까지도 한꺼번에 제거하기 위함도 있음

import re
text = "I was wondering if anyone out there could enlighten me on this car."
shortword = re.compile(r'\W*\b\w{1,2}\b')
print(shortword.sub('', text))

 was wondering anyone out there could enlighten this car.


In [None]:
# 정수 인코딩(Integer Encoding)
# 보통은 전처리 또는 빈도수가 높은 단어들만 사용하기 위해서 단어에 대한 빈도수를 기준으로 정렬한 뒤에 인덱스 부여

In [367]:
# 정제와 단어 토큰화
from nltk.tokenize import sent_tokenize
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords

text="A barber is a person. a barber is good person. a barber is huge person. he Knew A Secret! The Secret He Kept is huge secret. Huge secret. His barber kept his word. a barber kept his word. His barber kept his secret. But keeping and keeping such a huge secret to himself was driving the barber crazy. the barber went up a huge mountain."
text=sent_tokenize(text)

vocab={} # 단어 빈도수를 담을 dictionary
sentences = [] # 토큰화된 단어를 담을 
stop_words = set(stopwords.words('english'))

for i in text:
    sentence=word_tokenize(i) # 단어 토큰화를 수행합니다.
    result = []

    for word in sentence: 
        word=word.lower() # 모든 단어를 소문자화하여 단어의 개수 줄이기
        if word not in stop_words: # 단어 토큰화 된 결과에 대해서 불용어 제거
            if len(word) > 2: # 단어 길이가 2이하인 경우에 대하여 추가로 단어 제거
                result.append(word)
                if word not in vocab: #단어가 새로운 단어라면
                    vocab[word] = 0 #0부터 count
                vocab[word] += 1 #이미 있는 단어라면 count 1 추가
    sentences.append(result) # 각 문장별로 토큰화 된 단어들의 리스트를 이 리스트에 모은다
print(sentences)
print(vocab) # 단어별 빈도수

[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]
{'barber': 8, 'person': 3, 'good': 1, 'huge': 5, 'knew': 1, 'secret': 6, 'kept': 4, 'word': 2, 'keeping': 2, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1}


In [368]:
# 빈도수가 높은 순서대로 정렬
vocab_sorted = sorted(vocab.items(), key=lambda x:x[1], reverse=True)
print(vocab_sorted)

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3), ('word', 2), ('keeping', 2), ('good', 1), ('knew', 1), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)]


In [369]:
# Counter
from collections import Counter
words = sum(sentences, []) # 각 문장별로 리스트로 묶여있던 토큰들을 다 풀어서 합쳐서 하나의 리스트로; words = np.hstack(sentences)
print(words)
vocab = Counter(words) #단어 빈도수 계산 in 키(key):값(value) 형태
print(vocab)

vocab_size = 5
vocab = vocab.most_common(vocab_size) #등장 빈도수가 높은 상위 5개의 단어만 저장
vocab

['barber', 'person', 'barber', 'good', 'person', 'barber', 'huge', 'person', 'knew', 'secret', 'secret', 'kept', 'huge', 'secret', 'huge', 'secret', 'barber', 'kept', 'word', 'barber', 'kept', 'word', 'barber', 'kept', 'secret', 'keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy', 'barber', 'went', 'huge', 'mountain']
Counter({'barber': 8, 'secret': 6, 'huge': 5, 'kept': 4, 'person': 3, 'word': 2, 'keeping': 2, 'good': 1, 'knew': 1, 'driving': 1, 'crazy': 1, 'went': 1, 'mountain': 1})


[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]

In [370]:
# NLTK의 FreqDist
from nltk import FreqDist
import numpy as np
vocab = FreqDist(np.hstack(sentences)) # np.hstack으로 문장 구분을 제거하여 입력으로 사용 (예: ['barber', 'person', 'barber', 'good', ...])

vocab_size = 5
vocab = vocab.most_common(vocab_size) #등장 빈도수가 높은 상위 5개의 단어만 저장
vocab

[('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]

In [371]:
# 높은 빈도수를 가진 단어일수록 낮은 정수 인덱스 부여
vocab = [('barber', 8), ('secret', 6), ('huge', 5), ('kept', 4), ('person', 3)]
word_to_index = {word[0] : index+1 for index, word in enumerate(vocab)}
print(word_to_index)

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5}


In [372]:
# Keras의 텍스트 전처리
from tensorflow.keras.preprocessing.text import Tokenizer
sentences=[['barber', 'person'], ['barber', 'good', 'person'], ['barber', 'huge', 'person'], ['knew', 'secret'], ['secret', 'kept', 'huge', 'secret'], ['huge', 'secret'], ['barber', 'kept', 'word'], ['barber', 'kept', 'word'], ['barber', 'kept', 'secret'], ['keeping', 'keeping', 'huge', 'secret', 'driving', 'barber', 'crazy'], ['barber', 'went', 'huge', 'mountain']]
keras_tokenizer = Tokenizer()
keras_tokenizer.fit_on_texts(sentences) ## fit_on_texts()안에 코퍼스(리스트)를 입력으로 하면 빈도수를 기준으로 단어 집합을 생성
print(keras_tokenizer.word_index) #각 단어 인덱스; 단어 빈도수가 높은 순으로 낮은 정수 인덱스를 부여
print(keras_tokenizer.word_counts) # 각 단어 카운트
print(keras_tokenizer.texts_to_sequences(sentences)) #입력으로 들어온 코퍼스에 대해서 각 단어를 이미 정해진 인덱스로 변환

# 상위 5개 단어만 사용하고자 한다면
vocab_size = 5
keras_tokenizer = Tokenizer(num_words=vocab_size+1)
keras_tokenizer.fit_on_texts(sentences)
# 이 다음은 바로 위에서 print했던 것들 똑같이

{'barber': 1, 'secret': 2, 'huge': 3, 'kept': 4, 'person': 5, 'word': 6, 'keeping': 7, 'good': 8, 'knew': 9, 'driving': 10, 'crazy': 11, 'went': 12, 'mountain': 13}
OrderedDict([('barber', 8), ('person', 3), ('good', 1), ('huge', 5), ('knew', 1), ('secret', 6), ('kept', 4), ('word', 2), ('keeping', 2), ('driving', 1), ('crazy', 1), ('went', 1), ('mountain', 1)])
[[1, 5], [1, 8, 5], [1, 3, 5], [9, 2], [2, 4, 3, 2], [3, 2], [1, 4, 6], [1, 4, 6], [1, 4, 2], [7, 7, 3, 2, 10, 1, 11], [1, 12, 3, 13]]


In [None]:
# 원-핫 인코딩(One-hot Encoding)
# 단어의 개수가 늘어날 수록, 벡터를 저장하기 위해 필요한 공간이 계속 늘어난다는 단점
# 단어 간 유사성을 알 수 없다는 단점

In [377]:
# 케라스(Keras)를 이용한 원-핫 인코딩(One-hot encoding)
from tensorflow.keras.preprocessing.text import Tokenizer
from tensorflow.keras.utils import to_categorical

text="나랑 점심 먹으러 갈래 점심 메뉴는 햄버거 갈래 갈래 햄버거 최고야"

k_t = Tokenizer()
k_t.fit_on_texts([text]) #리스트
print(k_t.word_index) #각 단어에 대한 인코딩 결과 출력

sub_text="점심 먹으러 갈래 메뉴는 햄버거 최고야"
encoded = k_t.texts_to_sequences([sub_text])[0]
print(encoded)

one_hot = to_categorical(encoded)
print(one_hot)

{'갈래': 1, '점심': 2, '햄버거': 3, '나랑': 4, '먹으러': 5, '메뉴는': 6, '최고야': 7}
[2, 5, 1, 6, 3, 7]
[[0. 0. 1. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 1. 0. 0.]
 [0. 1. 0. 0. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 1. 0.]
 [0. 0. 0. 1. 0. 0. 0. 0.]
 [0. 0. 0. 0. 0. 0. 0. 1.]]


In [None]:
# 원-핫 인코딩의 단점을 해결하기 위해 단어의 잠재 의미를 반영하여 다차원 공간에 벡터화 하는 기법으로 크게 두 가지가 있음
# 첫째는 카운트 기반의 벡터화 방법인 LSA, HAL 등이 있으며, 둘째는 예측 기반으로 벡터화하는 NNLM, RNNLM, Word2Vec, FastText 등이 있다
# 그리고 카운트 기반과 예측 기반 두 가지 방법을 모두 사용하는 방법으로 GloVe라는 방법이 존재

In [None]:
# 단어 분리하기
# 단어 분리(Subword segmenation) 작업은 하나의 단어는 의미있는 여러 내부 단어들(subwords)의 조합으로 구성된 경우가 많기 때문에,
# 단어를 여러 단어로 분리해서 단어를 이해해보겠다는 의도를 가진 전처리 작업 --> 단어 분리 토크나이저
# Byte Pair Encoding (BPE) -- 실무에 사용하기에는 속도가 매우 느리다
# 센텐스피스(Sentencepiece) -- BPE보다 빠르며, 사전 토큰화 작업없이 단어 분리 토큰화를 수행하므로 언어에 종속되지 않는다
    # https://github.com/google/sentencepiece

In [None]:
# 언어 모델
# 크게 국소 표현(Local Representation) 방법과 분산 표현(Distributed Representation) 방법으로 나뉜다
    # 국소 표현 = 이산 표현(Discrete Representation)
    # 분산 표현 = 연속 표현(Continuous Represnetation) -- 연속표현이 분산표현을 포괄하는 더 큰 개념이라는 설명도 있음
# 국소 표현 방법은 해당 단어 그 자체만 보고, 특정값을 맵핑하여 단어를 표현하는 방법
# 분산 표현 방법은 그 단어를 표현하고자 주변을 참고하여 단어를 표현하는 방법; 단어의 뉘앙스를 반영
# 국소 표현 종류
    # One-hot Vector, N-gram
    # Count based : Bag of Words
        # DTM, TF-IDF
# 연속 표현 종류
    # Prediction based : Word2Vec, FestText
    # Count based : LSA
    # Prediction + Count based : Glove

In [None]:
# 워드 임베딩(Word Embedding)
# 단어를 밀집 벡터(dense vector)의 형태로 표현하는 방법
# 밀집 표현(Dense Representation)/밀집 벡터 : 사용자가 설정한 값으로 모든 단어의 벡터 표현의 차원을 맞추고, 이 과정에서 더 이상 0과 1만 가진 값이 아니라 실수값을 가지게 됨
# 반대) 희소 표현(Sparse Representation)/희소 벡터 : 벡터 또는 행렬(matrix)의 값이 1과 0, 대부분이 0으로 표현되는 방법 (예: 원-핫 벡터)
    # 벡터의 차원이 단어 집합(vocabulary)의 크기; 공간적 낭비; 단어 의미/유사도 X
# 이 밀집 벡터를 워드 임베딩 과정을 통해 나온 결과라고 하여 임베딩 벡터(embedding vector)라고도 함
# 분산 표현을 이용하여 단어의 유사도를 벡터화하는 작업은 워드 임베딩에 속함
# 워드 임베딩 방법론으로는 LSA, Word2Vec, FastText, Glove 등

In [None]:
# Word2Vec
# 희소 표현이 고차원에 각 차원이 분리된 표현 방법이었다면, 분산 표현은 저차원에 단어의 의미를 여러 차원에다가 분산하여 표현; 이렇게 단어 간 유사도를 계산할 수 있음
# 이를 위한 학습 방법으로는 NNLM, RNNLM 등이 있으나 요즘에는 해당 방법들의 속도를 대폭 개선시킨 Word2Vec가 많이 쓰임
# 두 가지 방식
    # CBOW(Continuous Bag of Words): 주변에 있는 단어들을 가지고, 중간에 있는 단어들을 예측
    # Skip-Gram: 중간에 있는 단어로 주변 단어들을 예측하는 방법
# 여러 논문에서 성능 비교를 진행했을 때, 전반적으로 Skip-gram이 CBOW보다 성능이 좋다고 알려져 있다

In [None]:
# 네거티브 샘플링(Negative Sampling)
# 대체적으로 Word2Vec를 사용한다고 하면 SGNS(Skip-Gram with Negative Sampling)을 사용
# 전체 단어 집합보다 훨씬 작은 단어 집합을 만들어놓고 마지막 단계를 이진 분류 문제로 바꿔버리는 것
# 주변 단어들을 긍정(positive)으로 두고 랜덤으로 샘플링 된 단어들을 부정(negative)으로 둔 다음에 이진 분류 문제를 수행
# 이는 기존의 다중 클래스 분류 문제를 이진 분류 문제로 바꾸면서도 연산량에 있어서 훨씬 효율적