# 텍스트 데이터 다루기
- http://www.aistudy.co.kr/linguistics/natural/language_kim.htm

### 전처리 : 자연어의 노이즈 제거
- 불완전한 문장으로 구성된 대화의 경우
- 문장의 길이가 너무 길거나 짧은 경우
- 채팅 데이터에서 문장 시간 간격이 너무 긴 경우
- 바람직하지 않은 문장의 사용

### 대표적인 노이즈 유형
- (1) 문장부호 : Hi, my name is john.
- (2) 대소문자 : First, open the first chapter.*의미를 다르게 받아드릴수 있어서 소문자로 모두 변경이 필요하다.
- (3) 특수문자 : He is a ten-year-old boy.

#### (1) 문장부호 : Hi, my name is john.

In [1]:
# (1) 문장부호 : Hi, my name is john. *문장부호 양쪽에 공백을 추가하기

def pad_punctuation(sentence, punc):
    for p in punc:
        sentence = sentence.replace(p, " " + p + " ")  # replace(): 어떤 패턴에 일치하는 일부 또는 모든 부분이 교체된 새로운 문자열을 반환

    return sentence

sentence = "Hi, my name is john."

print(pad_punctuation(sentence, [".", "?", "!", ","]))

Hi ,  my name is john . 


#### (2) 대소문자 : First, open the first chapter.  

In [2]:
# (2) 대소문자 : First, open the first chapter.  *lower

sentence = "First, open the first chapter."

print(sentence.lower())

first, open the first chapter.


In [3]:
# (2) 대소문자 : First, open the first chapter.  *upper

sentence = "First, open the first chapter."

print(sentence.upper())

FIRST, OPEN THE FIRST CHAPTER.


#### (3) 특수문자 : He is a ten-year-old boy.

In [4]:
import re  #정규표현식 사용을 도와주는 패키지 

sentence = "He is a ten-year-old boy."
sentence = re.sub("([^a-zA-Z.,?!])", " ", sentence)

print(sentence)

He is a ten year old boy.


-<a href = "https://hamait.tistory.com/342" target="_blank"> 정규표현식 정리 참고하기  </a>

### (1)+(2)+(3) 합치기

# From The Project Gutenberg
# (https://www.gutenberg.org/files/2397/2397-h/2397-h.htm)

corpus = \
"""
In the days that followed I learned to spell in this uncomprehending way a great many words, among them pin, hat, cup and a few verbs like sit, stand and walk. 
But my teacher had been with me several weeks before I understood that everything has a name.
One day, we walked down the path to the well-house, attracted by the fragrance of the honeysuckle with which it was covered. 
Some one was drawing water and my teacher placed my hand under the spout. 
As the cool stream gushed over one hand she spelled into the other the word water, first slowly, then rapidly. 
I stood still, my whole attention fixed upon the motions of her fingers. 
Suddenly I felt a misty consciousness as of something forgotten—a thrill of returning thought; and somehow the mystery of language was revealed to me. 
I knew then that "w-a-t-e-r" meant the wonderful cool something that was flowing over my hand. 
That living word awakened my soul, gave it light, hope, joy, set it free! 
There were barriers still, it is true, but barriers that could in time be swept away.
""" 

def cleaning_text(text, punc, regex):
    # 노이즈 유형 (1) 문장부호 공백추가
    for p in punc:
        text = text.replace(p, " " + p + " ")

    # 노이즈 유형 (2), (3) 소문자화 및 특수문자 제거
    text = re.sub(regex, " ", text).lower()

    return text

print(cleaning_text(corpus, [".", ",", "!", "?"], "([^a-zA-Z0-9.,?!\n])"))


- 임베딩 레이어(Embedding Layer)를 통해 단어의 분산 표현(distributed representation) 을 구현
- 희소 표현방식은 벡터의 각 차원마다 단어의 특정 의미 속성을 대응시키는 방식 *예: 소년: [-1, -1], 소녀: [1, -1]
- 희소 표현방식은 워드 벡터끼리는 단어들 간의 의미적 유사도를 계산할수 없는데 코사인 유사도로 보완할 수 있다.

## 토큰화(Tokenization) 기법

###  1) 띄어쓰기 기반 토큰화

In [5]:
corpus = \
"""
in the days that followed i learned to spell in this uncomprehending way a great many words ,  among them pin ,  hat ,  cup and a few verbs like sit ,  stand and walk .  
but my teacher had been with me several weeks before i understood that everything has a name . 
one day ,  we walked down the path to the well house ,  attracted by the fragrance of the honeysuckle with which it was covered .  
some one was drawing water and my teacher placed my hand under the spout .  
as the cool stream gushed over one hand she spelled into the other the word water ,  first slowly ,  then rapidly .  
i stood still ,  my whole attention fixed upon the motions of her fingers .  
suddenly i felt a misty consciousness as of something forgotten a thrill of returning thought  and somehow the mystery of language was revealed to me .  
i knew then that  w a t e r  meant the wonderful cool something that was flowing over my hand .  
that living word awakened my soul ,  gave it light ,  hope ,  joy ,  set it free !  
there were barriers still ,  it is true ,  but barriers that could in time be swept away . 
"""

tokens = corpus.split()

print("문장이 포함하는 Tokens:", tokens)

문장이 포함하는 Tokens: ['in', 'the', 'days', 'that', 'followed', 'i', 'learned', 'to', 'spell', 'in', 'this', 'uncomprehending', 'way', 'a', 'great', 'many', 'words', ',', 'among', 'them', 'pin', ',', 'hat', ',', 'cup', 'and', 'a', 'few', 'verbs', 'like', 'sit', ',', 'stand', 'and', 'walk', '.', 'but', 'my', 'teacher', 'had', 'been', 'with', 'me', 'several', 'weeks', 'before', 'i', 'understood', 'that', 'everything', 'has', 'a', 'name', '.', 'one', 'day', ',', 'we', 'walked', 'down', 'the', 'path', 'to', 'the', 'well', 'house', ',', 'attracted', 'by', 'the', 'fragrance', 'of', 'the', 'honeysuckle', 'with', 'which', 'it', 'was', 'covered', '.', 'some', 'one', 'was', 'drawing', 'water', 'and', 'my', 'teacher', 'placed', 'my', 'hand', 'under', 'the', 'spout', '.', 'as', 'the', 'cool', 'stream', 'gushed', 'over', 'one', 'hand', 'she', 'spelled', 'into', 'the', 'other', 'the', 'word', 'water', ',', 'first', 'slowly', ',', 'then', 'rapidly', '.', 'i', 'stood', 'still', ',', 'my', 'whole', 'attenti

### 2) 형태소 기반 토큰화 (품사를 통한..)

- 사용할 데이터의 특성(띄어쓰기 유무 등)이나 개발 환경(Python, Java)에 따라서 적합한 형태소 분석기를 고려
- 연산 속도가 중요하다면 mecab을 최우선으로 고려해야하며, 심지어 분석 품질도 상위권으로 보여짐
- 자소 분리나 오탈자에 대해서도 어느 정도 분석 품질이 보장되야 한다면 KOMORAN+mecab,꼬꼬마) 사용을 고려
- 한나눔과 khaiii(카카오)는 일부 케이스에 대한 분석 품질, 꼬꼬마는 분석 시간에서 약간 아쉬운 점이 보임

#### 1) konlpy 

In [6]:
#  konlpy 및 Mecab의 설치 여부를 확인

from konlpy.tag import Hannanum,Kkma,Komoran,Mecab,Okt

[설치 진행]

- pip install konlpy
- cd ~/aiffel/text_preprocess
- git clone https://github.com/SOMJANG/Mecab-ko-for-Google-Colab.git
- cd Mecab-ko-for-Google-Colab
- bash install_mecab-ko_on_colab190912.sh

[자바 기반 konlpy의 JVMNotFoundException 오류가 발생시]
-  sudo apt update
-  sudo apt install default-jre

#### 2) 카카오에서 제공하는 Khaiii 형태소 분석기

In [7]:
# # 카카오에서 제공하는 Khaiii 형태소 분석기  *윈도우 미지원

# import khaiii

# api = khaiii.KhaiiiApi()
# api.open()

- 윈도우 미지원 대비  : https://yj-79.tistory.com/11

In [8]:
# # Khaiii를 konlpy tokenizer처럼 사용하기 위한 wrapper class입니다. 

# class Khaiii():
#     def pos(self, phrase, flatten=True, join=False):
#         """POS tagger.

#         :param flatten: If False, preserves eojeols.
#         :param join: If True, returns joined sets of morph and tag.

#         """
#         sentences = phrase.split('\n')
#         morphemes = []
#         if not sentences:
#             return morphemes

#         for sentence in sentences:
#             for word in api.analyze(sentence):
#                 result = [(m.lex, m.tag) for m in word.morphs]
#                 if join:
#                     result = ['{}/{}'.format(m.lex, m.tag) for m in word.morphs]

#                 morphemes.append(result)

#         if flatten:
#             return sum(morphemes, [])

#         return morphemes

In [9]:
# # 6개의 형태소 분석기의 문장 해석 살펴보기

# tokenizer_list = [Hannanum(),Kkma(),Komoran(),Mecab(),Okt(),Khaiii()]

# kor_text = '코로나바이러스는 2019년 12월 중국 우한에서 처음 발생한 뒤 전 세계로 확산된, 새로운 유형의 호흡기 감염 질환입니다.'

# for tokenizer in tokenizer_list:
#     print('[{}] \n{}'.format(tokenizer.__class__.__name__, tokenizer.pos(kor_text)))

#### Wordpiece Model *SentencePiece 라이브러리를 통해 고성능의 BPE를 사용
- 한 단어를 여러 개의 Subword의 집합으로 보는 방법이 WPM


In [10]:
#### 토큰화 적용 논문 및 코드(  https://arxiv.org/pdf/1508.07909.pdf)

import re, collections

# 임의의 데이터에 포함된 단어들입니다.
# 우측의 정수는 임의의 데이터에 해당 단어가 포함된 빈도수입니다.
vocab = {
    'l o w '      : 5,
    'l o w e r '  : 2,
    'n e w e s t ': 6,
    'w i d e s t ': 3
}

num_merges = 5

def get_stats(vocab):
    """
    단어 사전을 불러와
    단어는 공백 단위로 쪼개어 문자 list를 만들고
    빈도수와 쌍을 이루게 합니다. (symbols)
    """
    pairs = collections.defaultdict(int)
    
    for word, freq in vocab.items():

        for i in range(len(symbols) - 1):             # 모든 symbols를 확인하여 
            pairs[symbols[i], symbols[i + 1]] += freq  # 문자 쌍의 빈도수를 저장합니다. 
        
    return pairs

def merge_vocab(pair, v_in):
    v_out = {}
    bigram = re.escape(' '.join(pair))
    p = re.compile(r'(?<!\S)' + bigram + r'(?!\S)')
    
    for word in v_in:
        w_out = p.sub(''.join(pair), word)
        v_out[w_out] = v_in[word]
        
    return v_out, pair[0] + pair[1]

token_vocab = []

for i in range(num_merges):
    print(">> Step {0}".format(i + 1))
    
    pairs = get_stats(vocab)
    best = max(pairs, key=pairs.get)  # 가장 많은 빈도수를 가진 문자 쌍을 반환합니다.
    vocab, merge_tok = merge_vocab(best, vocab)
    print("다음 문자 쌍을 치환:", merge_tok)
    print("변환된 Vocab:\n", vocab, "\n")
    
    token_vocab.append(merge_tok)
    
print("Merge Vocab:", token_vocab)

>> Step 1
다음 문자 쌍을 치환: es
변환된 Vocab:
 {'l o w ': 5, 'l o w e r ': 2, 'n e w es t ': 6, 'w i d es t ': 3} 

>> Step 2
다음 문자 쌍을 치환: est
변환된 Vocab:
 {'l o w ': 5, 'l o w e r ': 2, 'n e w est ': 6, 'w i d est ': 3} 

>> Step 3
다음 문자 쌍을 치환: lo
변환된 Vocab:
 {'lo w ': 5, 'lo w e r ': 2, 'n e w est ': 6, 'w i d est ': 3} 

>> Step 4
다음 문자 쌍을 치환: low
변환된 Vocab:
 {'low ': 5, 'low e r ': 2, 'n e w est ': 6, 'w i d est ': 3} 

>> Step 5
다음 문자 쌍을 치환: ne
변환된 Vocab:
 {'low ': 5, 'low e r ': 2, 'ne w est ': 6, 'w i d est ': 3} 

Merge Vocab: ['es', 'est', 'lo', 'low', 'ne']


Wordpiece Model(WPM) *비공개
- 구글에서 BPE를 변형해 제안한 알고리즘이 바로 WPM
- 공백 복원을 위해 단어의 시작 부분에 언더바 _ 를 추가
- 빈도수 기반이 아닌 가능도(Likelihood,확률 분포에 나왔을지에 대한 확률, 즉 확률의 확률)를 증가시키는 방향으로 문자 쌍을 합치기
- 조사, 어미 등의 활용이 많고 복잡한 한국어 같은 모델의 토크나이저로 WPM이 좋은 대안

## 워드 임베딩

- 한국어 단어에 대해서 벡터 연산을 해 볼수 있는 사이트 http://w.elnn.kr/search/
- Word2Vec과 FastText는 워드의 벡터값이 동일하다. 예)사과 

### 1) 워드투벡터(Word2Vec) https://wikidocs.net/22660
- 은닉층이 1개라 딥러닝이 아닌 Shallow Neural Network라고 불린다.
- 성능이 좋은 Negative Sampling + Skip-gram 을 합쳐서 SGNS 라는 말로 Word2Vec을 대신하기도 한다.

- 희소표현 : 벡터 또는 행렬(matrix)의 값이 대부분이 0으로 표현되는 방법 *원핫인코딩
- 분산표현 : 희소표현은 단어간 유사성을 표현할수 없는 단점이 있고 이를 위한 대안으로 단어의'의미'를 다차원 공간에 벡터화 하는 방법
    - 비슷한 위치에서 등장하는 단어들은 비슷한 의미를 가진다 의 가정
- CBOW(Continuous Bag of Words) : 주변단어에서 중심단어 예측
    -  CBOW는 주변 단어로 중심 단어를 더 정확히 맞추기 위해 계속해서 이 W와 W'를 학습해가는 구조 
- Skip-Gram  : 중심단어 기준으로 주변 단어 예측
    - 중심단어에 대해 주변단어 예측으로 투사층에서 벡터들의 평균을 구하는 과정은 없다. 
    - 성능비교 : CBOW < Skip-gram
- 성능 개선을 위해 두가지 제안 Hierarchical Softmax, Negative Sampling
    - Hierarchical Softmax : 등장횟수 확인 > 이진트리 구성 >높은 빈도의 단어를 >하위 노드>하위노드로 단어를 저장하는 방식으로 구성
    - Negative Sampling : 기준 단어마다 실제로 등장했던(positive), 등자하지 않았던(negative) 예시를 구성하여 이진로지스틱분류기를 학습
    - 성능비교 : Hierarchical Softmax < Negative Sampling 

[용어정리]
- 윈도우(window) : 중심 단어를 예측하기 위해서 앞, 뒤로 몇 개의 단어를 볼지를 결정했다면 이 범위
- 슬라이딩 윈도우(sliding window) : 윈도우를 계속 움직여서 주변 단어와 중심 단어 선택을 바꿔가며 학습을 위한 데이터 셋을 만드는 방법

### 2) FastText
- FastText는 한 단어를 n-gram의 집합이라고 보고 단어를 쪼개어 각 n-gram에 할당된 Embedding의 평균값을 사용하였다.

### 3) ELMo - the 1st Contextualized Word Embedding
- 그 단어가 놓인 주변 단어 배치의 맥락이 함께 고려되는 Word Embedding
- 전이학습, 기학습된 언어 모델을 이용해 어휘 임베딩을 생성하는 방법
- https://brunch.co.kr/@learning/12- 
- 기존 어휘 임베딩(입력 토큰의 word vector)+순방향 및 역방향 LSTM의 hidden state vector 를 합쳐서 얻는다.

![ELMO](https://user-images.githubusercontent.com/70866993/134871467-66f098fb-f77b-4ff8-8b59-c27abb30fcba.JPG)
