# 텍스트마이닝 (Text Mining)

패턴, 트렌드를 살펴봄으로써 **높은 퀄리티의 정보를 텍스트로부터 만들어내는 것**  
statistical pattern learning 회귀분석 등을 활용한다.  
주 목적은 **비정형데이터를 분석 가능한 정형데이터로 변형**하는 것. 
이를 위해 NLP 등 analytical method를 사용한다.  
  
  **unstructured text를 structured data로 변형**하는 것.  
  일정한 길이 (sparse or dense)의 vector로 변환 (**길이가 정해진 숫자**여야 함.)  
  변환된 vector는 수치화된 것으로 분석하는 머신러닝, 딥러닝에 사용되기 적절하다.    
    
  -  **text classification** - 글의 감정분석 (영화리뷰가 영화에 대해 호의적인지, 비호의적인지) (메일이 스팸인지, 아닌지)
  - **translation** - 번역  
   이런 목적을 달성하기 위해 주로 사용함.

## 1. 텍스트 마이닝 단계  
![image.png](attachment:image.png)   
  
  *자연어 기본처리*  
  
1) 단어 하나는 document라고 하지 않음. 문장 이상이어야 함.  
2) document를 분석하기 위해 **tokenize (단어 단위로 쪼개는 것), normalize (변형된 단어를 원형으로 바꾸기** (ex. went, goes -> go 의미상으로 같도록 형변환)  
3) **sequence of normalized words** 2단계에서 쪼갠 단어들을 sequence로 list형태로 묶는다.   
  
  
  *기본처리 된 것 다루는 방법*  
  
4-1) fixed size vector without sequence info : 리스트 속 순서는 무시하고 벡터를 만든다  (ex. BOW, TFIDF)  
4-2) fixed size vector with sequence info : 순서 (문맥정보)를 포함하는 벡터를 만든다. (ex. DocVec)   
4-3) series of word embedding with sequence info : 문맥정보를 유지하면서 워드 임베딩 된 시리즈. 즉, text size vector로 바뀌고 변형된 것의 시퀀스로 표현  
  
    
   *위 과정 이후 사용가능한 분석 기법*  
     
 5-1) fixed size vector without sequece info 사용시 : Naive Bayes, Decision Tree, SVM, Logistic Regression 모두 사용 가능  
 5-2) fixed size vector with sequence info 사용시 : Decision Tree, SVM, Logistic Regression tkdydrksmd  
 5-3) series of word embedding with sequence info 사용시 : RNN, Transformer, BERT 사용가능

## 2. 텍스트마이닝 적용분야  
#### 1) Document classification  
: sentiment analysis(감성분석), classification(문장분석)    

#### 2) Document generation  
: Q&A, summarization, translation   
최근에는 classification, Q&A, summarization, translation 각각이 한 분야로 인정 받음.  
#### 3) Keyword extraction  
: tagging, annotation    
주어진 문서로부터 의미있는 정보를 꺼내려는 작업.  
ex. 신문기사 속 지명, 이름 등을 꺼내는 것  

#### 4) Topic modeling  
: LSA, LDA   
문서의 집합이 있을 때, 문서에 대해 공통적으로 사용되는 토픽이 무엇인지 찾아내고,  
하나의 문서 안에 토픽이 어떻게 구성되어있는 지 확인.

## 3-1. 텍스트마이닝 도구 - 파이썬  
- NLTK : 가장 많이 알려진 NLP 라이브러리  
- Scikit Learn : 머신러닝 라이브러리지만, 기본적인 NLP, 다양한 텍스트 마이닝 관련 도구 지원  
- Gensim : word2vec으로 유명. 다양한 텍스트 관련 도구 지원  
- Keras : RNN, seq2seq 등 입러닝 위주 라이브러리 제공  
- PyTorch : 최근 딥러닝 관련해서 가장 많이 사용됨.

## 3-2. 텍스트마이닝 도구 - NLP  
- 목적 : document, sentence 등 (word의 sequence) 을 sparse vector (값을 가진 벡터가 희소한 것)로 변환 (머신러닝에 사용할 수 있도록!)    

- Tokenize : 대상이 되는 문서/문장을 최소 단위로 쪼갬 (he, loves, me)    
document를 sentence 집합으로 분리하거나, sentence를 word 집합으로 분리한다.  
의미없는 문자 등을 걸러낸다.  
영어는 공백을 기준으로 쉽게 tokenize가능하나, 한글은 형태소 분석 필요  
(복합명사, 조사, 어미 등 분리하는 작업 필요)  

- Text normalization : 최소 단위를 표준화(he, love, me)    
동일한 의미의 단어가 다른 형태를 갖는 것을 보완 (다른 형태 단어를 통일시켜 표준 단어로 변환) (loves -> love 처럼)  
1) stemming (어간 추출)  
의미를 파악하지 않고, 규칙에 의해 변환 (-s, -ing 등 패턴을 보고 하나로 통일)    
  
  ex. this was not the map -> stemming-> thi, wa (s가 있으니까 빼버림)(의미 파악을 안하니까)  
  즉, 사전에 없는 이상한 단어로 변환함.  
  
2) lemmatization (표제어 추출)  
사전을 이용해 의미를 파악하려 함.  
품사 고려    
  
  ex. this was not the map -> lemmatization -> this, wa (was는 품사를 알아야 하니까 형태적으로 접근함)

- POS-tagging : 최소 의미 단위로 나누어진 대상에 품사 부착 (명사, 동사, 명사)   
동일한 단어라도 문맥에 따라 의미가 달라지므로, 품사를 알기 위해서는 문맥 파악 필요  
한글 형태소 분석기 도구 (konlpy링크)  

- Chunking : Pos-tagging 결과를 명사구, 형용사구, 분사구 등으로 다시 합침   
주어와 동사가 없는 두 단어 이상의 집합 구(phrase)    
information extraction(정보 추출)하기 위해 사용  
  
  ex. 개체명 인식 (Named Entity Recognition, NER)  
  : 기관, 단체, 사람, 날짜 등과 같이 특정 정보에 해당하는 명사구  
  : 텍스트로부터 의미있는 정보를 추출하기 위한 방법으로 사용    
  : 챗봇에서도 자주 사용됨.
  : ex) James (Person) is working at Disney (Organization) in London (GPE)    
  
- BOW, TFIDF : tokenized 결과를 이용해 문서를 vector로 표현  
: 주어진 문장이 최소 단위 list가 됐으면, vector로 변환하는데 이 변환에 사용 된 게 BOW  
: 어떤 단어가 있는가 가 중요하지, 순서는 중요하지 않다고 가정함.  
*** vector space model : 전체 text에서 사용된 단어를 모아놓은 bag of words (vocabulary 역할) 가 있을 때, 현재 해당하는 문장에 사용된 단어 중, bag of words에 해당 되는 단어에 유(1)/무(0)로 표현하는 것.  
  
   *** count vector : 단어의 유/무 대신 단어가 문서에 나타난 횟수로 표현      
      ex) it is a puppy and it is cute    
![image.png](attachment:image.png)
   -> vector space model : it (1) is(1) 사용되었다는 정보만 줌.  
   -> count vector : it (2), is(2) 총 2번 사용되었다는 정보까지 줌.  
   -> 첨부한 사진은 count vector의 예시
     
     
   -> 단, 많은 문서에 공통적으로 나타난 단어는 중요성 떨어지는 단어일 가능성 높음 (the, a 같은 것들)    
   -> 그래서 나온 게 TFIDF! : 자주 등장하지 않는 단어의 weight를 올림.  
   : tf(d,t) - 문서 d에 단어 t가 나타난 횟수 (count vector와 동일)  
   : df(t) - 전체 문서 중에서 단어 t를 포함하는 문서의 수  
   : idf(t) - df(t)의 역수를 바로 쓸 수도 있으나, 로그 스케일과 스무딩 적용한 공식 사용. -> log(n/1+df(t)) (n은 전체 문서 수)


## text classification with BOW/TFIDF  
Naive Bayes, Logistic regression (ridge, lasso), Decision tree 사용 가능  
  
 **1) Naive Bayes** : text categorization 하는 데 자주 사용되는 기법.  
  스팸인 메일 / 스팸이 아닌 메일 -> 안에 쓰여진 단어를 보고 판단 가능함. 특정 단어가 들어가면 스팸일 가능성이 높음  
  학습대상인 메일들을 보고, 학습하면 새로 문서를 봤을 때 스팸에 자주 사용된 단어가 있으면 새로운 문서가 스팸인 걸 알아냄.  
    
   이 과정을 나이브베이즈에서 함. 새로운 문서에 사용된 단어 집합 x1,...,xn이 스팸 단어 집합인 Ck에 속할 확률을 구하는 것.   
     
   **2) logistic regression** : 텍스트마이닝에서 사용 시, 요구하는 트레이닝 셋의 크기가 매우 많은 문제점이 존재함. 정규화를 통해 과적합을 해결하고자 함.  
     -> 과적합 해결 방법 : Ridge, lasso 회귀
     -> 두 문서를 비교하는데 주로 어떤 단어가 영향을 미쳤는가를 알고 싶을 때는 lasso 회귀분석을 사용하는 것이 좋다. 영향을 거의 미치지 않는 단어들을 제외하기 때문.

## sentiment analysis (감성분석)  
![image.png](attachment:image.png)    
-> 해당 자료는 NLP 자연어처리만으로 감성분석을 진행  
-> 요즘에는 머신러닝으로 진행

밑에 요소들이 우호적/비우호적인지 합산하며 상위 요소로 올라간다.  
지속적으로 + 우호적이었기에 합쳤으나, 상단에 n't (not)이 있어 그동안의 +를 -로 바꾼다. 결국, 비우호적 감정을 가진 것을 알 수 있다.

#### 한글 감성분석 예제  
![image.png](attachment:image.png)  
  
  -> label이 0이면 부정, 1이면 긍정  
  - 학습방법  
  : 리뷰를 형태소 분석을 한 뒤, BOW로 변환 후 input(count vector, TFIDF등으로)으로 쓰고, label을 target으로해 학습  
  : 나이브베이즈, 로지스틱 회귀분석, SVM 등 다양한 방법 사용 가능  
  : 새로운 리뷰에 대해 긍정/부정 예측

## 4. 텍스트마이닝의 문제  
### 1) 차원의 저주  
BOW에서 voca는 30만개인데, 사용된 text는 너무 작아서, 1은 적고 0만 많이 나온다.  
즉, 각 데이터 간 거리가 너무 멀어진다.    
  
  **해결방안**  
  -> 데이터를 많이 사용한다  
-> 차원축소 (dimension reduction)를 한다. voca 30만개를 1만개로 줄이기    

  
### 2) 단어 빈도의 불균형  
0.1만큼의 단어의 빈도는 매우 높고, 나머지 0.9만큼의 단어 빈도는 매우 낮은 상황  
0.1만큼의 단어가 데이터에 영향을 미치게 되는 문제가 발생    

**해결방안**  
-> feature selection : 빈도 높은 단어 삭제  
-> boolean BOW : 1이상이면 1로 변환  (vector space모델처럼)  
-> log등 함수를 이용해 weight 변경  
  
### 3) 단어가 쓰인 순서정보의 손실  
통계에 의해서만 의미를 파악하고 있다  
대부분 글을 읽고 문맥을 파악해서 의미를 파악하지만, BOW는 어떤 단어를 많이 사용하는 가로 문맥을 파악하지 못하고 파악한다.  
  
  **해결방안**  
  -> n-gram  
  -> deep learning : 근본적으로 해결

## 5. 텍스트마이닝 문제해결방법  
  
  ### 1) 차원축소 dimension reduction (차원의 저주 해결)  
  **차원 축소 방법**  
- **feature selection** : 전체 중 일부만 유지하고 나머지는 제거  
- **feature extraction** : 전체에서 정보를 뽑아내서 일부를 유지      

  -> **1-1) PCA 주성분 분석** : 1만개에서 100개로 줄인다고 할 때, 100개의 변수는 1만개 변수의 선형 결합임을 뜻한다.   
새로운 변수 V1, 전체 1만개의 변수 x1~x10000, 상수 a 이라고 할 때  
V1 = a1 * x1+...+a10000 * x10000 이런 방식으로 선형 결합을 만들어 낸다.  
이때 상수 a에 따라 v가 달라진다. 이때, 기존 10000개의 변수가 가진 성격을 유지하는 방향으로 a를 가져야 함.      
  
  -> **1-2) LSA** : 가지고 있던 벡터A를 U,Z,V 벡터를 분리한다. 그대로 분리하는 경우, 기존 벡터의 성격을 유지한다.  
이때, U 벡터의 일부를 분리해 버리면, 나머지 벡터도 일부 사라진다.  
이 분리된 U,Z,V 벡터를 다시 합쳤을 때 A와 최대한 유사한 값으로 되게 만드는 것이 목표.  
-> 문서간의 유사도, 단어 간의 유사도를 확인할 수 있다.  
  
  -> topic modeling



- **embedding** : 단어나 document를 sparse한 것이 아니라 학습을 통해 dense하게 바꿔줌  
- **deep learning**을 통해서 해결  
  
    
### 2) topic modeling      
이야기 하고 싶은 topic이 있으면, 이 topic에서 자주 사용되는 word들이 있고, 이 word에는 각 중요도 즉, weight가 존재한다.  
topic 정하기 -> word 목록 보기 -> 중요도 보기  
단계에서 반대로 돌아가서  
text에서 사용된 word를 보고 어떤 topic을 골랐을 지 유추하는 것이 topic modeling이다.  

즉, topic distribution, word distribution을 알아내고자 하는 것.  
이 topic modeling은 latent dirichlet allocation으로 가능하다.   
  
  **토픽모델링 활용사례**  
  드라마 시청률이 변화하면, 소셜미디어 토픽이 변화할 것이다.  
  반대로 소셜미디어 토픽이 변화하면 드라마 시청률이 변화할 수도 있다.  
    
  별에서 온 그대를 분석했을 때, 음식, 패션,, 스토리, 일기를 topic으로 쓰기도 함.  
  해당 토픽들 중 특히 드라마 시청률과 유사한 방향으로 움직이는 것이 보임.

### 3) word embedding  
text에서 사용되는 단어를 컴퓨터 안에서 text mining으로 표현하고 다룰 수 있도록 하는 방법.  
  
  **text mining의 근본 목표 :** text를 fixed length vector로 표현해내는 것(머신러닝에 사용되기 위해)  
  BOW 방법으로 text mining을 하면, **순서 정보를 상실하게 되는 문제점**이 발생한다.   
  text를 어떤 단어가 몇개 사용되었는지만 확인하게 된다.    
  
  text를 더 정확히 표현하기 위해서는, **word들의 sequence로 표현**해야 한다.  
  이 word를 vector로 어떻게 표현하는가의 문제가 발생한다.  
  word를 fixed length vector로 표현하는데 보편적으로 사용되는 방법이 **one-hot-encoding** 이다.  
    
  - **one-hot-encoding 이란?**   
  사용된 단어를 fixed 된 순서로 나열한다 (ex.알파벳 순서 - a, aa,abc...)  
  a 라는 단어는 나열된 단어 중 a가 있는 것은 1, 아닌 것은 전부 0으로 표현한다.  
  마찬가지로 abc라는 단어는 abc만 1, 나머지는 전부 0으로 표현한다.  
  ![image.png](attachment:image.png)  
    
  위 그림은 one-hot-encoding의 예시이다.  
  각각 red, green, blue 인 경우만 1로 표현하고 나머지는 전부 0으로 표현하고 있다.  
      
      
  - **왜 one-hot-encoding을 사용하는가?**  
  단순히 word를 구분하는 것에 목표가 있다면,(000),(001),(010),(011) 와 같이  
  단어 사이에 순서가 생기고, 거리관계가 발생하게 된다.  
  이를 피하기 위해 인핫인코딩을 하게 되면, 모든 단어들의 거리가 동일하다.
  **단, one-hot-encoding을 사용하게 되면, vector의 길이가 너무 길어진다는 단점이 존재한다.** 1만개의 word가 사용되었다면, 1만개 길이의 vector가 생성된다.  
      
      
  ### 원핫인코딩의 문제를 해결하는 : Word Embedding  
   : one-hot-encoding으로 표현된 단어를 dense vector로 변환하는 것 (vector의 길이에 상관없이 일정 길이로 encoding 해주는 것)  
   : 최종목적에 맞게 학습에 의해 vector가 결정된다.
  

### Word2Vec  
word embedding은 학습목적에 맞게 embedding을 하는데, Word2Vec은 문장에 나타난 단어들의 순서를 이용해 word embedding을 수행한다.  
word2vec의 학습목적에는 2가지가 존재하는데 다음과 같다.  
  
  - **CBOW :** 주변단어들을 이용해 다음 단어를 예측  
  - **Skip-Ngram :** 한 단어의 주변 단어들을 예측  
    
  아래 그래프는 CBOW와 Skip-Ngram을 표현한 모델이다.  
  ![image.png](attachment:image.png)

즉, word2vec은  
단어의 위치에 기반하여 의미를 내포하는 vector를 생성한다.  
비슷한 위치에 나타나는 단어들은 비슷한 vector를 가지게 되어 단어간 유사성을 이용해 연산이 가능하다.  
![image.png](attachment:image.png)  
  
man vs woman = king vs Queen 이 가능해진다.  


- **참고 사이트 : word2vec 구현 사이트**
  
 https://word2vec.kr/search/  
 해당 사이트는 word2vec 알고리즘을 한글로 구현한 사이트로,  
 **사랑+이별 = 추억** 과 같이 input 단어로 output 단어 연산이 가능하다.  
 
  ![image.png](attachment:image.png)

![image.png](attachment:image.png)  
  
  - **CBOW**  
  
위와 같은 문장이 있을 때,    
**input = colorless, ideas, sleep, furiously // output = green**
green을 target word로 하면 나머지 4개 단어를 input입력 으로 받고,  
이 input으로 다음에 나올 단어 green을 예측하는 형태의 모형으로 만들고, 학습을 진행한다.  
학습을 진행하면, projection, sum에 weight가 쌓이는데 이 weight로 embedding을 한다.    
다른 문장에서는 green 위치에 색깔을 나타내는 다른 단어가 올 수 있다. 해당 위치에 색깔이 작성되는 것이 반복되고, 학습되면 색을 나타내는 단어는 비슷한 단어로 인식이 된다.  

**즉, 문장 내에서 같은 위치에 반복적으로 사용되는 단어는 비슷한 단어로 인식 된다.  
반면 같은 위치에 잘 나오지 않는 단어는 거리가 먼 단어로 인식 된다.**
  
    
  - **Skip-Ngram**    
   **input = green // output = colorless, ideas, sleep, furiously**
   CBOW와 반대로, green이 input으로 주어졌을 때, 나머지 4개 단어를 알아내는 모형이다.   
   

## 4) ELMo
주변 단어로 다음 단어, 같은 위치의 단어를 예측하는 임베딩 방법 (word2vec과 유사)  
word2vec, GloVe는 fixed vector로, 문맥에 따라 다른 의미를 가지는 것을 반영하지 못한다.  
ELMo는 문맥을 반영하기 위해 개발된 워드 임베딩 기법.  
ex. 나는 배를 먹었다 / 나는 배를 타고갔다 -> word2vec은 '배'를 같은 단어로 인식, ELMo는 다르게 인식할 수 있다.  
  
   - **ELMo등 임베딩의 목적**  
   : 단어에 대해 사전학습을 시키고, 이미 만들어진 워드 임베딩을 사용함으로써 효율성을 가지고자 함  
   : 학습되어 있는 dense vector를 새로 학습하지 않고, 그대로 가져다 사용하고, 이를 바탕으로 fine tuning을 하거나 그대로 가져와서 머신러닝 모델에 그대로 얹어서 그대로 사용하는 형태가 transfer learning 혹은 전이학습이라고 한다.

## 5) document embedding
document의 문맥정보를 버리지 않고 word의 sequence로 취급한다.  
document에 대해 dense vector를 생성하고자 한다 (word2vec가 word에 대해 dense vector를 생성하는 것 처럼)  
fixed dense vector로 document를 embedding 하는 것  
word2vec 모델을 기본 베이스로 가지고 간다.    

![image.png](attachment:image.png)  
  
document의 고유 vector를 함께 학습 시킨다.  
위 그래프로 보면, the, cat, sat으로 on을 예측할 때, document vector를 함께 넣는다.  
  
같은 문장에서 만들어진 것은 document vector가 같다. 이 dense vector를 이용해 매칭, 분류 등 작업을 수행한다.

## 6) RBM - 차원을 줄이는 방법
(현재는 거의 사용되지 않음) 차원을 변경하면서, 원래 정보량을 최대한 유지하는 것이 목적.  
  
  ![image.png](attachment:image.png)  
    
  hidden layer가 input layer의 집합을 최대한 유지하며 가져오는 것

## 7) Autoencoder - 차원 줄이는 방법
![image.png](attachment:image.png)  
  
  RBM과 유사한 개념으로,  
  input을 layer의 수를 줄여가며 학습 시킨 후 원래 input 사이즈로 늘릴 때,  
  초기 input이 학습결과 input과 최대한 동일하도록 학습시키는 것이 목적이다.  
    
  차원이 줄으면서도 정보가 최대한 유지시킬 수 있도록 학습한다.

## 8) N-gram (context / sequence 파악해 문제 해결)
  
  ![image.png](attachment:image.png)  
    
  Bi-gram은 단어 2개씩 묶어서 쪼개고 각각을 하나의 토근으로 본다.  
  위 예시에서는 (patient has) (has evidence)...방식으로 쪼개진다.  
    
  보통 unigram에 bigram, trigram을 추가하면서 feature수 증가시켜 사용한다.  
  BOW의 문제는 토큰의 수가 너무 많은 것인데, bi, tri까지 사용하게 되면 dimension이 너무 커지는 문제가 있다.

## 9) 딥러닝 RNN (context / sequence 파악 위해 딥러닝 사용)
RNN 자체가 input의 순서에 따른 변화를 감지하고자 하는 네트워크이므로 사용함.  
문장을 단어의 시퀀스로 처리하고, 뒷 단어에 대한 히든 노드가 앞 단어의 히든 노드 값에 영향 받도록 설계 함.    
  
  ![image.png](attachment:image.png)
  
위 그래프에서 Xt-1의 hidden node가 Xt의 hidden node에 영향을 미치고,  
Xt의 hidden node가 다시 Xt+1의 hidden node에까지 영향을 미친다.  
즉, 앞에 어떤 단어가 왔느냐에 따라 Xt+1의 hidden node가 결정된다.  
(앞 문맥정보가 계속 축적이 된다는 의미)

#### text classification with RNN
  
  ![image.png](attachment:image.png)    
    
    
  문서의 크기를 6으로 제한 (maxlen = 6)하면 앞이나 뒤를 버릴 수 있는데 보통 앞을 버릴 때 효과가 좋은 경우가 많다.  
  버린 것을 RNN 모델에 넣으면 문맥에 대한 정보가 축적되고, 문서분류를 한다면 앞에 있는 output은 사용하지 않고, 모든 문맥정보가 축적된 마지막 노드만으로 문서분류를 진행한다.

RNN의 문제점 : 단어가 50개라면, layer가 매우 깊어진다. = 경사손실 문제 발생 = 앞쪽에서 영향 미치는 것은 뒤로 갈 수록 손실되고, 가까운 노드만 영향을 미치게 된다.  
  
  RNN의 문제점을 해결하고자 나온 것이 LSTM!  
    
## 10) LSTM (Long Short Term Memory) (RNN 문제해결)  
  
  가까운 단어로만 학습되는 것을 막기 위해 직통 통로를 만들어 RNN의 문제를 해결한다.  
  ![image.png](attachment:image.png)  
    
  위 통로는 학습과정을 거치지 않고 바로 연결되는 통로이고,  
  아래 통로는 기존과 동일한 학습통로이다.  
    
- **Bi-LSTM**  
: 앞 단어가 뒤 단어에 영향을 미치기도 하지만, 뒤 단어가 앞 단어에 영향을 미치기도 한다.  
기존 단방향 LSTM은 한 방향으로만 학습되어, 뒤에 오는 단어에 의해 영향을 받는 경우 학습이 되지 않는다.  
:단방향의 문제점을 해결하고자 나온 것이 Bi-LSTM이다.  
양방향으로 LSTM을 구성해 두 결과를 합치고, 양방향 순서를 모두 학습한다.

## 11) sequence to sequence
  
  지금까지 입력은 sequence, 출력은 하나의 값인 경우가 일반적이었으나  
  **번역, 챗봇, summarize, QnA** 등은 출력도 sequence가 되어야 한다.  
    
  번역같은 경우 // 영어문장에서 독일어문장으로 **번역해서 출력을 해야한다면, 문장에서 문장으로, 즉 sequence에서 sequence로 input, output**이 된다.  
  ![image.png](attachment:image.png)  
    
  seq에서 seq로 가는 문제를 해결하기 위해 나온 모델이다.  
  how are you? hidden node에 문맥정보가 쌓이고 (encoder), 쌓인 정보를 풀어서 첫번째 단어 (I) 를 예측하고 출력하고, 두번째 단어는 첫번째 단어 I를 입력으로 받고, 앞에서 받은 문맥정보를 합쳐서 두번째 단어 am이 출력되고, 이를 바탕으로 다음 단어를 예측하는 방식

## 12) Attention  
seq2seq에서 번역한 것을 다시 살펴보면,  
abcd를 다른 언어로 번역해서 1234로 번역됐다고 가정했을 때, 1234는 문맥보다는 abcd에 사용된 단어에 영향을 받았을 가능성이 많다.  
  
  ![image.png](attachment:image.png)  
    
  x축에 위치한 특정 국가의 언어는 y축에 위치한 다른 국가의 언어와 대응을 한다.  
  위 그래프처럼, 앞 단어와 뒤 단어가 직접적으로 영향을 받는 것을 attention이라고 한다.  
    
  다음 단어를 예측할 때 앞쪽 문맥정보만 보는 것이 아니라, encoder에 있는 히든 노드로부터 직접적 attention을 조합해서 다음 단어를 만들어낸다.  
  영향을 미칠 때 attention 값(중요도, weight 개념)을 고려해서 영향을 미친다.

## 13) Transformer (self-attention)
  
encoder(a언어)에서 decoder(b언어)로 영향을 미치는 것이 아니라,  
한 문장 안에서도 자기 자신 문장으로부터 attention을 받는다는 것을 바탕으로 구현한 모델.  
  
![image.png](attachment:image.png)  
  
위 그래프의 좌측 그래프를 살펴보면,  
it은 too tired 때문에 앞에 있는 animal을 가리키므로, animal의 영향을 많이 받는다.    
  
  
두번째 문장에서는  
tired가 아니라 wide이므로, street의 영향을 많이 받게 된다.  
즉, encoder내에서 혹은 decoder 내에서 self attention이 있다.

## 14) BERT (Bidirectional Encoder Representations form Transformer)  
  
  ![image.png](attachment:image.png)  
  
transformer에서 나온 모델로, encoder만 사용해서, 양방향 attention을 모두 사용  
GPT는 decoder만으로 구현. 아직 생성하지 않은 decoder는 아직 생성되지 않은 것으로부터 영향을 받을 수 없으므로 한방향