# 01 자연어 처리 (Natural Language Processing, NLP)

## 자연어 처리의 단계
- 전처리
  - 개행문자 제거
  - 특수문자 제거
  - 공백 제거
  - 중복 표현 제거 (ㅋㅋㅋㅋㅋ, ㅠㅠㅠㅠ, ...)
  - 이메일, 링크 제거
  - 제목 제거
  - 불용어(의미가 없는 용어) 제거
  - 조사 제거
  - 띄어쓰기, 문장분리 보정
  - 사전 구축

- Tokenizing
- Lexical analysis
- Syntactic analysis
- Semantic analysis

- 전처리

- Tokenizing
  - 자연어를 어떤 단위로 살펴볼 것인가
  - 어절 tokenizing
  - 형태소 tokenizing
  - n-gram tokenizing
  - WordPiece tokenizing

- Lexical analysis
  - 어휘 분석
  - 형태소 분석
  - 개체명 인식
  - 상호 참조

- Syntactic analysis
  - 구문 분석

- Semantic analysis
  - 의미 분석

## 다양한 자연어 처리 Applications
- 문서 분류
- 문법, 오타 교정
- 정보 추출
- 음성 인식결과 보정
- 음성 합성 텍스트 보정
- 정보 검색
- 요약문 생성
- 기계 번역
- 질의 응답
- 기계 독해
- 챗봇
- 형태소 분석
- 개체명 분석
- 구문 분석
- 감성 분석
- 관계 추출
- 의도 파악

- Saltlux가 adams.ai라는 사이트에 자연어 처리 application 들을 오픈 API로 제공하고 있다.

- 형태소 분석, 문서 분류, 개체명 인식 등, 대부분의 자연어 처리 문제는 '분류'의 문제

## 특징 추출과 분류

- '분류'를 위해선 데이터를 수학적으로 표현
- 먼저, **분류 대상의 특징(Feature)을 파악(Feature extraction)**
- 분류 대상의 특징(Feature)을 기준으로, 분류 대상을 **그래프 위에 표현** 가능
- 분류 대상들의 경계를 수학적으로 나눌 수 있음(Classification)
- 새로운 데이터 역시 특징을 기준으로 그래프에 표현하면, 어떤 그룹과 유사한지 파악 가능



- 과거에는 사람이 직접 특징(Feature)을 파악해서 분류
- 실제 복잡한 문제들(ex. 자연어)에선 분류 대상의 특징을 사람이 파악하기 어려울 수 있음
- 이러한 특징을 컴퓨터가 스스로 찾고(Feature extraction), 스스로 분류(Classification)하는 것이 '기계학습'의 핵심 기술

## Word embedding - Word2Vec

- 자연어를 어떻게 좌표평면 위에 표현할 수 있을까?
- 가장 단순한 표현 방법은 one-hot encoding 방식 -> Sparse representation
  - n개의 단어는 n차원의 벡터로 표현
  - But, 단어 벡터가 sparse해서 단어가 가지는 **'의미'**를 벡터 공간에 표현 불가능


- 그래서 **Word2Vec 라는 알고리즘이 발명**됨
- **Word2Vec(word to vector) 알고리즘** : 자연어(특히, 단어)의 의미를 벡터 공간에 임베딩
- **한 단어의 주변 단어들을 통해, 그 단어의 의미를 파악(주변 단어를 통해 그 단어의 의미를 임베딩 한다)**
  - 컴퓨터가 볼 때, 자연어는 우리가 보는 아랍어처럼 **'기호'**로만 보일 뿐!
  - 하지만 아랍어 주변의 단어가 비슷하다면, 그 두 아랍어가 무슨 뜻인지는 모르겠지만, 주변 단어 형태가 비슷하니 **의미**도 비슷할 것이다!

- Word2vec은 간단한 신경망 구조로 이루어져 있음
- Word2vec 알고리즘은 주변부의 단어를 예측하는 방식으로 학습(Skip-gram 방식)
- 단어에 대한 dense vector를 얻을 수 있음
- Word2vec를 이용해서 단어의 의미가 벡터로 표현됨으로써 벡터 연산이 가능 

****

**< Word embedding의 방법론에 따른 특징 >**
1. Sparse representation
  - **One-hot encoding**
  - n개의 단어에 대한 n차원의 벡터
  - 단어가 커질수록 무한대 차원의 벡터가 생성
  - 주로 신경망의 입력단에 사용(신경망이 임베딩 과정을 대체. e.g. tf.layers.Embedding)
  - **의미 유추 불가능**
  - **차원의 저주(curse of dimensionality)**: 차원이 무한대로 커지면 정보 추출이 어려워짐
  - One-hot vector의 차원 축소를 통해 특징을 분류하고자 하는 접근도 있음 


2. Dense representation
  - **Word embedding**
  - **단어 vector를 한정된 차원으로 표현 가능**
  - **의미 관계 유추 가능**
  - 비지도 학습으로 단어의 의미 학습 가능




### Word embedding 성능 검증 방법

https://github.com/dongjun-Lee/kor2vec,
https://github.com/SungjoonPark/KoreanWordVectors



1. similarity(유사도) 계산
  - WordSim353
    - 영어권에서 만들어진 데이터
    - 13-16명의 사람이 annotate한 두 단어의 유사도
    - 두 단어 벡터의 cosine similarity를 구한 후 정답과 Spearman's rank-order correlation값을 획득
    - 경험상 0.7 이상의 값이 나오면 embedding이 잘 수행 됐음





2. Analogy test
  - 덧셈, 뺄셈을 이용해서 임베딩 공간을 확인하는 것
  a. Semantic analogy
    - 의미 관계를 파악하고자 테스트를 진행함
    - 대한민국 - 서울 + 도쿄    = 일본
  b. Syntactic analogy
    - 문법적인 구조도 임베딩이 됐는지 확인하는 것에 많이 사용
    - 밥 - 밥을 + 물을 = 물





## Word embedding - Word2Vec 실습

In [None]:
# gensim 라이브러리 인스톨 먼저 하기

from gensim.models.word2vec import Word2Vec
import gensim

path = 'train_corpus.txt'
sentence = gensim.models.word2vec.Text8Corpus(path)

model = Word2vec(sentence, min_count=5, size=100, window=5)
model.save('w2v_model')

save_model = Word2Vec.load('w2v_model')

word_vector = saved_model['강아지']

saved_model.similarity('강아지', '멍멍이')

saved_model.similar_by_word('강아지')

## Word2Vec 정리
- 단어가 가지는 의미 자체를 다차원 공간에 '벡터화'하는 것
- 중심 단어의 주변 단어들을 이용해 중심단어를 추론하는 방식으로 학습

- 장점 
  - 단어간의 **유사도 측정**에 용이
  - 단어간의 **관계 파악**에 용이
  - 벡터 연산을 통한 **추론**이 가능 (e.g. 한국 - 서울 + 도쿄 =?)


- 단점
  - 단어의 **subword information** 무시 (e.g. **서울** vs **서울**시 vs 고양시)
    - '서울'이나, '서울시'나 **서울**이라는 subword가 일치하고, '서울시'와 '고양시'도 **시**라는 subword가 일치할 때, 사람은 단어에 있는 subword를 보고 의미파악을 할 수 있음. 하지만, **word2vec는 학습을 할 때 이것을 독립되어 있는 단어로 보기 때문에**, 서울시와 고양시가 유사한 의미를 가질 수 있도록 학습이 불가능 함.

  - 그래서, Out of vocabulary (**OOV**)에서 적용 **불가능**
    - 학습에 사용되지 않은 단어가 들어오게 되면 그 단어에 대해서는 vector 공간을 추론할 수 없음

## Word embedding - FastText

- 한국어는 다양한 용언 형태를 가짐
- Word2Vec의 경우, 다양한 용언 표현들이 서로 독립된 vocab으로 관리
  - 예) 동사 원형 : **모르**다
  - **모르**네, **모르**데, **모르**지, **모르**더라, **모르**겠으나, **몰라**, **몰랐**겠구나
  - 이렇게 용언이나, subword를 사용해서 임베딩 하면 더 좋은 임베딩이 이루어 지지 않을까? 해서 나온 것이 Fasttext


### Fasttext
- Facebook research에서 공개한 open source library (https://research.fb.com/fasttext/, fasttext.cc)
- C++11
- **gensim에 있어서** 가져다가 쓸 수 있음
- **단어를 *n*-gram으로 분리를 한 후, 모든 n-gram vector를 합산한 후 평균을 통해 단어 벡터를 획득**
- **오탈자 입력**에 대해서도 **본래 단어와 유사한 *n*-gram이 많아, 유사한 단어 벡터를 획득** 가능



딥러닝에서 가장 큰 한계점은 OOV 문제가 많다는 것(학습에 사용되지 않은 입력이 들어왔을 때 정보처리가 불가능 하다)  

하지만, Fasttext를 사용하면 OOV에 대해서도 어느정도 정보처리가 가능하기 때문에 많이 사용되고 있음
****

- **Training**
  - 기존의 word2vec과 유사하나, 단어를 **n-gram**으로 나누어 학습을 수행
  - ***n-gram***의 범위가 **2-5**일 때, 단어를 다음과 같이 분리하여 학습함  
  "**assumption**" = (as, ss, su, ......, ass, ssu, ump, mpt, ......, ption, **assumption**)
  - 이 때, *n-gram*으로 나눠진 단어는 사전에 들어가지 않으며, 별도의 *n-gram vector*를 형성함


- **Testing**
  - 입력 단어가 vocabulary에 있을 경우, word2vec과 마찬가지로 해당 단어의 word vector를 return함
  - 만약 OOV일 경우, 입력 단어의 n-gram vector들의 합산을 return함

## FastText와 Word2Vec의 비교
- 오탈자, OOV, 등장 회수가 적은 학습 단어에 대해서 강세
(https://link.springer.com/chapter/10.1007/978-3-030-12385-7_3)

- Document frequency(DF)가 낮을 경우, word2vec은 유의미한 단어를 찾을 수 없음
- **Fasttext**의 경우, **subword information**이 유사한 단어를 찾았음

## Word embedding - FastText 실습

In [None]:
# gensim 라이브러리 install 먼저 하기

from gensim.models.word2vec import FastText
import gensim

path = 'train_corpus.txt'
sentence = gensim.models.word2vec.Text8Corpus(path)

model = FastText(sentence, min_count=5, size=100, window=5)
model.save('ft_model')

save_model = FastText.load('ft_model')

word_vector = saved_model['강아지']

saved_model.similarity('강아지', '멍멍이')

saved_model.similar_by_word('강아지') # similar_by_word를 통해 OOV 입력을 넣어도 gensim의 fasttext는 어떤 출력을 만들어 낼 수 있음

## Word embedding의 활용

- 다른 자연어처리 모델의 입력으로 사용  
(e.g. 학습 데이터의 양이 매우 적은 감성분석을 수행할 경우, 학습 데이터만으로는 특성 추출 불가능)
  - 보통은 이 word embedding이 다른 자연어 처리의 가장 밑단에 사용이 된다. 딥러닝 네트워크가 됐든 어떤 기계학습 모델이 됐든, 어떤 feature을 input으로 넣어야지 분류를 해줄 것임. 그런데 이 feature을 word embedding을 이용해서 word2vector로 vector 공간을 feature로 사용하는 것
- 토픽 키워드(https://www.adams.ai/apiPage?deeptopicrank)

## Word embedding 방식의 한계점

- Word2Vec이나 FastText와 같은 word embedding 방식은 **동형어, 다의어 등에 대해선 embedding 성능이 좋지 못하다는 단점**이 있음
- 주변 단어를 통해 학습이 이루어지기 때문에, **'문맥'을 고려할 수 없음**