# 한국어 임베딩 
* 저자 깃허브
* https://github.com/ratsgo/embedding

## 참고자료
* C:\Users\lenovo\Documents\aibootcamp\Natural Language Processing\NLP.pdf

# 자연어처리(Natural Language Processing, NLP)
## 자연어처리란?
* 자연어(natural language)란 일상생활 속에서 사용하는 언어를 말한다.
* 자연어 처리는 음성인식, 내용요약, 번역, 사용자의 감정분석, 텍스트 분류 작업(스팸메일분류, 뉴스기사 카테고리 분류 등), 질의응답 시스템, 챗봇과 같은 곳에서 사용되는 연구 분야

## 다양한 자연어처리 영역
*  Machine Translation
    - 한국어를 영어로, 또는 영어를 한국어로 번역하는 등 하나의 언어를 다른 언어로 번역하는 문제 영역
    - https://nlp.stanford.edu/pubs/luong-manning-iwslt15.pdf <br>
    ![image.png](attachment:image.png)
* Sentiment Analysis
    - 문장의 감정상태를 분석해서 긍정 혹은 부정 또는 N개의 다른 감정상태를 분류하는 문제 영역
    - http://unicornnlp.com/?why-sentiment-analysis-is-not-good-enough-to-move-towards-a-new-level-ofunderstanding
* Spam Filtering
    - 텍스트가 스팸인지 아닌지 분류하는 문제 영역
    - https://www.enigmasoftware.com/how-to-identify-harmful-spam-emails/
* Image Captioning
*  Text Summarization
    - 텍스트에 대한 요약문을 자동으로 만들어내는 문제 영역
    - https://arxiv.org/pdf/1705.04304.pdf
* Question Answering
    - 질문에 대한 정답 텍스트를 찾아내는 문제영역
    - http://ai.stanford.edu/blog/beyond-local-pattern-matching/
* Dialogue Generation
    - 봇이 자동으로 텍스트를 생성해내는 문제영역


![](attachment:image.png)
![image-2.png](attachment:image-2.png)
![image-3.png](attachment:image-3.png)

## 자연어 처리 용어 소개
* 코퍼스(Corpus, collection of texts)
    * 말뭉치라는 뜻으로, 자연어처리를 위해 모아놓은 텍스트 묶음을 의미
    * 소설, 뉴스기사, 위키피디아 등에서 수집한 텍스트 등
* 토큰(Token)
    * 전체 문자열을 분석하고자하는 단위로 나눈 것을 의미
    * 토큰은 상황에 따라 문장 단위가 될 수도 있고 단어 단위가 될 수도 있고 형태소 단위가 될 수도 있습니다.
* 어휘 집합(Vocabulary Set)
    * 처리하는 문제영역의 전체 단어 집합을 의미
    * 어휘 집합에 포함되지 않은 단어는 \<UNK>라는 특수 토큰으로 처리(Unknown의 약자)
    * 보통은 충분히 큰 개수의 어휘집합을 사용

##

## 데이터 전처리 순서
1. 토큰화(Tokenization)
    * 문자열에서 단어로 분리시키는 단계
2. 불용어 제거(Stop word elimination)
    * 전치사, 관사 등 너무 많이 등장하는 단어 등 문장이나 문서의 특징을 표현하는데 불필요한 단어를 삭제하는 단계
3. 어간 추출(Stemming)
    * 단어의 기본 형태를 추출하는 단계
4. 문서 표현(Representation)
    * 주어진 문서나 문장을 하나의 벡터로 표현하는 단계
    * 단어들을 모두 인덱싱(indexing)하고 주어진 문서에 존재하는 단어의 빈도수를 사용하여 문서를 표현

## 자연어 처리를 위한 파이썬 라이브러리
KoNLPy 를 쓰면 이제 파이썬으로도 형태소 분석을 하거나 워드 클라우드를 그릴 수 있다. <br>
파이썬의 유명한 자연어 처리 패키지 NLTK를 활용하면 문서 안의 내용을 빠르게 탐색하거나 요약할 수 있고,  <br>
토픽 모델링을 지원하는 패키지 Gensim을 사용하면 여러 문장이나 문서에 내재되어있는 규칙, 또는 토픽들을 찾아낼 수 있다. 

## 1.1 임베딩이란
## 1.2 임베딩의 역할
### 1.2.1 단어/문장 간 관련도 계산
### 1.2.2 의미/문법 정보 함축
* 임베딩은 벡터인만큼 사칙연산이 가능
* 단어 벡터간 덧셈/뺄셈을 통해 단어들 사이의 의미적, 문법적 관계를 도출할 수 있음. 

## 1.2 임베딩의 역할 (3)전이 학습
* 전이학습(transfer learning)
    * 임베딩을 다른 딥러닝 모델의 입력값으로 쓰는 기법
* how?
    * 대규모 말뭉치를 활용해 임베딩을 미리 만들어 놓음
    * 임베딩에는 의미적, 문법적 정보 등이 녹아있음
    * pretrain/fine tuning
* 임베딩이 중요한 이유
    * 임베딩의 품질이 좋으면, 수행하려는 task의 성능이 올라감

## 1.3 임베딩 기법의 역사와 종류
* 임베딩 기법의 역사
    * 통계기반 > 뉴럴 네트워크 기반
    * 단어 수준 > 문장 수준
    * 룰 > 앤드투앤드 > 프리트레인/파인튜닝
* 임베딩의 종류와 성능
### 1.3.1 통계기반 > 뉴럴 네트워크 기반
* 초기 임베딩 기법은 대부분 말뭉치의 통계량을 직접적으로 활용하는 경향
    * 잠재 의미 분석(latent Semantic Analysis, LSA)
    * 단어 사용빈도 등 말뭉치의 통계량 정보가 들어있는 커다란 행렬에 특이값 분해 등 수학적 기법을 적용해 행렬에 속한 벡터들의 차원을 축소하는 방법
* 최근에는 뉴럴 네트워크 기반의 임베딩 기법들이 주목받고 있음
    * 이전 단어들이 주어졌을 때 다음 단어가 뭐가 될지 예측하거나, 문장 내 일부분에 구멍을 뚫어놓고 무엇이 들어가야하는지 학습시킨다. 
### 1.3.2 단어수준 > 문장수준
* 단어 수준 임베딩(NPLM, Word2Vec, GloVe, FatText, ...)
    * 각각의 벡터에 해당 단어의 문맥적 의미를 함축
    * 단점: 동음이의어를 분간하기 어려움
* 문장 수준의 임베딩()
### 1.3.2 룰 > 엔드투엔드 > 프리트레인/파인튜닝
* 2018년 이후 : pretrain과 fine tuning 방식으로 발전(ELMo 이후)
    * pretrain: 우선 대규모 말뭉치로 임베딩을 만듦
    * fine tuning: 임베딩을 입력으로 하는 새로운 딥러닝 모델을 만들고 우리가 풀고싶은 구체적 문제에 마는 소규모 데이터에 맞게 임베딩을 포함한 모델 전체를 업데이트함
    * Downstream task: 우리가 풀고싶은 자연어 처리의 구체적 문제들
### 1.3.4 임베딩의 종류와 성능
* 행렬분해
* 예측
* 토픽 기반
* 임베딩 성능 평가
    * 다운스트림 태스크에 대한 임베딩
* 임베딩 품질이 각종 다운스트림 태스크 성능에 크게 영향을 주고 있음. 
### 1.5 이 책에서 다루는 데이터와 주요 용어 


##### 자연어처리 프로그램 예시
* 손글씨 폰트 만들기
* 네이버 카테고리 분류 오류수정하기
* speech to text (google api)
* 와인 추천 시스템
##### 이미지 인식 프로그램 예시
* 편의점 재고관리 > 유통기한 이미지 인식(RoI)하여 엑셀정리