# 자연어처리(Natural Language Processing, NLP)

### 자연어 처리란?
- 자연어 : 일상 생활 속에서 사용하는 언어
- 자연어를 분석하여 컴퓨터가 처리할 수 있도록 하는 일
- 음성 인식, 내용 요약, 번역, 사용자 감정 분석, 텍스트 분류 작업, 질의 응답 시스템, 챗봇
- 기계에게 인간의 언어를 이해시킨다는 점에서 인공지능에 있어서 가장 중요한 연구 분야

### NLP의 사용 영역
######  Machine Translation
- 한국어를 영어로, 또는 영어를 한국어로 번역하는 등 하나의 언어를 다른 언어로 번역하는 문제 영역
![image.png](attachment:image.png)
###### Sentiment Analysis
- 문장의 감정상태를 분석해서 긍정 혹은 부정 또는 N개의 다른 감정 상태를 분류하는 문제 영역
###### Spam Filtering
- 텍스트가 스팸인지 아닌지를 분류하는 문제 영역
###### Image Captioning
###### Text Summarization
- 텍스트에 대한 요약문을 자동으로 만들어내는 문제 영역
###### Question Answering
- 질문에 대한 정답 텍스트를 찾아내는 문제 영역
###### Dialogue Generation
- 봇이 자동으로 텍스트를 생성해내는 문제 영역

### NLP의 사용 영역 - AI 기술의 응용 분야
###### Chatbot
자동으로 고객 상담을 진행하는 챗봇 등
###### Translation
자동 번역 등
###### Sentiment Analysis
고객의 리뷰 텍스트 등을 통해서 감정 분석 등
###### Recommendation System
고객의 텍스트 로그를 토대로 고객에게 최적화된 품목 추천

### NLP 트렌드
![image-2.png](attachment:image-2.png)
- 전통적으로 확률 통계 기법에 기반한 알고리즘을 사용함
- 확률 통계 기법의 한계점으로 인해 최근에는 딥러닝 기번에 기반한 자연어 처리 기법이 일반적인 트렌드
- 대규모 컴퓨팅 리소스를 사용한 딥러닝 모델로 진화함
- 대규모(BERT, GPT)Pre-trained 모델에 대한 Pre-Training된 파라미터는 이용한 Transfer Learning(Fine-tuning)이 주를 이룬다

### NLP 용어
###### 코퍼스(Corpus, collection of texts)
- 말뭉치, 자연어처리를 위해 모아놓은 텍스트 묶음
- 소설, 뉴스 기사 등에서 수집한 텍스트
###### 토큰(Token)
- 전체 문자열을 분석하고자 하는 단위로 나눈 것
- 상황에 따라 문장 단위로 될 수 있고, 단어 단위가 될 수도 있고, 형태소 단위가 될 수도 있음
###### 어휘 집합(Vocabulary Set)
- 처리하는 문제영역의 전체 단어 집합
- 어휘 집합에 포함되지 않은 단어는 < UNK > 라는 특수 토큰으로 처리
- 보통 충분히 큰 개수의 어휘집합 사용

### 데이터 전처리 순서
###### 1. 토큰화 (Tokenization)
문자열에서 단어로 분리시키는 단계
###### 2. 불용어 제거(Stop word elimination)
전치사, 관사 등이 너무 많이 등장하는 단어 등 문장이나 문서의 특징을 표현하는데 불필요한 단어를 삭제하는 단계
###### 3. 어간 추출(Stemming)
단어의 기본 형태를 추출하는 단계
###### 4. 문서 표현(Representation)
주어진 문서나 문장을 하나의 벡터로 표현하는 단계<br>
단어들을 모두 인덱싱(indexing)하고 주어진 무넛에 존재하는 단어의 빈도수를 사용하여 문서 표현

### 자연어 처리를 위한 파이썬 라이브러리
###### KoNLPy
- 파이썬으로 형태소 분석을 하거나 워드 클라우드를 그릴 수 있음
- 한국어 자연어 처리를 ㅜ이한 대표적인 파이썬 라이브러리
- Twitter, Komoran, Mecab 등 다양한 형태소 분석기를 내장함
###### NLTK
- 영어로된 텍스트이 자연어처리를 위한 대표적인 파이썬 라이브러리
- 문서 안의 내용을 빠르게 탐색하거나 요약할 수 있음
    - 말뭉치 분석, 품사 태깅, 형태소 분석
###### Gensim
- 주로 Topic modeling, Corpus,Word Embedding 모델 지원
- 한국어 및 다양한 언어를 지원
- 여러 문장이나 문서에 내재되어 있는 규칙, 또는 토픽들을 찾아낼 수 있음

### 단어(word)와 문장의 숫자 표현
단어 문장을 컴퓨터가 이해할 수 있는 숫자(vector)로 변환<br>
- Bow
- TF-IDF
- Word Embedding

###### Bow
- 모든 문장을 토큰화하고 각 문장에 토큰이 몇 번 등장하는지 count
- 각 토큰을 feature화 ==> Text Vectorization
![image.png](attachment:image.png)
- 문서를 숫자 벡터로 변환하는 가장 기본적인 방법
- min_df : 정수 또는 [0.0,1.0] 사이의 실수, 디폴트 : 1
    - 단어장에 포함되기 위한 최소 빈도
###### Scikit-Learn의 문서 전처리 기능
- DictVextorizer
    - 각 단어의 수를 세어놓은 사전에서 Bow 벡털르 만듬
- CountVectorizer
    - 문서 집합에서 단어 토큰을 생성하고 각 단어의 수를 세어 Bow 인코딩한 벡터를 만듬
- TfidfVectorizer
    - CounterVectorizer와 비슷하지만 TF-IDF 방식으로 단어의 가중치를 조정한 Bow 벡터를 만듬
- HashingVectorizer
    -  해시 함수(hash function)을 사용하여 적은 메모리와 빠른 속도로  Bow 벡터를 만듬
- 단어들 간의 순서를 유지할 수 없는 문제는 n-gram으로 일부 해결됨
- 문제점 : feature 개수가 기하급수적으로 증가
###### TF-IDF(Term Frequency-Inverse Document Frequency)
- TF(단어 빈도, term frequency) : 특정한 단어가 문서 내에 얼마나 자주 등장하는지 나타내는 값
- DF(문서 빈도, document frequency) : 단어 자체가 전체 문저 집단 내에서 사용되는 빈도
- IDF(역문서 빈도, inverse document frequency) : DF의 역수
- TF-IDF = TF * IDF
    - low TF-IDF : 전체 문서에서 공통으로 사용됨
    - high TF-IDF : 모든 문서가 아닌, 특정 문서에서 자주 사용되는 단어임