# NLP
- 자연어 처리: 컴퓨터가 인간의 언어를 이해하고, 생성하며 활용하는 기술

### 01.NLP 기술 적용분야

1. 자연어 이해
    * 감성분석 Sentiment Analysis (이 리뷰가 긍정인가 부정인가)
    * 주제분류 Topic Modeling (이 뉴스의 내용을 정치/스포츠/과학 등으로 분류)
    * 형태소 분석
    * 개체명인식 Named Entity Recognition 사람이름/지역 이름 등을 구분
    * 철자법 교정 Spelling correction
    * 스팸 탐지 Spam Detection

2. 자연어 생성
    * 문장 생성 Text Generation
    * 번역 Text Translation
    * 대화 Chatbot
    * 요약 Text Summarization
    * 이미지/비디오 설명 Image/Video Captioning

### 02.발전단계

#### NLP에 대한 접근 방법 (Language Modeling)
| **구분**            | **기존 방식 (Data-Driven Approach)**                                                  | **최근 방식 (Neural Network)**                                                                                 |
|---------------------|-------------------------------------------------------------------------------------|-----------------------------------------------------------------------------------------------------------------|
| **주요 특징**       | 2010년대 이전 전통적 방식<br>언어 전문가에 의한 고품질 sample data 확보가 중요          | Deep Learning 이용<br>Word Embedding 기반 전체 입력 문장 단위 처리<br>어순, 단어의 의미, 문맥 파악을 스스로 학습 |
| **접근 방식**       | 규칙기반 (Rule-Based): 언어학 기반의 rule-based program                                | 언어 전문가 불필요                                                                                            |
| **기술 요소**       | 통계기반 (Statistical Machine Translation):<br>말뭉치(Corpus) 기반 통계 모델 및 전통적 ML 적용 | Word Embedding<br>Bidirectional Recurrent Neural Network<br>Encoder-decoder (seq2seq) model<br>Attention model<br>Transformer model<br>BERT/GPT-3 등 |



##### 해결된 / 대부분 해결된 / 좋은 성과를 내는 NLP분야

<table border="1">
  <tr>
    <th>Resolved</th>
    <th>Mostly Resolved</th>
    <th>Making Good Progress</th>
  </tr>
  <tr>
    <td>스팸분류, 품사결정, 개체명 인식, 기본 문서 생성, 간단한 질의 응답</td>
    <td>감성분석, 구문분석, 기계번역, 정보추출, 요약, 이미지-텍스트 통합</td>
    <td>복잡한 질의응답, 의역, 대화, 비디오-텍스트 통합, 다중모달 감성 분석, 창의적 문서 생성</td>
  </tr>
  <tr>
    <td align="center" colspan="2"><strong>전통적 기법<strong> 규칙기반, 통계기반, 전통적 ML기반</td>
    <td align="center">-</td>
  </tr>
  <tr>
    <td  align="center" colspan="3"><strong>딥러닝 기법</strong> 최근 NLP 기술</td>
  </tr>
</table>


**대부분의 자연어 처리 문제는 "분류" 문제이다.**



### 03.용어

**말뭉치 Corpus (collection of texts)**
- 자연어 처리에서 분석하거나 학습에 사용하는 텍스트 데이터의 모음이다.
- 특정 주제의 뉴스 기사 모음, 소셜 미디어 게시글 모음, 법률 문서 등.
- 일반적으로 특정 도메인에 따라 구성되며, 크고 다양한 데이터를 포함하는 것이 이상적이다.
- 예전에는 품사, 형태소 등의 보조적 의미를 추가하여 구조적인 형태로 정리해 놓은 것 포함했었다.

**토큰 Token**
- 자연어 문서를 분석하기 위해 긴 문자열을 작은 단위로 나눈 것.
- 텍스트를 분석하기 위해 나누는 기본 단위로, 일반적으로 단어, 문자, 구두점 등이 포함될 수 있다.
- 문장 "I love NLP!"의 토큰은 ["I", "love", "NLP", "!"]로 나눌 수 있다.
- Tokenize: 문자열을 여러 개의 조각, 즉 여러 개의 Token(토큰, 단어)들로 쪼개는 것을 말한다.
- 특수 token: `<START>`, `<EOS>`, `<UNK>`, `<PAD>`, etc

**문장 Sentence**
- 자연어 텍스트에서 문장부호나 문법적 단위에 따라 나눠지는 문맥의 단위이다. (Sequence of words)
- "NLP is fascinating. I enjoy learning it."는 두 개의 문장으로 나뉜다.
- 문장 분리(Sentence Segmentation)는 일반적으로 구두점을 기준으로 하지만, 특정 언어에서 더 복잡할 수 있다.

**단어 Words**
- 문장에서 의미를 가지는 최소 단위이다.(Sequence of meaningful characters)
- "I love NLP."의 단어는 ["I", "love", "NLP"]이다.
- 띄어쓰기나 언어 규칙에 따라 나뉜다.
    - 영어의 경우 공백이나 구두점(,;) 으로 구분할 수 있다.   
    - 일부 언어(중국어, 일본어 등)는 띄어쓰기가 없어 추가 처리가 필요하다
    - 한국어, 일본어의 경우는 보통 공백 없이 문장을 작성해도 단어 단위로 읽을 수 있다. (한국어에 띄어쓰기가 적용되기 시작한것은 1900년대 이후이다.)

**형태소 Morpheme**
- 의미를 가지는 가장 작은 언어 단위로, 단어보다 더 세부적으로 나뉠 수 있다.
- 영어의 "unbreakable"은 [un-, break, -able]로 나뉜다.
    - un-: 접두사(부정 의미)
    - break: 어근
    - -able: 접미사(가능 의미)
- 형태소 분석(Morphological Analysis)을 통해 어근, 접사 등을 파악할 수 있다. 한국어와 같이 형태소가 중요한 언어에서 많이 사용된다. 한글 형태소 분석기나 Sub-word 기법이 사용된다.

**불용어 Stop-words**
- 불용어. 자주 등장하지만 분석을 하는 것에 있어서는 큰 도움이 되지 않는 단어들
- 예를 들면, I, my, me, over, 조사, 접미사 같은 단어들은 문장에서는 자주 등장하지만 실제 의미 분석을 하는데는 거의 기여하는 바가 없다.
- NLTK에서는 위와 같은 100여개 이상의 영어 단어들을 불용어로 패키지 내에서 미리 정의하고 있다.
