# 자연어 처리(NLP) 개요

## **자연어**란

- **자연어(natural language)**:
  - **인간이 일상적으로 사용하는 언어**를 의미한다.
  - 예를 들어 한국어, 영어, 일본어, 중국어와 같이 역사적·사회적 과정을 거쳐 자연스럽게 형성된 언어를 가리킨다.
- **형식 언어(formal language)**:
  - 자연어에 대응되는 개념으로 **사람이 설계한 규칙에 따라 인공적으로 정의된 언어**이다.
  - 프로그래밍 언어(C, Python 등), 수식 언어(논리식, 정규식 등)이 형식언어의 대표적인 예이다.

## **자연어처리**란
자연어 처리(NLP, Natural Language Processing) 란 자연어를 컴퓨터가 이해하고, 분석하고, 생성하도록 만드는 기술과 연구 분야를 의미. 즉 **사람이 쓰는 언어**와 **컴퓨터가 처리 가능한 표현** 사이의 연결 다리 역할을 하는 것이 자연어 처리 분야 이다.

- 인간의 언어로 된 텍스트나 음성을 컴퓨터의 입력으로 받아들일 수 있게 하는 것
- 컴퓨터가 자연어에 담긴 의미, 의도, 감정, 구조를 분석하고 추론하게 하는 것
- 컴퓨터가 자연어로 다시 답변하거나 문서를 생성하게 하는 것

### 자연어 처리의 두 축: 이해와 생성

1. **이해(Understanding)**
    - 문서나 말의 내용을 컴퓨터가 "**이해했다**"고 볼 수 있을 만큼 구조적으로 **표현하는 것**.
    - 예: 주제 파악, 질문 의도 파악, 감정 분석, 의미역 분석, 개체 인식, 번역 등의 분야는 모두 "이해"를 기반으로 하고 있다.
2. **생성(Generation)**
    - 특정 목적이나 제약 조건 아래에서 자연스러운 문장이나 문서를 만들어 내는 것이다.
    - 예: 자동 요약, 자동 번역 결과 생성, 챗봇 답변 생성, 스토리/뉴스 생성, 코드 생성 등은 **생성**에 속한다.

- 최근 딥러닝과 LLM(Large Language Model)의 발전으로, 이해와 생성이 하나의 모델 안에서 통합되어 다뤄지는 경우가 많아지고 있다.


## 자연어 처리의 문제 영역

### 문서 분류와 텍스트 분류

문서 분류(document classification) 또는 텍스트 분류(text classification) 는 텍스트를 미리 정의된 카테고리 중 하나 또는 여러 개로 분류하는 문제다.
- 스팸 메일 필터링: 메일 내용을 보고 '스팸' / '정상'으로 분류한다.
- 뉴스 기사 분류: 정치, 경제, 사회, 문화, 스포츠, IT 등 카테고리로 분류한다.
- 감성 분석(sentiment analysis): 리뷰를 '긍정적', '부정적', '중립' 등의 감정 레이블로 분류한다.

### 정보 검색과 질의응답

- **정보 검색(information retrieval)** 은 대규모 문서 집합에서 사용자의 질의(query)에 가장 관련 있는 문서를 찾아내는 문제다.
  -  웹 검색 엔진(예: 뉴스 검색, 블로그 검색 등)이 대표적인 예이다.

- **질의응답(question answering)** 은 사용자의 질문에 대해 문서나 지식베이스를 바탕으로 정확한 답을 찾아내거나 생성하는 문제다.
  -  FAQ 자동 응답
  -  기업 내 문서에서 답변을 찾아주는 내부 QA 시스템 등이 이에 해당한다.

두 분야 모두 전체 정보에서 원하는 정보를 찾아내는 목적은 동일하나 정보 검색은 **관련 있는 문서를 찾는 것**에 초점이 있고, 질의응답은 **정확한 답을 도출하는 것'에 초점이 있다는 차이가 있다**

### 기계 번역(Machine translation)

- **기계 번역(machine translation)** 은 한 언어로 된 문장을 다른 언어로 자동 변환하는 문제다. 
- 기계 번역은 언어 구조, 문맥, 그 언어 문화에 대한 지식 등 여러 요소를 동시에 고려해야 하므로 자연어 처리에서 난이도가 높은 문제 영역에 속한다.
- 기존에는 규칙 기반, 통계 기반 접근이 주를 이뤘으나, 딥러닝이 사용되면서 비약적으로 성능이 올라갔다. 

### 요약(Summarization)

- 문서 요약(text summarization) 은 긴 문서를 짧은 형태로 요약해 주는 문제다.
  -  뉴스 기사 요약
  -  논문 요약
  -  보고서 핵심 요약
  
### 텍스트 생성(Text generation)
텍스트 생성(text generation) 은 주어진 조건이나 프롬프트에 따라 새로운 문장을 생성하는 문제를 포함한다.
  -  스토리 생성, 시나리오 생성
  -  이메일, 보고서 초안 작성
  -  코드 생성

### 정보 추출과 의미 분석

- **정보 추출(information extraction)** 은 텍스트에서 필요한 **구조적 정보**를 추출 문제다.
  -  개체명 인식(NER, Named Entity Recognition)
     -  개체명 이란 고유한 의미를 가진 명사 또는 명사구를 말한다.
     -  개체명 인식이란 사람 이름, 지명, 기관명, 제품명, 날짜, 금액 등을 찾아내는 문제다.
  -  관계 추출(relation extraction)
     -  'A가 B의 CEO이다' 같은 관계를 추출하는 문제다.
  -  이벤트 추출(event extraction)
     -  '누가, 언제, 어디서, 무엇을 했다'와 같은 사건 정보를 추출하는 문제다.

- **의미 분석(semantic analysis)** 은 문장의 의미를 이해하고 표현하는 문제다.
  - **의미 역할 분석**
    - 문장의 각 구성요소들의 의미적 역할 파악
    - 예: '철수/가 사과/를 먹었다'에서 '철수=행위자(Agent)', '사과=피행위자(Patient)'와 같이 역할을 부여.
  - **어휘의미 분석**(Lexical Semantics)
    - 단어의 의미, 중의성 해소 등 처리
    - 예) 배가 고프다. 배: 탈것, 배: 과일, 배: 신체부위 중 이 문장에서는 어떤 의미로 사용되었는지 분석. 

### 대화 시스템/챗봇

대화 시스템(dialog system) 또는 챗봇(chatbot) 은 사용자와 자연어로 대화를 나누며, 질문에 답하거나 작업을 수행하는 시스템이다.
  -  FAQ 챗봇
  -  쇼핑/예약 도우미
  -  개인 비서형 에이전트
  -  고객 상담 자동화 시스템 등

대화 시스템은 의도 파악(intent detection), 대화 상태 추적(dialog state tracking), 응답 생성(response generation) 등 여러 자연어 처리 문제를 결합해 구성한다.

### 음성 관련 NLP: 음성 인식과 음성 합성
- 자연어 처리는 텍스트뿐 아니라 음성과도 밀접한 관련이 있다.
  -  음성 인식(ASR, Automatic Speech Recognition) / STT(Speech-To-Text) 라고 한다.
     -  사람의 음성을 텍스트로 변환하는 기술이다.
  -  음성 합성(TTS, Text-To-Speech)
     -  텍스트를 자연스러운 음성으로 읽어 주는 기술이다.

음성 인식과 합성 자체는 음성 신호 처리의 비중이 크지만, 인식된 텍스트를 이해하고 적절한 응답을 생성하는 단계는 자연어 처리가 담당한다.


## 자연어 처리의 단계

자연어 처리 시스템은 대개 여러 단계를 거쳐 입력을 처리하고 출력 결과를 만들어 내고 있다. 시스템에 따라 세부 단계와 이름은 조금씩 다르지만, 전형적인 흐름은 다음과 같이 요약할 수 있다.

### 1. 데이터 수집 단계

- 모델을 학습시킬 데이터 확보하는 단계. 
- 이렇게 수집한 자연어데이터 데이터셋을 **말뭉치/Corpus**라고 한다.
- 수집방법
  -  공개 데이터
  -  웹 크롤링을 통한 수집
  -  로그 데이터, 문서 스캔 및 OCR, 데이터베이스에서의 텍스트 추출
  -  음성파일, 통화 녹음, 동영상등의 음성으로부터 추출

###  전처리 단계

이 단계의 목표는 **원시 텍스트를 모델이 다루기 좋은 단위와 형태로 바꾸는 것**이다.
-  텍스트 정제 및 정규화
   -  특수문자, 불필요한 공백, HTML 태그, URL, 이모티콘 등 처리
   -  오타 수정, 띄어쓰기 교정
   -  형태소 분석을 통해 단어를 형태소 단위로 분해하고, 이를 바탕으로 표제어 추출 등을 수행하여 같은 의미의 단어를 통일 (말했다. 말하면, 말하기 -> 말하다)
-  불용어(Stopwords, 분석에 필요없는 용어) 제거, 품사 기반 필터링을 통해 필요없는 단어 제거
-  토큰화(Tokenization)
   -   텍스트를 의미 있는 작은 단위(토큰)로 분해하는 작업 과정

### 표현(표현 학습) 단계

- 전처리와 토큰화를 마친 뒤에는 텍스트(문서)를 그 의미를 나타낼 수있는 숫자(Vector)로 표현해야 한다. 이 단계를 표현 단계(representation) 혹은 임베딩 단계(embedding) 라고 부른다.
-  **통계 기반 표현(전통적 방법)**
   -  Bag-of-Words, TF-IDF, n-gram
-  **분산 표현(distributed representation)**
  -  Word2Vec, GloVe, FastText
-  **딥러닝 기반 언어 모델 표현**
  -  RNN, Transformer 기반 모델(BERT, GPT)을 통한 contextualized word embedding.

이 단계의 목적은 텍스트를 벡터 공간 상의 점(또는 시퀀스)으로 나타내어, 이후 분류, 생성, 추론 모델이 사용할 수 있도록 준비하는 것이다.

### 모델링 및 추론 단계

표현된 입력을 바탕으로 문제를 해결하는 핵심 모델이 동작하는 단계이다. 문제 유형에 따라 사용하는 모델 구조는 다르다.
-  분류 문제
   -  문서 분류, 감성 분석 등에는 머신러닝 분류 모델, 딥러닝 기반 분류기가 사용된다.
-  순차 레이블링 문제
   -  품사 태깅, 개체명 인식, 의미역 분석 등에는 시퀀스 모델(RNN, LSTM, Transformer 등)이 사용된다.
-  생성 문제
   -  번역, 요약, 대화 응답 생성 등에는 인코더–디코더의 Seq2Seq 구조, GPT 계열의 생성 모델 등이 사용된다.
- 딥러닝 기반 모델의 경우 대부분 표현학습 모델과 추론 모델을 하나의 모델로 묶어서 학습시킨다.

### 후처리 및 출력 단계

모델이 출력한 결과를 그대로 사용자에게 보여 주기보다는, 사람이 이해하기 좋은 형태로 정리하는 후처리(postprocessing) 단계가 필요할 수 있다.
-  분류 결과 후처리
   -  확률 값에 임계값을 적용하거나, 레이블 이름을 사람이 읽을 수 있는 형태로 변환한다.
-  추출 결과 후처리
   -  중복 개체 제거, 날짜 형식 통일, 주소 표기 정규화 등을 수행한다.
-  텍스트 생성 결과 후처리
   -  문법 오류나 길이, 금지어 필터링 등을 적용할 수 있다.