## 텍스트 분류

자연어 처리에서 가장 포괄적이면서 중요한 분야 중 하나로 문장 또는 (문장들로 이루어진) 문서를 입력으로 받아 사전에 정의된 클래스 중에 어디에 속하는지 분류(Classification)하거나 각 데이터를 군집화(Clustering)하는 과정을 말한다. 

텍스트를 입력으로 받아 불연속적인 값으로 출력해야 하는 문제는 대부분이 텍스트 분류 문제에 속한다고 볼 수 있다. 

* 텍스트 분류 응용 분야 
* 감성(감정)분석
* 스팸 메일 탐지
* 사용자 의도 분류
* 주제 분류
* 카테고리 분류 

## 감정분석

오피니언 마이닝이라고도 불리며 감정분석은 문장 또는 지문의 감정을 분석하는 것을 의미하며, 텍스트에 나타난 사람들의 태도, 의견, 성향과 같은 데이터를 분석하는 기법이다.

* 감정분석이 어려운 이유
* 자연어에 담긴 사람의 주관을 파악하기는 어렵다. 
* 비슷해보이는문장이라도작은변화로긍정,부정의견이갈릴수있다. 
* 중의적인 문장의 경우 컴퓨터가 분석하기가 특히 난해하다
* 주변의 상황적인 정보, 문맥에 따른 정보도 파악해야 한다

기존의 감성 분석 연구
- 사전 구축을 통하여 긍정/부정에 대한 가중치를 계산하는 규칙 기반 모델 • 문장에 긍정/부정이 포함되어 있는지 판별하는 모델

최근의 감성 분석 연구
- 딥러닝 모델인 단어 임베딩, CNN, RNN 등을 이용한 감정 분석 모델
 
 


## 텍스트 분류 프로세스 

문제, 데이터, 기술에 따라 프로세스의 변화가 존재할 수 있다. 프로세스를 완전히 일반화 할 수 는 없다. 

* 학습과정
전처리 -> 토큰화 -> 특징 값 추출 -> 학습 -> 모델 

* 분류과정 
전처리 -> 토큰화 -> 특징 값 추출 -> 학습 -> 모델 

---

전처리 과정에서는 오탈자 교정, 띄어쓰기, 불용어 제거 수행    

토큰화 과정에서는 품사 태킹, 개체명 인식, 구분 분석기, n-gram    

특징값 추출 과정에서는 TF-IDF, Information Gain, Mutual information. Chi Squre, GINI index     

학습 과정에서는 SVM, Decision Tree, Naive Bayes, ANN 등 

---

분류과정 특징값 추출  

DictVectorizer
각 단어의 수를 세어 놓은 사전에서 BOW 벡터를 만든다.  

CountVectorizer
문서 집합에서 단어 토큰을 생성하고 각 단어의 수를 세어 BOW 인코딩 한 벡터를 만든다.  

TfidfVectorizer
CountVectorizer와 비슷하지만 TF-IDF 방식으로 단어의 가중치를 조정한 BOW 벡터를 만든다.  
 
HashingVectorizer  
해시 함수(Hash Function)를 사용하여 적은 메모리와 빠른 속도로 BOW 벡터를 만든다.

## 나이브 베이즈(Naive Bayes) 

텍스트 분류를 위해 전통적으로 사용되는 분류기로 나이브 베이즈 분류기가 있다. 나이브 베이즈 분류기는 인공 신경망 알고리즘에는 속하지 않지만, 머신 러닝의 주요 알고리즘으로 분류에 있어 준수한 성능을 보여주는 것으로 알려져있다.

MAP 기반으로 동작한다. 사후확률을 바로 구하기 어렵기 때문에 가능도와 사전 확률의 곱을 통해 클래스 y를 예측한다. 

n개의 단어 𝒘𝟏,𝒘𝟐,⋯,𝒘𝒏가 주어졌을때, 문장이 c 클래스에 속할 확률값 𝑷(𝒚 = 𝒄|𝒙 = 𝒘𝟏,𝒘𝟐,⋯,𝒘𝒏)


만약 x가 복잡한 특징으로 이루어져 있다면 사후 확률 뿐만 아니라 가능도를 구하는 것도 어려울 것이다. 
**일반적으로 문장에서 확률은 코퍼스 출현빈도를 통해 추정** ,특징이 복잡할수록(문장이 복잡하거나 길어질수록) 가능도 도는 사후 확 률을 만족하는 경우가 매우 드물 것이다. 그렇다고 해서 코퍼스에 없는 특징의 조합이라는 이유로 확률값을 0으로 추 정하는 것도 지나친 가정이 된다. 

위의 경우 나이즈 베이즈를 적용하여 각 특징이 모두 독립적이라고 가정, 각 특징의 결합 확률을 각 독립된 확률의 곱으로 근사할 수 있다. 

$P (y = C|X = W_1, W_2,....,W_n) ∝ P(X = W_1 ...., W_n | y = c) P(y =C) ≈ P(w_1|c)...P(W_n|c)P(c)$ 

$ =  \frac{}{}\sum\limits_{i=1}^{n} P(W_n|c)P(c)$ 

MAP을 활용한 클래스는 다음과 같은 사후 확률을 최대화하는 클래스가 됨
나이브 베이즈의 가정에 따라 각 특징들의 확률의 곱에 사전 확률을 곱한 값을 최대 화하는 클래스와 같을 것




사용되는 사전 확률은 실제 데이터(코퍼스)에서 출현한 빈도를 통해 추정 

$P(y =c) =  \frac{}{}\sum\limits_{i=1}^{|c|} Count(c_i)/ Count(c_i) $ 

특징 별 가능도 확률도 데이터에서 바로 구할 수 있다. 

$P(W|c) = \frac{}{}\sum\limits_{j=1}^{|V|} Count(W_j , c) / Count(W,c) $

### 베이즈 정리 
확률변수의 조건부 확률분포와 주변부 확률분포를 연관 짓는 확률이론  
어떤 사건이 서로 배반하는 원인 둘에 의해 일어난다고 할 때, 실제 사건이 일어났을 때 이것이 두 원인 중 하나일 확률을 구하는 정리

P(A)가 A가 일어날 확률, P(B)가 B가 일어날 확률, P(B|A)가 A가 일어나고나서 B가 일어날 확률, P(A|B)가 B가 일어나고나서 A가 일어날 확률 이 때 P(B|A)를 쉽게 구할 수 있는 상황이라면, 아래와 같은 식을 통해 P(A|B) 또한 구할 수 있다.



### 어떤 원인에서 어떤 결과가 일어날 가능성이 더 높을 수록 ,그 결과가 나타났을 때 그것이 원인일 가능성이 더 높다



#### 역확률(Inverse Probability) 문제 해결
조건부 확률 P(B|A)를 알고 있을 때, 전제와 관심 사건의 관계가 정반대인 조건부 확률 P(A|B) 을 구하는 방법

- 예시 : 병 A를 앓고 있는지 판정하는 양성판정 정확도가 90%인 검사기가 있고 • 어떤 사람이 이 검사기로 검사를 시행해서 양성 판정이 나왔다면 이사람은90%의 확률로 병에 걸려있다고이야기할수있을까?

원래대로라면 검사의 정확도만을 가지고 우리의 관심사인 '(양성인 사람이) 병을 앓고 있을 확 률'을 알 수 없음 , 그러나 검사대상인 질병의 유병률을 알고있다면,베이즈정리를 통해 역확률 계산가능
 
전세계인구중1%가병A를앓는다고알려져있다고가정 , 음성판정 정확도(병 A가 걸리지 않은 사람이 실제로 테스트 결과 음성으로 나올 확률) 도 양성판정 정확도와 마찬가지로 90%라고 가정
- 검사 결과가 양성으로 나온 사람이 실제로 병 A를 앓고 있을 확률은 약 8.3%




![%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202022-05-13%20%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE%208.18..png](attachment:%E1%84%89%E1%85%B3%E1%84%8F%E1%85%B3%E1%84%85%E1%85%B5%E1%86%AB%E1%84%89%E1%85%A3%E1%86%BA%202022-05-13%20%E1%84%8B%E1%85%A9%E1%84%92%E1%85%AE%208.18..png)

## MAP, Maximum a Posterior (사후 확률 최대화)

최대 우도 추정은 현재 가지고 있는 데이터셋이 나올 확률을 최대화하는 우도(Likelihood) c 를 구하는 것


$P(c/D) = P(D/c) P(c) / P(D)  = \frac{}{}\sum\limits_{i=1}^{|c|} P(D/c_i P(c_i)  /  P(D/c) P(c) $


* P(c/D) 사후확률
* P(D/c) 가능도(우도)
* P(c) 사전확률
* P(D) 증거 


** 사후확률을 최대화 하는 클래스 c를 구하는 방법을 사후확률 최대화** 

$ ^cMAP = argmax P(C = c|D) $

D(데이터)가 주어졌을 때 가능한 클래스의 집합 c중에서 사후 확률을 최대로 하는 클래스 D를 선택




## MLE, Maximum Likelihood Estimation (최대 우도(가능성) 추정) 

$ ^cMLE = argmax P(c|D = c) $

데이터 D가 나타날 가능도를 최대로 하는 클래스 D를 선택하는 것 

MLE는 주어진 데이터 D와 클래스 레이블 c가 있을 때, 확률 분포를 근사하기 위한 함수 파라미터 θ를 훈련하는 방법으로도 사용된다. 

$ θ̂ = argmax 𝑷(𝑪|𝑫, 𝜽)$ 

#### MAP는 사전 확률이 이미 반영되어 있기 때문에 경우에 따라 MLE보다 더 정확할 수 있다.