# 통계기반 자연어 처리</br><span style='color:#808080'>(Natural Language Processing, NLP)

## NLP의 접근 방식
1. 규칙 기반<span style='color:#808080'> (Rule-based)</span>
    - 사람이 언어의 문법, 구문, 의미적 패턴을 직접 정의하여 처리
    - 유연성이 낮고, 예외가 많아질수록 규칙 관리가 어려워짐. 초기 NLP 모델에서 사용됨.
2. 통계 기반<span style='color:#808080'> (Statistical)</span>
    - 대규모 텍스트 데이터에서 **단어의 빈도, 공동 발생 확률** 등의 통계적 특징을 이용해 패턴을 학습하고 언어를 처리
    - N-gram, TF-IDF, Hidden Markov Model (HMM) 등이 대표적. 딥러닝 이전에 주류를 이룸.
3. 딥러닝 기반<span style='color:#808080'> (Deep Learning)</span>
    - *신경망 모델** (RNN, CNN, Transformer 등)을 활용하여 데이터로부터 복잡한 특징과 패턴을 자동으로 학습
    - 대규모 데이터가 필요하며, 현재 가장 높은 성능을 보이는 접근 방식. (단어 임베딩 사용)

### N-gram 근사 <span style='color:#808080'>(N-gram Approximation)
- 특정 단어의 출현 확률을 앞의 $N-1$개의 단어에만 의존한다고 가정하고 근사하는 언어 모델
- Unigram
    - $N$ = 1
    - $P(\text{단어}_i)$ - 독립 단어의 확률만 고려 (문맥 무시)
- Bigram
    - $N$ = 2
    - $P(\text{단어}_i \mid \text{단어}_{i-1})$ - 바로 앞의 단어 하나만 고려
- Trigram
    - $N$ = 3
    - $P(\text{단어}_i \mid \text{단어}_{i-1}, \text{단어}_{i-2})$ - 앞의 2개의 단어를 고려

### 로그 확률 <span style='color:#808080'>(Log Probability)
-문제점: 조건부 확률은 매우 작은 값(0.0001, 0.00001)이며, 이를 곱하게 되면 <span style='color:#808080'>(예: $P(문장) = P(단어_1) \times P(단어_2 \mid \text{단어}_1) \times \dots$)</span> 결과가 0에 가까워져 컴퓨터의 계산(부동소수점 정밀도)이 불안정해지는 언더플로우(Underflow) 문제가 발생.
단어의 조건부 확률은 매우 작은 값 (0.0001, 0.00001)
- 조건부의 확률들 끼리 곱하게 되면 -> 0에 가까운 값 -> 계산이 불안정
- 이러한 문제를 해결하기 위해 log 값을 사용

### 혼란도 <span style='color:#808080'>(Perplexity, PP)
- 문장을 얼마나 잘 예측하는지 나타내는 언어 모델의 성능 지표.</br>문장에 대한 역확률(Inverse Probability)의 기하 평균과 관련. 즉, **"언어 모델이 문장을 만드는 데 얼마나 많은 '선택지'를 필요로 하는가?"**
- 값이 높다면 -> 문장 이해도가 내려간다.
</br><span style='color:#808080'>모델이 문장을 헷갈려 하거나 다음 단어를 예측하기 어렵다는 뜻 (성능 낮음)
- 값이 낮다면 -> 문장 이해도가 올라간다.
</br><span style='color:#808080'>모델이 문장 구조를 잘 이해하고 다음 단어를 예측하기 쉽다는 뜻 (성능 높음)

### BoW <span style='color:#808080'>(Bag of Words, 단어 가방 모델)
- 문서의 단어 순서는 무시
- 각 문서에서 단어가 몇번 등장했는가?(빈도수)
- 가장 기본적인 백터화 방법

In [7]:
# 샘플 데이터셋 생성 
docs = [
    "영화가 정말 재미있었다", 
    "영화가 너무 지루하다", 
    "배우의 연기가 너무 좋았다."
]

In [2]:
tokens = [doc.split() for doc in docs]
tokens

[['영화가', '정말', '재미있었다'], ['영화가', '너무', '지루하다'], ['배우의', '연기가', '너무', '좋았다.']]

In [3]:
# tokens에서 각각의 단어들을 하나의 리스트로 생성하고 중복은 제거 
# tokens의 2차원 리스트를 1차원으로 변환 
vocab1 = []
for token in tokens:
    # token -> tokens의 각 원소들 (1차원 리스트)
    for word in token:
        # word : token이라는 1차원 리스트의 각각의 원소들 
        vocab1.append(word)
vocab1 = list(set(vocab1))

In [4]:
vocab1

['연기가', '배우의', '지루하다', '재미있었다', '너무', '영화가', '좋았다.', '정말']

In [5]:
vocab = list(set(sum(tokens, [])))

In [6]:
# Bow 행렬을 하나 생성 
# tokens의 문장에 vocab의 단어가 몇개 포함되어있는가?
bow_list = []
vocab.sort()
for doc in tokens:
    # row = [ doc.count(word) for word in vocab ]
    row = []
    for word in vocab:
        # count() 함수는 list에서 인자의 값과 같은 데이터가 몇개 있는가?
        row.append(doc.count(word))
    bow_list.append(row)