# NLP(Natural Language Processing)

## 자연어
- 사람이 일상적으로 사용하는 언어를 말한다.
    - 어떤 목적을 가지고 사람이 만든 것이 아니라 **자연적으로 만들어진 언어**를 말한다.
- **인공언어**
    - 특정 목적을 위해 사람이 인위적으로 만든 언어로 자연어의 대척점에 있는 언어 개념.
    - 예: 프로그래밍 언어

## 자연어 처리 (NLP)
- 자연어 처리(Natural Language Process)는 컴퓨터가 인간의 언어를 이해하고 분석하는 분야를 말한다.
- 자연어 처리도 오래된 분야인데 딥러닝이 적용되면서 획기적인 발전을 이루었다.     

# Text to Vector(Text Vectorization)

1. **Text Vectorization의 정의**
   - 자연어(텍스트) 데이터를 컴퓨터가 이해할 수 있는 숫자 벡터로 변환하는 과정.
   - 비정형 텍스트를 머신러닝 모델이 처리할 수 있는 수치 형태로 표현하며, 이 과정을 통해 컴퓨터는 단어와 문장, 문단을 수학적 표현으로 다룰 수 있다.
   ![nlp_text_to_vector_outline](figures/nlp_text_to_vector_outline.png)
2. **Feature 추출**
   - 자연어 텍스트에서 output을 계산하는데 필요한 **중요한 특징(특성-feature)들**을 뽑아내어 활용할 수 있게 한다.
   - 텍스트의 의미적, 문법적 특성을 수치화한다.
   - 단어나 문장 간의 관계를 벡터 공간에서 표현 할 수 있다.
   - 텍스트 데이터의 패턴을 발견하고 분석하는데 필수적인 전처리 과정이 feature 추출이다.

3. **활용 분야**
   - 벡터화된 텍스트는 머신러닝 알고리즘이나 딥러닝 모델에 입력되어 분류, 군집화, 감성 분석 등 다양한 자연어 처리 작업에 활용된다.
   - 벡터화된 데이터는 두 텍스트 간의 유사도를 비교하는 데에도 사용될 수 있다. 이를 통해 비슷한 문장, 단어, 문서 등을 효과적으로 찾을 수 있다.
## 주요 방법론
   1. **Count-Based Word Representation**
       - 단어가 나오는 횟수(출연 빈도수) 기반 표현방식
       - Bag of word, TF-IDF
   2. **Word Embedding**
       - 단어를 **고정된 Vector로 표현**한다. 고정됐다는 것은 문맥에 상관없이 같은 단어는 같은 값으로 표현한다.
       - Word2Vec, Fastext, Glove
   3. **Contextualized Word Embedding**
       - 문맥을 고려한 Word Embedding 방식. 단어가 문맥에 따라 의미가 바뀌는 **동적 Vector 표현방식**이다.
       - ELMo, BERT, GPT2, RoBERTa

# Count-Based Word Representation

1. One-Hot Encoding
2. Bag Of Words(BoW)
    - DTM(Document Term Matrix)/TDM(Term Document Matrix)
    - TF-IDF


## One-Hot Encoding

-   One-Hot Encoding을 이용해 단어를 표현하는 방법.
    -   전체 vocabulary size 크기에 vector로 구성하며 각 index는 vocabulary를 구성하는 단어들을 의미한다. Value는 표현하는 단어는 1 나머지는 0으로 구성한다.
    -   각 단어(토큰)들을 서로 다른 숫자 vector로 만드는 방식이다. 그렇다 보니 각 단어의 차이점 이외의 정보는 전혀 포함되지 않는다. 
    -   보통 Word Embedding 모델의 입력으로 사용된다.

### 구현방법

1. 토큰화(Tokenization)
    - 문장을 최소단위(token)로 나눈다.
    - 토큰화는 모든 Embedding의 시작이다.
    - ex) `"나는 축구를 좋아합니다. 친구는 야구를 좋아합니다."` -> `["나는", "축구를", "좋아합니다", ".", "친구는", "야구를", "좋아합니다", "."]`
2. Vocabulary(vocab - 어휘/단어 사전) 구성
    - Token - index 형식으로 구성한 어휘 사전을 만든다.
    - `['.', '나는', '야구를', '좋아합니다', '축구를', '친구는']`
3. Vocab의 모든 token들을 one-hot encoding 처리한다.  
   ![ohe](figures/onehotvector.png)
4. 문장을 one-hot vector를 이용해 행렬로 구성한다.

-   ex) 나는 야구를 좋아합니다.

```
[
  [0, 1, 0, 0, 0, 0],   -- 나는
  [0, 0, 1, 0, 0, 0],   -- 야구를
  [0, 0, 0, 1, 0, 0]    -- 좋아합니다
  [1, 0, 0, 0, 0, 0]    -- .
]
```

> ### 어휘 사전(단어 사전, vocaburay, vocab)
>
> -   사용할 모든 단어(토큰)들을 모아놓은 집합.
> -   보통 단어-정수index 쌍의 구조로 저장한다.


### One-Hot Encoding의 문제

1. 단어 수가 늘어날 수록 vector의 차원도 늘어난다.
2. 단어의 의미를 표현할 수없다. 그래서 단어 또는 문장의 유사도와 같이 의미를 알아야 하는 분야에서는 사용할 수 없다.


## Bag Of Words(BoW)

-   **단어의 출현 빈도에만 집중해 단어를 표현**(word representation) 하는 방법으로 단어의 순서는 전혀 고려하지 않는다.
    - Concept: **많이 나온 단어가 중요한 단어이다.**

### DTM/TDM

-   문서안에서 문서를 구성하는 단어들이 몇 번 나왔는지를 표현하는 행렬로 Vector화 한다.
-   DTM
    -   행: 문서, 열: 단어
-   TDM
    -   행: 단어, 열: 문서
-   Value: 출연 횟수

#### 구현방법

1. 어휘 사전(vocabulary) 생성
    - 모든 단어에 고유 정수 index를 부여
2. 문장을 embeddig 할 때 각 단어 index에 등장 횟수를 기록한다.

#### scikit-learn CountVectorizer 이용

-   빈도수 기반 Vector화 지원 Text 전처리 클래스
-   **주요 생성자 매개변수**
    -   stop_word :stopword 지정
        -   str: "english" - 자체 제공 불용어는 제공됨
        -   list: stopword 리스트
    -   max_df: 특정 횟수 이상나오는 것은 무시하도록 설정(무시할 횟수/비율 지정)
        -   int(횟수), float(비율)
    -   min_df: 특정 횟수 이하로 나오는 것은 무시하도록 설정(무시할 횟수/비율 지정)
    -   max_features: 최대 token 수
        -   빈도수가 높은 순서대로 정렬 후 지정한 max_features 개수만큼만 사용한다.
    -   ngram_range: n_gram 범위 지정
        -   n_gram:
        -   튜플 (범위 최소값, 범위 최대값)
        -   (1, 2) : 토큰화된 단어를 1개씩 그리고 순서대로 2개씩 묶어서 Feature를 추출
    -   tokenizer: 토큰화 처리 함수
-   **메소드/ 속성**
    -   fit(X)
        -   학습
        -   매개변수: raw document - 문장을 원소로 가지는 1차원 배열형태(list, ndarray)
        -   **Train(훈련) 데이터셋 으로 학습한다. Test 데이터셋은 Train 셋으로 학습한 CountVectorizer를 이용해 변환만 한다.**
    -   transform(X)
        -   DTM 변환
    -   fit_transform(X)
        -   학습/변환 한번에 처리
    -   vocabulary\_: 어휘 사전

> #### n-gram
>
> -   N 개의 단어(token)을 묶어서 하나의 토큰으로 처리하는 방식을 n-gram이라고 한다. (n은 몇개 토큰을 하나의 단위로 묶을지 개수)
>     -   uni-gram (n=1), bi-gram (n=2), tri-gram (n=3), 4개부터는 n-gram으로 표기(4-gram, 5-gram, ..)
>     -   Embedding이나 언어모델을 만들때 적용하는 기법이다.
> -   BoW에 n-gram을 적용하면 n개의 단어를 묶어서 하나의 tokne으로 처리한다.
> -   언어모델에 n-gram을 적용하면 이전/이후 n 개의 단어를 이용해 다음 단어를 유추한다.
> -   n-gram의 문제
>     -   n이 너무 크면 희소성(출현 빈도가 낮아진다)의 문제가 발생한다.
>         -   `나는 어제 밥을 먹으러 식당에 가려다가 마음을 바꾸었다.` 이런 token이 전체 corpus에 얼마나 있을까?
>     -   n이 너무 작으면 단어간의 관계성이 표현이 안되는 문제가 발생한다.


In [None]:
text = ["나는 야구를 좋아합니다. 나는 축구를 좋아하지 않습니다.", 
        "친구는 야구와 축구를 좋아합니다. 야구보다 축구를 더 좋아합니다.", 
        "나는 축구를 더 좋아합니다. 영국 축구 리그보다 이탈리아 축구 리그를 더 좋아합니다.", 
        "나는 농구를 좋아하지 않습니다. 배구도 좋아하지 않습니다.", 
        "나는 액션영화를 좋아합니다.", 
        "어제 비빕밥을 먹었습니다."]

stop_words = list('은는이가을를도.,')

### TF-IDF (Term Frequency - Inverse Document Frequency)

-   개별 문서에 많이 나오는 단어가 높은 값을 가지도록 하되 동시에 여러 문서에 자주 나오는 단어에는 페널티를 주는 방식
-   어떤 문서에 특정 단어가 많이 나오면 그 단어는 해당 문서를 설명하는 중요한 단어일 수 있다. 그러나 그 단어가 다른 문서에도 많이 나온다면 언어 특성이나 주제상 많이 사용되는 단어 일 수 있다.
-   각 문서의 길이가 길고 문서개수가 많은 경우 Count 방식 보다 TF-IDF 방식이 더 좋은 예측 성능을 내는 경우가 많다.

#### 구현방법

-   TF (Term Frequency) 정의: 해당 단어가 **해당 문서에** 몇번 나오는지를 나타내는 지표
-   DF (Document Frequency) 정의: 해당 단어가 **몇개의 문서에** 나오는지를 나타내는 지표
-   IDF (Inverse Document Frequency) 정의: DF에 역수로 $\cfrac{\text{전체 문서수}}{\text{해당 단어가 나오는 문서수}}$
-   TF-IDF 정의: $TF * \left(\log \cfrac{\text{전체 문서수}}{\text{해당 단어가 나오는 문서수}} \right)$
    -   log는 전체 문서의 수가 많으면 값의 단위가 너무 커지므로 log를 취한다.
    -   scikit-learn의 경우 분모가 0이 되는 것을 방지하기 위해 **분모에 1을 더하고** $\log(0)$도 계산이 안되므로 **분자에도 1을 더했으며** 그 계산 결과에 **1을 더하여 계산**함.
        -   $TF * \left(\log \cfrac{\text{전체 문서수 + 1}}{\text{해당 단어가 나오는 문서수 + 1}} + 1\right)$

#### scikit-learn TfidfVectorizer 이용

-   TF-IDF 기반 텍스트 벡터화 전처리 클래스

#### 주요 생성자 매개변수

-   stop_word :stopword 지정
    -   str: "english" - 영문 불용어는 제공됨
    -   list: stopword 리스트
-   max_df: 특정 횟수 이상나오는 것은 무시하도록 설정(무시할 횟수/비율 지정)
    -   int(횟수), float(비율)
-   min_df: 특정 횟수 이하로 나오는 것은 무시하도록 설정(무시할 횟수/비율 지정)
-   max_features: 최대 token 수
    -   빈도수가 높은 순서대로 정렬 후 지정한 max_features 개수만큼만 사용한다.
-   ngram_range: n_gram 범위 지정
    -   n_gram:
    -   튜플 (범위 최소값, 범위 최대값)
    -   (1, 2) : 토큰화된 단어를 1개씩 그리고 순서대로 2개씩 묶어서 Feature를 추출
-   tokenizer: 토큰화 처리 함수

#### 메소드/Attribute

-   fit(X)
    -   학습
    -   매개변수: 문장을 가진 1차원 배열형태(list, ndarray)
    -   **Train(훈련)+Test(테스트) 데이터셋 으로 학습한다.**
-   transform(X)
    -   DTM 변환
-   fit_transform(X)
    -   학습/변환 한번에 처리
-   vocabulary\_: 어휘 사전
