# 자연어 처리 NLP | 텍스트 분석 Text Analysis

- 자연어 처리 : 사람이 사용하는 언어 전반에 대해서 이해하고, 처리하는 분야
    - 음성인식, 번역, 감정분석, 요약, 질의응답, 언어생성 등 포괄적 분야  
- 텍스트 분석 : 언어적 비정형 데이터에서 정보를 추출하고, 분석하는 작업 
    - 텍스트 통계적분석, 주제분류, 텍스트 군집, 유사도분석 등   

### 파이썬 텍스트분석 패키지 

| **로고 이미지**                                                                                                 | **패키지**   | **설명**                                            | **주요 특징 및 기능**                                                   | **API 문서 URL**                                  |
|------------------------------------------------------------------------------------------------------------|--------------|---------------------------------------------------|-----------------------------------------------------------------------|-------------------------------------------------|
| ![nltk](https://images.javatpoint.com/tutorial/ai/images/natural-language-toolkit2.png)                   | **nltk**     | 가장 오래된 NLP 라이브러리 중 하나로, 다양한 자연어 처리 도구와 코퍼스 제공 | 토큰화, 품사 태깅, 어간 추출, 불용어 제거, 문법 구조 분석, 감정 분석 등에 유용 | [NLTK API Docs](https://www.nltk.org/api/nltk.html) |
| ![gensim](https://radimrehurek.com/gensim/_static/images/gensim.png)                                       | **gensim**   | 주로 텍스트의 토픽 모델링과 문서 유사도 분석을 위한 라이브러리            | Word2Vec, FastText, LDA, 유사도 측정, 대용량 텍스트 처리에 최적화    | [Gensim API Docs](https://radimrehurek.com/gensim/) |
| ![spacy](https://upload.wikimedia.org/wikipedia/commons/thumb/8/88/SpaCy_logo.svg/320px-SpaCy_logo.svg.png) | **spacy**    | 빠르고 효율적인 NLP 처리를 위해 개발된 라이브러리로, 산업용 프로젝트에 적합     | 빠른 토큰화, 품사 태깅, NER, 구문 분석, 벡터 표현 제공              | [SpaCy API Docs](https://spacy.io/api)             |
| ![TextBlob](https://textblob.readthedocs.io/en/dev/_static/textblob-logo.png)                              | **TextBlob** | 간단한 NLP 작업을 위한 라이브러리로, 감정 분석과 텍스트 정제 등 지원  | 문법 교정, 감정 분석, 텍스트 번역 등과 같은 간단한 작업에 적합      | [TextBlob API Docs](https://textblob.readthedocs.io/en/dev/) |
| ![KoNLPy](https://konlpy.org/en/latest/_static/konlpy.png)                                                 | **KoNLPy**   | 한국어 자연어 처리를 위한 라이브러리로, 여러 형태소 분석기를 제공          | Kkma, Hannanum, Komoran, Twitter, Mecab 형태소 분석기 지원            | [KoNLPy API Docs](https://konlpy.org/en/latest/)  |

### NLTK (Natural Language Toolkit)
- 파이썬에서 텍스트 처리 및 자연어 처리를 쉽게 다룰 수 있게 해주는 오픈 소스 라이브러리
- NLTK는 다양한 언어 리소스와 알고리즘을 포함하고 있으며, 텍스트 마이닝, 텍스트 분석, 그리고 자연어 처리를 공부하거나 구현할 때 유용

**주요 기능**
1. **토큰화(Tokenization)**: 문장을 단어 또는 문장 단위로 나누는 작업
    - 예를 들어, `"I love NLP."`를 `['I', 'love', 'NLP', '.']`와 같이 나누는 기능을 제공한다.
2. **품사 태깅(Part-of-Speech Tagging)**: 각 단어에 대해 해당 품사를 태깅하는 작업
    - 예를 들어, `"I love NLP."`에 대해 `[('I', 'PRP'), ('love', 'VBP'), ('NLP', 'NNP'), ('.', '.')]`와 같이 태깅한다.
3. **명사구 추출(Chunking)**: 문장에서 명사구와 같은 특정 구문을 추출하는 작업
4. **어근 추출(Lemmatization) 및 어간 추출(Stemming)**: 단어의 기본 형태를 찾는 작업으로, 동사의 기본형을 찾거나 복수형을 단수형으로 변환하는 등의 작업 수행
5. **텍스트 분류(Classification)**: Naive Bayes, MaxEnt 등의 분류 모델을 사용해 텍스트 분류 가능
6. **코퍼스(corpus) 제공**: 영화 리뷰, 뉴스 기사 등 여러 텍스트 데이터셋을 포함하고 있어 학습과 실습에 유용

In [None]:
!conda install nltk -y

In [None]:
import nltk
nltk.__version__

nltk.download('punkt')
nltk.download('punkt_tab')
nltk.download('stopwords')

In [None]:
from nltk.tokenize import word_tokenize, sent_tokenize

text = 'NLTK is a powerful library for NLP!!!!!'
word_tokenize(text)    # 단어 토큰화

In [None]:
text = '''The Matrix is everywhere its all around us, here even in this room.
You can see it out your window or on your television.
You feel it when you go to work, or go to church or pay your taxes.'''

sent_tokenize(text)    # 문장 토큰화

In [None]:
# 문장별 단어 토큰화
def tokenize_text(text):
    sentences = sent_tokenize(text)
    return [word_tokenize(sentence) for sentence in sentences]

result = tokenize_text(text)
print(len(result), len(result[0]), len(result[1]), len(result[2]))

In [None]:
# n-gram
from nltk import ngrams

text = 'The Matrix is everywhere its all around us, here even in this room.'
tokens = word_tokenize(text)

bigram = ngrams(tokens, 2)
print([token for token in bigram])

trigram = ngrams(tokens, 3)
print([token for token in trigram])

In [None]:
# 불용어(stopwords) 제거
from nltk.corpus import stopwords

# stopwords.fileids()

print(len(stopwords.words('english')))
stopwords.words('english')

In [None]:
text = 'The Matrix is everywhere its all around us, here even in this room.'
stopwords_list = stopwords.words('english')

tokens = []
for word in word_tokenize(text):    # 토큰화
    word = word.lower()    # 소문자 변환
    if word not in stopwords_list:    # 불용어 처리
        tokens.append(word)

tokens

### 특성 벡터화 Feature Vectorization
1. BOW(Bag of Words): 문서가 가지는 모든 단어를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도 값을 부여해 피처 값을 추출하는 모델이다.
    
   <img src="https://miro.medium.com/v2/resize:fit:1400/1*S8uW62e3AbYw3gnylm4eDg.png" width="500px">

2. Word Embedding: 단어를 밀집 벡터(dense vector)로 표현하는 방법으로, 단어의 의미와 관계를 보존하며 벡터로 표현한다.
    
    <img src="https://miro.medium.com/v2/resize:fit:1400/1*jpnKO5X0Ii8PVdQYFO2z1Q.png" width="500px">


| **구분**             | **Bag-of-Words (BOW)**                             | **Word Embedding**                             |
|----------------------|--------------------------------------------------|------------------------------------------------|
| **개념**             | 문서를 단어의 출현 빈도로 표현                   | 단어를 실수 벡터로 표현                       |
| **특징**             | - 단어의 순서와 의미를 고려하지 않음             | - 단어 간 의미적 유사성을 반영                |
|                      | - 고차원, 희소 벡터 생성                         | - 밀집된 저차원 벡터 생성                     |
| **대표 방법**        | Count Vector, TF-IDF                             | Word2Vec, GloVe, FastText                     |
| **장점**             | - 구현이 간단하고 이해하기 쉬움                  | - 문맥 정보 반영 가능                         |
|                      | - 단순 텍스트 데이터 분석에 유용                 | - 유사한 단어를 벡터 공간 상에서 가깝게 위치 |
| **단점**             | - 의미적 관계와 단어의 순서 정보 없음            | - 많은 데이터와 학습 시간 필요                |
|                      | - 고차원 희소 벡터 문제                          | - 구현이 상대적으로 복잡                      |

##### BOW - CountVectorizer

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

text1 = 'The Matrix is everywhere its all around us, here even in this room. \
You can see it out your window or on your television. \
You feel it when you go to work, or go to church or pay your taxes.'

text2 = 'You take the blue pill and the story ends.  You wake in your bed and you believe whatever you want to believe \
You take the red pill and you stay in Wonderland and I show you how deep the rabbit-hole goes.'

texts = [text1, text2]

count_vectorizer = CountVectorizer()
count_vectorizer.fit(texts)
text_vecs = count_vectorizer.transform(texts)

print(text_vecs)

In [None]:
import pandas as pd

print(count_vectorizer.get_feature_names_out())
print(count_vectorizer.vocabulary_)

vocab = sorted(count_vectorizer.vocabulary_.items(), key=lambda x:x[1])
vocab_df = pd.DataFrame(vocab, columns=['word', 'idx'])
vocab_df

In [None]:
# 단어별 등장 횟수 구하기
word_counts = text_vecs.toarray().sum(axis=0)

# 단어 데이터프레임에 빈도 추가
vocab_df['count'] = vocab_df['idx'].apply(lambda i: word_counts[i])

# idx 열 제거 (불필요함)
vocab_df = vocab_df.drop(columns=['idx'])

vocab_df

In [None]:
# CountVectorizer(stop_words='언어') : 불용어 제거
count_vectorizer = CountVectorizer(stop_words='english')
texts_vecs = count_vectorizer.fit_transform(texts)
print(texts_vecs.toarray().shape)

vocab = sorted(count_vectorizer.vocabulary_.items(), key=lambda x:x[1])
vocab_df = pd.DataFrame(vocab, columns=['word', 'idx'])
vocab_df

In [35]:
count_vectorizer = CountVectorizer(
    stop_words='english',
    ngram_range=(1, 2),    # n-gram 범위 지정 (최소값, 최대값) / 기본값 (1, 1)
    max_features=20    # 빈도수 상위인 n개의 데이터 사용
)
texts_vecs = count_vectorizer.fit_transform(texts)
print(texts_vecs.toarray().shape)

count_vectorizer.get_feature_names_out()

(2, 20)


array(['bed', 'believe', 'pill', 'rabbit hole', 'red', 'red pill', 'room',
       'room window', 'stay', 'stay wonderland', 'story', 'story ends',
       'television', 'television feel', 'wake', 'wake bed', 'want',
       'want believe', 'window', 'window television'], dtype=object)

##### BOW - TfidfVectorizer

- TF-IDF == Term Frequency-Inverse Document Frequency

**용어** 
- $tf(t, d)$: 특정 단어 $t$가 문서 $d$에서 등장한 횟수 (Term Frequency)
- $df(t)$: 특정 단어 $t$가 등장한 문서의 수 (Document Frequency)
- $N$: 전체 문서의 수

**TF (Term Frequency)**
- 단어 $t$의 문서 $d$에서의 빈도를 계산하는데, 가장 일반적인 방법은 해당 단어의 단순 빈도로 정의한다.

$
tf(t, d) = \frac{\text{단어 } t \text{의 문서 } d \text{ 내 등장 횟수}}{\text{문서 } d \text{의 전체 단어 수}}
$

**IDF (Inverse Document Frequency)**
- 단어가 전체 문서에서 얼마나 중요한지를 계산한다.
- 특정 단어가 많은 문서에서 등장하면, 이 단어는 중요도가 낮아진다. 이를 반영하기 위해 아래와 같은 식을 사용한다.

$
idf(t) = \log\left(\frac{N}{1 + df(t)}\right)
$

- 여기서 $1$을 더하는 이유는, 특정 단어가 모든 문서에 등장하지 않을 경우 $df(t) = 0$이 되어, 분모가 $0$이 되는 것을 방지하기 위함이다.
  - 예를 들어, $\log(5/(1+1))$과 $\log(5/(1+2))$를 계산하면, 각각 $0.3979$와 $0.2218$이 된다.

**TF-IDF 계산**
- 위의 TF와 IDF를 결합하여 TF-IDF 가중치를 계산한다.

$
\text{tf-idf}(t, d) = tf(t, d) \times idf(t)
$

**TfidfVectorizer의 주요 파라미터**
<table border="1" cellpadding="5" cellspacing="0">
  <tr style="background-color: #f2f2f2;">
    <th>Parameter</th>
    <th>Description</th>
    <th>Default Value</th>
  </tr>
  <tr style="background-color: #ffeb99;">
    <td><b>max_df</b></td>
    <td>문서의 비율 값으로서, 해당 비율 이상 나타나는 단어를 무시한다. <br> 예를 들어, max_df=0.8이면, 80% 이상의 문서에서 나타나는 단어는 제외된다.</td>
    <td>1.0</td>
  </tr>
  <tr style="background-color: #ffeb99;">
    <td><b>min_df</b></td>
    <td>문서의 비율 값 또는 정수로, 해당 비율 이하 나타나는 단어를 무시한다. <br> 예를 들어, min_df=2이면, 두 개 이하의 문서에서만 나타나는 단어는 제외된다.</td>
    <td>1</td>
  </tr>
  <tr style="background-color: #ffeb99;">
    <td><b>ngram_range</b></td>
    <td>(min_n, max_n) 형식으로, 사용할 n-gram의 범위를 정의한다. <br> 예를 들어, (1, 2)로 설정하면 unigram과 bigram을 고려한다.</td>
    <td>(1, 1)</td>
  </tr>
  <tr style="background-color: #ffeb99;">
    <td>stop_words</td>
    <td>불용어를 지정할 수 있다. "english"로 설정하면 영어 불용어를 사용한다.</td>
    <td>None</td>
  </tr>
  <tr>
    <td>max_features</td>
    <td>벡터화할 때 고려할 최대 단어 수를 설정한다. 빈도순으로 상위 단어들이 선택된다.</td>
    <td>None</td>
  </tr>
  <tr>
    <td>use_idf</td>
    <td>IDF(역문서 빈도)를 사용할지 여부를 지정한다. False로 설정하면 단순히 TF 값만 사용한다.</td>
    <td>True</td>
  </tr>
  <tr>
    <td>smooth_idf</td>
    <td>IDF 계산 시, 0으로 나누는 것을 피하기 위해 추가적인 smoothing을 수행한다.</td>
    <td>True</td>
  </tr>
  <tr>
    <td>sublinear_tf</td>
    <td>TF 값에 대해 sublinear scaling (1 + log(tf))를 적용할지 지정한다.</td>
    <td>False</td>
  </tr>

In [38]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vectorizer = TfidfVectorizer(stop_words='english')
texts_vecs = tfidf_vectorizer.fit_transform(texts)

display(texts_vecs.toarray())
tfidf_vectorizer.get_feature_names_out()

array([[0.        , 0.        , 0.        , 0.33333333, 0.        ,
        0.        , 0.33333333, 0.        , 0.        , 0.33333333,
        0.33333333, 0.        , 0.        , 0.        , 0.33333333,
        0.        , 0.        , 0.33333333, 0.33333333, 0.        ,
        0.        , 0.33333333, 0.        , 0.33333333],
       [0.21821789, 0.43643578, 0.21821789, 0.        , 0.21821789,
        0.21821789, 0.        , 0.21821789, 0.21821789, 0.        ,
        0.        , 0.43643578, 0.21821789, 0.21821789, 0.        ,
        0.21821789, 0.21821789, 0.        , 0.        , 0.21821789,
        0.21821789, 0.        , 0.21821789, 0.        ]])

array(['bed', 'believe', 'blue', 'church', 'deep', 'ends', 'feel', 'goes',
       'hole', 'matrix', 'pay', 'pill', 'rabbit', 'red', 'room', 'stay',
       'story', 'taxes', 'television', 'wake', 'want', 'window',
       'wonderland', 'work'], dtype=object)