## 자연어 처리 NLP(Natural Language Processing) | 텍스트 분석 Text Analysis

- 자연어 처리 : 사람이 사용하는 언어 전반에 대해서 이해하고 처리하는 분야
    - 음성인식, 번역, 감정분석, 질의응답, 언어생성 등 포괄적 분야
- 테스트 분석 : 언어적 비정형 데이터에서 정보를 추출하고 분석하는 작업
    - 텍스트 통계적 분석, 주제 분류, 텍스트 군집, 유사도 분석 등

### 파이썬 텍스트분석 패키지 

| **로고 이미지**                                                                                                 | **패키지**   | **설명**                                            | **주요 특징 및 기능**                                                   | **API 문서 URL**                                  |
|------------------------------------------------------------------------------------------------------------|--------------|---------------------------------------------------|-----------------------------------------------------------------------|-------------------------------------------------|
| ![nltk](https://d.pr/i/9xVzCK+)                   | **nltk**     | 가장 오래된 NLP 라이브러리 중 하나로, 다양한 자연어 처리 도구와 코퍼스 제공 | 토큰화, 품사 태깅, 어간 추출, 불용어 제거, 문법 구조 분석, 감정 분석 등에 유용 | [NLTK API Docs](https://www.nltk.org/api/nltk.html) |
| ![gensim](https://radimrehurek.com/gensim/_static/images/gensim.png)                                       | **gensim**   | 주로 텍스트의 토픽 모델링과 문서 유사도 분석을 위한 라이브러리            | Word2Vec, FastText, LDA, 유사도 측정, 대용량 텍스트 처리에 최적화    | [Gensim API Docs](https://radimrehurek.com/gensim/) |
| ![spacy](https://upload.wikimedia.org/wikipedia/commons/thumb/8/88/SpaCy_logo.svg/320px-SpaCy_logo.svg.png) | **spacy**    | 빠르고 효율적인 NLP 처리를 위해 개발된 라이브러리로, 산업용 프로젝트에 적합     | 빠른 토큰화, 품사 태깅, NER, 구문 분석, 벡터 표현 제공              | [SpaCy API Docs](https://spacy.io/api)             |
| ![TextBlob](https://textblob.readthedocs.io/en/dev/_static/textblob-logo.png)                              | **TextBlob** | 간단한 NLP 작업을 위한 라이브러리로, 감정 분석과 텍스트 정제 등 지원  | 문법 교정, 감정 분석, 텍스트 번역 등과 같은 간단한 작업에 적합      | [TextBlob API Docs](https://textblob.readthedocs.io/en/dev/) |
| ![KoNLPy](https://konlpy.org/en/latest/_static/konlpy.png)                                                 | **KoNLPy**   | 한국어 자연어 처리를 위한 라이브러리로, 여러 형태소 분석기를 제공          | Kkma, Hannanum, Komoran, Twitter, Mecab 형태소 분석기 지원            | [KoNLPy API Docs](https://konlpy.org/en/latest/)  |

### NLTK (Natural Language Toolkit)
- 파이썬에서 텍스트 처리 및 자연어 처리를 쉽게 다룰 수 있게 해주는 오픈 소스 라이브러리
- NLTK는 다양한 언어 리소스와 알고리즘을 포함하고 있으며, 텍스트 마이닝, 텍스트 분석, 그리고 자연어 처리를 공부하거나 구현할 때 유용

**주요 기능**
1. **토큰화(Tokenization)**: 문장을 단어 또는 문장 단위로 나누는 작업
    - 예를 들어, `"I love NLP."`를 `['I', 'love', 'NLP', '.']`와 같이 나누는 기능을 제공한다.
2. **품사 태깅(Part-of-Speech Tagging)**: 각 단어에 대해 해당 품사를 태깅하는 작업
    - 예를 들어, `"I love NLP."`에 대해 `[('I', 'PRP'), ('love', 'VBP'), ('NLP', 'NNP'), ('.', '.')]`와 같이 태깅한다.
3. **명사구 추출(Chunking)**: 문장에서 명사구와 같은 특정 구문을 추출하는 작업
4. **어근 추출(Lemmatization) 및 어간 추출(Stemming)**: 단어의 기본 형태를 찾는 작업으로, 동사의 기본형을 찾거나 복수형을 단수형으로 변환하는 등의 작업 수행
5. **텍스트 분류(Classification)**: Naive Bayes, MaxEnt 등의 분류 모델을 사용해 텍스트 분류 가능
6. **코퍼스(corpus) 제공**: 영화 리뷰, 뉴스 기사 등 여러 텍스트 데이터셋을 포함하고 있어 학습과 실습에 유용

In [1]:
!conda install nltk -y # conda의 저장소로 부터 nltk 패키지를 설치

'conda'��(��) ���� �Ǵ� �ܺ� ����, ������ �� �ִ� ���α׷�, �Ǵ�
��ġ ������ �ƴմϴ�.


In [1]:
import nltk
nltk.__version__

'3.9.2'

In [2]:
# nltk 리소스 다운로드
nltk.download('punkt') # punkt tokenizer 모델 다운로드
nltk.download('punkt_tab')  # punkt tokenizer 모델 다운로드
nltk.download('stopwords') # 불용어 사전 다운로드

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\roxie\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\roxie\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt_tab.zip.
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\roxie\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [3]:
from nltk.tokenize import word_tokenize, sent_tokenize # 단어 및 문장 토크나이저

# 문장을 단어로 토큰화
# - 띄어쓰기 기준(영문의 경우 띄어쓰기가 중요)
text = "NLTK is a powerful library for NLP!!!!!"
word_tokenize(text) # 단어 토큰화

['NLTK',
 'is',
 'a',
 'powerful',
 'library',
 'for',
 'NLP',
 '!',
 '!',
 '!',
 '!',
 '!']

In [4]:
# 감성 분석
nltk.download('vader_lexicon') # VADER 감성 분석 사전 다운로드

[nltk_data] Downloading package vader_lexicon to
[nltk_data]     C:\Users\roxie\AppData\Roaming\nltk_data...


True

In [6]:
from nltk.sentiment import SentimentIntensityAnalyzer # 감성 분석 모듈

# 감성 분석 객체 생성
analyser = SentimentIntensityAnalyzer()

# SentimentIntensityAnalyzer.polarity_scores(corpus)
# - corpus : 감성 점수를 계산할 문장(문서)
# - return : 문서의 감성 점수를 딕셔너리로 반환
#    - neg : 부정 감성 점수 (0 ~ 1 사이의 값)
#    - neu : 중립 감성 점수 (0 ~ 1 사이의 값)
#    - pos : 긍정 감성 점수 (0 ~ 1 사이의 값)
#    - compound : 종합 감성 점수(부정, 중립, 긍정 점수를 종합하여 계산한 점수) (-1 ~ 1 사이의 값)

# 문장의 감성 점수 계산
analyser.polarity_scores("I love NLP. It's awesome!")



{'neg': 0.0, 'neu': 0.189, 'pos': 0.811, 'compound': 0.8622}

In [7]:
# 여러 문장에 대한 감성 분석
# 분석할 문장들 리스트
texts = ['I absolutely love this!', 'This is okay, I guess.', 'I really hate this.']

# 각 문장의 감성 점수 계산
for text in texts:
    score = analyser.polarity_scores(text)
    print(f'Text: {text}\nScore: {score}\n') 


Text: I absolutely love this!
Score: {'neg': 0.0, 'neu': 0.295, 'pos': 0.705, 'compound': 0.6989}

Text: This is okay, I guess.
Score: {'neg': 0.0, 'neu': 0.612, 'pos': 0.388, 'compound': 0.2263}

Text: I really hate this.
Score: {'neg': 0.666, 'neu': 0.334, 'pos': 0.0, 'compound': -0.6115}



In [15]:
######### 토큰화 결과가 감성분석에 끼치는 영향 #########

# WordPunctTokenizer : 구두점도 별도의 토큰으로 분리
# - don't -> do, n't
# - well-being -> well, -, being
from nltk.tokenize import WordPunctTokenizer

corpus = "I don't like the way she talks about mental well-being."

# 감성 분석 객체 생성
analyser = SentimentIntensityAnalyzer()


word_punct_tokenizer = WordPunctTokenizer() # WordPunctTokenizer 객체 생성
tokens1 = word_punct_tokenizer.tokenize(corpus) # WordPunctTokenizer로 토큰화
print("WordPunctTokenizer:", tokens1)

text1 = ' '.join(tokens1) # 토큰들을 공백으로 연결하여 문장 생성
print("문장:", text1)
score1 = analyser.polarity_scores(text1) # 감성 점수 계산
print("WordPunctTokenizer 감성 점수:", score1)

WordPunctTokenizer: ['I', 'don', "'", 't', 'like', 'the', 'way', 'she', 'talks', 'about', 'mental', 'well', '-', 'being', '.']
문장: I don ' t like the way she talks about mental well - being .
WordPunctTokenizer 감성 점수: {'neg': 0.0, 'neu': 0.635, 'pos': 0.365, 'compound': 0.5574}


In [16]:
tokens2 = word_tokenize(corpus) # word_tokenize로 토큰화 
print("word_tokenize:", tokens2) # 사람이 읽는 것과 유사

text2 = ' '.join(tokens2) # 토큰들을 공백으로 연결하여 문장 생성
print("문장:", text2)
score2 = analyser.polarity_scores(text2) # 감성 점수 계산
print("word_tokenize 감성 점수:", score2)

word_tokenize: ['I', 'do', "n't", 'like', 'the', 'way', 'she', 'talks', 'about', 'mental', 'well-being', '.']
문장: I do n't like the way she talks about mental well-being .
word_tokenize 감성 점수: {'neg': 0.19, 'neu': 0.81, 'pos': 0.0, 'compound': -0.2755}


In [17]:
text = '''The Matrix is everywhere its all around us, here even in this room.
You can see it out your window or on your television.
You feel it when you go to work, or go to church or pay your taxes.'''

sent_tokenize(text) # 문장 토큰화

['The Matrix is everywhere its all around us, here even in this room.',
 'You can see it out your window or on your television.',
 'You feel it when you go to work, or go to church or pay your taxes.']

In [22]:
# 문장별 단어 토큰화

# 여러 문장에 대한 단어 토큰화 함수
def tokenize_text(text):
    sentences = sent_tokenize(text) # 문장 토큰화
    return [word_tokenize(sentence) for sentence in sentences] # 각 문장별 단어 토큰화

tokens = tokenize_text(text) # 전체 텍스트에 대한 단어 토큰화
print(tokens)

[['The', 'Matrix', 'is', 'everywhere', 'its', 'all', 'around', 'us', ',', 'here', 'even', 'in', 'this', 'room', '.'], ['You', 'can', 'see', 'it', 'out', 'your', 'window', 'or', 'on', 'your', 'television', '.'], ['You', 'feel', 'it', 'when', 'you', 'go', 'to', 'work', ',', 'or', 'go', 'to', 'church', 'or', 'pay', 'your', 'taxes', '.']]


In [24]:
# n-gram : 연속된 n개의 단어를 하나의 토큰으로 처리하는 방법
# - 바이그램(bigram) : 연속된 2개의 단어를 하나의 토큰으로 처리
# - 트라이그램(trigram) : 연속된 3개의 단어를 하나의 토큰으로 처리

from nltk import ngrams

text = "The Matrix is everywhere its all around us, here even in this room."
tokens = word_tokenize(text) # 단어 토큰화

#  ngrams(tokens, n)
# - tokens : 토큰 리스트
# - n : n-그램의 n 값
# - return : n-그램 튜플의 이터레이터

bigrams = list(ngrams(tokens, 2))
print(bigrams)

trigrams = list(ngrams(tokens, 3)) # 트라이그램 생성
print(trigrams) 

[('The', 'Matrix'), ('Matrix', 'is'), ('is', 'everywhere'), ('everywhere', 'its'), ('its', 'all'), ('all', 'around'), ('around', 'us'), ('us', ','), (',', 'here'), ('here', 'even'), ('even', 'in'), ('in', 'this'), ('this', 'room'), ('room', '.')]
[('The', 'Matrix', 'is'), ('Matrix', 'is', 'everywhere'), ('is', 'everywhere', 'its'), ('everywhere', 'its', 'all'), ('its', 'all', 'around'), ('all', 'around', 'us'), ('around', 'us', ','), ('us', ',', 'here'), (',', 'here', 'even'), ('here', 'even', 'in'), ('even', 'in', 'this'), ('in', 'this', 'room'), ('this', 'room', '.')]


In [27]:
# 불용어(stopwords) 제거
# - 문서에서 자주 등장하지만 분석에 큰 의미가 없는 단어들
# - 예: 영어의 "is", "the", "and", "in" 등
# - 불용어 제거는 텍스트의 핵심 의미를 파악하는 데 도움을 줌
# - nltk.corpus.stopwords 모듈에서 다양한 언어의 불용어 리스트 제공
from nltk.corpus import stopwords

stopwords.fileids() # 사용 가능한 언어 확인(한국어 없음) 

{"hadn't", 'y', "they've", 'those', 'hadn', 'ain', 'do', 'itself', 'our', "you're", 'them', 'did', 'been', 'are', 'against', 'very', "don't", 'his', 'few', "isn't", 'were', 'hasn', 'isn', "she'd", 'nor', 'in', "he'd", 'no', 'had', "we've", 'having', 'for', 'he', 'when', 'shan', 'doing', 'down', 'it', 'theirs', "weren't", 'on', "you've", 'more', "hasn't", 'her', "wouldn't", "mustn't", "she'll", 'its', "needn't", 'can', "shan't", 'she', 'be', 'of', 'does', 'all', 'own', 'yours', 'just', 'here', "we'll", "i've", 'not', 'weren', 'wasn', "you'd", 'himself', 'being', "they'd", 've', 'then', "mightn't", 'a', 'yourselves', 'as', 'about', 'up', 'each', "that'll", 'him', 'some', 'from', "he'll", 'same', 'again', 'hers', "it's", 'over', 'only', 'my', 'too', "i'd", 'needn', 'both', 'couldn', "couldn't", "doesn't", 'whom', 't', 'that', 'their', "it'd", 'once', 'further', "i'm", 'there', 'while', 'herself', "we're", 'ma', 'and', 'was', 'at', 'below', 'm', "i'll", 'under', 'o', 'these', 'won', 'which

In [29]:
text = "The Matrix is everywhere its all around us, here even in this room."
stopwords_list = stopwords.words('english') # 영어 불용어 리스트

tokens = []
# 토큰화
for word in word_tokenize(text): # 단어 토큰화
    # 소문자 전환
    word = word.lower() # 소문자 전환
    if word not in stopwords_list: # 불용어가 아니면
        tokens.append(word) # 토큰 리스트에 추가


print('최종 토큰:', tokens)

최종 토큰: ['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.']


### 특성 벡터화 Feature Vectorization
1. BOW(Bag of Words): 문서가 가지는 모든 단어를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도 값을 부여해 피처 값을 추출하는 모델이다.
    
   <img src="https://miro.medium.com/v2/resize:fit:1400/1*S8uW62e3AbYw3gnylm4eDg.png" width="500px">

2. Word Embedding: 단어를 밀집 벡터(dense vector)로 표현하는 방법으로, 단어의 의미와 관계를 보존하며 벡터로 표현한다.
    
    <img src="https://miro.medium.com/v2/resize:fit:1400/1*jpnKO5X0Ii8PVdQYFO2z1Q.png" width="500px">


| **구분**             | **Bag-of-Words (BOW)**                             | **Word Embedding**                             |
|----------------------|--------------------------------------------------|------------------------------------------------|
| **개념**             | 문서를 단어의 출현 빈도로 표현                   | 단어를 실수 벡터로 표현                       |
| **특징**             | - 단어의 순서와 의미를 고려하지 않음             | - 단어 간 의미적 유사성을 반영                |
|                      | - 고차원, 희소 벡터 생성                         | - 밀집된 저차원 벡터 생성                     |
| **대표 방법**        | Count Vector, TF-IDF                             | Word2Vec, GloVe, FastText                     |
| **장점**             | - 구현이 간단하고 이해하기 쉬움                  | - 문맥 정보 반영 가능                         |
|                      | - 단순 텍스트 데이터 분석에 유용                 | - 유사한 단어를 벡터 공간 상에서 가깝게 위치 |
| **단점**             | - 의미적 관계와 단어의 순서 정보 없음            | - 많은 데이터와 학습 시간 필요                |
|                      | - 고차원 희소 벡터 문제                          | - 구현이 상대적으로 복잡                      |

### BOW > CountVectorizer

In [32]:
text1 = 'The Matrix is everywhere its all around us, here even in this room. \
You can see it out your window or on your television. \
You feel it when you go to work, or go to church or pay your taxes.'

text2 = 'You take the blue pill and the story ends.  You wake in your bed and you believe whatever you want to believe \
You take the red pill and you stay in Wonderland and I show you how deep the rabbit-hole goes.'

texts = [text1, text2] # 문서 리스트

In [38]:
from sklearn.feature_extraction.text import CountVectorizer # BOW 벡터화 도구

# CountVectorizer 객체 생성 : 자동으로 소문자 변환, 토큰화 수행
vectorizer = CountVectorizer()
# 문서 리스트를 BOW 벡터로 변환
X = vectorizer.fit(texts) # 고유한 단어(토큰)를 추출하여 단어 사전(vocabulary) 생성
text_vecs = X.transform(texts) 

print(type(text_vecs)) # 벡터화된 결과의 타입
print(text_vecs.toarray()) # 벡터화된 결과를 배열로 변환

<class 'scipy.sparse._csr.csr_matrix'>
[[1 0 1 0 0 0 1 1 0 0 1 1 1 2 0 1 0 0 1 1 2 1 1 1 3 1 1 0 0 0 1 1 0 0 0 0
  1 1 1 1 2 1 0 0 0 1 1 0 1 3 3]
 [0 4 0 1 2 1 0 0 1 1 0 0 0 0 1 0 1 1 2 0 0 0 0 0 0 0 0 2 1 1 0 0 1 1 1 2
  0 0 4 0 1 0 1 1 1 0 0 1 0 7 1]]


In [39]:
print(X.get_feature_names_out()) # 단어 사전(피처 이름) 확인

print(X.vocabulary_) # 단어 사전(피처 이름)과 인덱스 매핑 딕셔너리 확인
# key: 단어, value: 인덱스

['all' 'and' 'around' 'bed' 'believe' 'blue' 'can' 'church' 'deep' 'ends'
 'even' 'everywhere' 'feel' 'go' 'goes' 'here' 'hole' 'how' 'in' 'is' 'it'
 'its' 'matrix' 'on' 'or' 'out' 'pay' 'pill' 'rabbit' 'red' 'room' 'see'
 'show' 'stay' 'story' 'take' 'taxes' 'television' 'the' 'this' 'to' 'us'
 'wake' 'want' 'whatever' 'when' 'window' 'wonderland' 'work' 'you' 'your']
{'the': 38, 'matrix': 22, 'is': 19, 'everywhere': 11, 'its': 21, 'all': 0, 'around': 2, 'us': 41, 'here': 15, 'even': 10, 'in': 18, 'this': 39, 'room': 30, 'you': 49, 'can': 6, 'see': 31, 'it': 20, 'out': 25, 'your': 50, 'window': 46, 'or': 24, 'on': 23, 'television': 37, 'feel': 12, 'when': 45, 'go': 13, 'to': 40, 'work': 48, 'church': 7, 'pay': 26, 'taxes': 36, 'take': 35, 'blue': 5, 'pill': 27, 'and': 1, 'story': 34, 'ends': 9, 'wake': 42, 'bed': 3, 'believe': 4, 'whatever': 44, 'want': 43, 'red': 29, 'stay': 33, 'wonderland': 47, 'show': 32, 'how': 17, 'deep': 8, 'rabbit': 28, 'hole': 16, 'goes': 14}


In [40]:
import pandas as pd

# sorted() : 딕셔너리를 인덱스 기준으로 정렬
#     - vocabulary_ : 단어 사전와 인덱스 매핑 딕셔너리
#         - key: 단어, value: 인덱스
#     - items() : 딕셔너리의 (키, 값) 쌍을 튜플 형태로 반환
#     - lambda x: x[1] : 각 튜플의 두 번째 요소(인덱스)를 기준으로 정렬
vocab = sorted(X.vocabulary_.items(), key=lambda x: x[1])  
df_vocab = pd.DataFrame(vocab, columns=['word', 'index'])

df_vocab # 빈도를 기반에서 벡터화 시킴.

Unnamed: 0,word,index
0,all,0
1,and,1
2,around,2
3,bed,3
4,believe,4
5,blue,5
6,can,6
7,church,7
8,deep,8
9,ends,9


In [42]:
#### 단어별 등장 횟수 구하기 ####

# toarray() : 희소 행렬을 배열로 변환
# sum(axis=0) : 각 단어의 빈도 합계 계산
word_counts = text_vecs.toarray().sum(axis=0) # 각 단어의 빈도 합계

df_vocab['count'] = df_vocab['index'].apply(lambda i: word_counts[i]) # 단어 빈도 컬럼 추가
df_vocab = df_vocab.drop(columns=['index']) # 인덱스 컬럼 제거
df_vocab

Unnamed: 0,word,count
0,all,1
1,and,4
2,around,1
3,bed,1
4,believe,2
5,blue,1
6,can,1
7,church,1
8,deep,1
9,ends,1


In [44]:
# CountVectorizer 객체 생성 : 자동으로 소문자 변환, 토큰화 수행
# - stop_words='english' : 영어 불용어 제거
count_vectorizer = CountVectorizer(stop_words='english')
texts_vecs  = count_vectorizer.fit_transform(texts)
print(texts_vecs.toarray().shape)

vocab = sorted(count_vectorizer.vocabulary_.items(), key=lambda x: x[1])  
df_vocab = pd.DataFrame(vocab, columns=['word', 'index'])

df_vocab # 빈도를 기반에서 벡터화 시킴.

(2, 24)


Unnamed: 0,word,index
0,bed,0
1,believe,1
2,blue,2
3,church,3
4,deep,4
5,ends,5
6,feel,6
7,goes,7
8,hole,8
9,matrix,9


In [46]:
# ngram_range : n-그램 범위 설정
count_vectorizer = CountVectorizer(
    stop_words='english', 
    ngram_range=(1,2), # n-gram 범위 지정(최소값, 최대값)
    max_features=20 # 빈도수가 상위인 n개의 데이터 추출
    )
texts_vecs  = count_vectorizer.fit_transform(texts)
print(texts_vecs.toarray().shape)

vocab = sorted(count_vectorizer.vocabulary_.items(), key=lambda x: x[1])  
df_vocab = pd.DataFrame(vocab, columns=['word', 'index'])

df_vocab # 빈도를 기반에서 벡터화 시킴.

(2, 30)


Unnamed: 0,word,index
0,bed,0
1,bed believe,1
2,believe,2
3,believe red,3
4,believe want,4
5,blue,5
6,blue pill,6
7,church,7
8,church pay,8
9,deep,9


### BOW > TfidfVectorizer  
=> 단어의 중요성을 고려해서 가중치를 주는데,  
=> ✨✨✨ 내 문장 안에서의 빈도는 높아야되지만, 다른 문장들과 같이 있는 전체 문장에서는 빈도가 낮아야 중요한 의미를 가진다.


- TF-IDF == Term Frequency-Inverse Document Frequency

**용어** 
- $tf(t, d)$: 특정 단어 $t$가 문서 $d$에서 등장한 횟수 (Term Frequency)
- $df(t)$: 특정 단어 $t$가 등장한 문서의 수 (Document Frequency)
- $N$: 전체 문서의 수

**TF (Term Frequency)**
- 단어 $t$의 문서 $d$에서의 빈도를 계산하는데, 가장 일반적인 방법은 해당 단어의 단순 빈도로 정의한다.

$
tf(t, d) = \frac{\text{단어 } t \text{의 문서 } d \text{ 내 등장 횟수}}{\text{문서 } d \text{의 전체 단어 수}}
$

**IDF (Inverse Document Frequency)**
- 단어가 전체 문서에서 얼마나 중요한지를 계산한다.
- 특정 단어가 많은 문서에서 등장하면, 이 단어는 중요도가 낮아진다. 이를 반영하기 위해 아래와 같은 식을 사용한다.

$
idf(t) = \log\left(\frac{N}{1 + df(t)}\right)
$

- 여기서 $1$을 더하는 이유는, 특정 단어가 모든 문서에 등장하지 않을 경우 $df(t) = 0$이 되어, 분모가 $0$이 되는 것을 방지하기 위함이다.
  - 예를 들어, $\log(5/(1+1))$과 $\log(5/(1+2))$를 계산하면, 각각 $0.3979$와 $0.2218$이 된다.

**TF-IDF 계산**
- 위의 TF와 IDF를 결합하여 TF-IDF 가중치를 계산한다.

$
\text{tf-idf}(t, d) = tf(t, d) \times idf(t)
$

**TfidfVectorizer의 주요 파라미터**
<table border="1" cellpadding="5" cellspacing="0">
  <tr>
    <th>Parameter</th>
    <th>Description</th>
    <th>Default Value</th>
  </tr>
  <tr>
    <td><b>max_df</b></td>
    <td>문서의 비율 값으로서, 해당 비율 이상 나타나는 단어를 무시한다. <br> 예를 들어, max_df=0.8이면, 80% 이상의 문서에서 나타나는 단어는 제외된다.</td>
    <td>1.0</td>
  </tr>
  <tr>
    <td><b>min_df</b></td>
    <td>문서의 비율 값 또는 정수로, 해당 비율 이하 나타나는 단어를 무시한다. <br> 예를 들어, min_df=2이면, 두 개 이하의 문서에서만 나타나는 단어는 제외된다.</td>
    <td>1</td>
  </tr>
  <tr>
    <td><b>ngram_range</b></td>
    <td>(min_n, max_n) 형식으로, 사용할 n-gram의 범위를 정의한다. <br> 예를 들어, (1, 2)로 설정하면 unigram과 bigram을 고려한다.</td>
    <td>(1, 1)</td>
  </tr>
  <tr>
    <td>stop_words</td>
    <td>불용어를 지정할 수 있다. "english"로 설정하면 영어 불용어를 사용한다.</td>
    <td>None</td>
  </tr>
  <tr>
    <td>max_features</td>
    <td>벡터화할 때 고려할 최대 단어 수를 설정한다. 빈도순으로 상위 단어들이 선택된다.</td>
    <td>None</td>
  </tr>
  <tr>
    <td>use_idf</td>
    <td>IDF(역문서 빈도)를 사용할지 여부를 지정한다. False로 설정하면 단순히 TF 값만 사용한다.</td>
    <td>True</td>
  </tr>
  <tr>
    <td>smooth_idf</td>
    <td>IDF 계산 시, 0으로 나누는 것을 피하기 위해 추가적인 smoothing을 수행한다.</td>
    <td>True</td>
  </tr>
  <tr>
    <td>sublinear_tf</td>
    <td>TF 값에 대해 sublinear scaling (1 + log(tf))를 적용할지 지정한다.</td>
    <td>False</td>
  </tr>

In [47]:
from sklearn.feature_extraction.text import TfidfVectorizer # TF-IDF 벡터화 도구

tfidf_vectorizer = TfidfVectorizer(
    stop_words='english', 
    ngram_range=(1,2), # n-gram 범위 지정(최소값, 최대값)
    max_features=20 # 빈도수가 상위인 n개의 데이터 추출
)
texts_vecs  = tfidf_vectorizer.fit_transform(texts)

print(texts_vecs.toarray())
tfidf_vectorizer.get_feature_names_out()

[[0.         0.         0.         0.         0.         0.
  0.         0.4472136  0.4472136  0.         0.         0.
  0.         0.4472136  0.4472136  0.         0.         0.
  0.4472136  0.        ]
 [0.21821789 0.21821789 0.43643578 0.21821789 0.21821789 0.21821789
  0.21821789 0.         0.         0.21821789 0.21821789 0.21821789
  0.21821789 0.         0.         0.21821789 0.21821789 0.21821789
  0.         0.43643578]]


array(['bed', 'bed believe', 'believe', 'believe red', 'believe want',
       'blue', 'blue pill', 'church', 'church pay', 'deep', 'deep rabbit',
       'ends', 'ends wake', 'feel', 'feel work', 'goes', 'hole',
       'hole goes', 'matrix', 'pill'], dtype=object)