# 자연어 처리 NLP (Natural Language Processing) | 텍스트 분석 Text Analysis

- 자연어 처리: 사람이 사용하는 언어 전반에 대해서 이해하고 처리하는 분야
    - 음성인식, 번역, 감정분석, 질의응답, 언어 생성 등 포괄적 분야
- 텍스트 분석: 언어적 비정형 데이터에서 정보를 추출하고 분석하는 작업
    - 텍스트 통계적 분석, 주제 분류, 텍스트 군집, 유사도 분석 등

### 파이썬 텍스트분석 패키지 

| **로고 이미지**                                                                                                 | **패키지**   | **설명**                                            | **주요 특징 및 기능**                                                   | **API 문서 URL**                                  |
|------------------------------------------------------------------------------------------------------------|--------------|---------------------------------------------------|-----------------------------------------------------------------------|-------------------------------------------------|
| ![nltk](https://d.pr/i/9xVzCK+)                   | **nltk**     | 가장 오래된 NLP 라이브러리 중 하나로, 다양한 자연어 처리 도구와 코퍼스 제공 | 토큰화, 품사 태깅, 어간 추출, 불용어 제거, 문법 구조 분석, 감정 분석 등에 유용 | [NLTK API Docs](https://www.nltk.org/api/nltk.html) |
| ![gensim](https://radimrehurek.com/gensim/_static/images/gensim.png)                                       | **gensim**   | 주로 텍스트의 토픽 모델링과 문서 유사도 분석을 위한 라이브러리            | Word2Vec, FastText, LDA, 유사도 측정, 대용량 텍스트 처리에 최적화    | [Gensim API Docs](https://radimrehurek.com/gensim/) |
| ![spacy](https://upload.wikimedia.org/wikipedia/commons/thumb/8/88/SpaCy_logo.svg/320px-SpaCy_logo.svg.png) | **spacy**    | 빠르고 효율적인 NLP 처리를 위해 개발된 라이브러리로, 산업용 프로젝트에 적합     | 빠른 토큰화, 품사 태깅, NER, 구문 분석, 벡터 표현 제공              | [SpaCy API Docs](https://spacy.io/api)             |
| ![TextBlob](https://textblob.readthedocs.io/en/dev/_static/textblob-logo.png)                              | **TextBlob** | 간단한 NLP 작업을 위한 라이브러리로, 감정 분석과 텍스트 정제 등 지원  | 문법 교정, 감정 분석, 텍스트 번역 등과 같은 간단한 작업에 적합      | [TextBlob API Docs](https://textblob.readthedocs.io/en/dev/) |
| ![KoNLPy](https://konlpy.org/en/latest/_static/konlpy.png)                                                 | **KoNLPy**   | 한국어 자연어 처리를 위한 라이브러리로, 여러 형태소 분석기를 제공          | Kkma, Hannanum, Komoran, Twitter, Mecab 형태소 분석기 지원            | [KoNLPy API Docs](https://konlpy.org/en/latest/)  |

### NLTK (Natural Language Toolkit)
- 파이썬에서 텍스트 처리 및 자연어 처리를 쉽게 다룰 수 있게 해주는 오픈 소스 라이브러리
- NLTK는 다양한 언어 리소스와 알고리즘을 포함하고 있으며, 텍스트 마이닝, 텍스트 분석, 그리고 자연어 처리를 공부하거나 구현할 때 유용

**주요 기능**
1. **토큰화(Tokenization)**: 문장을 단어 또는 문장 단위로 나누는 작업
    - 예를 들어, `"I love NLP."`를 `['I', 'love', 'NLP', '.']`와 같이 나누는 기능을 제공한다.
2. **품사 태깅(Part-of-Speech Tagging)**: 각 단어에 대해 해당 품사를 태깅하는 작업
    - 예를 들어, `"I love NLP."`에 대해 `[('I', 'PRP'), ('love', 'VBP'), ('NLP', 'NNP'), ('.', '.')]`와 같이 태깅한다.
3. **명사구 추출(Chunking)**: 문장에서 명사구와 같은 특정 구문을 추출하는 작업
4. **어근 추출(Lemmatization) 및 어간 추출(Stemming)**: 단어의 기본 형태를 찾는 작업으로, 동사의 기본형을 찾거나 복수형을 단수형으로 변환하는 등의 작업 수행
5. **텍스트 분류(Classification)**: Naive Bayes, MaxEnt 등의 분류 모델을 사용해 텍스트 분류 가능
6. **코퍼스(corpus) 제공**: 영화 리뷰, 뉴스 기사 등 여러 텍스트 데이터셋을 포함하고 있어 학습과 실습에 유용

In [None]:
# !conda install nltk -y

3 channel Terms of Service accepted
Retrieving notices: done
Channels:
 - defaults
Platform: win-64
Collecting package metadata (repodata.json): done
Solving environment: done

## Package Plan ##

  environment location: C:\Users\Playdata\anaconda3\envs\ml_env

  added / updated specs:
    - nltk


The following packages will be downloaded:

    package                    |            build
    ---------------------------|-----------------
    ca-certificates-2025.9.9   |       haa95532_0         127 KB
    click-8.2.1                |  py312haa95532_0         329 KB
    colorama-0.4.6             |  py312haa95532_0          53 KB
    joblib-1.5.2               |  py312haa95532_0         517 KB
    nltk-3.9.1                 |  py312haa95532_0         2.7 MB
    openssl-3.0.18             |       h543e019_0         6.8 MB
    regex-2025.9.1             |  py312h02ab6af_0         364 KB
    tqdm-4.67.1                |  py312hfc267ef_0         187 KB
    --------------------------------



    current version: 25.5.1
    latest version: 25.9.1

Please update conda by running

    $ conda update -n base -c defaults conda




In [2]:
import nltk

nltk.__version__

'3.9.1'

In [3]:
# nltk 리소스 다운로드
nltk.download('punkt')       # 토큰화에 필요한 데이터
nltk.download('punkt_tab')   #
nltk.download('stopwords')   # 불용어 리스트 

[nltk_data] Downloading package punkt to
[nltk_data]     C:\Users\Playdata\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt.zip.
[nltk_data] Downloading package punkt_tab to
[nltk_data]     C:\Users\Playdata\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping tokenizers\punkt_tab.zip.
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\Playdata\AppData\Roaming\nltk_data...
[nltk_data]   Unzipping corpora\stopwords.zip.


True

In [5]:
from nltk.tokenize import word_tokenize, sent_tokenize

text = 'NLTK is a powerful library for NLP!!!!!'
word_tokenize(text)    # 단어 토큰화

['NLTK',
 'is',
 'a',
 'powerful',
 'library',
 'for',
 'NLP',
 '!',
 '!',
 '!',
 '!',
 '!']

In [6]:
# 감성분석
nltk.download('vader_lexicon')

[nltk_data] Downloading package vader_lexicon to
[nltk_data]     C:\Users\Playdata\AppData\Roaming\nltk_data...


True

### SentimentIntensityAnalyzer() 감정분석

In [None]:
# SentimentIntensityAnalyzer를 통한 감성분석
from nltk.sentiment.vader import SentimentIntensityAnalyzer

analyser = SentimentIntensityAnalyzer()

# vader 는 감정에 대한 사전이 있다. 그래서 그 감정에 대해서 점수를 환산한다.
# SentimentIntensityAnalyzer.polarity_scores(corpus)
# - neg 부정(0 ~ 1)
# - neu 중립(0 ~ 1)
# - pos 긍정(0 ~ 1)
# - compound 복합(-1 ~ 1)

analyser.polarity_scores("I love this product! It's amazing!")

{'neg': 0.0, 'neu': 0.259, 'pos': 0.741, 'compound': 0.8619}

In [15]:
analyser.polarity_scores("Love")

{'neg': 0.0, 'neu': 0.0, 'pos': 1.0, 'compound': 0.6369}

In [16]:
analyser.polarity_scores("Ugly")

{'neg': 1.0, 'neu': 0.0, 'pos': 0.0, 'compound': -0.5106}

In [17]:
analyser.polarity_scores("Satisfied")

{'neg': 0.0, 'neu': 0.0, 'pos': 1.0, 'compound': 0.4215}

In [18]:
analyser.polarity_scores("Death")

{'neg': 1.0, 'neu': 0.0, 'pos': 0.0, 'compound': -0.5994}

In [19]:
analyser.polarity_scores("soso")

{'neg': 0.0, 'neu': 1.0, 'pos': 0.0, 'compound': 0.0}

In [20]:
texts = ['I absolutely love this!',
         'This is okay, I guess',
         'I hate it so much'
         ]

for text in texts:
    score = analyser.polarity_scores(text)
    print(f'{text} | {score}')

I absolutely love this! | {'neg': 0.0, 'neu': 0.295, 'pos': 0.705, 'compound': 0.6989}
This is okay, I guess | {'neg': 0.0, 'neu': 0.612, 'pos': 0.388, 'compound': 0.2263}
I hate it so much | {'neg': 0.552, 'neu': 0.448, 'pos': 0.0, 'compound': -0.5719}


In [None]:
# 토큰화 결과가 감성분석에 끼치는 영향

# word_tokenize, sent_tokenize
# WordPunctTokenizer : 조금 더 세밀하게 토큰처리 -> 특수문자도 토큰 처리

from nltk.tokenize import WordPunctTokenizer
corpus = "I don't like the way she talks about mental well-being."


analyser = SentimentIntensityAnalyzer()

# WordPunctTokenizer: 특수문자도 토큰처리
word_punct_tokenizer = WordPunctTokenizer()
tokens1 = word_punct_tokenizer.tokenize(corpus)
print(tokens1)

print("===" * 40)

# 문장으로 결함, SentimentIntensityAnalyzer는 문장에 대해서 '감정'을 수치화하기
text1 = ' '.join(tokens1)
print(text1)
print(analyser.polarity_scores(text1))

['I', 'don', "'", 't', 'like', 'the', 'way', 'she', 'talks', 'about', 'mental', 'well', '-', 'being', '.']
I don ' t like the way she talks about mental well - being .
{'neg': 0.0, 'neu': 0.635, 'pos': 0.365, 'compound': 0.5574}


### word_tokenize(corpus)

In [None]:
tokens2 = word_tokenize(corpus)
print(tokens2)

print("===" * 40)

text2 = ' '.join(tokens2)
print(text2)
print(analyser.polarity_scores(text2))
# {'neg': 0.19, 'neu': 0.81, 'pos': 0.0, 'compound': -0.2755}
#  n't -> 부정도 해석석

['I', 'do', "n't", 'like', 'the', 'way', 'she', 'talks', 'about', 'mental', 'well-being', '.']
I do n't like the way she talks about mental well-being .
{'neg': 0.19, 'neu': 0.81, 'pos': 0.0, 'compound': -0.2755}


In [None]:
# -> word_tokenize() 는 '감정', '의미' 로 분리된 것으로 보인다. 사람이 이해하는 방향으로 토큰화
# "n't", 'well-being' 

### sent_tokenize(): 문장을 토큰화하기 -> 구두점 '.' 을 기준으로 잘랐구나?

In [33]:
text = '''The Matrix is everywhere its all around us, here even in this room.
You can see it out your window or on your television.
You feel it when you go to work, or go to church or pay your taxes.'''

sent_tokenize(text)     # 문장 토큰화

['The Matrix is everywhere its all around us, here even in this room.',
 'You can see it out your window or on your television.',
 'You feel it when you go to work, or go to church or pay your taxes.']

In [35]:
# 문장별 단어 토큰화
def tokenize_text(text):
    sentences = sent_tokenize(text)
    return [word_tokenize(sentence) for sentence in sentences]

tokenize_text(text)

[['The',
  'Matrix',
  'is',
  'everywhere',
  'its',
  'all',
  'around',
  'us',
  ',',
  'here',
  'even',
  'in',
  'this',
  'room',
  '.'],
 ['You',
  'can',
  'see',
  'it',
  'out',
  'your',
  'window',
  'or',
  'on',
  'your',
  'television',
  '.'],
 ['You',
  'feel',
  'it',
  'when',
  'you',
  'go',
  'to',
  'work',
  ',',
  'or',
  'go',
  'to',
  'church',
  'or',
  'pay',
  'your',
  'taxes',
  '.']]

In [None]:
# n-gram
# window slicing 방식으로 단어들이 '문맥의 정보'를 반영할 수 있겠금,창을 옆으로 이동하면서 n개의 묶어서 하나의 토큰으로 묶는다. 하나의 토큰은 하나의 '튜플'형태를 이룬다.

from nltk import ngrams

text = 'The Matrix is everywhere its all around us, here even in this room.'
tokens = word_tokenize(text)

bigram = ngrams(tokens, 2)
print(bigram)
print([token for token in bigram])

trigram = ngrams(tokens, 3)
print(trigram)
print([token for token in trigram])

<generator object ngrams at 0x0000018F9FFAD540>
[('The', 'Matrix'), ('Matrix', 'is'), ('is', 'everywhere'), ('everywhere', 'its'), ('its', 'all'), ('all', 'around'), ('around', 'us'), ('us', ','), (',', 'here'), ('here', 'even'), ('even', 'in'), ('in', 'this'), ('this', 'room'), ('room', '.')]
<generator object ngrams at 0x0000018F9FFAD840>
[('The', 'Matrix', 'is'), ('Matrix', 'is', 'everywhere'), ('is', 'everywhere', 'its'), ('everywhere', 'its', 'all'), ('its', 'all', 'around'), ('all', 'around', 'us'), ('around', 'us', ','), ('us', ',', 'here'), (',', 'here', 'even'), ('here', 'even', 'in'), ('even', 'in', 'this'), ('in', 'this', 'room'), ('this', 'room', '.')]


In [None]:
# 불용어(stopwords) 제거
from nltk.corpus import stopwords

print(stopwords)                   # 객체
print(stopwords.fileids())         # 지원되는 언어 목록 : 어떤 언어로 되어있는지
print(stopwords.words('english'))  # 영어 불용어 목록 : 영어에는 어떤 '불용어' stopwords 가 있는지
print(len(stopwords.words('english')))  # 영어 '불용어' 개수


<WordListCorpusReader in 'C:\\Users\\Playdata\\AppData\\Roaming\\nltk_data\\corpora\\stopwords'>
['albanian', 'arabic', 'azerbaijani', 'basque', 'belarusian', 'bengali', 'catalan', 'chinese', 'danish', 'dutch', 'english', 'finnish', 'french', 'german', 'greek', 'hebrew', 'hinglish', 'hungarian', 'indonesian', 'italian', 'kazakh', 'nepali', 'norwegian', 'portuguese', 'romanian', 'russian', 'slovene', 'spanish', 'swedish', 'tajik', 'tamil', 'turkish']
['a', 'about', 'above', 'after', 'again', 'against', 'ain', 'all', 'am', 'an', 'and', 'any', 'are', 'aren', "aren't", 'as', 'at', 'be', 'because', 'been', 'before', 'being', 'below', 'between', 'both', 'but', 'by', 'can', 'couldn', "couldn't", 'd', 'did', 'didn', "didn't", 'do', 'does', 'doesn', "doesn't", 'doing', 'don', "don't", 'down', 'during', 'each', 'few', 'for', 'from', 'further', 'had', 'hadn', "hadn't", 'has', 'hasn', "hasn't", 'have', 'haven', "haven't", 'having', 'he', "he'd", "he'll", 'her', 'here', 'hers', 'herself', "he's", '

1. **텍스트 정규화(Text Normalization)**
    - **목적**: 텍스트를 일관된 형태로 변환하여 처리 용이성을 높인다.
    - **주요 작업**
        - 모든 문자 소문자 변환 또는 대문자 변환
        - 숫자, 특수 문자 제거 또는 대체
        - 불필요한 공백 제거
2. **토큰화(Tokenization)**
    - **목적**: 문장을 단어 또는 하위 단위(subword)로 분할하여 분석한다.
    - **방법**:
        - 단순 공백 기준 분할
        - 형태소 분석기를 사용한 분할
3. **불용어 제거(Stopword Removal)**
    - **목적**: 의미에 크게 기여하지 않는 단어를 제거하여 데이터의 노이즈를 줄인다.
    - **예시 불용어**: "은", "는", "이", "가", "and", "the" 등
4. **어간 추출 및 표제어 추출(Stemming and Lemmatization)**
    - **목적**: 단어의 기본 형태를 추출하여 단어 수를 줄이고 일반화한다.
    - **예시:** "하는", "했다", "한다" → "하다"

In [51]:
text = 'The Matrix is everywhere its all around us, here even in this room.'

stopwords_list = stopwords.words('english')

# 토큰화
tokens = word_tokenize(text)
# 소문자 변환
tokens = [token.lower() for token in tokens]
# 불용어 제거
tokens = [token for token in tokens if token not in stopwords_list]

tokens

['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.']

In [49]:
text = 'The Matrix is everywhere its all around us, here even in this room.'

stopwords_list = stopwords.words('english')

tokens = []

for word in word_tokenize(text):       # 토큰화
    word = word.lower()               # 소문자 변환
    if word not in stopwords_list:    # 불용어 처리
        tokens.append(word)    

tokens

['matrix', 'everywhere', 'around', 'us', ',', 'even', 'room', '.']

### 특성 벡터화 Feature Vectorization
1. BOW(Bag of Words): 문서가 가지는 모든 단어를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 **빈도** 값을 부여해 피처 값을 추출하는 모델이다.
    
   <img src="https://miro.medium.com/v2/resize:fit:1400/1*S8uW62e3AbYw3gnylm4eDg.png" width="500px">

2. Word Embedding: 단어를 밀집 벡터(dense vector)로 표현하는 방법으로, 단어의 의미와 관계를 보존하며 벡터로 표현한다.
    
    <img src="https://miro.medium.com/v2/resize:fit:1400/1*jpnKO5X0Ii8PVdQYFO2z1Q.png" width="500px">


| **구분**             | **Bag-of-Words (BOW)**                             | **Word Embedding**                             |
|----------------------|--------------------------------------------------|------------------------------------------------|
| **개념**             | 문서를 단어의 출현 빈도로 표현                   | 단어를 실수 벡터로 표현                       |
| **특징**             | - 단어의 순서와 의미를 고려하지 않음             | - 단어 간 의미적 유사성을 반영                |
|                      | - 고차원, 희소 벡터 생성                         | - 밀집된 저차원 벡터 생성                     |
| **대표 방법**        | Count Vector, TF-IDF                             | Word2Vec, GloVe, FastText                     |
| **장점**             | - 구현이 간단하고 이해하기 쉬움                  | - 문맥 정보 반영 가능                         |
|                      | - 단순 텍스트 데이터 분석에 유용                 | - 유사한 단어를 벡터 공간 상에서 가깝게 위치 |
| **단점**             | - 의미적 관계와 단어의 순서 정보 없음            | - 많은 데이터와 학습 시간 필요                |
|                      | - 고차원 희소 벡터 문제                          | - 구현이 상대적으로 복잡                      |

- BOW > CountVectorizer

In [53]:
text1 = 'The Matrix is everywhere its all around us, here even in this room. \
You can see it out your window or on your television. \
You feel it when you go to work, or go to church or pay your taxes.'

text2 = 'You take the blue pill and the story ends.  You wake in your bed and you believe whatever you want to believe \
You take the red pill and you stay in Wonderland and I show you how deep the rabbit-hole goes.'

texts = [text1, text2]


In [None]:
from sklearn.feature_extraction.text import CountVectorizer

# CountVectorizer는 문서(문장 집합)에서 사용된 모든 단어의 빈도를 세어,
# 각 문서를 '단어 등장 빈도' 기반의 벡터로 변환하는 도구입니다.
count_vectorizer = CountVectorizer()

# fit()을 실행하면, 전체 텍스트에서 고유한 단어(토큰) 목록을 뽑아
# '단어 사전(vocabulary)'을 내부적으로 생성합니다.
count_vectorizer.fit(texts)

# transform()은 texts(문장 집합)를 
# 각 문서별로 단어가 몇 번 나왔는지 세어 벡터로 변환합니다.
text_vecs = count_vectorizer.transform(texts)

# 변환 결과 객체의 데이터 타입을 출력해봅니다.
# 희소 행렬(효율적인 저장 방식)과 numpy 배열 타입임을 알 수 있습니다.
print(type(text_vecs), type(text_vecs.toarray()))
# <class 'scipy.sparse._csr.csr_matrix'> <class 'numpy.ndarray'>

# 실제 CountVectorizer가 만든 희소 행렬 자체를 출력합니다.
text_vecs
# 실제 출력 예시:
# <2x51 sparse matrix of type '<class 'numpy.int64'>'
# 	with 58 stored elements in Compressed Sparse Row format>
# (2개의 문서, 51개의 고유 단어(특성)로 구성된 희소 행렬)

# 희소 행렬을 일반적인 2차원 numpy 배열로 변환해서 출력해 봅니다.
# 각 행이 문서, 각 열이 단어에 해당하며,
# 위치의 값은 그 단어가 문서에서 등장한 횟수입니다.
text_vecs.toarray()
# 실제 출력 예시:
# array([[1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 1, 2, 0, 1, 0, 0, 1, 1, 2, 1,
#         1, 1, 3, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 2, 1, 0, 0,
#         0, 1, 1, 0, 1, 3, 3],
#        [0, 4, 0, 1, 2, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 2, 0, 0, 0,
#         0, 0, 0, 0, 0, 2, 1, 1, 0, 0, 1, 1, 1, 2, 0, 0, 4, 0, 1, 0, 1, 1,
#         1, 0, 0, 1, 0, 7, 1]])
# (첫 번째 행: 첫 번째 문서의 단어별 등장 횟수, 두 번째 행: 두 번째 문서의 단어별 등장 횟수)

<class 'scipy.sparse._csr.csr_matrix'> <class 'numpy.ndarray'>


array([[1, 0, 1, 0, 0, 0, 1, 1, 0, 0, 1, 1, 1, 2, 0, 1, 0, 0, 1, 1, 2, 1,
        1, 1, 3, 1, 1, 0, 0, 0, 1, 1, 0, 0, 0, 0, 1, 1, 1, 1, 2, 1, 0, 0,
        0, 1, 1, 0, 1, 3, 3],
       [0, 4, 0, 1, 2, 1, 0, 0, 1, 1, 0, 0, 0, 0, 1, 0, 1, 1, 2, 0, 0, 0,
        0, 0, 0, 0, 0, 2, 1, 1, 0, 0, 1, 1, 1, 2, 0, 0, 4, 0, 1, 0, 1, 1,
        1, 0, 0, 1, 0, 7, 1]])

In [73]:
print(count_vectorizer.get_feature_names_out())
print(count_vectorizer.vocabulary_)    # key,value를 가지고 있는 dict
# key : 단어 사전에서 만들어진 단어
# value : 만들어진 단어의 index 번호
print(len(count_vectorizer.get_feature_names_out()))

['all' 'and' 'around' 'bed' 'believe' 'blue' 'can' 'church' 'deep' 'ends'
 'even' 'everywhere' 'feel' 'go' 'goes' 'here' 'hole' 'how' 'in' 'is' 'it'
 'its' 'matrix' 'on' 'or' 'out' 'pay' 'pill' 'rabbit' 'red' 'room' 'see'
 'show' 'stay' 'story' 'take' 'taxes' 'television' 'the' 'this' 'to' 'us'
 'wake' 'want' 'whatever' 'when' 'window' 'wonderland' 'work' 'you' 'your']
{'the': 38, 'matrix': 22, 'is': 19, 'everywhere': 11, 'its': 21, 'all': 0, 'around': 2, 'us': 41, 'here': 15, 'even': 10, 'in': 18, 'this': 39, 'room': 30, 'you': 49, 'can': 6, 'see': 31, 'it': 20, 'out': 25, 'your': 50, 'window': 46, 'or': 24, 'on': 23, 'television': 37, 'feel': 12, 'when': 45, 'go': 13, 'to': 40, 'work': 48, 'church': 7, 'pay': 26, 'taxes': 36, 'take': 35, 'blue': 5, 'pill': 27, 'and': 1, 'story': 34, 'ends': 9, 'wake': 42, 'bed': 3, 'believe': 4, 'whatever': 44, 'want': 43, 'red': 29, 'stay': 33, 'wonderland': 47, 'show': 32, 'how': 17, 'deep': 8, 'rabbit': 28, 'hole': 16, 'goes': 14}
51


In [82]:
import pandas as pd

vocab = sorted(count_vectorizer.vocabulary_.items(), key=lambda x:x[1])
vocab_df = pd.DataFrame(vocab, columns=['word', 'idx'])
display(vocab_df)

Unnamed: 0,word,idx
0,all,0
1,and,1
2,around,2
3,bed,3
4,believe,4
5,blue,5
6,can,6
7,church,7
8,deep,8
9,ends,9


In [85]:
# 단어별 등장 횟수 구하기하기
word_counts = text_vecs.toarray().sum(axis=0)
# text_vecs를 배열형태로 변형하여 합해보자

vocab_df['count'] = vocab_df['idx'].apply(lambda i:word_counts[i])

vocab_df = vocab_df.drop(columns=['idx'])
display(vocab_df)

Unnamed: 0,word,count
0,all,1
1,and,4
2,around,1
3,bed,1
4,believe,2
5,blue,1
6,can,1
7,church,1
8,deep,1
9,ends,1


In [None]:
# CountVectorizer(stop_words='언어'): 불용어 제거

count_vectorizer = CountVectorizer(stop_words='english')
texts_vecs = count_vectorizer.fit_transform(texts)
print(texts_vecs.toarray().shape)

(2, 24)


In [88]:
vocab = sorted(count_vectorizer.vocabulary_.items(), key=lambda x:x[1])
vocab_df = pd.DataFrame(vocab, columns=['word', 'idx'])
display(vocab_df)

Unnamed: 0,word,idx
0,bed,0
1,believe,1
2,blue,2
3,church,3
4,deep,4
5,ends,5
6,feel,6
7,goes,7
8,hole,8
9,matrix,9


In [None]:
# ngram_range 까지 추가해보기
count_vectorizer = CountVectorizer(
    stop_words='english',
    ngram_range=(1, 2), # n-gram 범위 지정 (최소값, 최대값)
    max_features=20     # 빈도수 상위인 n개의 데이터를 사용
    )
texts_vecs = count_vectorizer.fit_transform(texts)
print(texts_vecs.toarray().shape)

count_vectorizer.get_feature_names_out()

(2, 48)


array(['bed', 'bed believe', 'believe', 'believe red', 'believe want',
       'blue', 'blue pill', 'church', 'church pay', 'deep', 'deep rabbit',
       'ends', 'ends wake', 'feel', 'feel work', 'goes', 'hole',
       'hole goes', 'matrix', 'matrix room', 'pay', 'pay taxes', 'pill',
       'pill stay', 'pill story', 'rabbit', 'rabbit hole', 'red',
       'red pill', 'room', 'room window', 'stay', 'stay wonderland',
       'story', 'story ends', 'taxes', 'television', 'television feel',
       'wake', 'wake bed', 'want', 'want believe', 'window',
       'window television', 'wonderland', 'wonderland deep', 'work',
       'work church'], dtype=object)

- BOW > TfidfVectorizer

In [None]:
# 강사님 설명 메모중...(아래는 기존 메모입니다. - 필요하면 참고)
# 내 문장 안에서의 빈도는 Tf 높아야 하지만,
# 전체 문장에서 빈도가 높다는 것은 큰 의미가 없다?
# 다른 문장과 함께 일때는 이 단어에 대한 빈도가 낮아야 Tf 에서의 의미가 더 중요하게 인식된다.

## CountVectorizer와 TfidfVectorizer의 차이점

- **CountVectorizer**
    - 각 문서에서 단어가 등장한 횟수(빈도)를 단순히 세는 방법입니다.
    - 예시: 'apple apple banana'라는 문장이 있을 때, `{'apple': 2, 'banana': 1}`와 같이 카운트합니다.
    - 빈도 정보만 반영할 뿐, 단어가 다른 문서들에서 얼마나 드물게 등장했는지는 고려하지 않습니다.

- **TfidfVectorizer**
    - "등장 빈도(TF, Term Frequency)"와 "역문서 빈도(IDF, Inverse Document Frequency)"를 곱해서 각 단어의 가중치를 계산합니다.
    - **TF**: 특정 단어가 하나의 문서 내에서 얼마나 자주 등장하는지를 의미합니다.
    - **IDF**: 해당 단어가 전체 문서 집합에서 얼마나 드물게 등장하는지를 의미합니다.
    - 한 문서에서 많이 등장하지만 다른 문서들에선 자주 나오지 않는 단어일수록 TF-IDF 점수가 높아집니다.
    - 반대로 자주 등장하는 불용어(예: 'and', 'the')는 TF는 높을 수 있어도 IDF가 매우 낮아서 전체 TF-IDF 점수도 낮게 나옵니다.

---

### BOW > TfidfVectorizer의 의미

- **BOW(CountVectorizer) 방식보다, TfidfVectorizer 방식이 더 진화된 방식임을 의미합니다.**
- TfidfVectorizer는 단어의 빈도뿐 아니라, 각 단어의 "중요도"까지 세밀하게 반영한다는 점에서 BoW보다 더 나은 벡터화 방법입니다.

- TF-IDF == Term Frequency-Inverse Document Frequency

**용어** 
- $tf(t, d)$: 특정 단어 $t$가 문서 $d$에서 등장한 횟수 (Term Frequency)
- $df(t)$: 특정 단어 $t$가 등장한 문서의 수 (Document Frequency)
- $N$: 전체 문서의 수

**TF (Term Frequency)**
- 단어 $t$의 문서 $d$에서의 빈도를 계산하는데, 가장 일반적인 방법은 해당 단어의 단순 빈도로 정의한다.

$
tf(t, d) = \frac{\text{단어 } t \text{의 문서 } d \text{ 내 등장 횟수}}{\text{문서 } d \text{의 전체 단어 수}}
$

**IDF (Inverse Document Frequency)**
- 단어가 전체 문서에서 얼마나 중요한지를 계산한다.
- 특정 단어가 많은 문서에서 등장하면, 이 단어는 중요도가 낮아진다. 이를 반영하기 위해 아래와 같은 식을 사용한다.

$
idf(t) = \log\left(\frac{N}{1 + df(t)}\right)
$

- 여기서 $1$을 더하는 이유는, 특정 단어가 모든 문서에 등장하지 않을 경우 $df(t) = 0$이 되어, 분모가 $0$이 되는 것을 방지하기 위함이다.
  - 예를 들어, $\log(5/(1+1))$과 $\log(5/(1+2))$를 계산하면, 각각 $0.3979$와 $0.2218$이 된다.

**TF-IDF 계산**
- 위의 TF와 IDF를 결합하여 TF-IDF 가중치를 계산한다.

$
\text{tf-idf}(t, d) = tf(t, d) \times idf(t)
$

**TfidfVectorizer의 주요 파라미터**
<table border="1" cellpadding="5" cellspacing="0">
  <tr>
    <th>Parameter</th>
    <th>Description</th>
    <th>Default Value</th>
  </tr>
  <tr>
    <td><b>max_df</b></td>
    <td>문서의 비율 값으로서, 해당 비율 이상 나타나는 단어를 무시한다. <br> 예를 들어, max_df=0.8이면, 80% 이상의 문서에서 나타나는 단어는 제외된다.</td>
    <td>1.0</td>
  </tr>
  <tr>
    <td><b>min_df</b></td>
    <td>문서의 비율 값 또는 정수로, 해당 비율 이하 나타나는 단어를 무시한다. <br> 예를 들어, min_df=2이면, 두 개 이하의 문서에서만 나타나는 단어는 제외된다.</td>
    <td>1</td>
  </tr>
  <tr>
    <td><b>ngram_range</b></td>
    <td>(min_n, max_n) 형식으로, 사용할 n-gram의 범위를 정의한다. <br> 예를 들어, (1, 2)로 설정하면 unigram과 bigram을 고려한다.</td>
    <td>(1, 1)</td>
  </tr>
  <tr>
    <td>stop_words</td>
    <td>불용어를 지정할 수 있다. "english"로 설정하면 영어 불용어를 사용한다.</td>
    <td>None</td>
  </tr>
  <tr>
    <td>max_features</td>
    <td>벡터화할 때 고려할 최대 단어 수를 설정한다. 빈도순으로 상위 단어들이 선택된다.</td>
    <td>None</td>
  </tr>
  <tr>
    <td>use_idf</td>
    <td>IDF(역문서 빈도)를 사용할지 여부를 지정한다. False로 설정하면 단순히 TF 값만 사용한다.</td>
    <td>True</td>
  </tr>
  <tr>
    <td>smooth_idf</td>
    <td>IDF 계산 시, 0으로 나누는 것을 피하기 위해 추가적인 smoothing을 수행한다.</td>
    <td>True</td>
  </tr>
  <tr>
    <td>sublinear_tf</td>
    <td>TF 값에 대해 sublinear scaling (1 + log(tf))를 적용할지 지정한다.</td>
    <td>False</td>
  </tr>

In [94]:
from sklearn.feature_extraction.text import TfidfVectorizer

tfidf_vectorizer = TfidfVectorizer()
texts_vecs = tfidf_vectorizer.fit_transform(texts)

print(texts_vecs.toarray())
tfidf_vectorizer.get_feature_names_out()

[[0.13847566 0.         0.13847566 0.         0.         0.
  0.13847566 0.13847566 0.         0.         0.13847566 0.13847566
  0.13847566 0.27695132 0.         0.13847566 0.         0.
  0.09852657 0.13847566 0.27695132 0.13847566 0.13847566 0.13847566
  0.41542698 0.13847566 0.13847566 0.         0.         0.
  0.13847566 0.13847566 0.         0.         0.         0.
  0.13847566 0.13847566 0.09852657 0.13847566 0.19705315 0.13847566
  0.         0.         0.         0.13847566 0.13847566 0.
  0.13847566 0.29557972 0.29557972]
 [0.         0.4473721  0.         0.11184302 0.22368605 0.11184302
  0.         0.         0.11184302 0.11184302 0.         0.
  0.         0.         0.11184302 0.         0.11184302 0.11184302
  0.15915447 0.         0.         0.         0.         0.
  0.         0.         0.         0.22368605 0.11184302 0.11184302
  0.         0.         0.11184302 0.11184302 0.11184302 0.22368605
  0.         0.         0.31830893 0.         0.07957723 0.
  0.1118

array(['all', 'and', 'around', 'bed', 'believe', 'blue', 'can', 'church',
       'deep', 'ends', 'even', 'everywhere', 'feel', 'go', 'goes', 'here',
       'hole', 'how', 'in', 'is', 'it', 'its', 'matrix', 'on', 'or',
       'out', 'pay', 'pill', 'rabbit', 'red', 'room', 'see', 'show',
       'stay', 'story', 'take', 'taxes', 'television', 'the', 'this',
       'to', 'us', 'wake', 'want', 'whatever', 'when', 'window',
       'wonderland', 'work', 'you', 'your'], dtype=object)