# 자연어 처리(Natural Language Processing, NLP) 개요
- 자연어처리(Natural Language Processing, NLP)는 인간의 언어를 컴퓨터가 이해하고 처리할 수 있도록 하는 인공지능의 한 분야입니다.
- NLP는 텍스트 분석, 기계 번역, 감성 분석, 챗봇 등 다양한 응용 분야에서 활용됩니다.

# 텍스트 처리 기본 함수

## 1. 텍스트 정제
- 텍스트 데이터를 처리할 때 가장 먼저 해야 할 일은 텍스트 정제입니다.
- 아래는 정규표현식을 사용한 기본적인 텍스트 정제 함수의 예시입니다.

### 정규표현식 (Regular Expressions)
- 정규표현식은 문자열에서 특정 패턴을 찾거나 조작하는 데 사용되는 강력한 도구입니다.
    - .: 임의의 한 문자
    - ^: 문자열의 시작
    - $: 문자열의 끝
    - *: 0회 이상 반복
    - +: 1회 이상 반복
    - ?: 0회 또는 1회
    - []: 문자 클래스
    - [^]: 부정 문자 클래스
    - \d: 숫자
    - \w: 단어 문자 (알파벳, 숫자, 언더스코어)
    - \s: 공백 문자

In [None]:
import re

text = "Hello, my number is 123-456-7890 and my email is example@email.com"

'''
re.findall(pattern, text)
- pattern에 매칭되는 모든 문자열을 리스트로 반환한다.
- 예를 들어 text에 "123-456-7890"이 있으면 ["123-456-7890"] 반환
'''

# 전화번호 찾기
phone_pattern = r'\d{3}-\d{3}-\d{4}'
phone_numbers = re.findall(phone_pattern, text)

# 이메일 찾기
# 이 패턴은 일반적인 이메일 주소 형태를 찾아내는 정규표현식
# \b는 단어 경계를 의미, [A-Za-z0-9._%+-]+는 이메일 시작 부분(계정명)의 가능한 문자들
# @[A-Za-z0-9.-]+는 '@' 뒤에 오는 도메인 이름 패턴
# \.[A-Z|a-z]{2,}는 최종 도메인 (예: .com, .net 등) 2글자 이상
email_pattern = r'\b[A-Za-z0-9._%+-]+@[A-Za-z0-9.-]+\.[A-Z|a-z]{2,}\b'
emails = re.findall(email_pattern, text)

print("Phone numbers:", phone_numbers)
print("Emails:", emails)

Phone numbers: ['123-456-7890']
Emails: ['example@email.com']


In [None]:
import re

def clean_text(text):
    '''
    함수 설명:
    입력: text(문자열)
    출력: 정제된 text(문자열)
    역할: 입력된 문자열을 소문자로 변환하고, 특수문자를 제거하며, 중복 공백을 하나로 치환하여 깔끔한 형태로 반환한다.
    '''
    # 소문자로 변환
    text = text.lower()
    # 특수문자 제거
    text = re.sub(r'[^a-zA-Z0-9\s]', '', text)
    # 여러 개의 공백을 하나로 치환
    text = re.sub(r'\s+', ' ', text).strip()
    return text

# 사용 예시
text = "Hello, World!   How are you??"
cleaned_text = clean_text(text)
print(cleaned_text)  # 출력: hello world how are you

hello world how are you


## 2. 토큰화 (Tokenization)
- 토큰화는 텍스트를 더 작은 단위(토큰)로 나누는 과정입니다. 주로 단어나 서브워드 단위로 나눕니다.

In [None]:
from nltk.tokenize import word_tokenize  # nltk의 단어 토큰화 함수 - 문자열을 단어 단위로 나눌 때 사용
import nltk  # 자연어 처리 패키지 NLTK
nltk.download('punkt')     # 'punkt' 토크나이저 모델 다운로드 - 영어 단어/문장 토큰화를 위해 필요
nltk.download('punkt_tab') # punkt_tab 리소스 다운로드 (NLTK 내부 리소스, punkt 토크나이저 관련 추가 데이터)

def tokenize_words(text):
    # 함수 설명:
    #   입력: text(문자열)
    #   출력: 단어로 나뉘어진 리스트 (예: "Hello world" -> ["Hello", "world"])
    #   역할: 주어진 문자열을 단어 단위로 분리하여 리스트로 반환한다.
    return word_tokenize(text)

# 사용 예시 - 단어 토큰화
text = "Natural language processing is fascinating!"
print(tokenize_words(text)) # 예측 출력: ['Natural', 'language', 'processing', 'is', 'fascinating', '!']
print(text.split()) # 문자열 기본 split(), 공백 기준으로 나누기 (['Natural', 'language', 'processing', 'is', 'fascinating!'])

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package punkt_tab to /root/nltk_data...
[nltk_data]   Unzipping tokenizers/punkt_tab.zip.


['Natural', 'language', 'processing', 'is', 'fascinating', '!']
['Natural', 'language', 'processing', 'is', 'fascinating!']


In [None]:
from nltk.tokenize import sent_tokenize

def tokenize_sentences(text):
    # 함수 설명:
    #   입력: text(문자열)
    #   출력: 문장 리스트 (예: "Hello world. How are you?" -> ["Hello world.", "How are you?"])
    #   역할: 주어진 문자열을 문장 단위로 분리하여 리스트로 반환한다.
    return sent_tokenize(text)

# 사용 예시 - 문장 토큰화
text = "Hello world. How are you? I'm fine, thank you."
sentences = tokenize_sentences(text)
print(sentences)  # 출력: ['Hello world.', 'How are you?', "I'm fine, thank you."]

In [None]:
!pip install konlpy

Collecting konlpy
  Downloading konlpy-0.6.0-py2.py3-none-any.whl.metadata (1.9 kB)
Collecting JPype1>=0.7.0 (from konlpy)
  Downloading jpype1-1.5.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl.metadata (4.9 kB)
Downloading konlpy-0.6.0-py2.py3-none-any.whl (19.4 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m19.4/19.4 MB[0m [31m35.3 MB/s[0m eta [36m0:00:00[0m
[?25hDownloading jpype1-1.5.1-cp310-cp310-manylinux_2_17_x86_64.manylinux2014_x86_64.whl (493 kB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m493.8/493.8 kB[0m [31m13.0 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: JPype1, konlpy
Successfully installed JPype1-1.5.1 konlpy-0.6.0


In [None]:
tagger = Okt()
sentence = '언제나 현재에 집중할 수 있다면 행복할 것이다'
# 형태소 분석 (morphs): 문장을 형태소 단위로 나눈다. 예: ['언제나', '현재', '에', '집중', '할', '수', '있다면', '행복', '할', '것', '이다']
print(tagger.morphs(sentence))
# 품사 태깅 (pos): 문장을 형태소 단위로 나누고 각 형태소에 대한 품사 정보를 부여한다.
# 예: [('언제나', 'Adverb'), ('현재', 'Noun'), ('에', 'Josa'), ('집중', 'Noun'), ('할', 'Verb'), ...]
print(tagger.pos(sentence))

['언제나', '현재', '에', '집중', '할', '수', '있다면', '행복할', '것', '이다']
[('언제나', 'Adverb'), ('현재', 'Noun'), ('에', 'Josa'), ('집중', 'Noun'), ('할', 'Verb'), ('수', 'Noun'), ('있다면', 'Adjective'), ('행복할', 'Adjective'), ('것', 'Noun'), ('이다', 'Josa')]


## 3. 임베딩 (Embedding)
- 임베딩은 단어나 문장을 고차원의 벡터 공간에 매핑하는 과정입니다.
- 이를 통해 텍스트 데이터를 수치화하여 기계학습 모델에 입력할 수 있습니다.
- Word2Vec은 단어를 벡터로 표현하는 대표적인 단어 임베딩 기법입니다. 이 모델은 **단어**의 의미와 관계를 고차원 **벡터 공간**에 매핑합니다.

### Word2Vec 모델 설명
- 작동 원리: Word2Vec은 단어의 문맥(주변 단어)을 기반으로 학습합니다. 비슷한 문맥에서 사용되는 단어들은 벡터 공간에서 서로 가깝게 위치하게 됩니다.

 <img src="https://img1.daumcdn.net/thumb/R1280x0/?scode=mtistory2&fname=https%3A%2F%2Fblog.kakaocdn.net%2Fdn%2FcbwUqX%2FbtsA2uduwBl%2FlKBfAfhdOHIVJDZTyyaBk1%2Fimg.png" width="500">
- 학습 방식:
  1. CBOW(Continuous Bag of Words): 주변 단어들로 중심 단어를 예측
  2. Skip-gram: 중심 단어로 주변 단어들을 예측

- 주요 매개변수:
  - vector_size: 각 단어를 표현할 벡터의 차원 수. 보통 100~300 사이의 값을 사용합니다.
  - window: 문맥을 고려할 단어의 범위. 앞뒤로 몇 개의 단어를 볼지 결정합니다.
  - min_count: 학습에 사용할 단어의 최소 등장 횟수. 데이터 크기에 따라 조정합니다.
  - workers: 병렬 처리에 사용할 CPU 코어 수. 학습 속도를 높일 수 있습니다.
- 벡터 연산: Word2Vec으로 학습된 벡터는 의미 있는 벡터 연산이 가능합니다.
  - 예: vec('king') - vec('man') + vec('woman') ≈ vec('queen')
- 유사도 계산: 코사인 유사도를 사용하여 단어 간 유사도를 계산합니다.
- 한계점:
  - 동음이의어나 문맥에 따른 의미 변화를 잘 포착하지 못할 수 있습니다.
  - 학습 데이터에 없는 단어(OOV, Out-of-Vocabulary)는 처리할 수 없습니다.
  - Word2Vec은 간단하면서도 강력한 단어 임베딩 기법으로, 다양한 NLP 작업의 기초가 됩니다.
  - **최근에는 BERT, GPT 등의 문맥을 더 잘 반영하는 고급 임베딩 기법들도 많이 사용되고 있습니다.**

In [None]:
from gensim.models import Word2Vec

# 예시 문장들
# 각 문장은 이미 토큰화되어 단어 리스트 형태로 제공됩니다.
sentences = [['natural', 'language', 'processing'],
             ['machine', 'learning', 'is', 'interesting'],
             ['deep', 'learning', 'is', 'a', 'subset', 'of', 'machine', 'learning']]

# Word2Vec 모델 학습
# vector_size: 각 단어를 표현할 벡터의 차원 수
# window: 주변 단어를 고려할 범위 (앞뒤로 5개 단어를 고려)
# min_count: 최소 등장 횟수 (여기서는 1로 설정하여 모든 단어를 포함)
# workers: 학습에 사용할 CPU 코어 수
model = Word2Vec(sentences, vector_size=100, window=5, min_count=1, workers=4)

# 단어 벡터 확인
# 'language' 단어의 벡터 표현을 가져옵니다.
vector = model.wv['language']
print("'language' 단어의 벡터 표현:")
print(vector)  # 100차원의 벡터 출력

# 유사한 단어 찾기
# 'learning' 단어와 가장 유사한 3개의 단어를 찾습니다.
similar_words = model.wv.most_similar('learning', topn=3)
print("\n'learning'과 가장 유사한 단어들:")
for word, score in similar_words:
    print(f"{word}: {score:.4f}")

'language' 단어의 벡터 표현:
[-0.00515624 -0.00666834 -0.00777684  0.00831073 -0.00198234 -0.00685496
 -0.00415439  0.00514413 -0.00286914 -0.00374966  0.00162143 -0.00277629
 -0.00158436  0.00107449 -0.00297794  0.00851928  0.00391094 -0.00995886
  0.0062596  -0.00675425  0.00076943  0.00440423 -0.00510337 -0.00211067
  0.00809548 -0.00424379 -0.00763626  0.00925791 -0.0021555  -0.00471943
  0.0085708   0.00428334  0.00432484  0.00928451 -0.00845308  0.00525532
  0.00203935  0.00418828  0.0016979   0.00446413  0.00448629  0.00610452
 -0.0032021  -0.00457573 -0.00042652  0.00253373 -0.00326317  0.00605772
  0.00415413  0.00776459  0.00256927  0.00811668 -0.00138721  0.00807793
  0.00371702 -0.00804732 -0.00393361 -0.00247188  0.00489304 -0.00087216
 -0.00283091  0.00783371  0.0093229  -0.00161493 -0.00515925 -0.00470176
 -0.00484605 -0.00960283  0.00137202 -0.00422492  0.00252671  0.00561448
 -0.00406591 -0.00959658  0.0015467  -0.00670012  0.00249517 -0.00378063
  0.00707842  0.00064022  0.0

## 4. 텍스트 전처리 파이프라인
- 실제 NLP 프로젝트에서는 여러 전처리 단계를 조합하여 파이프라인을 구성합니다.

In [None]:
def preprocess_text(text):
    # 텍스트 정제
    cleaned_text = clean_text(text)
    # 토큰화
    tokens = tokenize_words(cleaned_text)
    # 불용어 제거 (예시로 간단한 불용어 리스트 사용)
    stop_words = set(['is', 'the', 'a', 'an'])
    tokens = [word for word in tokens if word not in stop_words]
    return tokens

# 사용 예시
text = "Natural Language Processing is the future of AI!"
processed_text = preprocess_text(text)
print(processed_text)  # 출력: ['natural', 'language', 'processing', 'future', 'ai']

## 5. 기타 텍스트 처리 방법 예시

In [None]:
# 문자 포함 여부 확인
sentence = 'I love you'
print ('love' in sentence)

True


In [None]:
# 쪼개기
sentence.split()

['I', 'love', 'you']

In [None]:
# 대체
sentence =  "지금 시간은 1시 1분 입니다"
sentence.replace("1시", "3시").replace("1분", "50분")

'지금 시간은 3시 50분 입니다'

In [None]:
# 쪼개서 찾기
sentence.split().index('love')

1

In [None]:
# 인덱싱 및 뒤집기
sentence.split()[2][::-1]

'uoy'

In [None]:
# 소문자로 변환
sentence_lower = sentence.lower()
print(sentence_lower)
# 대문자로 변환
sentence_upper = sentence.upper()
print(sentence_upper)

i love you
I LOVE YOU


## 6. 불용어 처리
- 불용어(Stop words)는 텍스트 분석에서 큰 의미를 갖지 않는 단어들을 말합니다.
- 자주 등장하지만 실제 분석에는 크게 기여하지 않습니다.
- 불용어의 특징
  1. 문장 구성에는 필수적이지만 문맥적 의미가 적음 (예: the, a, an, is, I, my 등)
  2. 텍스트에 빈번하게 나타나 중요한 단어로 오인될 수 있음

  <img src="https://nanx.me/image/wordcloud.png" width="300">
  <img src="https://i.sstatic.net/POUqB.png" witdh="300">
  
  <불용어 처리 여부에 따른 워드클라우드 이미지 예시>

In [None]:
# NLTK 사용 (영어)
from nltk.corpus import stopwords
from nltk.tokenize import word_tokenize

stop_words = set(stopwords.words('english'))
text = "This is an example sentence demonstrating stop word removal."
tokens = word_tokenize(text)
filtered_text = [word for word in tokens if word.lower() not in stop_words]

print(filtered_text)

In [None]:
# 사용자 정의 불용어 목록 사용 (한국어)
stop_words = ['은', '는', '이', '가', '을', '를', '에', '의']
text = "자연어 처리는 컴퓨터 과학의 중요한 분야입니다."
tokens = text.split()
filtered_text = [word for word in tokens if word not in stop_words]

print(filtered_text)

In [None]:
from nltk import ngrams

sentence = 'There is no royal road to learning'
bigram = list(ngrams(sentence.split(),2))
print(bigram)

[('There', 'is'), ('is', 'no'), ('no', 'royal'), ('royal', 'road'), ('road', 'to'), ('to', 'learning')]


In [None]:
trigram = list(ngrams(sentence.split(),3))
print(trigram)

[('There', 'is', 'no'), ('is', 'no', 'royal'), ('no', 'royal', 'road'), ('royal', 'road', 'to'), ('road', 'to', 'learning')]


In [None]:
from textblob import TextBlob

blob = TextBlob(sentence)
blob.ngrams(n=2)

[WordList(['There', 'is']),
 WordList(['is', 'no']),
 WordList(['no', 'royal']),
 WordList(['royal', 'road']),
 WordList(['road', 'to']),
 WordList(['to', 'learning'])]

In [None]:
from textblob import TextBlob

blob = TextBlob(sentence)
blob.ngrams(n=3)

[WordList(['There', 'is', 'no']),
 WordList(['is', 'no', 'royal']),
 WordList(['no', 'royal', 'road']),
 WordList(['royal', 'road', 'to']),
 WordList(['road', 'to', 'learning'])]

### PoS(Parts of Speech) 태깅

* PoS는 품사를 의미하며, PoS 태깅은 문장 내에서 단어에 해당하는 각 품사를 태깅

In [None]:
import nltk
nltk.download('punkt')

from nltk import word_tokenize

[nltk_data] Downloading package punkt to /root/nltk_data...
[nltk_data]   Package punkt is already up-to-date!


## 문서 단어 행렬(DTM)

문서 단어 행렬(Document-Term Matrix, DTM)은 여러 문서에서 등장하는 단어들의 출현 빈도를 하나의 행렬로 표현한 구조입니다.

DTM의 주요 특징과 구성을 좀 더 자세히 설명하면 다음과 같습니다:

- 행(row): 각 행은 하나의 문서를 나타냅니다.
- 열(column): 각 열은 하나의 단어를 나타냅니다. 이 단어들은 전체 문서에서 등장한 고유 단어들로 구성된 단어 집합(vocabulary)에 해당합니다.
- 값(value): 각 셀에 저장된 값은 특정 문서에서 특정 단어가 등장한 빈도를 의미합니다.

구성 과정:
먼저 전체 문서에서 등장하는 모든 단어를 추출하여 고유한 단어 집합을 만듭니다.
각 문서에 대해 단어 집합에 포함된 각 단어의 출현 횟수를 세어 빈도를 기록합니다.
이렇게 하면, 단어 집합의 크기만큼 열을 가진 행렬이 생성되며, 각 문서는 단어 출현 빈도로 벡터화됩니다

장점: 문서를 고정된 길이의 벡터로 표현할 수 있어 머신러닝 모델에서 다루기 쉽습니다.

단점: 단어 순서가 무시되므로 문맥을 파악하기 어렵고, 단어 집합 크기가 커질수록 행렬이 매우 커져 메모리 소모가 많습니다.

In [None]:
from sklearn.feature_extraction.text import CountVectorizer

corpus = [ "I love natural language processing",
          "I love programming in Python",
        "natural language processing is exciting",
        "Harry Potter is a series of seven fantasy fantasy novels"]

vector = CountVectorizer(stop_words='english')
bow = vector.fit_transform(corpus)

print(bow.toarray())
print(vector.vocabulary_)

[[0 0 0 1 1 1 0 0 1 0 0 0 0]
 [0 0 0 0 1 0 0 0 0 1 1 0 0]
 [1 0 0 1 0 1 0 0 1 0 0 0 0]
 [0 2 1 0 0 0 1 1 0 0 0 1 1]]
{'love': 4, 'natural': 5, 'language': 3, 'processing': 8, 'programming': 9, 'python': 10, 'exciting': 0, 'harry': 2, 'potter': 7, 'series': 11, 'seven': 12, 'fantasy': 1, 'novels': 6}


In [None]:
import pandas as pd
pd.DataFrame(bow.toarray(), columns=vector.get_feature_names_out())

Unnamed: 0,exciting,fantasy,harry,language,love,natural,novels,potter,processing,programming,python,series,seven
0,0,0,0,1,1,1,0,0,1,0,0,0,0
1,0,0,0,0,1,0,0,0,0,1,1,0,0
2,1,0,0,1,0,1,0,0,1,0,0,0,0
3,0,2,1,0,0,0,1,1,0,0,0,1,1


## 어휘 빈도-문서 역빈도(TF-IDF) 분석

- TF-IDF(Term Frequency - Inverse Document Frequency)는 정보 검색과 텍스트 마이닝에서 이용하는 가중치로, 여러 문서로 이루어진 문서군이 있을 때 어떤 단어가 특정 문서 내에서 얼마나 중요한 것인지를 나타내는 통계적 수치이다.

- 문서의 핵심어를 추출하거나, 검색 엔진에서 검색 결과의 순위를 결정하거나, 문서들 사이의 비슷한 정도를 구하는 등의 용도로 사용할 수 있다.

* **어휘 빈도**는 특정 문서에서 특정 단어가 많이 등장하는 것을 의미

$$ tf_{x,y} $$

* **역문서 빈도**는 다른 문서에서 등장하지 않는 단어 빈도를 의미

$$ log(N/df_x) $$      

* **어휘 빈도-문서 역빈도**는 다음과 같이 표현

$$ W_{x,y} = tf_{x,y} * log(N/df_x) $$

- 따라서 특정 단어의 tf-idf 값이 높다면 해당 단어는 다른 문서에는 잘 등장하지 않으며, 해당 문서에서 자주 등장하는 핵심어일 수 있음.

* tf-idf를 편리하게 계산하기 위해 `scikit-learn`의 `tfidfvectorizer`를 이용
* 앞서 계산한 단어 빈도 수를 입력하여 tf-idf로 변환

In [None]:
vector.vocabulary_.keys()

dict_keys(['love', 'natural', 'language', 'processing', 'programming', 'python', 'exciting'])

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

corpus = [ "I love natural language processing",
          "I love programming in Python",
        "natural language processing is exciting",
        "Harry Potter is a series of seven fantasy fantasy novels"]

tfidf = TfidfVectorizer(stop_words='english').fit(corpus)

print(tfidf.transform(corpus).toarray())
print(tfidf.vocabulary_)

[[0.         0.         0.         0.5        0.5        0.5
  0.         0.         0.5        0.         0.         0.
  0.        ]
 [0.         0.         0.         0.         0.48693426 0.
  0.         0.         0.         0.61761437 0.61761437 0.
  0.        ]
 [0.59081908 0.         0.         0.46580855 0.         0.46580855
  0.         0.         0.46580855 0.         0.         0.
  0.        ]
 [0.         0.66666667 0.33333333 0.         0.         0.
  0.33333333 0.33333333 0.         0.         0.         0.33333333
  0.33333333]]
{'love': 4, 'natural': 5, 'language': 3, 'processing': 8, 'programming': 9, 'python': 10, 'exciting': 0, 'harry': 2, 'potter': 7, 'series': 11, 'seven': 12, 'fantasy': 1, 'novels': 6}


* 좀 더 편리하게 확인하기 위해 데이터프레임으로 변환

In [None]:
pd.DataFrame(tfidf.transform(corpus).toarray(), columns=tfidf.get_feature_names_out())

Unnamed: 0,exciting,fantasy,harry,language,love,natural,novels,potter,processing,programming,python,series,seven
0,0.0,0.0,0.0,0.5,0.5,0.5,0.0,0.0,0.5,0.0,0.0,0.0,0.0
1,0.0,0.0,0.0,0.0,0.486934,0.0,0.0,0.0,0.0,0.617614,0.617614,0.0,0.0
2,0.590819,0.0,0.0,0.465809,0.0,0.465809,0.0,0.0,0.465809,0.0,0.0,0.0,0.0
3,0.0,0.666667,0.333333,0.0,0.0,0.0,0.333333,0.333333,0.0,0.0,0.0,0.333333,0.333333


TF-IDF 값의 해석

- 높은 TF-IDF 값:
-- 문서 내에서 단어의 출현 빈도가 높다는 의미입니다 (TF가 높음).
-- 전체 문서에서 비교적 드물게 등장하는 단어라는 의미입니다 (IDF가 높음).
-- 문서에서 상대적으로 중요한 단어일 가능성 및 해당 문서의 주제나 핵심 내용을 잘 대표할 가능성이 큽니다.
예를 들어, 기술 문서에서 특정 용어에 높은 TF-IDF 값이 있다면, 이 용어가 문서의 주요 개념임을 시사할 수 있습니다.

- 낮은 TF-IDF 값:
-- 문서 내에서 자주 등장하지 않거나, 전체 문서에서 흔하게 등장하는 단어일 가능성이 큽니다.
-- 정보가 부족한 단어일 가능성이 높습니다.
예를 들어, "그리고", "하지만"과 같은 접속사는 거의 모든 문서에서 등장하지만, 문서의 주제를 나타내는 중요한 단어로 보기 어렵기 때문에 TF-IDF 값이 낮게 나옵니다.