TF-IDF (Term Frequency – Inverse Document Frequency)

TF-IDF는 문서 내에서 단어의 중요도를 평가하기 위한 통계적 방법입니다. 

텍스트 분석과 정보 검색에서 자주 사용되며, 특정 단어가 문서에서 얼마나 중요한지를 나타냅니다.

 TF (Term Frequency)
TF는 단어의 빈도입니다.

 IDF (Inverse Document Frequency)
IDF는 역문서 빈도로, 단어의 특이성을 측정합니다.

예시1

문서 1: "고양이와 개는 모두 애완동물입니다."

문서 2: "고양이는 독립적이며 개는 충성스럽습니다."

In [None]:
# 코드 설명
# TfidfVectorizer를 사용하여 TF-IDF 값을 계산합니다.
# fit_transform() 메서드는 문서에서 단어 빈도와 역문서 빈도를 계산하고, TF-IDF 행렬을 반환합니다.
# get_feature_names_out()은 문서에서 추출된 단어 목록을 반환합니다.
# 결과는 pandas 데이터프레임으로 출력됩니다.

In [1]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

# 1. 예제 문서 생성
documents = [
    "고양이와 개는 모두 애완동물입니다.",
    "고양이는 독립적이며 개는 충성스럽습니다."
]

# 2. TF-IDF 계산
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(documents)

# 3. TF-IDF 결과를 데이터프레임으로 변환
feature_names = vectorizer.get_feature_names_out()
tfidf_df = pd.DataFrame(tfidf_matrix.toarray(), columns=feature_names)

# 4. 결과 출력
print("TF-IDF 결과:\n", tfidf_df)


TF-IDF 결과:
          개는      고양이는      고양이와     독립적이며        모두   애완동물입니다   충성스럽습니다
0  0.379978  0.000000  0.534046  0.000000  0.534046  0.534046  0.000000
1  0.379978  0.534046  0.000000  0.534046  0.000000  0.000000  0.534046


예시2

문서1: 한국 주식시장은 세계에서 하락폭이 크다.

문서2 미국 주식시장은 트럼프대통령 당선으로 상승폭이 크다

In [None]:
# 설명
# 첫 번째 행은 문서 1의 TF-IDF 값입니다.
# 두 번째 행은 문서 2의 TF-IDF 값입니다.
# 값이 높을수록 해당 단어가 문서에서 중요한 단어로 간주됩니다.
# 이 코드를 로컬 환경에서 실행하면 TF-IDF 값을 쉽게 확인할 수 있습니다.

In [4]:
import pandas as pd
from sklearn.feature_extraction.text import TfidfVectorizer

# 1. 예제 문장 생성
documents = [
    "한국 주식시장은 세계에서 하락폭이 크다.",
    "미국 주식시장은 트럼프 대통령 당선으로 상승폭이 크다."
]

# 2. TF-IDF 계산
vectorizer = TfidfVectorizer()
tfidf_matrix = vectorizer.fit_transform(documents)

# 3. TF-IDF 결과를 데이터프레임으로 변환
feature_names = vectorizer.get_feature_names_out()
tfidf_df = pd.DataFrame(tfidf_matrix.toarray(), columns=feature_names)

# 4. 결과 출력
print("TF-IDF 결과:\n", tfidf_df)


TF-IDF 결과:
        당선으로       대통령        미국      상승폭이      세계에서    주식시장은       크다  \
0  0.000000  0.000000  0.000000  0.000000  0.499221  0.35520  0.35520   
1  0.407824  0.407824  0.407824  0.407824  0.000000  0.29017  0.29017   

        트럼프      하락폭이        한국  
0  0.000000  0.499221  0.499221  
1  0.407824  0.000000  0.000000  


In [None]:
# 첫 번째 문장에서는 "한국", "세계에서", "하락폭"이 높은 TF-IDF 값을 가집니다.
# 두 번째 문장에서는 "트럼프", "상승폭", "당선으로"가 높은 TF-IDF 값을 가집니다.
# TF-IDF 값이 높을수록 해당 문장에서 중요한 단어로 간주됩니다.