<a href="https://colab.research.google.com/github/Song-yiJung/DH-Buddhist-Analysis-Tutorial/blob/main/5_%ED%95%9C%EB%AC%B8%ED%85%8D%EC%8A%A4%ED%8A%B8%EB%A1%9C_TF_IDF%EB%AA%A8%EB%8D%B8_%EB%A7%8C%EB%93%A4%EA%B8%B0.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# 핵심 단어를 찾아내는 TF-IDF의 원리와 실습

## 1. TF-IDF란 무엇인가?

4번 노트를 통하여 BoW를 통해 문서에 어떤 단어가 몇 번 등장하는지 세어보았다. 하지만 "그리고", "그러나", "그는" 처럼 자주 등장하지만 별 의미 없는 단어들도 높은 점수를 받는 문제가 있었다.

TF-IDF는 이러한 문제를 해결하기 위해 등장한, 보다 정교한 텍스트 표현 방법이다. 단순히 단어의 빈도수만 보는 것이 아니라, **"이 문서에서 이 단어가 얼마나 중요한가?"**를 가중치로 표현한다.

* 핵심 아이디어: 한 문서 안에서 자주 등장할수록(TF), 그리고 전체 문서들 중 특정 문서에만 집중적으로 등장할수록(IDF) 그 단어는 해당 문서를 대표하는 중요한 단어이다.

이 중요도를 계산하기 위해 TF와 IDF라는 두 가지 지표를 사용합니다.

* TF (Term Frequency - 단어 빈도): 특정 문서 내에서 특정 단어가 얼마나 자주 등장하는지를 나타내는 값. 이것은 우리가 BoW에서 했던 것과 동일하다.

 * (예: A라는 문서에 '훈민정음'이 10번 나오면, '훈민정음'의 TF는 10)


* IDF (Inverse Document Frequency - 역문서 빈도): 특정 단어가 전체 문서들에서 얼마나 희귀하게 등장하는지를 나타내는 값. 이것이 TF-IDF의 핵심이다.

 * 많은 문서에 공통적으로 등장하는 단어(예: '그리고', '우리나라')는 IDF 값이 낮아진다 (중요도 하락).
 * 반대로, 특정 몇 개의 문서에만 등장하는 희귀한 단어(예: '코사인 유사도', '훈민정음')는 IDF 값이 높아진다 (중요도 상승).

최종적으로 TF-IDF 값은 이 두 값을 곱해서 계산합니다: TF-IDF = TF * IDF

## 2. TF-IDF의 기원: 누가, 언제, 왜?

* 누가/언제: TF-IDF의 핵심 개념인 IDF는 영국 케임브리지 대학의 컴퓨터 과학자 **캐런 스팍 존스(Karen Spärck Jones)**가 1972년에 발표한 논문에서 처음 소개했다. 그녀는 정보 검색 분야의 선구적인 여성 과학자였다. 이후 제라드 솔튼(Gerard Salton) 등이 이 아이디어를 발전시켜 현재의 TF-IDF 가중치 기법을 널리 알렸다.

* 왜: BoW와 마찬가지로 정보 검색(Information Retrieval) 성능을 향상시키기 위해 개발되었다.

 사용자가 '머신러닝'을 검색했을 때, '머신러닝'이라는 단어가 단순히 몇 번 포함된 문서보다, '머신러닝'이라는 단어의 TF-IDF 값이 높은, 즉 '머신러닝'을 핵심 주제로 다루는 전문적인 문서를 검색 결과 상단에 보여주기 위해서였다.

## 3. 디지털 인문학에서의 활용
TF-IDF는 문서의 핵심 키워드를 자동으로 추출하는 데 매우 강력한 성능을 보이기 때문에, 디지털 인문학 연구에서 광범위하게 활용된다.

* 어디서/어떻게:

 * 역사 문헌 분석: 특정 시기(예: 조선왕조실록의 특정 왕 재위 기간)의 문헌들에서 TF-IDF 값이 높은 단어들을 추출하여, 해당 시기의 주요 정치·사회적 이슈나 사건을 객관적으로 파악할 수 있다. (예: 특정 시기에 '倭(왜)'나 '女眞(여진)'의 TF-IDF가 높다면, 당시 대외 관계가 중요한 이슈였음을 시사)

 * 문학 작품 비교 분석: 여러 작가의 작품집에서 각각 TF-IDF를 추출하여, 각 작가가 즐겨 사용하는 특징적인 어휘나 주제 의식을 비교 분석할 수 있다.

 * 고문서 자동 분류 및 요약: 각 고문서의 TF-IDF 상위 키워드들을 통해 해당 문서가 '외교', '농업', '법률' 중 어떤 주제에 속하는지 자동으로 분류하거나, 핵심 내용을 요약하는 데 활용할 수 있다.

---
## 4. 파이썬 실습 코드

scikit-learn의 TfidfVectorizer를 사용하면 매우 쉽게 TF-IDF 모델을 만들 수 있다. BoW를 만들었던 CountVectorizer와 사용법이 거의 동일하다.

한글 텍스트를 예시로 원리를 먼저 파악해본다.

In [None]:
핵심 단어를 찾아내는 TF-IDF의 원리와 실습from sklearn.feature_extraction.text import TfidfVectorizer
import pandas as pd # 결과를 보기 좋게 표로 만들기 위해 pandas를 사용합니다.

# 비교할 예제 문서 3개
documents = [
    '이 문서는 훈민정음에 대한 문서이다. 훈민정음은 위대한 문자이다.', # 문서 1
    '이 문서는 조선 시대의 경제 정책을 다룬다. 경제 구조가 중요하다.',  # 문서 2
    '훈민정음 해례본은 창제 원리와 사용법을 설명하는 중요한 문서이다.'   # 문서 3
]

# 1. TF-IDF 벡터화 도구 생성
tfidf_vectorizer = TfidfVectorizer()

# 2. 문서를 학습(fit)하고 TF-IDF 행렬로 변환(transform)
tfidf_matrix = tfidf_vectorizer.fit_transform(documents)

# 3. 결과 확인
# 생성된 어휘 사전(단어 목록) 확인
vocab = tfidf_vectorizer.get_feature_names_out()

# 결과를 보기 쉽게 pandas DataFrame으로 변환
df_tfidf = pd.DataFrame(tfidf_matrix.toarray(), columns=vocab)
print("TF-IDF 가중치 행렬:")
print(df_tfidf)

## 단순 결과 해석
* '훈민정음' 단어: 문서1과 문서3에만 등장하므로 희귀성이 높아, 각 문서 내에서 높은 TF-IDF 값(0.567, 0.283)을 가진다. 특히 문서1에서는 2번 등장(TF가 높음)하여 점수가 더 높다.

* '경제', '정책' 단어: 문서2에만 등장하므로, 문서2의 핵심 키워드로서 높은 값(0.413)을 가진다.

* '문서이다' 단어: 3개 문서에 모두 등장하므로 IDF 값이 낮아져, 다른 단어들에 비해 상대적으로 낮은 TF-IDF 값(0.283, 0.314, 0.283)을 갖는다. 이는 이 단어가 문서들을 구별하는 데 별로 중요하지 않다는 의미한다.



## TF-IDF 결과의 인문학적 해석 및 활용

1. '훈민정음' (TF-IDF: 문서1=0.567, 문서3=0.283)

* 기계 해석: 문서1과 문서3은 '훈민정음'을 핵심 주제로 다루고 있다. 특히 문서1은 '훈민정음'을 더 집중적으로 언급하고 있다.

* 인문학적 해석: TF-IDF는 '훈민정음'이라는 단어가 이 문서들의 **정체성(Identity)**을 규정하는 핵심 키워드임을 알려준다. 컴퓨터가 스스로 문서의 주제를 파악해낸 것이다.

 연구 활용 방안:

 (문헌 검색) 만약 연구자의 연구 주제가 '훈민정음 창제 원리'라면, 방대한 사료 더미에서 '훈민정음'의 TF-IDF 값이 높은 문서들만 필터링하여 우선적으로 검토할 수 있다. 이는 수개월이 걸릴 수 있는 사료 검색 작업을 단 몇 분으로 단축시킨다.

 (내용 비교) 문서1과 문서3 모두 '훈민정음'을 다루지만, 중요도(점수)가 다른 점에 착안하여 "왜 문서1이 더 높은 점수를 가질까?"라는 새로운 연구 질문을 던질 수 있다. (예: 문서1은 창제 자체를, 문서3은 해례본의 관점을 다루기 때문은 아닐까?)

2. '경제', '정책' (TF-IDF: 문서2=0.413)

* 기계 해석: 문서2는 다른 문서들과는 완전히 다른 '경제'와 '정책'에 대해 이야기하고 있다. 이 단어들은 다른 문서에서는 전혀 찾아볼 수 없는, 문서2만의 고유한 키워드이다.

* 인문학적 해석: TF-IDF는 여러 문서 간의 '다름'을 명확하게 드러낸다. '경제'라는 단어는 문서2를 다른 문서들과 구별 짓는 가장 강력한 지표가 된다.

 연구 활용 방안:

 (문헌 자동 분류) 이 원리를 이용하면, 수만 건의 문서를 **주제별로 자동 분류(Clustering)**할 수 있다. 예를 들어, '경제', '세금', '농업' 등의 TF-IDF가 높은 문서들은 '경제사' 카테고리로, '외교', '국경', '사신' 등의 TF-IDF가 높은 문서들은 '대외관계사' 카테고리로 자동으로 묶을 수 있다.

3. '문서이다' (TF-IDF: 0.283, 0.314, 0.283)

* 기계 해석: '문서이다'라는 표현은 모든 문서에 골고루 등장하긴 하지만, 컴퓨터가 판단하기엔 내용적으로 별로 중요하지 않은 상투적인 표현 같다. 이 단어로는 각 문서의 고유한 특징을 알 수 없어 중요도를 낮게 매겼다.

* 인문학적 해석: TF-IDF는 인간 연구자처럼 '맥락'을 이해하진 못하지만, 통계적으로 어떤 단어가 내용에 기여하지 않는 '기능어'나 '불용어(Stopword)'에 가까운지 놀랍도록 잘 판단한다.

 연구 활용 방안:

 (노이즈 제거) 연구자는 TF-IDF 값이 전반적으로 낮은 단어들을 분석에서 제외함으로써, 분석의 핵심이 되는 중요한 단어들에만 집중할 수 있다. 이는 분석의 효율성과 정확도를 높여준다.