### TfidfVectorizer란?
* TfidfVectorizer는 텍스트 데이터를 숫자로 변환해주는 도구입니다.
* 머신러닝 모델은 텍스트를 직접 이해하지 못하므로, 단어의 중요도를 계산해 수치화합니다.
    * 입력: 여러 문서 (예: 리뷰, 뉴스 기사)
    * 출력: 각 문서를 단어 중요도로 표현된 숫자 벡터

### TF-IDF란?
#### TF (Term Frequency)
* "문서 내에서 단어가 얼마나 자주 등장하는지"
    * 예: "강아지"가 한 문서에서 5번 나오면 TF = 5
#### IDF (Inverse Document Frequency)
* "모든 문서에서 그 단어가 흔한지 희귀한지"
    * 예: "그리고"는 모든 문서에 자주 나오므로 가중치 ↓
    * "반려동물"은 특정 문서에만 나오면 가중치 ↑
##### TF-IDF = TF × IDF
* 자주 나오지만 특정 문서에 집중된 단어에 높은 점수 부여

#### 왜 사용할까?
* 텍스트 유사도 계산 (검색, 추천 시스템)
* 스팸 메일 필터링 (중요 단어 탐지)
* 감정 분석 (긍정/부정 키워드 추출)

In [2]:
from sklearn.feature_extraction.text import TfidfVectorizer

docs = [
    "강아지 고양이 반려동물",  
    "강아지 우유 마시기",  
    "고양이 낮잠 자기"
]

# 1. TfidfVectorizer 적용
tfidf = TfidfVectorizer()
tfidf_matrix = tfidf.fit_transform(docs)

# 2. 결과 (단어별 가중치)
print(tfidf.get_feature_names_out())  
# 출력: ['고양이', '낮잠', '마시기', '반려동물', '우유', '자기', '강아지']

tfidf_matrix.toarray()

['강아지' '고양이' '낮잠' '마시기' '반려동물' '우유' '자기']


array([[0.51785612, 0.51785612, 0.        , 0.        , 0.68091856,
        0.        , 0.        ],
       [0.4736296 , 0.        , 0.        , 0.62276601, 0.        ,
        0.62276601, 0.        ],
       [0.        , 0.4736296 , 0.62276601, 0.        , 0.        ,
        0.        , 0.62276601]])