## TF-IDF(단어 빈도 - 역 문서 빈도)
- 전체 문장 대비 선택한 문장에 희귀하게 등장하는 단어가 중요도 강함

In [8]:
it_sentences = [
    "인공지능 기술이 사회의 다양한 분야에 점점 더 널리 적용되고 있다.",
    "클라우드 컴퓨팅은 데이터 저장과 처리를 더욱 효율적으로 만들어 주며, 기업의 IT 인프라를 혁신하고 있다.",
    # "머신러닝과 딥러닝 알고리즘은 데이터 분석과 예측 모델링에 혁명을 일으키고 있다.",
    # "블록체인 기술은 금융 거래의 투명성과 보안성을 향상시키는데 기여하고 있다.",
    # "사이버 보안은 디지털 시대의 중요한 이슈로 부상하고 있으며, 지속적인 관심과 개선이 요구된다.",
    # "소프트웨어 개발에서의 애자일 방법론은 빠른 시장 변화에 효과적으로 대응할 수 있게 해준다.",
    # "데이터 과학과 분석은 비즈니스 의사 결정 과정에서 중요한 역할을 하며, 기업의 경쟁력을 강화시킨다.",
    # "사물인터넷(IoT) 기술은 일상 생활을 더욱 편리하고 연결된 공간으로 변화시키고 있다.",
    # "가상현실(VR)과 증강현실(AR) 기술은 엔터테인먼트, 교육, 의료 등 다양한 분야에서 새로운 경험을 제공한다.",
    # "파이썬은 데이터 과학, 웹 개발, 자동화 스크립트 작성 등 다양한 프로그래밍 작업에 널리 사용되는 언어이다."
]

In [9]:
from sklearn.feature_extraction.text import TfidfVectorizer # word embedding
# tfidfVectorizer = TfidfVectorizer()
tfidfVectorizer = TfidfVectorizer(stop_words=['it', '인공지능'] # 분석에서 제외할 불용어 지정
                                  , ngram_range = (1,3)) # 1-gram, 2-gram, 3-gram 분석
tfidfVectorizer.fit(it_sentences)   # 학습용

'''
2.1 TF-IDF 객체 생성

1) 불용어 설정:
    stop_words에 지정된 단어는 분석에서 제외됩니다.
    예: 'it'와 '인공지능'은 제외됩니다.

2) n-gram 설정:
    ngram_range=(1, 3)은 1개, 2개, 또는 3개의 연속된 단어 묶음을 분석합니다.
    예: "데이터 저장" → ['데이터', '데이터 저장', '데이터 저장과']
'''

'''
2.2 TF-IDF 학습

    fit() 메서드는 텍스트 데이터를 학습하여 어휘 사전(단어 목록)을 생성합니다.
    학습 후, TF-IDF 모델이 각 단어의 IDF 값(역문서 빈도)을 계산합니다.
'''

'\n2.2 TF-IDF 학습\n\n    fit() 메서드는 텍스트 데이터를 학습하여 어휘 사전(단어 목록)을 생성합니다.\n    학습 후, TF-IDF 모델이 각 단어의 IDF 값(역문서 빈도)을 계산합니다.\n'

In [10]:
tfidfVectorizer.vocabulary_     # 언어 사전 완성

{'기술이': 0,
 '사회의': 24,
 '다양한': 9,
 '분야에': 21,
 '점점': 36,
 '널리': 6,
 '적용되고': 34,
 '있다': 30,
 '기술이 사회의': 1,
 '사회의 다양한': 25,
 '다양한 분야에': 10,
 '분야에 점점': 22,
 '점점 널리': 37,
 '널리 적용되고': 7,
 '적용되고 있다': 35,
 '기술이 사회의 다양한': 2,
 '사회의 다양한 분야에': 26,
 '다양한 분야에 점점': 11,
 '분야에 점점 널리': 23,
 '점점 널리 적용되고': 38,
 '널리 적용되고 있다': 8,
 '클라우드': 48,
 '컴퓨팅은': 45,
 '데이터': 15,
 '저장과': 31,
 '처리를': 42,
 '더욱': 12,
 '효율적으로': 53,
 '만들어': 18,
 '주며': 39,
 '기업의': 3,
 '인프라를': 27,
 '혁신하고': 51,
 '클라우드 컴퓨팅은': 49,
 '컴퓨팅은 데이터': 46,
 '데이터 저장과': 16,
 '저장과 처리를': 32,
 '처리를 더욱': 43,
 '더욱 효율적으로': 13,
 '효율적으로 만들어': 54,
 '만들어 주며': 19,
 '주며 기업의': 40,
 '기업의 인프라를': 4,
 '인프라를 혁신하고': 28,
 '혁신하고 있다': 52,
 '클라우드 컴퓨팅은 데이터': 50,
 '컴퓨팅은 데이터 저장과': 47,
 '데이터 저장과 처리를': 17,
 '저장과 처리를 더욱': 33,
 '처리를 더욱 효율적으로': 44,
 '더욱 효율적으로 만들어': 14,
 '효율적으로 만들어 주며': 55,
 '만들어 주며 기업의': 20,
 '주며 기업의 인프라를': 41,
 '기업의 인프라를 혁신하고': 5,
 '인프라를 혁신하고 있다': 29}

In [11]:
tfidfVectorizer.idf_, tfidfVectorizer.get_feature_names_out()
tfidfVectorizer.idf_.shape, tfidfVectorizer.get_feature_names_out().shape

# '''
# 3.1 단어 IDF 값 확인

# 설명:
#     idf_는 각 단어의 IDF(역문서 빈도) 값을 반환합니다.
#     get_feature_names_out()는 TF-IDF가 학습한 단어 목록을 반환합니다.
#         예:
#             단어 목록: ['기술이', '기술이 사회의', '기술이 사회의 다양한', ...]
#             IDF 값: [1.405, 1.405, 1.405, ...]
        
# 설명:
#     idf_.shape는 IDF 값의 개수를 반환합니다.
#     get_feature_names_out().shape는 단어 목록의 크기를 반환합니다.
#     두 값은 동일해야 하며, 어휘 사전에 있는 단어 수를 의미합니다.
# '''

((56,), (56,))

In [12]:
# 단어 임베딩

result_vectors = tfidfVectorizer.transform(it_sentences) # 서비스용
# result_vectors
# result_vectors.toarray()
result_vectors.toarray().shape

# '''
# 4. 텍스트 데이터 임베딩
    
#     4.1 TF-IDF 변환
#         설명: result_vectors = tfidfVectorizer.transform(it_sentences) # 서비스용

#             transform() 메서드는 학습된 TF-IDF 모델을 사용하여 문장을 벡터로 변환합니다.
#             각 문장은 어휘 사전 크기만큼의 숫자 배열로 변환됩니다.
    
#     4.2 벡터 크기 확인
#         설명: result_vectors.toarray().shape

#             결과 벡터의 크기를 확인합니다.
#             출력 형태: (문장 수, 어휘 사전 크기)
#             예: (2, 37) → 2개의 문장이 37개의 단어 벡터로 표현됨.
# '''

(2, 56)

In [13]:
import pandas as pd
pd.DataFrame(data = result_vectors.toarray()
             , columns = tfidfVectorizer.get_feature_names_out()).T # T = transpose() 행열 바꾸기

# '''
# 5. TF-IDF 결과 데이터프레임으로 변환

#     설명:
#         result_vectors.toarray():
#             TF-IDF 변환 결과를 배열 형태로 반환합니다.
#         get_feature_names_out():
#             어휘 사전에서 단어 목록을 가져옵니다.
#         DataFrame():
#             결과를 판다스 데이터프레임으로 변환합니다.
#         .T (Transpose):
#             데이터프레임의 행과 열을 바꿔 보기 좋게 표시합니다.
#             각 단어가 행이 되고, 문장이 열이 됩니다.
# '''

Unnamed: 0,0,1
기술이,0.220829,0.0
기술이 사회의,0.220829,0.0
기술이 사회의 다양한,0.220829,0.0
기업의,0.0,0.167822
기업의 인프라를,0.0,0.167822
기업의 인프라를 혁신하고,0.0,0.167822
널리,0.220829,0.0
널리 적용되고,0.220829,0.0
널리 적용되고 있다,0.220829,0.0
다양한,0.220829,0.0
