# TF-IDF(Term Frequency-Inverse Document Frequency)

## TF-IDF
  
TF-IDF는 단어의 빈도와 역 문서 빈도(문서의 빈도에 특정 식을 취함)를 사용해 DTM내 각 단어들마다 중요 정도를 가중치로 주는 방법으로 식은 다음과 같다.  
$$TF-IDF = TF(t,d) * IDF(t, D)$$

#### 1. tf(d, t) : 특정 문서 d에서의 특정 단어 t의 등장 횟수
  
#### 2. df(t) : 특정 단어 t가 등장한 문서의 수
특정 단어가 각 문서, 또는 문서들에서 몇 번 등장했는지는 관심가지지 않음.  
오직 특정 단어 t가 등장한 문서의 수에만 관심을 가짐.

#### 3. idf(t) : df(t)에 반비례하는 수
$$idf(t) = log(\frac{n}{1+df(t)})$$  
**log를 사용하는 이유)**  
log를 사용하는 이유는 만약 IDF를 단순히 DF의 역수로 사용한다면 총 문서의 수 n이 커질수록, IDF의 값은 기하급수적으로 커지는데 이를 방지하기 위해 사용.  
  
예를 들어, n = 1,000,000일 때  
$idf(t) = log(\frac{n}{df(t)})$
$n = 1,000,000$
|단어 $t$|$df(t)$|$idf(d, t)$|
|---|---|---|
|word1|1|6|
|word2|100|4|
|word3|1,000|3|
|word4|10,000|2|
|word5|100,000|1|
|word6|1,000,000|0|
  
log를 사용하지 않으면 다음과 같다.
|단어 $t$|$df(t)$|$idf(t)$|
|---|---|---|
|word1|1|1,000,000|
|word2|100|10,000|
|word3|1,000|1,000|
|word4|10,000|100|
|word5|100,000|10|
|word6|1,000,000|1|
  
**1을 더하는 이유**
특정 단어가 전체 문서에서 등장하지 않을 경우에 분모가 0이 되는 상황을 방지


## 단어 표현(Word Representation, Word Embedding, Word Vector)
  
**Q) 어떻게 텍스트를 표현해야 자연어 처리 모델에 적용할 수 있을까?**  
언어적인 특성을 반영해 단어를 수치화 하는 방법 -> 
**<span style="color:orange; ">벡터</span>**
  
**데이터 표현**
1. 기본: One-Hot Encoding -> 하지만 이 방식은 자연어 단어 표현에는 부적합
    - 단어의 의미나 특성을 표현할 수 없음
    - 단어의 수가 매우 많으므로 
    **<span style="color:orange">고차원 저밀도 벡터</span>**
    를 구성함  
2. 벡터의 크기가 작으면서 단어의 의미를 표현하는 방법 -> 분포가설에 기반
    - 분포가설(Distributed Hypothesis): 같은 문맥의 단어, 즉 비슷한 위치에 나오는 단어는 비슷한 의미를 가진다.
    - 표현법
        - **카운트 기반 방법(Count-based):**
        특정 문맥 안에서 단어들이 동시에 등장하는 횟수를 직접 셈
        - **예측 방법(Predictive):**
        신경망 등을 통해 문맥 안의 단어들을 예측
  
**단어 표현의 정의**
텍스트가 얼마나 유사한지를 표현하는 방식
  
**유사도 판단의 다양한 방식**
- 단순히 같은 단어의 개수를 사용해 유사도를 판단
- 형태소로 나누어 형태소를 비교

**딥러닝 기반의 유사도 판단**
- 텍스트를 벡터화 한 후 벡터화된 각 문장 간의 유사도를 측정
- 대표적 방식 : Jaccard Similarity, Cosine Similarity, Euclidean Similarity, Manhatten Similarity(Jaccard Similarity는 벡터화 없이 바로 측정 가능)
  
  
### 1. Jaccard Similarity
- 두 문장을 각각 단어의 집합으로 만든 뒤 두 집합을 통해 유사도 측정(0과 1사이의 값)
- 측정 방법 : $A/B$
    - $A$: 두 집합의 교집합인 공통된 단어의 개수
    - $B$: 집합이 가지는 단어의 개수  
```python
import numpy as np

# Jaccard Similarity
from sklearn.metrics import jaccard_similarity_score
print('jaccard similarity:', jaccard_similarity_score(np.array([1, 3, 2]), np.array([1, 4, 5])))
```

### 2. Cosine Similarity
- 두 개의 벡터값에서 <span style="color: orange">코사인 각도</span>를 구하는 방법
- -1에서 1사이의 값을 가짐

```python
import numpy as np
from sklearn.feature_extraction.text import TfidfVectorizer

sent = ("휴일 인 오늘 도 서쪽 을 중심 으로 폭염 이 이어졌는데요, 내일 은 반가운 비 소식 이 있습니다.", "폭염 을 피해서 휴일 에 놀러왔다가 갑작스런 비 로 인해 망연자실 하고 있습니 다.")
tfidf_vectorizer = TfidfVetorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(sent)     # document vectorization

print(tfidf_matrix)
print('First sentence')
print(tfidf_matrix[0])
print('Second sentence')
print(tfidf_matrix[1])

# Cosien Similarity
from sklearn.metrics import cosine_similarity
print('Cosine similarity:', cosine_similarity(tfidf_matrix[0], tfidf_matrix[1]))
```

### 3. Euclidean Similarity
- 두 벡터 간의 거리로 유사도를 판단(기준: Euclidean distance)
  
```python
import numpy as np
from skelarn.feature_extraction.text import TfidfVectorizer

sent = ("휴일 인 오늘 도 서쪽 을 중심 으로 폭염 이 이어졌는데요, 내일 은 반가운 비 소식 이 있습니다.", "폭염 을 피해서 휴일 에 놀러왔다가 갑작스런 비 로 인해 망연자실 하고 있습니 다.")
tfidf_vectorizer = TfidfVetorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(sent)     # document vectorization
print(tfidf_matrix)

idf = tfidf_vectorizer.idf_
print(dict(zip(tfidf_vectorizer.get_feature_names(), idf)))

# Euclidean distance
from sklearn.metrics.pairwise import euclidean_distances
print('Euclidean similarity:', euclidean_distances(tfidf_matrix[0], tfidf_matrix[1]))

def l1_normalize(v):
    norm = np.sum(v)
    return v/norm

tfidf_norm_l1 = l1_normalize(tfidf_matrix)
print('Euclidean similarity (norm):', euclidean_distances(tfidf_norm_l1[0], tfidf_norm_l1[1]))
```

### 4. Manhattan Similarity
- 두 벡터 간의 거리로 유사도를 판단(기준: Manhattan distance)

**Euclidean vs Manhattan**
  
<div style="text-align:center">
    <img src = "https://github.com/Ha-coding-user/aivle_study/blob/main/Language%20Intelligence%20DL/image/Euclidean_Manttan.jpg?raw=true">
</div>
  
```python
import numpy as np
from skelarn.feature_extraction.text import TfidfVectorizer

sent = ("휴일 인 오늘 도 서쪽 을 중심 으로 폭염 이 이어졌는데요, 내일 은 반가운 비 소식 이 있습니다.", "폭염 을 피해서 휴일 에 놀러왔다가 갑작스런 비 로 인해 망연자실 하고 있습니 다.")
tfidf_vectorizer = TfidfVetorizer()
tfidf_matrix = tfidf_vectorizer.fit_transform(sent)     # document vectorization
print(tfidf_matrix)

idf = tfidf_vectorizer.idf_
print(dict(zip(tfidf_vectorizer.get_feature_names(), idf)))

# Euclidean distance
from sklearn.metrics.pairwise import manhattan_distances
print('Euclidean similarity:', manhattan_distances(tfidf_matrix[0], tfidf_matrix[1]))

def l1_normalize(v):
    norm = np.sum(v)
    return v/norm

tfidf_norm_l1 = l1_normalize(tfidf_matrix)
print('Manhattan similarity (norm):', manhattan_distances(tfidf_norm_l1[0], tfidf_norm_l1[1]))
```

## RSS에서 TF 확인

In [1]:
!pip install feedparser
!pip install newspaper3k
!pip install konlpy













In [2]:
import feedparser               # RSS에서 xml 태그별 정보추출(예: title, link...)
from newspaper import Article   # 인터넷 신문기사 분석(아래: "Article()"를 사용하기 위함)
from konlpy.tag import Okt      # 한국어 형태소 분석기(주어진 문장에서 명사만 추출)
from collections import Counter # 명사 추출 후에 본문에 몇 번 나오는지 확인(TF 계산용)
from operator import eq         # 키워드를 입력받을 때 그 키워드가 본문에 있는지 확인하기 위해
from bs4 import BeautifulSoup   # 글에 존재할지 모르는 html 태그 삭제

In [3]:
# [단계 1] 모든 RSS파일(xml 형식)을 돌아다니며 기사의 제목/link 추출
# urls는 우리가 검색할 RSS의 목록을 list로 만든 것
urls = ["http://rss.etnews.com/Section901.xml",
        "http://rss.etnews.com/Section902.xml",
        "http://rss.etnews.com/Section903.xml",
        "http://rss.etnews.com/Section904.xml"]

# 아래 함수는 RSS 목록의 list안에 존재하는 모든 기사의 title, link를 list로 구성
def crawl_rss(urls):
    array_rss = []                                                      # 함수 시작하는 시점에 빈 list 생성(이 list에 모든 기사 채움)
    titles_rss = set()                                                  # [중복기사제거] 기사 제목들의 집합을 구성(중복 X)

    for url in urls:                                                    # 4개의 RSS파일 하나씩 방문(4번)
        print("Crawl RSS", url)                                         # 현재 위치 출력
        parse_rss = feedparser.parse(url)                               # 현재 url 파싱 후 결과를 parse_rss에 저장
        
        for p in parse_rss.entries:                                     # parse_rss에 있는 모든 entries/기사 검색
            if p.title not in titles_rss:                               # [중복기사제거] 만약에 titles_rss에 동일한 제목이 없다면 추가
                array_rss.append({'title': p.title, 'link': p.link})    # 기사에서 제목/link 추출 후 리스트에 추가
                titles_rss.add(p.title)                                 # [중복기사제거] 집합에 현재 기사제목이 없을 때만 추가
            else:
                print("Duplicated Article:", p.title)                   # [중복기사제거] 중복되는 기사 제목 출력
    
    return array_rss

list_articles = crawl_rss(urls)
print(list_articles)

Crawl RSS http://rss.etnews.com/Section901.xml
Crawl RSS http://rss.etnews.com/Section902.xml
Duplicated Article: [포토] 동료들과 단체사진 촬영하는 이예원
Crawl RSS http://rss.etnews.com/Section903.xml
Duplicated Article: 달나라에서 숙박?…NASA “2040년까지 달에 민간주택 건설한다”
Crawl RSS http://rss.etnews.com/Section904.xml
Duplicated Article: 2000년 전 로마 유적지에서 발견된 '핑크빛 아이섀도'
Duplicated Article: 제임스웹, 오리온 성운서 목성 크기의 신비한 천체 발견
Duplicated Article: 현대차, 伊이베코그룹과 수소버스 첫 공개…한번 충전에 450㎞ 주행
Duplicated Article: 할머니 뇌 속에 80년간 '바늘' 꽂혀 있었다
Duplicated Article: 바이든 대통령 반려견, '사람 공격 11번'에 결국 백악관서 퇴출
Duplicated Article: '소록도 천사' 故 마가렛 간호사, 자국 의대에 시신 기증…마지막까지 베풀었다
Duplicated Article: 달나라에서 숙박?…NASA “2040년까지 달에 민간주택 건설한다”
[{'title': "2000년 전 로마 유적지에서 발견된 '핑크빛 아이섀도'", 'link': 'https://www.etnews.com/20231006000352'}, {'title': '제임스웹, 오리온 성운서 목성 크기의 신비한 천체 발견', 'link': 'https://www.etnews.com/20231006000421'}, {'title': '현대차, 伊이베코그룹과 수소버스 첫 공개…한번 충전에 450㎞ 주행', 'link': 'https://www.etnews.com/20231008000006'}, {'title': "할머니 뇌 속에 80년간 '바늘' 꽂혀 

In [5]:
!pip install html5lib

Collecting html5lib
  Downloading html5lib-1.1-py2.py3-none-any.whl (112 kB)
     -------------------------------------- 112.2/112.2 kB 6.4 MB/s eta 0:00:00
Installing collected packages: html5lib
Successfully installed html5lib-1.1




In [4]:
# [단계 2] list에 존재하는 모든 링크를 돌아다니며 본문 text를 추출

# 아래 함수는 하나의 url을 입력 받아서, 링크를 타고 들어가, 그 안에 title과 text를 추출한다.
# default로 한글을 지정
def crawl_article(url, language='ko'):
    print("[Crawl Article]", url)                               # 현재 title과 text를 추출한 url을 프린트
    a = Article(url, language=language)                         # Article을 사용하여 그 url을 입력하고, 언어옵션 지정, a에 저장
    a.download()                                                # a에 해당하는 url기사 다운로드
    a.parse()                                                   # a에 해당하는 url기사 분석

    return a.title, preprocessing(a.text)

def preprocessing(text):
    # html 태그 제거
    text_article = BeautifulSoup(text, 'html5lib').get_text()

    return text_article

for article in list_articles:                                   # list에 있는 모든 기사를 하나씩 방문
    _, text = crawl_article(article['link'])                    # 그 기사의 link를 crawl_article 함수에 넣어 본문 추출
    article['text'] = text                                      # 추출된 본문을 list_articles에 'text'라는 속성 새로 만들어 저장

print(list_articles[0])                                         # 첫 번째 기사를 출력(title, link, text가 모두 나오는 것 확인)

[Crawl Article] https://www.etnews.com/20231006000352
[Crawl Article] https://www.etnews.com/20231006000421
[Crawl Article] https://www.etnews.com/20231008000006
[Crawl Article] https://www.etnews.com/20231006000311
[Crawl Article] https://www.etnews.com/20231006000154
[Crawl Article] https://www.etnews.com/20231006000205
[Crawl Article] https://www.etnews.com/20231006000081
[Crawl Article] https://www.etnews.com/20231008000209
[Crawl Article] https://www.etnews.com/20231008000208
[Crawl Article] https://www.etnews.com/20231006000217
[Crawl Article] https://www.etnews.com/20231008000207
[Crawl Article] https://www.etnews.com/20231008000206
[Crawl Article] https://www.etnews.com/20231008000205




[Crawl Article] https://www.etnews.com/20231008000204
[Crawl Article] https://www.etnews.com/20231008000203
[Crawl Article] https://www.etnews.com/20231008000202
[Crawl Article] https://www.etnews.com/20231008000201
[Crawl Article] https://www.etnews.com/20231008000200
[Crawl Article] https://www.etnews.com/20231008000199
[Crawl Article] https://www.etnews.com/20231008000198
[Crawl Article] https://www.etnews.com/20231008000197
[Crawl Article] https://www.etnews.com/20231008000196
[Crawl Article] https://www.etnews.com/20231008000195
[Crawl Article] https://www.etnews.com/20231008000194
[Crawl Article] https://www.etnews.com/20231008000193
[Crawl Article] https://www.etnews.com/20231008000192
[Crawl Article] https://www.etnews.com/20231008000191
[Crawl Article] https://www.etnews.com/20231008000189
[Crawl Article] https://www.etnews.com/20231008000188
[Crawl Article] https://www.etnews.com/20231008000187
[Crawl Article] https://www.etnews.com/20231008000186
[Crawl Article] https://www.

In [5]:
# [단계 3] 모든 본문 text에서 명사(키워드, 빈도수) 추출
def get_keywords(text, nKeywords=10):           # 키워드 추출 함수, default : 10개
    spliter = Okt()                             # konlpy에 의해 문장을 형태소별로 쪼개는 기능을 위해 spliter 생성
    nouns = spliter.nouns(text)                 # spliter에 의해서 nouns 함수를 불러 text를 넣으면 그 text의 명사만 추출
    count = Counter(nouns)                      # 추출된 명사들의 출현빈도 추출
    list_keywords = []                          # 비어있는 키워드 리스트 생성

    for n, c in count.most_common(nKeywords):   # 가장 출현 빈도 높은 명사부터 순차적으로 10번 출력
        item = {'keyword': n, 'count': c}       # 리스트에 저장하기 위해 dictionary 형태로 {'keyword', 'count'}
        list_keywords.append(item)              # list_keywords에 추가

    return list_keywords

for article in list_articles:                   # 모든 기사 돌아다니며 text에서 명사 추출, 키워드/빈도 추출
    keywords = get_keywords(article['text'])    # get_keywords 함수로 키워드/빈도 추출
    article['keywords'] = keywords              # 추출된 키워드/빈도를 list_articles의 'keyword'로 저장

print(list_articles[0])                         # 첫 번째 기사 출력(title, link, text, keywords/빈도 쌍 최대 10개)

{'title': "2000년 전 로마 유적지에서 발견된 '핑크빛 아이섀도'", 'link': 'https://www.etnews.com/20231006000352', 'text': '튀르키예(터키)에서 2000년 전 로마인들이 사용한 색조 화장품이 아직까지 선명한 색깔을 유지한 모습으로 발굴됐다.\n\n\n\n최근 튀르키예 국영 통신사 아난돌루에 따르면, 서부 고대 도시 아이자노이 유적지에서 2000여 년 전 로마인들이 사용했을 것으로 추정되는 보석과 화장품이 발굴돼 대중에 공개됐다.\n\n\n\n이 지역은 과거 그리스 문화권에 속했으며, 고대에는 이오니아로 불린 곳이다. 프리기아인이 거주하다가 기원전 1세기부터 로마 도시로 변모했다.\n\n\n\n화장품이 발굴된 곳은 지난 2012년 유네스코 세계문화유산 잠정 목록에 오른 제우스 신전 동쪽 아고라(시장)다. 발굴팀은 상점들의 매장 내부는 물론 주변까지 꼼꼼하게 발굴 작업을 진행했다.\n\n발굴 책임자인 고칸 코스쿤 두물루피나 대학 고고학자는 “완전히 발굴한 곳은 향수, 쥬얼리, 메이크업 재료 등 화장품을 판매하는 매장으로 파악된다”며 “수많은 향수병은 물론 보석들과 여성 머리핀, 목걸이를 장식한 구슬들이 발견됐다”고 말했다.\n\n\n\n특히 놀라운 발견은 색조 화장품이었다. 눈이나 볼에 사용했을 것으로 보이는 분홍색 화장품이 거의 완전한 형태로 발견된 경우가 있었다.\n\n\n\n코스쿤 책임자는 “블러셔나 아이섀도우 용도의 안료를 패류 껍데기 안에 넣어서 사용하는 경우가 있었다. 물론 발굴지에서도 수많은 조개 껍데기가 발견됐다”면서 “분홍색 외에도 빨간색 등 10가지 색상이 발견됐다”고 전했다.\n\n\n\n전자신문인터넷 서희원 기자 shw@etnews.com', 'keywords': [{'keyword': '발굴', 'count': 7}, {'keyword': '화장품', 'count': 6}, {'keyword': '발견', 'count': 5}, {'keyword': '사용', 'count': 4},

In [11]:
# [단계 4] 검색어를 입력 받아서 그 검색어를 가지고 있는 기사를 출력
query = input()

def search_articles(query, list_keywords):
    nWords = 0
    for kw in list_keywords:
        if eq(query, kw['keyword']):
            nWords = kw['count']

    return nWords

for article in list_articles:
    nQuery = search_articles(query, article['keywords'])

    if nQuery != 0:
        print('[TF]', nQuery, '[Title]', article['title'], '[URL]', article['link'])

[TF] 6 [Title] '사상 초유' R&D 예산삭감 사태 속 과방위 국감 과학기술 분야 이슈는 [URL] https://www.etnews.com/20231005000009
