# RSS Infomation Research

In [1]:
# RSS에서 xml태그 별 정보 추출
!pip install feedparser 

# 인터넷 신문기사 분석(라이브러리 내의 "Article()"사용하기 위해)
!pip install newspaper3k 

# 라이브러리 불러오기

In [9]:
import feedparser # xml 태그별 정보 추출
from newspaper import Article # 인터넷 신문 기사 분석
from bs4 import BeautifulSoup # 글에 존재할지 모르는 html 태그 삭제를 위해 사용

# 정보 수집할 rss 링크 설정 및 정보 수집하기

##### 전자신문 (https://www.etnews.com/rss/) 의 오늘의 뉴스 부분 

##### 함수 정의

In [10]:
# 제목, 링크 수집 함수
def crawl_rss(urls):
    array_rss = [] # 모든 기사를 넣을 리스트
    set_link = set() # 중복된 기사를 제거하기 위한 기사 제목들 집합
    
    for url in urls: # url 순회
        print(f"[Crawl Rss] {url}") # 현재 크롤링하는 rss 링크 출력
        parser_rss = feedparser.parse(url) # 현재 url을 파싱해서, 그 결과를 저장
        for p in parser_rss.entries:
            if p.link not in set_link: # 중복되지 않은 기사 일 경우 if 문 실행
                array_rss.append({'link':p.link})
                set_link.add(p.link)
    return array_rss

# 링크를 통해 제목, 본문 내용 추출
def crawl_article(url, language='ko'):
    print(f"[Crawling. . .] {url}") # 현재 크롤링하는 링크 출력
    news_paper = Article(url, language=language)
    news_paper.download()
    news_paper.parse()
    return news_paper.title, preprocessing(news_paper.text)

# 불용어 전처리
def preprocessing(text): 
    text_article = BeautifulSoup(text, 'html5lib').get_text() # html 태그 제거하기
    return text_article

In [11]:
# 정보 수집할 rss 링크 모음
urls = ['http://rss.etnews.com/Section901.xml',
        'http://rss.etnews.com/Section902.xml',
        'http://rss.etnews.com/Section903.xml',
        'http://rss.etnews.com/Section904.xml']

# 제목과 기사 링크 수집하기
list_articles = crawl_rss(urls)

# 수집한 (제목,기사링크)를 토대로 제목과 본문 내용 수집하기
for article in list_articles:
    title, text = crawl_article(article['link'])
    article['title'] = title
    article['text'] = text

[Crawl Rss] http://rss.etnews.com/Section901.xml
[Crawl Rss] http://rss.etnews.com/Section902.xml
[Crawl Rss] http://rss.etnews.com/Section903.xml
[Crawl Rss] http://rss.etnews.com/Section904.xml
[Crawling. . .] https://www.etnews.com/20230927000056
[Crawling. . .] https://www.etnews.com/20230927000047
[Crawling. . .] https://www.etnews.com/20230927000039
[Crawling. . .] https://www.etnews.com/20230927000013
[Crawling. . .] https://www.etnews.com/20230926000368
[Crawling. . .] https://www.etnews.com/20230927000007
[Crawling. . .] https://www.etnews.com/20230926000363
[Crawling. . .] https://www.etnews.com/20230926000316
[Crawling. . .] https://www.etnews.com/20230926000189
[Crawling. . .] https://www.etnews.com/20230926000364
[Crawling. . .] https://www.etnews.com/20230926000344
[Crawling. . .] https://www.etnews.com/20230926000205
[Crawling. . .] https://www.etnews.com/20230926000340
[Crawling. . .] https://www.etnews.com/20230926000328
[Crawling. . .] https://www.etnews.com/202309260

# 수집 내용 확인하기

In [12]:
list_articles[0]

{'link': 'https://www.etnews.com/20230927000056',
 'title': '폴스타, 폴스타3 사막 주행 테스트 완료…내년 1분기 韓 출시',
 'text': "스웨덴 전기차 브랜드 폴스타가 아랍에미리트(UAE)에서 2주간 진행한 '폴스타3' 혹서기 테스트를 성공적으로 완료했다고 27일 밝혔다.\n\n폴스타3는 브랜드 최초의 전기 스포츠유틸리티차량(SUV)으로 내년 1분기 국내 출시된다.\n\n\n\n폴스타3 프로토타입은 지난 7월 영국 최대 자동차 축제 '영국 굿우드 페스티벌 오브 스피드'에서 처음 공개됐다. 가장 더운 환경에서 주행과 공조시스템 등을 미세 조정하기 위해 엔지니어 개발팀과 함께 지난달 UAE를 방문했다.\n\n\n\n이번 테스트는 폴스타 개발 과정에 진행되는 극한 기후 테스트 중 하나로 50도까지 기온이 올라가는 두바이와 아부다비 대도시, 사막 지역에서 진행됐다.\n\n\n\n폴스타3는 순수 전기차 디자인과 강력한 성능, 고급 편의 사양과 첨단 주행보조시스템 등 폴스타 역량과 기술을 집약한 플래그십 모델이다. 111kWh 리튬이온 배터리를 탑재해 1회 충전 시 최대 610㎞ 주행거리와 최대 517마력을 발휘한다.\n\n\n\n폴스타는 내년 1분기 폴스타3 생산을 시작해 전기 쿠페 폴스타까지 출시해 총 3가지 모델 라인업을 갖출 계획이다.\n\n토마스 잉엔라트 폴스타 최고경영자(CEO)는 “폴스타3는 여정의 시작 단계에 있으며 한국 고객도 내년 1분기에 폴스타 스페이스를 방문해 뛰어난 디자인과 독보적이고 혁신적인 인테리어를 경험할 수 있을 것”이라고 말했다.\n\n김지웅 기자 jw0316@etnews.com"}

# 본문 Cosine Similarity 만들기

In [17]:
from sklearn.feature_extraction.text import TfidfVectorizer # 벡터화
from sklearn.metrics.pairwise import cosine_similarity # 코사인 유사도 판단하기

In [20]:
# 수집한 내용들에서 본문 내용만 추출한 리스트 만들기
text_articles = [article['text'] for article in list_articles]
text_articles[0]

"스웨덴 전기차 브랜드 폴스타가 아랍에미리트(UAE)에서 2주간 진행한 '폴스타3' 혹서기 테스트를 성공적으로 완료했다고 27일 밝혔다.\n\n폴스타3는 브랜드 최초의 전기 스포츠유틸리티차량(SUV)으로 내년 1분기 국내 출시된다.\n\n\n\n폴스타3 프로토타입은 지난 7월 영국 최대 자동차 축제 '영국 굿우드 페스티벌 오브 스피드'에서 처음 공개됐다. 가장 더운 환경에서 주행과 공조시스템 등을 미세 조정하기 위해 엔지니어 개발팀과 함께 지난달 UAE를 방문했다.\n\n\n\n이번 테스트는 폴스타 개발 과정에 진행되는 극한 기후 테스트 중 하나로 50도까지 기온이 올라가는 두바이와 아부다비 대도시, 사막 지역에서 진행됐다.\n\n\n\n폴스타3는 순수 전기차 디자인과 강력한 성능, 고급 편의 사양과 첨단 주행보조시스템 등 폴스타 역량과 기술을 집약한 플래그십 모델이다. 111kWh 리튬이온 배터리를 탑재해 1회 충전 시 최대 610㎞ 주행거리와 최대 517마력을 발휘한다.\n\n\n\n폴스타는 내년 1분기 폴스타3 생산을 시작해 전기 쿠페 폴스타까지 출시해 총 3가지 모델 라인업을 갖출 계획이다.\n\n토마스 잉엔라트 폴스타 최고경영자(CEO)는 “폴스타3는 여정의 시작 단계에 있으며 한국 고객도 내년 1분기에 폴스타 스페이스를 방문해 뛰어난 디자인과 독보적이고 혁신적인 인테리어를 경험할 수 있을 것”이라고 말했다.\n\n김지웅 기자 jw0316@etnews.com"

##### 벡터만들어주는 객체 선언

In [21]:
# 벡터를 만드는 객체 선언
encoder = TfidfVectorizer(max_features=5000)

##### Cosine Similarity에 이용할 본문 벡터 만들기 => Data Matrix만들기

In [22]:
# 각 본문들 벡터화 하기 => Data Matrix 만들기
matrix_vectors = encoder.fit_transform(text_articles)

In [24]:
matrix_vectors.shape

# 72개의 본문이 있으며, 각각 5000 size의 벡터로 변환 됌

(72, 5000)

##### Cosine Similarity를 이용하여 유사도 확안하기

In [26]:
# 첫번째와 3번째 벡터의 cosine similarity 비교하기
cosine_similarity(matrix_vectors[0], matrix_vectors[2])

array([[0.03694741]])

##### 입력 받은 문장과 유사한 본문 추출하기

In [44]:
# 문장 입력받기
sentence = input()

반도체는 혁명이다. 그러나 반도체가 전부는 아니다. 어떻게 이해해야 할지 잘 모르겠지만, 아마도 이부분은 서러 한번 확인을 해보아야 할 것이라고 생각한다.


In [63]:
# 입력 받은 문장을 비교할 여러 본문 리스트 안에 추가해주기
text_articles.append(sentence)

In [64]:
# 각 본문들 벡터화 하기 => Data Matrix 만들기
matrix_vectors = encoder.fit_transform(text_articles)

In [65]:
matrix_vectors.shape

(73, 5000)

In [69]:
for i in range(matrix_vectors.shape[0]-1):
    cosine_value = cosine_similarity(matrix_vectors[-1], matrix_vectors[i])[0][0]
    if cosine_value >0:
        print(f"{i}번째 와 유사도 : {cosine_value}")

13번째 와 유사도 : 0.024466509757831788
15번째 와 유사도 : 0.014347262791364546
22번째 와 유사도 : 0.0189392589037765
37번째 와 유사도 : 0.019770073967941792
54번째 와 유사도 : 0.017167086542879424
55번째 와 유사도 : 0.011424421710647635
56번째 와 유사도 : 0.016524701074223994
59번째 와 유사도 : 0.04943895057915991
61번째 와 유사도 : 0.02918102089997905
64번째 와 유사도 : 0.012757044024294551
66번째 와 유사도 : 0.012924993053132662
