In [None]:
!pip install feedparser # rss에서 xml태그별 정보 추출 (예: title, link, ...)



In [None]:
!pip install newspaper3k # 인터넷신문기사분석 (아래에 "Article()"을 사용하기 위함)



In [None]:
!pip install konlpy #한국어자연어처리/형태소 분석기 (주어진 문장에서 명사만 추출하는 용도로 여기서 사용)



In [None]:
import feedparser
from newspaper import Article
from konlpy.tag import Okt
from collections import Counter # 명사를 konly로 추출한 후에 본문에 몇번 나오는지 확인 (tf계산용)
from bs4 import BeautifulSoup # 인터넷 기사 글에 존재할지 모르는 html 태그를 삭제하기 위해

In [None]:
# 단계 1. 모든 RSS 파일을 돌아다니며 기사의 제목과 링크를 추출함
urls = ["http://rss.etnews.com/Section901.xml",
        "http://rss.etnews.com/Section902.xml",
        "http://rss.etnews.com/Section903.xml",
        "http://rss.etnews.com/Section904.xml"]

# rss 목록의 list안에 존재하는 모든 기사의 title, link를 list로 구성
def crawl_rss(urls):
    array_rss = [] # 여기에 모든 기사를 넣음
    title_rss = set() # 중복 기사 제거 (집합은 중복을 불허)
    for url in urls:
        print("[Crawl URL] ", url) # 현재 어디에 있는지 출력
        parse_rss = feedparser.parse(url) # 현재 url을 파싱한 후, 결과를 parse_rss에 저장
        for p in parse_rss.entries: # parse_rss에 있는 모든 entries/기사를 검색
            if p.title not in title_rss:
                array_rss.append({'title': p.title, 'link': p.link}) # 기사에서 제목/link 추출 후 리스트에 추가
                title_rss.add(p.title)
            else:
                print("Duplicated Article: ", p.title)

    return array_rss

list_articles = crawl_rss(urls)

print(list_articles)

[Crawl URL]  http://rss.etnews.com/Section901.xml
[Crawl URL]  http://rss.etnews.com/Section902.xml
Duplicated Article:  '네거티브 규제, 글로벌 실증'…한국형 혁신 클러스터 열린다
Duplicated Article:  장병탁 서울대 AI연구원장, '글로벌 AI경쟁과 한국의 AI전략'
Duplicated Article:  로보락 S8 맥스V 울트라 발표
Duplicated Article:  로보락 S8 맥스V 울트라 발표
Duplicated Article:  로보락 S8 맥스V 울트라 런칭쇼 Q&A
Duplicated Article:  AI전략최고위협의회 법제도 분과 1차 회의
Duplicated Article:  컴투스 '서머너즈 워' 10주년... 韓모바일 게임 아이콘 안착
[Crawl URL]  http://rss.etnews.com/Section903.xml
Duplicated Article:  삼성, 美 추가투자...파운드리·패키징 다 갖춘다
Duplicated Article:  美, 삼성 반도체 보조금 64억달러 확정
Duplicated Article:  현대차 아이오닉 6 N, 獨 뉘르부르크링 '극한 주행' 테스트 돌입
Duplicated Article:  삼성 갤S22·갤Z4, 내달 3일부터 AI 기능 탑재
Duplicated Article:  반도체 장비 3대 중 1대 중국이 샀다
[Crawl URL]  http://rss.etnews.com/Section904.xml
Duplicated Article:  '네거티브 규제, 글로벌 실증'…한국형 혁신 클러스터 열린다
Duplicated Article:  컴투스 '서머너즈 워' 10주년... 韓모바일 게임 아이콘 안착
Duplicated Article:  중국에 5G-A 1위 빼앗긴 한국…통신인프라 산업정책 '실종'
Duplicated Article:  뱅 응 델 수석부사장, “파트너사와 고객 위한 더 

In [None]:
# 단계 2. list에 존재하는 모든 링크를 돌아다니면서 본문 text 긁어오기
# 하나의 url을 입력받아, 링크를 타고 들어가서 그 안의 title, text를 추출
# 언어는 한글로 기본 지정

def crawl_article(url, language='ko'):
    print('[Crawling Article] ', url)
    a = Article(url, language=language) # Article을 사용하여 그 url을 입력하고, 언어옵션지정 (한글 기본)
    a.download()
    a.parse()
    return a.title, preprocessing(a.text)

def preprocessing(text):
    text_article = BeautifulSoup(text, 'html5lib').get_text() # html 태그를 제거
    return text_article

for article in list_articles:
    _, text = crawl_article(article['link'])
    article['text'] = text

print(list_articles[0])

[Crawling Article]  https://www.etnews.com/20240416000221
[Crawling Article]  https://www.etnews.com/20240416000223
[Crawling Article]  https://www.etnews.com/20240416000219
[Crawling Article]  https://www.etnews.com/20240416000202
[Crawling Article]  https://www.etnews.com/20240416000171
[Crawling Article]  https://www.etnews.com/20240416000157
[Crawling Article]  https://www.etnews.com/20240416000194
[Crawling Article]  https://www.etnews.com/20240416000191
[Crawling Article]  https://www.etnews.com/20240416000190
[Crawling Article]  https://www.etnews.com/20240416000182
[Crawling Article]  https://www.etnews.com/20240416000177
[Crawling Article]  https://www.etnews.com/20240416000172
[Crawling Article]  https://www.etnews.com/20240416000158
[Crawling Article]  https://www.etnews.com/20240416000155
[Crawling Article]  https://www.etnews.com/20240416000129
[Crawling Article]  https://www.etnews.com/20240416000113
[Crawling Article]  https://www.etnews.com/20240416000109
[Crawling Arti

In [None]:
# 단계 3. 모든 본문 text를 돌아다니면서 명사(키워드, 빈도수)를 추출
def get_keywords(text, num_keywords=10): # 키워드 추출 함수, 디폴트로 10개 추출
    spliter = Okt() # konly에 의해 문장을 형태소별로 쪼개는 기능을 위해 spliter 생성
    nouns = spliter.nouns(text) # spliter에서 nouns함수를 불러 text를 넣으면 그 text의 명사만 출력
    count = Counter(nouns) # 추출된 명사들의 출현 빈도 추출
    list_keywords = [] # 비어있는 키워드 리스트를 먼저 만든 후
    for n, c in count.most_common(num_keywords): # count.most_common : for문을 도는데 빈도수가 높은 것부터
        item = {'keyword': n, 'count': c}
        list_keywords.append(item)
    return list_keywords

for article in list_articles: # 모든 기사를 돌아다니면서 text에서 명사추출/키워드 빈도 추출
    keywords = get_keywords(article['text'])
    article['keywords'] = keywords
# print(list_articles[0]) # 첫번째 기사를 출력하여 title, link, text, keywords가 모두 있는지 확인


In [None]:
print(list_articles[0]['keywords'])
print(list_articles[1]['keywords'])

[{'keyword': '특구', 'count': 10}, {'keyword': '혁신', 'count': 9}, {'keyword': '규제', 'count': 8}, {'keyword': '글로벌', 'count': 8}, {'keyword': '실증', 'count': 6}, {'keyword': '자유', 'count': 6}, {'keyword': '개', 'count': 5}, {'keyword': '사업', 'count': 5}, {'keyword': '지역', 'count': 4}, {'keyword': '첨단', 'count': 4}]
[{'keyword': '글로벌', 'count': 12}, {'keyword': '서머', 'count': 10}, {'keyword': '워', 'count': 10}, {'keyword': '게임', 'count': 10}, {'keyword': '모바일', 'count': 7}, {'keyword': '등', 'count': 6}, {'keyword': '한국', 'count': 5}, {'keyword': '유저', 'count': 5}, {'keyword': '주년', 'count': 4}, {'keyword': '기록', 'count': 4}]


In [None]:
# 단계 4. 질의어를 입력 받아서 그 질의어를 가지고 있는 기사들을 출력
query = input("질의어 입력: ")

def search_articles(query, list_keywords): # 질의어가 키워드 리스트에 있으면 빈도수를 출력 (없으면 0)
    num_words = 0 # 질의어가 해당 문서에 몇 번 나오는지 출력하기 위한 변수의 초기값을 0으로 설정
    for kw in list_keywords:
        if query == kw['keyword']:
            num_words = kw['count']
        return num_words

for article in list_articles:
    num_query = search_articles(query, article['keywords'])
    print('[TF]: %2d' %num_query, end=' ')
    print('[Title]: ' , article['title'])
    print('[URL]: ', article['link'])
    print('[Text]: ', article['text'][:50])

질의어 입력: 글로벌
[TF]:  0 [Title]:  '네거티브 규제, 글로벌 실증'…한국형 혁신 클러스터 열린다
[URL]:  https://www.etnews.com/20240416000221
[Text]:  전국 4개 지역에 원격의료, 비대면 임상시험, 첨단재생의료 등이 가능한 '한국형 혁신 클러
[TF]: 12 [Title]:  컴투스 '서머너즈 워' 10주년... 韓모바일 게임 아이콘 안착
[URL]:  https://www.etnews.com/20240416000223
[Text]:  컴투스가 자체 개발한 글로벌 히트작 '서머너즈 워: 천공의 아레나'가 출시 10주년을 맞았
[TF]:  0 [Title]:  중국에 5G-A 1위 빼앗긴 한국…통신인프라 산업정책 '실종'
[URL]:  https://www.etnews.com/20240416000219
[Text]:  중국이 차세대 이동통신기술 5G-어드밴스드 연내 세계최초 상용화를 선언했다. 미국, 일본,
[TF]:  0 [Title]:  뱅 응 델 수석부사장, “파트너사와 고객 위한 더 나은 생성형 AI 기회 창출할 것”
[URL]:  https://www.etnews.com/20240416000202
[Text]:  “델 테크놀로지스는 파트너사와 함께 고객을 위한 더 나은 생성형 인공지능(AI) 기회를 창
[TF]:  0 [Title]:  “해외 보안 시장 재편성...그만큼 우리가 할 일이 많다는 방증”
[URL]:  https://www.etnews.com/20240416000171
[Text]:  인터뷰//한은혜 에스에스앤씨 대표

한은혜 에스에스앤씨 대표는 1년 가운데 3분의 2 이상
[TF]:  0 [Title]:  [와이드 인터뷰] 이근주 한패스 대표 “내년 IPO로 글로벌생활금융플랫폼 경쟁력 강화”
[URL]:  https://www.etnews.com/20240416000157
[Text]:  “한패스는 소액해외송금 서비스를 기반으로 해외결제 특화카드, 행정서비스 등을 확장해 '글로

In [None]:
r