In [None]:
from alive_progress import alive_bar
from alive_progress import alive_it
import requests
import feedparser
import json
from pprint import pprint
import pandas as pd

In [145]:
def create_df():
    df = pd.DataFrame(columns=['title', 'description', 'published', 'link', 'media'])
    return df


def bar_ending(bar):
    bar.title = "RSS Parsing and DataFrame Creation"


def load_json(data_path):
    with open(data_path, 'r', encoding="utf-8") as file:
        data = json.load(file)
    return data


def extract_article_date(article: dict, media: str) -> dict:
    """
    뉴스 기사에서 제목, 값, 설명, 게시일, 링크를 등 추출

    args:
        article (dict): 뉴스 기사 객체
    
    returns:
        dict: 제목, 값, 설명, 게시일, 링크를 포함하는 딕셔너리
    """ 
    try:
        title = article.title
    except:
        title = None

    try:
        description = article.description
    except KeyError:
        description = article.summary
    except:
        description = None

    try:
        published = article.published
    except:
        published = article.updated

    try:
        link = article.link
    except:
        link = None

    return {'title': title, 'description': description, 'published': published, 'link': link, 'media': media}

In [None]:
# initialize the pandas DataFrame
df = create_df()

# load the JSON data
data_path = "../data/political_rss.json"
data = load_json(data_path)

# RSS별로 뉴스 기사 가져오기
bar = alive_it(data[:1], finalize=bar_ending, force_tty=True)
bar.title = "test"
for rss in bar:
    media = rss['media']
    url = rss['url']
    feed = feedparser.parse(url)

    # article 정보 추출
    articles = feed.entries
    for article in articles:
        article_data = extract_article_date(article, media)

        # 새로운 행(뉴스 기사) 추가
        df = pd.concat([df, pd.DataFrame([article_data])], ignore_index=True)

|                                        | ▁▃▅ 0/1 [0%] in 0s (~0s, 0.0/s) 

RSS Parsing and DataFrame Creation |████████████████████████████████████████| 1/


In [147]:
df

Unnamed: 0,title,description,published,link,media
0,"김부겸 전 총리, 민주당 경선에 참여 안 한다",,"Wed, 09 Apr 2025 00:08:38 +0000",https://www.chosun.com/politics/assembly/2025/...,조선닷컴
1,김동연 “정직하고 당당한 대통령 되겠다” 대선 출마 선언,,"Wed, 09 Apr 2025 00:02:09 +0000",https://www.chosun.com/politics/politics_gener...,조선닷컴
2,권한대행의 ‘대통령 몫’ 첫 지명… 헌재 중도·보수 우위로 바뀌어,,"Tue, 08 Apr 2025 16:03:12 +0000",https://www.chosun.com/politics/politics_gener...,조선닷컴
3,무장 북한군 10여명 군사분계선 넘어와 軍 경고 사격에 퇴각,,"Tue, 08 Apr 2025 16:11:15 +0000",https://www.chosun.com/politics/diplomacy-defe...,조선닷컴
4,"“러 파병·무기 지원 北, 28조 경제 효과… 6년치 식량 맞먹어”",,"Tue, 08 Apr 2025 16:09:19 +0000",https://www.chosun.com/politics/diplomacy-defe...,조선닷컴
...,...,...,...,...,...
95,"부산교육청, 교실서 탄핵 선고 생중계 시청 권고…與 “중립성 위반” 반발",,"Fri, 04 Apr 2025 08:44:43 +0000",https://www.chosun.com/politics/politics_gener...,조선닷컴
96,"헌재 “韓 대행, 마은혁 임명할 헌법상 의무 있다”",,"Mon, 07 Apr 2025 07:13:10 +0000",https://www.chosun.com/politics/2025/04/07/PDY...,조선닷컴
97,美 강달러 손실도 동맹과 분담? ‘관세폭탄’ 설계자 미란의 구상,,"Sat, 05 Apr 2025 17:55:48 +0000",https://www.chosun.com/politics/diplomacy-defe...,조선닷컴
98,"‘인간 윤석열’ 10년 취재기, ‘대전 유배’ 당시 술자리의 그였다면...",그에게 전화를 받았던 날을 아직도 기억한다. 지금처럼 여의도 일대 벚꽃나무에 꽃망울...,"Sat, 05 Apr 2025 20:30:00 +0000",https://www.chosun.com/politics/2025/04/06/2QG...,조선닷컴


In [153]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   title        100 non-null    object
 1   description  100 non-null    object
 2   published    100 non-null    object
 3   link         100 non-null    object
 4   media        100 non-null    object
dtypes: object(5)
memory usage: 4.0+ KB


In [154]:
df.isna().sum()

title          0
description    0
published      0
link           0
media          0
dtype: int64

In [150]:
df.to_csv('../data/political_news.csv', index=False, encoding='utf-8')

In [None]:
import pandas as pd
test = pd.read_csv('./data/political_news.csv', encoding='utf-8')
test

Unnamed: 0,title,description,published,link,media
0,"[속보] 이재명, 당 대표 사퇴...“새로운 일 시작”",이재명 전 더불어민주당 대표가 9일 당 대표직을 내려놓고 대선 출마 수순에 들어갔다...,"Wed, 09 Apr 2025 01:17:07 +0000",https://www.chosun.com/politics/assembly/2025/...,조선닷컴
1,트럼프 “원스톱 쇼핑”… 한국 방위비·관세 패키지 협상 시사,한덕수 대통령 권한대행 국무총리는 8일 밤 도널드 트럼프 미국 대통령과 28분가량 ...,"Tue, 08 Apr 2025 15:56:50 +0000",https://www.chosun.com/politics/politics_gener...,조선닷컴
2,김문수 “‘피고인 이재명’ 상대는 깨끗한 내가 제격”... 대선 출마 선언,김문수 전 고용노동부 장관이 9일 차기 대통령 선거 출마를 공식 선언하며 “피고인 ...,"Wed, 09 Apr 2025 01:00:33 +0000",https://www.chosun.com/politics/politics_gener...,조선닷컴
3,무장 북한군 10여명 군사분계선 넘어와 軍 경고 사격에 퇴각,개인 화기로 무장한 북한군 10여 명이 8일 강원도의 군사분계선(MDL)을 침범했다...,"Tue, 08 Apr 2025 16:11:15 +0000",https://www.chosun.com/politics/diplomacy-defe...,조선닷컴
4,"북한군 10여명, 무장한 채 군사분계선 침범… 경고사격에 퇴각",북한군 10여 명이 8일 오후 5시쯤 동부전선 비무장지대(DMZ)에서 군사분계선(M...,"Tue, 08 Apr 2025 09:16:34 +0000",https://www.chosun.com/politics/diplomacy-defe...,조선닷컴
...,...,...,...,...,...
622,"권성동, '한대행 출마론'에 ""의견 많지만 지도부 언급 부적절""","권성동 국민의힘 원내대표는 한덕수 대통령 권한대행 국무총리의 대선 출마론에 대해 ""...","Tue, 08 Apr 2025 11:36:42 +0900",https://news.jtbc.co.kr/article/NB12241870,JTBC
623,"민주 ""한대행, 또 위헌 행사…대통령 몫 헌법재판관 지명, 위헌""",오늘(8일) 서울 여의도 국회에서 열린 더불어민주당 원내대책회의. 왼쪽부터 김용민 ...,"Tue, 08 Apr 2025 11:34:56 +0900",https://news.jtbc.co.kr/article/NB12241869,JTBC
624,"이재명, 대선 출마 위해 내일 대표직 사퇴…경선 캠프 윤곽",더불어민주당 이재명 대표가 지난 7일 서울 여의도 국회에서 열린 최고위원회의에서 경...,"Tue, 08 Apr 2025 11:31:06 +0900",https://news.jtbc.co.kr/article/NB12241868,JTBC
625,"일 외교청서에 '독도는 일본 땅' 반복…외교부 ""즉각 철회하라""",지난해 10월 서울 종로구 정부서울청사 로비에 설치된 실시간 독도 영상 모니터 앞으...,"Tue, 08 Apr 2025 11:13:20 +0900",https://news.jtbc.co.kr/article/NB12241867,JTBC


In [5]:
test.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 627 entries, 0 to 626
Data columns (total 5 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   title        627 non-null    object
 1   description  573 non-null    object
 2   published    627 non-null    object
 3   link         627 non-null    object
 4   media        627 non-null    object
dtypes: object(5)
memory usage: 24.6+ KB


In [164]:
print(test[test['description'].isna()])

                                         title description  \
178   [속보] 韓대행, 트럼프 통화서 ‘조선·LNG·무역균형’ 협력 의지 강조         NaN   
179        [속보] 韓대행, 트럼프 통화…“한미동맹 더욱 확대·강화 희망”         NaN   
190                  [포토] 사의 표명하는 김문수 고용노동부 장관         NaN   
216     [속보] 韓대행, 문형배·이미선 후임 헌법재판관에 이완규·함상훈 지명         NaN   
217                 [속보] 韓권한대행, 마용주 대법관 후보자 임명         NaN   
270           [속보] 이재명 "오늘이 마지막"…민주당 대표직 사퇴 선언         NaN   
271      [속보] 김문수 "자유민주주의 부정 나라 근간 뒤흔드는 세력 잔존"         NaN   
272   [속보] 김문수 "12가지 죄목 이재명 상대, 깨끗한 손 김문수가 제격"         NaN   
273     [속보] 김문수 "탄핵 수용하나 尹 파면 비통한 심정 금할 길 없어"         NaN   
274          김문수, 대선 출마 선언 "대한민국 다시 위대하게 만들겠다"         NaN   
275             "내가 이재명 이긴다"…범보수 1위 김문수, 대선 출마         NaN   
276              김동연, 대선 출마 선언…"포퓰리즘 정책 안 하겠다"         NaN   
277  [속보] '첫 출근' 마은혁 "헌재 재판관 임무 완수 위해 최선 다할 것"         NaN   
278          "마지막 기회일지도"…尹 탄핵 후 시민들 청와대로 '우르르'         NaN   
279         홍준표 "軍 가산점제 부활해야…남녀 전문병사 대폭 증원 필요"         NaN   
280     

In [11]:
test.loc[0]

title                             [속보] 이재명, 당 대표 사퇴...“새로운 일 시작”
description    이재명 전 더불어민주당 대표가 9일 당 대표직을 내려놓고 대선 출마 수순에 들어갔다...
published                        Wed, 09 Apr 2025 01:17:07 +0000
link           https://www.chosun.com/politics/assembly/2025/...
media                                                       조선닷컴
Name: 0, dtype: object