In [1]:
# requests 라이브러리 설치여부 확인
!pip show requests

Name: requests
Version: 2.32.3
Summary: Python HTTP for Humans.
Home-page: https://requests.readthedocs.io
Author: Kenneth Reitz
Author-email: me@kennethreitz.org
License: Apache-2.0
Location: C:\Users\user\anaconda3\Lib\site-packages
Requires: certifi, charset-normalizer, idna, urllib3
Required-by: aext-assistant-server, anaconda-auth, anaconda-catalogs, anaconda-client, anaconda-project, conda, conda-build, conda-repo-cli, conda_package_streaming, cookiecutter, datashader, jupyterlab_server, panel, requests-file, requests-toolbelt, Sphinx, streamlit, tldextract


In [2]:
# beautifulsoup4 라이브러리 설치여부 확인
!pip show beautifulsoup4

Name: beautifulsoup4
Version: 4.12.3
Summary: Screen-scraping library
Home-page: https://www.crummy.com/software/BeautifulSoup/bs4/
Author: 
Author-email: Leonard Richardson <leonardr@segfault.org>
License: MIT License
Location: C:\Users\user\anaconda3\Lib\site-packages
Requires: soupsieve
Required-by: conda-build, nbconvert


In [3]:
# reqeusts, bs4 import
import requests
# BeautifulSoup import
import bs4
# beautifulsoup4 클래스
from bs4 import BeautifulSoup

In [4]:
# requests, bs4 버전 확인하기
print(f'requests 버전 = {requests.__version__}')
print(f'bs4버전 = {bs4.__version__}')

requests 버전 = 2.32.3
bs4버전 = 4.12.3


### 질문1. 뉴스 제목 추출하기

In [1]:
# 다음 경제 뉴스 URL
req_param = {
    'cat': 'economic'  # 경제 'economic'
}

url = 'https://news.daum.net/breakingnews/{cat}'.format(**req_param)
print(url)

https://news.daum.net/breakingnews/economic


In [1]:
import requests
from bs4 import BeautifulSoup

# 다음 경제 뉴스 URL
url = 'https://news.daum.net/economy'

print(url)

# 요청 헤더
req_header = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36'
}

res = requests.get(url, headers=req_header)
print(type(res))
print(res.status_code)

# 정상 응답 여부 확인
if res.ok:
    # 응답 데이터 인코딩
    res.encoding = 'utf-8' 
    html = res.text
    soup = BeautifulSoup(html, 'html.parser')
    
    # 기사 제목과 링크 추출
    li_tag_list = soup.select('ul.list_newsheadline2 li')

    print(type(li_tag_list), len(li_tag_list))

    for li_tag in li_tag_list:  #li_tag => <li>     
        a_tag = li_tag.find('a') #a_tag <a href="">
        print(a_tag['href'])
        
        #strong_tag = li_tag.select('div.cont_thumb strong.tit_txt')[0] #[<strong>]
        strong_tag = li_tag.select_one('div.cont_thumb strong.tit_txt')
        title = strong_tag.text.strip()
        print(title)

else:
    print(f'에러코드 = {res.status_code}')

https://news.daum.net/economy
<class 'requests.models.Response'>
200
<class 'bs4.element.ResultSet'> 9
https://v.daum.net/v/20250723203204354
'법인세 부담' 언론 보도가 놓치는 것, 명목보다 실질을 봐야 한다
https://v.daum.net/v/20250723200257745
스테이블 : USDT의, USDT에 의한, USDT를 위한 디지털 국가
https://v.daum.net/v/20250723193636084
쌀·소고기 대신 '연료작물' 통할까…"조선·제조업 내세워 美 설득해야"
https://v.daum.net/v/20250723192143583
‘759조 투자·쌀 개방’ 일본 통 큰 양보…정부 대미 협상안 긴급 재조정
https://v.daum.net/v/20250723191424311
비트코인 다 오른다는데… 20만 달러 갈까 고점서 빠질까
https://v.daum.net/v/20250723190948187
“배당·장기투자 문화 정착시키고 기관투자자 적극 역할을” [2025 세계증권포럼]
https://v.daum.net/v/20250723190857159
“해외투자·서비스 수출… 韓·글로벌 경제 ‘질적 연결’ 늘려야” [2025 세계증권포럼]
https://v.daum.net/v/20250723190302963
주4.5일제 찬반 ‘팽팽’…금융권 선도 vs 부작용 우려
https://v.daum.net/v/20250723185405689
與안도걸 "스테이블코인 법안 내주 발의"…통화·외환 파장도 예의주시


### 질문2. url에서 뉴스기사의 링크와 제목을 출력하는 코드를 함수로 작성하기


In [9]:
import requests
from bs4 import BeautifulSoup

# '사회': 'society'
def print_news(section_name):    
    section = section_dict[section_name]
    # 요청 Parameter
    req_param = {
        'section': section
    }
    #url = 'https://news.daum.net/{section}'.format(**req_param)
    url = f'https://news.daum.net/{section}'
    
    print(f'======> {url} {section_name} 뉴스 <======')
    
    # 요청 헤더 설정 : 브라우저 정보
    req_header = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36'
    }

    res = requests.get(url, headers=req_header)   

    if res.ok:
        res.encoding = 'utf-8' 
        html = res.text
        soup = BeautifulSoup(html, 'html.parser')
        
        li_tag_list = list()
        # 기사 제목과 링크 추출
        li_tag_list = soup.select('ul.list_newsheadline2 li')

        #print(type(li_tag_list), len(li_tag_list))

        for li_tag in li_tag_list:        
            a_tag = li_tag.find('a')
            print(a_tag['href'])
            
            strong_tag = li_tag.select_one('div.cont_thumb strong.tit_txt')
            title = strong_tag.text.strip()
            print(title)

    else:
        print(f'에러코드 = {res.status_code}')