웹스크래핑 연습문제1


In [1]:
!pip show requests

Name: requests
Version: 2.32.5
Summary: Python HTTP for Humans.
Home-page: https://requests.readthedocs.io
Author: Kenneth Reitz
Author-email: me@kennethreitz.org
License: Apache-2.0
Location: C:\Users\user\anaconda3\Lib\site-packages
Requires: certifi, charset_normalizer, idna, urllib3
Required-by: anaconda-auth, anaconda-catalogs, anaconda-client, anaconda-project, conda, conda-build, conda-libmamba-solver, conda-repo-cli, conda_package_streaming, cookiecutter, datashader, jupyterlab_server, panel, PyGithub, requests-file, requests-toolbelt, Sphinx, streamlit, tldextract


In [2]:
import requests
import bs4
from bs4 import BeautifulSoup

# 기후 뉴스
req_param = {
    'sid': 'economy'
}

# URL 설정
url = 'https://news.daum.net/{sid}'.format(**req_param)
print(url)

# 요청 헤더 설정 : 브라우저 정보
req_header = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/144.0.0.0 Safari/537.36'
}

# requests 의 get() 함수 호출하기 
res = requests.get(url, headers=req_header)

# --- 한글 깨짐 방지를 위해 인코딩을 utf-8로 강제 설정 ---
res.encoding = 'utf-8' 
# --------------------------------------------------
print(type(res))
print(res.status_code)


# 응답(response)이 OK 이면
if res.ok:
    soup = BeautifulSoup(res.text, 'html.parser')
    
    # 다음 뉴스 목록 영역과 기사 주소 패턴(v.daum.net)으로 변경
    print(len(soup.select("ul.list_newsheadline2 a[href*='https://v.daum.net/v/']")))
    
    # CSS 선택자를 사용해서 a tag 목록 가져오기
    a_tags = soup.select("ul.list_newsheadline2 a[href*='https://v.daum.net/v/']")
    # ResultSet 타입 및 첫 번째 요소 타입 출력
    print(type(a_tags), type(a_tags[0]))
    
    # <a> 태그 리스트 순회하기 
    for a_tag in a_tags:
        title = a_tag.text.strip()
        link = a_tag['href']
        
        # 제목과 링크 출력
        print(link)
        print(title)

else:
    # 응답(response)이 Error 이면 status code 출력 
    print(f'Error Code = {res.status_code}')

https://news.daum.net/economy
<class 'requests.models.Response'>
200
9
<class 'bs4.element.ResultSet'> <class 'bs4.element.Tag'>
https://v.daum.net/v/20260206152943998
[단독] "17만 군인 노후자금 녹는다" 대한토지신탁에 3700억 쏟은 군인공제회 이 기사는 02월 06일 10:03 마켓인사이트에 게재된 기사입니다. 군인공제회의 100% 자회사인 대한토지신탁이 부동산 경기 침체의 직격탄을 맞으며 유동성 위기에 처했다. 군인공제회가 지난 3년간 총 3700억원에 달하는 자금을 지원했음에도 대한토지신탁의 경영 지표는 오히려 악화한 것으로 나타났다. 당장 올 11월 1700억원 규모의 지급보증 만기가 한국경제 3분 전
https://v.daum.net/v/20260206151019128
동영상     한때 4,900선 밀린 코스피...비트코인도 급락 YTN 22분 전
https://v.daum.net/v/20260206150503890
정책자금 부당개입 근절 법제화 착수한 중기부…'컨설팅 등록제' 도입 검토 아시아경제 28분 전
https://v.daum.net/v/20260206144418089
모든 사업장에 퇴직연금 도입...기금형은 DC형에 적용 한국경제TV 48분 전
https://v.daum.net/v/20260206143213520
[연합뉴스 이 시각 헤드라인] - 14:30 연합뉴스 1시간 전
https://v.daum.net/v/20260206141625814
퇴직연금 기금으로 굴린다…"수익률 기대" 20년 만에 '대수술' 중앙일보 1시간 전
https://v.daum.net/v/20260206140600374
“AI 시대에도 중심은 사람” 부산시교육청, 대규모 정기인사 한스경제 1시간 전
https://v.daum.net/v/20260206140217179
노후 걱정? 3억이면 충분하다...통장 4개로 월 200만원 

In [3]:
section_dict = {
    '기후/환경':'climate','사회':'society','경제':'economy','정치':'politics',
    '국제':'world','문화':'culture','생활':'life','IT/과학':'tech','인물':'people'
}

# 함수선언
def print_news(section_name):
    sid = section_dict.get(section_name)
    
    if not sid:
        print(f"[{section_name}]은(는) 존재하지 않는 섹션입니다.")
        return

    req_param = {
        'sid': sid
    }

    # 3. URL 설정
    url = 'https://news.daum.net/{sid}'.format(**req_param)
    print(f"======> {url} {section_name} 뉴스 <======")

    # 4. 요청 헤더 설정 : 브라우저 정보
    req_header = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/144.0.0.0 Safari/537.36'
    }

    # 5. requests 의 get() 함수 호출하기 
    res = requests.get(url, headers=req_header)

    # --- 한글 깨짐 방지를 위해 인코딩을 utf-8로 강제 설정 ---
    res.encoding = 'utf-8' 
    # --------------------------------------------------

    # 6. 응답(response)이 OK 이면
    if res.ok:
        soup = BeautifulSoup(res.text, 'html.parser')
        
        # 다음 뉴스 목록 영역과 기사 주소 패턴(v.daum.net)으로 변경하여 a 태그 목록 가져오기
        a_tags = soup.select("ul.list_newsheadline2 a[href*='https://v.daum.net/v/']")
        
        # <a> 태그 리스트 순회하기 
        for a_tag in a_tags:
            title = a_tag.text.strip()
            link = a_tag['href']
            
            # 제목과 링크 출력 (링크 먼저, 제목 나중)
            if title:
                print(link)
                print(title)

    else:
        # 응답(response)이 Error 이면 status code 출력 
        print(f'Error Code = {res.status_code}')

print_news('기후/환경')

https://v.daum.net/v/20260206151627417
사육 환경부터 품질까지…강진군, 한우 키우기 '최적지' 전남 강진군은 전라남도 내에서도 청정 자연환경과 풍부한 조사료, 안정적인 사육 인프라를 바탕으로 한우 사육이 활발한 지역이다. 2026년 2월 현재 990농가가 3만 7천두를 사육중이며, 다른 시군에 비해 거세우 비율이 낮고 암소 비율이 72%로 번식우 사육 기반으로 송아지를 생산하는 사육형태를 갖추고 있다. 강진군은 2026년 한우산업 육성을 위해 6 프레시안 16분 전
https://v.daum.net/v/20260206142802344
노후 석탄발전소 가동하는 美..."전기요금 폭탄 맞을 것" 뉴스트리코리아 1시간 전
https://v.daum.net/v/20260206141629822
영국, 기후재원 지원 약속 1년여 만에 20% 삭감 계획 한겨레 1시간 전
https://v.daum.net/v/20260206133151045
반도체부터 수소까지…삼척의 7대 산업 로드맵 수소신문 2시간 전
https://v.daum.net/v/20260206131717684
SMR vs 재생에너지? 이제는 ‘공존 설계’의 시간 수소신문 2시간 전
https://v.daum.net/v/20260206123631883
동영상     [기후는 말한다] 결국 잘려나간 지느러미…보호구역에서 돌고래 위협? KBS 3시간 전
https://v.daum.net/v/20260206123629881
동영상     [기후는 말한다] ‘폐그물’ 등 해양폐기물 관리 강화 KBS 3시간 전
https://v.daum.net/v/20260206123434849
동영상     [기후는 말한다] 월드컵 조별리그 열리는 멕시코에 홍역 확산 KBS 3시간 전
https://v.daum.net/v/20260206114430441
지구에 단 500마리...멸종한 줄 알았던 숲의 포식자 포착 뉴스펭귄 4시간 전
