In [19]:
'''
2025.04.22 화

예제 1 : 뉴스 제목 + 링크 + 이미지 크롤링
'''

'''
[필요한 라이브러리]
'''
import requests                      # 웹 요청을 보내는 라이브러리
from bs4 import BeautifulSoup       # HTML 파싱을 위한 라이브러리

# 크롤링 대상 URL (네이버 뉴스 > 생활/문화 섹션)
url = "https://news.naver.com/section/103"

# 브라우저처럼 보이기 위한 헤더 설정 (봇 차단 방지용)
headers = {
    "User-Agent" : "Mozilla/5.0"
}

# Http GET 요청을 보내기
res = requests.get(url, headers = headers)

# 받은 HTML 문서를 파싱하여 soup 객체 생성
soup = BeautifulSoup(res.text, "lxml")


'''
[soup.select("css 선택자")]

- html문서 안에서 css 선택자 문법을 써서 원하는 요소들을 리스트 형태로 가져옴
- 결과는 항상 리스트로 변환
'''

# 뉴스 제목과 링크가 포함된 'a' 태그들 선택 (class 속성에 'sa_text_title' 포함)
news_list = soup.select("a.sa_text_title")


'''
[각 뉴스 항목 순회]

- start = 1 : enumerate()는 인덱스를 0부터 시작하는데, start = 1 1부터 시작해 달라는 뜻
'''
for i, a_tag in enumerate(news_list, start = 1) :

    '''
    [뉴스 제목 텍스트 추출(공백 제거)]

    - tag.get_text(strip = False, True)
    - False라면 공백을 지워주지 않음
    - True라면 공백을 지준다.
    '''
    title = a_tag.get_text(strip = True)

    
    '''
    [뉴스 기사 링크 추출 (a 태그의 href 속성)]
    '''
    link = a_tag["href"]

    
    '''
    [뉴스 이미지 추출]

    - 현재 'a' 태그의 부모 요소 중 'li' 태그를 찾음
    - find_parent() : 특정 태그의 부모 태그를 찾아주는 기능 > 태그의 한 단계 위 부모 찾기
    - find_parents() : 태그의 모든 조상들 찾기(리스트)

    [li 태그 안에 있는 img 태그 찾기]

    - (있을 경우에만)
    - soup.select_one("img") : BeautifulSoup에서 사용하는 함수고, "처음 나오는 하나의 요소"만 선택
    - soup.select("img") -> 리스트로 가져온다.
    '''
    parent_li = a_tag.find_parent("li")

    img_tag = parent_li.select_one("img") if parent_li else None

    
    '''
    [뉴스 이미지 URL 추출]

    1. 이미지가 자연 로딩 방식이면 data-src 속성 사용
        - data-src : 자바스크립트나 크롤러가 데이터를 읽을 때 사용
        - html에서 사용자 정의 속성을 만들 때 사용
    2. 일반적인 경우에는 src 속성 사용
        - img_tag라는 이미지 태그가 존재하고, 그 태그에 src 속성이 있으면, 그 src 속성의 값을 img_url이라는 변수에 저장하라는 의미이다.
    3. 이미지가 없는 경우
    '''
    if img_tag and img_tag.has_attr("data-src") :
        img_url = img_tag["data-src"]
    elif img_tag and img_tag.has_attr("src") :
        img_url = img_tag["src"]
    else :
        img_url = "이미지 없음"

    # 결과 출력
    print(f"{i}. {title}")    # 번호와 뉴스 제목
    print(f"> {link}")        # 뉴스 상세 페이지 url
    print(f"> {img_url}")     # 이미지 url 또는 '이미지 없음'
    # 구분선
    print("---")


1. 현대차 '2025 코나' 출시 판매…최저 2천400만 원부터
> https://n.news.naver.com/mnews/article/374/0000436740
> https://mimgnews.pstatic.net/image/origin/374/2025/04/23/436740.jpg?type=nf220_150
---
2. 광주·전남 140여개 본당, 프란치스코 교황 '추모 미사'
> https://n.news.naver.com/mnews/article/277/0005582219
> https://mimgnews.pstatic.net/image/origin/277/2025/04/23/5582219.jpg?type=nf220_150
---
3. "일찍·오래 자는 청소년, 인지 능력 더 좋다"
> https://n.news.naver.com/mnews/article/031/0000926862
> https://mimgnews.pstatic.net/image/origin/031/2025/04/23/926862.jpg?type=nf220_150
---
4. 1500년 전 마한 숨결 간직한 '영암 시종 고분군', 국가사적 된다
> https://n.news.naver.com/mnews/article/421/0008209941
> https://mimgnews.pstatic.net/image/origin/421/2025/04/23/8209941.jpg?type=nf220_150
---
5. 청명했던 날, 선교사들의 묘소에서 남긴 메시지는?
> https://n.news.naver.com/mnews/article/005/0001771819
> https://mimgnews.pstatic.net/image/origin/005/2025/04/23/1771819.jpg?type=nf220_150
---
6. BMW코리아, 전기차 고객 위한 전용 소통 채널 개설
> https://n.news.naver.com/mnews/article/014/0005340047
> https