# 📘 1-1) Daum 뉴스 기사 제목 스크래핑하기

## ✅ 문제 설명

- 다음 URL에서 뉴스 기사들의 **링크와 제목을 스크래핑**하세요.
- 뉴스 기사는 총 9개가 존재하며, 모두 출력되어야 합니다.
- 요청 결과는 반드시 `utf-8`로 인코딩하여 처리해야 합니다.

---

## 📌 대상 URL

https://news.daum.net/economy

---

## 🧾 실행 결과 예시

- https://v.daum.net/v/20250408180205986  
  **[단독] "돈 잘 버는 알짜부터"…SK '몸값 5조' 실트론 매각한다**

- https://v.daum.net/v/20250408175343664  
  **美·中 관세 폭탄 돌리기…‘새우등’ 한국 경제 불안감 더 커졌다**

- https://v.daum.net/v/20250408175111585  
  **나랏빚 1175조 '역대 최대'…추경 재원 바닥**

- https://v.daum.net/v/20250408174344325  
  **메디젠휴먼케어, "23andMe 파산..한국 유전체 산업의 위기 아닌 기회"**

- https://v.daum.net/v/20250408173713085  
  **칩 확보서 데이터센터까지···전 산업에 'AI 고속도로' 깔아야**

- https://v.daum.net/v/20250408173626057  
  **77년 묵은 정부조직, 데이터 중심 대수술···'AI 부총리' 도입을**

- https://v.daum.net/v/20250408172845794  
  **[이슈ON] 마은혁 받고 '윤 절친' 이완규 투입...한덕수는 왜?**

- https://v.daum.net/v/20250408161553109  
  **트럼프발 주가폭락에 동아 "경제적 핵전쟁" 조선 "금융위기 후 최악"**

- https://v.daum.net/v/20250408160526681  
  **공황과 격변의 판도라 박스가 열리다**

---

## 📦 요구 사항

- `requests`로 웹페이지 요청
- `res.encoding = 'utf-8'` 설정 (한글 깨짐 방지)
- `BeautifulSoup`을 사용해 HTML 파싱
- `ul.list_newsheadline2` 내부의 뉴스 링크와 제목 추출
- 링크는 `<a href="...">`에서, 제목은 `<strong class="tit_txt">`에서 추출
- 총 9개의 뉴스 제목과 링크를 순서대로 출력

---

## 💡 학습 포인트

- 웹 스크래핑 시 **적절한 인코딩 설정** (`res.encoding`)
- CSS 선택자를 이용한 **BeautifulSoup의 select() 사용법**
- `.text`, `['href']` 속성 사용을 통한 **텍스트 및 링크 추출**
- 출력 순서와 포맷을 **문제 조건에 맞게 정리하여 구현**

In [None]:
import requests     
from bs4 import BeautifulSoup

# 1. 요청 헤더 설정 (브라우저처럼 보이게 하기 위한 User-Agent 설정)
req_header = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/135.0.0.0 Safari/537.36'
}

# 2. URL에 넣을 파라미터 (sid: 섹션 아이디 - economy = 경제 섹션)
req_param = {
    'sid': 'economy'
}

# 3. 실제 요청할 URL 생성
url = 'https://news.daum.net/{sid}'.format(**req_param)
print(url)  # → https://news.daum.net/economy

# 4. 웹 서버에 요청 (헤더 포함)
res = requests.get(url, headers=req_header)

# 5. 인코딩 설정 (중요! 한글 깨짐 방지)
res.encoding = 'utf-8'

# 6. 응답 상태 및 타입 확인
print(type(res))           # <class 'requests.models.Response'>
print(res.status_code)     # 200이면 정상

# 7. 응답이 정상일 때만 파싱 진행
if res.ok:
    html = res.text  # HTML 코드 문자열
    soup = BeautifulSoup(html, 'html.parser')  # BeautifulSoup로 HTML 파싱

    # 8. 뉴스 기사 링크가 포함된 a 태그 리스트 추출 (href에 '/v.daum.net' 포함)
    li_tag_list = soup.select("ul.list_newsheadline2 a[href*='/v.daum.net']")
    print(type(li_tag_list), len(li_tag_list))  # 몇 개 있는지 출력

    # 9. 각각의 뉴스 항목(li 태그) 순회하며 제목과 링크 출력
    for li_tag in soup.select('ul.list_newsheadline2 li'):
        a_tag = li_tag.find('a')  # 뉴스 기사로 가는 링크
        link = a_tag['href']      # href 속성값 (URL)
        print(link)

        # 뉴스 제목이 담긴 strong 태그 선택
        strong_tag = li_tag.select_one('div.cont_thumb strong.tit_txt')
        title = strong_tag.text.strip()  # 텍스트 추출 후 공백 제거
        print(title)

https://news.daum.net/economy
<class 'requests.models.Response'>
200
<class 'bs4.element.ResultSet'> 9
https://v.daum.net/v/20250408180205986
[단독] "돈 잘 버는 알짜부터"…SK '몸값 5조' 실트론 매각한다
https://v.daum.net/v/20250408175343664
美·中 관세 폭탄 돌리기…‘새우등’ 한국 경제 불안감 더 커졌다
https://v.daum.net/v/20250408175111585
나랏빚 1175조 '역대 최대'…추경 재원 바닥
https://v.daum.net/v/20250408174344325
메디젠휴먼케어, "23andMe 파산..한국 유전체 산업의 위기 아닌 기회"
https://v.daum.net/v/20250408173713085
칩 확보서 데이터센터까지···전 산업에 'AI 고속도로' 깔아야
https://v.daum.net/v/20250408173626057
77년 묵은 정부조직, 데이터 중심 대수술···'AI 부총리' 도입을
https://v.daum.net/v/20250408172845794
[이슈ON] 마은혁 받고 '윤 절친' 이완규 투입...한덕수는 왜?
https://v.daum.net/v/20250408161553109
트럼프발 주가폭락에 동아 "경제적 핵전쟁" 조선 "금융위기 후 최악"
https://v.daum.net/v/20250408160526681
공황과 격변의 판도라 박스가 열리다


# 📘 1-2) 섹션 선택 함수로 뉴스 기사 스크래핑하기

## ✅ 문제 설명

- 여러 뉴스 섹션 중 하나를 선택하여, 해당 뉴스 URL에서 **기사의 링크와 제목을 스크래핑**하는 함수를 작성하세요.
- 사용자가 한글로 섹션명을 입력하면, 사전에 정의된 딕셔너리를 통해 **영문 코드로 변환하여 URL을 구성**해야 합니다.
- 이후 동작은 1-1 문제와 동일하게 처리하면 됩니다.

---

## 🌐 대상 URL

아래는 섹션별 예시 URL입니다. 사용자가 선택한 섹션에 따라 아래 중 하나가 사용됩니다.

- 경제: `https://news.daum.net/economy`  
- 사회: `https://news.daum.net/society`  
- 인물: `https://news.daum.net/people`  
*(기타 섹션도 `https://news.daum.net/{영문코드}` 형식)*

---

## 🧾 실행 결과 예시 (리스트 형식)

- `print_news('경제')`  
  ======> https://news.daum.net/economy 경제 뉴스 <======

  - https://v.daum.net/v/20250408181016275  
    **관세 다음은 환율전쟁? 美 ‘100년물 미국채 강매’까지 만지작**

  - https://v.daum.net/v/20250408180205986  
    **[단독] "돈 잘 버는 알짜부터"…SK '몸값 5조' 실트론 매각한다**

  - https://v.daum.net/v/20250408175343664  
    **美·中 관세 폭탄 돌리기…‘새우등’ 한국 경제 불안감 더 커졌다**

  ...

- `print_news('사회')`  
  ======> https://news.daum.net/society 사회 뉴스 <======

  - https://v.daum.net/v/20250408181101293  
    **계엄 문건, ‘세월호 7시간’처럼 봉인되나…열쇠는 피의자 한덕수 대행 손에**

  - https://v.daum.net/v/20250408181007271  
    **법조계 “한덕수의 재판관 지명 월권”…헌법소원·효력정지 가처분 거론**

  ...

---

## 📦 요구 사항

- `section_dict`를 활용하여 한글 섹션명을 영문 코드로 변환
- 변환된 코드를 사용해 URL 생성 → 요청 → HTML 파싱
- 뉴스 기사는 `<ul class="list_newsheadline2">` 내에서 `<a>` 링크 및 `<strong class="tit_txt">` 제목 추출
- `print_news(섹션명)` 함수로 호출 가능해야 함
- `res.encoding = 'utf-8'` 인코딩 설정 필수

---

## 💡 학습 포인트

- `딕셔너리 매핑`을 활용한 입력 처리 및 유연한 URL 구성
- `함수화`를 통한 코드 재사용성과 확장성 확보
- `BeautifulSoup`을 사용한 `select()`, `select_one()`로 원하는 태그 추출
- 웹 페이지 크롤링 시 **인코딩 설정** 중요성 이해



In [1]:
import requests
from bs4 import BeautifulSoup

# 한글 → 영어 섹션 코드 딕셔너리
# 뉴스 URL에는 영어 코드가 들어가고, 출력에는 한글을 그대로 쓰기 위해 사용
section_dict = {
    '최신뉴스': 'climate',
    '사회': 'society',
    '경제': 'economy',
    '정치': 'politics',
    '국제': 'world',
    '문화': 'culture',
    '생활': 'life',
    'IT/과학': 'tech',
    '인물': 'people'
}

# 뉴스 크롤링 함수 정의 [해당 함수의 정의에서 한글로 입력을 받으면 economy뉴스 와 같이 출력되어 해당 값을 GPT에게 수정 요청]
def print_news(section_name):
    # ★ GPT 수정된 부분 1: 한글 → 영어 코드 변환
    section_code = section_dict[section_name]  # 예: '경제' → 'economy'
    # ★ GPT 수정된 부분 2: URL에 영어 코드 삽입
    url = f"https://news.daum.net/{section_code}"  # 예: https://news.daum.net/economy
    # ★ GPT 수정된 부분 3: 출력에는 한글 그대로 사용
    print(f"=====> {url} {section_name} 뉴스 <=====")  # 예: "경제 뉴스"
    
    # 요청 헤더 설정 (브라우저처럼 요청 보내기 위해 User-Agent 포함)
    req_header = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/135.0.0.0 Safari/537.36'
    }

    # 요청 보내기
    res = requests.get(url, headers=req_header)
    res.encoding = 'utf-8'  # 한글 깨짐 방지: 인코딩 설정은 soup 파싱 전에!

    # 응답이 정상일 경우 HTML 파싱
    if res.ok:
        soup = BeautifulSoup(res.text, 'html.parser')

        # 뉴스 리스트 항목(li) 하나씩 순회
        for li_tag in soup.select('ul.list_newsheadline2 li'):
            a_tag = li_tag.find('a')         # 기사 링크 추출
            if not a_tag: continue           # a 태그가 없으면 건너뜀
            link = a_tag['href']             # 링크 주소 추출
            print(link)

            # 뉴스 제목 추출
            strong_tags = li_tag.select('div.cont_thumb strong.tit_txt')
            if strong_tags:
                strong_tag = strong_tags[0]
            title = strong_tag.text.strip()  # 텍스트만 추출 + 공백 제거
            print(title)

# 함수 호출 예시
print_news('경제')  # https://news.daum.net/economy 경제 뉴스
print_news('사회')  # https://news.daum.net/society 사회 뉴스



=====> https://news.daum.net/economy 경제 뉴스 <=====
https://v.daum.net/v/20250409125903840
천안시 '인구 변화 대응', 출생·양육~미래 산업 육성…인구 유입 정책 추진
https://v.daum.net/v/20250409122036180
정부, 美에 LNG 수입·조선업 협력·알래스카 투자 제안…트럼프  “Great Call”
https://v.daum.net/v/20250409120018573
그래도 꾸준한 프랜차이즈…재작년 매출액 소상공인 1.75배
https://v.daum.net/v/20250409120009533
3월 은행 가계대출 1.4조↑ "토허제發 주택거래 급증은 2분기 영향"
https://v.daum.net/v/20250409114312833
高관세·高환율 쓰나미…희비 엇갈린 산업계
https://v.daum.net/v/20250409113001204
美·日은 '죽은 원전'도 되살린 판에…한국은 2년간 뭐했나 [김리안의 에네르기파WAR]
https://v.daum.net/v/20250409112842145
취업자 석달째 늘었지만 청년·건설 '고용한파'…관세조치에 더 암울(종합2보)
https://v.daum.net/v/20250409111613474
"아이폰 곧 300만원" 트럼프, 중국 잡으려다 시총 1위 애플 잡네
https://v.daum.net/v/20250409111311272
美조선 수주, 韓이 싹쓸이…K조선의 ‘지정학 반사이익’ 현실 [한양경제]
=====> https://news.daum.net/society 사회 뉴스 <=====
https://v.daum.net/v/20250409123807559
민주주의 취약하면 파시즘이 온다[새 책]
https://v.daum.net/v/20250409121612104
'포트트릭' 몰아친 日 축구 국가대표, 가수 김정민 아들이었다
https://v.daum.net/v/20250409120605878
"숲가꾸기-임도 현장일수