### 1. Daum 뉴스 기사 제목 스크래핑하기

질문1. 아래의 url에서 뉴스 기사의 링크와 제목을 출력하시오
*  경제 뉴스 url = 'https://news.daum.net/economy'

In [None]:
import requests
from bs4 import BeautifulSoup

# dict 타입으로 요청 파라미터 설정
# 요청 파라미터 설정: 고정된 주소 뒤에 내가 원하는 조건(카테고리 등)을 유동적으로 조립하기 위해 미리 값을 준비해두는 과정
req_param = {
    'category': 'economy' 
}

url = 'https://news.daum.net/{category}'.format(**req_param)
print(url) 

# 요청 헤더 설정 why? 프로그램이 아닌 사람처럼 보이게 하기 위함
# 개발자 도구 네트워크 Doc의 헤더에서 가져올 수 있음
req_header = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/144.0.0.0 Safari/537.36'
}

# requests의 get() 함수 호출하기
# requests.get(): 이 주소(URL)에 있는 정보를 나에게 보내달라고 요청 하는 역할
# url: "어디로" 갈 것인가? e.g. 다음 경제 뉴스 페이지
# headers=req_header: "어떤 모습으로" 갈 것인가? 앞서 설명한 것처럼 user-agent를 담아 사람인 척 위장하는 가면을 쓰는 부분
res = requests.get(url, headers=req_header)

print(type(res)) 
print(res.status_code) 

# if res.ok: 서버로부터 응답을 제대로 받았는지
if res.ok: 
    # 한글 깨짐 방지
    res.encoding = 'utf-8'
    # res.text는 긴 글자 뭉친인데 BeautifulSoup을 거치면 '태그를 찾아줘' 등과 같은 명령어를 쓸 수 있는 soup 객체가 됨
    # html.parser: BeautifulSoup에게 html.parser 도구로 분석하라고 알려줌
    soup = BeautifulSoup(res.text, 'html.parser') 

    # 기사 제목과 링크 추출
    # 긴 html에서 내가 원하는 부분만 가져오기
    # ul.list_newsheadline2: 클래스가 list_newsheadline2인 ul 태그 찾기
    li_tag_list = soup.select("ul.list_newsheadline2 li")

    # type: 데이터 형식
    # len: 그 안에 든 뉴스 기사가 몇 개인지
    print(type(li_tag_list), len(li_tag_list))

    # 찾아온 뉴스 꾸러미(li_tag_list)에서 기사를 하나씩 꺼내서(li_tag) 아래 작업을 반복
    for li_tag in li_tag_list:

        a_tag = li_tag.find('a')
        # 해당하는 링크를 가져와서 출력하기
        print(a_tag['href'])

        #strong_tag = li_tag.select('div.cont_thumb strong.tit_txt')[0]
        strong_tag = li_tag.select_one('div.cont_thumb strong.tit_txt')
        # .text: 태그 안의 텍스트만 가져오기
        # .strip(): 공백, 줄바꿈 제거
        title = strong_tag.text.strip()
        print(title)

else:
    # 응답(response)이 Error이면 status code 출력
    print(f'Error Code = {res.status_code}')

질문2. 여러개의 section 중 하나를 선택해서 url에서 뉴스기사의 링크와 제목을 출력하는 코드를 함수로 작성하기
*   경제 뉴스 url = 'https://news.daum.net/economy'
*   사회 뉴스 url = 'https://news.daum.net/society'

In [5]:
import requests
from bs4 import BeautifulSoup

section_dict = {'기후/환경':'climate','사회':'society','경제':'economy','정치':'politics', '국제':'world','문화':'culture',
                '생활':'life','IT/과학':'tech','인물':'people','지식/칼럼':'understanding','연재':'series'}

def print_news(section_name):

    section = section_dict[section_name]

    # 요청 Parameter
    req_param = {
        'section': section
    }

    url = 'https://news.daum.net/{section}'.format(**req_param)

    # f-string: 문자열 안에서 중괄호 { }를 사용해 변수나 계산식을 직접 넣을 수 있음
    # print("======>" + url + section_name + "뉴스" + "<======")
    print(f'======> {url} {section_name} 뉴스 <======')

    # 요청 헤더 설정
    req_header = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/144.0.0.0 Safari/537.36'
    }

    # requests의 get() 함수 호출하기
    # requests.get(): 이 주소(URL)에 있는 정보를 나에게 보내달라고 요청 하는 역할
    # url: "어디로" 갈 것인가? e.g. 다음 경제 뉴스 페이지
    # headers=req_header: "어떤 모습으로" 갈 것인가? 앞서 설명한 것처럼 user-agent를 담아 사람인 척 위장하는 가면을 쓰는 부분
    res = requests.get(url, headers=req_header)
    
    # if res.ok: 서버로부터 응답을 제대로 받았는지
    if res.ok:
        # 한글 깨짐 방지
        res.encoding = 'utf-8'
        # res.text는 긴 글자 뭉친인데 BeautifulSoup을 거치면 '태그를 찾아줘' 등과 같은 명령어를 쓸 수 있는 soup 객체가 됨
        # html.parser: BeautifulSoup에게 html.parser 도구로 분석하라고 알려줌
        soup = BeautifulSoup(res.text, 'html.parser')

        # 기사 제목과 링크 추출
        # 긴 html에서 내가 원하는 부분만 가져오기
        # ul.list_newsheadline2: 클래스가 list_newsheadline2인 ul 태그 찾기
        li_tag_list = soup.select("ul.list_newsheadline2 li")

        # 찾아온 뉴스 꾸러미(li_tag_list)에서 기사를 하나씩 꺼내서(li_tag) 아래 작업을 반복
        for li_tag in li_tag_list:

            a_tag = li_tag.find('a')
            # 해당하는 링크를 가져와서 출력하기
            print(a_tag['href'])

            #strong_tag = li_tag.select('div.cont_thumb strong.tit_txt')[0]
            strong_tag = li_tag.select_one('div.cont_thumb strong.tit_txt')
            # .text: 태그 안의 텍스트만 가져오기
            # .strip(): 공백, 줄바꿈 제거
            title = strong_tag.text.strip()
            print(title)

    else:
        # 응답(response)이 Error이면 status code 출력
        print(f'Error Code = {res.status_code}')

In [None]:
print_news('경제')
print_news('사회')

### 2-1. Nate 뉴스 기사 제목 스크래핑하기
*   https://news.nate.com/recent?mid=n0100
*   최신뉴스, 정치 , 경제, 사회, 세계, IT/과학 6개의 섹션의 뉴스를 출력하는 함수를 생성하여 스크래핑 하기
*   뉴스기사의 Image를 출력 하세요
*   Image의 도메인이름이 포함된 url과 src 속성의 img 경로를 합치려면 urljoin 함수를 사용하세요
*   Image 출력은 Image 클래스와 display 함수를 사용하세요
*   img 엘리먼트의 존재 여부를 체크하신 후에 src 속성의 이미지를 경로를 추출하기


In [None]:
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
from IPython.display import Image, display

section_dict = {'최신뉴스':100,'정치':200, '경제':300, '사회':400 ,'세계':500, 'IT/과학':600}

def print_news(section_num):

    section = section_dict[section_num]

    # 요청 Parameter
    req_param = {
        'section': section
    }

    url = 'https://news.nate.com/recent?mid=n0{section}'.format(**req_param)
    
    # 요청 헤더 설정
    req_header = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/144.0.0.0 Safari/537.36'
    }

    # requests의 get() 함수 호출하기
    # requests.get(): 이 주소(URL)에 있는 정보를 나에게 보내달라고 요청 하는 역할
    # url: "어디로" 갈 것인가? e.g. 다음 경제 뉴스 페이지
    # headers=req_header: "어떤 모습으로" 갈 것인가? 앞서 설명한 것처럼 user-agent를 담아 사람인 척 위장하는 가면을 쓰는 부분
    res = requests.get(url, headers=req_header)

    # 서버에서 제공한 실제 인코딩 방식으로 강제 설정 (한글 깨짐 방지)
    res.encoding = res.apparent_encoding
    
    if res.ok:
        # 한글 깨짐 방지
        res.encoding = 'euc-kr'
        # res.text는 긴 글자 뭉친인데 BeautifulSoup을 거치면 '태그를 찾아줘' 등과 같은 명령어를 쓸 수 있는 soup 객체가 됨
        # html.parser: BeautifulSoup에게 html.parser 도구로 분석하라고 알려줌
        soup = BeautifulSoup(res.text, 'html.parser')

        # 기사 묶음 리스트
        tags = soup.select("div.postListType.noListTitle div.mlt01")

        # idx: 기사 번호
        # div_tag: 뉴스 기사 하나에 해당하는 html 덩어리
        # enumerate(tags, 1): tags에서 하나식 꺼내는데 번호표를 1번부터 붙여서 가져옴
        for idx,div_tag in enumerate(tags, 1): 
            print(f'============>> {idx}')

            # 기사 덩어리 안에서 링크가 걸린 <a>태그 찾기       
            a_tag = div_tag.find('a')
            # urljoin(url, ...): 생략된 앞부분 주소를 자동으로 붙여서 완전한 주소로 만들어주는 함수
            # 현재 <a>태그에 있는 링크: //news.nate.com/view/20260209n25017?mid=n0100(불완전한 주소)
            a_join_url = urljoin(url, a_tag['href'])
            print(f'뉴스기사 링크 = {a_join_url}')

            img_tag = div_tag.select_one('span.ib img')
            if img_tag:
                photo_url = urljoin(url, img_tag['src'])
                print(img_tag['src'])
                print(photo_url)
                display(Image(url=photo_url))

            h2_tag = div_tag.select_one('span.tb h2.tit')
            title = h2_tag.text
            print(title)

    else:
        # 응답(response)이 Error이면 status code 출력
        print(f'Error Code = {res.status_code}')


In [14]:
print_news('경제')

뉴스기사 링크 = https://news.nate.com/view/20260209n24432?mid=n0300
//thumbnews.nateimg.co.kr/news90///news.nateimg.co.kr/orgImg/hr/2026/02/09/rcv.YNA.20260128.PYH2026012802860005100_P1.jpg
https://thumbnews.nateimg.co.kr/news90///news.nateimg.co.kr/orgImg/hr/2026/02/09/rcv.YNA.20260128.PYH2026012802860005100_P1.jpg


KDI "수출물량 증가세 다소 조정…소비는 개선 흐름"
뉴스기사 링크 = https://news.nate.com/view/20260209n20521?mid=n0300
//thumbnews.nateimg.co.kr/news90///news.nateimg.co.kr/orgImg/na/2026/02/09/7664764_high.jpg
https://thumbnews.nateimg.co.kr/news90///news.nateimg.co.kr/orgImg/na/2026/02/09/7664764_high.jpg


송파구 아이코리아 부지, 5000억 매각…900가구 아파트 추진
뉴스기사 링크 = https://news.nate.com/view/20260209n24422?mid=n0300
브이엠, 지난해 영업익 247억…흑자전환
뉴스기사 링크 = https://news.nate.com/view/20260209n23814?mid=n0300
//thumbnews.nateimg.co.kr/news90///news.nateimg.co.kr/orgImg/hk/2026/02/09/01.43231218.1.jpg
https://thumbnews.nateimg.co.kr/news90///news.nateimg.co.kr/orgImg/hk/2026/02/09/01.43231218.1.jpg


대우건설, 성수4지구 단지명 'THE SEONGSU 520' 제안
뉴스기사 링크 = https://news.nate.com/view/20260209n24408?mid=n0300
//thumbnews.nateimg.co.kr/news90///news.nateimg.co.kr/orgImg/ns/2026/02/09/NISI20260209_0002059363_web.jpg
https://thumbnews.nateimg.co.kr/news90///news.nateimg.co.kr/orgImg/ns/2026/02/09/NISI20260209_0002059363_web.jpg


'전월세보험' 가입자 47% 30대…10명 중 8명은 수도권
뉴스기사 링크 = https://news.nate.com/view/20260209n24384?mid=n0300
//thumbnews.nateimg.co.kr/news90///news.nateimg.co.kr/orgImg/ed/2026/02/09/PS26020900965.jpg
https://thumbnews.nateimg.co.kr/news90///news.nateimg.co.kr/orgImg/ed/2026/02/09/PS26020900965.jpg


"중국 LNG선 품질·기술, 한국과 격차 여전"-HD한국조선해양 컨콜
뉴스기사 링크 = https://news.nate.com/view/20260209n24344?mid=n0300
은행권 소극적 태도에 감정평가사協 "금융기관 자체 감정평가 중단 협의 난항"
뉴스기사 링크 = https://news.nate.com/view/20260209n24374?mid=n0300
//thumbnews.nateimg.co.kr/news90///news.nateimg.co.kr/orgImg/cz/2026/02/09/cz_1770616701150_346241_0.jpg
https://thumbnews.nateimg.co.kr/news90///news.nateimg.co.kr/orgImg/cz/2026/02/09/cz_1770616701150_346241_0.jpg


메리츠證, AWS 혁신 사례 선정…"시장 환경에 클라우드 이용량 자동 조절"
뉴스기사 링크 = https://news.nate.com/view/20260209n19403?mid=n0300
//thumbnews.nateimg.co.kr/news90///news.nateimg.co.kr/orgImg/cz/2026/02/09/cz_1770616685660_694574_0.jpg
https://thumbnews.nateimg.co.kr/news90///news.nateimg.co.kr/orgImg/cz/2026/02/09/cz_1770616685660_694574_0.jpg


HD현대중공업, 13년 만에 영업익 2조 뚫었다…'고부가 선박'이 효자
뉴스기사 링크 = https://news.nate.com/view/20260209n24371?mid=n0300
//thumbnews.nateimg.co.kr/news90///news.nateimg.co.kr/orgImg/na/2026/02/09/7740437_high.jpg
https://thumbnews.nateimg.co.kr/news90///news.nateimg.co.kr/orgImg/na/2026/02/09/7740437_high.jpg


1조4000억 성수4지구 재개발 수주전…대우·롯데 정면승부
뉴스기사 링크 = https://news.nate.com/view/20260209n24359?mid=n0300
//thumbnews.nateimg.co.kr/news90///news.nateimg.co.kr/orgImg/yt/2026/02/09/PYH2026020914130001300_P2.jpg
https://thumbnews.nateimg.co.kr/news90///news.nateimg.co.kr/orgImg/yt/2026/02/09/PYH2026020914130001300_P2.jpg


'대형마트 새벽배송 허용' 유통산업법 개정 추진
뉴스기사 링크 = https://news.nate.com/view/20260209n24354?mid=n0300
//thumbnews.nateimg.co.kr/news90///news.nateimg.co.kr/orgImg/ae/2026/02/09/ae_1770616689467_287891_0.jpg
https://thumbnews.nateimg.co.kr/news90///news.nateimg.co.kr/orgImg/ae/2026/02/09/ae_1770616689467_287891_0.jpg


금융위, 금발심 첫 생중계…'생산적 금융' 개혁 논의 본격화
뉴스기사 링크 = https://news.nate.com/view/20260209n24352?mid=n0300
//thumbnews.nateimg.co.kr/news90///news.nateimg.co.kr/orgImg/ss/2026/02/09/202610581770616393.jpg
https://thumbnews.nateimg.co.kr/news90///news.nateimg.co.kr/orgImg/ss/2026/02/09/202610581770616393.jpg


aT, '올림픽 도시' 밀라노서 K-푸드 체험 행사
뉴스기사 링크 = https://news.nate.com/view/20260209n24350?mid=n0300
//thumbnews.nateimg.co.kr/news90///news.nateimg.co.kr/orgImg/aj/2026/02/09/20250915082800132562.jpg
https://thumbnews.nateimg.co.kr/news90///news.nateimg.co.kr/orgImg/aj/2026/02/09/20250915082800132562.jpg


[속보] '김건희 공천 청탁' 김상민 前검사 무죄…불법 정치자금만 인정
뉴스기사 링크 = https://news.nate.com/view/20260209n23470?mid=n0300
//thumbnews.nateimg.co.kr/news90///news.nateimg.co.kr/orgImg/jo/2026/02/09/3e2bbd45-95be-481c-8b81-fbaf7cbb44dc.jpg
https://thumbnews.nateimg.co.kr/news90///news.nateimg.co.kr/orgImg/jo/2026/02/09/3e2bbd45-95be-481c-8b81-fbaf7cbb44dc.jpg


WSJ "글로벌 금·은 랠리 뒤엔 중국 '아줌마 부대' 있다"
뉴스기사 링크 = https://news.nate.com/view/20260209n24343?mid=n0300
//thumbnews.nateimg.co.kr/news90///news.nateimg.co.kr/orgImg/ae/2026/02/09/ae_1770616687695_267814_0.png
https://thumbnews.nateimg.co.kr/news90///news.nateimg.co.kr/orgImg/ae/2026/02/09/ae_1770616687695_267814_0.png


행정공제회 창립 50주년 기념 CI, 독일서 디자인상 수상
뉴스기사 링크 = https://news.nate.com/view/20260209n24339?mid=n0300
//thumbnews.nateimg.co.kr/news90///news.nateimg.co.kr/orgImg/ns/2026/02/09/NISI20221225_0001161307_web.jpg
https://thumbnews.nateimg.co.kr/news90///news.nateimg.co.kr/orgImg/ns/2026/02/09/NISI20221225_0001161307_web.jpg


나신평, LG유플러스 장기신용등급 AA+로 상향
뉴스기사 링크 = https://news.nate.com/view/20260209n24337?mid=n0300
//thumbnews.nateimg.co.kr/news90///news.nateimg.co.kr/orgImg/yt/2026/02/09/PYH2026020914120001300_P2.jpg
https://thumbnews.nateimg.co.kr/news90///news.nateimg.co.kr/orgImg/yt/2026/02/09/PYH2026020914120001300_P2.jpg


장인식 해양경찰청장 직무대행, 인천종합어시장 방문
뉴스기사 링크 = https://news.nate.com/view/20260209n24329?mid=n0300
//thumbnews.nateimg.co.kr/news90///news.nateimg.co.kr/orgImg/js/2026/02/09/17706115041770611504_wjin.jpg
https://thumbnews.nateimg.co.kr/news90///news.nateimg.co.kr/orgImg/js/2026/02/09/17706115041770611504_wjin.jpg


LIG넥스원, 사우디 WDS 참가…중동발 K-방산 벨트 넓힌다
뉴스기사 링크 = https://news.nate.com/view/20260209n24323?mid=n0300
샘씨엔에스, 작년 영업익 147억…전년비 182% 증가


### 2-2. 하나의 네이버 웹툰과 1개의 회차에 대한 Image 다운로드 하기
*   하나의 웹툰의 제목(title)과 회차번호(no),회차의URL(url) 을 입력으로 받는 함수를 선언
*   아래와 같이 호출

    ```download_one_episode('일렉시드',341,'https://comic.naver.com/webtoon/detail?titleId=717481&no=341&week=wed')```
    
*   img\일렉시드\341 디렉토리가 생성되며, 그 디렉토리 아래에 웹툰 image들이 다운로드 되도록 해주세요


### 2-3. 하나의 네이버 웹툰과 여러개의 회차에 대한 Image 다운로드 하기
*   하나의 웹툰의 제목(title)과 회차를 알 수 있는 url을 입력으로 받는 함수를 선언

    ````def download_all_episode(title, episode_url):````

*   하나의 웹툰에 대한 1Page의 20 회차의 image를 다운로드

### 3-1. 네이버 책 검색 API 호출하기

질문1. 검색어로 찾은 책 목록을 json 파일로 저장하기
*   data/books.json 파일로 저장해주세요

질문2. books.json 파일을 Pandas DataFrame로 저장하기

질문3. 검색어로 찾은 책 목록 출력하기

질문4. 검색어로 찾은 책 목록 중에서 가격이 2만원 이상인 책만 출력하기
*   title, author, discount, pubdate 컬럼만 출력
*   가격은 descending(내림차순), index 초기화

질문5. 검색어로 찾은 책 목록 중에서 출판사가 "인피니티북스"인 책만 출력하기
*   image, description 컬럼은 제외한 모든 컬럼 출력하기
*   index는 초기화