### 1. Daum 뉴스 기사 제목 스크래핑하기

질문1. 아래의 url에서 뉴스 기사의 링크와 제목을 출력하시오
*  경제 뉴스 url = 'https://news.daum.net/economy'

In [None]:
import requests
from bs4 import BeautifulSoup

# dict 타입으로 요청 파라미터 설정
# 요청 파라미터 설정: 고정된 주소 뒤에 내가 원하는 조건(카테고리 등)을 유동적으로 조립하기 위해 미리 값을 준비해두는 과정
req_param = {
    'category': 'economy' 
}

url = 'https://news.daum.net/{category}'.format(**req_param)
print(url) 

# 요청 헤더 설정 why? 프로그램이 아닌 사람처럼 보이게 하기 위함
# 개발자 도구 네트워크 Doc의 헤더에서 가져올 수 있음
req_header = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/144.0.0.0 Safari/537.36'
}

# requests의 get() 함수 호출하기
# requests.get(): 이 주소(URL)에 있는 정보를 나에게 보내달라고 요청 하는 역할
# url: "어디로" 갈 것인가? e.g. 다음 경제 뉴스 페이지
# headers=req_header: "어떤 모습으로" 갈 것인가? 앞서 설명한 것처럼 user-agent를 담아 사람인 척 위장하는 가면을 쓰는 부분
res = requests.get(url, headers=req_header)

print(type(res)) 
print(res.status_code) 

# 서버에서 제공한 실제 인코딩 방식으로 강제 설정 (한글 깨짐 방지)
res.encoding = res.apparent_encoding

# if res.ok: 서버로부터 응답을 제대로 받았는지
if res.ok:
    # res.text는 긴 글자 뭉친인데 BeautifulSoup을 거치면 '태그를 찾아줘' 등과 같은 명령어를 쓸 수 있는 soup 객체가 됨
    # html.parser: BeautifulSoup에게 html.parser 도구로 분석하라고 알려줌
    soup = BeautifulSoup(res.text, 'html.parser') 

    # 긴 html에서 내가 원하는 부분만 가져오기
    # ul.list_newsheadline2: 클래스가 list_newsheadline2인 ul 태그 찾기
    # a.item_newsheadline2: 클래스가 item_newsheadline2인 a 태그들만 찾기
    ul_tags = soup.select("ul.list_newsheadline2 a.item_newsheadline2")

    # type: 데이터 형식
    # len: 그 안에 든 뉴스 기사가 몇 개인지
    print(type(ul_tags), len(ul_tags))

    # 찾아온 뉴스 꾸러미(ul_tags)에서 기사를 하나씩 꺼내서(ul_tag) 아래 작업을 반복
    for ul_tag in ul_tags:

        # <ul>...</ul> 태그 사이에 적힌 글자(뉴스 제목)만 가져오기
        # .text: 태그 안의 텍스트만 가져오기
        # .strip(): 공백, 줄바꿈 제거
        title = ul_tag.text.strip() 

        # 해당하는 링크 가져오기
        link = ul_tag['href']

        print(link, title)

else:
    # 응답(response)이 Error이면 status code 출력
    print(f'Error Code = {res.status_code}')

질문2. 여러개의 section 중 하나를 선택해서 url에서 뉴스기사의 링크와 제목을 출력하는 코드를 함수로 작성하기
*   경제 뉴스 url = 'https://news.daum.net/economy'
*   사회 뉴스 url = 'https://news.daum.net/society'

In [25]:
import requests
from bs4 import BeautifulSoup

section_dict = {'기후/환경':'climate','사회':'society','경제':'economy','정치':'politics', '국제':'world','문화':'culture',
                '생활':'life','IT/과학':'tech','인물':'people','지식/칼럼':'understanding','연재':'series'}

def print_news(section_name):
    # 정치: section_dict에 없을 때를 대비한 기본값  
    sid = section_dict.get(section_name, '정치')
    url = f'https://news.daum.net/{sid}'
    # f-string: 문자열 안에서 중괄호 { }를 사용해 변수나 계산식을 직접 넣을 수 있음
    # print("======>" + url + section_name + "뉴스" + "<======")
    print(f'======> {url} {section_name} 뉴스 <======')

    # 요청 헤더 설정
    req_header = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/144.0.0.0 Safari/537.36'
    }

    # requests의 get() 함수 호출하기
    # requests.get(): 이 주소(URL)에 있는 정보를 나에게 보내달라고 요청 하는 역할
    # url: "어디로" 갈 것인가? e.g. 다음 경제 뉴스 페이지
    # headers=req_header: "어떤 모습으로" 갈 것인가? 앞서 설명한 것처럼 user-agent를 담아 사람인 척 위장하는 가면을 쓰는 부분
    res = requests.get(url, headers=req_header)

    # 서버에서 제공한 실제 인코딩 방식으로 강제 설정 (한글 깨짐 방지)
    res.encoding = res.apparent_encoding
    
    # if res.ok: 서버로부터 응답을 제대로 받았는지
    if res.ok:
        # res.text는 긴 글자 뭉친인데 BeautifulSoup을 거치면 '태그를 찾아줘' 등과 같은 명령어를 쓸 수 있는 soup 객체가 됨
        # html.parser: BeautifulSoup에게 html.parser 도구로 분석하라고 알려줌
        soup = BeautifulSoup(res.text, 'html.parser')

        # 긴 html에서 내가 원하는 부분만 가져오기
        # ul.list_newsheadline2: 클래스가 list_newsheadline2인 ul 태그 찾기
        # a.item_newsheadline2: 클래스가 item_newsheadline2인 a 태그들만 찾기
        ul_tags = soup.select("ul.list_newsheadline2 a.item_newsheadline2")

        # 찾아온 뉴스 꾸러미(ul_tags)에서 기사를 하나씩 꺼내서(ul_tag) 아래 작업을 반복
        for ul_tag in ul_tags:

            # <ul>...</ul> 태그 사이에 적힌 글자(뉴스 제목)만 가져오기
            # .text: 태그 안의 텍스트만 가져오기
            # .strip(): 공백, 줄바꿈 제거
            title = ul_tag.text.strip() 

            # 해당하는 링크 가져오기
            link = ul_tag['href']

            print(link, title)

    else:
            # 응답(response)이 Error이면 status code 출력
            print(f'Error Code = {res.status_code}')

In [None]:
print_news('경제')
print_news('사회')

### 2-1. Nate 뉴스 기사 제목 스크래핑하기
*   https://news.nate.com/recent?mid=n0100
*   최신뉴스, 정치 , 경제, 사회, 세계, IT/과학 6개의 섹션의 뉴스를 출력하는 함수를 생성하여 스크래핑 하기
*   뉴스기사의 Image를 출력 하세요
*   Image의 도메인이름이 포함된 url과 src 속성의 img 경로를 합치려면 urljoin 함수를 사용하세요
*   Image 출력은 Image 클래스와 display 함수를 사용하세요
*   img 엘리먼트의 존재 여부를 체크하신 후에 src 속성의 이미지를 경로를 추출하기


In [14]:
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
from IPython.display import Image, display

section_dict = {'최신뉴스':100,'정치':200, '경제':300, '사회':400 ,'세계':500, 'IT/과학':600}

def print_news(section_name):
    # 정치: section_dict에 없을 때를 대비한 기본값  
    sid = section_dict.get(section_name, '정치')
    url = f'https://news.nate.com/recent?mid=n0{sid}'

    print(f"======> {section_name} 뉴스 <======")
    
    # 요청 헤더 설정
    req_header = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/144.0.0.0 Safari/537.36'
    }

    # requests의 get() 함수 호출하기
    # requests.get(): 이 주소(URL)에 있는 정보를 나에게 보내달라고 요청 하는 역할
    # url: "어디로" 갈 것인가? e.g. 다음 경제 뉴스 페이지
    # headers=req_header: "어떤 모습으로" 갈 것인가? 앞서 설명한 것처럼 user-agent를 담아 사람인 척 위장하는 가면을 쓰는 부분
    res = requests.get(url, headers=req_header)

    # 서버에서 제공한 실제 인코딩 방식으로 강제 설정 (한글 깨짐 방지)
    res.encoding = res.apparent_encoding
    
    # if res.ok: 서버로부터 응답을 제대로 받았는지
    if res.ok:
        # res.text는 긴 글자 뭉친인데 BeautifulSoup을 거치면 '태그를 찾아줘' 등과 같은 명령어를 쓸 수 있는 soup 객체가 됨
        # html.parser: BeautifulSoup에게 html.parser 도구로 분석하라고 알려줌
        soup = BeautifulSoup(res.text, 'html.parser')

        articles = soup.select('.newsList > ul > li')

        for article in articles:

            # 이미지 출력
            img_tag = article.select_one('img')
            if img_tag and 'src' in img_tag.attrs:
                img_url = urljoin(url, img_tag['src'])
                display(Image(url=img_url, width=150))
            else:
                print("(이미지 없음)") 

            # 기사 제목 및 링크
            a_tag = article.select_one('a')
            if a_tag:
                # 제목 추출 (.title 클래스 사용)
                title = a_tag.select_one('.title').text.strip() if a_tag.select_one('.title') else "제목 없음"
                # 링크 추출
                link = urljoin(url, a_tag['href'])
                
                print(f"기사제목: {title}")
                print(f"기사링크: {link}")


In [15]:
print_news('경제')



### 2-2. 하나의 네이버 웹툰과 1개의 회차에 대한 Image 다운로드 하기
*   하나의 웹툰의 제목(title)과 회차번호(no),회차의URL(url) 을 입력으로 받는 함수를 선언
*   아래와 같이 호출

    ```download_one_episode('일렉시드',341,'https://comic.naver.com/webtoon/detail?titleId=717481&no=341&week=wed')```
    
*   img\일렉시드\341 디렉토리가 생성되며, 그 디렉토리 아래에 웹툰 image들이 다운로드 되도록 해주세요


### 2-3. 하나의 네이버 웹툰과 여러개의 회차에 대한 Image 다운로드 하기
*   하나의 웹툰의 제목(title)과 회차를 알 수 있는 url을 입력으로 받는 함수를 선언

    ````def download_all_episode(title, episode_url):````

*   하나의 웹툰에 대한 1Page의 20 회차의 image를 다운로드