### 1. Daum 뉴스 기사 제목 스크래핑하기

질문1. 아래의 url에서 뉴스 기사의 링크와 제목을 출력하시오
*  경제 뉴스 url = 'https://news.daum.net/economy'

In [None]:
import requests
from bs4 import BeautifulSoup

# dict 타입으로 요청 파라미터 설정
# 요청 파라미터 설정: 고정된 주소 뒤에 내가 원하는 조건(카테고리 등)을 유동적으로 조립하기 위해 미리 값을 준비해두는 과정
req_param = {
    'category': 'economy' 
}

url = 'https://news.daum.net/{category}'.format(**req_param)
print(url) 

# 요청 헤더 설정 why? 프로그램이 아닌 사람처럼 보이게 하기 위함
# 개발자 도구 네트워크 Doc의 헤더에서 가져올 수 있음
req_header = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/144.0.0.0 Safari/537.36'
}

# requests의 get() 함수 호출하기
# requests.get(): 이 주소(URL)에 있는 정보를 나에게 보내달라고 요청 하는 역할
# url: "어디로" 갈 것인가? e.g. 다음 경제 뉴스 페이지
# headers=req_header: "어떤 모습으로" 갈 것인가? 앞서 설명한 것처럼 user-agent를 담아 사람인 척 위장하는 가면을 쓰는 부분
res = requests.get(url, headers=req_header)

print(type(res)) 
print(res.status_code) 

# if res.ok: 서버로부터 응답을 제대로 받았는지
if res.ok: 
    # 한글 깨짐 방지
    res.encoding = 'utf-8'
    # res.text는 긴 글자 뭉친인데 BeautifulSoup을 거치면 '태그를 찾아줘' 등과 같은 명령어를 쓸 수 있는 soup 객체가 됨
    # html.parser: BeautifulSoup에게 html.parser 도구로 분석하라고 알려줌
    soup = BeautifulSoup(res.text, 'html.parser') 

    # 기사 제목과 링크 추출
    # 긴 html에서 내가 원하는 부분만 가져오기
    # ul.list_newsheadline2: 클래스가 list_newsheadline2인 ul 태그 찾기
    li_tag_list = soup.select("ul.list_newsheadline2 li")

    # type: 데이터 형식
    # len: 그 안에 든 뉴스 기사가 몇 개인지
    print(type(li_tag_list), len(li_tag_list))

    # 찾아온 뉴스 꾸러미(li_tag_list)에서 기사를 하나씩 꺼내서(li_tag) 아래 작업을 반복
    for li_tag in li_tag_list:

        a_tag = li_tag.find('a')
        # 해당하는 링크를 가져와서 출력하기
        print(a_tag['href'])

        #strong_tag = li_tag.select('div.cont_thumb strong.tit_txt')[0]
        strong_tag = li_tag.select_one('div.cont_thumb strong.tit_txt')
        # .text: 태그 안의 텍스트만 가져오기
        # .strip(): 공백, 줄바꿈 제거
        title = strong_tag.text.strip()
        print(title)

else:
    # 응답(response)이 Error이면 status code 출력
    print(f'Error Code = {res.status_code}')

질문2. 여러개의 section 중 하나를 선택해서 url에서 뉴스기사의 링크와 제목을 출력하는 코드를 함수로 작성하기
*   경제 뉴스 url = 'https://news.daum.net/economy'
*   사회 뉴스 url = 'https://news.daum.net/society'

In [5]:
import requests
from bs4 import BeautifulSoup

section_dict = {'기후/환경':'climate','사회':'society','경제':'economy','정치':'politics', '국제':'world','문화':'culture',
                '생활':'life','IT/과학':'tech','인물':'people','지식/칼럼':'understanding','연재':'series'}

def print_news(section_name):

    section = section_dict[section_name]

    # 요청 Parameter
    req_param = {
        'section': section
    }

    url = 'https://news.daum.net/{section}'.format(**req_param)

    # f-string: 문자열 안에서 중괄호 { }를 사용해 변수나 계산식을 직접 넣을 수 있음
    # print("======>" + url + section_name + "뉴스" + "<======")
    print(f'======> {url} {section_name} 뉴스 <======')

    # 요청 헤더 설정
    req_header = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/144.0.0.0 Safari/537.36'
    }

    # requests의 get() 함수 호출하기
    # requests.get(): 이 주소(URL)에 있는 정보를 나에게 보내달라고 요청 하는 역할
    # url: "어디로" 갈 것인가? e.g. 다음 경제 뉴스 페이지
    # headers=req_header: "어떤 모습으로" 갈 것인가? 앞서 설명한 것처럼 user-agent를 담아 사람인 척 위장하는 가면을 쓰는 부분
    res = requests.get(url, headers=req_header)
    
    # if res.ok: 서버로부터 응답을 제대로 받았는지
    if res.ok:
        # 한글 깨짐 방지
        res.encoding = 'utf-8'
        # res.text는 긴 글자 뭉친인데 BeautifulSoup을 거치면 '태그를 찾아줘' 등과 같은 명령어를 쓸 수 있는 soup 객체가 됨
        # html.parser: BeautifulSoup에게 html.parser 도구로 분석하라고 알려줌
        soup = BeautifulSoup(res.text, 'html.parser')

        # 기사 제목과 링크 추출
        # 긴 html에서 내가 원하는 부분만 가져오기
        # ul.list_newsheadline2: 클래스가 list_newsheadline2인 ul 태그 찾기
        li_tag_list = soup.select("ul.list_newsheadline2 li")

        # 찾아온 뉴스 꾸러미(li_tag_list)에서 기사를 하나씩 꺼내서(li_tag) 아래 작업을 반복
        for li_tag in li_tag_list:

            a_tag = li_tag.find('a')
            # 해당하는 링크를 가져와서 출력하기
            print(a_tag['href'])

            #strong_tag = li_tag.select('div.cont_thumb strong.tit_txt')[0]
            strong_tag = li_tag.select_one('div.cont_thumb strong.tit_txt')
            # .text: 태그 안의 텍스트만 가져오기
            # .strip(): 공백, 줄바꿈 제거
            title = strong_tag.text.strip()
            print(title)

    else:
        # 응답(response)이 Error이면 status code 출력
        print(f'Error Code = {res.status_code}')

In [None]:
print_news('경제')
print_news('사회')

### 2-1. Nate 뉴스 기사 제목 스크래핑하기
*   https://news.nate.com/recent?mid=n0100
*   최신뉴스, 정치 , 경제, 사회, 세계, IT/과학 6개의 섹션의 뉴스를 출력하는 함수를 생성하여 스크래핑 하기
*   뉴스기사의 Image를 출력 하세요
*   Image의 도메인이름이 포함된 url과 src 속성의 img 경로를 합치려면 urljoin 함수를 사용하세요
*   Image 출력은 Image 클래스와 display 함수를 사용하세요
*   img 엘리먼트의 존재 여부를 체크하신 후에 src 속성의 이미지를 경로를 추출하기


In [3]:
import requests
from bs4 import BeautifulSoup
from urllib.parse import urljoin
from IPython.display import Image, display

section_dict = {'최신뉴스':100,'정치':200, '경제':300, '사회':400 ,'세계':500, 'IT/과학':600}

def print_news(section_num):

    section = section_dict[section_num]

    # 요청 Parameter
    req_param = {
        'section': section
    }

    url = 'https://news.nate.com/recent?mid=n0{section}'.format(**req_param)
    
    # 요청 헤더 설정
    req_header = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/144.0.0.0 Safari/537.36'
    }

    # requests의 get() 함수 호출하기
    # requests.get(): 이 주소(URL)에 있는 정보를 나에게 보내달라고 요청 하는 역할
    # url: "어디로" 갈 것인가? e.g. 다음 경제 뉴스 페이지
    # headers=req_header: "어떤 모습으로" 갈 것인가? 앞서 설명한 것처럼 user-agent를 담아 사람인 척 위장하는 가면을 쓰는 부분
    res = requests.get(url, headers=req_header)

    # 서버에서 제공한 실제 인코딩 방식으로 강제 설정 (한글 깨짐 방지)
    res.encoding = res.apparent_encoding
    
    if res.ok:
        # 한글 깨짐 방지
        res.encoding = 'euc-kr'
        # res.text는 긴 글자 뭉친인데 BeautifulSoup을 거치면 '태그를 찾아줘' 등과 같은 명령어를 쓸 수 있는 soup 객체가 됨
        # html.parser: BeautifulSoup에게 html.parser 도구로 분석하라고 알려줌
        soup = BeautifulSoup(res.text, 'html.parser')

        # 기사 묶음 리스트
        tags = soup.select("div.postListType.noListTitle div.mlt01")

        # idx: 기사 번호
        # div_tag: 뉴스 기사 하나에 해당하는 html 덩어리
        # enumerate(tags, 1): tags에서 하나식 꺼내는데 번호표를 1번부터 붙여서 가져옴
        for idx, div_tag in enumerate(tags, 1): 
            print(f'============>> {idx}')

            # 기사 덩어리 안에서 링크가 걸린 <a>태그 찾기       
            a_tag = div_tag.find('a')
            # urljoin(url, ...): 생략된 앞부분 주소를 자동으로 붙여서 완전한 주소로 만들어주는 함수
            # 현재 <a>태그에 있는 링크: //news.nate.com/view/20260209n25017?mid=n0100(불완전한 기사 주소)
            a_join_url = urljoin(url, a_tag['href'])
            print(f'뉴스기사 링크 = {a_join_url}')

            # span.ib 안에 있는 이미지를 찾기
            img_tag = div_tag.select_one('span.ib img')
            # 이미지가 있을 때만 실행하기
            if img_tag:
                photo_url = urljoin(url, img_tag['src'])
                # 웹사이트 소스에서 갓 긁어온 값 (불완전한 주소)
                print(img_tag['src'])
                # urljoin을 걸쳐서 완벽한 절대주소 값 (완전한 이미지 주소)
                print(photo_url)
                # 텍스트 주소 형태인 photo_url을 실제 이미지로 변환해서 화면에 보여줌
                display(Image(url=photo_url))

            # 기사 제목이 들어있는 <h2>태그만
            h2_tag = div_tag.select_one('span.tb h2.tit')
            # .text: <h2>...</h2>태그는 버리고 그 사이에 적힌 제목만
            title = h2_tag.text
            print(title)

    else:
        # 응답(response)이 Error이면 status code 출력
        print(f'Error Code = {res.status_code}')


In [None]:
print_news('경제')

질문5. 검색어로 찾은 책 목록 중에서 출판사가 "인피니티북스"인 책만 출력하기
*   image, description 컬럼은 제외한 모든 컬럼 출력하기
*   index는 초기화

In [None]:
# .loc()함수: 이름을 기준으로 행과 열을 선택
# loc[Row 선택, Column 선택]
# .reset_index(): 현재 설정된 인덱스(행 이름)를 버리고, 다시 0부터 시작하는 숫자 번호표(0, 1, 2...)로 초기화
data.loc[data['publisher'] == '인피니티북스' , ['title','link','author','discount','publisher','pubdate','isbn']].reset_index(drop=True)