## 1. 뉴스제목 가져오기
* user-agent 요청헤더를 반드시 설정해야 한다.

In [2]:
# requests 라이브러리 설치여부 확인
%pip show requests

Name: requests
Version: 2.32.3
Summary: Python HTTP for Humans.
Home-page: https://requests.readthedocs.io
Author: Kenneth Reitz
Author-email: me@kennethreitz.org
License: Apache-2.0
Location: d:\anaconda3\envs\test\lib\site-packages
Requires: certifi, charset-normalizer, idna, urllib3
Required-by: huggingface-hub, jupyterlab_server, PyGithub, streamlit
Note: you may need to restart the kernel to use updated packages.


In [3]:
# beautifulsoup4 라이브러리 설치여부 확인
%pip show beautifulsoup4

Name: beautifulsoup4
Version: 4.13.3
Summary: Screen-scraping library
Home-page: https://www.crummy.com/software/BeautifulSoup/bs4/
Author: 
Author-email: Leonard Richardson <leonardr@segfault.org>
License: MIT License
Location: d:\anaconda3\envs\test\lib\site-packages
Requires: soupsieve, typing-extensions
Required-by: nbconvert
Note: you may need to restart the kernel to use updated packages.


In [4]:
# reqeusts, bs4 import
import requests
import bs4

# BeautifulSoup 클래스 import
from bs4 import BeautifulSoup

In [5]:
# requests, bs4 버전 확인하기
print(f"requests version: {requests.__version__}")
print(f"beautifulSoup4 version: {bs4.__version__}")

requests version: 2.32.3
beautifulSoup4 version: 4.13.3


In [6]:
import dotenv
import os

### 1. 뉴스 제목 추출하기

In [7]:
dotenv.load_dotenv()

# IT/과학 뉴스
req_param = {"sid": 105}

url = f'https://news.naver.com/section/{req_param["sid"]}'
print(f"요청 URL : {url}")

# 요청 헤더 설정 : 브라우저 정보
req_header = {"User-Agent": os.getenv("USER_AGENT")}

# requests 의 get() 함수 호출하기
r = requests.get(url, headers=req_header)
print(f"응답 : {r}")
print(type(r))
print(f"응답 코드 : {r.status_code}", end="\n\n")


# 응답(response)이 OK 이면
if r.ok:
    # 응답 (response)에서 text 추출
    r_text = r.text
    # BeautifulSoup 객체 생성
    soup = BeautifulSoup(r_text, "html.parser")

    # CSS 선택자
    # print(soup.prettify())
    # print(soup.select("div.sa_text a[href*='mnews/article']"))

    sa_result = soup.select("div.sa_text a[href*='mnews/article']")

    # <a> 태그 리스트 순회하기
    for i in sa_result:
        print(i.get("href"), i.get_text())

# 응답(response)이 Error 이면 status code 출력
else:
    print(f"Error code : {r.status_code}")

요청 URL : https://news.naver.com/section/105
응답 : <Response [200]>
<class 'requests.models.Response'>
응답 코드 : 200

https://n.news.naver.com/mnews/article/001/0015319026 
KT 지니 TV 셋톱박스 4, '레드닷 디자인 어워드' 본상 수상

https://n.news.naver.com/mnews/article/comment/001/0015319026 
https://n.news.naver.com/mnews/article/018/0005982938 
“게임 역사 한눈에”…주말 소풍은 ‘넷마블 박물관’

https://n.news.naver.com/mnews/article/comment/018/0005982938 
https://n.news.naver.com/mnews/article/056/0011927792 
평창군 국도에 ‘로드킬 예방시스템’ 설치…시범 운영

https://n.news.naver.com/mnews/article/comment/056/0011927792 
https://n.news.naver.com/mnews/article/366/0001067764 
SKT, ‘AI 스타트업 엑셀러레이터’ 프로그램 공모... 15개 팀 선발

https://n.news.naver.com/mnews/article/comment/366/0001067764 
https://n.news.naver.com/mnews/article/031/0000923054 
지난해 모바일 게임 수익 122조원…"이용자당 지출액 증가"

https://n.news.naver.com/mnews/article/comment/031/0000923054 
https://n.news.naver.com/mnews/article/009/0005473112 
카카오엔터 IPO 어렵자 카카오, 매각 추진한다

https://n.news.naver.com/mnews/articl

### 1.1 뉴스제목 추출하는 함수 선언하기

In [8]:
import requests
from bs4 import BeautifulSoup

section_dict = {
    100: "정치",
    101: "경제",
    102: "사회",
    103: "생활/문화",
    104: "세계",
    105: "IT/과학",
}


def print_news(sid):  # print_new(103)
    section = section_dict[sid]
    url = f"https://news.naver.com/section/{sid}"
    print(f"=====> {url} {section} 뉴스 <=====")

    # 요청 헤더 설정 : 브라우저 정보
    req_header = {
        "User-Agent": os.getenv(
            "USER_AGENT",
            "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3",
        )
    }

    # requests 의 get() 함수 호출하기
    r = requests.get(url, headers=req_header)
    print(f"응답 : {r}")
    print(type(r))
    print(f"응답 코드 : {r.status_code}", end="\n\n")

    # 응답(response)이 OK 이면
    if r.ok:
        # 응답 (response)에서 text 추출
        r_text = r.text
        # BeautifulSoup 객체 생성
        soup = BeautifulSoup(r_text, "html.parser")

        # CSS 선택자
        # print(soup.prettify())
        # print(soup.select("div.sa_text a[href*='mnews/article']"))

        sa_result = soup.select("div.sa_text a[href*='mnews/article']")

        # <a> 태그 리스트 순회하기
        for i in sa_result:
            print(i.get("href"), i.get_text())

    # 응답(response)이 Error 이면 status code 출력
    else:
        print(f"Error code : {r.status_code}")

In [9]:
print_news(103)

=====> https://news.naver.com/section/103 생활/문화 뉴스 <=====
응답 : <Response [200]>
<class 'requests.models.Response'>
응답 코드 : 200

https://n.news.naver.com/mnews/article/003/0013171595 
'32년만 연극' 이영애 "영화·드라마 속 이영애와 확실히 다를 것"

https://n.news.naver.com/mnews/article/comment/003/0013171595 
https://n.news.naver.com/mnews/article/015/0005116874 
'1200억 유산설' 홍상수…김민희 아들도 법적 상속 동일

https://n.news.naver.com/mnews/article/comment/015/0005116874 
https://n.news.naver.com/mnews/article/469/0000858403 
‘전한길 통편집’ 탄핵 여파에도...넷플릭스 이용자 ‘폭싹’ 늘었수다

https://n.news.naver.com/mnews/article/comment/469/0000858403 
https://n.news.naver.com/mnews/article/437/0000436469 
 늦은 오후부터 수도권 비…일부 '황사비' 가능성[날씨]

https://n.news.naver.com/mnews/article/comment/437/0000436469 
https://n.news.naver.com/mnews/article/052/0002177490 
 늦은 오후부터 전국 봄비...큰 일교차, 수도권 초미세먼지↑[출근길 YTN 날씨 4/9]

https://n.news.naver.com/mnews/article/comment/052/0002177490 
https://n.news.naver.com/mnews/article/031/0000922847 
"암 생존자들 '이것'만 지키면 전체 사망률 '뚝'

### 2. Image 다운로드
* referer 요청 헤더를 반드시 설정해야 한다.

In [10]:
import requests
import os
from dotenv import load_dotenv
from bs4 import BeautifulSoup

In [11]:
load_dotenv()

my_header = {
    'UserAgent': os.getenv('USER_AGENT')
}

In [12]:
# 웹툰 컷 숫자 구하기
webtoon_url = 'https://comic.naver.com/webtoon/detail?titleId=747269&no=251&week=wed'

r = requests.get(webtoon_url, headers=my_header)

if r.ok:
    r_text = r.text
    soup = BeautifulSoup(r_text, 'html.parser')
    cut_count = len(soup.select('.wt_viewer > img'))
    

In [13]:
img_urls = []

for i in range(1, cut_count+1):
    url = f'https://image-comic.pstatic.net/webtoon/747269/251/20250307185724_5358e51901645881b47295d22dc43cad_IMAG01_{i}.jpg'
    img_urls.append(url)
    
# for img_url in img_urls:
#     print(img_url)

In [14]:
req_header = {"referer": "https://comic.naver.com/webtoon/detail?titleId=747269&no=251&week=wed"}

for img_url in img_urls:
    # requests 의 get(url, headers) 함수 호출하기
    r = requests.get(img_url, headers=req_header)
    
    if r.ok:
        # binary 응답 데이터 가져오기 ( content 속성 )
        img_data = r.content

        # url에서 파일명만 추출하기
        file_name = os.path.basename(img_url)
        print(file_name)

        # binday data를 file에 write하기
        with open(file_name, 'wb') as file:
            print(f'Writing to {file_name}({len(img_data)} bytes)')
            file.write(img_data)
            
        
        

20250307185724_5358e51901645881b47295d22dc43cad_IMAG01_1.jpg
Writing to 20250307185724_5358e51901645881b47295d22dc43cad_IMAG01_1.jpg(276541 bytes)
20250307185724_5358e51901645881b47295d22dc43cad_IMAG01_2.jpg
Writing to 20250307185724_5358e51901645881b47295d22dc43cad_IMAG01_2.jpg(180335 bytes)
20250307185724_5358e51901645881b47295d22dc43cad_IMAG01_3.jpg
Writing to 20250307185724_5358e51901645881b47295d22dc43cad_IMAG01_3.jpg(93023 bytes)
20250307185724_5358e51901645881b47295d22dc43cad_IMAG01_4.jpg
Writing to 20250307185724_5358e51901645881b47295d22dc43cad_IMAG01_4.jpg(161943 bytes)
20250307185724_5358e51901645881b47295d22dc43cad_IMAG01_5.jpg
Writing to 20250307185724_5358e51901645881b47295d22dc43cad_IMAG01_5.jpg(188729 bytes)
20250307185724_5358e51901645881b47295d22dc43cad_IMAG01_6.jpg
Writing to 20250307185724_5358e51901645881b47295d22dc43cad_IMAG01_6.jpg(153664 bytes)
20250307185724_5358e51901645881b47295d22dc43cad_IMAG01_7.jpg
Writing to 20250307185724_5358e51901645881b47295d22dc43cad

* 현재 요청된 페이지의 image 모두 다운로드 해보기

### 3. 파일 업로드 하기
* http://httpbin.org/post 업로드 요청을 할 수 있는 url

In [15]:
import requests

upload_files = {}
# print(upload_files)

url = "http://httpbin.org/post"
# file 업로드 하려면 requests의 post 함수에 files 속성을 사용합니다.

### 4. 캡챠(이미지) API 호출하기
* urllib 사용
* 1. 캡차 키 발급 요청
  2. 캡차 이미지 요청
  3. 사용자 입력값 검증 요청

In [16]:
# 캡차 키 발급 요청

In [17]:
# 캡차 이미지 요청

In [18]:
#  사용자 입력값 검증 요청

* requests를 사용하는 코드로 변경하기
* [requests docs](https://requests.readthedocs.io/en/latest/user/quickstart/)

In [19]:
# 사용자 입력값 검증 요청

### 5. 블로그 검색하기

In [20]:
import requests
import pprint

headers = {
    "X-Naver-Client-Id": "",
    "X-Naver-Client-Secret": "",
}

payload = {"query": "파이썬", "display": 100, "sort": "sim"}

url = "https://openapi.naver.com/v1/search/blog.json"


# requests get(url, params, headers) 요청

# json() 함수로 응답 결과 가져오오기
# 'title' , 'bloggername' , 'description' , 'bloggerlink' , 'link'

# 'data/nhnblog.txt' 파일 생성하기