## 1. 뉴스제목 가져오기
* user-agent 요청헤더를 반드시 설정해야 한다.

In [1]:
# requests 라이브러리 설치여부 확인
%pip show requests

Name: requests
Version: 2.32.3
Summary: Python HTTP for Humans.
Home-page: https://requests.readthedocs.io
Author: Kenneth Reitz
Author-email: me@kennethreitz.org
License: Apache-2.0
Location: d:\anaconda3\envs\test\lib\site-packages
Requires: certifi, charset-normalizer, idna, urllib3
Required-by: huggingface-hub, jupyterlab_server, PyGithub, streamlit
Note: you may need to restart the kernel to use updated packages.


In [2]:
# beautifulsoup4 라이브러리 설치여부 확인
%pip show beautifulsoup4

Name: beautifulsoup4
Version: 4.13.3
Summary: Screen-scraping library
Home-page: https://www.crummy.com/software/BeautifulSoup/bs4/
Author: 
Author-email: Leonard Richardson <leonardr@segfault.org>
License: MIT License
Location: d:\anaconda3\envs\test\lib\site-packages
Requires: soupsieve, typing-extensions
Required-by: nbconvert
Note: you may need to restart the kernel to use updated packages.


In [3]:
# reqeusts, bs4 import
import requests
import bs4

# BeautifulSoup 클래스 import
from bs4 import BeautifulSoup

In [4]:
# requests, bs4 버전 확인하기
print(f"requests version: {requests.__version__}")
print(f"beautifulSoup4 version: {bs4.__version__}")

requests version: 2.32.3
beautifulSoup4 version: 4.13.3


In [5]:
import dotenv
import os

### 1. 뉴스 제목 추출하기

In [6]:
dotenv.load_dotenv()

# IT/과학 뉴스
req_param = {"sid": 105}

url = f'https://news.naver.com/section/{req_param["sid"]}'
print(f"요청 URL : {url}")

# 요청 헤더 설정 : 브라우저 정보
req_header = {"User-Agent": os.getenv("USER_AGENT")}

# requests 의 get() 함수 호출하기
r = requests.get(url, headers=req_header)
print(f"응답 : {r}")
print(type(r))
print(f"응답 코드 : {r.status_code}", end="\n\n")


# 응답(response)이 OK 이면
if r.ok:
    # 응답 (response)에서 text 추출
    r_text = r.text
    # BeautifulSoup 객체 생성
    soup = BeautifulSoup(r_text, "html.parser")

    # CSS 선택자
    # print(soup.prettify())
    # print(soup.select("div.sa_text a[href*='mnews/article']"))

    sa_result = soup.select("div.sa_text a[href*='mnews/article']")

    # <a> 태그 리스트 순회하기
    for i in sa_result:
        print(i.get("href"), i.get_text())

# 응답(response)이 Error 이면 status code 출력
else:
    print(f"Error code : {r.status_code}")

요청 URL : https://news.naver.com/section/105
응답 : <Response [200]>
<class 'requests.models.Response'>
응답 코드 : 200

https://n.news.naver.com/mnews/article/008/0005177943 
"전방에 고라니" 도로전광판 경고문, 포스코DX AI로 띄운다

https://n.news.naver.com/mnews/article/comment/008/0005177943 
https://n.news.naver.com/mnews/article/014/0005333060 
우버, "자율주행 기술 국내 기업 협업 확대하겠다"

https://n.news.naver.com/mnews/article/comment/014/0005333060 
https://n.news.naver.com/mnews/article/584/0000031797 
현택환 IBS 단장, 美 일리노이대 국제 동문 공로상 수상

https://n.news.naver.com/mnews/article/comment/584/0000031797 
https://n.news.naver.com/mnews/article/003/0013172286 
한컴-하노이 국립경제대학 업무협약…베트남 디지털 업무 혁신 선도

https://n.news.naver.com/mnews/article/comment/003/0013172286 
https://n.news.naver.com/mnews/article/421/0008181657 
KT '지니 TV 셋톱박스 4', 레드닷 수상…3대 디자인 어워드 석권

https://n.news.naver.com/mnews/article/comment/421/0008181657 
https://n.news.naver.com/mnews/article/031/0000923081 
네이버웹툰, 총 상금 3.3억 '지상최대 웹소설 공모전' 개최

https://n.news.naver.com/mn

### 1.1 뉴스제목 추출하는 함수 선언하기

In [7]:
import requests
from bs4 import BeautifulSoup

section_dict = {
    100: "정치",
    101: "경제",
    102: "사회",
    103: "생활/문화",
    104: "세계",
    105: "IT/과학",
}


def print_news(sid):  # print_new(103)
    section = section_dict[sid]
    url = f"https://news.naver.com/section/{sid}"
    print(f"=====> {url} {section} 뉴스 <=====")

    # 요청 헤더 설정 : 브라우저 정보
    req_header = {
        "User-Agent": os.getenv(
            "USER_AGENT",
            "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3",
        )
    }

    # requests 의 get() 함수 호출하기
    r = requests.get(url, headers=req_header)
    print(f"응답 : {r}")
    print(type(r))
    print(f"응답 코드 : {r.status_code}", end="\n\n")

    # 응답(response)이 OK 이면
    if r.ok:
        # 응답 (response)에서 text 추출
        r_text = r.text
        # BeautifulSoup 객체 생성
        soup = BeautifulSoup(r_text, "html.parser")

        # CSS 선택자
        # print(soup.prettify())
        # print(soup.select("div.sa_text a[href*='mnews/article']"))

        sa_result = soup.select("div.sa_text a[href*='mnews/article']")

        # <a> 태그 리스트 순회하기
        for i in sa_result:
            print(i.get("href"), i.get_text())

    # 응답(response)이 Error 이면 status code 출력
    else:
        print(f"Error code : {r.status_code}")

In [8]:
print_news(103)

=====> https://news.naver.com/section/103 생활/문화 뉴스 <=====
응답 : <Response [200]>
<class 'requests.models.Response'>
응답 코드 : 200

https://n.news.naver.com/mnews/article/214/0001417001 
 오후부터 흙비‥일교차 계속[날씨]

https://n.news.naver.com/mnews/article/comment/214/0001417001 
https://n.news.naver.com/mnews/article/015/0005116590 
'권교수님' 지드래곤, 카이스트 강단 선다

https://n.news.naver.com/mnews/article/comment/015/0005116590 
https://n.news.naver.com/mnews/article/277/0005574941 
'여행하며 심신 치유까지' 문체부 우수웰니스관광지 88선 공개

https://n.news.naver.com/mnews/article/comment/277/0005574941 
https://n.news.naver.com/mnews/article/056/0011928147 
늦은 오후부터 비…오늘도 황사 영향권

https://n.news.naver.com/mnews/article/comment/056/0011928147 
https://n.news.naver.com/mnews/article/018/0005983040 
강훈, 국립중앙박물관 홍보대사 재위촉…"한국 문화 알릴 것"

https://n.news.naver.com/mnews/article/comment/018/0005983040 
https://n.news.naver.com/mnews/article/277/0005575103 
20만 관객 모은 '모네에서 앤디워홀까지'…세종문화회관서 5월16일 개막

https://n.news.naver.com/mnews/article/comment

### 2. Image 다운로드
* referer 요청 헤더를 반드시 설정해야 한다.

In [9]:
import requests
import os
from dotenv import load_dotenv
from bs4 import BeautifulSoup
import re

In [10]:
load_dotenv()

my_header = {
    'UserAgent': os.getenv('USER_AGENT')
}

In [11]:
# 웹툰 컷 숫자 구하기
webtoon_url = 'https://comic.naver.com/webtoon/detail?titleId=747269&no=251&week=wed'

r = requests.get(webtoon_url, headers=my_header)

if r.ok:
    r_text = r.text
    soup = BeautifulSoup(r_text, 'html.parser')
    cut_count = len(soup.select('.wt_viewer > img'))
    

In [12]:
img_urls = []

for i in range(1, cut_count+1):
    url = f'https://image-comic.pstatic.net/webtoon/747269/251/20250307185724_5358e51901645881b47295d22dc43cad_IMAG01_{i}.jpg'
    img_urls.append(url)
    
# for img_url in img_urls:
#     print(img_url)

In [13]:
req_header = {"referer": "https://comic.naver.com/webtoon/detail?titleId=747269&no=251&week=wed"}

for img_url in img_urls:
    # requests 의 get(url, headers) 함수 호출하기
    r = requests.get(img_url, headers=req_header)
    
    if r.ok:
        # binary 응답 데이터 가져오기 ( content 속성 )
        img_data = r.content

        # url에서 파일명만 추출하기
        file_name = os.path.basename(img_url)
        
        # 정규표현식을 사용하여 IMAG01 같은 형식의 파일명 추출하기
        match = re.search(r'IMAG\d+_\d+', img_url)
        file_name = f"{match.group(0)}.jpg" if match else os.path.basename(img_url)
        
        print(file_name)

        # binary data를 file에 write하기
        download_folder = "download"
        os.makedirs(download_folder, exist_ok=True)
        file_path = os.path.join(download_folder, file_name)
        
        with open(file_path, 'wb') as file:
            print(f'Writing to {file_path} ({len(img_data):,} bytes)')
            file.write(img_data)
            
        
        

IMAG01_1.jpg
Writing to download\IMAG01_1.jpg (276,541 bytes)
IMAG01_2.jpg
Writing to download\IMAG01_2.jpg (180,335 bytes)
IMAG01_3.jpg
Writing to download\IMAG01_3.jpg (93,023 bytes)
IMAG01_4.jpg
Writing to download\IMAG01_4.jpg (161,943 bytes)
IMAG01_5.jpg
Writing to download\IMAG01_5.jpg (188,729 bytes)
IMAG01_6.jpg
Writing to download\IMAG01_6.jpg (153,664 bytes)
IMAG01_7.jpg
Writing to download\IMAG01_7.jpg (187,923 bytes)
IMAG01_8.jpg
Writing to download\IMAG01_8.jpg (186,324 bytes)
IMAG01_9.jpg
Writing to download\IMAG01_9.jpg (164,556 bytes)
IMAG01_10.jpg
Writing to download\IMAG01_10.jpg (201,336 bytes)
IMAG01_11.jpg
Writing to download\IMAG01_11.jpg (124,927 bytes)
IMAG01_12.jpg
Writing to download\IMAG01_12.jpg (116,585 bytes)
IMAG01_13.jpg
Writing to download\IMAG01_13.jpg (229,753 bytes)
IMAG01_14.jpg
Writing to download\IMAG01_14.jpg (287,119 bytes)
IMAG01_15.jpg
Writing to download\IMAG01_15.jpg (176,060 bytes)
IMAG01_16.jpg
Writing to download\IMAG01_16.jpg (125,580 by

* 현재 요청된 페이지의 image 모두 다운로드 해보기

In [14]:
import requests
from bs4 import BeautifulSoup
import os

In [22]:

url = 'https://comic.naver.com/webtoon/detail?titleId=820097&no=49&week=fri'
req_header = {
    'referer' : url,
}
res = requests.get(url)
if res.ok:
    # jpg 파일의 절대경로 url을 찾기
    soup = BeautifulSoup(res.text, 'html.parser')
    # # IMAG01 가 포함된 요소 찾기
    # print(len(soup.select("#sectionContWide > img[src*='IMAG01']")))
    # # src 가 .jpg 로 끝나는 요소 찾기
    # print(len(soup.select("#sectionContWide > img[src$='.jpg']")))
    
    img_tags = soup.select("#sectionContWide > img[src*='IMAG01']")
    
    # 이미지 url 리스트
    img_url_list = []
    
    for img_tag in img_tags:
        img_url_list.append(img_tag.attrs['src'])
    
    
    
    # images 폴더 만들기
    imgdir_name = 'images'
    # images 폴더가 없으면 생성
    if not os.path.isdir(imgdir_name):
        os.mkdir(imgdir_name)
    
    file_count=1
    
    for img_url in img_url_list:
        print(img_url)
        r = requests.get(img_url, headers=req_header)
        
        if r.ok:
            # binary 응답 데이터 가져오기 ( content 속성 )
            img_data = r.content
            
            # url에서 파일명만 추출하기
            
            file_name = str(file_count) + '.jpg'
            
            file_path = os.path.join(imgdir_name, file_name)
            
            with open(file_path, 'wb') as folder:
                print(f'Writing to {file_path} ({len(img_data):,} bytes)')
                folder.write(img_data)
            
            file_count += 1
            
else:
    print(f'Error code : {res.status_code}')



https://image-comic.pstatic.net/webtoon/820097/49/20241018114333_7eb88f7b76550ed0d81f2b683ddc852b_IMAG01_1.jpg
Writing to images\1.jpg (34,378 bytes)
https://image-comic.pstatic.net/webtoon/820097/49/20241018114333_7eb88f7b76550ed0d81f2b683ddc852b_IMAG01_2.jpg
Writing to images\2.jpg (110,291 bytes)
https://image-comic.pstatic.net/webtoon/820097/49/20241018114333_7eb88f7b76550ed0d81f2b683ddc852b_IMAG01_3.jpg
Writing to images\3.jpg (194,120 bytes)
https://image-comic.pstatic.net/webtoon/820097/49/20241018114333_7eb88f7b76550ed0d81f2b683ddc852b_IMAG01_4.jpg
Writing to images\4.jpg (149,433 bytes)
https://image-comic.pstatic.net/webtoon/820097/49/20241018114333_7eb88f7b76550ed0d81f2b683ddc852b_IMAG01_5.jpg
Writing to images\5.jpg (162,622 bytes)
https://image-comic.pstatic.net/webtoon/820097/49/20241018114333_7eb88f7b76550ed0d81f2b683ddc852b_IMAG01_6.jpg
Writing to images\6.jpg (186,639 bytes)
https://image-comic.pstatic.net/webtoon/820097/49/20241018114333_7eb88f7b76550ed0d81f2b683ddc85

# 리팩토링

In [None]:
import requests                 # 웹 페이지 요청을 위한 라이브러리
from bs4 import BeautifulSoup   # HTML 파싱(분석)을 위한 라이브러리
import os                       # 운영체제 기능(파일/디렉토리 관리)을 위한 라이브러리
import time                     # 시간 관련 기능(딜레이 등)을 위한 라이브러리
import logging                  # 로깅(실행 기록 남기기)을 위한 라이브러리
from dotenv import load_dotenv  # .env 파일 불러오기
load_dotenv()

# --- 설정 ---
TARGET_URL = 'https://comic.naver.com/webtoon/detail?titleId=820097&no=49&week=fri' # 대상 웹툰 페이지 주소
IMAGE_DIR = 'images'  # 이미지를 저장할 폴더 이름
DOWNLOAD_DELAY_SECONDS = 0.5 # 이미지 다운로드 사이의 지연 시간 (초 단위)

# --- 로깅 설정 ---
# 로그 레벨 INFO 이상, 출력 형식 지정 (시간 - 로그레벨 - 메시지)
logging.basicConfig(level=logging.INFO, format='%(asctime)s - %(levelname)s - %(message)s')

# --- 요청 헤더 ---
# 네이버 웹툰 이미지 요청 시 referer 헤더가 중요합니다.
# User-Agent를 추가하는 것도 좋은 습관입니다.
REQUEST_HEADERS = {
    'referer': TARGET_URL,
    'User-Agent': os.getenv('USER_AGENT')
}

def fetch_page_content(url):
    """주어진 URL의 HTML 내용을 가져옵니다."""
    logging.info(f"웹툰 페이지 가져오는 중: {url}")
    try:
        # 초기 요청에도 User-Agent 사용, 타임아웃 10초 설정
        response = requests.get(url, headers={'User-Agent': REQUEST_HEADERS['User-Agent']}, timeout=10)
        response.raise_for_status() # HTTP 오류 발생 시 예외 발생 (4xx 또는 5xx 상태 코드)
        logging.info("페이지를 성공적으로 가져왔습니다.")
        return response.text # 페이지의 HTML 텍스트 반환
    except requests.exceptions.RequestException as e:
        logging.error(f"메인 페이지 가져오기 실패 {url}: {e}")
        return None # 실패 시 None 반환

def extract_image_urls(html_content):
    """HTML 내용을 파싱하여 웹툰 뷰어 영역의 이미지 URL들을 추출합니다."""
    if not html_content:
        logging.warning("HTML 내용이 없어 이미지 URL을 추출할 수 없습니다.")
        return [] # 빈 리스트 반환

    soup = BeautifulSoup(html_content, 'html.parser') # HTML 파서 생성

    # 더 안정적일 수 있는 선택자 먼저 시도:
    # id가 'ct'인 요소 내부의 클래스가 'wt_viewer'인 요소 아래 모든 img 태그 선택
    img_tags = soup.select("#ct > .wt_viewer img")

    # 첫번째 선택자로 못 찾으면 기존 선택자 시도
    if not img_tags:
        logging.warning("주 선택자 '#ct > .wt_viewer img' 실패. '#sectionContWide > img[src*=\"IMAG01\"]' 시도 중...")
        img_tags = soup.select("#sectionContWide > img[src*='IMAG01']") # 원본 코드의 선택자

    # 그래도 못 찾으면 다른 일반적인 컨테이너 ID 시도
    if not img_tags:
        logging.warning("대체 선택자 실패. '#_imageList img' 시도 중...")
        img_tags = soup.select("#_imageList img")

    if not img_tags:
         logging.error("알려진 선택자를 사용하여 이미지 태그를 찾을 수 없습니다.")
         return []

    img_url_list = []
    for img_tag in img_tags:
        if 'src' in img_tag.attrs: # img 태그에 'src' 속성이 있는지 확인
            img_url = img_tag.attrs['src']
            # 기본 검증: http 또는 https로 시작하는지 확인 (상대 경로 방지)
            if img_url.lower().startswith('http'):
                img_url_list.append(img_url)
            else:
                logging.warning(f"http(s)로 시작하지 않는 URL 건너뜀: {img_url}")
        else:
             logging.warning(f"'src' 속성이 없는 이미지 태그 발견: {img_tag}")

    logging.info(f"총 {len(img_url_list)}개의 이미지 URL을 찾았습니다.")
    return img_url_list

def download_and_save_images(img_url_list, save_directory):
    """URL 리스트로부터 이미지를 다운로드하여 지정된 디렉토리에 저장합니다."""
    if not img_url_list:
        logging.warning("다운로드할 이미지 URL이 없습니다.")
        return

    # --- 이미지 저장 디렉토리 생성 ---
    try:
        # exist_ok=True: 디렉토리가 이미 존재해도 오류 발생 안 함
        os.makedirs(save_directory, exist_ok=True)
        logging.info(f"디렉토리 확인/생성 완료: {save_directory}")
    except OSError as e:
        logging.error(f"디렉토리 생성 오류 {save_directory}: {e}")
        return # 디렉토리 없으면 진행 불가

    # --- 이미지 다운로드 ---
    logging.info(f"\n'{save_directory}'에 이미지 다운로드 시작...")
    file_count = 1
    for img_url in img_url_list:
        try:
            logging.info(f"이미지 다운로드 중 ({file_count}/{len(img_url_list)}): {img_url}")
            # 필요한 헤더(특히 referer)와 함께 이미지 파일 요청
            # stream=True는 큰 파일에 유리, timeout 설정
            response = requests.get(img_url, headers=REQUEST_HEADERS, stream=True, timeout=15)
            response.raise_for_status() # 이미지 요청 성공 여부 확인

            # 파일 이름 생성 (원본 코드처럼 카운터 사용)
            # 파일 정렬을 위해 숫자 앞에 0 채우기 (예: 001.jpg, 002.jpg, ..., 010.jpg)
            # 원본 URL에서 확장자 추출 시도
            file_extension = os.path.splitext(img_url.split('?')[0])[-1]
            # 확장자가 없거나 너무 길면 기본값(.jpg) 사용 (간단한 검증)
            if not file_extension or len(file_extension) > 5:
                file_extension = '.jpg'
            # 파일 이름 형식 지정 (예: 001.jpg, 002.jpg...)
            file_name = f"{file_count:03d}{file_extension}"
            # 저장할 전체 파일 경로 생성 (예: images/001.jpg)
            file_path = os.path.join(save_directory, file_name)

            # 이미지를 바이너리 쓰기 모드('wb')로 저장
            with open(file_path, 'wb') as f:
                # 큰 이미지를 위해 iter_content 사용 (메모리에 한번에 다 올리지 않음)
                for chunk in response.iter_content(chunk_size=8192): # 8KB씩 읽어서 쓰기
                    f.write(chunk)
                # stream=True와 iter_content를 사용하지 않는 경우, 이 한 줄로 대체 가능:
                # f.write(response.content)

            img_size = os.path.getsize(file_path) # 저장 후 파일 크기 확인
            logging.info(f"  저장 완료: {file_path} ({img_size:,} 바이트)")

            file_count += 1 # 다음 파일 번호

            # 서버에 부담을 주지 않기 위해 잠시 대기
            time.sleep(DOWNLOAD_DELAY_SECONDS)

        except requests.exceptions.RequestException as e:
            logging.error(f"  다운로드 오류 {img_url}: {e}")
        except IOError as e:
            logging.error(f"  파일 쓰기 오류 {file_path}: {e}")
        except Exception as e: # 반복문 내에서 예상치 못한 다른 오류 발생 시
            logging.error(f"  {img_url} 처리 중 예상치 못한 오류 발생: {e}")

    logging.info("\n이미지 다운로드 과정 완료.")

# --- 메인 실행 로직 ---
if __name__ == "__main__":
    # 1. 웹툰 페이지 내용 가져오기
    html = fetch_page_content(TARGET_URL)
    if html:
        # 2. 페이지 내용에서 이미지 URL 추출하기
        image_urls = extract_image_urls(html)
        if image_urls:
            # 3. 추출된 URL들로부터 이미지 다운로드 및 저장하기
            download_and_save_images(image_urls, IMAGE_DIR)
        else:
            logging.warning("추출된 이미지 URL이 없어 다운로드를 진행할 수 없습니다.")
    else:
        logging.error("웹툰 페이지 내용을 가져오지 못했습니다. 프로그램을 종료합니다.")

### 3. 파일 업로드 하기
* [httpbin] (http://httpbin.org/post) 업로드 요청을 할 수 있는 url

In [None]:
import requests
import json

upload_files = {
    'img1': open('images/1.jpg', 'rb'),
    'img2': open('images/2.jpg', 'rb'),
}

print(upload_files)

url = "http://httpbin.org/post"
# file 업로드 하려면 requests의 post 함수에 files 속성을 사용합니다.
res = requests.post(url, files=upload_files)
print(res.status_code)

# Use the json module to pretty-print the JSON response
# print(json.dumps(res.json(), indent=2))
print(res.json()['files']['img1'])

{'img1': <_io.BufferedReader name='images/1.jpg'>, 'img2': <_io.BufferedReader name='images/2.jpg'>}
200
data:application/octet-stream;base64,/9j/4AAQSkZJRgABAgAAAQABAAD/2wBDAAMCAgMCAgMDAwMEAwMEBQgFBQQEBQoHBwYIDAoMDAsKCwsNDhIQDQ4RDgsLEBYQERMUFRUVDA8XGBYUGBIUFRT/2wBDAQMEBAUEBQkFBQkUDQsNFBQUFBQUFBQUFBQUFBQUFBQUFBQUFBQUFBQUFBQUFBQUFBQUFBQUFBQUFBQUFBQUFBT/wAARCAZAArIDASIAAhEBAxEB/8QAHwAAAQUBAQEBAQEAAAAAAAAAAAECAwQFBgcICQoL/8QAtRAAAgEDAwIEAwUFBAQAAAF9AQIDAAQRBRIhMUEGE1FhByJxFDKBkaEII0KxwRVS0fAkM2JyggkKFhcYGRolJicoKSo0NTY3ODk6Q0RFRkdISUpTVFVWV1hZWmNkZWZnaGlqc3R1dnd4eXqDhIWGh4iJipKTlJWWl5iZmqKjpKWmp6ipqrKztLW2t7i5usLDxMXGx8jJytLT1NXW19jZ2uHi4+Tl5ufo6erx8vP09fb3+Pn6/8QAHwEAAwEBAQEBAQEBAQAAAAAAAAECAwQFBgcICQoL/8QAtREAAgECBAQDBAcFBAQAAQJ3AAECAxEEBSExBhJBUQdhcRMiMoEIFEKRobHBCSMzUvAVYnLRChYkNOEl8RcYGRomJygpKjU2Nzg5OkNERUZHSElKU1RVVldYWVpjZGVmZ2hpanN0dXZ3eHl6goOEhYaHiImKkpOUlZaXmJmaoqOkpaanqKmqsrO0tba3uLm6wsPExcbHyMnK0tPU1dbX2Nna4uPk5ebn6Onq8vP09fb3+Pn6/9oADAMBAAIRAxEAPwD8qqKKKACiiigAooooAKKKKACiii

### 4. 캡챠(이미지) API 호출하기
* urllib 사용
* 1. 캡차 키 발급 요청
  2. 캡차 이미지 요청
  3. 사용자 입력값 검증 요청

In [None]:
# 캡차 키 발급 요청
import os
import sys
import urllib.request
from dotenv import load_dotenv

load_dotenv()

client_id = os.getenv('NAVER_CLIENT')
client_secret = os.getenv('NAVER_KEY')
code = "0"
url = "https://openapi.naver.com/v1/captcha/nkey?code=" + code

# Request 생성
request = urllib.request.Request(url)

# 요청 헤더 설정
request.add_header("X-Naver-Client-Id",client_id)
request.add_header("X-Naver-Client-Secret",client_secret)

# 요청 보내기
response = urllib.request.urlopen(request)

# 응답 코드 가져오기
rescode = response.getcode()
if(rescode==200):
    response_body = response.read()
    key = response_body.decode('utf-8').split(':')
    
    key[1] = key[1].replace('"', '').replace('}', '')
    key = key[1]
else:
    print("Error Code:" + rescode)

{"key":"BMfzYE0D3Xkb0ERD"}


In [49]:
# 캡차 이미지 요청

url = "https://openapi.naver.com/v1/captcha/ncaptcha.bin?key=" + key
request = urllib.request.Request(url)
request.add_header("X-Naver-Client-Id",client_id)
request.add_header("X-Naver-Client-Secret",client_secret)
response = urllib.request.urlopen(request)
rescode = response.getcode()
if(rescode==200):
    print("캡차 이미지 저장")
    response_body = response.read()
    with open('captcha.jpg', 'wb') as f:
        f.write(response_body)
else:
    print("Error Code:" + rescode)

캡차 이미지 저장


In [None]:
#  사용자 입력값 검증 요청
code = "1"
value = input("captcha.jpg 에 적힌 문자를 입력하세요. : ")
url = "https://openapi.naver.com/v1/captcha/nkey?code=" + code + "&key=" + key + "&value=" + value
request = urllib.request.Request(url)
request.add_header("X-Naver-Client-Id",client_id)
request.add_header("X-Naver-Client-Secret",client_secret)
response = urllib.request.urlopen(request)
rescode = response.getcode()
if(rescode==200):
    response_body = response.read()
    print(response_body.decode('utf-8'))
else:
    print("Error Code:" + rescode)

{"result":true,"responseTime":198.79}


* requests를 사용하는 코드로 변경하기
* [requests docs](https://requests.readthedocs.io/en/latest/user/quickstart/)

### 5. 블로그 검색하기

In [66]:
import requests
import pprint

headers = {
    "X-Naver-Client-Id": os.getenv('NAVER_CLIENT'),
    "X-Naver-Client-Secret": os.getenv('NAVER_KEY'),
}

payload = {"query": "파이썬", "display": 100, "sort": "sim"}

url = "https://openapi.naver.com/v1/search/blog.json"

# requests get(url, params, headers) 요청
r = requests.get(url, params=payload, headers=headers)

# json() 함수로 응답 결과 가져오기
# print(json.dumps(r.json(), indent=2))

items_data = r.json()['items']

items_list = []
item_list = list()
# 'title' , 'bloggername' , 'description' , 'bloggerlink' , 'link'

for item in items_data[:2]:
    item_list.append(item['title'])
    item_list.append(item['bloggername'])
    item_list.append(item['description'])
    item_list.append(item['bloggerlink'])
    item_list.append(item['link'])
    
    items_list.append(item_list)
    item_list= []
    
print(items_list)

# 'data/nhnblog.txt' 파일 생성하기
with open('data/nhnblog.txt', 'w', encoding='utf-8') as file:
    for items in items_list:
        for item in items:
            item = item + '\n'
            file.write(item)
        file.write('-'*150 + '\n')


[['대구<b>파이썬</b>학원 실전 기술 익힌 곳', '▶ 제이의 맛있는 세상 ◀', '그때 힘이 되어 준 대구<b>파이썬</b>학원에 대한 글을 써보려 해요! IT 위주로 학습하는 곳 단순히 구직에... 이 대구<b>파이썬</b>학원은 전직, 현직 강사들이 비전공자도 따라갈 수 있을 정도로 눈높이 교육을 진행해 준다고... ', 'blog.naver.com/xshinerx', 'https://blog.naver.com/xshinerx/223787876858'], ['대전자바학원 <b>파이썬</b> 앱개발 공부하고 취업까지', '반짝반짝 너와 나', '저는 <b>파이썬</b>부터 시작해 백엔드 개발에 필요한 다양한 과정을 배우기로 결정했어요. <b>파이썬</b>은 최근 많은 사람들이 주목하고 인기 있는 프로그래밍 언어로 특히 생성 AI 앱을 구축하고 싶다면 필수인 언어였고... ', 'blog.naver.com/mamansiri', 'https://blog.naver.com/mamansiri/223750243246']]
