## 1. 뉴스제목 가져오기
* user-agent 요청헤더를 반드시 설정해야 한다.

In [1]:
# requests 라이브러리 설치여부 확
!pip show requests

Name: requests
Version: 2.32.5
Summary: Python HTTP for Humans.
Home-page: https://requests.readthedocs.io
Author: Kenneth Reitz
Author-email: me@kennethreitz.org
License: Apache-2.0
Location: C:\Users\user\anaconda3\Lib\site-packages
Requires: certifi, charset_normalizer, idna, urllib3
Required-by: anaconda-auth, anaconda-catalogs, anaconda-client, anaconda-project, conda, conda-build, conda-libmamba-solver, conda-repo-cli, conda_package_streaming, cookiecutter, datashader, jupyterlab_server, panel, PyGithub, requests-file, requests-toolbelt, Sphinx, streamlit, tldextract


In [2]:
# beautifulsoup4 라이브러리 설치여부 확인
!pip show beautifulsoup4

Name: beautifulsoup4
Version: 4.13.5
Summary: Screen-scraping library
Home-page: https://www.crummy.com/software/BeautifulSoup/bs4/
Author: 
Author-email: Leonard Richardson <leonardr@segfault.org>
License: MIT License
Location: C:\Users\user\anaconda3\Lib\site-packages
Requires: soupsieve, typing-extensions
Required-by: conda-build, nbconvert


In [None]:
# requests, bs4 import
# BeautifulSoup 클래스 import

import requests
import bs4
from bs4 import BeautifulSoup

In [8]:
# requests, bs4 버전 확인하기
print(f'requests version: = {requests.__version__}')
print(f'bs4 version: = {bs4.__version__}')

requests version: = 2.32.1
bs4 version: = 4.12.3


### 1. 뉴스 제목 추출하기

In [None]:
# IT/과학 뉴스
# dict 타입으로 요청 파라미터 설정
req_param = {
    'sid': 105
}
# 
url = 'https://news.naver.com/section/{sid}'.format(**req_param)
print(url)

# 요청 헤더 설정 : 브라우저 정보 (사람처럼 보이게)
req_header = {
    'user-agent': 'Mozilla/5.0 (Linux; Android 8.0.0; SM-G955U Build/R16NW) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/144.0.0.0 Mobile Safari/537.36'
}

# requests 의 get() 함수 호출하기 
res = requests.get(url, headers=req_header)

# 응답 (response)에서 text 추출
print(res.status_code)
print(res.ok) # boolean
print(type(res)) # <class 'requests.models.Response'>
print(type(res.ok)) # <class 'bool'>
# print(res.text)

if res.ok: # 응답(response)이 OK 이면
    soup = BeautifulSoup(res.text, 'html.parser') # BeautifulSoup 객체 생성
    print(len(soup.select("div.sa_text a[href^='https://n.news.naver.com/mnews/']")))
    
    # CSS 선택자를 사용해서 a tag 목록 가져오기
    a_tags = soup.select("div.sa_text a[href^='https://n.news.naver.com/mnews/']")
    print(type(a_tags), type(a_tags[0])) # [Tag, Tag]

    for a_tag in a_tags: # <a> 태그 리스트 순회
        title = a_tag.text.strip()
        link = a_tag['href']
        print(title, link)

else: # 응답(response)이 Error 이면 status code 출력
    print(f'Error Cod = {res.status_code}')

https://news.naver.com/section/105
200
True
<class 'requests.models.Response'>
<class 'bool'>
88
<class 'bs4.element.ResultSet'> <class 'bs4.element.Tag'>
넷마블, 작년 매출 2.8조 '사상 최대'…영업이익도 63.5% 증가 https://n.news.naver.com/mnews/article/079/0004112946
 https://n.news.naver.com/mnews/article/comment/079/0004112946
[단독] 네이버 오류에…천하람 등 유명인 익명 답변 노출 https://n.news.naver.com/mnews/article/422/0000830823
 https://n.news.naver.com/mnews/article/comment/422/0000830823
구글, 정부에 '고정밀 지도' 반출 관련 추가 서류 제출 https://n.news.naver.com/mnews/article/052/0002311142
 https://n.news.naver.com/mnews/article/comment/052/0002311142
충북 청주에 바이오 융합 플랫폼 ‘카이스트 바이오 스퀘어’ 개소 https://n.news.naver.com/mnews/article/366/0001140927
 https://n.news.naver.com/mnews/article/comment/366/0001140927
LG유플러스, 이익성장 따른 주주환원 기대…목표가↑-유안타 https://n.news.naver.com/mnews/article/008/0005314949
 https://n.news.naver.com/mnews/article/comment/008/0005314949
"네이버 '쇼핑 AI 에이전트' 2월 말 출시"[컨콜] https://n.news.naver.com/mnews/article/018/0006214520
 ht

### 1.1 뉴스제목 추출하는 함수 선언하기

In [60]:
import requests
from bs4 import BeautifulSoup

section_dict = {
    '정치': 100,
    '경제': 101,
    '사회': 102,
    '생활/문화': 103,
    '세계': 104,
    'IT/과학': 105
}

def print_news(section_name):
    sid = section_dict.get(section_name, '정치')
    url = f'https://n.news.naver.com/section/{sid}'
    print(f'{section_name} 뉴스 {url}')
    
    req_header = {
    'user-agent': 'Mozilla/5.0 (Linux; Android 8.0.0; SM-G955U Build/R16NW) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/144.0.0.0 Mobile Safari/537.36'
    }
    res = requests.get(url, headers=req_header)
    
    if res.ok: # 응답(response)이 OK 이면
        soup = BeautifulSoup(res.text, 'html.parser') # BeautifulSoup 객체 생성
        print(len(soup.select("div.sa_text a[href^='https://n.news.naver.com/mnews/']")))
        
        # CSS 선택자를 사용해서 a tag 목록 가져오기
        a_tags = soup.select("div.sa_text a[href^='https://n.news.naver.com/mnews/']")
        print(type(a_tags), type(a_tags[0])) # [Tag, Tag]

        for a_tag in a_tags: # <a> 태그 리스트 순회
            title = a_tag.text.strip()
            link = a_tag['href']
            print(title, link)

    else: # 응답(response)이 Error 이면 status code 출력
        print(f'Error Cod = {res.status_code}')

In [61]:
print_news('사회') 

사회 뉴스 https://n.news.naver.com/section/102
92
<class 'bs4.element.ResultSet'> <class 'bs4.element.Tag'>
상설특검, '관봉권 폐기 의혹' 신응석 前남부지검장 첫 소환조사 https://n.news.naver.com/mnews/article/421/0008757699
 https://n.news.naver.com/mnews/article/comment/421/0008757699
‘공천 거래 의혹’ 명태균·김영선 무죄…증거은닉 교사는 유죄 https://n.news.naver.com/mnews/article/056/0012119732
 https://n.news.naver.com/mnews/article/comment/056/0012119732
인권위, 신임 위원으로 오영근·김학자·조숙현 임명 https://n.news.naver.com/mnews/article/277/0005717938
 https://n.news.naver.com/mnews/article/comment/277/0005717938
BNK투자증권, 연 3.69% 금리 우대 이벤트 실시 https://n.news.naver.com/mnews/article/016/0002596925
 https://n.news.naver.com/mnews/article/comment/016/0002596925
경북도청 신도시 산업시설용지 '잔여 20필지' 재공급 https://n.news.naver.com/mnews/article/001/0015889370
 https://n.news.naver.com/mnews/article/comment/001/0015889370
김총리 "신천지 세금 포탈 수사무마 정황…종교 아닌 범죄집단" https://n.news.naver.com/mnews/article/422/0000830788
 https://n.news.naver.com/mnews/article/comment/422/0000830788
미

### 2. Image 다운로드
* referer 요청 헤더를 반드시 설정해야 한다.

In [None]:
import requests
import os

# 육아일기 73회차
req_header = {
    'referer':'https://comic.naver.com/webtoon/detail?titleId=812354&no=208&week=sun',
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/144.0.0.0 Safari/537.3'
}

img_urls = [
    'https://image-comic.pstatic.net/webtoon/812354/208/20251223155029_0d14a9e6cdd6b23342f96d1bd33d01c3_IMAG01_1.jpg',
    'https://image-comic.pstatic.net/webtoon/812354/208/20251223155029_0d14a9e6cdd6b23342f96d1bd33d01c3_IMAG01_2.jpg',
    'https://image-comic.pstatic.net/webtoon/812354/208/20251223155029_0d14a9e6cdd6b23342f96d1bd33d01c3_IMAG01_3.jpg'
]

for img_url in img_urls:
    # requests 의 get(url, headers) 함수 호출하기 
    res = requests.get(img_url, headers=req_header)
    print(res.status_code)
        
    # binary 응답 데이터 가져오기
    img_data = res.content    
    
    # url에서 파일명만 추출하기
    file_name = os.path.basename(img_url)
    print(file_name)

    # binday data를 file에 write하기
    with open(file_name,'wb') as file:
        print(f'Writing to {file_name}({len(img_data):,} bytes)')
        file.write(img_data)


200
20251223155029_0d14a9e6cdd6b23342f96d1bd33d01c3_IMAG01_1.jpg
Writing to 20251223155029_0d14a9e6cdd6b23342f96d1bd33d01c3_IMAG01_1.jpg(124,462 bytes)
200
20251223155029_0d14a9e6cdd6b23342f96d1bd33d01c3_IMAG01_2.jpg
Writing to 20251223155029_0d14a9e6cdd6b23342f96d1bd33d01c3_IMAG01_2.jpg(141,956 bytes)
200
20251223155029_0d14a9e6cdd6b23342f96d1bd33d01c3_IMAG01_3.jpg
Writing to 20251223155029_0d14a9e6cdd6b23342f96d1bd33d01c3_IMAG01_3.jpg(170,913 bytes)


* 현재 요청된 페이지의 image 모두 다운로드 해보기

In [14]:
import requests
from bs4 import BeautifulSoup
import os

webtoon_url = 'https://comic.naver.com/webtoon/detail?titleId=812354&no=208&week=thu'

req_header = {
    'referer':webtoon_url,
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/144.0.0.0 Safari/537.3'
}

res = requests.get(webtoon_url, headers=req_header)
if res.ok:
    # .jpg 파일명을 추출해서 list에 저장하기
    img_url_list = [] #list()
    soup = BeautifulSoup(res.text, 'html.parser')
    print(len(soup.select("img[src*='IMAG01']")))
    img_tags = soup.select("img[src*='IMAG01']")

    # for img_tag in img_tags:
    #     img_url = img_tag['src']
    #     img_url_list.append(img_url)

    # List Comprehension 
    img_url_list = [img_tag['src'] for img_tag in img_tags]
    print(img_url_list[:2])

    imgdir_name = 'img'
    if not os.path.isdir(imgdir_name):
        os.mkdir(imgdir_name)
    
    for img_url in img_url_list:
        res = requests.get(img_url, headers=req_header)
        img_data = res.content    
        file_path = os.path.join(imgdir_name, os.path.basename(img_url))

        with open(file_path,'wb') as file:
            print(f'Writing to {file_path}({len(img_data):,} bytes)')
            file.write(img_data)

else:
    print(f'Error Code = {res.status_code}')

13
['https://image-comic.pstatic.net/webtoon/812354/208/20251223155029_0d14a9e6cdd6b23342f96d1bd33d01c3_IMAG01_1.jpg', 'https://image-comic.pstatic.net/webtoon/812354/208/20251223155029_0d14a9e6cdd6b23342f96d1bd33d01c3_IMAG01_2.jpg']
Writing to img\20251223155029_0d14a9e6cdd6b23342f96d1bd33d01c3_IMAG01_1.jpg(124,462 bytes)
Writing to img\20251223155029_0d14a9e6cdd6b23342f96d1bd33d01c3_IMAG01_2.jpg(141,956 bytes)
Writing to img\20251223155029_0d14a9e6cdd6b23342f96d1bd33d01c3_IMAG01_3.jpg(170,913 bytes)
Writing to img\20251223155029_0d14a9e6cdd6b23342f96d1bd33d01c3_IMAG01_4.jpg(164,871 bytes)
Writing to img\20251223155029_0d14a9e6cdd6b23342f96d1bd33d01c3_IMAG01_5.jpg(132,142 bytes)
Writing to img\20251223155029_0d14a9e6cdd6b23342f96d1bd33d01c3_IMAG01_6.jpg(131,414 bytes)
Writing to img\20251223155029_0d14a9e6cdd6b23342f96d1bd33d01c3_IMAG01_7.jpg(116,752 bytes)
Writing to img\20251223155029_0d14a9e6cdd6b23342f96d1bd33d01c3_IMAG01_8.jpg(143,277 bytes)
Writing to img\20251223155029_0d14a9e6

### 3. 파일 업로드 하기
* http://httpbin.org/post 업로드 요청을 할 수 있는 url

In [None]:
import requests

upload_files = {
    
}
#print(upload_files)

url = 'http://httpbin.org/post'
# file 업로드 하려면 requests의 post 함수에 files 속성을 사용합니다.



200


### 4. 캡챠(이미지) API 호출하기
* urllib 사용
* 1. 캡차 키 발급 요청
  2. 캡차 이미지 요청
  3. 사용자 입력값 검증 요청

In [None]:
# 캡차 키 발급 요청


In [None]:
# 캡차 이미지 요청


In [None]:
#  사용자 입력값 검증 요청



* requests를 사용하는 코드로 변경하기
* [requests docs](https://requests.readthedocs.io/en/latest/user/quickstart/)

In [None]:
# 사용자 입력값 검증 요청



Error Code: 403


### 5. 블로그 검색하기

In [None]:
import requests
import pprint

headers = {
    'X-Naver-Client-Id': '',
    'X-Naver-Client-Secret': '',
}

payload = {
    'query': '파이썬',
    'display': 100,
    'sort': 'sim'
}

url = 'https://openapi.naver.com/v1/search/blog.json'


# requests get(url, params, headers) 요청 

# json() 함수로 응답 결과 가져오오기
# 'title' , 'bloggername' , 'description' , 'bloggerlink' , 'link'

# 'data/nhnblog.txt' 파일 생성하기
