## 1. 뉴스제목 가져오기
* user-agent 요청 헤더를 반드시 설정해야 한다.

In [1]:
# requests 라이브러리 설치여부 확인
!pip show requests

Name: requests
Version: 2.32.3
Summary: Python HTTP for Humans.
Home-page: https://requests.readthedocs.io
Author: Kenneth Reitz
Author-email: me@kennethreitz.org
License: Apache-2.0
Location: C:\Users\kosta\anaconda3\Lib\site-packages
Requires: certifi, charset-normalizer, idna, urllib3
Required-by: anaconda-catalogs, anaconda-client, anaconda-cloud-auth, anaconda-project, conda, conda-build, conda-repo-cli, conda_package_streaming, cookiecutter, datashader, jupyterlab_server, panel, requests-file, requests-toolbelt, Sphinx, streamlit, tldextract


In [2]:
# beautifulsoup4 라이브러리 설치여부 확인
!pip show beautifulsoup4

Name: beautifulsoup4
Version: 4.12.3
Summary: Screen-scraping library
Home-page: https://www.crummy.com/software/BeautifulSoup/bs4/
Author: 
Author-email: Leonard Richardson <leonardr@segfault.org>
License: MIT License
Location: C:\Users\kosta\anaconda3\Lib\site-packages
Requires: soupsieve
Required-by: conda-build, nbconvert


In [3]:
# reqeusts, bs4 import
import requests
# BeautifulSoup import
import bs4
# BeautifulSoup 클래스 import
from bs4 import BeautifulSoup

In [4]:
# requests, bs4 버전 확인하기
print(f'requests 버전 = {requests.__version__}')
print(f'bs4 버전 = {bs4.__version__}')

requests 버전 = 2.32.3
bs4 버전 = 4.12.3


### 1. 뉴스 제목 추출하기

In [6]:
# IT/과학 뉴스 
req_param = {
    'sid': 105
}

sid = 104
url = f'https://news.naver.com/section/{sid}' 
print(url)

url2 = 'https://news.naver.com/section/{sid}'.format(**req_param)
print(url2)

https://news.naver.com/section/104
https://news.naver.com/section/105


In [None]:

# IT/과학 뉴스 
req_param = {
    'sid': 105
}
url = 'https://news.naver.com/section/{sid}'.format(**req_param)
print(url)

# 요청 헤더 설정 : 브라우저 정보
req_header = {
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36"
}

# requests 의 get() 함수 호출하기 
res = requests.get(url, headers=req_header)
print(res.status_code, res.ok)
print(type(res))
print(res.text)


In [None]:

# 응답(response)이 OK 이면
# 응답 (response)에서 text 추출
if res.ok:
    html = res.text
    # BeautifulSoup 객체 생성
    soup = BeautifulSoup(html, 'html.parser')
    #print(soup)
    # CSS 선택자
    # print(soup.select("div.sa_text a[href*='mnews/article']"))
    '''
       <div class='sa_text'> 
          <a href="https://n.news.naver.com/mnews/article/366/0001094461" class="sa_text_title">
            뉴스 제목
          </a>
    '''
    a_tags = soup.select("div.sa_text a[href*='mnews'].sa_text_title")
    print(len(a_tags))
    print(type(a_tags), type(a_tags[0])) #[Tag,Tag,Tag]
    # <a> 태그 리스트 순회하기
    for idx,a_tag in enumerate(a_tags,1):        
        if a_tag.text:
            title = a_tag.text # 제목
            link = a_tag['href'] # 링크
            #print(len(title))
            print(f'{idx} {title} {link}')
else:
    # 응답(response)이 Error 이면 status code 출력    
    print(f'Error Code = {res.status_code}')


### 1.1 뉴스제목 추출하는 함수 선언하기

In [16]:
import requests
from bs4 import BeautifulSoup

#section_dict = {100:'정치',101:'경제',102:'사회',103:'생활/문화',104:'세계',105:'IT/과학'}
section_dict = {'정치':100,'경제':101,'사회':102,'생활/문화':103,'세계':104,'IT/과학':105}

def print_news(section):  #print_new('생활/문화') 
    sid = section_dict[section] # 103
    url = f'https://news.naver.com/section/{sid}'
    print(f'{url} {section} 뉴스')

    # 요청 헤더 설정 : 브라우저 정보
    req_header = {
        "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36"
    }
    # requests 의 get() 함수 호출하기 
    res=requests.get(url,headers=req_header)
    print(res.status_code, res.ok)
    if res.ok:
        html = res.text
        # BeautifulSoup 객체 생성
        soup = BeautifulSoup(html, "html.parser")
        a_tags = soup.select("div.sa_text a[href*='https://n.news.naver.com/mnews/article'].sa_text_title")
        print(len(a_tags))
        # <a> 태그 리스트 순회하기
        for idx,a_tag in enumerate(a_tags,1):        
            if a_tag.text:
                title = a_tag.text.strip() # 제목
                link = a_tag['href'] # 링크 <a href="">
                #print(len(title))
                print(f'{idx} {title} {link}')
    else:
        # 응답(response)이 Error 이면 status code 출력    
        print(f'Error Code = {res.status_code}')       
    

In [None]:
print_news('생활/문화')

### 2. Image 다운로드
* referer 요청 헤더를 반드시 설정해야 한다.

In [23]:
import requests
import os

req_header = {
    'referer':'https://comic.naver.com/webtoon/detail?titleId=835751&no=1&week=finish',
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36"
}

img_urls = [
    'https://image-comic.pstatic.net/webtoon/835751/1/20250124105206_071a5943f73498289e71dc2fd9f354cf_IMAG01_1.jpg',
    'https://image-comic.pstatic.net/webtoon/835751/1/20250124105206_071a5943f73498289e71dc2fd9f354cf_IMAG01_2.jpg',
    'https://image-comic.pstatic.net/webtoon/835751/1/20250124105206_071a5943f73498289e71dc2fd9f354cf_IMAG01_3.jpg'
]

for img_url in img_urls: #img_url=ttps://image/xxx.jpg'
    # requests 의 get(url, headers) 함수 호출하기 
    res = requests.get(img_url, headers=req_header)
    print(res.ok, res.status_code)
    if res.ok:      
        # binary 응답 데이터 가져오기
        img_data = res.content
        # url에서 파일명만 추출하기
        file_name = os.path.basename(img_url)
        # binday data를 file에 write하기
        with open(file_name, 'wb') as file:
            print(f'Writing to {file_name}({len(img_data):,} bytes)')
            file.write(img_data)

True 200
Writing to 20250124105206_071a5943f73498289e71dc2fd9f354cf_IMAG01_1.jpg(121,941 bytes)
True 200
Writing to 20250124105206_071a5943f73498289e71dc2fd9f354cf_IMAG01_2.jpg(126,806 bytes)
True 200
Writing to 20250124105206_071a5943f73498289e71dc2fd9f354cf_IMAG01_3.jpg(121,113 bytes)


* 현재 요청된 페이지의 image 모두 다운로드 해보기

In [None]:
import requests
from bs4 import BeautifulSoup
import os

webtoon_url = 'https://comic.naver.com/webtoon/detail?titleId=835751&no=1&week=finish'
req_header = {
    'referer':webtoon_url,
    "user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/104.0.0.0 Safari/537.36"
}
res = requests.get(webtoon_url)
print(res.status_code)
if res.ok:
    soup = BeautifulSoup(res.text, 'html.parser')
    print(len(soup.select("img[src$='.jpg']")))
    #https://image-comic.pstatic.net/webtoon
    print(len(soup.select("img[src^='https://image-comic.pstatic.net/webtoon']")))
    print(len(soup.select("img[src*='IMAG01']"))) # 일치함
    # img src file명을 저장할 list 선언
    img_url_list = list() #['http://xxx/aa.jpg']
    img_tags = soup.select("img[src*='IMAG01']") #img_tags의 타입은 Resultset [Tag,Tag,]
    for img_tag in img_tags: #img_tag 변수의 타입은 Tag <img>
        img_url = img_tag['src']
        img_url_list.append(img_url)
    #print(len(img_url_list), img_url_list[0:2])

    # img 디렉토리가 없으면 생성하기
    imgdir_name = 'img'
    if not os.path.isdir(imgdir_name):
        os.mkdir(imgdir_name)

    for jpg_url in img_url_list: #['http://xxx.jpg',]
        res = requests.get(jpg_url, headers=req_header)
        if res.ok:
            # binary data 추출하기
            img_data = res.content
            # img/xxx.jpg 디렉토리명과 jpg파일명을 join
            dir_name = os.path.join(imgdir_name,os.path.basename(jpg_url))
            with open(dir_name,'wb') as file:
                print(f'Writing to {dir_name}({len(img_data):,} bytes)')
                file.write(img_data)
        else:
           print(f'Error Code = {res.status_code}')             

* 현재 요청된 페이지의 image 모두 다운로드 해보기
    * 리팩토링 한 코드

In [None]:
import requests
from bs4 import BeautifulSoup
import os

# 기본 설정
url = 'https://comic.naver.com/webtoon/detail?titleId=835751&no=1&week=finish'
req_header = {'referer': url}
imgdir_name = 'img'

# 이미지 저장 폴더가 없으면 생성
os.makedirs(imgdir_name, exist_ok=True)

# 웹 페이지 요청 및 확인
res = requests.get(url)
if not res.ok:
    print(f'Error Code = {res.status_code}')
    exit()

# 이미지 URL 추출
soup = BeautifulSoup(res.text, 'html.parser')
img_url_list = [img_tag['src'] for img_tag in soup.select("img[src*='IMAG01']")]

# 이미지 다운로드
for img_url in img_url_list:
    res = requests.get(img_url, headers=req_header)
    if res.ok:
        img_data = res.content
        file_path = os.path.join(imgdir_name, os.path.basename(img_url))
        with open(file_path, 'wb') as file:
            print(f'Writing to {file_path} ({len(img_data):,} bytes)')
            file.write(img_data)
    else:
        print(f'Error Code = {res.status_code} for {img_url}')

### 3. 파일 업로드 하기
* http://httpbin.org/post 업로드 요청을 할 수 있는 url

In [None]:
import requests

upload_files = {
    'img1': open('img/f1.jpg','rb'),
    'img2': open('img/f2.jpg','rb')
}
print(upload_files)

url = 'http://httpbin.org/post'
# file 업로드 하려면 requests의 post 함수에 files 속성을 사용합니다.
res = requests.post(url, files=upload_files)
print(res.status_code)
print(type(res.json()))
#print(res.json())
print(res.json()['files']['img1'])

In [None]:

url = 'http://httpbin.org/post'
# file 업로드 하려면 requests의 post 함수에 files 속성을 사용합니다.
res = None
print(res.status_code)
print(type(res.json()))
#print(res.json())
print(res.json()['files']['img1'])

### 4. 캡챠(이미지) API 호출하기
* urllib 사용
* 1. 캡차 키 발급 요청
  2. 캡차 이미지 요청
  3. 사용자 입력값 검증 요청

In [32]:
!pip show python-dotenv

Name: python-dotenv
Version: 0.21.0
Summary: Read key-value pairs from a .env file and set them as environment variables
Home-page: https://github.com/theskumar/python-dotenv
Author: Saurabh Kumar
Author-email: me+github@saurabh-kumar.com
License: BSD-3-Clause
Location: C:\Users\kosta\anaconda3\Lib\site-packages
Requires: 
Required-by: anaconda-cloud-auth


In [1]:
from dotenv import load_dotenv
import os

load_dotenv()

CLIENT_ID = os.getenv("CLIENT_ID")
print(CLIENT_ID[:2])

CLIENT_SECRET = os.getenv("CLIENT_SECRET")
print(CLIENT_SECRET[:2])


SE
qp


In [9]:

# 캡차 키 발급 요청
import urllib.request

client_id = CLIENT_ID # 개발자센터에서 발급받은 Client ID 값
client_secret = CLIENT_SECRET # 개발자센터에서 발급받은 Client Secret 값

code = "0"
url = "https://openapi.naver.com/v1/captcha/nkey?code=" + code
#Request 객체생성
request = urllib.request.Request(url)
#요청헤더 설정
request.add_header("X-Naver-Client-Id",client_id)
request.add_header("X-Naver-Client-Secret",client_secret)
#서버에 request 전달
response = urllib.request.urlopen(request)
rescode = response.getcode()
if(rescode==200):
    response_body = response.read()
    print(response_body.decode('utf-8'))
else:
    print("Error Code:" + rescode)

{"key":"qf4dzp6UsbuPrSow"}


In [10]:
# 캡차 이미지 요청
import urllib.request

client_id = CLIENT_ID # 개발자센터에서 발급받은 Client ID 값
client_secret = CLIENT_SECRET # 개발자센터에서 발급받은 Client Secret 값

key = "qf4dzp6UsbuPrSow" # 캡차 Key 값
url = "https://openapi.naver.com/v1/captcha/ncaptcha.bin?key=" + key

request = urllib.request.Request(url)
request.add_header("X-Naver-Client-Id",client_id)
request.add_header("X-Naver-Client-Secret",client_secret)
response = urllib.request.urlopen(request)
rescode = response.getcode()
if(rescode==200):
    print("캡차 이미지 저장")
    response_body = response.read()
    with open('captcha.jpg', 'wb') as f:
        f.write(response_body)
else:
    print("Error Code:" + rescode)

캡차 이미지 저장


In [11]:
#  사용자 입력값 검증 요청 (urllib 사용)
import urllib.request

client_id = CLIENT_ID # 개발자센터에서 발급받은 Client ID 값
client_secret = CLIENT_SECRET # 개발자센터에서 발급받은 Client Secret 값

code = "1"
key = "qf4dzp6UsbuPrSow"
value = "963F"
url = "https://openapi.naver.com/v1/captcha/nkey?code=" + code + "&key=" + key + "&value=" + value
request = urllib.request.Request(url)
request.add_header("X-Naver-Client-Id",client_id)
request.add_header("X-Naver-Client-Secret",client_secret)
response = urllib.request.urlopen(request)
rescode = response.getcode()

if(rescode==200):
    response_body = response.read()
    print(response_body.decode('utf-8'))
else:
    print("Error Code:" + rescode)


{"result":true,"responseTime":21.95}


* requests를 사용하는 코드로 변경하기
* [requests docs](https://requests.readthedocs.io/en/latest/user/quickstart/)

In [17]:
#  사용자 입력값 검증 요청 (requests 사용)
import os
from dotenv import load_dotenv
import requests

# .env 파일에서 환경 변수 로드
load_dotenv()

# 환경 변수에서 값 읽기
client_id = os.getenv("CLIENT_ID")  # .env 파일의 NAVER_CLIENT_ID
client_secret = os.getenv("CLIENT_SECRET")  # .env 파일의 NAVER_CLIENT_SECRET
key = "Fd5zkMGPX4yCqx84"
#os.getenv("NAVER_CAPTCHA_KEY")  # .env 파일의 NAVER_CAPTCHA_KEY

# 사용자 입력값
code = "1"
value = "ASRPLY3"  # 실제 사용시 사용자 입력값으로 대체 필요

# URL 구성
# query string key1=value1&key2=value2
url = f"https://openapi.naver.com/v1/captcha/nkey?code={code}&key={key}&value={value}"

# 요청 헤더
headers = {
    "X-Naver-Client-Id": client_id,
    "X-Naver-Client-Secret": client_secret
}

# 요청 보내기
try:
    response = requests.get(url, headers=headers)
    response.raise_for_status()  # 4xx, 5xx 오류 발생시 예외 발생
    
    # 응답 처리
    print(response.text)
    
except requests.exceptions.RequestException as e:
    print(f"Error occurred: {e}")
    print(f"Status Code: {response.status_code if 'response' in locals() else 'N/A'}")


{"result":true,"responseTime":37.02}


### 5. 블로그 검색하기

In [15]:
import requests
from pprint import pprint
import os
from dotenv import load_dotenv

# .env 파일에서 환경 변수 로드
load_dotenv()

# 환경 변수에서 값 읽기
client_id = os.getenv("CLIENT_ID")  # .env 파일의 NAVER_CLIENT_ID
client_secret = os.getenv("CLIENT_SECRET")  # .env 파일의 NAVER_CLIENT_SECRET

headers = {
    'X-Naver-Client-Id': client_id,
    'X-Naver-Client-Secret': client_secret,
}

# query string 문자열을 dict 선언
payload = {
    'query': '파이썬',
    'display': 100,
    'sort': 'date'
}

url = 'https://openapi.naver.com/v1/search/blog.json' #?query=파이썬&display=100&sort=sim

# requests get(url, params, headers) 요청 
res = requests.get(url, params=payload, headers=headers)
print(len(res.json()['items'])) #[{},{}]
print(res.json()['items'][0])
print(type(res.json()['items'][0]))

100
{'title': '산막동 코딩학원 X <b>파이썬</b>', 'link': 'https://blog.naver.com/instinct13328/224074769462', 'description': '산막동 코딩학원 X <b>파이썬</b> 안녕하세요. 산막동 코딩과외입니다. 산막동 코딩과외에서 <b>파이썬</b>, 자바스크립트, 웹개발까지 실력 향상을 경험하세요. 산막동 기초 프로그래밍, 산막동 알고리즘 응용, 산막동 대회... ', 'bloggername': 'instinct13328님의 블로그', 'bloggerlink': 'blog.naver.com/instinct13328', 'postdate': '20251113'}
<class 'dict'>


In [16]:

# json() 함수로 응답 결과 가져오기
items_data = res.json()['items'] #[{},{}]
#pprint(res.json())
print(len(items_data), type(items_data), type(items_data[0]))
pprint(items_data[0])

#[{},{},{}] 
# [] - 100 개의 데이터, {title:'',link:''} - 1개의 블로그 글 데이터

100 <class 'list'> <class 'dict'>
{'bloggerlink': 'blog.naver.com/instinct13328',
 'bloggername': 'instinct13328님의 블로그',
 'description': '산막동 코딩학원 X <b>파이썬</b> 안녕하세요. 산막동 코딩과외입니다. 산막동 코딩과외에서 '
                '<b>파이썬</b>, 자바스크립트, 웹개발까지 실력 향상을 경험하세요. 산막동 기초 프로그래밍, 산막동 '
                '알고리즘 응용, 산막동 대회... ',
 'link': 'https://blog.naver.com/instinct13328/224074769462',
 'postdate': '20251113',
 'title': '산막동 코딩학원 X <b>파이썬</b>'}


In [None]:

# 'title' , 'bloggername' , 'description' , 'bloggerlink' , 'link'
items_list = list()
item_list = []
for item in items_data:
#     print(item)
    item_list.append(item['title'])
    item_list.append(item['bloggername'])
    item_list.append(item['description'])
    item_list.append(item['bloggerlink'])
    item_list.append(item['link'])
    item_list.append(item['postdate'])

    items_list.append(item_list)
    item_list = []

print(items_list) #[[],[],[]]

# 'data/nhnblog.txt' 파일 생성하기
with open('data/nhnblog.txt','w',encoding="utf-8")as file:
    for items in items_list:
        for item in items:
            item = item + '\n'
            file.write(item)
        file.write('-'*150+'\n')


##### json 파일로 저장하기

In [17]:
import json

with open('data/nhnblog.json','w', encoding='utf-8') as file:
    json.dump(items_data, file)

In [None]:
import json

with open('data/nhnblog.json',encoding='utf-8') as file:
    json_data = json.load(file)

pprint(json_data)

### 책 검색하기
* https://openapi.naver.com/v1/search/book.json

In [20]:
import requests
from pprint import pprint
import os
from dotenv import load_dotenv

# .env 파일에서 환경 변수 로드
load_dotenv()

# 환경 변수에서 값 읽기
client_id = os.getenv("CLIENT_ID")  # .env 파일의 NAVER_CLIENT_ID
client_secret = os.getenv("CLIENT_SECRET")  # .env 파일의 NAVER_CLIENT_SECRET

headers = {
    'X-Naver-Client-Id': client_id,
    'X-Naver-Client-Secret': client_secret,
}

# query string 문자열을 dict 선언
payload = {
    'query': '소년',
    'display': 100,
    'sort': 'sim'
}

url = 'https://openapi.naver.com/v1/search/book.json' #?query=파이썬&display=100&sort=sim

# requests get(url, params, headers) 요청 
res = requests.get(url, params=payload, headers=headers)
if res.json()['items']:
    items_list = res.json()['items']
    print(items_list[:2])    

[{'title': '소년이 온다 (한강 소설 l 2024년 노벨문학상 수상작가)', 'link': 'https://search.shopping.naver.com/book/catalog/32491401626', 'image': 'https://shopping-phinf.pstatic.net/main_3249140/32491401626.20231004072435.jpg', 'author': '한강', 'discount': '13500', 'publisher': '창비', 'pubdate': '20140519', 'isbn': '9788936434120', 'description': '말라파르테 문학상, 만해문학상 수상작 \n우리 시대의 소설 『소년이 온다』\n\n2014년 만해문학상, 2017년 이탈리아 말라파르테 문학상을 수상하고 전세계 20여개국에 번역 출간되며 세계를 사로잡은 우리 시대의 소설 『소년이 온다』.\n이 작품은 『채식주의자』로 인터내셔널 부커상을 수상한 한강 작가에게 “눈을 뗄 수 없는, 보편적이며 깊은 울림”(뉴욕타임즈), “역사와 인간의 본질을 다룬 충격적이고 도발적인 소설”(가디언), “한강을 뛰어넘은 한강의 소설”(문학평론가 신형철)이라는 찬사를 선사한 작품으로, 그간 많은 독자들에게 광주의 상처를 깨우치고 함께 아파하는 문학적인 헌사로 높은 관심과 찬사를 받아왔다. \n『소년이 온다』는 ‘상처의 구조에 대한 투시와 천착의 서사’를 통해 한강만이 풀어낼 수 있는 방식으로 1980년 5월을 새롭게 조명하며, 무고한 영혼들의 말을 대신 전하는 듯한 진심 어린 문장들로 5·18 이후를 살고 있는 우리에게 묵직한 질문을 던진다. \n이 작품은 가장 한국적인 서사로 세계를 사로잡은 한강 문학의 지향점을 보여준다. 인간의 잔혹함과 위대함을 동시에 증언하는 이 충일한 서사는 이렇듯 시공간의 한계를 넘어 인간 역사의 보편성을 보여주며 훼손되지 말아야 할 인간성을 절박하게 복원한다.'}, {'title': '소년', 'link': 'https://sea

In [23]:
for item_dict in items_list:
    #print(item_dict)
    title = item_dict.get('title','제목없음')
    link = item_dict.get('link','링크없음')
    print(f'제목={title}, 링크={link}')

제목=소년이 온다 (한강 소설 l 2024년 노벨문학상 수상작가), 링크=https://search.shopping.naver.com/book/catalog/32491401626
제목=소년, 링크=https://search.shopping.naver.com/book/catalog/53057126718
제목=소년, 링크=https://search.shopping.naver.com/book/catalog/56585517552
제목=소년과 남자들에 대하여 (오늘날 남성은 왜 뒤처지는가), 링크=https://search.shopping.naver.com/book/catalog/56986569243
제목=소년 (이승엽 시집), 링크=https://search.shopping.naver.com/book/catalog/53755961846
제목=언제나 기억해 (소년과 두더지와 여우와 말, 그리고 폭풍우), 링크=https://search.shopping.naver.com/book/catalog/57024001903
제목=지박소년 하나코 군 24 (더블 특장판) (초판한정 홀로그램 양면 책갈피 + 선착순 한정 아크릴 스탠딩 POP), 링크=https://search.shopping.naver.com/book/catalog/56692317170
제목=소년 (1908년 최남선이 발행한 우리나라 최초의 월간 잡지), 링크=https://search.shopping.naver.com/book/catalog/35749302618
제목=소년과 두더지와 여우와 말, 링크=https://search.shopping.naver.com/book/catalog/32477591676
제목=소년, 링크=https://search.shopping.naver.com/book/catalog/32466856639
제목=소년, 링크=https://search.shopping.naver.com/book/catalog/33378696990
제목=달섬 소년, 링크=https://search.shopping.n