## 1. 뉴스제목 가져오기
* user-agent 요청헤더를 반드시 설정해야 한다.

In [18]:
# requests 라이브러리 설치여부 확인
%pip show requests

Name: requestsNote: you may need to restart the kernel to use updated packages.

Version: 2.32.3
Summary: Python HTTP for Humans.
Home-page: https://requests.readthedocs.io
Author: Kenneth Reitz
Author-email: me@kennethreitz.org
License: Apache-2.0
Location: d:\anaconda3\envs\test\lib\site-packages
Requires: certifi, charset-normalizer, idna, urllib3
Required-by: huggingface-hub, jupyterlab_server, PyGithub, streamlit


In [19]:
# beautifulsoup4 라이브러리 설치여부 확인
%pip show beautifulsoup4

Name: beautifulsoup4
Version: 4.13.3
Summary: Screen-scraping library
Home-page: https://www.crummy.com/software/BeautifulSoup/bs4/
Author: 
Author-email: Leonard Richardson <leonardr@segfault.org>
License: MIT License
Location: d:\anaconda3\envs\test\lib\site-packages
Requires: soupsieve, typing-extensions
Required-by: nbconvert
Note: you may need to restart the kernel to use updated packages.


In [20]:
# reqeusts, bs4 import
import requests
import bs4

# BeautifulSoup 클래스 import
from bs4 import BeautifulSoup

In [21]:
# requests, bs4 버전 확인하기
print(f"requests version: {requests.__version__}")
print(f"beautifulSoup4 version: {bs4.__version__}")

requests version: 2.32.3
beautifulSoup4 version: 4.13.3


In [22]:
import dotenv
import os

### 1. 뉴스 제목 추출하기

In [None]:
dotenv.load_dotenv()

# IT/과학 뉴스
req_param = {"sid": 105}
#
url = f'https://news.naver.com/section/{req_param["sid"]}'
print(f"요청 URL : {url}")

# 요청 헤더 설정 : 브라우저 정보
req_header = {"User-Agent": os.getenv("USER_AGENT")}

# requests 의 get() 함수 호출하기
r = requests.get(url, headers=req_header)
print(f"응답 : {r}")
print(type(r))
print(f"응답 코드 : {r.status_code}", end="\n\n")


# 응답(response)이 OK 이면
if r.ok:
    # 응답 (response)에서 text 추출
    r_text = r.text
    # BeautifulSoup 객체 생성
    soup = BeautifulSoup(r_text, "html.parser")

    # CSS 선택자
    # print(soup.prettify())
    # print(soup.select("div.sa_text a[href*='mnews/article']"))

    sa_result = soup.select("div.sa_text a[href*='mnews/article']")

    # <a> 태그 리스트 순회하기
    for i in sa_result:
        print(i.get("href"), i.get_text())

# 응답(response)이 Error 이면 status code 출력
else:
    print(f"Error code : {r.status_code}")

요청 URL : https://news.naver.com/section/105
응답 : <Response [200]>
<class 'requests.models.Response'>
응답 코드 : 200

https://n.news.naver.com/mnews/article/018/0005982063
“보이스피싱 26건 막았다” SKT, AI 보안기술 ‘IBK기업은행’에 적용

https://n.news.naver.com/mnews/article/comment/018/0005982063
https://n.news.naver.com/mnews/article/422/0000729036
스팸문자, 발송단계에서 차단...내일 '엑스레이 서비스' 시범 도입

https://n.news.naver.com/mnews/article/comment/422/0000729036
https://n.news.naver.com/mnews/article/030/0003301273
뤼튼, 전국민 1인 1AI 시대 연다…무료 넘어 소득까지 창출

https://n.news.naver.com/mnews/article/comment/030/0003301273
https://n.news.naver.com/mnews/article/011/0004471465
미래 대한민국호 달/화성탐사선 주인공에 도전해보세요

https://n.news.naver.com/mnews/article/comment/011/0004471465
https://n.news.naver.com/mnews/article/030/0003301336
카카오메이커스, 누적 거래액 1조 돌파

https://n.news.naver.com/mnews/article/comment/030/0003301336
https://n.news.naver.com/mnews/article/008/0005177228
갤S25 카메라 켜고 "어떤 옷 어울려?"…AI가 자동 답한다

https://n.news.naver.com/mnews/article/comme

### 1.1 뉴스제목 추출하는 함수 선언하기

In [None]:
import requests
from bs4 import BeautifulSoup

section_dict = {
    100: "정치",
    101: "경제",
    102: "사회",
    103: "생활/문화",
    104: "세계",
    105: "IT/과학",
}


def print_news(sid):  # print_new(103)
    section = section_dict[sid]
    url = f"https://news.naver.com/section/{sid}"
    print(f"=====> {url} {section} 뉴스 <=====")

    # 요청 헤더 설정 : 브라우저 정보
    req_header = {
        "User-Agent": os.getenv(
            "USER_AGENT",
            "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.3",
        )
    }

    # requests 의 get() 함수 호출하기
    r = requests.get(url, headers=req_header)
    print(f"응답 : {r}")
    print(type(r))
    print(f"응답 코드 : {r.status_code}", end="\n\n")

    # 응답(response)이 OK 이면
    if r.ok:
        # 응답 (response)에서 text 추출
        r_text = r.text
        # BeautifulSoup 객체 생성
        soup = BeautifulSoup(r_text, "html.parser")

        # CSS 선택자
        # print(soup.prettify())
        # print(soup.select("div.sa_text a[href*='mnews/article']"))

        sa_result = soup.select("div.sa_text a[href*='mnews/article']")

        # <a> 태그 리스트 순회하기
        for i in sa_result:
            print(i.get("href"), i.get_text())

    # 응답(response)이 Error 이면 status code 출력
    else:
        print(f"Error code : {r.status_code}")

In [36]:
print_news(103)

=====> https://news.naver.com/section/103 생활/문화 뉴스 <=====
응답 : <Response [200]>
<class 'requests.models.Response'>
응답 코드 : 200

https://n.news.naver.com/mnews/article/214/0001416796
음저협 회장 보수 79% 인상…저작권단체, 시정명령에도 방만 경영

https://n.news.naver.com/mnews/article/comment/214/0001416796
https://n.news.naver.com/mnews/article/009/0005472773
32년 만 연극 무대 간 이영애…“20대 때 첫 연극 이후 오랜 시간 갈망”

https://n.news.naver.com/mnews/article/comment/009/0005472773
https://n.news.naver.com/mnews/article/052/0002177215
일부러 안 먹었는데 '대반전'...알고 보니 놀라운 영양성분 [지금이뉴스]

https://n.news.naver.com/mnews/article/comment/052/0002177215
https://n.news.naver.com/mnews/article/018/0005982431
국립민속박물관, 내년 '세계민속관' 신설…"상호 교류 앞장"

https://n.news.naver.com/mnews/article/comment/018/0005982431
https://n.news.naver.com/mnews/article/003/0013170140
볼보 EX30, 3월 유럽 수입차 중 전기차 판매 1위

https://n.news.naver.com/mnews/article/comment/003/0013170140
https://n.news.naver.com/mnews/article/021/0002701651
“저출산 극복에 희망될 것”… 가정연합, 5000쌍 합동결혼식

https://n.

### 2. Image 다운로드
* referer 요청 헤더를 반드시 설정해야 한다.

In [26]:
import requests
import os

req_header = {"referer": ""}

img_urls = [
    "https://image-comic.pstatic.net/webtoon/798173/5/20220804112251_d97bd1e1b38f0cd022e4e3639d2926b3_IMAG01_1.jpg",
    "https://image-comic.pstatic.net/webtoon/798173/5/20220804112251_d97bd1e1b38f0cd022e4e3639d2926b3_IMAG01_2.jpg",
    "https://image-comic.pstatic.net/webtoon/798173/5/20220804112251_d97bd1e1b38f0cd022e4e3639d2926b3_IMAG01_3.jpg",
]

for img_url in img_urls:
    # requests 의 get(url, headers) 함수 호출하기
    r = requests.get(img_url, headers=req_header)
    if r.status_code != 200:
        print("Error : ", r.status_code)
        pass

    else:
        # binary 응답 데이터 가져오기
        img_data = r.content

        # url에서 파일명만 추출하기

        # binday data를 file에 write하기

Error :  403
Error :  403
Error :  403


* 현재 요청된 페이지의 image 모두 다운로드 해보기

### 3. 파일 업로드 하기
* http://httpbin.org/post 업로드 요청을 할 수 있는 url

In [27]:
import requests

upload_files = {}
# print(upload_files)

url = "http://httpbin.org/post"
# file 업로드 하려면 requests의 post 함수에 files 속성을 사용합니다.

### 4. 캡챠(이미지) API 호출하기
* urllib 사용
* 1. 캡차 키 발급 요청
  2. 캡차 이미지 요청
  3. 사용자 입력값 검증 요청

In [28]:
# 캡차 키 발급 요청

In [29]:
# 캡차 이미지 요청

In [30]:
#  사용자 입력값 검증 요청

* requests를 사용하는 코드로 변경하기
* [requests docs](https://requests.readthedocs.io/en/latest/user/quickstart/)

In [31]:
# 사용자 입력값 검증 요청

### 5. 블로그 검색하기

In [32]:
import requests
import pprint

headers = {
    "X-Naver-Client-Id": "",
    "X-Naver-Client-Secret": "",
}

payload = {"query": "파이썬", "display": 100, "sort": "sim"}

url = "https://openapi.naver.com/v1/search/blog.json"


# requests get(url, params, headers) 요청

# json() 함수로 응답 결과 가져오오기
# 'title' , 'bloggername' , 'description' , 'bloggerlink' , 'link'

# 'data/nhnblog.txt' 파일 생성하기