# 1. requests 모듈
* HTTP프로토콜을 사용할 수 있게 해주는 모듈
* 파이썬 기본 모듈인 urllib보다 사용이 편리
* 따로 설치 필요 pip install requests/conda install requests

# 2. requests 모듈 사용법
* 1) 모듈 불러오기: import requests
* 2) url을 변수에 저장
* 3) url파라미터를 payload 라는 변수에 딕셔너리 형태로 저장
  * payload = {파라미터1: value, 파라미터2: value2}
* 4) headers도 headers라는 변수에 딕셔너리 형태로 저장
  * headers = {파라미터1: value, 파라미터2: value2}
 * 5) HTTP요청 보내기 get, post
   * get: r = requests.get(url, params=payload, headers=headers)
   * post: r = requests.post(url, data={key:value})
* 6) 만들어진 url 확인: print(r.url)
* 7) 응답코드확인: print(r.status_code)
* 8) 응답 요소 출력: r.text, r.content, r.json()

In [1]:
import requests
url = " "
payload = dict()
r = requests.get(url, params=payload)
print(r.url)
print(r.status_code)
response = r.text, r.content, r.json()

MissingSchema: Invalid URL '': No scheme supplied. Perhaps you meant https://?

In [2]:
# !conda install requests
# 터미널 가서 해도 됨

In [3]:
import requests
url = "https://openapi.naver.com/v1/search/blog"
keyword ="핀테크"
payload = dict(query=keyword, display=100, start=1, sort="date")
headers = {"X-Naver-Client-Id" : "id", "X-Naver-Client-Secret" : "pw"} #등호 콜론(:)으로 바꾸는 거 중요
r = requests.get(url, params=payload, headers=headers)
print(r.url)
print(r.status_code)
response = r.json()
response

https://openapi.naver.com/v1/search/blog?query=%ED%95%80%ED%85%8C%ED%81%AC&display=100&start=1&sort=date
401


{'errorMessage': 'NID AUTH Result Invalid (1000) : Authentication failed. (인증에 실패했습니다.)',
 'errorCode': '024'}

In [4]:
dict(query="keyword", display=100, start=1, sort="date")

{'query': 'keyword', 'display': 100, 'start': 1, 'sort': 'date'}

In [5]:
print(type(response))

<class 'dict'>


In [6]:
response['items']

KeyError: 'items'

In [None]:
#import pandas as pd

In [None]:
#pd.DataFrame(response['items'])

In [7]:
import re
def text_clean(text):
    # HTML 태그를 없애는 정규표현식
    result = re.sub(r"</?[^>]+>", "", text)
    # 한글, 영문, 숫자 외의 모든 문자 제거 후 공백으로 변환
    result = re.sub(r"[^가-힣a-zA-Z0-9]", " ", result)
    result = result.replace("  ", " ").replace("  ", " ").replace("  ", " ")
    return result

In [8]:
result={}
for item in response['items']:
    for key,value in item.items():
        if key in ["title", "description"]:
            result.setdefault(key,[]).append(text_clean(value))
        else:
            result.setdefault(key,[]).append(value)
result

KeyError: 'items'

In [9]:
df = pd.DataFrame(result)
df.to_csv("./data/requests로naver_api데이터수집.csv", index=False, encoding="utf-8-sig")

NameError: name 'pd' is not defined

# python-dotenv로 api key 안전하게 사용하기
* .env 파일에 환경변수를 저장하고 python 코드에서 자동으로 불러오는 모듈
* pip install python-dotenv
* .env 파일을 만들어서 변수=값 형태로 내용 저장
``` python
from dotenv import load_dotenv
import os

load_dotenv() # 같은 폴더에 .env 파일이 있을 경우 자동으로 불러옴
# 환경변수 내용 출력
user_id = os.getenv("Id")
user_secret= os.getenv("Secret")
```

# .env 경로를 다른 곳으로 주거나 이름을 바꾸고 싶을 때
* load_dotenv("경로 및 파일명")
``` python
from dotenv import load_dotenv
import os

load_dotenv(dotenv_path="./data/.env_naver") # ./data 폴더에 .env_naver를 불러올 때
# 환경변수 내용 출력
user_id = os.getenv("Id")
user_secret= os.getenv("Secret")
```

In [10]:
from dotenv import load_dotenv
import os
load_dotenv()
import requests

user_id = os.getenv("Id")
user_secret= os.getenv("Secret")

url = "https://openapi.naver.com/v1/search/blog"
keyword ="핀테크"
payload = dict(query=keyword, display=100, start=1, sort="date")
headers = {"X-Naver-Client-Id" : user_id, "X-Naver-Client-Secret" : user_secret} #등호 콜론(:)으로 바꾸는 거 중요
r = requests.get(url, params=payload, headers=headers)
print(r.url)
print(r.status_code)
response = r.json()
response

https://openapi.naver.com/v1/search/blog?query=%ED%95%80%ED%85%8C%ED%81%AC&display=100&start=1&sort=date
401


{'errorMessage': 'Not Exist Client ID : Authentication failed. (인증에 실패했습니다.)',
 'errorCode': '024'}

# .env 파일명 바꾸고 싶을 때

In [2]:
from dotenv import load_dotenv
import os
load_dotenv(dotenv_path="./data/.env")
import requests

user_id = os.getenv("Id")
user_secret= os.getenv("Secret")

url = "https://openapi.naver.com/v1/search/blog"
keyword ="핀테크"
payload = dict(query=keyword, display=100, start=1, sort="date")
headers = {"X-Naver-Client-Id" : user_id, "X-Naver-Client-Secret" : user_secret} #등호 콜론(:)으로 바꾸는 거 중요
r = requests.get(url, params=payload, headers=headers)
print(r.url)
print(r.status_code)
response = r.json()
response

https://openapi.naver.com/v1/search/blog?query=%ED%95%80%ED%85%8C%ED%81%AC&display=100&start=1&sort=date
200


{'lastBuildDate': 'Wed, 15 Oct 2025 14:00:33 +0900',
 'total': 476885,
 'start': 1,
 'display': 100,
 'items': [{'title': '10/15 암호화폐(크립토): ‘USDC 축’ 모멘텀, 유럽은 MiCA... ',
   'link': 'https://blog.naver.com/rockj3/224042009779',
   'description': '은행·<b>핀테크</b>·거대 상거래와의 파트너링이 수요의 내구성을 결정한다는 점에서, 기관 리서치의 포커스는 타당해 보입니다. 둘째, 감독 일관성은 유럽에서 특히 중요합니다. 국가별 감독 편차를 줄이는... ',
   'bloggername': '부(富)의 길',
   'bloggerlink': 'blog.naver.com/rockj3',
   'postdate': '20251015'},
  {'title': '농협 햇살론뱅크 조건과 신청방법 후기 확인하기',
   'link': 'https://sibauchi.tistory.com/1132',
   'description': '그리고 <b>핀테크</b> 기업의 경쟁 심화라는 복합적인 요인으로 인해 끊임없이 변화해왔습니다. 특히, 금리 인상은 대출 문턱을 높여 저신용, 저소득층의 자금 접근성을 악화시키는 주요 원인이 되었습니다. <b>핀테크</b>... ',
   'bloggername': "Falconer's Teatime :: 이제는 말하고 말겠다-라멘토 비평",
   'bloggerlink': 'https://sibauchi.tistory.com/',
   'postdate': '20251015'},
  {'title': '오브웰스 사기 TRENUE 금상장 거래 리딩방의 위험한 유혹 (사칭)',
   'link': 'https://blog.naver.com/crnivorous20772/224041904297',
   'description': '(사칭) #팀미션사기 #주식사

# 네이버 API에서 수집 가능한 최대 자료 모두 수집하기

In [None]:
start_num = 1
for i in range(1, 11):
    if start_num < 901:
        start_num += 100
        print(start_num)
    elif start_num >= 901:
        start_num += 99
        print(start_num)

In [None]:
# while 문을 이용해야 함
page = 1
if response['total'] // 100 > 10:
    page = 10
else:
    page = response['total'] // 100+1

In [None]:
99 // 100 +1

# for문을 이용해 최대한 수집하기
* naver api는 start 파라미터 최대값 1000
* 1페이지당 100개씩 수집시 최대 11페이지까지 수집 가능 

In [None]:
from dotenv import load_dotenv
import os
load_dotenv(dotenv_path="./data/.env_naver")
import requests

num = 1
all_data = []
for page in range(11):
    user_id = os.getenv("user_Id")
    user_secret= os.getenv("user_Secret")
    url = "https://openapi.naver.com/v1/search/blog"
    keyword ="핀테크"
    payload = dict(query=keyword, display=100, start=num, sort="date")
    headers = {"X-Naver-Client-Id" : user_id, "X-Naver-Client-Secret" : user_secret} 
    r = requests.get(url, params=payload, headers=headers)
    print(r.url)
    print(r.status_code)
    response = r.json()
    all_data.append(pd.DataFrame(response['items']))
    
    if num < 901:
        num+= 100
    elif num >= 901:
        num += 99
    print(num)

In [None]:
final_result = pd.concat(all_data)
final_result

# while문을 이용해서 수집 페이지까지 자동화 하기

In [None]:
from dotenv import load_dotenv
import os
load_dotenv(dotenv_path="./data/.env_naver")
import requests

total_page = 1
page = 1
num = 1

all_data = []
while page <= total_page:
    user_id = os.getenv("user_Id")
    user_secret= os.getenv("user_Secret")
    url = "https://openapi.naver.com/v1/search/blog"
    keyword ="핀테크"
    payload = dict(query=keyword, display=100, start=num, sort="date")
    headers = {"X-Naver-Client-Id" : user_id, "X-Naver-Client-Secret" : user_secret} 
    r = requests.get(url, params=payload, headers=headers)
    print(r.url)
    print(r.status_code)
    response = r.json()
    all_data.append(response['items'])

    # 전체 페이지 계산
    if response['total'] // 100 > 11:
        total_page = 11
    else:
        total_page = response['total'] // 100 + 1
        
    # page 증가
    page += 1
    
    # num이 1000되도록
    if num < 901:
        num+= 100
    elif num >= 901:
        num += 99
    

In [None]:
len(all_data)

In [None]:
all_data[2]

In [None]:
import re
def text_clean(text):
    # HTML 태그를 없애는 정규표현식
    result = re.sub(r"</?[^>]+>", "", text)
    # 한글, 영문, 숫자 외의 모든 문자 제거 후 공백으로 변환
    result = re.sub(r"[^가-힣a-zA-Z0-9]", " ", result)
    result = result.replace("  ", " ").replace("  ", " ").replace("  ", " ")
    return result

In [None]:
result = {}
for page in all_data:
    for item in page:
        for key, value in item.items():
            if key in ["title", "description"]:
                result.setdefault(key, []).append(text_clean(value))
            else:
                result.setdefault(key, []).append(value)
final_df = pd.DataFrame(result)
final_df

In [None]:
final_df.to_csv("./data/네이버api수집1100개.csv", index=False, encoding="utf-8-sig")