# 1. request 모듈 설치
* 설명서 링크 [https://requests.readthedocs.io/en/latest/user/quickstart/](https://requests.readthedocs.io/en/latest/user/quickstart/)

In [2]:
# !pip install requests

# 2. requests 사용법
```python
import requests

url = "접속주소url"  # url
payload = dict(key=value)  # parameter
headers = dict(key=value)  # headers
r = requests.get(url, params=payload, headers=headers)  # 서버에 url + parameter로 요청보내기
print(r.url)   # 서버에 요청을 보낸 url 출력
print(r.status_code)  # 서버에서 보내준 응답코드 200 정상, 400, 500은 오류
response = r.text # r.content, r.json()
```
* r.text: utf-8로 인코딩해서 보여줌 한글이 잘 보임
* r.content: 서버가 보내준 그대로의 자료 
* r.json() requests모듈 내부의 json모듈로 text를 json으로 자동 변환

# 3. requests로 네이버  API에서 자료 수집하기

In [3]:
import os
from dotenv import load_dotenv
load_dotenv()

True

In [18]:
import requests
import pandas as pd
from myfunc import text_clean

In [None]:
# 네이버 검색 API 예제 - 블로그 검색
# import os
# import sys
# import urllib.request
# client_id = os.getenv("Client_Id")
# client_secret = os.getenv("Client_Secret")
# encText = urllib.parse.quote("삼성전자")
# url = "https://openapi.naver.com/v1/search/blog?query=" + encText # JSON 결과
# # url = "https://openapi.naver.com/v1/search/blog.xml?query=" + encText # XML 결과
# request = urllib.request.Request(url)
# request.add_header("X-Naver-Client-Id",client_id)
# request.add_header("X-Naver-Client-Secret",client_secret)
# response = urllib.request.urlopen(request)
# rescode = response.getcode()
# if(rescode==200):
#     response_body = response.read()
#     print(response_body.decode('utf-8'))
# else:
#     print("Error Code:" + rescode)

In [7]:
keyword = "삼성전자"
url = "https://openapi.naver.com/v1/search/blog"
payload = dict(query=keyword, display=100, start=1, sort='sim')
headers = {"X-Naver-Client-Id" : os.getenv("Client_Id"), 
           "X-Naver-Client-Secret" : os.getenv("Client_Secret")}
r = requests.get(url, params=payload, headers=headers)
print(r.url)
print(r.status_code)
data = r.json()
result = {}
for item in data['items']:
    for key, value in item.items():
        if key in ('title', 'description'):
            value = text_clean(value)
        result.setdefault(key, []).append(value)
df = pd.DataFrame(result)
df

https://openapi.naver.com/v1/search/blog?query=%EC%82%BC%EC%84%B1%EC%A0%84%EC%9E%90&display=100&start=1&sort=sim
200


{'lastBuildDate': 'Tue, 20 Jan 2026 15:28:47 +0900',
 'total': 4150504,
 'start': 1,
 'display': 100,
 'items': [{'title': "['26 CES 1일차] 윈호텔 <b>삼성전자</b> 단독 전시 후기",
   'link': 'https://blog.naver.com/yellowsoap/224152380712',
   'description': '오늘은 2026 CES 1일차 이야기로 윈호텔(Wynn Hotel)에서 열린 <b>삼성전자</b> 전시회 관람을 이야기 해볼까... 입구장 앞에 많은 사람들이 있어 삼성의 인기를 실감할 수 있었습니다. 한쪽에 AI 프로모터가 있었는데... ',
   'bloggername': '세상의 모든 스토리! 우기도령',
   'bloggerlink': 'blog.naver.com/yellowsoap',
   'postdate': '20260120'},
  {'title': '외국인들 <b>삼성전자</b> 팔고 셀트리온 산다는데',
   'link': 'https://blog.naver.com/yahoyaho08/224145850607',
   'description': '외국인들은 어떤 종목을 매수하고 있고 우리도 <b>삼성전자</b> 팔고 외국인들이 사는 종목을 따라가야할지..?... 대표적으로는 한화에어로스페이스 한화오션, 두산에너빌리티, 삼성중공업등이 투자자들의 기대감을... ',
   'bloggername': '디노의 경제 재테크이야기',
   'bloggerlink': 'blog.naver.com/yahoyaho08',
   'postdate': '20260114'},
  {'title': '홍라희 여사 <b>삼성전자</b> 주식 대량 매도, 주가에 악재일까 기회일까?',
   'link': 'https://blog.naver.com/totoro3123/224151135821',
   'description': "반면, 소식을 

# 4. while 문과 requests를 이용해서 1100개 자료 수집하기 

In [20]:
import os
import requests
import pandas as pd
from myfunc import text_clean
from dotenv import load_dotenv
load_dotenv()

True

In [30]:
start_num = 1
while True:
    
    
    if start_num == 1001:
        start_num -= 1
    if start_num > 1000:
        break
        
    print(start_num)
    
    start_num += 100

1
101
201
301
401
501
601
701
801
901
1000


In [33]:
result = {}
start_num = 1
while True:
        
    if start_num == 1001:
        start_num -= 1
    elif start_num > 1000:
        break
        
    print("start_num: ", start_num)    
    keyword = "삼성전자"
    url = "https://openapi.naver.com/v1/search/blog"
    payload = dict(query=keyword, display=100, start=start_num, sort='sim')
    headers = {"X-Naver-Client-Id" : os.getenv("Client_Id"), 
               "X-Naver-Client-Secret" : os.getenv("Client_Secret")}
    r = requests.get(url, params=payload, headers=headers)
#     print(r.url)
#     print(r.status_code)
    data = r.json()
    
    for item in data['items']:
        for key, value in item.items():
            if key in ('title', 'description'):
                value = text_clean(value)
            result.setdefault(key, []).append(value)
            
    start_num += 100
            
df = pd.DataFrame(result)
df

start_num:  1
start_num:  101
start_num:  201
start_num:  301
start_num:  401
start_num:  501
start_num:  601
start_num:  701
start_num:  801
start_num:  901
start_num:  1000


Unnamed: 0,title,link,description,bloggername,bloggerlink,postdate
0,CES 일차 윈호텔 삼성전자 단독 전시 후기,https://blog.naver.com/yellowsoap/224152380712,오늘은 0 CES 일차 이야기로 윈호텔 Wynn Hotel 에서 열린 삼성전자 전시...,세상의 모든 스토리! 우기도령,blog.naver.com/yellowsoap,20260120
1,외국인들 삼성전자 팔고 셀트리온 산다는데,https://blog.naver.com/yahoyaho08/224145850607,외국인들은 어떤 종목을 매수하고 있고 우리도 삼성전자 팔고 외국인들이 사는 종목을 ...,디노의 경제 재테크이야기,blog.naver.com/yahoyaho08,20260114
2,홍라희 여사 삼성전자 주식 대량 매도 주가에 악재일까 기회일까,https://blog.naver.com/totoro3123/224151135821,반면 소식을 접하고 의견들을 찾아보니 이번 매각을 삼성전자가 더 높이 날아오르기 위...,너부리의 주식경제노트,blog.naver.com/totoro3123,20260118
3,물린 사람이 없는 삼성전자주가 0 년 전망은,https://blog.naver.com/goodbye202407/224138808514,0 년을 지나오며 삼성전자 주가를 두고 이런 말이 나옵니다 이 주식 물린 사람이 거...,여행가는 망고주스,blog.naver.com/goodbye202407,20260109
4,삼성전자 주식 조원 규모 매도하는 이유는 상속세 및 대출금,https://blog.naver.com/lmj400/224151180213,여러분은 이번 삼성가의 결정을 보며 어떤 생각이 드셨나요 상속세 제도에 대한 견해나...,웰커넥티드,blog.naver.com/lmj400,20260118
...,...,...,...,...,...,...
1095,삼성전자 현대차 배당금 000만원 넣으면 더 많이 찍히는 곳은,https://blog.naver.com/cs1487/224136157178,그래서 통장에는 얼마가 찍히는데 오늘은 국내주식 대표 종목들인 삼성전자와 현대차 중...,오쿤의 투자노트,blog.naver.com/cs1487,20260106
1096,삼성전자 분기 영업이익 조 서프라이즈,https://blog.naver.com/jyhigher911/224040478941,최근 증권사에서 삼성전자 분기 영업이익 수치를 quot 올려잡으면서 quot 0조를...,하커의 자유생각,blog.naver.com/jyhigher911,20251014
1097,삼성전자우 만원 vs 0만원 매수 수익률 차이 직접 확인해,https://blog.naver.com/leeami1983/224148899500,지금 삼성전자를 사야해 말아야해 이런 고민된다면 그 고민 대신 해결해드립니다 외국인...,삶을 살아가기,blog.naver.com/leeami1983,20260116
1098,코스피 00대 돌파 삼성전자는 만원 찍고 신고가 경신,https://blog.naver.com/cleo1112/224149067100,정말 진정한 quot 만 전자 quot 달성을 앞두고 있는 울 삼성전자 메모리 슈퍼...,cleo1112의 주린이 탈출기와 엔터 이야기,blog.naver.com/cleo1112,20260116


# keyword를 입력받아서 blog, news, book 카테고리에서 데이터 수집 후 결과를 각각 csv 파일로 저장하기

In [42]:
import os
import time
import requests
import pandas as pd
from myfunc import text_clean
from dotenv import load_dotenv
load_dotenv()

True

In [44]:
keyword = input("검색할 키워드를 입력하세요: ")

for category in ['blog', 'news', 'book']:
    result = {}
    start_num = 1
    while True:

        if start_num == 1001:
            start_num -= 1
        elif start_num > 1000:
            break

        print(category, "start_num: ", start_num)    
        url = f"https://openapi.naver.com/v1/search/{category}"
        payload = dict(query=keyword, display=100, start=start_num, sort='sim')
        headers = {"X-Naver-Client-Id" : os.getenv("Client_Id"), 
                   "X-Naver-Client-Secret" : os.getenv("Client_Secret")}
        r = requests.get(url, params=payload, headers=headers)
    #     print(r.url)
    #     print(r.status_code)
        data = r.json()

        for item in data['items']:
            for key, value in item.items():
                if key in ('title', 'description'):
                    value = text_clean(value)
                result.setdefault(key, []).append(value)

        start_num += 100
            
    df = pd.DataFrame(result)
    
    dir_name = "data"
    if not os.path.exists(dir_name):
        os.mkdir(dir_name)
        print(f"{dir_name}을 생성했습니다.")
    else:
        print(f"{dir_name}이 이미 있습니다.")
    df.to_csv(f"./data/{keyword}_{category}_result.csv")
    
    time.sleep(0.5)

검색할 키워드를 입력하세요: 핀테크
blog start_num:  1
blog start_num:  101
blog start_num:  201
blog start_num:  301
blog start_num:  401
blog start_num:  501
blog start_num:  601
blog start_num:  701
blog start_num:  801
blog start_num:  901
blog start_num:  1000
data을 생성했습니다.
news start_num:  1
news start_num:  101
news start_num:  201
news start_num:  301
news start_num:  401
news start_num:  501
news start_num:  601
news start_num:  701
news start_num:  801
news start_num:  901
news start_num:  1000
data이 이미 있습니다.
book start_num:  1
book start_num:  101
book start_num:  201
book start_num:  301
book start_num:  401
book start_num:  501
book start_num:  601
book start_num:  701
book start_num:  801
book start_num:  901
book start_num:  1000
data이 이미 있습니다.


In [41]:
data

{'errorMessage': 'Rate limit exceeded. (속도 제한을 초과했습니다.)', 'errorCode': '012'}

# naver_api 수집 코드 함수화하기
* naver_search 함수를 만들고 함수값으로 검색할 키워드를 입력하면
* naver_api에서 키워드와 관련된 news, blog, book 자료를 1100개씩 검색하고
* keyword_news_result.csv, keyword_blog_result.csv, keyword_book_result.csv 형태로 저장되도록 하세요.

In [42]:
import os
import time
import requests
import pandas as pd
from myfunc import text_clean
from dotenv import load_dotenv
load_dotenv()

True

In [45]:
def naver_search(keyword):
    
    for category in ['blog', 'news', 'book']:
        result = {}
        start_num = 1
        while True:

            if start_num == 1001:
                start_num -= 1
            elif start_num > 1000:
                break

            print(category, "start_num: ", start_num)    
            url = f"https://openapi.naver.com/v1/search/{category}"
            payload = dict(query=keyword, display=100, start=start_num, sort='sim')
            headers = {"X-Naver-Client-Id" : os.getenv("Client_Id"), 
                       "X-Naver-Client-Secret" : os.getenv("Client_Secret")}
            r = requests.get(url, params=payload, headers=headers)
        #     print(r.url)
        #     print(r.status_code)
            data = r.json()

            for item in data['items']:
                for key, value in item.items():
                    if key in ('title', 'description'):
                        value = text_clean(value)
                    result.setdefault(key, []).append(value)

            start_num += 100

        df = pd.DataFrame(result)

        dir_name = "data"
        if not os.path.exists(dir_name):
            os.mkdir(dir_name)
            print(f"{dir_name}을 생성했습니다.")
        else:
            print(f"{dir_name}이 이미 있습니다.")
        df.to_csv(f"./data/{keyword}_{category}_result_fuction.csv", encoding="utf-8-sig")

        time.sleep(0.5)

In [46]:
naver_search("핀테크", "news", "book")

blog start_num:  1
blog start_num:  101
blog start_num:  201
blog start_num:  301
blog start_num:  401
blog start_num:  501
blog start_num:  601
blog start_num:  701
blog start_num:  801
blog start_num:  901
blog start_num:  1000
data이 이미 있습니다.
news start_num:  1
news start_num:  101
news start_num:  201
news start_num:  301
news start_num:  401
news start_num:  501
news start_num:  601
news start_num:  701
news start_num:  801
news start_num:  901
news start_num:  1000
data이 이미 있습니다.
book start_num:  1
book start_num:  101
book start_num:  201
book start_num:  301
book start_num:  401
book start_num:  501
book start_num:  601
book start_num:  701
book start_num:  801
book start_num:  901
book start_num:  1000
data이 이미 있습니다.


# 키워드와 카테고리를 입력하는대로 검색하고 출력하게 하기

In [47]:
def naver_search(keyword, *categories):
    
    for category in categories:
        result = {}
        start_num = 1
        while True:

            if start_num == 1001:
                start_num -= 1
            elif start_num > 1000:
                break

            print(category, "start_num: ", start_num)    
            url = f"https://openapi.naver.com/v1/search/{category}"
            payload = dict(query=keyword, display=100, start=start_num, sort='sim')
            headers = {"X-Naver-Client-Id" : os.getenv("Client_Id"), 
                       "X-Naver-Client-Secret" : os.getenv("Client_Secret")}
            r = requests.get(url, params=payload, headers=headers)
        #     print(r.url)
        #     print(r.status_code)
            data = r.json()

            for item in data['items']:
                for key, value in item.items():
                    if key in ('title', 'description'):
                        value = text_clean(value)
                    result.setdefault(key, []).append(value)

            start_num += 100

        df = pd.DataFrame(result)

        dir_name = "data"
        if not os.path.exists(dir_name):
            os.mkdir(dir_name)
            print(f"{dir_name}을 생성했습니다.")
        else:
            print(f"{dir_name}이 이미 있습니다.")
        df.to_csv(f"./data/{keyword}_{category}_result_fuction.csv", encoding="utf-8-sig")

        time.sleep(0.5)

In [48]:
naver_search("삼성전자", "news", "blog")

news start_num:  1
news start_num:  101
news start_num:  201
news start_num:  301
news start_num:  401
news start_num:  501
news start_num:  601
news start_num:  701
news start_num:  801
news start_num:  901
news start_num:  1000
data이 이미 있습니다.
blog start_num:  1
blog start_num:  101
blog start_num:  201
blog start_num:  301
blog start_num:  401
blog start_num:  501
blog start_num:  601
blog start_num:  701
blog start_num:  801
blog start_num:  901
blog start_num:  1000
data이 이미 있습니다.
