# 1. request 모듈 설치
* 설명서 링크 [https://requests.readthedocs.io/en/latest/user/quickstart/](https://requests.readthedocs.io/en/latest/user/quickstart/)

In [1]:
# !pip install requests

# 2. requests 사용법
```python
import requests

url = "접속주소url"  # url
payload = dict(key=value)  # parameter
headers = dict(key=value)  # headers
r = requests.get(url, params=payload, headers=headers)  # 서버에 url + parameter로 요청보내기
print(r.url)   # 서버에 요청을 보낸 url 출력
print(r.status_code)  # 서버에서 보내준 응답코드 200 정상, 400, 500은 오류
response = r.text # r.content, r.json()
```
* r.text: utf-8로 인코딩해서 보여줌 한글이 잘 보임
* r.content: 서버가 보내준 그대로의 자료 
* r.json() requests모듈 내부의 json모듈로 text를 json으로 자동 변환

# 3. requests로 네이버  API에서 자료 수집하기

In [2]:
# .env = 코드에 직접 쓰면 안 되는 값들을 저장하는 비밀 메모장 (보안)
# 예: api 키, 토큰, 비밀번호, 서버 주소 등
import os
from dotenv import load_dotenv
load_dotenv()

True

In [3]:
import requests
import pandas as pd
from myfunc import text_clean

In [4]:
# 네이버 검색 API 예제 - 블로그 검색
# import os
# import sys
# import urllib.request
# client_id = os.getenv("Client_Id")
# client_secret = os.getenv("Client_Secret")
# encText = urllib.parse.quote("삼성전자")
# url = "https://openapi.naver.com/v1/search/blog?query=" + encText # JSON 결과
# # url = "https://openapi.naver.com/v1/search/blog.xml?query=" + encText # XML 결과
# request = urllib.request.Request(url)
# request.add_header("X-Naver-Client-Id",client_id)
# request.add_header("X-Naver-Client-Secret",client_secret)
# response = urllib.request.urlopen(request)
# rescode = response.getcode()
# if(rescode==200):
#     response_body = response.read()
#     print(response_body.decode('utf-8'))
# else:
#     print("Error Code:" + rescode)

In [5]:
keyword = "삼성전자"
url = "https://openapi.naver.com/v1/search/blog"
payload = dict(query=keyword, display=100, start=1, sort='sim')
headers = {"X-Naver-Client-Id" : os.getenv("Client_Id"), 
           "X-Naver-Client-Secret" : os.getenv("Client_Secret")}
r = requests.get(url, params=payload, headers=headers)
print(r.url)
print(r.status_code)
data = r.json()
result = {}
for item in data['items']:
    for key, value in item.items():
        if key in ('title', 'description'):
            value = text_clean(value)
        result.setdefault(key, []).append(value)
df = pd.DataFrame(result)
df

https://openapi.naver.com/v1/search/blog?query=%EC%82%BC%EC%84%B1%EC%A0%84%EC%9E%90&display=100&start=1&sort=sim
200


Unnamed: 0,title,link,description,bloggername,bloggerlink,postdate
0,26 CES 1일차 윈호텔 삼성전자 단독 전시 후기,https://blog.naver.com/yellowsoap/224152380712,오늘은 2026 CES 1일차 이야기로 윈호텔 Wynn Hotel 에서 열린 삼성전...,세상의 모든 스토리! 우기도령,blog.naver.com/yellowsoap,20260120
1,외국인들 삼성전자 팔고 셀트리온 산다는데,https://blog.naver.com/yahoyaho08/224145850607,외국인들은 어떤 종목을 매수하고 있고 우리도 삼성전자 팔고 외국인들이 사는 종목을 ...,디노의 경제 재테크이야기,blog.naver.com/yahoyaho08,20260114
2,삼성전자 주가 전망 2026년 사업 계획,https://blog.naver.com/toresi/224157957026,많은 분이 삼성은 무조건 세계 1등 아닌가요 라고 물으세요 하지만 냉정히 말해 AI...,코딩하는 은행원쀼,blog.naver.com/toresi,20260124
3,물린 사람이 없는 삼성전자주가 2026년 전망은,https://blog.naver.com/goodbye202407/224138808514,2025년을 지나오며 삼성전자 주가를 두고 이런 말이 나옵니다 이 주식 물린 사람이...,투자하는 망고주스,blog.naver.com/goodbye202407,20260109
4,홍라희 여사 삼성전자 주식 대량 매도 주가에 악재일까 기회일까,https://blog.naver.com/totoro3123/224151135821,반면 소식을 접하고 의견들을 찾아보니 이번 매각을 삼성전자가 더 높이 날아오르기 위...,너부리의 주식경제노트,blog.naver.com/totoro3123,20260118
...,...,...,...,...,...,...
95,삼성전자 밸류가 낮아서 업사이드도 높다 HBM4 좋은 평가,https://blog.naver.com/pokara61/224119442972,삼성전자가 내년에는 HBM4 시장에서 돌파구를 마련할 것인가 삼성전자의 HBM4가 ...,포카라의 실전투자,blog.naver.com/pokara61,20251223
96,삼성전자 4분기 영업이익 20조원 기록,https://blog.naver.com/pokara61/224139368098,삼성전자 4분기 실적이 발표되었다 분기영업이익 20조 달성으로 컨센서스 부합 삼성전...,포카라의 실전투자,blog.naver.com/pokara61,20260108
97,삼성전자 성과급을 보고도 웃을 수 없었다는데,https://blog.naver.com/vipro/224155402410,삼성전자가 2025년 실적을 기반으로 반도체 부문 성과급을 연봉의 47 수준까지 지...,서울 자가에 사는 지델롱의 주담대 갚는 이야기,blog.naver.com/vipro,20260122
98,삼성전자 주가 오르자 삼성전자우 도 10만원 돌파,https://blog.naver.com/tearhunter/224134910389,삼성전자 강세 속 삼선전자우도 꾸준히 상승 삼성전자우 우선주 가 1월 5일 장중 1...,웹진 [Coin Choice],blog.naver.com/tearhunter,20260105


# 4. while 문과 requests를 이용해서 1100개 자료 수집하기 

In [6]:
# 주피터는 셀 단위 실행
import os
import requests
import pandas as pd
from myfunc import text_clean
from dotenv import load_dotenv
load_dotenv()

True

In [7]:
start_num = 1
while True:
    
    
    if start_num == 1001:
        start_num -= 1
    if start_num > 1000:
        break
        
    print(start_num)
    
    start_num += 100

1
101
201
301
401
501
601
701
801
901
1000


In [8]:
# 페이지네이션 + api 호출 + dataframe 만들기

result = {}
start_num = 1
while True:
        
    if start_num == 1001:
        start_num -= 1
    elif start_num > 1000:
        break
        
    print("start_num: ", start_num)  
    
    keyword = "삼성전자"
    url = "https://openapi.naver.com/v1/search/blog"
    payload = dict(query=keyword, display=100, start=start_num, sort='sim')
    headers = {"X-Naver-Client-Id" : os.getenv("Client_Id"), 
               "X-Naver-Client-Secret" : os.getenv("Client_Secret")}
    r = requests.get(url, params=payload, headers=headers)
#     print(r.url)
#     print(r.status_code)
    data = r.json()
    
    for item in data['items']:
        for key, value in item.items():
            if key in ('title', 'description'):
                value = text_clean(value)
            result.setdefault(key, []).append(value)
            
    start_num += 100
            
df = pd.DataFrame(result)
df

start_num:  1
start_num:  101
start_num:  201
start_num:  301
start_num:  401
start_num:  501
start_num:  601
start_num:  701
start_num:  801
start_num:  901
start_num:  1000


Unnamed: 0,title,link,description,bloggername,bloggerlink,postdate
0,26 CES 1일차 윈호텔 삼성전자 단독 전시 후기,https://blog.naver.com/yellowsoap/224152380712,오늘은 2026 CES 1일차 이야기로 윈호텔 Wynn Hotel 에서 열린 삼성전...,세상의 모든 스토리! 우기도령,blog.naver.com/yellowsoap,20260120
1,외국인들 삼성전자 팔고 셀트리온 산다는데,https://blog.naver.com/yahoyaho08/224145850607,외국인들은 어떤 종목을 매수하고 있고 우리도 삼성전자 팔고 외국인들이 사는 종목을 ...,디노의 경제 재테크이야기,blog.naver.com/yahoyaho08,20260114
2,삼성전자 주가 전망 2026년 사업 계획,https://blog.naver.com/toresi/224157957026,많은 분이 삼성은 무조건 세계 1등 아닌가요 라고 물으세요 하지만 냉정히 말해 AI...,코딩하는 은행원쀼,blog.naver.com/toresi,20260124
3,물린 사람이 없는 삼성전자주가 2026년 전망은,https://blog.naver.com/goodbye202407/224138808514,2025년을 지나오며 삼성전자 주가를 두고 이런 말이 나옵니다 이 주식 물린 사람이...,투자하는 망고주스,blog.naver.com/goodbye202407,20260109
4,홍라희 여사 삼성전자 주식 대량 매도 주가에 악재일까 기회일까,https://blog.naver.com/totoro3123/224151135821,반면 소식을 접하고 의견들을 찾아보니 이번 매각을 삼성전자가 더 높이 날아오르기 위...,너부리의 주식경제노트,blog.naver.com/totoro3123,20260118
...,...,...,...,...,...,...
1095,14만 전자 돌파한 삼성전자 괜히 팔았나 언제까지 오를까,https://blog.naver.com/babu200215/224143285211,삼성전자가 결국 14만 전자를 돌파했다 주가를 보고 있자니 솔직히 괜히 팔았나 싶은...,또치니 실전투자,blog.naver.com/babu200215,20260112
1096,삼성전자 비스포크 냉장고 920L RM70F90M1GD 으뜸효율가전,https://blog.naver.com/dhsmfrkxdl3795/22412218...,삼성전자 비스포크 냉장고 920L RM70F90M1GD 으뜸효율가전 냉장고는 집에서...,츄킴의 트래블메이커,blog.naver.com/dhsmfrkxdl3795,20251225
1097,삼성전자 11만전자 전망 현실이 될까,https://blog.naver.com/gracemom9/224034782991,지난해까지만 해도 5만전자 라 불리며 투자자들의 한숨을 자아냈던 삼성전자가 이제는 ...,그레이스맘의 세상공부,blog.naver.com/gracemom9,20251008
1098,삼성전자 베트남 생산 라인 재편의 실체와 2026년 글로벌,https://blog.naver.com/pkhbd/224158640024,삼성전자 베트남 생산 라인 재편의 실체와 2026년 글로벌 전략의 향방 분석 베트남...,세종한국부동산,blog.naver.com/pkhbd,20260125


# keyword를 입력받아서 blog, news, book 카테고리에서 데이터 수집 후 결과를 각각 csv 파일로 저장하기

In [9]:
import os
import time
import requests
import pandas as pd
from myfunc import text_clean
from dotenv import load_dotenv
load_dotenv()

True

In [10]:
keyword = input("검색할 키워드를 입력하세요: ")

for category in ['blog', 'news', 'book']:
    result = {}
    start_num = 1
    while True:

        if start_num == 1001:
            start_num -= 1
        elif start_num > 1000:
            break

        print(category, "start_num: ", start_num)    
        url = f"https://openapi.naver.com/v1/search/{category}"
        payload = dict(query=keyword, display=100, start=start_num, sort='sim')
        headers = {"X-Naver-Client-Id" : os.getenv("Client_Id"), 
                   "X-Naver-Client-Secret" : os.getenv("Client_Secret")}
        r = requests.get(url, params=payload, headers=headers)
    #     print(r.url)
    #     print(r.status_code)
        data = r.json()

        for item in data['items']:
            for key, value in item.items():
                if key in ('title', 'description'):
                    value = text_clean(value)
                result.setdefault(key, []).append(value)

        start_num += 100
            
    df = pd.DataFrame(result)
    df
    
    dir_name = "data"
    if not os.path.exists(dir_name):
        os.mkdir(dir_name)
        print(f"{dir_name}을 생성했습니다.")
    else:
        print(f"{dir_name}이 이미 있습니다.")
    df.to_csv(f"./data/{keyword}_{category}_result.csv")
    
    time.sleep(0.5)

검색할 키워드를 입력하세요: 삼성전자
blog start_num:  1
blog start_num:  101
blog start_num:  201
blog start_num:  301
blog start_num:  401
blog start_num:  501
blog start_num:  601
blog start_num:  701
blog start_num:  801
blog start_num:  901
blog start_num:  1000
data이 이미 있습니다.
news start_num:  1
news start_num:  101
news start_num:  201
news start_num:  301
news start_num:  401
news start_num:  501
news start_num:  601
news start_num:  701
news start_num:  801
news start_num:  901
news start_num:  1000
data이 이미 있습니다.
book start_num:  1
book start_num:  101
book start_num:  201
book start_num:  301
book start_num:  401
book start_num:  501
book start_num:  601
book start_num:  701
book start_num:  801
book start_num:  901
book start_num:  1000
data이 이미 있습니다.


In [11]:
data

{'lastBuildDate': 'Mon, 26 Jan 2026 01:43:39 +0900',
 'total': 89,
 'start': 1000,
 'display': 0,
 'items': []}

# naver_api 수집 코드 함수화하기
* naver_search 함수를 만들고 함수값으로 검색할 키워드를 입력하면
* naver_api에서 키워드와 관련된 news, blog, book 자료를 1100개씩 검색하고
* keyword_news_result.csv, keyword_blog_result.csv, keyword_book_result.csv 형태로 저장되도록 하세요.

In [12]:
import os
import time
import requests
import pandas as pd
from myfunc import text_clean
from dotenv import load_dotenv
load_dotenv()

True

In [13]:
def naver_search(keyword):
    
    for category in ['blog', 'news', 'book']:
        result = {}
        start_num = 1
        while True:

            if start_num == 1001:
                start_num -= 1
            elif start_num > 1000:
                break

            print(category, "start_num: ", start_num)    
            url = f"https://openapi.naver.com/v1/search/{category}"
            payload = dict(query=keyword, display=100, start=start_num, sort='sim')
            headers = {"X-Naver-Client-Id" : os.getenv("Client_Id"), 
                       "X-Naver-Client-Secret" : os.getenv("Client_Secret")}
            r = requests.get(url, params=payload, headers=headers)
        #     print(r.url)
        #     print(r.status_code)
            data = r.json()

            for item in data['items']:
                for key, value in item.items():
                    if key in ('title', 'description'):
                        value = text_clean(value)
                    result.setdefault(key, []).append(value)

            start_num += 100

        df = pd.DataFrame(result)

        dir_name = "data"
        if not os.path.exists(dir_name):
            os.mkdir(dir_name)
            print(f"{dir_name}을 생성했습니다.")
        else:
            print(f"{dir_name}이 이미 있습니다.")
        df.to_csv(f"./data/{keyword}_{category}_result_fuction.csv", encoding="utf-8-sig")

        time.sleep(0.5)

In [14]:
naver_search("핀테크")

blog start_num:  1
blog start_num:  101
blog start_num:  201
blog start_num:  301
blog start_num:  401
blog start_num:  501
blog start_num:  601
blog start_num:  701
blog start_num:  801
blog start_num:  901
blog start_num:  1000
data이 이미 있습니다.
news start_num:  1
news start_num:  101
news start_num:  201
news start_num:  301
news start_num:  401
news start_num:  501
news start_num:  601
news start_num:  701
news start_num:  801
news start_num:  901
news start_num:  1000
data이 이미 있습니다.
book start_num:  1
book start_num:  101
book start_num:  201
book start_num:  301
book start_num:  401
book start_num:  501
book start_num:  601
book start_num:  701
book start_num:  801
book start_num:  901
book start_num:  1000
data이 이미 있습니다.


# 키워드와 카테고리를 입력하는대로 검색하고 출력하게 하기

In [17]:
# *매개변수 = 여러 개의 값을 한 번에 받아서 튜플로 묶어줌
# keyword =  검색 기준의 중심 (1개)
# category = 옵션 목록인거임. 가변 인자. 맨 마지막에 와야함.
# 결국 "삼성전자라는 키워드를 news랑 blog에서 검색해라" 말인 셈
def naver_search(keyword, *categories):
    
    for category in categories:
        result = {}
        start_num = 1
        while True:

            if start_num == 1001:
                start_num -= 1
            elif start_num > 1000:
                break

            print(category, "start_num: ", start_num)    
            url = f"https://openapi.naver.com/v1/search/{category}"
            payload = dict(query=keyword, display=100, start=start_num, sort='sim')
            headers = {"X-Naver-Client-Id" : os.getenv("Client_Id"), 
                       "X-Naver-Client-Secret" : os.getenv("Client_Secret")}
            r = requests.get(url, params=payload, headers=headers)
        #     print(r.url)
        #     print(r.status_code)
            data = r.json()

            for item in data['items']:
                for key, value in item.items():
                    if key in ('title', 'description'):
                        value = text_clean(value)
                    result.setdefault(key, []).append(value)

            start_num += 100

        df = pd.DataFrame(result)

        dir_name = "data"
        if not os.path.exists(dir_name):
            os.mkdir(dir_name)
            print(f"{dir_name}을 생성했습니다.")
        else:
            print(f"{dir_name}이 이미 있습니다.")
        df.to_csv(f"./data/{keyword}_{category}_result_fuction.csv", encoding="utf-8-sig")

        time.sleep(0.5)

In [18]:
naver_search("골든홈", "news", "blog")

news start_num:  1
news start_num:  101
news start_num:  201
news start_num:  301
news start_num:  401
news start_num:  501
news start_num:  601
news start_num:  701
news start_num:  801
news start_num:  901
news start_num:  1000
data이 이미 있습니다.
blog start_num:  1
blog start_num:  101
blog start_num:  201
blog start_num:  301
blog start_num:  401
blog start_num:  501
blog start_num:  601
blog start_num:  701
blog start_num:  801
blog start_num:  901
blog start_num:  1000
data이 이미 있습니다.
