# requests 모듈을 이용한 웹 요청
- [Requests 홈페이지](https://requests.kennethreitz.org/en/master/)
- **HTTP 요청과 응답을 처리하는 파이썬 패키지**
- get/post 요청 방식을 모두 지원하며 요청시 설정해야 하는 헤더정보, 쿠키정보 설정등 HTTP요청을 위한 모든 기능을 지원한다.
- 설치
    - `pip install requests`
    - `conda install -c conda-forge requests`

> HTTP 요청 방식(HTTP Method)
> – HTTP 프로토콜은 클라이언트가 서버에 요청하는 목적에 따라 다음과 같은 방식을 정의한다.
>     – GET, POST, PUT, PATCH, DELETE, HEADER, OPTIONS, TRACE, CONECT
>         - 전통적인 Web은 GET과 POST 방식 지원하는데 Restful 기반 API에서는 GET, POST, PUT, PATCH, DELETE를 이용한다.
>     - GET: 기본 요청방식으로 서버가 가진 데이터를 요청한다. (RETRIEVE)
>     - POST: 클라이언트의 데이터를 서버에 전송(저장)한다. (CREATE)
>     - PUT: 서버가 가진 데이터를 클라이언트가 전송한 데이터로 변경한다. (UPDATE - 전체 변경)
>     - PATCH: 서버가 가진 데이터의 일부를 클라이언트가 전송한 데이터로 변경한다. (UPDATE - 부분 변경)
>     - DELETE: 서버의 데이터를 삭제한다. (DELETE)

## Crawling을 위한 requests 코딩 패턴
1. requests의 get()/post() 함수를 이용해 url을 넣어 서버 요청한다.
2. 응답받은 내용(일반적으로 HTML 페이지)을 처리.
    - text(HTML)은 BeautifulSoup를 이용해 원하는 내용을 추출한다.
    - binary 파일(text를 제외한 모든 파일-이미지, 동영상등)의 경우 파일출력을 이용해 local에 저장

## 요청 함수
- HTTP 요청 방식에 따라 두개 함수를 사용.
- get(): GET방식 요청
    - GET 방식(기본방식): 목적 - client가 자원을 요청하는 것 목적(달라는 것.)
- post(): POST방식 요청
    - POST 방식: 목적 - client가 자기의 자원을 server로 전송하는 것이 목적.

### requests.get(URL)
- **GET 방식 요청**
- **주요 매개변수**
    - params: 요청파라미터를 dictionary로 전달
    - headers: HTTP 요청 header를 dictionary로 전달
        - 'User-Agent', 'Referer' 등 헤더 설정
        - 크롤링을 하기 위해 필요한 header 정보는 웹브라우저의 개발자 도구를 이용해 확인한다. (Network 탭에서 확인)
    - cookies: 쿠키정보를 전달
- **반환값(Return Value)**
    - [Response](#Response객체): 응답결과

### requests.post(URL)
- **POST 방식 요청**
- **주요 매개변수**
    - datas : 요청파라미터를 dictionary로 전달
    - files : 업로드할 파일을 dictionary로 전달
        - key: 이름, value: 파일과 연결된 InputStream(TextIOWrapper)
    - headers: HTTP 요청 header를 dictionary로 전달
        - 'User-Agent', 'Referer' 등 헤더 설정
    - cookies: 쿠키정보를 전달
- **반환값(Return Value)**
    - [Response](#Response객체): 응답결과

> ### 요청파라미터(Request Parameter)
> - 요청파라미터란
>     - 서버가 일하기 위해 클라이언트로 부터 받아야 하는 값들
>     - `name=value` 형식으로 클라이언트가 전달한다. 여러개일 경우 `&`로 연결해서 전송됨 (ex: page=1&keyword=test)
> - Get 요청시 queryString 으로 전달
>     - querystring: URL 뒤에 붙여서 전송하는 요청파라미터를 말한다.
>     - URL 뒤에 ?를 붙이고 그 뒤에 요청파라미터를 붙여 구성한다. (`?`가 url과 요청파라미터를 구분하는 구분자로 사용된다.)
>     - ex) https://search.naver.com/search.naver?sm=top_hty&fbm=1&ie=utf8&query=python
>     - requests.get() 요청시 요청파라미터 전달하는 두가지 방법
>         1. url 뒤에 querystring으로 붙여서 전송
>         2. dictionary 에 name=value 형태로 만들어 매개변수 params에 전달
>     - Post 요청시 요청정보의 body에 넣어 전달
>         - requests.post() 요청시에는 dictionary로 구성한 뒤 매개변수 datas에 전달한다. 

> ### HTTP 요청 헤더(Request Header)
> HTTP 요청시 웹브라우저가 client의 여러 부가적인 정보들을 Key-Value 쌍 형식으로 전달한다.
> - accept: 클라이언트가 처리가능한 content 타입 (Mime-type 형식으로 전달)
> - accept-language: 클라이언트가 지원하는 언어(ex: ko, en-US)
> - host: 요청한 host 
> - user-agent: 웹브라우저 종류

## Response객체 -  응답데이터
- get()/post() 의 요청에 대한 서버의 응답 결과를 Response 클래스의 객체에 담아 반환한다.
    - Response객체의 속성(attribute)들을 이용해 서버가 응답결과를 조회할 수있다.
- **주요 속성(Attribut)**
    - **url**
        - 응답한 서버의 url
    - **status_code**
        - HTTP 응답 상태코드
    - **headers**
        - 응답 header 정보로 dictionary로 반환한다.
    - **응답 결과 데이터 조회**
        - **text**
            - 응답내용(html을 str로 반환)
        - **content**
            - 응답내용(응답결과가 binary-image, 동영상등-일 경우 사용하며 bytes 타입으로 반환한다.)
        - **json()**
            - 응답 결과가 JSON 인 경우 dictionary로 변환해서 반환한다.

> ### JSON(JavaScript Object Notation)
> key-value 형태 또는 배열 형태의 text이며 이 기종간 데이터 교환에 많이 사용된다. 자바스크립트 언어에서 Object와 array를 생성하는 문법을 이용해 만듬. 
> - [JSON 공식사이트](http://json.org)
>
> ### Python json 모듈
>
> JSON 형식 문자열을 다루는 파이썬 표준 모듈
> - json.loads(json문자열)
>    - JSON 형식 문자열을 dictionary로 변환
> - json.dumps(dictionary)
>    - dictionary를 JSON 형식 문자열로 변환

> ### HTTP 응답 상태코드
> - 서버의 응답 결과를 나타내는 세 자리 숫자 코드이다. 이 코드를 통해 요청이 성공적으로 처리되었는지, 오류가 발생했는지, 아니면 다른 조치가 필요한지 등을 클라이언트에게 알려준다.
> - https://ko.wikipedia.org/wiki/HTTP_상태_코드
>     - 2XX(200번대): 성공
>         - 200: OK
>     - 3XX: 다른 주소로 이동 (이사)
>         - 300번대이면 자동으로 이동해 준다. 크롤링시는 사용할 일이이 별로 없다.
>     - 4XX: 클라이언트 오류 (사용자가 잘못한 것)
>       - 403: 권한 없음. (권한이 없는 사용자가 요청한 경우)
>       - 404: 존재하지 않는 주소
>       - 405: 잘못된 요청방식으로 요청한 경우.(예를들어 POST 요청을 받는 페이지를 GET방식으로 요청 하면 발생.)
>     - 5XX: 서버 오류 (서버에서 문제생긴 것)
>       - 500: 서버가 처리방법을 모르는 오류
>       - 503: 서버가 다운 등의 문제로 서비스 불가 상태

### Get 방식 요청 예제

#### 네이버 검색 결과 가져오기
- naver 검색 요청 url을 이용해 검색을 요청하고 그 결과를 가져온다.

In [3]:
# 웹 사이트에 요청을 보내기 위해 requests 라이브러리를 사용한다. 
import requests

# 네이버 검색 URL
# query={} 부분에 나중에 검색어가 들어갈 예정 (format으로 채워넣을 자)
url = "https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query={}"

# 사용자에게 검색어를 입력받는다. -> keyword
keyword = input("keyword:")
# 그리고 format(keyword)로 url의 {} 자리에 채워 넣는다.
url = url.format(keyword)

# 완성된 url에 get 요청을 보낸다.
# 서버가 응답을 주면 그 응답을 res에 저장한다. 
res = requests.get(url)

# 응답 코드 출력
# 200이면 성공!
print(res.status_code)
if res.status_code == 200:
    print(type(res)) # <class 'requests.models.Response'>
    print(type(res.text), len(res.text)) # 응답 본문 문자열, 그 길
    print(res.text[:200]) # 응답을 앞 200글자만 조회
else:
    print("응답을 받지 못함.", res.status_code)


keyword: 날씨


200
<class 'requests.models.Response'>
<class 'str'> 541706
<!doctype html> <html lang="ko"><head> <meta charset="utf-8"> <meta name="referrer" content="always">  <meta name="format-detection" content="telephone=no,address=no,email=no"> <meta property="og:titl


In [31]:
## BeautifulSoup으로 꺼내는 것도 같이 해보자!

import requests
from bs4 import BeautifulSoup
from datetime import datetime # 날짜와 시간

keyword = input("검색어 입력 (예: 날씨): ")
url = f"https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query={keyword}"

res = requests.get(url)

if res.status_code == 200:
    soup = BeautifulSoup(res.text, "lxml")

    weather_info = soup.find("div", class_="main_pack")



    if weather_info:
        # 날씨 요약과 상태 분리
        cast_txt = weather_info.find("p", class_="summary").get_text() # 전체 요약문
        weather_status = cast_txt.split()[-1] # 상태: 비
        weather_summary = cast_summary = " ".join(cast_txt.split()[:-1]) # 상태 제외한 요약만 따로 저장
        
        # 현재 온도 추출
        temp_box = weather_info.find("div", class_="temperature_text")
        if temp_box:
            current_temp = temp_box.get_text(strip=True).replace("현재 온도", "").replace("°", "")

        # 날짜 및 시간 출력
        now = datetime.now().strftime("%Y년 %m월 %d일 %H:%M:%S")

        # 날씨 상태에 따른 이모지 지정
        emoji_map = {
            "맑음": "☀️",
            "흐림": "☁️",
            "구름": "🌥️",
            "비": "🌧️",
            "눈": "❄️",
            "소나기": "🌦️",
            "안개": "🌫️"
        }
        emoji = emoji_map.get(weather_status, "🌈")  # 기본 이모지는 무지개

        # 날씨 상태에 따른 추가 문구 지정
        add_str_map = {
            "맑음": "햇빛이 쨍쨍! 기분이 좋아요",
            "흐림": "날이 흐려요. 혹시 모르니 작은 우산을 챙겨보아요!",
            "구름": "구름이 있어요. 강아지 모양 구름을 찾아보세요! 🐶",
            "비": "비도.. 오고.. 그래서.. 네 생각이 났어.. 🎵☂️",
            "눈": "눈이 와요! 오늘은 밖으로 뛰어나가 눈사람을 만들어요 ☃️",
            "소나기": "소나기가 와요. 우산 필수!!",
            "안개": "안개가 끼네요. 운전 조심하세요!"
        }

        add_str = add_str_map.get(weather_status, "오늘도 힘찬 하루! ⭐")

        # 출력
        print(f"\n📆현재 시각: {now}")
        print(f"☑️ 날씨 요약: {weather_summary}")
        print(f"{emoji} 현재 날씨: {weather_status} ({add_str})")
        print(f"🌡️ 현재 온도: {current_temp}°C")
    else:
        print("날씨 정보가 없어요 😥")
else:
    print("응답 실패", res.status_code)


검색어 입력 (예: 날씨):  부산 날씨



📆현재 시각: 2025년 04월 05일 19:26:13
☑️ 날씨 요약: 어제보다 0.4° 높아요
☀️ 현재 날씨: 맑음 (햇빛이 쨍쨍! 기분이 좋아요)
🌡️ 현재 온도: 11.8°C


#### httpbin 에 get 방식 요청
- httpbin.org 는 HTTP 요청과 응답을 테스트하고 시뮬레이션하기 위한 웹 서비스 사이트이다.

##### 🥰 자세히 파헤쳐보자.
- 이 코드는 **웹 서버에 요청을 보내고, 서버가 어떻게 응답하는지 확인**하는 실습 코드야.

##### 이 코드의 목적 한 줄 요약 🎯
- "인터넷에 있는 어떤 웹사이트에 '질문'을 보내고, 그 웹사이트가 나한테 '어떤 정보'를 주는지 확인하는 코드야."

##### 왜 이걸 하나면? 💡
- 우리가 웹에서 데이터를 가져오거나 크롤링을 하거나, 혹은 API를 사용할 때는 **서버에 요청(request)을 보내고 응답(response)을 받아야 해.**
- 이 코드는 그 응답-요청 구조를 테스트해보는 코드야!

##### 예시로 비유하자면? ✏️
- 마치 서점에 책이 있냐고 묻는 것과 같아!
- 너: “혹시 ‘파이썬 책’ 있어요?” → 요청 (query = 'python', page = 3, 이런 식으로!)
- 서점 직원: “네 있어요~” 하고 응답해줌 → 응답 (JSON 형식으로 돌아와)

##### "user-agent"와 "Referer"는 어떤 역할인 걸까? 🧐
- 웹 요청을 보낼 때, **브라우저나 사람처럼 보이기 위해** 이런 정보들을 같이 보내는 경우가 많아.
- 이건 꼭 필요한 건 아니지만, **웹 크롤링**을 할 때는 중요해!

##### User-Agent: "나는 이런 브라우저를 쓰고 있어요." - 사람처럼 보이기 위해 사용
- **의미**: 아래 코드는 "나는 윈도우 10에서 크롬 브라우저를 쓰고 있다"라고 말하는 거야.
- **왜 이걸 써?**: 어떤 웹사이트들은 크롤링을 막기 위해 'User-Agent'를 체크해. python-request라고 보내면 막히는데, 브라우저처럼 보이면 통과되는 경우가 있어.

##### Referer: 이 웹사이트를 어디에서 클릭해서 왔는지 알려주는 역할! - 어디서 들어왔는지 정보 전달
- **의미**: 아래 코드는 "나 구글 검색해서 여기 들어왔어요!"라는 의미야.
- **서버 입장**에서는 이걸 보고, "아, 이 사용자는 구글 검색을 통해 왔구나"라고 판단할 수 있어.
- **왜 이걸 써?**: 일부 웹사이트는 특정 사이트(예. 구글, 네이버 등)에서 온 요청만 처리하기도 해.
- 또는 분석용으로 쓰기도 하고, 보안 설정 때문에 Referer 없는 요청은 차단되기도 해.

##### 실습용 코드에 이게 왜 있는데?
- user-agent와 Referer 없어도 응답을 해줄 거야. 실습이니까 실제 웹사이트처럼 흉내내는 연습을 해준 거야.
- `headers = req_headers` 이 부분을 빼도 "httpbin.org"는 응답을 해줄 거야. 하지만 **현실의 웹사이트**에서는 이런 헤더 없으면 거부 당하기도 하니까, 실습에서도 자주 넣어보는 거지.

In [2]:
import requests
from pprint import pprint

# "httpbin.org"라는 실습용 웹사이트에 GET 방식으로 요청할 거야.
base_url = "https://httpbin.org/{}"
url = base_url.format("get")
print("요청 URL:", url)

# 요청 파라미터: 어떤 질문을 할지 정하는 거야.
params = {
    "query":"python",  # name : value
    "fbm": 0,
    "page": 3
}

# 헤더 정보: 나는 누구인지(user-agent), 어디에서 왔는지(Referer) 알려주는 거야.
req_headers = {
    "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36"
    , "Referer":"https://www.google.com/"
}

# 질문을 보낸다.
# "httpbin.org야! 나 이런 조건으로 정보 좀 줘봐~"
res = requests.get(url,                  # url
                   params=params,        # 요청파라미터들
                   headers=req_headers)  # 요청 header 정보들 

# 응답을 확인한다. 
print("응답상태코드:",  res.status_code)
if res.status_code == 200: # 응답이 잘 되었다면?
    print("============응답데이터(text)==========")
    print(res.text) # 받은 전체 응답을 텍스트로 출력 
    d2 = res.json() # 받은 데이터를 JSON 형식(dictionary)로 변환해서 반환.
    print("==========응답헤더============")
    print(res.headers)

요청 URL: https://httpbin.org/get
응답상태코드: 200
{
  "args": {
    "fbm": "0", 
    "page": "3", 
    "query": "python"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate, br, zstd", 
    "Host": "httpbin.org", 
    "Referer": "https://www.google.com/", 
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36", 
    "X-Amzn-Trace-Id": "Root=1-67f2022c-5b2c77a47e5a5d6460c939b7"
  }, 
  "origin": "118.176.136.133", 
  "url": "https://httpbin.org/get?query=python&fbm=0&page=3"
}

{'Date': 'Sun, 06 Apr 2025 04:25:16 GMT', 'Content-Type': 'application/json', 'Content-Length': '537', 'Connection': 'keep-alive', 'Server': 'gunicorn/19.9.0', 'Access-Control-Allow-Origin': '*', 'Access-Control-Allow-Credentials': 'true'}


### Post 요청 예
- httpbin 사이트에 post 방식으로 요청한다.

In [3]:

url = base_url.format("post")
print(url)
# post방식은 요청 파라미터를 url뒤에 붙이지 않고 dictionary로 정의해서 함수에 전달.
params = {
    "query":"python",
    "fbm": 0,
    "page": 3
}
req_headers = {
    "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"
    , "Referer":"https://www.google.com/"
}

res = requests.post(
    url,
    data=params,      
    headers=req_headers
)

if res.status_code == 200:
    print(res.text)     # -> str
    print(res.json())  # JSON -> dict
else:
    print("실패:", res.status_code)

https://httpbin.org/post
{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "fbm": "0", 
    "page": "3", 
    "query": "python"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate, br, zstd", 
    "Content-Length": "25", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "Referer": "https://www.google.com/", 
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36", 
    "X-Amzn-Trace-Id": "Root=1-67f206e4-79d701390333d0bc12d92d4f"
  }, 
  "json": null, 
  "origin": "118.176.136.133", 
  "url": "https://httpbin.org/post"
}

{'args': {}, 'data': '', 'files': {}, 'form': {'fbm': '0', 'page': '3', 'query': 'python'}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate, br, zstd', 'Content-Length': '25', 'Content-Type': 'application/x-www-form-urlencoded', 'Host': 'httpbin.org', 'Referer': 'https://www.google.com/', 'User-A

#### 응답결과(Response) 조회

In [4]:
from bs4 import BeautifulSoup
import requests

url = 'http://www.pythonscraping.com/pages/warandpeace.html'

user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"

res = requests.get(url, headers={"user-agent":user_agent})

if res.status_code == 200:

    soup = BeautifulSoup(res.text, "lxml")
    green_list = soup.select("span.green")
    search_names = []
    for tag in green_list:
        search_names.append(tag.text.replace("\n", ' '))
else:
    print("실패:", res.status_code)

In [5]:
result = [name.replace("\n", " ") for name in search_names]
result

['Anna Pavlovna Scherer',
 'Empress Marya Fedorovna',
 'Prince Vasili Kuragin',
 'Anna Pavlovna',
 'St. Petersburg',
 'the prince',
 'Anna Pavlovna',
 'Anna Pavlovna',
 'the prince',
 'the prince',
 'the prince',
 'Prince Vasili',
 'Anna Pavlovna',
 'Anna Pavlovna',
 'the prince',
 'Wintzingerode',
 'King of Prussia',
 'le Vicomte de Mortemart',
 'Montmorencys',
 'Rohans',
 'Abbe Morio',
 'the Emperor',
 'the prince',
 'Prince Vasili',
 'Dowager Empress Marya Fedorovna',
 'the baron',
 'Anna Pavlovna',
 'the Empress',
 'the Empress',
 "Anna Pavlovna's",
 'Her Majesty',
 'Baron Funke',
 'The prince',
 'Anna Pavlovna',
 'the Empress',
 'The prince',
 'Anatole',
 'the prince',
 'The prince',
 'Anna Pavlovna',
 'Anna Pavlovna']

## binary date 를 다운로드

In [None]:
url = "https://www.kia.com/content/dam/kwp/kr/ko/main-kv-contents/202311/kv_the_new_carnival_pc.jpg"

res = requests.get(url, headers={"user-agent":user_agent})

if res.status_code == 200:
    file = res.content  # binary 데이터 -> bytes으로 반환.
    print(type(file))
    with open("car.jpg", "wb") as fo:
        fo.write(file)

## Daum New 목록 조회
- https://news.daum.net 의 뉴스기사 목록에서 제목, 상세뉴스 url을 수집해서 csv 파일에 저장
- 크롤링시 확인할 내용
    - 요청 url을 파악한다.
    - 페이지에서 수집할 내용을 찾는 방법을 웹브라우저 **개발자 도구를 이용해 찾는다.**
    - 요청시 전달할 **요청정보들(header, cookie 등 정보) 를 개발자 도구를 이용해 찾는다.**

> ### CSV 형식 파일
> - Comma Separate Value
> - 정형(표형태) 데이터를 text 파일에 저장하는 방식(형식)
> - 한행에 한개의 데이터를 저장
> - 데이터를 구성하는 속성들은 "," 를 구분자로 나눠서 작성한다.
> - 예
> ```csv
> 이름,나이,주소
> 홍길동,20,인천
> 이순신,15,서울
> 강감찬,30,부산
> ```

In [None]:
from datetime import datetime
datetime.now().strftime("%Y-%m-%d-%H-%M-%S")+".csv"

In [None]:
# 실습\daum_new_list.py
## https://news.daum.net

# pip install requests beautifulsoup4
import requests
from bs4 import BeautifulSoup

url = "https://news.daum.net"
# 뉴스제목: <a>의 content, 링크주소: <a>의 href 속성값
a_selector = "body > div.container-doc > main > section > div > div.content-article > div.box_g.box_news_issue > ul > li > div > div > strong > a"
# user-agent: 1.개발자도구>콘솔: navigator.userAgent, 2. google검색: my user agent 검색
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36'

def get_daum_news_list():
    """
    다음 뉴스 기사 목록을 크롤링하는 함수.
    news.daum.net의 기사 목록에서 "제목", "링크" 들을 수집.

    aguments
    return
        DataFrame: 조회결과들을 담은 DataFrame(표)
    raise
        Exception: 처리 실패시 발생
    """
    # 1. 요청
    res = requests.get(url, headers={"user-agent":user_agent})
    
    # 2. 응답 페이지에서 필요한 정보 추출
    if res.status_code == 200:
        soup = BeautifulSoup(res.text, "lxml")
        a_list = soup.select(a_selector)
        result_list = []
        for a_tag in a_list:
            title = a_tag.get_text()
            link = a_tag.get("href")
            result_list.append([title.strip(), link])
        
        return result_list
    else:
        raise Exception(f"요청 실패. 응답코드: {res.status_code}")      

if __name__ == "__main__":
    result = get_daum_news_list()
    
    # 저장할 디렉토리를 생성
    import os
    from datetime import datetime
    import pandas as pd
    save_dir = "daum_news_list"
    os.makedirs(save_dir, exist_ok=True)
    
    # 저장할 파일명 - 특정 기간마다 크롤링 수행할 경우 실행 날짜/시간을 이용해서 만들어 준다.
    d = datetime.now().strftime("%Y-%m-%d-%H-%M-%S")
    file_path = f"{save_dir}/{d}.csv"
    # DataFrame 생성
    result_df = pd.DataFrame(result, columns=['제목', "링크주소"])
    # csv 파일로 저장.
    result_df.to_csv(file_path, index=False)

# Open API 를 이용

Open API는 말 그대로 공개된 프로그래밍 인터페이스로, 외부 개발자나 사용자가 특정 서비스나 애플리케이션에 접근하여 서비스를 받을 수 있도록 공개된 API이다.

## 정의

Open API는 애플리케이션 개발자가 공개된 API를 사용해 다른 서비스와 애플리케이션을 연동할 수 있도록 만든 인터페이스이다. 
일반적으로 RESTful API 형식으로 서비스 한다.

## 특징

- 공개성: 누구나 접근할 수 있으며, 문서화가 잘 되어 있어 사용자가 쉽게 활용할 수 있음.
- 표준화: 대부분 표준화된 HTTP 프로토콜과 JSON, XML 형식을 사용.
- 보안성: API 키나 OAuth 같은 인증 방식으로 보안을 유지.

## 사용 사례
다양한 기업, 공공기관에서 다양한 서비스를 오픈 api로 제공한다. 
- 공공데이터 포털: 행정안전부에서 서비스하는 정부, 공공기관, 지자체 등이 보유한 데이터를 개방하고 제공하는 플랫폼.
- 구글 맵 API: 외부 애플리케이션에서 구글 맵을 활용할 수 있게 해주는 대표적인 Open API.
- 트위터 API: 트위터(X) 데이터를 외부에서 가져오거나 포스팅할 수 있도록 제공.
- 네이버 개발자 오픈 API: 네이버의 다양한 서비스를 제공. (검색, 검색어 트랜드 조회, 캘린더 등)

## 공공데이터 포털 데이터 조회
- 서비스를 받기위한 API 키를 신청한다.
- 가이드에 따라 요청방식, 요청 URL, 전달 값을 맞춰 요청한다.

> ### JSON 형식 파일
> - 데이터를 text파일에 저장하는 형식으로 Javascript 객체 표기법을 이용한다.
> - 파이썬의 dictionary 표기법과 동일다.
> - 파이썬은 json 표준 모듈을 이용해 처리한다.
>     - json.dump(): dictionary를 json 형식 문자열로 변환
>     - json.load(): json 파일을 읽어 dictionary로 반환

In [None]:
import requests
import json


url = 'https://api.odcloud.kr/api/15127133/v1/uddi:ea3c3b5a-3bd8-4faf-b155-bb2af3cc3377'
with open('api_key.json', 'rt') as fr:
    key_dict = json.load(fr)

key = key_dict['apikey']
params ={'serviceKey' : key_dict["apikey"],
         'pageNo' : 1, 
         'perPage': 20,}

response = requests.get(url, params=params)
if response.status_code == 200:
    result = response.json()
    print(type(result))
    from pprint import pprint
    print(len(result['data']))
    pprint(result['data'])

In [None]:
result