In [1]:
import requests

# requests 모듈을 이용한 웹 요청
- [Requests 홈페이지](https://requests.kennethreitz.org/en/master/)
- **HTTP 요청을 처리하는 파이썬 패키지**
- get/post 방식 모두를 지원하며 쿠키, 헤더정보등을 HTTP의 다양한 요청처리를 지원한다.
- 설치
    - `pip install requests`
    - `conda install -c conda-forge requests`

## Crawling을 위한 requests 코딩 패턴
1. requests의 get()/post() 함수를 이용해 url을 넣어 서버 요청한다.
3. 응답받은 내용을 처리.
    - text(HTML)은 BeautifulSoup에 넣어 parsing
    - binary 파일의 경우 파일출력을 이용해 local에 저장

## 요청 함수
- HTTP 요청 방식에 따라 두개 함수를 사용.
- get(): GET방식 요청
    - GET 방식(기본방식): 목적 - client가 자원을 요청하는 것 목적(달라는 것.)
- post(): POST방식 요청
    - POST 방식: 목적 - client가 자기의 자원을 server로 전송하는 것이 목적.

### requests.get(URL)
- **GET 방식 요청**
- **주요 매개변수**
    - params: 요청파라미터를 dictionary로 전달
    - headers: HTTP 요청 header를 dictionary로 전달
        - 'User-Agent', 'Referer' 등 헤더 설정
    - cookies: 쿠키정보를 전달
- **반환값(Return Value)**
    - [Response](#Response객체): 응답결과

### requests.post(URL)
- **POST 방식 요청**
- **주요 매개변수**
    - datas : 요청파라미터를 dictionary로 전달
    - files : 업로드할 파일을 dictionary로 전달
        - key: 이름, value: 파일과 연결된 InputStream(TextIOWrapper)
    - headers: HTTP 요청 header를 dictionary로 전달
        - 'User-Agent', 'Referer' 등 헤더 설정
    - cookies: 쿠키정보를 전달
- **반환값(Return Value)**
    - [Response](#Response객체): 응답결과

> ### 요청파라미터(Request Parameter)
> - 요청파라미터란?
>     - 서버가 일하기 위해 클라이언트로 부터 받아야하는 값들
>     - `name=value` 형태이며 여러개일 경우 `&`로 연결해서 전송됨
> - Get 요청시 queryString 으로 전달
>     - querystring : URL 뒤에 붙여서 전송한다.
>     - ex) https://search.naver.com/search.naver?sm=top_hty&fbm=1&ie=utf8&query=python
>     - requests.get() 요청시 
>         1. url 뒤에 querystring으로 붙여서 전송
>         2. dictionary 에 name=value 형태로 만들어 매개변수 params에 전달
> - Post 요청시 요청정보의 body에 넣어 전달

> ### HTTP 요청 헤더(Request Header)
> HTTP 요청시 웹브라우저가 client의 여러 부가적인 정보들을 Key-Value 쌍 형식으로 전달한다.
> - accept: 클라이언트가 처리가능한 content 타입 (Mime-type 형식으로 전달)
> - accept-language: 클라이언트가 지원하는 언어(ex: ko, en-US)
> - host: 요청한 host 
> - user-agent: 웹브라우저 종류

## Response객체 -  응답데이터
- get()/post() 의 요청에 대한 서버의 응답 결과를 Response에 담아 반환
    - Response의 속성을 이용해 응답결과를 조회
- 주요 속성(Attribut)
    - **url**
        - 응답 받은(요청한) url 
    - **status_code**
        - HTTP 응답 상태코드
    - **headers**
        - 응답 header 정보를 dictionary로 반환
- **응답 결과 조회**
    - **text**
        - 응답내용(html을 str로 반환)
    - **content**
        - 응답내용(응답결과가 binary-image, 동영상등- 일 경우사용하며 bytes로 반환)
    - **json()**
        - 응답 결과가 JSON 인 경우 dictionary로 변환해서 반환

> ### JSON(JavaScript Object Notation)
> key-value 형태 또는 배열 형태의 text이며 이 기종간 데이터 교환에 많이 사용된다. 자바스크립트 언어에서 Object와 array를 생성하는 문법을 이용해 만듬. 
- [JSON 공식사이트](http://json.org)
>
> ### json 모듈
> JSON 형식 문자열을 다루는 모듈
> - json.loads(json문자열)
>    - JSON 형식 문자열을 dictionary로 변환
> - json.dumps(dictionary)
>    - dictionary를 JSON 형식 문자열로 변환

> ### HTTP 응답 상태코드
> - https://ko.wikipedia.org/wiki/HTTP_상태_코드
- 2XX: 성공
    - 200: OK
- 3XX: 다른 주소로 이동 (이사)
    - 300번대이면 자동으로 이동해 준다. 크롤링시는 볼일이 별로 없다.
- 4XX: 클라이언트 오류 (사용자가 잘못한 것)
  - 404: 존재하지 않는 주소
- 5XX: 서버 오류 (서버에서 문제생긴 것)
  - 500: 서버가 처리방법을 모르는 오류
  - 503: 서버가 다운 등의 문제로 서비스 불가 상태

### Get 방식 요청 예제

In [7]:
import requests

# url = "https://www.naver.com/"
url = "https://search.naver.com/search.naver?where=nexearch&sm=top_hty&fbm=0&ie=utf8&query={}"  # 검색
keyword = input("keyword:")
url = url.format(keyword)

res = requests.get(url) # 요청 -> 응답데이터를 반환.
print(res.status_code)
if res.status_code == 200: #HTTP상태코드 == 200(정상응답을 받은경우 코드값.)
    print(type(res))
    print(type(res.text), len(res.text))  # response.text: 응답 문서내용 조회 - str
    print(res.text[:200])
    # print(len(res.text))
else:
    print("응답을 받지 못함.", res.status_code)


keyword: chatgpt


200
<class 'requests.models.Response'>
<class 'str'> 410578
<!doctype html> <html lang="ko"><head> <meta charset="utf-8"> <meta name="referrer" content="always">  <meta name="format-detection" content="telephone=no,address=no,email=no"> <meta property="og:titl


In [14]:
import requests
from pprint import pprint

base_url = "https://httpbin.org/{}"
url = base_url.format("get")
print(url)
# 요청파라터터
params = {
    "query":"python",  # name : value
    "fbm": 0,
    "page": 3
}

req_headers = {
    "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36"
    , "Referer":"https://www.google.com/"
}

res = requests.get(url,  # url
                   params=params, # 요청파라미터들
                   headers=req_headers) # 요청 header 정보들 
print("응답상태코드:",  res.status_code)
if res.status_code == 200:
    print("============응답데이터(text)==========")
    print(res.text)
    d2 = res.json() # JSON 문자열 -> dictionary로 변환해서 반환.
    print("==========응답헤더============")
    print(res.headers)

https://httpbin.org/get
응답상태코드: 200
{
  "args": {
    "fbm": "0", 
    "page": "3", 
    "query": "python"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Host": "httpbin.org", 
    "Referer": "https://www.google.com/", 
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36", 
    "X-Amzn-Trace-Id": "Root=1-67087eab-5e41bb9a6f1268951e5f8a0f"
  }, 
  "origin": "222.112.208.70", 
  "url": "https://httpbin.org/get?query=python&fbm=0&page=3"
}

{'Date': 'Fri, 11 Oct 2024 01:26:03 GMT', 'Content-Type': 'application/json', 'Content-Length': '526', 'Connection': 'keep-alive', 'Server': 'gunicorn/19.9.0', 'Access-Control-Allow-Origin': '*', 'Access-Control-Allow-Credentials': 'true'}


In [15]:
type(d2)

dict

In [13]:
import json

### json 형식 str -> dict
d = json.loads(res.text)
print(type(d))
print(d['args']['page'])

#### dict -> json형식 str
t = json.dumps(d)
print(type(t))


<class 'dict'>
3
<class 'str'>


### Post 요청 예

In [17]:
url = base_url.format("post")
print(url)
# post방식은 요청 파라미터를 url뒤에 붙이지 않고 dictionary로 정의해서 함수에 전달.
params = {
    "query":"python",
    "fbm": 0,
    "page": 3
}
req_headers = {
    "user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36"
    , "Referer":"https://www.google.com/"
}

res = requests.post(
    url,
    data=params,      
    headers=req_headers
)

if res.status_code == 200:
    print(res.text)     # -> str
    print(res.json())  # JSON -> dict
else:
    print("실패:", res.status_code)

https://httpbin.org/post
{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "fbm": "0", 
    "page": "3", 
    "query": "python"
  }, 
  "headers": {
    "Accept": "*/*", 
    "Accept-Encoding": "gzip, deflate", 
    "Content-Length": "25", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "Referer": "https://www.google.com/", 
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36", 
    "X-Amzn-Trace-Id": "Root=1-67088448-7b49986e7d4809bb0f4ebcb8"
  }, 
  "json": null, 
  "origin": "222.112.208.70", 
  "url": "https://httpbin.org/post"
}

{'args': {}, 'data': '', 'files': {}, 'form': {'fbm': '0', 'page': '3', 'query': 'python'}, 'headers': {'Accept': '*/*', 'Accept-Encoding': 'gzip, deflate', 'Content-Length': '25', 'Content-Type': 'application/x-www-form-urlencoded', 'Host': 'httpbin.org', 'Referer': 'https://www.google.com/', 'User-Agent': 'Mozilla/5.0 (

### 응답결과(Response) 조회

In [3]:
from bs4 import BeautifulSoup
import requests

url = 'http://www.pythonscraping.com/pages/warandpeace.html'

user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36"

res = requests.get(url, headers={"user-agent":user_agent})

if res.status_code == 200:

    soup = BeautifulSoup(res.text, "lxml")
    green_list = soup.select("span.green") # select(): 여러개조회. select_one(): 한개
    search_names = []
    for tag in green_list:# <span class="green">Anna Pavlovna</span>
        search_names.append(tag.text.replace("\n", ' '))
else:
    print("실패:", res.status_code)

In [4]:
set(search_names)

{'Abbe Morio',
 'Anatole',
 'Anna Pavlovna',
 'Anna Pavlovna Scherer',
 "Anna Pavlovna's",
 'Baron Funke',
 'Dowager Empress Marya Fedorovna',
 'Empress Marya Fedorovna',
 'Her Majesty',
 'King of Prussia',
 'Montmorencys',
 'Prince Vasili',
 'Prince Vasili Kuragin',
 'Rohans',
 'St. Petersburg',
 'The prince',
 'Wintzingerode',
 'le Vicomte de Mortemart',
 'the Emperor',
 'the Empress',
 'the baron',
 'the prince'}

In [None]:
import pymysql


# SQL 실행
insert_sql = "insert into category (classification) values (%s)"

with pymysql.connect(host="127.0.0.1", port=3306, user='scott', password='tiger', db='accident') as conn:
    with conn.cursor() as cursor:
        result = cursor.executemany(insert_sql, classification)
        conn.commit()
        print("처리 행수:", result)

In [16]:
from bs4 import BeautifulSoup
import requests

url = 'https://www.genesis.com/kr/ko/support/faq.html?anchorID=faq_tab'

user_agent = "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/129.0.0.0 Safari/537.36"

res = requests.get(url, headers={"user-agent":user_agent})
res2 = requests.get(url, headers={"user-agent":user_agent})
if res.status_code == 200:
    soup = BeautifulSoup(res.text, "lxml")
    soup2 = BeautifulSoup(res2.text, "lxml")
    green_list = soup.select("a.accordion-btn") # select(): 여러개조회. select_one(): 한개
    green_list_title = soup2.select("strong.accordion-label") # 분류 조회

    search_title = []
    search_names = []
    for tag in range(len(green_list)):# <span class="green">Anna Pavlovna</span>
        search_names.append(green_list[tag].text.replace("\n", ' '))
        search_title.append(green_list_title[tag].text.replace("\n", ' '))
else:
    print("실패:", res.status_code)

In [61]:
import re
cnt = 1
se = []
cleaned_text = []
for i,b in zip(search_names, search_title):
    cleaned_text.append(re.sub(r'\[.*?\]', '', i))
    cnt += 1
print(cleaned_text)

['  제네시스 구입 후 세금계산서 발급받으려고 하는데 어떻게 해야 하나요? ', '  제네시스 차량 구입 시 의무보험료란 금액을 납부하였습니다. 이것은 어떤 종류의 보험인가요? ', '  일정기간 이상 지난 차량은 자동차세가 경감된다고 하는데 그 내용을 알고 싶습니다. ', '  부가세 환급을 받을 수 있는 차종 및 조건은 무엇인가요? ', '  차량에 부과되는 세금은 어떤 종류가 있나요? ', '  제네시스 차량을 구입하려면 어떻게 해야하나요? ', '  차량구입에 관련된 금액은 어떠한 결제방식이 있나요? ', '  차량 계약금 및 차량 대금을 입금하려고 하는데 입금 계좌가 정해져 있나요? ', '  차량 계약 후 해지 시 계약금은 환불 받을 수 있나요? ', '  제네시스에서 중고차를 구입할 수 있나요? ', '  차량 계약 후 예상 납기일에 대해 알 수 있나요? ', '  신차 구입시 기존에 타던 차량을 팔고 인도금으로 대체할 수 있나요? ', '  자동차 리스에 대해 알고 싶어요. ', '  포인트는 유효기간이 있나요? ', '  본인 이외의 가족이 보유한 포인트를 사용할 수 있나요? ', '  장애인 차량 구입 조건에 대해 알고 싶습니다. ', '  장애인 조건으로 제네시스 차량 구입 시 혜택을 알고 싶습니다. ', '  세이브오토 및 M포인트 차감을 통해 차량 가격을 할인받았습니다. 그런데 세금계산서상 금액과 차이가 있는데 왜 그런가요? ', '  세이브오토 이용에 관해 알고 싶습니다. ', '  제네시스 차량 구입 시 신용카드는 얼마까지 이용할 수 있나요? ', '  제네시스 차량 구입시 신용카드는 복수의 카드로 결제가 가능한가요? ', '  제네시스 구입 시 차량대금을 신용카드로 결제할 경우 소득공제가 가능한가요? ', '  제네시스 차량 대금을 신용카드로 결제하려고 합니다. 계약자 이외의 다른 사람 카드로 결제가 가능한가요? ', '  제네시스 구입 시 할부금을 카드로 결제할 수 있나요? ', '  할부를 이용하여 차량을 구입하고자 합니다. 

In [42]:
import re

In [69]:
import pymysql


# SQL 실행
insert_sql = "insert into category(classification) values (%s)"

with pymysql.connect(host="127.0.0.1", port=3306, user='scott', password='tiger', db='accident') as conn:
    with conn.cursor() as cursor:
        result = cursor.executemany(insert_sql, set(search_title))
        conn.commit()
        print("처리 행수:", result)

처리 행수: 8


## binary date 를 다운로드

In [24]:
url = "https://www.kia.com/content/dam/kwp/kr/ko/main-kv-contents/202311/kv_the_new_carnival_pc.jpg"

res = requests.get(url, headers={"user-agent":user_agent})

if res.status_code == 200:
    file = res.content  # binary 데이터 -> bytes으로 반환.
    print(type(file))
    with open("car.jpg", "wb") as fo:
        fo.write(file)

<class 'bytes'>


## Daum New 목록 조회
- https://news.daum.net 의 뉴스기사 목록에서 제목, 상세뉴스 url을 수집해서 csv 파일에 저장
- 크롤링시 확인할 내용
    - 요청 url을 파악한다.
    - 페이지에서 수집할 내용을 찾는 방법을 웹브라우저 **개발자 도구를 이용해 찾는다.**
    - 요청시 전달할 **요청정보들(header, cookie 등 정보) 를 개발자 도구를 이용해 찾는다.**

> ### CSV 형식 파일
> - Comma Separate Value
> - 정형(표형태) 데이터를 text 파일에 저장하는 방식(형식)
> - 한행에 한개의 데이터를 저장
> - 데이터를 구성하는 속성들은 "," 를 구분자로 나눠서 작성한다.
> - 예
> ```csv
> 이름,나이,주소
> 홍길동,20,인천
> 이순신,15,서울
> 강감찬,30,부산
> ```

In [27]:
from datetime import datetime
datetime.now().strftime("%Y-%m-%d-%H-%M-%S")+".csv"

'2024-10-11-11-35-37.csv'

In [29]:
# 실습\daum_new_list.py
## https://news.daum.net

# pip install requests beautifulsoup4
import requests
from bs4 import BeautifulSoup

url = "https://news.daum.net"
# 뉴스제목: <a>의 content, 링크주소: <a>의 href 속성값
a_selector = "body > div.container-doc > main > section > div > div.content-article > div.box_g.box_news_issue > ul > li > div > div > strong > a"
# user-agent: 1.개발자도구>콘솔: navigator.userAgent, 2. google검색: my user agent 검색
user_agent = 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/123.0.0.0 Safari/537.36'

def get_daum_news_list():
    """
    다음 뉴스 기사 목록을 크롤링하는 함수.
    news.daum.net의 기사 목록에서 "제목", "링크" 들을 수집.

    aguments
    return
        DataFrame: 조회결과들을 담은 DataFrame(표)
    raise
        Exception: 처리 실패시 발생
    """
    # 1. 요청
    res = requests.get(url, headers={"user-agent":user_agent})
    # 2. 응답 페이지에서 필요한 정보 추출
    if res.status_code == 200:
        soup = BeautifulSoup(res.text, "lxml")
        a_list = soup.select(a_selector)# [<a href="url">제목</a>, ...]
        result_list = []
        for a_tag in a_list:
            title = a_tag.get_text() # 뉴스제목. a_tag.text
            link = a_tag.get("href") # 개별뉴스 페이지 url. a_tag['href']
            result_list.append([title.strip(), link])
        
        return result_list
    else:
        raise Exception(f"요청 실패. 응답코드: {res.status_code}")      

if __name__ == "__main__":
    result = get_daum_news_list()
    # from pprint import pprint
    # pprint(result)
    
    # 저장할 디렉토리를 생성
    import os
    from datetime import datetime
    import pandas as pd
    save_dir = "daum_news_list"
    os.makedirs(save_dir, exist_ok=True)
    
    # 저장할 파일명 - 특정 기간마다 크롤링 수행할 경우 실행 날짜/시간을 이용해서 만들어 준다.
    d = datetime.now().strftime("%Y-%m-%d-%H-%M-%S")
    file_path = f"{save_dir}/{d}.csv"
    # DataFrame 생성
    result_df = pd.DataFrame(result, columns=['제목', "링크주소"])
    # csv 파일로 저장.
    result_df.to_csv(file_path, index=False)

# Open API 를 이용

Open API는 말 그대로 공개된 프로그래밍 인터페이스로, 외부 개발자나 사용자가 특정 서비스나 애플리케이션에 접근하여 서비스를 받을 수 있도록 공개된 API이다.

## 정의

Open API는 애플리케이션 개발자가 공개된 API를 사용해 다른 서비스와 애플리케이션을 연동할 수 있도록 만든 인터페이스이다. 
일반적으로 RESTful API 형식으로 서비스 한다.

## 특징

- 공개성: 누구나 접근할 수 있으며, 문서화가 잘 되어 있어 사용자가 쉽게 활용할 수 있음.
- 표준화: 대부분 표준화된 HTTP 프로토콜과 JSON, XML 형식을 사용.
- 보안성: API 키나 OAuth 같은 인증 방식으로 보안을 유지.

## 사용 사례
다양한 기업, 공공기관에서 다양한 서비스를 오픈 api로 제공한다. 

- 구글 맵 API: 외부 애플리케이션에서 구글 맵을 활용할 수 있게 해주는 대표적인 Open API.
- 트위터 API: 트위터(X) 데이터를 외부에서 가져오거나 포스팅할 수 있도록 제공.
- 네이버 개발자 오픈 API: 네이버의 다양한 서비스를 제공. (검색, 검색어 트랜드 조회, 캘린더 등)

## 공공데이터 포털 데이터 조회
- 서비스를 받기위한 API 키를 신청한다.
- 가이드에 따라 요청방식, 요청 URL, 전달 값을 맞춰 요청한다.

> ### JSON 형식 파일
> - 데이터를 text파일에 저장하는 형식으로 Javascript 객체 표기법을 이용한다.
> - 파이썬의 dictionary 표기법과 동일다.
> - 파이썬은 json 표준 모듈을 이용해 처리한다.
>     - json.dump(): dictionary를 json 형식 문자열로 변환
>     - json.load(): json 파일을 읽어 dictionary로 반환

In [18]:
import requests
import json


url = 'https://api.odcloud.kr/api/15127133/v1/uddi:ea3c3b5a-3bd8-4faf-b155-bb2af3cc3377'
with open('api_key.json', 'rt') as fr:
    key_dict = json.load(fr)

key = key_dict['apikey']
params ={'serviceKey' : key_dict["apikey"],
         'pageNo' : 1, 
         'perPage': 20,}

response = requests.get(url, params=params)
if response.status_code == 200:
    result = response.json()
    print(type(result))
    from pprint import pprint
    print(len(result['data']))
    pprint(result['data'])

<class 'dict'>
15
[{'대수': 1,
  '데이터기준일자': '2024-03-12',
  '주소': '경기도 광명시 광명로 928번길 18-20(광명3동 행정복지센터)',
  '행정동': '광명3동'},
 {'대수': 1,
  '데이터기준일자': '2024-03-12',
  '주소': '경기도 광명시 오리로 1018(광명종합사회복지관)',
  '행정동': '광명3동'},
 {'대수': 2,
  '데이터기준일자': '2024-03-12',
  '주소': '경기도 광명시 너부대로35번길 20(광명5동 행정복지센터)',
  '행정동': '광명5동'},
 {'대수': 1,
  '데이터기준일자': '2024-03-12',
  '주소': '경기도 광명시 광명로 791번길 6(광명6동 행정복지센터)',
  '행정동': '광명6동'},
 {'대수': 1,
  '데이터기준일자': '2024-03-12',
  '주소': '경기도 광명시 식곡길 34(광명6동 옥길경로당)',
  '행정동': '광명6동'},
 {'대수': 1,
  '데이터기준일자': '2024-03-12',
  '주소': '경기도 광명시 새터로 13(광명7동 행정복지센터)',
  '행정동': '광명7동'},
 {'대수': 2,
  '데이터기준일자': '2024-03-12',
  '주소': '경기도 광명시 사성로 121(철산1동 행정복지센터)',
  '행정동': '철산1동'},
 {'대수': 1,
  '데이터기준일자': '2024-03-12',
  '주소': '경기도 광명시 시청로 93(도로 맞은편 현충근린공원 버스정류장)',
  '행정동': '철산2동'},
 {'대수': 1,
  '데이터기준일자': '2024-03-12',
  '주소': '경기도 광명시 오리로 747(하안1동 행정복지센터)',
  '행정동': '하안1동'},
 {'대수': 1,
  '데이터기준일자': '2024-03-12',
  '주소': '경기도 광명시 오리로 613(광명보건소 앞 재활용마당)',
  '행정동': '하안1동'},
 

In [17]:
result

NameError: name 'result' is not defined