# 웹 데이터 수집하기
## requests 라이브러리
###

In [2]:
# 라이브러리 
import requests

### 웹 데이터 요청하기

In [4]:
# 세선 생성 -> 통신에서 말하는 하나의 접속 단위 혹은 접속을 수행하는 객체
# 모든 json -> utf-8 인코딩 100%
# 세션 객체 생성
with requests.Session() as session:
    # 세션 객체에 웹 브라우저 정보(UserAgent) 주입
    session.headers.update({
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
    })

    # 요청할 데이터의 URL (앞으로 여기만 변할예정)
    url = "https://data.hossam.kr/py/sample.txt"
    # 요청 결과 받아오기 --> HHTP GET 요청
    r = session.get(url)

    # HTTP 상태값이 200이 아닌 경우는 강제로 에러를 발생시켜서 코드의 진행을 중단시킴
    if r.status_code != 200:
        msg = "[%d Error] %s 에러가 발생함" % (r.status_code, r.reason)
        raise Exception(msg)
    print(r)


<Response [200]>


In [5]:
# 수신된 데이터의 인코딩 설정(한글이 꺠진다면 euc-kr로 변경)
r.encoding = "utf-8"

# 수신된 결과 확인 --> 웹에서 가져온 모든데이터는 문자열 형식
print(r.text)

안녕하세요.

이 파일은 HTTP Client 기능을 구현한 후 결과를 확인하기 위한 샘플 파일입니다.



In [None]:
# 세선 생성 -> 통신에서 말하는 하나의 접속 단위 혹은 접속을 수행하는 객체
# 모든 json -> utf-8 인코딩 100%
# 세션 객체 생성
# 꼭 조각으로 보관하기
with requests.Session() as session:
    # 세션 객체에 웹 브라우저 정보(UserAgent) 주입
    session.headers.update({
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
    })

    # 요청할 데이터의 URL (앞으로 여기만 변할예정)
    url = "https://data.hossam.kr/py/sample.json"
    # 요청 결과 받아오기 --> HHTP GET 요청
    r = session.get(url)

    # HTTP 상태값이 200이 아닌 경우는 강제로 에러를 발생시켜서 코드의 진행을 중단시킴
    if r.status_code != 200:
        msg = "[%d Error] %s 에러가 발생함" % (r.status_code, r.reason)
        raise Exception(msg)
    print(r)


<Response [200]>


In [7]:
# 모든 JSON 데이터는 무조건 UTF-8 형식을 따른다.
r.encoding = "utf-8"

# Json 형식의 응답 결과를 딕셔너리로 반환한다.
my_dict = r.json()
my_dict

{'name': '갤럭시 S6',
 'type': '삼성',
 'img': 'http://itpaper.co.kr/demo/app/img/GalaxyS6.png'}

In [8]:
# 필요한 데이터 활용하기
print(my_dict["name"])
print(my_dict["type"])
print(my_dict["img"])

갤럭시 S6
삼성
http://itpaper.co.kr/demo/app/img/GalaxyS6.png


## Restful API 연동

In [9]:
# 라이브러리 불러오기
import requests
from pandas import DataFrame

In [None]:
# GET 방식 요청 - 단일행 데이터 조회

with requests.Session() as session:
    # 세션 객체에 웹 브라우저 정보(UserAgent) 주입
    session.headers.update({
        "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/1"
    })

    # 요청할 데이터의 URL (앞으로 여기만 변할예정)
    url = "http://127.0.0.1:9091/departments/201"
    # 요청 결과 받아오기 --> HTTP GET 요청
    r = session.get(url)

    # HTTP 상태값이 200이 아닌 경우는 강제로 에러를 발생시켜서 코드의 진행을 중단시킴
    if r.status_code != 200:
        msg = "[%d Error] %s 에러가 발생함" % (r.status_code, r.reason)
        raise Exception(msg)
    print(r)

In [None]:
# 수신된 응답 결과 확인
r.encoding = "utf-8"
my_dict = r.json()
my_dict