In [None]:
# uv add requests python-dotenv
## python-dotenv : .env에 있는 정보를 가져오는 도구
## requests: API 요청하는 도구

# API KEY 불러오기

In [None]:
from dotenv import load_dotenv

load_dotenv()

In [None]:
# API 확인
import os

print(os.getenv("SEOUL_PUBLIC_API_KEY"))
## !!!! API 유출 방지를 위해 출력이 확인되면 출력 내용을 지워야 한다.

# 1. 서울 열린데이터 광장

## 1) URL 만들기

In [None]:
# 데이터 사이트: https://data.seoul.go.kr/dataList/OA-13252/F/1/datasetView.do

# http://openapi.seoul.go.kr:8088/(인증키)/json/tbCycleStationInfo/1/5/
base_url = "http://openapi.seoul.go.kr:8088"

key = os.getenv("SEOUL_PUBLIC_API_KEY")
request_type = "json"
service = "tbCycleStationInfo"
start_index = 1
end_index = 5

url = f"{base_url}/{key}/{request_type}/{service}/{start_index}/{end_index}"
print(url)

## 2) 요청하기

In [None]:
import requests

response = requests.get(url)
print(response)
print(response.status_code)
# 만약에 response.status_code 가 200일 때만 다음을 진행하세요.

## 3) 데이터 확인하기

In [None]:
# 데이터를 텍스트로 가져오기
print(type(response.text))  # 딕셔너리처럼 생겼지만, 파싱하지 못한다.
print(response.text)

In [None]:
# 데이터를 딕셔너리로 가져오기
print(type(response.json()))
print(response.json())

In [None]:
data = response.json()
data

In [None]:
print(data.keys())

In [None]:
data["stationInfo"]

In [None]:
print(data["stationInfo"].keys())

In [None]:
items = data["stationInfo"]["row"]
print(len(items))
print(items)

## 4) 데이터 요청 제한 확인하기

### (1) URL 만들기

In [None]:
# 데이터 사이트: https://data.seoul.go.kr/dataList/OA-13252/F/1/datasetView.do

# http://openapi.seoul.go.kr:8088/(인증키)/json/tbCycleStationInfo/1/5/
base_url = "http://openapi.seoul.go.kr:8088"

key = os.getenv("SEOUL_PUBLIC_API_KEY")
request_type = "json"
service = "tbCycleStationInfo"
start_index = 1
end_index = 3210  # 3210, 1001로 바꿔보세요.

url = f"{base_url}/{key}/{request_type}/{service}/{start_index}/{end_index}"
print(url)

### (2) 요청하기

In [None]:
import requests

response = requests.get(url)
print(response)

### (3) 데이터 확인하기

In [None]:
# 데이터를 텍스트로 가져오기
print(type(response.text))
print(response.text)

## 4) 데이터 수집하기

In [None]:
# 한 번 요청할 때 1000개만 가져올 수 있다. -- 반복문
## 전체가 3210개 -- 몇 번 요청 4
## start - end
## 1 - 1000
## 1001 - 2000
## 2001 - 3000
## 3001 - 4000

In [None]:
## 0. start = 1 변수를 만든다. item_list를 만든다.
## 1. 4번 반복하는 반복문을 만든다.
## 2. 반복할 때마다 end를 생성하고, start, end를 출력한다.
## 3. start, end가 반영된 URL를 만든다.
## 4. URL을 요청한다.
## 5. 응답받은 데이터에서 items를 추출한다.
## 6. item_list 에 items 를 넣는다.
## 7. 그리고 start를 업데이트한다.
## 8. 반복문이 끝난 후, item_list의 개수를 출력한다. - 3210개가 맞는지 확인한다.
## 9. 데이터프레임으로 바꾼다.
## 10. 데이터를 저장한다.

In [None]:
## (추가 미션) range(start, end, step) 이용해보기 , While True: 이용해보기

In [None]:
# Hint:
import requests

## 0. start = 1 변수를 만든다. item_list를 만든다.
item_list = []
start = 1

base_url = "http://openapi.seoul.go.kr:8088"

key = os.getenv("SEOUL_PUBLIC_API_KEY")
request_type = "json"
service = "tbCycleStationInfo"

## 1. 4번 반복하는 반복문을 만든다.
for i in range(4):
    ## 2. 반복할 때마다 end를 생성하고, start, end를 출력한다.
    end = start + 1000 - 1
    print(start, end)
    ## 3. start, end가 반영된 URL를 만든다.
    url = f"{base_url}/{key}/{request_type}/{service}/{start}/{end}"
    print(url)
    ## 4. URL을 요청한다.
    response = requests.get(url)
    data = response.json()
    ## 5. 응답받은 데이터에서 items를 추출한다.
    items = data["stationInfo"]["row"]
    print(f"{len(items)} 개의 데이터를 응답받았습니다.")
    ## 6. item_list 에 items 를 넣는다.
    item_list.extend(items)
    ## 7. 그리고 start를 업데이트한다.
    start += 1000
    print("=" * 100)

In [None]:
## 8. 반복문이 끝난 후, item_list의 개수를 출력한다. - 3210개가 맞는지 확인한다.
print(f"최종적으로 총 {len(item_list)}개의 데이터를 응답받았습니다.")

In [None]:
item_list

## 5) 데이터프레임 만들기 & 저장하기

In [None]:
## 9. 데이터프레임으로 바꾼다.
import pandas as pd

df = pd.DataFrame(item_list)
df.head()

In [None]:
## 10. 데이터를 저장한다.
df.to_csv("./data/서울시 공공자전거 대여소 정보(260127).csv")

In [None]:
# Hint:
# range(start, end, step): start부터 end 앞까지 step 간격으로
item_list = []

for start in range(1, 4001, 1000):
    end = start + 1000 - 1
    print(start, end)

# 2. 공공데이터포털(한국도로교통공단_법규위반별 교통사고 다발지역)

In [None]:
# .env를 수정하기 전에 실행했다면 재시작 후 다시 실행하세요.
from dotenv import load_dotenv

load_dotenv()

In [None]:
import os

print(os.getenv("PUBLIC_DATA_API_KEY"))

## 1) URL 만들기

In [None]:
# https://www.data.go.kr/data/15058087/openapi.do
# https://www.code.go.kr/stdcode/regCodeL.do # 법정동코드
base_url = (
    "http://apis.data.go.kr/B552061/frequentzoneLgrViolt/getRestFrequentzoneLgrViolt"
)

# 요청파라미터
serviceKey = os.getenv("PUBLIC_DATA_API_KEY")
searchYearCd = 2017
siDo = 11
guGun = 680
request_type = "json"
numOfRows = 12
pageNo = 1

# base_url?요청파라미터1=값&요청파라미터2=값&....
url = f"{base_url}?ServiceKey={serviceKey}&searchYearCd={searchYearCd}&siDo={siDo}&guGun={guGun}&type={request_type}&numOfRows={numOfRows}&pageNo={pageNo}"
print(url)

## 2) 요청하기

In [None]:
import requests

response = requests.get(url)
print(response.status_code)

## 3) 데이터 확인하기

In [None]:
print(response.text)

In [None]:
data = response.json()
data

## 4) 데이터 수집하기

In [None]:
print(data.keys())

In [None]:
print(len(data["items"]["item"]))

In [None]:
item_list = data["items"]["item"]
print(f"총 {len(item_list)} 개의 데이터를 수집했습니다.")

In [None]:
item_list

## 5) 데이터프레임 만들기 & 저장하기

In [None]:
import pandas as pd

df = pd.DataFrame(item_list)
df.head(2)

In [None]:
df.to_csv("./data/한국도로교통공단_법규위반별 교통사고 다발지역_1168010100(260127).csv")

## (과제 1) 연도 기간을 설정해서 반복문으로 데이터를 수집할 수 있나요?

### (1) URL 만들기

In [None]:
base_url = (
    "http://apis.data.go.kr/B552061/frequentzoneLgrViolt/getRestFrequentzoneLgrViolt"
)

# 요청파라미터
serviceKey = os.getenv("PUBLIC_DATA_API_KEY")
searchYearCd = 2017  ### 반복문마다 바뀌어야함.
siDo = 11
guGun = 680
request_type = "json"
numOfRows = 12
pageNo = 1

# base_url?요청파라미터1=값&요청파라미터2=값&....
url = f"{base_url}?ServiceKey={serviceKey}&searchYearCd={searchYearCd}&siDo={siDo}&guGun={guGun}&type={request_type}&numOfRows={numOfRows}&pageNo={pageNo}"
print(url)

In [None]:
import requests

base_url = (
    "http://apis.data.go.kr/B552061/frequentzoneLgrViolt/getRestFrequentzoneLgrViolt"
)

# 요청파라미터
serviceKey = os.getenv("PUBLIC_DATA_API_KEY")
siDo = 11
guGun = 680
request_type = "json"
numOfRows = 12
pageNo = 1

# 뭘 반복할 것인가? ex. 2020년에서 2024년까지의 데이터 조회
data_list = []
for searchYearCd in range(2020, 2025):
    print(f"searchYearCd={searchYearCd}")
    url = f"{base_url}?ServiceKey={serviceKey}&searchYearCd={searchYearCd}&siDo={siDo}&guGun={guGun}&type={request_type}&numOfRows={numOfRows}&pageNo={pageNo}"
    print(url)

    # 요청하고
    response = requests.get(url)
    if response.status_code != 200:
        print("문제가 생겼습니다.")
        break

    # 데이터 추출하고
    data = response.json()
    item_list = data["items"]["item"]
    print(f"{len(item_list)} 개의 데이터를 얻었습니다!")

    # 모은다
    data_list.extend(item_list)
    print("합체!")


## (과제 2) 여러 시도 데이터를 반복문으로 수집할 수 있나요?

In [None]:
# https://www.data.go.kr/data/15058087/openapi.do
# https://www.code.go.kr/stdcode/regCodeL.do # 법정동코드
base_url = (
    "http://apis.data.go.kr/B552061/frequentzoneLgrViolt/getRestFrequentzoneLgrViolt"
)

# 요청파라미터
serviceKey = os.getenv("PUBLIC_DATA_API_KEY")
searchYearCd = 2017
siDo = 11  # 반복문마다 변함
guGun = 680  # 반복문마다 변함
request_type = "json"
numOfRows = 12
pageNo = 1

# base_url?요청파라미터1=값&요청파라미터2=값&....
url = f"{base_url}?ServiceKey={serviceKey}&searchYearCd={searchYearCd}&siDo={siDo}&guGun={guGun}&type={request_type}&numOfRows={numOfRows}&pageNo={pageNo}"
print(url)

In [None]:
# 뭘 반복할 것인가? 서울 강남구(11, 680) / 경기 성남시 분당구(41, 135)
# 변수 리스트로 정의해보자.
# target = [(11, 680), (41, 135)]
import requests

# 타겟 데이터
target = [
    {"name": "서울 강남구", "siDo": 11, "guGun": 680},
    {"name": "경기 성남시 분당구", "siDo": 41, "guGun": 135},
]

base_url = (
    "http://apis.data.go.kr/B552061/frequentzoneLgrViolt/getRestFrequentzoneLgrViolt"
)

# 요청파라미터
serviceKey = os.getenv("PUBLIC_DATA_API_KEY")
searchYearCd = 2017
request_type = "json"
numOfRows = 12
pageNo = 1

data_list = []
for x in target:
    siDo = x["siDo"]
    guGun = x["guGun"]
    print(f"{x['name']}, siDo={siDo}, guGun={guGun}")

    url = f"{base_url}?ServiceKey={serviceKey}&searchYearCd={searchYearCd}&siDo={siDo}&guGun={guGun}&type={request_type}&numOfRows={numOfRows}&pageNo={pageNo}"
    print(url)

    # 요청하고
    response = requests.get(url)
    if response.status_code != 200:
        print("문제가 생겼습니다.")
        break

    # 데이터 추출하고
    data = response.json()
    item_list = data["items"]["item"]
    print(f"{len(item_list)}개의 데이터를 수집했습니다.")

    # 합친다.
    data_list.extend(item_list)
    print("합체")


## (과제 3) 법정동코드 API로 불러와서 데이터로 저장하기

https://www.data.go.kr/data/15077871/openapi.do

### (1) URL 만들기

In [None]:
from urllib.parse import unquote

base_url = "http://apis.data.go.kr/1741000/StanReginCd/getStanReginCdList"

# params 안에는 인코딩 되기 전의 값을 넣어야 한다.
# requests 기능에 params로 입력하면 자동으로 인코딩이 되기 때문에
params = {
    "ServiceKey": unquote(
        os.getenv("PUBLIC_DATA_API_KEY")
    ),  # 인코딩 되기 전을 입력해야 한다.
    "pageNo": 1,
    "numOfRows": 1000,
    "type": "json",
    # "locatadd_nm": "서울특별시"
}


### (2) 요청하기

In [None]:
import requests

response = requests.get(base_url, params=params)
if response.status_code != 200:
    print("문제가 생겼어요")
print(response.text)

### (3) 데이터 추출하기

In [None]:
data = response.json()
data

In [None]:
print(data.keys())

In [None]:
# 리스트로 되어 있다.
print(len(data["StanReginCd"]))
data["StanReginCd"][1]

In [None]:
item_list = data["StanReginCd"][1]["row"]
print(f"{len(item_list)}개의 데이터가 있습니다")
print(item_list)

### (4) 반복문으로 전체 데이터 수집하기

In [None]:
from urllib.parse import unquote

import requests

base_url = "http://apis.data.go.kr/1741000/StanReginCd/getStanReginCdList"

# params 안에는 인코딩 되기 전의 값을 넣어야 한다.
# requests 기능에 params로 입력하면 자동으로 인코딩이 되기 때문에
params = {
    "ServiceKey": unquote(
        os.getenv("PUBLIC_DATA_API_KEY")
    ),  # 인코딩 되기 전을 입력해야 한다.
    "pageNo": 1,  # 반복문마다 바뀌어야 한다.
    "numOfRows": 1000,
    "type": "json",
    # "locatadd_nm": "서울특별시"
}

# 뭘 반복할 것인가? 매 반복마다 pageNo 1씩 증가한다.
## 무한 반복문 사용
## 매 반복마다 마지막에는 pageNo 1씩 증가
## 매 반복마다 item_list 뽑을건데, 그 길이가 1000보다 작으면 그만해야겠다.
pageNo = 1
data_list = []
while True:
    # pageNo 업데이트
    params["pageNo"] = pageNo
    print(f"params에 pageNo={pageNo}가 업데이트 되었습니다.")

    # 요청을 하고,
    response = requests.get(base_url, params=params)
    if response.status_code != 200:
        break

    # 데이터를 추출하고,
    data = response.json()
    item_list = data["StanReginCd"][1]["row"]
    print(f"\t{len(item_list)} 개의 데이터를 수집했습니다.", end="")

    # 합친다.
    data_list.extend(item_list)
    print("> 합체")

    pageNo += 1

    # 조건문: 길이가 1000보다 작으면 멈추기
    if len(item_list) < 1000:
        print("데이터를 모두 수집했습니다.")
        break


# 3. 네이버 API

In [None]:
from dotenv import load_dotenv

load_dotenv()

In [None]:
import os
# print(os.getenv("X-Naver-Client-Id"))

## 1) URL 만들기

### 방법 1

In [None]:
import urllib

base_url = "https://openapi.naver.com/v1/search/news.json"

query = urllib.parse.quote("인공지능")  # 인코딩 필요
display = 100
start = 1
sort = "sim"

url = f"{base_url}?query={query}&display={display}&start={start}&sort={sort}"
print(url)

### 방법 2

In [None]:
base_url = "https://openapi.naver.com/v1/search/news.json"

params = {
    "query": "인공지능",  # 인코딩 안해도 됨
    "display": 100,
    "start": 1,
    "sort": "sim",
}

## 2) 요청하기

In [None]:
# 헤더
headers = {
    "X-Naver-Client-Id": os.getenv("X-Naver-Client-Id"),
    "X-Naver-Client-Secret": os.getenv("X-Naver-Client-Secret"),
}

### 방법 1

In [None]:
import requests

response = requests.get(url, headers=headers)
print(response.status_code)

### 방법 2

In [None]:
import requests

response = requests.get(base_url, params=params, headers=headers)
print(response.status_code)

## 3) 데이터 확인하기

In [None]:
print(response.text)

In [None]:
data = response.json()
data

## 4) 데이터 수집하기

In [None]:
print(data.keys())

In [None]:
item_list = data["items"]
print(f"총 {len(item_list)}개 데이터를 수집했습니다.")

## 5) 데이터프레임 만들기 & 저장하기

In [None]:
import pandas as pd

df = pd.DataFrame(item_list)
df.head()

In [None]:
df.to_csv("./data/네이버_뉴스_인공지능(260127).csv")

In [None]:
# 여러개의 데이터를 얻기 위해서는 반복문 (최대 몇개까지 가져올 수 있을까요?)

base_url = "https://openapi.naver.com/v1/search/news.json"

params = {
    "query": "인공지능",  # 인코딩 안해도 됨
    "display": 1,
    "start": 1000,
    "sort": "sim",
}

# 헤더
headers = {
    "X-Naver-Client-Id": os.getenv("X-Naver-Client-Id"),
    "X-Naver-Client-Secret": os.getenv("X-Naver-Client-Secret"),
}

import requests

response = requests.get(base_url, params=params, headers=headers)
print(response.status_code)

In [None]:
response.json()

In [None]:
# 1 - 100
# 101 - 200
# ...
# 901 - 1000
# 1000 -
for start in range(1, 1002, 100):
    if start > 1000:
        start = 1000
    print(start)

In [None]:
import requests

base_url = "https://openapi.naver.com/v1/search/news.json"

# 헤더
headers = {
    "X-Naver-Client-Id": os.getenv("X-Naver-Client-Id"),
    "X-Naver-Client-Secret": os.getenv("X-Naver-Client-Secret"),
}


params = {
    "query": "인공지능",  # 인코딩 안해도 됨
    "display": 100,
    "start": 1,
    "sort": "sim",
}

response = requests.get(base_url, params=params, headers=headers)
print(response.status_code)

# 4. Youtube API

In [None]:
from dotenv import load_dotenv

load_dotenv()

In [None]:
import os

# print(os.getenv("YOUTUBE_API_KEY"))

## 1) URL 만들기

In [None]:
base_url = "https://www.googleapis.com/youtube/v3/commentThreads"

part = "snippet"
videoId = "_xOnGP_Js1A"  # 댓글 수집할 영상
key = os.getenv("YOUTUBE_API_KEY")
maxResults = 100  # 최대 100개
textFormat = "plainText"

url = f"{base_url}?part={part}&videoId={videoId}&key={key}&maxResults={maxResults}&textFormat={textFormat}"
print(url)

## 2) 요청하기

In [None]:
import requests

response = requests.get(url)
print(response.status_code)

## 3) 데이터 확인하기

In [None]:
print(response.text)

In [None]:
data = response.json()
data

## 4) 데이터 수집하기

In [None]:
# 똑같은 키를 가진 딕셔너리가 여러 개 모여있는 리스트를 찾아야 한다.
print(data.keys())

In [None]:
items = data["items"]
items

In [None]:
items[0]["snippet"]["topLevelComment"]["snippet"]

In [None]:
item_list = []
for item in items:
    item_list.append(item["snippet"]["topLevelComment"]["snippet"])

item_list

## 5) 데이터프레임 만들기 & 저장하기

In [None]:
import pandas as pd

df = pd.DataFrame(items)
df.head()

In [None]:
df = pd.DataFrame(item_list)
df.head()

## 6) 반복문 활용하여 댓글 많이 수집하기

In [None]:
# Youtube API 댓글 수집은 한 번 요청할 때 maxResults 100까지만 쓸 수 있다.
# 1번 요청하고, 그 다음 요청할 때 nextPageToken 파라미터도 함께 넣어줘야 합니다.

In [None]:
# 1. 변수 설정: nextPageToken=None, data_list(데이터수집바구니), max_rep(최대반복수)
# 2. max_rep만큼 반복문
# 3. API 요청
# 4. 응답받아온다.
# 5. nextPageToken 추출해서 변수 값을 업데이트 한다. nextPageToken=data.get("nextPageToken")
#    만약에 data.get("nextPageToken")이 없다면 반복문 중지
# 6. 데이터를 수집한다.
# 7. data_list에 담는다.

In [None]:
# YouTube 댓글 수집하기
import requests

# 1. 변수 설정
base_url = "https://www.googleapis.com/youtube/v3/commentThreads"

part = "snippet"
videoId = "_xOnGP_Js1A"  # 댓글 수집할 영상
key = os.getenv("YOUTUBE_API_KEY")
maxResults = 100  # 최대 100개
textFormat = "plainText"
nextPageToken = None

data_list = []
max_rep = 10

# 2. max_rep만큼 반복문
for i in range(max_rep):
    print(f"{i + 1} 번째 데이터 수집을 시작합니다.")
    url = f"{base_url}?part={part}&videoId={videoId}&key={key}&maxResults={maxResults}&textFormat={textFormat}&nextPageToken={nextPageToken}"

    # 3. API 요청
    response = requests.get(url)
    if response.status_code == 200:
        # 4. 응답받아온다.
        data = response.json()

        # 5. nextPageToken 추출해서 변수 값을 업데이트 한다.
        nextPageToken = data.get("nextPageToken")

        # 6. 데이터를 수집한다.
        items = data["items"]
        item_list = []
        for item in items:
            item_list.append(item["snippet"]["topLevelComment"]["snippet"])

        print(f"\t{len(item_list)} 개의 데이터를 수집했습니다.")

        # 7. data_list에 담는다.
        data_list.extend(item_list)

        if nextPageToken is None:
            print("다음 페이지가 없어 종료합니다.")
            break

In [None]:
import pandas as pd

df = pd.DataFrame(data_list)
print(df.shape)
df.head()

In [None]:
# YouTube 댓글 수집하기
import requests

# 1. 변수 설정
base_url = "https://www.googleapis.com/youtube/v3/commentThreads"

params = {
    "part": "snippet",
    "videoId": "_xOnGP_Js1A",
    "key": os.getenv("YOUTUBE_API_KEY"),
    "maxResults": 100,
    "textFormat": "plainText",
    "nextPageToken": None,
}

data_list = []
max_rep = 10

# 2. max_rep만큼 반복문
for i in range(max_rep):
    print(f"{i + 1} 번째 데이터 수집을 시작합니다.")
    # 3. API 요청
    response = requests.get(url, params=params)
    if response.status_code == 200:
        # 4. 응답받아온다.
        data = response.json()

        # 5. nextPageToken 추출해서 변수 값을 업데이트 한다.
        params["nextPageToken"] = data.get("nextPageToken")

        # 6. 데이터를 수집한다.
        items = data["items"]
        item_list = []
        for item in items:
            item_list.append(item["snippet"]["topLevelComment"]["snippet"])

        print(f"\t{len(item_list)} 개의 데이터를 수집했습니다.")

        # 7. data_list에 담는다.
        data_list.extend(item_list)

        if nextPageToken is None:
            print("다음 페이지가 없어 종료합니다.")
            break