In [None]:
# uv add requests python-dotenv
## python-dotenv : .env에 있는 정보를 가져오는 도구
## requests: API 요청하는 도구

# API KEY 불러오기

In [None]:
from dotenv import load_dotenv

load_dotenv()

In [None]:
# API 확인
import os

print(os.getenv("SEOUL_PUBLIC_API_KEY"))
## !!!! API 유출 방지를 위해 출력이 확인되면 출력 내용을 지워야 한다.

# 1. 서울 열린데이터 광장

## 1) URL 만들기

In [None]:
# 데이터 사이트: https://data.seoul.go.kr/dataList/OA-13252/F/1/datasetView.do

# http://openapi.seoul.go.kr:8088/(인증키)/json/tbCycleStationInfo/1/5/
base_url = "http://openapi.seoul.go.kr:8088"

key = os.getenv("SEOUL_PUBLIC_API_KEY")
request_type = "json"
service = "tbCycleStationInfo"
start_index = 1
end_index = 5

url = f"{base_url}/{key}/{request_type}/{service}/{start_index}/{end_index}"
print(url)

## 2) 요청하기

In [None]:
import requests

response = requests.get(url)
print(response)

## 3) 데이터 확인하기

In [None]:
# 데이터를 텍스트로 가져오기
print(type(response.text))
print(response.text)

In [None]:
# 데이터를 딕셔너리로 가져오기
print(type(response.json()))
print(response.json())

In [None]:
data = response.json()
data

In [None]:
print(data.keys())

In [None]:
print(data["stationInfo"].keys())

In [None]:
items = data["stationInfo"]["row"]
print(len(items))
print(items)

## 4) 데이터 요청 제한 확인하기

### (1) URL 만들기

In [None]:
# 데이터 사이트: https://data.seoul.go.kr/dataList/OA-13252/F/1/datasetView.do

# http://openapi.seoul.go.kr:8088/(인증키)/json/tbCycleStationInfo/1/5/
base_url = "http://openapi.seoul.go.kr:8088"

key = os.getenv("SEOUL_PUBLIC_API_KEY")
request_type = "json"
service = "tbCycleStationInfo"
start_index = 1
end_index = 1001  # 3210, 1001로 바꿔보세요.

url = f"{base_url}/{key}/{request_type}/{service}/{start_index}/{end_index}"
print(url)

### (2) 요청하기

In [None]:
import requests

response = requests.get(url)
print(response)
print(response.status_code)


### (3) 데이터 확인하기

In [None]:
# 데이터를 텍스트로 가져오기
print(type(response.text))
print(response.text)

In [None]:
# 한 번 요청할 때 1000개만 가져올 수 있다. -- 반복문
## 전체가 3210개 -- 몇 번 요청 4
## start - end
## 1 - 1000
## 1001 - 2000
## 2001 - 3000
## 3001 - 4000

In [None]:
## 0. start = 1 변수를 만든다. item_list를 만든다.
## 1. 4번 반복하는 반복문을 만든다.
## 2. 반복할 때마다 end를 생성하고, start, end를 출력한다.
## 3. start, end가 반영된 URL를 만든다.
## 4. URL을 요청한다.
## 5. 응답받은 데이터에서 items를 추출한다.
## 6. 그리고 start를 업데이트한다.
## 7. 반복문이 끝난 후, item_list의 개수를 출력한다. - 3210개가 맞는지 확인한다.
## 8. 데이터프레임으로 바꾼다.
## 9. 데이터를 저장한다.

In [None]:
## (추가 미션) range(start, end, step) 이용해보기 , While True: 이용해보기

In [None]:
import pandas as pd

In [None]:
def getUrl(start, end):
    return f"{base_url}/{key}/{request_type}/{service}/{start}/{end}"


def save(item_list):
    df = pd.DataFrame(item_list)
    df.to_csv("../data/seoul_open_data_square.csv")

In [None]:
# Hint:
item_list = []
start = 1

for i in range(4):
    end = start + 1000 - 1
    print(start, end)
    url = getUrl(start, end)
    response = requests.get(url)
    data = response.json()
    item_list.extend(data["stationInfo"]["row"])
    start += 1000

print(len(item_list))

save(item_list)

In [None]:
# Hint:
item_list = []

for start in range(1, 4001, 1000):
    end = start + 1000 - 1
    print(start, end)
    url = getUrl(start, end)
    response = requests.get(url)
    data = response.json()
    item_list.extend(data["stationInfo"]["row"])

print(len(item_list))

save(item_list)

In [None]:
item_list = []

start = 1
count = 0
max_count = 4

while True:
    if count > max_count - 1:
        break
    end = start + 1000 - 1
    url = getUrl(start, end)
    response = requests.get(url)
    data = response.json()
    item_list.extend(data["stationInfo"]["row"])
    start += 1000
    count += 1

print(len(item_list))

save(item_list)

# 2. 공공데이터포털

In [None]:
from dotenv import load_dotenv

load_dotenv()

In [None]:
import os

print(os.getenv("PUBLIC_DATA_API_KEY"))

## 1) URL 만들기

In [None]:
base_url = (
    "http://apis.data.go.kr/B552061/frequentzoneLgrViolt/getRestFrequentzoneLgrViolt"
)

serviceKey = os.getenv("PUBLIC_DATA_API_KEY")
searchYearCd = 2017
siDo = 11
guGun = 680
request_type = "json"
numOfRows = 12
pageNo = 1

# base_url?요청파라미터1=값&요청파라미터2=값&....
url = f"{base_url}?ServiceKey={serviceKey}&searchYearCd={searchYearCd}&siDo={siDo}&guGun={guGun}&type={request_type}&numOfRows={numOfRows}&pageNo={pageNo}"
print(url)

## 2) 요청하기

In [None]:
import requests

response = requests.get(url)
print(response.status_code)

## 3) 데이터 확인하기

In [None]:
print(response.text)

In [None]:
data = response.json()
data

## 4) 데이터 수집하기

In [None]:
print(data.keys())

In [None]:
print(len(data["items"]["item"]))

In [None]:
item_list = data["items"]["item"]
print(f"총 {len(item_list)} 개의 데이터를 수집했습니다.")

## 5) 데이터프레임 만들기 & 저장하기

In [None]:
df = pd.DataFrame(item_list)
df.head(2)

In [None]:
df.to_csv(
    "../data/한국도로교통공단_법규위반별 교통사고 다발지역_1168010100(260127).csv"
)

In [None]:
# 연도 기간을 설정해서 반복문으로 데이터를 수집할 수 있나요?

# 3. 네이버 API

## 1) URL 만들기

### 방법 1

In [None]:
import urllib

base_url = "https://openapi.naver.com/v1/search/news.json"

query = urllib.parse.quote("인공지능")  # 인코딩 필요
display = 100
start = 1
sort = "sim"

url = f"{base_url}?query={query}&display={display}&start={start}&sort={sort}"
print(url)

### 방법 2

In [None]:
base_url = "https://openapi.naver.com/v1/search/news.json"

params = {
    "query": "인공지능",  # 인코딩 안해도 됨
    "display": 100,
    "start": 1,
    "sort": "sim",
}

## 2) 요청하기

In [None]:
# 헤더
headers = {
    "X-Naver-Client-Id": os.getenv("NAVER_CLIENT_ID"),
    "X-Naver-Client-Secret": os.getenv("NAVER_CLIENT_SECRET"),
}

### 방법 1

In [None]:
import requests

response = requests.get(url, headers=headers)
print(response.status_code)

### 방법 2

In [None]:
import requests

response = requests.get(base_url, params=params, headers=headers)
print(response.status_code)

## 3) 데이터 확인하기

In [None]:
print(response.text)

## 4) 데이터 수집하기

In [None]:
print(data.keys())

In [None]:
item_list = data["items"]
print(f"총 {len(item_list)}개 데이터를 수집했습니다.")

## 5) 데이터 프레임 만들기 & 저장하기

In [None]:
import pandas as pd

df = pd.DataFrame(item_list)
df.head()

# 4. Youtube API

In [None]:
from dotenv import load_dotenv

load_dotenv()

In [None]:
import os

os.getenv("YOUTUBE_API_KEY")

## 1) URL 만들기

In [None]:
base_url = "https://www.googleapis.com/youtube/v3/commentThreads"

part = "snippet"
videoId = "_xOnGP_Js1A"  # 댓글 수집할 영상
key = os.getenv("YOUTUBE_API_KEY")
maxResults = 100  # 최대 100개
textFormat = "plainText"

url = f"{base_url}?part={part}&videoId={videoId}&key={key}&maxResults={maxResults}&textFormat={textFormat}"
print(url)

In [None]:
params = {
    "part": "snippet",
    "videoId": "_xOnGP_Js1A",
    "key": os.getenv("YOUTUBE_API_KEY"),
    "maxResults": 100,
    "textFormat": "plainText",
}

## 2) 요청하기

In [None]:
import requests as req

res = req.get(url)
print(res.status_code)

In [None]:
import requests as req

res = req.get(base_url, params=params)
print(res.status_code)

## 3) 데이터 확인하기

In [None]:
print(res.text)

In [None]:
data = res.json()
data

## 4) 데이터 수집하기

In [None]:
print(data.keys())

In [None]:
items = data["items"]
items

In [None]:
items[0]["snippet"]["topLevelComment"]["snippet"]

In [None]:
item_list = []
for item in items:
    item_list.append(item["snippet"]["topLevelComment"]["snippet"])

item_list

## 5) 데이터 프레임 만들기 & 저장하기

In [None]:
import pandas as pd

df = pd.DataFrame(items)
df.head()

In [None]:
df = pd.DataFrame(item_list)
df.head()

## 6) 반복문 활용하여 댓글 많이 수집하기

In [None]:
# Youtube API 댓글 수집은 한 번 요청할 때 maxResults 100까지만 쓸 수 있다.
# 1번 요청하고, 그 다음 요청할 때 nextPageToken 파라미터도 함께 넣어줘야 합니다.

In [None]:
# 1. 변수 설정: nextPageToken=None, data_list(데이터수집바구니), max_rep(최대반복수)
# 2. max_rep만큼 반복문
# 3. API 요청
# 4. 응답받아온다.
# 5. nextPageToken 추출해서 변수 값을 업데이트 한다. nextPageToken=data["nextPageToken"]
#    만약에 data["nextPageToken"]이 없다면 반복문 중지
# 6. 데이터를 수집한다.
# 7. data_list에 담는다.

In [None]:
nextPageToken = None
data_list = []
max_req = 100
p = params

for i in range(max_req):
    res = req.get(base_url, params=p)
    items = res.json()
    data = item["snippet"]["topLevelComment"]["snippet"]
    nextPageToken = data.get("nextPageToken")
    p = {**params, "pageToken": nextPageToken}
    data_list.extend(data)

print(data_list)


In [None]:
# YouTube 댓글 수집하기
import requests

# 1. 변수 설정
base_url = "https://www.googleapis.com/youtube/v3/commentThreads"

part = "snippet"
videoId = "_xOnGP_Js1A"  # 댓글 수집할 영상
key = os.getenv("YOUTUBE_API_KEY")
maxResults = 100  # 최대 100개
textFormat = "plainText"
nextPageToken = None

data_list = []
max_rep = 10

# 2. max_rep만큼 반복문
for i in range(max_rep):
    print(f"{i + 1} 번째 데이터 수집을 시작합니다.")
    url = f"{base_url}?part={part}&videoId={videoId}&key={key}&maxResults={maxResults}&textFormat={textFormat}&nextPageToken={nextPageToken}"

    # 3. API 요청
    response = requests.get(url)
    if response.status_code == 200:
        # 4. 응답받아온다.
        data = response.json()

        # 5. nextPageToken 추출해서 변수 값을 업데이트 한다.
        nextPageToken = data.get("nextPageToken")

        # 6. 데이터를 수집한다.
        items = data["items"]
        item_list = []
        for item in items:
            item_list.append(item["snippet"]["topLevelComment"]["snippet"])

        print(f"\t{len(item_list)} 개의 데이터를 수집했습니다.")

        # 7. data_list에 담는다.
        data_list.extend(item_list)

        if nextPageToken is None:
            print("다음 페이지가 없어 종료합니다.")
            break

In [None]:
data