#### Pandas DataFrame - OPEN API 데이터 필터링


In [1]:
import pandas as pd
import requests as req
import json

In [2]:
# API KEY
with open("../data/API_KEYS.json") as f :
    api_keys = json.loads(f.read())

# 공공데이터
# 오픈 API key
serviceKey = api_keys["GO_DATA_KEY"]

# Request Parameter
# base url
url = "http://apis.data.go.kr/B552584/ArpltnInforInqireSvc"
# end point
endpoint = "/getCtprvnRltmMesureDnsty"

req_url = url + endpoint

sidoName = "서울"

# 응답 데이터 관련 요청 변수
pageNo = 1
numOfRows = 100
params = {
    "serviceKey": serviceKey,
    "returnType": "json",
    "numOfRows": numOfRows,
    "pageNo": pageNo,
    "sidoName": sidoName,
    "ver": "1.0",
}

res = req.get(req_url, params=params)
res_data = res.json()
item = res_data["response"]["body"]["items"]

# Open API 데이터의 정보 3개를 확인하는 코드를 작성
result = []
for i in item:
    result.append(
        {
            "dataTime": i["dataTime"],
            "sidoName": i["sidoName"],
            "stationName": i["stationName"],
            "pm10Value": i["pm10Value"],
            "pm25Value": i["pm25Value"],
        }
    )

df = pd.DataFrame(result)
df

Unnamed: 0,dataTime,sidoName,stationName,pm10Value,pm25Value
0,2024-12-20 08:00,서울,중구,49,40
1,2024-12-20 08:00,서울,한강대로,56,36
2,2024-12-20 08:00,서울,종로구,55,38
3,2024-12-20 08:00,서울,청계천로,59,36
4,2024-12-20 08:00,서울,종로,47,26
5,2024-12-20 08:00,서울,용산구,52,34
6,2024-12-20 08:00,서울,광진구,47,31
7,2024-12-20 08:00,서울,성동구,53,31
8,2024-12-20 08:00,서울,강변북로,65,38
9,2024-12-20 08:00,서울,중랑구,52,34


In [3]:
# 1. 열 stationName 만 선택하여 출력
df[["stationName"]]

Unnamed: 0,stationName
0,중구
1,한강대로
2,종로구
3,청계천로
4,종로
5,용산구
6,광진구
7,성동구
8,강변북로
9,중랑구


In [4]:
# 2. 열 pm10Value stationName 을 선택하여 모든 행을 출력
df[["stationName", "pm10Value"]]

Unnamed: 0,stationName,pm10Value
0,중구,49
1,한강대로,56
2,종로구,55
3,청계천로,59
4,종로,47
5,용산구,52
6,광진구,47
7,성동구,53
8,강변북로,65
9,중랑구,52


In [5]:
# 3. 열 pm10Value 가 50 이상인 행만 출력
type(df["pm10Value"])
df = df.replace({"pm10Value": "-"}, 0)
df[(df["pm10Value"]).astype(int) >= 50]

Unnamed: 0,dataTime,sidoName,stationName,pm10Value,pm25Value
1,2024-12-20 08:00,서울,한강대로,56,36
2,2024-12-20 08:00,서울,종로구,55,38
3,2024-12-20 08:00,서울,청계천로,59,36
5,2024-12-20 08:00,서울,용산구,52,34
7,2024-12-20 08:00,서울,성동구,53,31
8,2024-12-20 08:00,서울,강변북로,65,38
9,2024-12-20 08:00,서울,중랑구,52,34
10,2024-12-20 08:00,서울,동대문구,54,30
11,2024-12-20 08:00,서울,홍릉로,50,27
13,2024-12-20 08:00,서울,정릉로,51,32


In [6]:
# 4. 열 pm10Value 가 50 이상이고, pm25Value가 40 이상인 모든 행 출력
df = df.replace({"pm25Value": "-"}, 0)
df[(df["pm10Value"].astype(int) >= 50) & (df["pm25Value"].astype(int) >= 40)]

Unnamed: 0,dataTime,sidoName,stationName,pm10Value,pm25Value
30,2024-12-20 08:00,서울,강남대로,73,41
34,2024-12-20 08:00,서울,금천구,59,42
37,2024-12-20 08:00,서울,양천구,60,40
