In [1]:
import json
import random
import time
from datetime import datetime

import pandas as pd
import requests

In [2]:
def get_cities():
    response = requests.post("http://www.caac.gov.cn/caacgov/frontend/flight/plan/getcitys")
    response = response.json()

    if response["success"]:
        cities = response["root"]
        return cities
    else:
        print(f"[ERROR]: {response['message']}")

In [3]:
cities = get_cities()

output = open("./data/cities.json", "w", encoding="utf-8")
json.dump(cities, output)
output.close()

In [4]:
def get_flight_plans(ori_city, arr_city):
    flight_plans = []

    page_index = 1
    page_size = 10

    response = requests.post("http://www.caac.gov.cn/caacgov/frontend/flight/plan/getlist.do", data={"ori": ori_city, "arr": arr_city, "pageIndex": page_index, "pageSize": page_size})
    response = response.json()

    if response["success"]:
        total_count = response["root"]["total"]
        flight_plans += response["root"]["root"]

        print(f"从{ori_city} 至 {arr_city} 共有{total_count}条数据:")
        print(f"\t正在查询第{len(flight_plans)} / {total_count}条")

        while len(flight_plans) < total_count:
            random_sleep_time = random.randint(1, 10)
            print(f"\t\t休息{random_sleep_time}秒...")
            time.sleep(random_sleep_time)

            page_index += 1

            response = requests.post("http://www.caac.gov.cn/caacgov/frontend/flight/plan/getlist.do", data={"ori": ori_city, "arr": arr_city, "pageIndex": page_index, "pageSize": page_size})
            response = response.json()

            flight_plans += response["root"]["root"]

            print(f"\t正在查询第{len(flight_plans)} / {total_count}条")

        random_sleep_time = random.randint(1, 10)
        print(f"\t\t休息{random_sleep_time}秒...")
        time.sleep(random_sleep_time)

        return flight_plans
    else:
        print(f"从{ori_city} 至 {arr_city}: {response['message']}")

        random_sleep_time = random.randint(1, 10)
        print(f"\t休息{random_sleep_time}秒...")
        time.sleep(random_sleep_time)

In [5]:
cities_cn_us = [
    ["洛杉矶", "北京"],
    ["洛杉矶", "深圳"],
    ["纽约", "上海"],
    ["纽约", "福州"],
    ["洛杉矶", "广州"],
    ["洛杉矶", "厦门"],
    ["旧金山", "上海"],
    ["西雅图", "上海"],
    ["底特律", "上海"],
    ["达拉斯", "上海"],
]

In [6]:
all_plans = {}

for schedule in cities_cn_us:
    ori_city = schedule[0]
    arr_city = schedule[1]

    plans = get_flight_plans(ori_city, arr_city)

    if plans:
        key = ori_city + "-" + arr_city
        all_plans[key] = plans

        output = open("./data/plans.json", "w", encoding="utf-8")
        json.dump(all_plans, output)
        output.close()

从洛杉矶 至 北京 共有30条数据:
	正在查询第15 / 30条
		休息4秒...
	正在查询第30 / 30条
		休息2秒...
从洛杉矶 至 深圳 共有23条数据:
	正在查询第15 / 23条
		休息6秒...
	正在查询第23 / 23条
		休息4秒...
从纽约 至 上海 共有46条数据:
	正在查询第15 / 46条
		休息9秒...
	正在查询第30 / 46条
		休息6秒...
	正在查询第45 / 46条
		休息6秒...
	正在查询第46 / 46条
		休息7秒...
从纽约 至 福州 共有7条数据:
	正在查询第7 / 7条
		休息3秒...
从洛杉矶 至 广州 共有51条数据:
	正在查询第15 / 51条
		休息2秒...
	正在查询第30 / 51条
		休息5秒...
	正在查询第45 / 51条
		休息6秒...
	正在查询第51 / 51条
		休息6秒...
从洛杉矶 至 厦门 共有52条数据:
	正在查询第15 / 52条
		休息9秒...
	正在查询第30 / 52条
		休息7秒...
	正在查询第45 / 52条
		休息4秒...
	正在查询第52 / 52条
		休息6秒...
从旧金山 至 上海 共有120条数据:
	正在查询第15 / 120条
		休息7秒...
	正在查询第30 / 120条
		休息5秒...
	正在查询第45 / 120条
		休息8秒...
	正在查询第60 / 120条
		休息1秒...
	正在查询第75 / 120条
		休息2秒...
	正在查询第90 / 120条
		休息3秒...
	正在查询第105 / 120条
		休息2秒...
	正在查询第120 / 120条
		休息5秒...
从西雅图 至 上海 共有60条数据:
	正在查询第15 / 60条
		休息7秒...
	正在查询第30 / 60条
		休息6秒...
	正在查询第45 / 60条
		休息4秒...
	正在查询第60 / 60条
		休息9秒...
从底特律 至 上海 共有60条数据:
	正在查询第15 / 60条
		休息4秒...
	正在查询第30 / 60条
		休息4秒...
	正在查询第45 / 60条
		休息9秒...
	正在查询第60 / 60条
		休息3秒..