In [None]:
import os
import urllib
import shutil

import dask
import dask.dataframe as dd
import pandas as pd

In [None]:
folder_path = os.path.join(os.getcwd(), "../data/nyc-flights")
download_url = "https://d37ci6vzurychx.cloudfront.net/trip-data/yellow_tripdata_2023-06.parquet"
file_name = "*.csv"
file_path = os.path.join(folder_path, file_name)
if not os.path.exists(folder_path):
    # 创建文件夹
    os.makedirs(folder_path)
    print(f"文件夹 {folder_path} 不存在，已创建。")
    # 下载并保存 Parquet 文件
    with urllib.request.urlopen(download_url) as response, open(file_path, 'wb') as out_file:
        shutil.copyfileobj(response, out_file)
    print("数据已下载并保存为 Parquet 文件。")
else:
    print(f"文件夹 {folder_path} 已存在，无需操作。")

使用 `read_csv()` 方法读取数。原始数据有很多列，其中前三列分别为，年：`Year`，月：`Month`，日：`DayofMonth`，`parse_dates` 将这三列解析为时间 `datetime64` 类型，并生成一个新的列 `Date`。

In [None]:
ddf_flights = dd.read_csv(file_path, parse_dates={'Date': [0, 1, 2]})

查看这份数据的前 5 行：

In [None]:
ddf_flights

至少到这一步，Dask DataFrame 的操作看起来与 pandas 的操作很像，接下来我们看一些不一样的。获取 `df` 的最后 5 行：

In [None]:
import traceback
try:
    ddf.tail(5)
except Exception:
    traceback.print_exc()

`traceback` 将 `df.tail(5)` 抛出的异常捕获。为什么抛出了异常？因为 Dask DataFrame 读取数据时，只是读取了前几行，并用前几行推断数据的类型。前几行数据中，`CRSElapsedTime` 列是空的，Dask 猜测该字段为 `float64` 类型，但后面一些行有数据了，是 `int64` 类型。