# 第 9 章: 基本的なデータ分析パイプラインの構築

ニューヨーク市のタクシー運行データ（[NYC Taxi Dataset](https://www.nyc.gov/site/tlc/about/tlc-trip-record-data.page)）を使用して、データ分析の一般的なワークフローを実装します。</br>
NYC Taxi Datasetは、実際のタクシー運行記録に関するオープンなデータセットで、データエンジニアリングの学習に広く使用されています。

生データの取り込みからIcebergテーブルへの保存、Apache Sparkでの変換・集計、そしてApache Supersetでのダッシュボード作成まで、実際のデータ分析で必要となる一連の処理を体験します。

以下のステップでパイプラインを構築します。

1. **データ取り込み**：NYC TaxiデータをParquet形式で取得し、初期データを確認する
2. **Icebergテーブルへの保存**：取得したデータをIcebergテーブルとして保存する
3. **データ変換と集計**：Sparkを使用してデータの変換と集計処理を実行し、分析用の集計テーブルを作成する
4. **可視化**：オープンソースの可視化ツールであるApache Superset[^superset]からTrinoを経由してIcebergテーブルにアクセスし、インタラクティブなダッシュボードを作成する

## 1. 環境のセットアップ

In [None]:
import pyspark
from pyspark.conf import SparkConf
from pyspark.sql import SparkSession
from pyspark.sql.functions import col, avg, sum, count, hour, dayofweek, month, year, date_format, to_date
from datetime import datetime
import pandas as pd

CATALOG = "demo"
CATALOG_URL = "http://server:8181/"
S3_ENDPOINT = "http://minio:9000"
SPARK_VERSION = pyspark.__version__
SPARK_MINOR_VERSION = '.'.join(SPARK_VERSION.split('.')[:2])
ICEBERG_VERSION = "1.8.1"

In [None]:
# SparkSessionの作成
spark = (
    SparkSession.builder
        .appName("NYC Taxi Data Pipeline")
        .config("spark.jars.packages", f"org.apache.iceberg:iceberg-spark-runtime-{SPARK_MINOR_VERSION}_2.12:{ICEBERG_VERSION},org.apache.iceberg:iceberg-aws-bundle:{ICEBERG_VERSION}")
        .config(f"spark.sql.catalog.{CATALOG}", "org.apache.iceberg.spark.SparkCatalog")
        .config(f"spark.sql.catalog.{CATALOG}.type", "rest")
        .config(f"spark.sql.catalog.{CATALOG}.uri", CATALOG_URL)
        .config(f"spark.sql.catalog.{CATALOG}.s3.endpoint", S3_ENDPOINT)
        .config(f"spark.sql.catalog.{CATALOG}.view-endpoints-supported", "true")
        .config("spark.sql.extensions", "org.apache.iceberg.spark.extensions.IcebergSparkSessionExtensions")
        .config("spark.sql.defaultCatalog", CATALOG)
        .getOrCreate()
)

In [None]:
%sql spark

In [None]:
# カタログとデータベースの作成
spark.sql("CREATE DATABASE IF NOT EXISTS nyc_taxi")

## 2. NYC Taxiデータの取得と初期探索

ハンズオン環境には、2022年1月分のタクシー運行記録がParquet形式で保存されています。

In [None]:
# NYC Taxiデータの読み込み（既にDockerイメージ内に配置済み）
df_taxi = spark.read.parquet("/home/jovyan/data/yellow_tripdata_2022-01.parquet")

### データの概要を確認

In [None]:
print(f"レコード数: {df_taxi.count():,}")
print(f"カラム数: {len(df_taxi.columns)}")
df_taxi.printSchema()

In [None]:
df_taxi.show(5, truncate=False)

In [None]:
df_taxi.select("trip_distance", "fare_amount", "tip_amount", "total_amount") \
    .summary("count", "mean", "stddev", "min", "max") \
    .show()

## 3. Icebergテーブルへのデータ保存

取得したデータを保存するIcebergテーブルを作成します。</br>
ここで、ユーザーからのヒアリングを通じて、タクシー運行データを分析する際に乗車日時（`tpep_pickup_datetime`）を`WHERE`句で指定することが分かったとしましょう。そこで、パフォーマンス向上のため、乗車日時（`tpep_pickup_datetime`）をもとに日付単位のパーティショニングすることにします

`tpep_pickup_datetime`カラムは`timestamp`型なので、そのままパーティショニングに使用した場合、細かい粒度でパーティションが作成されてしまいます。そこで、テーブル作成時にTransform（変換）機能を使用することで、`tpep_pickup_datetime`カラムを日付単位でパーティショニングするように設定（`PARTITIONED BY (day(tpep_pickup_datetime))`）しています。

In [None]:
%%sql
CREATE OR REPLACE TABLE demo.nyc_taxi.yellow_trips_raw (
    VendorID BIGINT,
    tpep_pickup_datetime TIMESTAMP_NTZ,
    tpep_dropoff_datetime TIMESTAMP_NTZ,
    passenger_count DOUBLE,
    trip_distance DOUBLE,
    RatecodeID DOUBLE,
    store_and_fwd_flag STRING,
    PULocationID BIGINT,
    DOLocationID BIGINT,
    payment_type BIGINT,
    fare_amount DOUBLE,
    extra DOUBLE,
    mta_tax DOUBLE,
    tip_amount DOUBLE,
    tolls_amount DOUBLE,
    improvement_surcharge DOUBLE,
    total_amount DOUBLE,
    congestion_surcharge DOUBLE,
    airport_fee DOUBLE
)
USING iceberg
PARTITIONED BY (day(tpep_pickup_datetime))

In [None]:
%%sql
DESCRIBE TABLE demo.nyc_taxi.yellow_trips_raw

In [None]:
df_taxi.writeTo("demo.nyc_taxi.yellow_trips_raw").append()

In [None]:
%%sql
SELECT * FROM demo.nyc_taxi.yellow_trips_raw limit 10;

## 4. データ変換と集計テーブルの作成

ここでは、タクシー会社の運営におけるドライバーの配置を効率化するための分析を行います。たとえば、朝の通勤ラッシュ時にマンハッタンのビジネス街に十分な台数を配置できなければ、多くの乗客を逃してしまいます。</br>
一方で、需要の少ない深夜に過剰な台数を配置すれば、ドライバーの待機時間が増えて効率が悪化します。このような課題を解決するために、生の運行データから「いつ」「どこで」需要が高まるかを分析できる集計テーブルを作成します。

### 時間別集計テーブル（hourly_stats）

時間帯ごとの需要パターンを把握するための集計テーブルを作成します。

このテーブルから、「朝8時台にどのエリアで最も需要が高いか」といった情報を簡単に取得できます。たとえば、朝の通勤時間帯にマンハッタンのビジネス街で需要が集中していることが分かれば、その時間帯にドライバーを集中して配置できます。

In [None]:
%%sql
    
CREATE OR REPLACE TABLE demo.nyc_taxi.hourly_stats
USING iceberg
AS
SELECT
    date(tpep_pickup_datetime) as pickup_date,
    hour(tpep_pickup_datetime) as pickup_hour,
    PULocationID as pickup_location_id,
    COUNT(*) as trip_count,
    AVG(trip_distance) as avg_distance,
    AVG(fare_amount) as avg_fare,
    AVG(tip_amount) as avg_tip,
    SUM(total_amount) as total_revenue
FROM demo.nyc_taxi.yellow_trips_raw
WHERE tpep_pickup_datetime IS NOT NULL
    AND trip_distance > 0
    AND fare_amount > 0
GROUP BY date(tpep_pickup_datetime), hour(tpep_pickup_datetime), PULocationID

### 日別集計テーブル（daily_stats）

曜日による需要の違いを分析するための集計テーブルを作成します。

このテーブルから、「平日と週末で需要がどう変わるか」を把握できます。たとえば、週末は観光地への移動が増え、平日はビジネス街への短距離移動が中心になるといったパターンが見えてきます。

In [None]:
%%sql
CREATE OR REPLACE TABLE demo.nyc_taxi.daily_stats
USING iceberg
AS
SELECT
    date(tpep_pickup_datetime) as pickup_date,
    dayofweek(date(tpep_pickup_datetime)) as day_of_week,
    CASE
        WHEN dayofweek(date(tpep_pickup_datetime)) IN (1, 7) THEN 'Weekend'
        ELSE 'Weekday'
    END as day_type,
    COUNT(*) as trip_count,
    AVG(trip_distance) as avg_distance,
    AVG(fare_amount) as avg_fare,
    AVG(CASE WHEN trip_distance > 0 THEN fare_amount / trip_distance END) as avg_fare_per_mile,
    SUM(total_amount) as total_revenue
FROM demo.nyc_taxi.yellow_trips_raw
WHERE tpep_pickup_datetime IS NOT NULL
    AND trip_distance > 0
    AND fare_amount > 0
GROUP BY date(tpep_pickup_datetime)

## 5. 分析クエリの実行

これらの集計テーブルを使って、配車担当者は時間帯別や曜日別の総乗車数を確認できます。まずはピーク時間帯を特定してみましょう。

In [None]:
%%sql
SELECT 
    pickup_hour,
    SUM(trip_count) as total_trips,
    AVG(avg_fare) as average_fare
FROM demo.nyc_taxi.hourly_stats
GROUP BY pickup_hour
ORDER BY total_trips DESC

曜日別の乗車パターンを分析して、平日と週末の需要の違いを把握してみましょう。

In [None]:
%%sql
-- 平日と週末の比較
SELECT 
    day_type,
    SUM(trip_count) as total_trips,
    AVG(avg_distance) as avg_trip_distance,
    AVG(avg_fare) as avg_fare
FROM nyc_taxi.daily_stats
GROUP BY day_type

## 6. Apache Supersetでの可視化

作成したIcebergテーブルは、Apache Supersetから可視化できます。

### Supersetへのアクセス
- URL: http://localhost:8088
- ユーザー名: admin
- パスワード: admin

### Trinoデータソースの設定手順
1. 画面右上の「Settings」 → 「Database Connections」をクリック
2. 画面右上の「Database」をクリック
3. 「Supported databases」のプルダウンから「Trino」を選択
4. 「SQLAlchemy URI」に以下の接続情報を入力：
   - `trino://trino@trino:8085/iceberg`
5. 「Test Connection」で接続を確認後、「Connect」をクリック

接続が完了したら、作成した集計テーブル（`nyc_taxi.hourly_stats`、`nyc_taxi.daily_stats`）をデータセットとして登録します。これにより、ドラッグ＆ドロップで様々なチャートを作成できるようになります。  
  
1. 画面右上の「+」メニュー → 「Data」→「Create Dataset」をクリック
2. Database に「Trino」を選択
3. Schema に「nyc_taxi」を選択
   - ここで、`nyc_taxi` は Iceberg テーブルを保存したスキーマ名です
4. Table に「yellow_trips_raw」を選択
5. 「CREATE DATASET AND CREATE CHART」をクリック