# タクシー運賃の予測 - Part1:モデリングのためのデータセットの準備

ニューヨーク市のタクシーの乗車と降車に関するデータセットから、タクシー運賃の予測モデルを作成します。ここでは準備としてデータセットのダウンロードとクレンジングを行います。
<br>
<br>
こちらは以下のチュートリアルをベースとしています。
<br>
https://docs.microsoft.com/ja-jp/azure/machine-learning/service/tutorial-data-prep

## 1．データの読み込み

2つのNYCタクシーデータセット (ブルータクシーデータとイエロータクシーデータ)をDataflowオブジェクトにダウンロードします。Dataflowオブジェクトは、DataFrameに類似したオブジェクトです。

In [None]:
import azureml.dataprep as dprep
from IPython.display import display

dataset_root = "https://dprepdata.blob.core.windows.net/demo"

green_path = "/".join([dataset_root, "green-small/*"])
yellow_path = "/".join([dataset_root, "yellow-small/*"]) 

green_df_raw = dprep.read_csv(path=green_path, header=dprep.PromoteHeadersMode.GROUPED)
# ファイルの種類を自動判別
yellow_df_raw = dprep.auto_read_file(path=yellow_path)

display(green_df_raw.head(5))
display(green_df_raw.head(5))

## 2．データのクレンジング

ブルータクシーデータに対して、全ての列の値がnullのレコードを削除し、列名を変更します。

In [None]:
all_columns = dprep.ColumnSelector(term=".", use_regex=True)
drop_if_all_null = [all_columns, dprep.ColumnRelationship(dprep.ColumnRelationship.ALL)]
useful_columns = [
    "cost", "distance", "dropoff_datetime", "dropoff_latitude", "dropoff_longitude",
    "passengers", "pickup_datetime", "pickup_latitude", "pickup_longitude", "store_forward", "vendor"
]

In [None]:
green_df = (green_df_raw
            .replace_na(columns=all_columns) 
            .drop_nulls(columns=all_columns, column_relationship=dprep.ColumnRelationship(dprep.ColumnRelationship.ALL))
            .rename_columns(column_pairs={
                "VendorID": "vendor",
                "lpep_pickup_datetime": "pickup_datetime",
                "Lpep_dropoff_datetime": "dropoff_datetime",
                "lpep_dropoff_datetime": "dropoff_datetime",
                "Store_and_fwd_flag": "store_forward",
                "store_and_fwd_flag": "store_forward",
                "Pickup_longitude": "pickup_longitude",
                "Pickup_latitude": "pickup_latitude",
                "Dropoff_longitude": "dropoff_longitude",
                "Dropoff_latitude": "dropoff_latitude",
                "Passenger_count": "passengers",
                "Fare_amount": "cost",
                "Trip_distance": "distance"
            })
            .keep_columns(columns=useful_columns))

green_df.head(5)

イエロータクシーデータに対して、同様のクレンジングを行います。

In [None]:
yellow_df = (yellow_df_raw
    .replace_na(columns=all_columns)
    .drop_nulls(*drop_if_all_null)
    .rename_columns(column_pairs={
        "vendor_name": "vendor",
        "VendorID": "vendor",
        "vendor_id": "vendor",
        "Trip_Pickup_DateTime": "pickup_datetime",
        "tpep_pickup_datetime": "pickup_datetime",
        "Trip_Dropoff_DateTime": "dropoff_datetime",
        "tpep_dropoff_datetime": "dropoff_datetime",
        "store_and_forward": "store_forward",
        "store_and_fwd_flag": "store_forward",
        "Start_Lon": "pickup_longitude",
        "Start_Lat": "pickup_latitude",
        "End_Lon": "dropoff_longitude",
        "End_Lat": "dropoff_latitude",
        "Passenger_Count": "passengers",
        "passenger_count": "passengers",
        "Fare_Amt": "cost",
        "fare_amount": "cost",
        "Trip_Distance": "distance",
        "trip_distance": "distance"
    })
    .keep_columns(columns=useful_columns))
yellow_df.head(5)

ブルータクシーデータとイエロータクシーデータを結合します。

In [None]:
combined_df = green_df.append_rows([yellow_df])

Dataflowオブジェクトの型を確認します。

In [None]:
combined_df.dtypes

乗車と降車の座標の統計情報を調査し、データの分散を確認します。

In [None]:
# 座標のデータ型が文字型のため、小数型に変換
decimal_type = dprep.TypeConverter(data_type=dprep.FieldType.DECIMAL)
combined_df = combined_df.set_column_types(type_conversions={
    "pickup_longitude": decimal_type,
    "pickup_latitude": decimal_type,
    "dropoff_longitude": decimal_type,
    "dropoff_latitude": decimal_type
})

combined_df.keep_columns(columns=[
    "pickup_longitude", "pickup_latitude", "dropoff_longitude", "dropoff_latitude"
]).get_profile()

ニューヨーク市に存在しない座標があるため、座標に対してフィルタリングをかけます。

In [None]:
latlong_filtered_df = (combined_df
                      .drop_nulls(
                          columns=["pickup_longitude", "pickup_latitude", "dropoff_longitude", "dropoff_latitude"],
                          column_relationship=dprep.ColumnRelationship(dprep.ColumnRelationship.ANY)
                      )
                       .filter(dprep.f_and(
                           dprep.col("pickup_longitude") <= -73.72,
                           dprep.col("pickup_longitude") >= -74.09,
                           dprep.col("pickup_latitude") <= 40.88,
                           dprep.col("pickup_latitude") >= 40.53,
                           dprep.col("dropoff_longitude") <= -73.72,
                           dprep.col("dropoff_longitude") >= -74.09,
                           dprep.col("dropoff_latitude") <= 40.88,
                           dprep.col("dropoff_latitude") >= 40.53
                       )))

latlong_filtered_df.keep_columns(columns=[
    "pickup_longitude", "pickup_latitude",
    "dropoff_longitude", "dropoff_latitude"
]).get_profile()

すべて列についての統計情報を調査します。

In [None]:
latlong_filtered_df.get_profile()

store_fowared列の値には欠損値が存在するため、これらをN値に置換します。

In [None]:
replaced_stfor_vals_df = latlong_filtered_df.fill_nulls("store_forward", "N")

distance列の最小値が.00のため0に変換し、データ型が文字型のため数値型に変換します。

In [None]:
replaced_distance_vals_df = replaced_stfor_vals_df.replace(columns="distance", find=".00", replace_with=0)
replaced_distance_vals_df = replaced_distance_vals_df.to_number(["distance"])

乗車日時と降車日時の値を、日付と時刻に分割します。

In [None]:
# split_folumn_by_example関数は、分割パターンを指定しない場合は空白、句読点、日付部分で分割
time_split_df = (replaced_distance_vals_df
                 .split_column_by_example(source_column="pickup_datetime")
                 .split_column_by_example(source_column="dropoff_datetime"))

time_split_df.head(5)        

列名を変更します。

In [None]:
renamed_col_df = (time_split_df
                 .rename_columns(column_pairs={
                     "pickup_datetime_1": "pickup_date",
                     "pickup_datetime_2": "pickup_time",
                     "dropoff_datetime_1": "dropoff_date",
                     "dropoff_datetime_2": "dropoff_time"
                 }))

renamed_col_df.head(5)

乗車と降車の日付をさらに月、日、曜日に分割し、列名を変更します。

In [None]:
transformed_features_df = (renamed_col_df
                           .derive_column_by_example(
                           source_columns="pickup_date",
                           new_column_name="pickup_weekday",
                           example_data=[("2013-08-22", "Thursday"), ("2013-11-03", "Sunday")]
                           )
                           .split_column_by_example(source_column="pickup_time")
                           .split_column_by_example(source_column="dropoff_time")
                           .split_column_by_example(source_column="pickup_time_1")
                           .split_column_by_example(source_column="dropoff_time_1")
                           .drop_columns(columns=[
                               "pickup_date", "pickup_time", "dropoff_date", "dropoff_time",
                               "pickup_date_1", "dropoff_date_1", "pickup_time_1", "dropoff_time_1"
                           ])
                           .rename_columns(column_pairs={
                               "pickup_date_2": "pickup_month",
                               "pickup_date_3": "pickup_monthday",
                               "pickup_time_1_1": "pickup_hour",
                               "pickup_time_1_2": "pickup_minute",
                               "pickup_time_2": "pickup_second",
                               "dropoff_date_2": "dropoff_month",
                               "dropoff_date_3": "dropoff_monthday",
                               "dropoff_time_1_1": "dropoff_hour",
                               "dropoff_time_1_2": "dropoff_minute",
                               "dropoff_time_2": "dropoff_second"
                           }))

transformed_features_df.head(5)

不要となったpickup_datetime、dropoff_datetime列を削除します。

In [None]:
processed_df = transformed_features_df.drop_columns(columns=["pickup_datetime", "dropoff_datetime"])

processed_df.head(5)

クレンジング処理後の統計情報を確認します。

In [None]:
processed_df.get_profile()

不適切なデータ型があるため、型の推定機能を使用してデータ型を変換します。

In [None]:
# データから型を推定
type_infer = processed_df.builders.set_column_types()
type_infer.learn()
type_infer

In [None]:
# 推定したデータ型を適用
type_converted_df = type_infer.to_dataflow()
type_converted_df.get_profile()

distanceとcostが0のデータは予測の精度を狂わせる可能性があるため、削除します。

In [None]:
final_df = type_converted_df.filter(dprep.col("distance") > 0)
final_df = type_converted_df.filter(dprep.col("cost") > 0)

## 3．データセットの保存

データセットのDataflowオブジェクトをシリアライズし、他のコードで利用できるように保存します。

In [None]:
import os

file_path = os.path.join(os.getcwd(), "dflows.dprep")
final_df.save(file_path)