In [1]:
import pandas as pd
import geohash as gh
import numpy as np 

df = pd.read_csv("training.csv")
df.head(20)

Unnamed: 0,geohash6,day,timestamp,demand
0,qp03wc,18,20:0,0.020072
1,qp03pn,10,14:30,0.024721
2,qp09sw,9,6:15,0.102821
3,qp0991,32,5:0,0.088755
4,qp090q,15,4:0,0.074468
5,qp03tu,1,12:15,0.023843
6,qp096d,25,3:30,0.00746
7,qp03nr,51,20:45,0.000293
8,qp093r,48,6:15,0.05417
9,qp03r2,4,22:15,0.123463


Langkah pertama yang saya lakukan adalah menggunakan panda untuk membuat kolom ‘timestamp_hour’, yang pada dasarnya membuat timestamp baru yang mengubah hari dan jam menjadi format per jam. Ini akan membantu kami menganalisis data dengan cara yang lebih baik. Kode berikut akan membantu Anda memahami:

In [2]:
def get_timestamp_hour(row):
    timestamp_to_convert = row.timestamp.split(':')
    hour = float(timestamp_to_convert[0])
    minutes = float(timestamp_to_convert[1]) / 60
    return row.day * 24 + hour + minutes
  
df['timestamp_hour'] = df.apply(get_timestamp_hour, axis=1)

In [3]:
df.head()

Unnamed: 0,geohash6,day,timestamp,demand,timestamp_hour
0,qp03wc,18,20:0,0.020072,452.0
1,qp03pn,10,14:30,0.024721,254.5
2,qp09sw,9,6:15,0.102821,222.25
3,qp0991,32,5:0,0.088755,773.0
4,qp090q,15,4:0,0.074468,364.0


Kemudian saya mengumpulkan data untuk mengkonfirmasi pernyataan saya yang disebutkan di atas:

In [4]:
agg_geohash = df.groupby('geohash6') \
    .agg({'timestamp_hour': 'count'}) \
    .reset_index() \
    .sort_values(by='timestamp_hour', ascending=False) \
    .reset_index(drop=True)

agg_geohash.head()

Unnamed: 0,geohash6,timestamp_hour
0,qp03wz,5846
1,qp03xw,5846
2,qp03wf,5846
3,qp03yb,5846
4,qp092m,5845


Kami hampir memiliki catatan lengkap untuk kode geohash6 ini, karena kami hanya kehilangan 10 stempel waktu untuk mendapatkan rangkaian waktu lengkap untuk empat kode geohash6 pertama. Sayangnya, ini tidak berlaku untuk semua kode geohash6. Beberapa tidak lengkap (mis. 3000 cap waktu) dan lainnya hanya memiliki 1 catatan:

In [5]:
agg_geohash.tail()

Unnamed: 0,geohash6,timestamp_hour
1324,qp092b,1
1325,qp09t7,1
1326,qp09v9,1
1327,qp091j,1
1328,qp0d4m,1


2. Mendapatkan intuisi dari pola deret waktu
Saya ingin mendapatkan intuisi tentang perilaku permintaan dari waktu ke waktu untuk satu geohash tertentu. Ternyata sampel yang saya pilih mengikuti perilaku deret waktu yang sangat khas. Saya telah mencoba dengan geohash yang berbeda (yang lengkap) dan mereka semua menampilkan perilaku yang agak stasioner:

In [6]:
import seaborn as sns; sns.set()

df.loc[
    (df.day <= 15) & 
    (df.geohash6 == 'qp03wz')
].plot(kind='scatter', x='timestamp_hour', y='demand', figsize=(15,8))

'c' argument looks like a single numeric RGB or RGBA sequence, which should be avoided as value-mapping will have precedence in case its length matches with 'x' & 'y'.  Please use a 2-D array with a single row if you really want to specify the same RGB or RGBA value for all points.


<matplotlib.axes._subplots.AxesSubplot at 0x24f9e46bdd8>

3. Bagaimana cara membuat jeda waktu saat menangani kode geohash6 yang tidak lengkap?
Seperti disebutkan di atas, dataset tidak lengkap. Untuk beberapa cap waktu tertentu, dataset yang disediakan tidak memiliki nilai yang tercatat. Beruntung bagi kami, tim Grab memperhatikan dan memberi tahu kami di FAQ untuk hanya mengasumsikan tidak ada permintaan (nilai 0) untuk cap waktu yang hilang. Asumsi ini akan sangat berguna.
Mengingat masalahnya, saya harus membuat Permintaan di T + 1 hingga Permintaan T + 5. Adapun fitur model saya, saya telah memutuskan untuk menggunakan Demand T-1 ke Demand T-5. Saya juga memutuskan untuk memasukkan garis lintang, bujur, dan cap waktu yang sesuai (dalam format per jam desimal). Karena saya telah memutuskan untuk menggunakan LSTM (lihat posting berikutnya), saya harus menormalkan fitur-fitur ini menggunakan Min-Max Scaling untuk menghindari masalah meledaknya gradien.
Kode praproses dapat ditemukan di sini. Fungsi yang saya panggil dalam kode preprocessing dapat ditemukan di tautan ini.
Saya tidak akan menjelaskan secara terperinci bagaimana saya membuat lag ini karena kodenya agak padat. Namun, saya ingin meluangkan waktu menjelaskan bagaimana saya menangani cap waktu yang hilang untuk memenuhi permintaan yang tidak lengkap. Pada dasarnya, setelah kami memesan dataset dengan geohash dan timestamp, perbedaan waktu antara timestamp saat ini dan pendahulunya harus dari # lags * 15 menit. Demikian pula, perbedaan waktu antara cap waktu saat ini dan penggantinya harus menjadi # langkah * 15 menit. Kode ini terdiri dari mengganti permintaan untuk cap waktu sebelumnya / berikutnya yang tidak memenuhi persyaratan ini.
Lihat kode di bawah ini:

In [None]:
def replace_mistmatching_demand(row, lag):
    '''
    Function to be used with pd.Series.apply during preprocessing
    Since we have missing timestamps for particular hours, we assume that if the previous
    demand does not have the corresponding timestamp, we replace it with 0
    :param row:
    :param lag:
    :return: fixed mismatching demand
    '''
    if lag > 0:
        if pd.isnull(row['d_t_plus_{}'.format(lag)]):
            return np.nan
        elif row['tdelta_plus_{}'.format(lag)] != 0.25 * lag:
            return 0
        else:
            return row['d_t_plus_{}'.format(lag)]
    else:
        if pd.isnull(row['d_t_minus_{}'.format(-lag)]):
            return np.nan
        elif row['tdelta_minus_{}'.format(-lag)] != 0.25 * lag:
            return 0
        else:
            return row['d_t_minus_{}'.format(-lag)]
          

train_df = df.sort_values(by=['geohash6', 'timestamp_hour'])
for t in range(1, 6):
    print('Getting time lag / step {} / 5'.format(t))
    train_df['ts_plus_{}'.format(t)] = train_df.groupby('geohash6')['timestamp_hour'].shift(-t)
    train_df['tdelta_plus_{}'.format(t)] = train_df['ts_plus_{}'.format(t)] - train_df['timestamp_hour']
    train_df['d_t_plus_{}'.format(t)] = train_df.groupby('geohash6')['demand'].shift(-t)
    train_df['d_t_plus_{}'.format(t)] = train_df.apply(lambda x: replace_mistmatching_demand(x, t), axis=1)

    train_df['ts_minus_{}'.format(t)] = train_df.groupby('geohash6')['timestamp_hour'].shift(t)
    train_df['tdelta_minus_{}'.format(t)] = train_df['ts_minus_{}'.format(t)] - train_df['timestamp_hour']
    train_df['d_t_minus_{}'.format(t)] = train_df.groupby('geohash6')['demand'].shift(t)
    train_df['d_t_minus_{}'.format(t)] = train_df.apply(lambda x: replace_mistmatching_demand(x, -t), axis=1)

    train_df['ts_d_minus_{}'.format(t)] = train_df['timestamp_decimal'] \
        .apply(lambda x: create_ts_decimal_lag(x, t))
    train_df['ts_d_minus_{}_scaled'.format(t)] = scaler \
        .fit_transform(train_df['ts_d_minus_{}'.format(t)].values.reshape(-1, 1))

Getting time lag / step 1 / 5
