# Instacart - Shortest Path to Submission
## 1. 問題定義
- userごとにorderの記録が時系列順に並んでいる
- あるuserが過去注文したアイテムを再注文した場合、"reorder"フラグが立てられている
- 各userの最新orderについて、reorderしたアイテムを複数予測する
    - 実際にreorderしたアイテムを多く含み、かつreorderしたアイテムをなるべく含まないようにする
    - ひとつもreorderが無いと予想した場合は"None"を出力する

(参考)リレーション

https://www.kaggle.com/c/instacart-market-basket-analysis/discussion/33205

## 2. データを眺める
略。公式のDataページかKernelを見てザックリ雰囲気をつかむ
- https://www.kaggle.com/c/instacart-market-basket-analysis/data

## 3. First Submission
とりあえず、ユーザーごとに「過去買ったものは全部reorderする」という予測でsubmissionを作ってみる

In [1]:
import pandas as pd
import numpy as np
import os
import time
from contextlib import contextmanager

%matplotlib inline
import matplotlib.pyplot as plt
import seaborn as sns

@contextmanager
def timer(title):
    t0 = time.time()
    yield
    print("{} - done in {:.0f}s".format(title, time.time() - t0))

# まずfeatherに変換しておく
def load(path):
    if not os.path.exists(path+'.f'):
        pd.read_csv(path).to_feather(path+'.f')
    return pd.read_feather(path+'.f')

with timer('load data'):
    aisles      = load('../input/aisles.csv')
    departments = load('../input/departments.csv')
    prior       = load('../input/order_products__prior.csv')
    train       = load('../input/order_products__train.csv')
    orders      = load('../input/orders.csv')
    products    = load('../input/products.csv')

load data - done in 1s


In [2]:
# order-id/user-id/product-idを一つにまとめる
with timer('merge & drop duplicates'):
    prior_orders = pd.merge(prior, orders[['order_id','user_id']], on='order_id', how='left')
    print(prior_orders.shape)
    prior_orders.drop_duplicates(subset=['user_id','product_id'], inplace=True)
    print(prior_orders.shape)   
    
prior_orders.head()

(32434489, 5)
(13307953, 5)
merge & drop duplicates - done in 11s


Unnamed: 0,order_id,product_id,add_to_cart_order,reordered,user_id
0,2,33120,1,1,202279
1,2,28985,2,1,202279
2,2,9327,3,0,202279
3,2,45918,4,1,202279
4,2,30035,5,0,202279


In [3]:
# userごとに、過去買ったアイテムをまとめる
with timer('aggregate prior products'):
    prior_orders['product_id_str'] = prior_orders['product_id'].astype(str)
    prior_products = prior_orders.groupby('user_id')['product_id_str'].apply(lambda x: ' '.join(x)).reset_index()
    
prior_products.head()

aggregate prior products - done in 17s


Unnamed: 0,user_id,product_id_str
0,1,196 12427 10258 25133 10326 17122 41787 13176 ...
1,2,49451 32792 32139 34688 36735 37646 22829 2485...
2,3,38596 21903 248 40604 8021 17668 21137 23650 3...
3,4,22199 25146 1200 17769 43704 37646 11865 35469...
4,5,27344 24535 43693 40706 16168 21413 13988 3376...


In [4]:
with timer('make 1st submission'):
    orders_in_test = orders[orders['eval_set'] == 'test']

    submission = pd.merge(orders_in_test[['user_id','order_id']], prior_products, on='user_id', how='left')
    submission.drop('user_id', axis=1, inplace=True)
    submission.columns = ['order_id', 'products']
    submission.to_csv('../output/submission_baseline.csv', index=False)

make 1st submission - done in 1s


- Pandasは内部で列指向にデータを持っており、なるべく列をまたがない＆一度にたくさんの行を処理させた方が高速
    - product_idの型変換はgroupbyの中でやらず、先にastype(str)で追加の列を作っておく