# 概要
---

>1. 添付のデータを見やすくまとめたいのと
>2. ストクラの1顧客あたりの12ヶ月合計購入額の平均過去3年位分の移動計
>
>で集計をお願いできますか？

上記の2.の集計を実施。また、下記も併せて参照ください。

>2.1 「単位顧客あたりの（当月を含む過去）12ヶ月合計購入額の平均」の「移動計」（47ヶ月分のデータを利用し算出）
>
>2.2 過去3年分というのは開始月は2018年1月（集計に利用するデータは2017年2月〜）〜2020年12月
>
>2.3 購入額 = 受注金額

In [1]:
#必要なモジュールのインポート
import datetime
import pandas as pd
import numpy as np
import glob
import matplotlib.pyplot as plt
import japanize_matplotlib

#以下にcsv格納
root = '/Users/miyamoto/Documents/Root/raw/stripe_agg/'

## 集計
---
全てをExcelで扱うには少々重たいので、pythonを利用して集計実行しました。

fh = first half（1月〜6月）, lh = latter half（7月〜12月）
![stripe_orderfiles.png](attachment:stripe_orderfiles.png)

### 前処理
---

In [2]:
def file_ditect(key_dir):#指定ディレクトリに存在するファイルパスの一覧取得
    path = root + key_dir
    
    # パスで指定したファイルの一覧をリスト形式で取得
    files = glob.glob(path + '/*.csv')

    for file in files:
        print(file)
    
    return files

order_files = file_ditect('order')

/Users/miyamoto/Documents/Root/raw/stripe_agg/order/受注_2019_fh.csv
/Users/miyamoto/Documents/Root/raw/stripe_agg/order/受注_2017.csv
/Users/miyamoto/Documents/Root/raw/stripe_agg/order/受注_2019_lh.csv
/Users/miyamoto/Documents/Root/raw/stripe_agg/order/受注_2020_fh.csv
/Users/miyamoto/Documents/Root/raw/stripe_agg/order/受注_2018_fh.csv
/Users/miyamoto/Documents/Root/raw/stripe_agg/order/受注_2020_lh.csv
/Users/miyamoto/Documents/Root/raw/stripe_agg/order/受注_2018_lh.csv


In [None]:
order_dfs = []

for file in order_files:
    df = pd.read_csv(file)
    order_dfs.append(df)

order_df_concat = pd.concat(order_dfs)
order_df_concat.columns

  interactivity=interactivity, compiler=compiler, result=result)
  interactivity=interactivity, compiler=compiler, result=result)
  interactivity=interactivity, compiler=compiler, result=result)
  interactivity=interactivity, compiler=compiler, result=result)


ユニオンする際にエラーを吐いているがmixed typeによるアップキャストをする警告のため、
今回はクリーニングせず無視する。

また見ての通り必要ないフィールドが多いので、下記に絞り込んだ上でソート。

In [None]:
orders = order_df_concat[['受注日', '顧客コード', '受注金額']]

#datretimeに変換
orders['受注日'] = pd.to_datetime(orders['受注日'], format='%Y/%m/%d')
orders = orders.sort_values('受注日') #asc

In [None]:
orders.info()

### 加工処理
---

In [None]:
#顧客コード単位で集計しやすい様にピボット
piv = pd.pivot_table(orders, index='受注日', columns='顧客コード', values='受注金額', aggfunc=sum)

In [None]:
#月次単位で合計
piv_monthly = piv.resample('M').sum()

In [None]:
#12ヶ月を指定し、単位顧客あたりの移動合計を算出
piv_monthly_roll = piv_monthly.rolling(12).sum()

#ゲスト購入を除外
piv_monthly_roll = piv_monthly_roll.drop('< NULL >', axis=1)

#0をNaNに置換（特定の月に対して過去12ヶ月間購入の無い顧客コードの除外）
piv_monthly_roll = piv_monthly_roll.replace(0, np.NaN)

In [None]:
#行単位で「単位顧客あたりの年間合計金額」に対する平均値算出
piv_monthly_mean = piv_monthly_roll.mean(axis=1).round(1)

#日付の絞り込み
df_plot = piv_monthly_mean['2018-01-01':]

### プロット
---

In [None]:
#プロット用の記述
plt.style.use('ggplot')
fig=plt.figure(figsize=(16,8))
ax=fig.add_subplot()
ax.plot(df_plot)
ax.scatter(df_plot.index, df_plot)

plt.ylim(10000, 16000)
ax.set_title('単位顧客当たりの年間合計金額の平均値')
ax.set_xlabel('date')
ax.set_ylabel('average')
ax.legend(fontsize=12)
plt.show()

通常はSSは減少傾向、AWは上昇傾向にあるが2019年はやや例年の傾向と異なり、

年始から年末にかけて常に上昇傾向であることがわかる。

#### 以下、参照用のExcelファイルに利用するdataframeの生成。
---

In [None]:
ref_summary = piv_monthly_roll.agg(['mean', 'sum', 'count'], axis=1).round(1)
ref_summary = ref_summary['2018-01-01':]
ref_summary = ref_summary.rename(columns={'sum':'合計値', 'mean':'平均値', 'count':'顧客数'})

In [None]:
ref_piv_monthly = piv_monthly.T

In [None]:
#Excel出力
with pd.ExcelWriter('stripe_受注金額合計_3years.xlsx') as writer:
    ref_summary.to_excel(writer, sheet_name='summary')
    ref_piv_monthly.to_excel(writer, sheet_name='単位顧客別受注金額')