In [None]:
# 必要なライブラリのインポート
# numpy: 数値計算用ライブラリ
# pandas: データ分析用ライブラリ
# matplotlib: グラフ描画用ライブラリ
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
%matplotlib inline

In [None]:
# データファイルが格納されているフォルダのパスを設定
folder_path = "C:\\Users\\ryuuu\\Downloads\\100knock-data_analytics\\3章\\"

In [None]:
# CSVファイルの読み込み
# use_log.csv: 利用ログデータ
# customer_master.csv: 顧客マスターデータ
# class_master.csv: クラスマスターデータ
# campaign_master.csv: キャンペーンマスターデータ
uselog = pd.read_csv(folder_path + "use_log.csv")
customer = pd.read_csv(folder_path + "customer_master.csv")
class_master = pd.read_csv(folder_path + "class_master.csv")
campaign_master = pd.read_csv(folder_path + "campaign_master.csv")

In [None]:
# 利用ログデータの最初の3行を表示して内容を確認
uselog.head(3)

Unnamed: 0,log_id,customer_id,usedate
0,L00000049012330,AS009373,2018-04-01
1,L00000049012331,AS015315,2018-04-01
2,L00000049012332,AS040841,2018-04-01


In [None]:
# 顧客マスターデータの最初の3行を表示して内容を確認
customer.head(3)

Unnamed: 0,customer_id,name,class,gender,start_date,end_date,campaign_id,is_deleted
0,OA832399,XXXX,C01,F,2015-05-01 00:00:00,,CA1,0
1,PL270116,XXXXX,C01,M,2015-05-01 00:00:00,,CA1,0
2,OA974876,XXXXX,C01,M,2015-05-01 00:00:00,,CA1,0


In [None]:
# クラスマスターデータの最初の3行を表示して内容を確認
class_master.head(3)

Unnamed: 0,class,class_name,price
0,C01,オールタイム,10500
1,C02,デイタイム,7500
2,C03,ナイト,6000


In [None]:
# キャンペーンマスターデータの最初の3行を表示して内容を確認
campaign_master.head(3)

Unnamed: 0,campaign_id,campaign_name
0,CA1,通常
1,CA2,入会費半額
2,CA3,入会費無料


In [None]:
# データフレームの結合
# customer と class_master を class キーで左結合
# さらに campaign_master を campaign_id キーで左結合
customer_join = pd.merge(customer,class_master,on="class",how="left")
customer_join = pd.merge(customer_join,campaign_master,on="campaign_id",how="left")
# 結合後のデータフレームの形状を表示
print(customer_join.shape)
# 結合後のデータフレームの最初の3行を表示
customer_join.head(3)

(4192, 11)


Unnamed: 0,customer_id,name,class,gender,start_date,end_date,campaign_id,is_deleted,class_name,price,campaign_name
0,OA832399,XXXX,C01,F,2015-05-01 00:00:00,,CA1,0,オールタイム,10500,通常
1,PL270116,XXXXX,C01,M,2015-05-01 00:00:00,,CA1,0,オールタイム,10500,通常
2,OA974876,XXXXX,C01,M,2015-05-01 00:00:00,,CA1,0,オールタイム,10500,通常


In [None]:
# 結合後のデータフレームの欠損値の数を確認
customer_join.isnull().sum()

customer_id         0
name                0
class               0
gender              0
start_date          0
end_date         2842
campaign_id         0
is_deleted          0
class_name          0
price               0
campaign_name       0
dtype: int64

In [None]:
# クラス（会員種別）ごとの顧客数を集計
customer_join.groupby("class").size()

class
C01    2045
C02    1019
C03    1128
dtype: int64

In [None]:
# 性別ごとの顧客数を集計
customer_join.groupby("gender").size()

gender
F    1983
M    2209
dtype: int64

In [None]:
# キャンペーンIDごとの顧客数を集計
customer_join.groupby("campaign_id").size()

campaign_id
CA1    3050
CA2     650
CA3     492
dtype: int64

In [None]:
# 退会状態（is_deleted）ごとの顧客数を集計
customer_join.groupby("is_deleted").size()

is_deleted
0    2842
1    1350
dtype: int64

In [31]:
# start_dateをdatetime型に変換
customer_join.start_date = pd.to_datetime(customer_join.start_date)
# 2018年4月1日以降に入会した顧客を抽出
customer_start = customer_join.loc[customer_join.start_date > pd.to_datetime("20180401")]  
# 抽出された顧客数を表示
print(len(customer_start))

1361


In [33]:
customer_join.end_date = pd.to_datetime(customer_join.end_date)
customer_newer = customer_join.loc[(customer_join.end_date >= pd.to_datetime("20190331")) | customer_join.end_date.isna()]

In [39]:
customer_newer.shape

(2953, 11)

In [41]:
customer_newer.end_date.unique()

<DatetimeArray>
['NaT', '2019-03-31 00:00:00']
Length: 2, dtype: datetime64[ns]

In [42]:
customer_newer.head()

Unnamed: 0,customer_id,name,class,gender,start_date,end_date,campaign_id,is_deleted,class_name,price,campaign_name
0,OA832399,XXXX,C01,F,2015-05-01,NaT,CA1,0,オールタイム,10500,通常
1,PL270116,XXXXX,C01,M,2015-05-01,NaT,CA1,0,オールタイム,10500,通常
2,OA974876,XXXXX,C01,M,2015-05-01,NaT,CA1,0,オールタイム,10500,通常
3,HD024127,XXXXX,C01,F,2015-05-01,NaT,CA1,0,オールタイム,10500,通常
4,HD661448,XXXXX,C03,F,2015-05-01,NaT,CA1,0,ナイト,6000,通常


In [46]:
customer_newer.groupby("class_name").size()

class_name
オールタイム    1444
デイタイム      696
ナイト        813
dtype: int64

In [44]:
customer_newer.groupby("gender").size() 

gender
F    1400
M    1553
dtype: int64

In [45]:
customer_newer.groupby("campaign_name").size()

campaign_name
入会費半額     311
入会費無料     242
通常       2400
dtype: int64

In [55]:
uselog.head()

Unnamed: 0,log_id,customer_id,usedate,年月
0,L00000049012330,AS009373,2018-04-01,201804
1,L00000049012331,AS015315,2018-04-01,201804
2,L00000049012332,AS040841,2018-04-01,201804
3,L00000049012333,AS046594,2018-04-01,201804
4,L00000049012334,AS073285,2018-04-01,201804


In [60]:
uselog.usedate = pd.to_datetime(uselog.usedate)
uselog["年月"] = uselog.usedate.dt.strftime("%Y%m")
uselog_month = uselog.groupby(["年月","customer_id"],as_index=False).count()
uselog_month.head()

Unnamed: 0,年月,customer_id,log_id,usedate
0,201804,AS002855,4,4
1,201804,AS009013,2,2
2,201804,AS009373,3,3
3,201804,AS015315,6,6
4,201804,AS015739,7,7


In [61]:
uselog_month.drop(columns=["usedate"],inplace=True)
uselog_month.rename(columns={"log_id":"count"},inplace=True)
uselog_month.head()

Unnamed: 0,年月,customer_id,count
0,201804,AS002855,4
1,201804,AS009013,2
2,201804,AS009373,3
3,201804,AS015315,6
4,201804,AS015739,7


In [63]:
# Group only the numeric 'count' column to avoid aggregating non-numeric columns like '年月'
uselog_customer = uselog_month.groupby("customer_id")["count"].agg(["mean","max","min","median"])
uselog_customer = uselog_customer.reset_index(drop=False)
uselog_customer.head()

Unnamed: 0,customer_id,mean,max,min,median
0,AS002855,4.5,7,2,5.0
1,AS008805,4.0,8,1,4.0
2,AS009013,2.0,2,2,2.0
3,AS009373,5.083333,7,3,5.0
4,AS015233,7.545455,11,4,7.0
