# データハンドリング実技試験
4つのファイルに入ったデータを使って、架空の小売店チェーンのデータを集計する。
___

## データを読み込む

In [35]:
#1

import pandas as pd
import numpy as np
import warnings
warnings.filterwarnings("ignore")

In [36]:
#2

transactions_df = pd.read_csv('transactions_ver20211022.csv')
items_df = pd.read_csv('items_ver20211022.csv')
shops_df = pd.read_csv('shops_ver20211022.csv')
users_df = pd.read_csv('users_ver20211022.csv')

## データの概要を把握する
- カラム、値、行数、欠損値、データタイプを確認する。

transactions_ver20211022.csvを確認。

In [37]:
#3

transactions_df.head()

Unnamed: 0,basket_id,shop_id,user_id,item_id,buy_date
0,1,7,88,10,2019-11-22
1,1,7,88,12,2019-11-22
2,1,7,88,18,2019-11-22
3,1,7,88,26,2019-11-22
4,1,7,88,64,2019-11-22


In [38]:
#4

#行数を確認する。
len(transactions_df)

22556

In [39]:
#5

transactions_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22556 entries, 0 to 22555
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   basket_id  22556 non-null  int64 
 1   shop_id    22556 non-null  int64 
 2   user_id    22556 non-null  int64 
 3   item_id    22556 non-null  int64 
 4   buy_date   22556 non-null  object
dtypes: int64(4), object(1)
memory usage: 881.2+ KB


items_ver20211022.csvを確認。

In [40]:
#6

items_df.head()

Unnamed: 0,item_id,item_name,item_price,category_lv1,category_lv2
0,1,商品00001,5169,チルド売り場,飲料
1,2,商品00002,889,消耗品,洗剤
2,3,商品00003,4848,消耗品,フレグランス
3,4,商品00004,4194,消耗品,化粧品
4,5,商品00005,6152,常温売り場,菓子


In [41]:
#7

#行数を確認する。
len(items_df)

100

In [42]:
#8

items_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   item_id       100 non-null    int64 
 1   item_name     100 non-null    object
 2   item_price    100 non-null    int64 
 3   category_lv1  100 non-null    object
 4   category_lv2  100 non-null    object
dtypes: int64(2), object(3)
memory usage: 4.0+ KB


shops_ver20211022.csvを確認。

In [43]:
#7

shops_df.head()

Unnamed: 0,shop_id,reginon,name
0,1,智頭町,智頭町店
1,2,南陽市,南陽市店
2,3,須坂市,須坂市店
3,4,上富田町,上富田町店
4,5,三鷹市,三鷹市店


In [44]:
#8

#行数を確認する。
len(shops_df)

20

In [45]:
#9

shops_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   shop_id  20 non-null     int64 
 1   reginon  20 non-null     object
 2   name     20 non-null     object
dtypes: int64(1), object(2)
memory usage: 608.0+ bytes


users_ver20211022.csvを確認。

In [46]:
#10

users_df.head()

Unnamed: 0,user_id,name,sex,age
0,1,利用者00001,female,1
1,2,利用者00002,male,25
2,3,利用者00003,male,5
3,4,利用者00004,male,38
4,5,利用者00005,male,92


In [47]:
#11

#行数を確認する。
len(users_df)

100

In [48]:
#12

users_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   user_id  100 non-null    int64 
 1   name     100 non-null    object
 2   sex      100 non-null    object
 3   age      100 non-null    int64 
dtypes: int64(2), object(2)
memory usage: 3.2+ KB


## 前処理

transactions_dfのカラム`buy_date`のデータタイプをdatetime64に変換する。

In [49]:
#13

transactions_df['buy_date'] = pd.to_datetime(transactions_df['buy_date'], format='%Y-%m-%d')

shops_dfのカラム`name`を`shop_name`に変更する。

In [50]:
#14

shops_df.rename(columns={'name': 'shop_name'}, inplace=True)

users_dfのカラム`name`を`user_name`に変更する。

In [51]:
#15

users_df.rename(columns={'name': 'user_name'}, inplace=True)

各データフレームを結合する。

In [52]:
#16

combined_df = transactions_df.merge(items_df, on='item_id', how='left')
combined_df = combined_df.merge(shops_df, on='shop_id', how='left')
combined_df = combined_df.merge(users_df, on='user_id', how='left')
combined_df.head()

Unnamed: 0,basket_id,shop_id,user_id,item_id,buy_date,item_name,item_price,category_lv1,category_lv2,reginon,shop_name,user_name,sex,age
0,1,7,88,10,2019-11-22,商品00010,2232,常温売り場,即席食品,にかほ市,にかほ市店,利用者00088,male,38
1,1,7,88,12,2019-11-22,商品00012,2117,消耗品,化粧品,にかほ市,にかほ市店,利用者00088,male,38
2,1,7,88,18,2019-11-22,商品00018,9821,チルド売り場,加熱用野菜・きのこ,にかほ市,にかほ市店,利用者00088,male,38
3,1,7,88,26,2019-11-22,商品00026,5527,常温売り場,即席食品,にかほ市,にかほ市店,利用者00088,male,38
4,1,7,88,64,2019-11-22,商品00064,954,チルド売り場,チルドデザート,にかほ市,にかほ市店,利用者00088,male,38


結合したデータフレームの欠損値を確認。

In [53]:
#17

combined_df.isnull().sum()

basket_id       0
shop_id         0
user_id         0
item_id         0
buy_date        0
item_name       0
item_price      0
category_lv1    0
category_lv2    0
reginon         0
shop_name       0
user_name       0
sex             0
age             0
dtype: int64

必要なカラムのみを使って、分析で使用するデータフレームを作成する。

In [54]:
#18

main_df = combined_df[['buy_date','item_price','category_lv2','shop_name','user_name']]
main_df.head()

Unnamed: 0,buy_date,item_price,category_lv2,shop_name,user_name
0,2019-11-22,2232,即席食品,にかほ市店,利用者00088
1,2019-11-22,2117,化粧品,にかほ市店,利用者00088
2,2019-11-22,9821,加熱用野菜・きのこ,にかほ市店,利用者00088
3,2019-11-22,5527,即席食品,にかほ市店,利用者00088
4,2019-11-22,954,チルドデザート,にかほ市店,利用者00088


# 問題1
2020年1月1日から12月31日までの1年間について、商品カテゴリ別に売上額と購入者数を計算してください。<br>
その上で、売上額Top3の商品カテゴリと、その売上額、購入者数を抽出してください。
- 売上額は、商品価格を合算した物です。税などを考慮する必要はありません。
- 購入者数は、ある商品を購入した人を重複なく数えたユニークユーザー数の事です。
- 商品カテゴリは、category_lv2を使ってください。
___

2020年1月1日から12月31日の1年間のみのデータを使ってデータフレームを作成する。

In [55]:
#19

main_2020_df = main_df[(main_df['buy_date'] >= '2020-01-01')&(main_df['buy_date'] <= '2020-12-31')]
main_2020_df.sort_values('buy_date')

Unnamed: 0,buy_date,item_price,category_lv2,shop_name,user_name
1681,2020-01-01,9710,ベビーフード、穀類、その他,北竜町店,利用者00080
1664,2020-01-01,5169,飲料,須坂市店,利用者00068
1669,2020-01-01,433,加熱用野菜・きのこ,須坂市店,利用者00068
1668,2020-01-01,5481,酒類,須坂市店,利用者00068
1670,2020-01-01,1498,オーラルケア用品,須坂市店,利用者00068
...,...,...,...,...,...
6402,2020-12-31,4472,キッチン消耗品,伊予市店,利用者00069
1608,2020-12-31,6639,バスボディケア用品,上富田町店,利用者00082
1609,2020-12-31,4508,身だしなみ用品,上富田町店,利用者00082
6403,2020-12-31,2515,漬物、総菜,伊予市店,利用者00069


商品カテゴリ別に売上額と購入者数を計算して、売上額Top3の商品カテゴリと、その売上額、購入者数を抽出する。

In [56]:
#20

#購入者数をカウントする関数。
def count_unique_user(user_id):
    return user_id.nunique()

In [57]:
#21

#'category_lv2'でグルーピングして商品カテゴリごとに分ける。'item_price'を使い売上額を計算、'user_name'を使い購入者数をカウントし、売上額の大きい上位3件を抽出する。
category_top_3_df = main_2020_df[['user_name','category_lv2','item_price',]].groupby('category_lv2', as_index=False)\
    .agg({'item_price': np.sum, 'user_name': count_unique_user}).rename(columns={'item_price': 'sum_of_item_price', 'user_name': 'num_of_nunique_user'})\
                .sort_values('sum_of_item_price', ascending=False).head(3)

#'Rank'をインデックスに付け足す。
category_top_3_df['Rank'] = np.arange(1, len(category_top_3_df)+1)
category_top_3_df.set_index('Rank', inplace=True) 


### <span style="color: red; ">問題1 解答</span>

In [58]:
#22

category_top_3_df

Unnamed: 0_level_0,category_lv2,sum_of_item_price,num_of_nunique_user
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,バスボディケア用品,6287234,99
2,酒類,3769618,100
3,加熱用野菜・きのこ,3119028,100


# 問題2-1
2020年1月1日から12月31日までの1年間について「バスボディケア用品」の売上額が最も大きかった店舗を1つ抽出してください。
___

バスボディケア用品のみのデータを使ってデータフレームを作成する。

In [59]:
#23

bath_body_care_2020_df = main_2020_df[main_2020_df['category_lv2'] == ' バスボディケア用品']
bath_body_care_2020_df.head()

Unnamed: 0,buy_date,item_price,category_lv2,shop_name,user_name
67,2020-02-24,6639,バスボディケア用品,須坂市店,利用者00063
80,2020-08-07,8191,バスボディケア用品,松伏町店,利用者00010
143,2020-03-05,6639,バスボディケア用品,北竜町店,利用者00006
148,2020-03-05,5482,バスボディケア用品,北竜町店,利用者00006
156,2020-04-01,8191,バスボディケア用品,南陽市店,利用者00044


　売上額が大きかった店舗Top5を抽出する。

In [60]:
#24

#'shop_name'でグルーピングして店舗ごとに分ける。'item_price'を使い売上額を計算、売上額の大きい上位3件を抽出する。
bath_body_care_top_3_df = bath_body_care_2020_df[['shop_name','item_price']].groupby('shop_name', as_index=False).agg({'item_price': np.sum})\
    .rename(columns={'item_price': 'sum_of_item_price'}).sort_values('sum_of_item_price', ascending=False).head(3)

#'Rank'をインデックスに付け足す。
bath_body_care_top_3_df['Rank'] = np.arange(1, len(bath_body_care_top_3_df)+1)
bath_body_care_top_3_df.set_index('Rank', inplace=True) 

bath_body_care_top_3_df

Unnamed: 0_level_0,shop_name,sum_of_item_price
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1
1,北竜町店,476683
2,三鷹市店,367903
3,松伏町店,365287


### <span style="color: red; ">問題2-1 解答</span>
2020年1月1日から12月31日までの1年間について「バスボディケア用品」の売上額が最も大きかった店舗は北竜町店である。

# 問題2-2
さらに、その店舗の客単価と購入者数を月毎に計算してください。<br> 
客単価と購入者数は、「全商品カテゴリ」と「バスボディケア用品のみ」の2パターンを計算してください。
- 客単価とは、購入者1人あたりの平均売上の事です。
- 商品カテゴリは、category_lv2を使ってください。
___

北竜町店のみのデータを使ってデータフレームを作成する。<br>
カラム`month`を追加する。


In [61]:
#25

hokuryuu_cho_2020_df = main_2020_df[main_2020_df['shop_name'] == '北竜町店']

#'buy_date'の月だけを抽出してカラム'month'を作成する。カラム'buy_date'を削除する。
hokuryuu_cho_2020_df["month"] = hokuryuu_cho_2020_df['buy_date'].apply(lambda d: f"2020年{d.month}月")
hokuryuu_cho_2020_df.drop(['buy_date'], axis=1, inplace=True)

hokuryuu_cho_2020_df.head()

Unnamed: 0,item_price,category_lv2,shop_name,user_name,month
142,5527,即席食品,北竜町店,利用者00006,2020年3月
143,6639,バスボディケア用品,北竜町店,利用者00006,2020年3月
144,1515,コーヒー、紅茶、緑茶,北竜町店,利用者00006,2020年3月
145,1498,オーラルケア用品,北竜町店,利用者00006,2020年3月
146,6132,チルドデザート,北竜町店,利用者00006,2020年3月


北竜町店の客単価と購入者数を月毎「全商品カテゴリ」と「バスボディケア用品のみ」の2パターン計算する。

In [62]:
#26

#全商品カテゴリの客単価と購入者数を抽出しデータフレームを作成する。

#'month'でグルーピングして月ごとに分ける。'user_name'を使い購入者数をカウント、'item_price'を使い売上額を計算する。
hokuryuu_cho_2020_all_category_df = hokuryuu_cho_2020_df[['month', 'user_name', 'item_price']].groupby('month')\
            .agg({'user_name': count_unique_user, 'item_price': np.sum}).rename(columns={'user_name': 'num_of_nunique_user', 'item_price': 'sum_of_item_price'})

#'sum_of_item_price'(売上額)を'num_of_nunique_user'(購入者数)で割って'customer_unit_price'(客単価)を抽出する。
hokuryuu_cho_2020_all_category_df['customer_unit_price'] = round(hokuryuu_cho_2020_all_category_df['sum_of_item_price']/hokuryuu_cho_2020_all_category_df['num_of_nunique_user'], 2)
hokuryuu_cho_2020_all_category_df.drop('sum_of_item_price', axis=1, inplace=True)

In [63]:
#27

#バスボディケア用品のみの客単価と購入者数を抽出しデータフレームを作成する。

#バスボディケア用品のみのデータフレームを作成。
hokuryuu_cho_2020_bath_body_care_df = hokuryuu_cho_2020_df[hokuryuu_cho_2020_df['category_lv2'] == ' バスボディケア用品']

#'month'でグルーピングして月ごとに分ける。'user_name'を使い購入者数をカウント、'item_price'を使い売上額を計算する。
hokuryuu_cho_2020_bath_body_care_df = hokuryuu_cho_2020_bath_body_care_df[['month', 'user_name', 'item_price']].groupby('month')\
            .agg({'user_name': count_unique_user, 'item_price': np.sum}).rename(columns={'user_name': 'num_of_nunique_user', 'item_price': 'sum_of_item_price'})
            
#'sum_of_item_price'(売上額)を'num_of_nunique_user'(購入者数)で割って'customer_unit_price'(客単価)を抽出する。
hokuryuu_cho_2020_bath_body_care_df['customer_unit_price'] = round(hokuryuu_cho_2020_bath_body_care_df['sum_of_item_price']/hokuryuu_cho_2020_bath_body_care_df['num_of_nunique_user'], 2)
hokuryuu_cho_2020_bath_body_care_df.drop('sum_of_item_price', axis=1, inplace=True)

In [64]:
#28

#全商品カテゴリデータフレームとバスボディケア用品を結合する。
all_category_and_bath_body_care_df = hokuryuu_cho_2020_all_category_df.merge(hokuryuu_cho_2020_bath_body_care_df, on='month', suffixes=('_all_categories', '_bath_body_care'))

#インデックス'month'を1月から順番に並び替える。
order_of_month_list = []
for month in range(1, 13):
    order_of_month_list.append(f"2020年{month}月")
all_category_and_bath_body_care_df = all_category_and_bath_body_care_df.reindex(index=order_of_month_list)

#インデックス'month'をカラムに加えて、インデックスをリセットする。
all_category_and_bath_body_care_df = all_category_and_bath_body_care_df.rename_axis('month').reset_index()

### <span style="color: red; ">問題2-2 解答</span>

In [65]:
#29

all_category_and_bath_body_care_df

Unnamed: 0,month,num_of_nunique_user_all_categories,customer_unit_price_all_categories,num_of_nunique_user_bath_body_care,customer_unit_price_bath_body_care
0,2020年1月,8,25608.88,4,14273.0
1,2020年2月,11,26493.55,3,7233.0
2,2020年3月,12,25308.42,3,14165.33
3,2020年4月,7,20683.57,3,9022.0
4,2020年5月,11,25848.27,4,13673.5
5,2020年6月,7,20469.86,2,9310.0
6,2020年7月,7,25932.57,1,13278.0
7,2020年8月,13,29273.46,6,12657.0
8,2020年9月,9,22282.11,2,8446.0
9,2020年10月,10,21571.1,3,13701.67
