# データハンドリング実技試験

In [219]:
import pandas as pd
import numpy as np

In [220]:
transactions_df = pd.read_csv('transactions_ver20211022.csv')
items_df = pd.read_csv('items_ver20211022.csv')
shops_df = pd.read_csv('shops_ver20211022.csv')
users_df = pd.read_csv('users_ver20211022.csv')

## データを確認

In [221]:
transactions_df.head()

Unnamed: 0,basket_id,shop_id,user_id,item_id,buy_date
0,1,7,88,10,2019-11-22
1,1,7,88,12,2019-11-22
2,1,7,88,18,2019-11-22
3,1,7,88,26,2019-11-22
4,1,7,88,64,2019-11-22


In [222]:
transactions_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 22556 entries, 0 to 22555
Data columns (total 5 columns):
 #   Column     Non-Null Count  Dtype 
---  ------     --------------  ----- 
 0   basket_id  22556 non-null  int64 
 1   shop_id    22556 non-null  int64 
 2   user_id    22556 non-null  int64 
 3   item_id    22556 non-null  int64 
 4   buy_date   22556 non-null  object
dtypes: int64(4), object(1)
memory usage: 881.2+ KB


In [223]:
items_df.head()

Unnamed: 0,item_id,item_name,item_price,category_lv1,category_lv2
0,1,商品00001,5169,チルド売り場,飲料
1,2,商品00002,889,消耗品,洗剤
2,3,商品00003,4848,消耗品,フレグランス
3,4,商品00004,4194,消耗品,化粧品
4,5,商品00005,6152,常温売り場,菓子


In [224]:
items_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype 
---  ------        --------------  ----- 
 0   item_id       100 non-null    int64 
 1   item_name     100 non-null    object
 2   item_price    100 non-null    int64 
 3   category_lv1  100 non-null    object
 4   category_lv2  100 non-null    object
dtypes: int64(2), object(3)
memory usage: 4.0+ KB


In [225]:
shops_df.head()

Unnamed: 0,shop_id,reginon,name
0,1,智頭町,智頭町店
1,2,南陽市,南陽市店
2,3,須坂市,須坂市店
3,4,上富田町,上富田町店
4,5,三鷹市,三鷹市店


In [226]:
shops_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 20 entries, 0 to 19
Data columns (total 3 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   shop_id  20 non-null     int64 
 1   reginon  20 non-null     object
 2   name     20 non-null     object
dtypes: int64(1), object(2)
memory usage: 608.0+ bytes


In [227]:
users_df.head()

Unnamed: 0,user_id,name,sex,age
0,1,利用者00001,female,1
1,2,利用者00002,male,25
2,3,利用者00003,male,5
3,4,利用者00004,male,38
4,5,利用者00005,male,92


In [228]:
users_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 100 entries, 0 to 99
Data columns (total 4 columns):
 #   Column   Non-Null Count  Dtype 
---  ------   --------------  ----- 
 0   user_id  100 non-null    int64 
 1   name     100 non-null    object
 2   sex      100 non-null    object
 3   age      100 non-null    int64 
dtypes: int64(2), object(2)
memory usage: 3.2+ KB


## 前処理

transactions_dfの`buy_date`をdatetime64に変換する

In [229]:
transactions_df["buy_date"] = pd.to_datetime(transactions_df["buy_date"], format="%Y-%m-%d")

shops_dfの`name`を"shop_name"に変更する

In [230]:
shops_df.rename(columns={'name': 'shop_name'}, inplace=True)

users_dfの`name`を"user_name"に変更する

In [231]:
users_df.rename(columns={'name': 'user_name'}, inplace=True)

各データフレームを結合する

In [232]:
combined_df = transactions_df.merge(items_df, on='item_id', how='left')
combined_df = combined_df.merge(shops_df, on='shop_id', how='left')
combined_df = combined_df.merge(users_df, on='user_id', how='left')
combined_df.head()

Unnamed: 0,basket_id,shop_id,user_id,item_id,buy_date,item_name,item_price,category_lv1,category_lv2,reginon,shop_name,user_name,sex,age
0,1,7,88,10,2019-11-22,商品00010,2232,常温売り場,即席食品,にかほ市,にかほ市店,利用者00088,male,38
1,1,7,88,12,2019-11-22,商品00012,2117,消耗品,化粧品,にかほ市,にかほ市店,利用者00088,male,38
2,1,7,88,18,2019-11-22,商品00018,9821,チルド売り場,加熱用野菜・きのこ,にかほ市,にかほ市店,利用者00088,male,38
3,1,7,88,26,2019-11-22,商品00026,5527,常温売り場,即席食品,にかほ市,にかほ市店,利用者00088,male,38
4,1,7,88,64,2019-11-22,商品00064,954,チルド売り場,チルドデザート,にかほ市,にかほ市店,利用者00088,male,38


結合したデータフレームの欠損値を確認

In [233]:
combined_df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 22556 entries, 0 to 22555
Data columns (total 14 columns):
 #   Column        Non-Null Count  Dtype         
---  ------        --------------  -----         
 0   basket_id     22556 non-null  int64         
 1   shop_id       22556 non-null  int64         
 2   user_id       22556 non-null  int64         
 3   item_id       22556 non-null  int64         
 4   buy_date      22556 non-null  datetime64[ns]
 5   item_name     22556 non-null  object        
 6   item_price    22556 non-null  int64         
 7   category_lv1  22556 non-null  object        
 8   category_lv2  22556 non-null  object        
 9   reginon       22556 non-null  object        
 10  shop_name     22556 non-null  object        
 11  user_name     22556 non-null  object        
 12  sex           22556 non-null  object        
 13  age           22556 non-null  int64         
dtypes: datetime64[ns](1), int64(6), object(7)
memory usage: 2.6+ MB


必要なカラムのみを使って、分析で使用するデータフレームを作成する

In [234]:
main_df = combined_df[['buy_date','item_price','category_lv2','shop_name','user_name']]
main_df.head()

Unnamed: 0,buy_date,item_price,category_lv2,shop_name,user_name
0,2019-11-22,2232,即席食品,にかほ市店,利用者00088
1,2019-11-22,2117,化粧品,にかほ市店,利用者00088
2,2019-11-22,9821,加熱用野菜・きのこ,にかほ市店,利用者00088
3,2019-11-22,5527,即席食品,にかほ市店,利用者00088
4,2019-11-22,954,チルドデザート,にかほ市店,利用者00088


___
# 問題1
2020年1月1日から12月31日までの1年間について、商品カテゴリ別に売上額と購入者数を計算してください。<br>
その上で、売上額Top3の商品カテゴリと、その売上額、購入者数を抽出してください。
- 売上額は、商品価格を合算した物です。税などを考慮する必要はありません。
- 購入者数は、ある商品を購入した人を重複なく数えたユニークユーザー数の事です。
- 商品カテゴリは、category_lv2を使ってください。
___

2020年1月1日から12月31日の1年間のみのデータを使ってデータフレームを作成する。

In [235]:
main_2020_df = main_df[(main_df['buy_date'] >= "2020-01-01")&(main_df['buy_date'] <= "2020-12-31")]
main_2020_df.sort_values('buy_date')

Unnamed: 0,buy_date,item_price,category_lv2,shop_name,user_name
1681,2020-01-01,9710,ベビーフード、穀類、その他,北竜町店,利用者00080
1664,2020-01-01,5169,飲料,須坂市店,利用者00068
1669,2020-01-01,433,加熱用野菜・きのこ,須坂市店,利用者00068
1668,2020-01-01,5481,酒類,須坂市店,利用者00068
1670,2020-01-01,1498,オーラルケア用品,須坂市店,利用者00068
...,...,...,...,...,...
6402,2020-12-31,4472,キッチン消耗品,伊予市店,利用者00069
1608,2020-12-31,6639,バスボディケア用品,上富田町店,利用者00082
1609,2020-12-31,4508,身だしなみ用品,上富田町店,利用者00082
6403,2020-12-31,2515,漬物、総菜,伊予市店,利用者00069


商品カテゴリ別に売上額と購入者数を計算して、売上額Top3の商品カテゴリと、その売上額、購入者数を抽出

In [236]:
def unique_user_count(user_id):
    return user_id.nunique()

## <span style="color: red; ">候補1</span>

In [237]:
top_3_df = main_2020_df[['user_name','category_lv2','item_price',]].groupby('category_lv2')\
    .agg({'item_price': np.sum, 'user_name': unique_user_count}).rename(columns={'item_price': 'sum_of_item_price', 'user_id': 'num_of_nunique_user'})\
                .sort_values('sum_of_item_price', ascending=False).head(3)

top_3_df["Rank"] = np.arange(1, len(top_3_df)+1)
top_3_df.set_index("Rank", inplace=True) 
top_3_df

Unnamed: 0_level_0,sum_of_item_price,user_name
Rank,Unnamed: 1_level_1,Unnamed: 2_level_1
1,6287234,99
2,3769618,100
3,3119028,100


## <span style="color: red; ">候補2</span>

In [238]:
main_2020_df[['user_name','category_lv2','item_price',]].groupby('category_lv2')\
    .agg({'item_price': np.sum, 'user_name': unique_user_count}).rename(columns={'item_price': 'sum_of_item_price', 'user_id': 'num_of_nunique_user'})\
        .sort_values('sum_of_item_price', ascending=False).head(3)

Unnamed: 0_level_0,sum_of_item_price,user_name
category_lv2,Unnamed: 1_level_1,Unnamed: 2_level_1
バスボディケア用品,6287234,99
酒類,3769618,100
加熱用野菜・きのこ,3119028,100


___
# 問題2-1
2020年1月1日から12月31日までの1年間について「バスボディケア用品」の売上額が最も大きかった店舗を1つ抽出してください。
___

バスボディケア用品のみのデータを使ってデータフレームを作成する。

In [239]:
bath_body_care_2020_df = main_2020_df[main_2020_df['category_lv2'] == " バスボディケア用品"]
bath_body_care_2020_df.head()

Unnamed: 0,buy_date,item_price,category_lv2,shop_name,user_name
67,2020-02-24,6639,バスボディケア用品,須坂市店,利用者00063
80,2020-08-07,8191,バスボディケア用品,松伏町店,利用者00010
143,2020-03-05,6639,バスボディケア用品,北竜町店,利用者00006
148,2020-03-05,5482,バスボディケア用品,北竜町店,利用者00006
156,2020-04-01,8191,バスボディケア用品,南陽市店,利用者00044


売上額が大きかった店舗Top5抽出する

In [240]:
bath_body_care_2020_df[["shop_name","item_price"]].groupby("shop_name").agg({'item_price': np.sum})\
    .rename(columns={'item_price': 'sum_of_item_price'}).sort_values('sum_of_item_price', ascending=False).head()

Unnamed: 0_level_0,sum_of_item_price
shop_name,Unnamed: 1_level_1
北竜町店,476683
三鷹市店,367903
松伏町店,365287
海田町店,361675
上富田町店,354010


売上額が大きかった店舗は北竜町店である

___
# 問題2-2
さらに、その店舗の客単価と購入者数を月毎に計算してください。<br> 
客単価と購入者数は、「全商品カテゴリ」と「バスボディケア用品のみ」の2パターンを計算してください。
- 客単価とは、購入者1人あたりの平均売上の事です。
- 商品カテゴリは、category_lv2を使ってください。
___

北竜町店のみのデータを使ってデータフレームを作成する。<br>
`month`カラムを追加する。


In [241]:
hokuryuu_cho_2020_df = main_2020_df[main_2020_df['shop_name'] == "北竜町店"]

def buy_date_to_month(buy_date):
    return f"2020年{buy_date.month}月"

hokuryuu_cho_2020_df["month"] = hokuryuu_cho_2020_df['buy_date'].apply(buy_date_to_month)
hokuryuu_cho_2020_df = hokuryuu_cho_2020_df.drop('buy_date', axis=1)

hokuryuu_cho_2020_df.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  hokuryuu_cho_2020_df["month"] = hokuryuu_cho_2020_df['buy_date'].apply(buy_date_to_month)


Unnamed: 0,item_price,category_lv2,shop_name,user_name,month
142,5527,即席食品,北竜町店,利用者00006,2020年3月
143,6639,バスボディケア用品,北竜町店,利用者00006,2020年3月
144,1515,コーヒー、紅茶、緑茶,北竜町店,利用者00006,2020年3月
145,1498,オーラルケア用品,北竜町店,利用者00006,2020年3月
146,6132,チルドデザート,北竜町店,利用者00006,2020年3月


「全商品カテゴリ」のデータフレームを作成する。

In [242]:
hokuryuu_cho_all_categories_df = hokuryuu_cho_2020_df.copy()
hokuryuu_cho_all_categories_df['categorie'] = "all_categories"
hokuryuu_cho_all_categories_df.head()


Unnamed: 0,item_price,category_lv2,shop_name,user_name,month,categorie
142,5527,即席食品,北竜町店,利用者00006,2020年3月,all_categories
143,6639,バスボディケア用品,北竜町店,利用者00006,2020年3月,all_categories
144,1515,コーヒー、紅茶、緑茶,北竜町店,利用者00006,2020年3月,all_categories
145,1498,オーラルケア用品,北竜町店,利用者00006,2020年3月,all_categories
146,6132,チルドデザート,北竜町店,利用者00006,2020年3月,all_categories


「バスボディケア用品のみ」のデータフレームを作成する。

In [243]:
hokuryuu_cho_bath_body_care_df = hokuryuu_cho_2020_df[hokuryuu_cho_2020_df["category_lv2"] == " バスボディケア用品"]
hokuryuu_cho_bath_body_care_df['categorie'] = "bath_body_care"
hokuryuu_cho_bath_body_care_df.head()

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  hokuryuu_cho_bath_body_care_df['categorie'] = "bath_body_care"


Unnamed: 0,item_price,category_lv2,shop_name,user_name,month,categorie
143,6639,バスボディケア用品,北竜町店,利用者00006,2020年3月,bath_body_care
148,5482,バスボディケア用品,北竜町店,利用者00006,2020年3月,bath_body_care
280,8191,バスボディケア用品,北竜町店,利用者00065,2020年1月,bath_body_care
313,9127,バスボディケア用品,北竜町店,利用者00030,2020年11月,bath_body_care
899,9127,バスボディケア用品,北竜町店,利用者00059,2020年4月,bath_body_care


不要なカラムは削除して「全商品カテゴリ」のデータフレームと「バスボディケア用品のみ」のデータフレームを結合する。

In [244]:
remove_columns_2 = ['category_lv2','shop_name']
hokuryuu_cho_all_categories_df = hokuryuu_cho_all_categories_df.drop(remove_columns_2, axis=1)
hokuryuu_cho_bath_body_care_df = hokuryuu_cho_bath_body_care_df.drop(remove_columns_2, axis=1)
df_1 = pd.concat([hokuryuu_cho_all_categories_df, hokuryuu_cho_bath_body_care_df])

In [245]:
df_1

Unnamed: 0,item_price,user_name,month,categorie
142,5527,利用者00006,2020年3月,all_categories
143,6639,利用者00006,2020年3月,all_categories
144,1515,利用者00006,2020年3月,all_categories
145,1498,利用者00006,2020年3月,all_categories
146,6132,利用者00006,2020年3月,all_categories
...,...,...,...,...
21391,8446,利用者00034,2020年8月,bath_body_care
21392,6639,利用者00034,2020年8月,bath_body_care
21395,4126,利用者00034,2020年8月,bath_body_care
21397,5482,利用者00034,2020年8月,bath_body_care


## <span style="color: red; ">候補1</span>

In [246]:
df_2 = df_1.groupby(['month','categorie'], as_index=False).agg({'item_price': np.sum, 'user_name': unique_user_count}).rename(columns={'item_price': 'sum_of_item_price', 'user_name': 'num_of_nunique_user'})

In [247]:
df_2.head()

Unnamed: 0,month,categorie,sum_of_item_price,num_of_nunique_user
0,2020年10月,all_categories,215711,10
1,2020年10月,bath_body_care,41105,3
2,2020年11月,all_categories,283293,12
3,2020年11月,bath_body_care,69291,6
4,2020年12月,all_categories,243295,11


In [249]:
df_3 = df_2.rename(columns={'sum_of_item_price': 'value'}).drop('num_of_nunique_user', axis=1)

In [250]:
df_3['price'] = 'sum_of_item_price'

In [251]:
df_3.head()

Unnamed: 0,month,categorie,value,price
0,2020年10月,all_categories,215711,sum_of_item_price
1,2020年10月,bath_body_care,41105,sum_of_item_price
2,2020年11月,all_categories,283293,sum_of_item_price
3,2020年11月,bath_body_care,69291,sum_of_item_price
4,2020年12月,all_categories,243295,sum_of_item_price


In [252]:
df_2['value'] = df_2['sum_of_item_price'] / df_2['num_of_nunique_user']

In [253]:
df_2 = df_2.drop(['sum_of_item_price','num_of_nunique_user'], axis=1)

In [254]:
df_2['price'] = 'customer_unit_price'

In [255]:
df_4 = pd.concat([df_3, df_2])

In [256]:
df_4

Unnamed: 0,month,categorie,value,price
0,2020年10月,all_categories,215711.0,sum_of_item_price
1,2020年10月,bath_body_care,41105.0,sum_of_item_price
2,2020年11月,all_categories,283293.0,sum_of_item_price
3,2020年11月,bath_body_care,69291.0,sum_of_item_price
4,2020年12月,all_categories,243295.0,sum_of_item_price
5,2020年12月,bath_body_care,38508.0,sum_of_item_price
6,2020年1月,all_categories,204871.0,sum_of_item_price
7,2020年1月,bath_body_care,57092.0,sum_of_item_price
8,2020年2月,all_categories,291429.0,sum_of_item_price
9,2020年2月,bath_body_care,21699.0,sum_of_item_price


In [257]:
order_of_month = ['2020年1月','2020年2月','2020年3月','2020年4月','2020年5月','2020年6月','2020年7月','2020年8月','2020年9月','2020年10月','2020年11月','2020年12月']

In [258]:
df_4.pivot_table(index='month', columns=['categorie','price'], values='value').reindex(index=order_of_month).reindex(columns=['sum_of_item_price','customer_unit_price'], level=1)

categorie,all_categories,all_categories,bath_body_care,bath_body_care
price,sum_of_item_price,customer_unit_price,sum_of_item_price,customer_unit_price
month,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2020年1月,204871.0,25608.875,57092.0,14273.0
2020年2月,291429.0,26493.545455,21699.0,7233.0
2020年3月,303701.0,25308.416667,42496.0,14165.333333
2020年4月,144785.0,20683.571429,27066.0,9022.0
2020年5月,284331.0,25848.272727,54694.0,13673.5
2020年6月,143289.0,20469.857143,18620.0,9310.0
2020年7月,181528.0,25932.571429,13278.0,13278.0
2020年8月,380555.0,29273.461538,75942.0,12657.0
2020年9月,200539.0,22282.111111,16892.0,8446.0
2020年10月,215711.0,21571.1,41105.0,13701.666667
