# ２章　小売店のデータでデータ加工を行う１０本ノック

本章では、ある小売店の売上履歴と顧客台帳データを用いて、データ分析の素地となる「データの加工」を習得することが目的です。
実際の現場データは手入力のExcel等、決して綺麗なデータではない事が多いため、
データの揺れや整合性の担保など、汚いデータを取り扱うデータ加工を主体に進めて行きます。

### ノック１１：データを読み込んでみよう

In [1]:
!ls

 2_answer.ipynb						   kokyaku_daicho.xlsx
'2章 小売店のデータでデータ加工を行う１０本ノック.ipynb'   uriage.csv
 dump_data.csv


In [2]:
import pandas as pd
df_uriage = pd.read_csv("uriage.csv")
df_kokyaku = pd.read_excel("kokyaku_daicho.xlsx")
## 以下2つのエラーがでた
## ImportError: Missing optional dependency 'xlrd'. Install xlrd >= 1.0.0 for Excel support Use pip or conda to install xlrd.
## ValueError: Your version of xlrd is 2.0.1. In xlrd >= 2.0, only the xls format is supported. Install openpyxl instead.

## なので、xlrd と openpyxl を pip install

df_kokyaku

Unnamed: 0,顧客名,かな,地域,メールアドレス,登録日
0,須賀ひとみ,すが ひとみ,H市,suga_hitomi@example.com,2018/01/04
1,岡田 敏也,おかだ としや,E市,okada_toshiya@example.com,42782
2,芳賀 希,はが のぞみ,A市,haga_nozomi@example.com,2018/01/07
3,荻野 愛,おぎの あい,F市,ogino_ai@example.com,42872
4,栗田 憲一,くりた けんいち,E市,kurita_kenichi@example.com,43127
...,...,...,...,...,...
195,川上 りえ,かわかみ りえ,G市,kawakami_rie@example.com,2017/06/20
196,小松 季衣,こまつ としえ,E市,komatsu_toshie@example.com,2018/06/20
197,白鳥 りえ,しらとり りえ,F市,shiratori_rie@example.com,2017/04/29
198,大西 隆之介,おおにし りゅうのすけ,H市,oonishi_ryuunosuke@example.com,2019/04/19


### ノック１２：データの揺れを見てみよう

In [3]:
df_uriage.head()

Unnamed: 0,purchase_date,item_name,item_price,customer_name
0,2019-06-13 18:02:34,商品A,100.0,深井菜々美
1,2019-07-13 13:05:29,商 品 S,,浅田賢二
2,2019-05-11 19:42:07,商 品 a,,南部慶二
3,2019-02-12 23:40:45,商品Z,2600.0,麻生莉緒
4,2019-04-22 03:09:35,商品a,,平田鉄二


In [4]:
df_kokyaku.head()

Unnamed: 0,顧客名,かな,地域,メールアドレス,登録日
0,須賀ひとみ,すが ひとみ,H市,suga_hitomi@example.com,2018/01/04
1,岡田 敏也,おかだ としや,E市,okada_toshiya@example.com,42782
2,芳賀 希,はが のぞみ,A市,haga_nozomi@example.com,2018/01/07
3,荻野 愛,おぎの あい,F市,ogino_ai@example.com,42872
4,栗田 憲一,くりた けんいち,E市,kurita_kenichi@example.com,43127


### ノック１３：データに揺れがあるまま集計しよう

In [5]:
# 商品ごとの月売上合計

df_uriage_13 = df_uriage.copy() 
df_uriage_13["purchase_date"] = pd.to_datetime(df_uriage_13["purchase_date"])
df_uriage_13["term"] = df_uriage_13["purchase_date"].dt.strftime("%Y%m")
#df_uriage_13.set_index("purchase_date", inplace=True)
df_uriage_13.groupby(["term", "item_name"]).sum().unstack()


Unnamed: 0_level_0,item_price,item_price,item_price,item_price,item_price,item_price,item_price,item_price,item_price,item_price,item_price,item_price,item_price,item_price,item_price,item_price,item_price,item_price,item_price,item_price,item_price
item_name,商品W,商 品 n,商品E,商品M,商品P,商品S,商品W,商品X,商 品O,商 品Q,...,商品k,商品l,商品o,商品p,商品r,商品s,商品t,商品v,商品x,商品y
term,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
201901,,1400.0,,,,,,,,,...,1100.0,1200.0,1500.0,,,,,,,
201902,,,,,,,,2400.0,,,...,,,,,,1900.0,2000.0,2200.0,,
201903,,,500.0,1300.0,1600.0,,,,,,...,,,,,,,,,,
201904,2300.0,,,,,,,,,1700.0,...,,,,,,1900.0,,,,
201905,,,,,,1900.0,,,,,...,,1200.0,,,,,,,,2500.0
201906,,,,,,,2300.0,,,,...,,,,1600.0,,,,,2400.0,
201907,,,,,,,,,0.0,,...,,,1500.0,,1800.0,,,,,


### ノック１４：商品名の揺れを補正しよう

In [6]:
df_uriage_14 = df_uriage.copy() 
df_uriage_14["item_name"].unique()

array(['商品A', '商 品 S', '商 品 a', '商品Z', '商品a', '商品S', '商品 a', '商品V', '商品O',
       '商 品U', '商品L', '商  品V', '商 品O', '商品C', '商品I', '商品r', '商品X', '商品 g',
       '商品R', '商品P', '商品Q', '商品y', '商品 A', '商品N', '商品W', '商 品E', '商品K',
       '商品B', '商品F', '商 品s', '  商品W', ' 商 品 n', '商 品F', '商品D', '商品M',
       '商品Y', '商品U', '商品H', '商品T', '商品J', '商  品O', '商品E', '商  品Q', ' 商品S',
       ' 商品M', '商  品T', '商品G', '商 品G', ' 商品P', ' 商品E', '商 品N', '商 品Y',
       '商品 J', '商品 V', '商品 K', '商 品V', '商 品D', '商 品A', '商品 F', '商品 H',
       '商 品K', '商 品T', '商品 X', '商品 Q', '商 品X', '商 品H', '商 品C', '商品 B',
       '商品 O', '商品 T', '商品v', '商品p', '商品i', '商品 w', '商 品 s', '商 品 q',
       '商品s', '商品l', '商品t', '商品k', '商品g', '商品o', '商品 R', '商品 S', '商 品M',
       '商品j', '商品d', '商品 I', '商品 E', '商品 o', '商品c', '商品 v', '商品e', '商品x',
       '商 品I', ' 商品W', ' 商品X', '商品 M', '商 品P'], dtype=object)

In [7]:
# 小文字大文字は関係なく同じ商品だそうです。
# よって、「商品大文字」に寄せます
df_uriage_14["item_name"] = df_uriage_14["item_name"].str.replace(" ", "")
df_uriage_14["item_name"] = df_uriage_14["item_name"].str.upper()
df_uriage_14["item_name"].unique()

array(['商品A', '商品S', '商品Z', '商品V', '商品O', '商品U', '商品L', '商品C', '商品I',
       '商品R', '商品X', '商品G', '商品P', '商品Q', '商品Y', '商品N', '商品W', '商品E',
       '商品K', '商品B', '商品F', '商品D', '商品M', '商品H', '商品T', '商品J'],
      dtype=object)

### ノック１５：金額欠損値の補完をしよう

In [8]:
# 同商品であれば同じ価格
# それで補完
df_uriage_15 = df_uriage_14.copy()
df_uriage_15

Unnamed: 0,purchase_date,item_name,item_price,customer_name
0,2019-06-13 18:02:34,商品A,100.0,深井菜々美
1,2019-07-13 13:05:29,商品S,,浅田賢二
2,2019-05-11 19:42:07,商品A,,南部慶二
3,2019-02-12 23:40:45,商品Z,2600.0,麻生莉緒
4,2019-04-22 03:09:35,商品A,,平田鉄二
...,...,...,...,...
2994,2019-02-15 02:56:39,商品Y,2500.0,福島友也
2995,2019-06-22 04:03:43,商品M,1300.0,大倉晃司
2996,2019-03-29 11:14:05,商品Q,,尾形小雁
2997,2019-07-14 12:56:49,商品H,,芦田博之


In [9]:
for item in df_uriage_15["item_name"].unique():
    price = df_uriage_15[df_uriage_15["item_name"]==item]["item_price"].max()
    
    # この記法は忘れがち
    df_uriage_15.loc[df_uriage_15["item_name"]==item, "item_price"] = price
    

    

In [10]:
df_uriage_15

Unnamed: 0,purchase_date,item_name,item_price,customer_name
0,2019-06-13 18:02:34,商品A,100.0,深井菜々美
1,2019-07-13 13:05:29,商品S,1900.0,浅田賢二
2,2019-05-11 19:42:07,商品A,100.0,南部慶二
3,2019-02-12 23:40:45,商品Z,2600.0,麻生莉緒
4,2019-04-22 03:09:35,商品A,100.0,平田鉄二
...,...,...,...,...
2994,2019-02-15 02:56:39,商品Y,2500.0,福島友也
2995,2019-06-22 04:03:43,商品M,1300.0,大倉晃司
2996,2019-03-29 11:14:05,商品Q,1700.0,尾形小雁
2997,2019-07-14 12:56:49,商品H,800.0,芦田博之


### ノック１６：顧客名の揺れを補正しよう

In [11]:
df_kokyaku_16 = df_kokyaku.copy()
df_kokyaku_16["顧客名"].unique()


array(['須賀ひとみ', '岡田\u3000 敏也', '芳賀 希', '荻野  愛', '栗田 憲一', '梅沢 麻緒',
       '相原 ひとり', '新村 丈史', '石川  まさみ', '小栗 正義', '大倉 晃司', '那須 蒼甫', '清水 裕次郎',
       '榊原 しぼり', '高沢   美咲', '川島 友以乃', '唐沢 景子', '稲田 将也', '秋葉 あき', '西脇 礼子',
       '内村 まさみ', '進藤 瞬', '小口 豊', '笹原 しぼり', '岩佐 孝太郎', '河村 由樹', '菅原 誠治',
       '榎本 薫', '高梨 結衣', '鶴岡 薫', '藤木 一恵', '森岡 季衣', '田畑 正敏', '宇野 秀樹',
       '高原 充則', '梅村 秀樹', '浅田 賢二', '石渡 小雁', '吉岡 サダヲ', '井口 寛治', '奥 光洋',
       '佐藤 慶二', '東 光博', '高田 さんま', '合田 光', '深田 信輔', '島 英嗣', '梅津 淳子',
       '日比野 徹', '熊倉 綾', '松田  浩正', '楠 高史', '岡 慶太', '市田 寿明', '山西 花',
       '青山 鉄洋', '松川 綾女', '大滝 麗奈', '赤木 愛梨', '楠  哲平', '堀内 聡', '八木 雅彦',
       '林 勇', '日野 夏希', '麻生 莉緒', '根岸 仁晶', '赤木 だん吉', '亀井 一徳', '横田 遥',
       '野本 仁晶', '西原 未華子', '五十嵐 春樹', '堀江 佑', '久保田 倫子', '金森 なつみ', '城戸 芳正',
       '望月 真悠子', '井本 マサカズ', '米沢 仁晶', '本橋 直人', '古川 信吾', '岩沢 那奈', '西島 知世',
       '戸塚 美幸', '深井 照生', '新谷 智花', '有馬 徹平', '本多 フミヤ', '浜田 未華子', '牧田 玲那',
       '島 孝太郎', '石田 花', '星野 美嘉', '黒谷 長利', '深沢 ひろ子', '矢部 夏空', '立石 茜',
       '手塚 雅之', '松

In [12]:
# 「名字名前」のスペース一切なしに寄せる
df_kokyaku_16["顧客名"].str.replace("\s","").unique()

  


array(['須賀ひとみ', '岡田敏也', '芳賀希', '荻野愛', '栗田憲一', '梅沢麻緒', '相原ひとり', '新村丈史',
       '石川まさみ', '小栗正義', '大倉晃司', '那須蒼甫', '清水裕次郎', '榊原しぼり', '高沢美咲', '川島友以乃',
       '唐沢景子', '稲田将也', '秋葉あき', '西脇礼子', '内村まさみ', '進藤瞬', '小口豊', '笹原しぼり',
       '岩佐孝太郎', '河村由樹', '菅原誠治', '榎本薫', '高梨結衣', '鶴岡薫', '藤木一恵', '森岡季衣',
       '田畑正敏', '宇野秀樹', '高原充則', '梅村秀樹', '浅田賢二', '石渡小雁', '吉岡サダヲ', '井口寛治',
       '奥光洋', '佐藤慶二', '東光博', '高田さんま', '合田光', '深田信輔', '島英嗣', '梅津淳子',
       '日比野徹', '熊倉綾', '松田浩正', '楠高史', '岡慶太', '市田寿明', '山西花', '青山鉄洋', '松川綾女',
       '大滝麗奈', '赤木愛梨', '楠哲平', '堀内聡', '八木雅彦', '林勇', '日野夏希', '麻生莉緒', '根岸仁晶',
       '赤木だん吉', '亀井一徳', '横田遥', '野本仁晶', '西原未華子', '五十嵐春樹', '堀江佑', '久保田倫子',
       '金森なつみ', '城戸芳正', '望月真悠子', '井本マサカズ', '米沢仁晶', '本橋直人', '古川信吾', '岩沢那奈',
       '西島知世', '戸塚美幸', '深井照生', '新谷智花', '有馬徹平', '本多フミヤ', '浜田未華子', '牧田玲那',
       '島孝太郎', '石田花', '星野美嘉', '黒谷長利', '深沢ひろ子', '矢部夏空', '立石茜', '手塚雅之',
       '松谷愛子', '中田美智子', '片瀬長利', '石崎幸子', '明石家明', '小川美菜', '田辺光洋', '神原美嘉',
       '岩城徹平', '相川良介', '植村遥', '井川真悠子', '松元翔太', 'さだ千佳子', '島本研

In [13]:
df_kokyaku_16["顧客名"] = df_kokyaku_16["顧客名"].str.replace("\s","")

  """Entry point for launching an IPython kernel.


### ノック１７：日付の揺れを補正しよう

In [14]:
df_kokyaku_17 = df_kokyaku_16.copy()

In [15]:
def date_preprosessor(d):
    if type(d) == int:
        return pd.to_timedelta(d, unit="D") + pd.to_datetime("1900/01/01")
    else:
        return pd.to_datetime(d)
    
# date_preprosessor(df_kokyaku_17["登録日"][0])
df_kokyaku_17["登録日"] = df_kokyaku_17["登録日"].apply(date_preprosessor)




In [16]:
df_kokyaku_17

Unnamed: 0,顧客名,かな,地域,メールアドレス,登録日
0,須賀ひとみ,すが ひとみ,H市,suga_hitomi@example.com,2018-01-04
1,岡田敏也,おかだ としや,E市,okada_toshiya@example.com,2017-02-18
2,芳賀希,はが のぞみ,A市,haga_nozomi@example.com,2018-01-07
3,荻野愛,おぎの あい,F市,ogino_ai@example.com,2017-05-19
4,栗田憲一,くりた けんいち,E市,kurita_kenichi@example.com,2018-01-29
...,...,...,...,...,...
195,川上りえ,かわかみ りえ,G市,kawakami_rie@example.com,2017-06-20
196,小松季衣,こまつ としえ,E市,komatsu_toshie@example.com,2018-06-20
197,白鳥りえ,しらとり りえ,F市,shiratori_rie@example.com,2017-04-29
198,大西隆之介,おおにし りゅうのすけ,H市,oonishi_ryuunosuke@example.com,2019-04-19


In [17]:
# 登録数を月別でカウント
df_kokyaku_17.set_index("登録日").resample("M")["顧客名"].count()

登録日
2017-01-31    15
2017-02-28    11
2017-03-31    14
2017-04-30    15
2017-05-31    13
2017-06-30    14
2017-07-31    17
2017-08-31     0
2017-09-30     0
2017-10-31     0
2017-11-30     0
2017-12-31     0
2018-01-31    13
2018-02-28    15
2018-03-31    17
2018-04-30     5
2018-05-31    19
2018-06-30    13
2018-07-31    17
2018-08-31     0
2018-09-30     0
2018-10-31     0
2018-11-30     0
2018-12-31     0
2019-01-31     0
2019-02-28     0
2019-03-31     0
2019-04-30     2
Freq: M, Name: 顧客名, dtype: int64

### ノック１８：顧客名をキーに２つのデータを結合(ジョイン)しよう

In [52]:
df_kokyaku_18 = df_kokyaku_17.copy()
df_uriage_18 = df_uriage_15.copy()

df_18 = pd.merge(left=df_kokyaku_18, right=df_uriage_18, left_on="顧客名", right_on="customer_name", how="outer")
df_18.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 3000 entries, 0 to 2999
Data columns (total 9 columns):
 #   Column         Non-Null Count  Dtype         
---  ------         --------------  -----         
 0   顧客名            3000 non-null   object        
 1   かな             3000 non-null   object        
 2   地域             3000 non-null   object        
 3   メールアドレス        3000 non-null   object        
 4   登録日            3000 non-null   datetime64[ns]
 5   purchase_date  2999 non-null   object        
 6   item_name      2999 non-null   object        
 7   item_price     2999 non-null   float64       
 8   customer_name  2999 non-null   object        
dtypes: datetime64[ns](1), float64(1), object(7)
memory usage: 234.4+ KB


### ノック１９：クレンジングしたデータをダンプしよう

In [53]:
df_18.to_csv("/tmp/knock_19.csv")

### ノック２０：データを集計しよう

In [87]:
# 購入年月別、商品ごとの集計
df_20 = df_18.copy()

df_20["purchase_date"] = pd.to_datetime(df_20["purchase_date"])
#df_20.set_index("purchase_date").groupby("item_name").resample("M")["item_name"].count().unstack().T

df_20["purchase_month"] = df_20["purchase_date"].dt.strftime("%Y%m")
df_20.groupby(["purchase_month", "item_name"]).size().unstack()


item_name,商品A,商品B,商品C,商品D,商品E,商品F,商品G,商品H,商品I,商品J,...,商品Q,商品R,商品S,商品T,商品U,商品V,商品W,商品X,商品Y,商品Z
purchase_month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
201901,18.0,13.0,19.0,17.0,18.0,15.0,11.0,16.0,18.0,17.0,...,17.0,21.0,20.0,17.0,7.0,22.0,13.0,14.0,10.0,
201902,19.0,14.0,26.0,21.0,16.0,14.0,14.0,17.0,12.0,14.0,...,22.0,22.0,22.0,23.0,19.0,22.0,24.0,16.0,11.0,1.0
201903,17.0,21.0,20.0,17.0,9.0,27.0,14.0,18.0,12.0,16.0,...,23.0,16.0,20.0,12.0,23.0,18.0,16.0,21.0,16.0,
201904,17.0,19.0,24.0,20.0,18.0,17.0,14.0,11.0,18.0,13.0,...,20.0,20.0,16.0,16.0,11.0,15.0,14.0,16.0,20.0,
201905,24.0,14.0,16.0,14.0,19.0,18.0,23.0,15.0,16.0,11.0,...,13.0,22.0,18.0,16.0,16.0,9.0,21.0,16.0,20.0,
201906,24.0,12.0,11.0,19.0,13.0,18.0,15.0,13.0,19.0,22.0,...,15.0,16.0,21.0,12.0,18.0,20.0,17.0,15.0,13.0,
201907,20.0,20.0,17.0,17.0,12.0,17.0,19.0,19.0,19.0,23.0,...,15.0,19.0,23.0,21.0,13.0,28.0,16.0,18.0,12.0,


In [88]:
# 購入年月別、商品ごとの売上高
df_20.groupby(["purchase_month", "item_name"])["item_price"].sum().unstack()


item_name,商品A,商品B,商品C,商品D,商品E,商品F,商品G,商品H,商品I,商品J,...,商品Q,商品R,商品S,商品T,商品U,商品V,商品W,商品X,商品Y,商品Z
purchase_month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
201901,1800.0,2600.0,5700.0,6800.0,9000.0,9000.0,7700.0,12800.0,16200.0,17000.0,...,28900.0,37800.0,38000.0,34000.0,14700.0,48400.0,29900.0,33600.0,25000.0,
201902,1900.0,2800.0,7800.0,8400.0,8000.0,8400.0,9800.0,13600.0,10800.0,14000.0,...,37400.0,39600.0,41800.0,46000.0,39900.0,48400.0,55200.0,38400.0,27500.0,2600.0
201903,1700.0,4200.0,6000.0,6800.0,4500.0,16200.0,9800.0,14400.0,10800.0,16000.0,...,39100.0,28800.0,38000.0,24000.0,48300.0,39600.0,36800.0,50400.0,40000.0,
201904,1700.0,3800.0,7200.0,8000.0,9000.0,10200.0,9800.0,8800.0,16200.0,13000.0,...,34000.0,36000.0,30400.0,32000.0,23100.0,33000.0,32200.0,38400.0,50000.0,
201905,2400.0,2800.0,4800.0,5600.0,9500.0,10800.0,16100.0,12000.0,14400.0,11000.0,...,22100.0,39600.0,34200.0,32000.0,33600.0,19800.0,48300.0,38400.0,50000.0,
201906,2400.0,2400.0,3300.0,7600.0,6500.0,10800.0,10500.0,10400.0,17100.0,22000.0,...,25500.0,28800.0,39900.0,24000.0,37800.0,44000.0,39100.0,36000.0,32500.0,
201907,2000.0,4000.0,5100.0,6800.0,6000.0,10200.0,13300.0,15200.0,17100.0,23000.0,...,25500.0,34200.0,43700.0,42000.0,27300.0,61600.0,36800.0,43200.0,30000.0,


In [90]:
# 購入年月別、顧客ごとの販売数
df_20.groupby(["purchase_month", "顧客名"])["item_name"].count().unstack()


顧客名,さだ千佳子,中仁晶,中田美智子,丸山光臣,久保田倫子,五十嵐春樹,井上桃子,井口寛治,井川真悠子,井川里穂,...,浅見広司,熊井憲史,神原美嘉,藤木一恵,西脇礼子,香椎優一,鶴岡薫,島孝太郎,明石家明,笹原しぼり
purchase_month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
201901,3.0,1.0,4.0,2.0,2.0,5.0,3.0,3.0,1.0,4.0,...,,,,,,,,,,
201902,9.0,1.0,2.0,2.0,1.0,2.0,1.0,,4.0,2.0,...,3.0,4.0,4.0,1.0,1.0,4.0,2.0,,,
201903,1.0,2.0,1.0,6.0,1.0,3.0,3.0,2.0,2.0,1.0,...,3.0,3.0,3.0,3.0,2.0,3.0,4.0,1.0,4.0,2.0
201904,,3.0,1.0,2.0,,2.0,,3.0,2.0,2.0,...,4.0,1.0,1.0,1.0,,2.0,2.0,2.0,3.0,1.0
201905,3.0,2.0,5.0,2.0,4.0,2.0,1.0,3.0,3.0,,...,1.0,3.0,5.0,5.0,1.0,1.0,3.0,5.0,1.0,1.0
201906,1.0,3.0,,4.0,1.0,1.0,2.0,2.0,3.0,2.0,...,1.0,5.0,2.0,2.0,2.0,7.0,2.0,2.0,1.0,3.0
201907,3.0,,3.0,2.0,5.0,5.0,2.0,5.0,5.0,6.0,...,1.0,1.0,1.0,2.0,4.0,2.0,4.0,4.0,2.0,1.0


In [91]:
# 購入年月別、地域ごとの販売数
df_20.groupby(["purchase_month", "地域"])["item_name"].count().unstack()


地域,A市,B市,C市,D市,E市,F市,G市,H市
purchase_month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
201901,59,55,72,34,49,57,49,42
201902,71,46,65,48,61,52,43,63
201903,64,52,57,43,52,59,51,59
201904,64,48,54,45,48,58,40,52
201905,57,52,68,48,59,65,35,43
201906,53,47,61,30,51,51,58,58
201907,76,53,61,42,54,64,47,54


In [93]:
# 購入履歴が無い顧客
df_20.groupby("顧客名")["item_price"].sum().sort_values()

顧客名
福井美希         0.0
城戸芳正      4600.0
望月真悠子     7400.0
河村由樹      8100.0
笹原しぼり     8200.0
          ...   
日比野徹     32100.0
福本美幸     32300.0
石川まさみ    33100.0
戸塚美幸     34800.0
島袋友以乃    35700.0
Name: item_price, Length: 200, dtype: float64