## 第2章 小売店のデータでデータ加工を行う10本ノック

この記事は[「Python実践データ分析100本ノック」](https://www.amazon.co.jp/dp/B07ZSGSN9S/ref=dp-kindle-redirect?_encoding=UTF8&btkr=1)の演習を実際にやってみたという内容になっています。今まで自己流でやってきましたが、一度他の方々がどのような考え方やコーディングをしているのか勉強してみようと思ってやってみました。本書は実際の業務に活用する上でとても参考になる内容だと思っています。データ分析に関わる仕事をしたい方にお勧めしたいです。

第２章では小売店の売り上げデータの解析、予測になります。汚いデータをいかに加工して予測のモデルを構築をして行くかという演習になっています。

こういう実務的な問題を演習として用意してくれているので、とてもありがたいです。

### github
- jupyter notebook形式のファイルは[こちら](https://github.com/hiroshi0530/wa-src/blob/master/ml/data100/02/02_nb.ipynb)

### google colaboratory
- google colaboratory で実行する場合は[こちら](https://colab.research.google.com/github/hiroshi0530/wa-src/blob/master/ml/data100/02/02_nb.ipynb)

### 筆者の環境

In [1]:
!sw_vers

ProductName:	Mac OS X
ProductVersion:	10.14.6
BuildVersion:	18G6020


In [2]:
!python -V

Python 3.7.3


基本的なライブラリをインポートしそのバージョンを確認しておきます。

In [3]:
%matplotlib inline
%config InlineBackend.figure_format = 'svg'

import matplotlib
import matplotlib.pyplot as plt
import scipy
import numpy as np
import pandas as pd

print('matplotlib version :', matplotlib.__version__)
print('scipy version :', scipy.__version__)
print('numpy version :', np.__version__)
print('pandas version :', pd.__version__)

matplotlib version : 3.0.3
scipy version : 1.4.1
numpy version : 1.16.2
pandas version : 1.0.3


## 解答

### ノック11 : データを読み込んでみよう

In [4]:
uriage_data = pd.read_csv('uriage.csv')
uriage_data.head()

Unnamed: 0,purchase_date,item_name,item_price,customer_name
0,2019-06-13 18:02:34,商品A,100.0,深井菜々美
1,2019-07-13 13:05:29,商 品 S,,浅田賢二
2,2019-05-11 19:42:07,商 品 a,,南部慶二
3,2019-02-12 23:40:45,商品Z,2600.0,麻生莉緒
4,2019-04-22 03:09:35,商品a,,平田鉄二


途中で半角スペースが入っていたり、大文字、小文字の差異などいい感じに表記が揺れています。一応カラム名を確認しておきます。

In [5]:
uriage_data.columns

Index(['purchase_date', 'item_name', 'item_price', 'customer_name'], dtype='object')

In [6]:
kokyaku_data = pd.read_excel('kokyaku_daicho.xlsx')
kokyaku_data.head()

Unnamed: 0,顧客名,かな,地域,メールアドレス,登録日
0,須賀ひとみ,すが ひとみ,H市,suga_hitomi@example.com,2018/01/04
1,岡田 敏也,おかだ としや,E市,okada_toshiya@example.com,42782
2,芳賀 希,はが のぞみ,A市,haga_nozomi@example.com,2018/01/07
3,荻野 愛,おぎの あい,F市,ogino_ai@example.com,42872
4,栗田 憲一,くりた けんいち,E市,kurita_kenichi@example.com,43127


In [7]:
kokyaku_data.columns

Index(['顧客名', 'かな', '地域', 'メールアドレス', '登録日'], dtype='object')

### ノック12 : データの揺れを見てみよう

In [8]:
uriage_data['item_name'].head()

0      商品A
1    商 品 S
2    商 品 a
3      商品Z
4      商品a
Name: item_name, dtype: object

In [9]:
uriage_data['item_price'].head()

0     100.0
1       NaN
2       NaN
3    2600.0
4       NaN
Name: item_price, dtype: float64

かなりデータが揺れがあるのがわかります。

### ノック13 : データに揺れがあるまま集計してみよう 

日付がobject型なのでdatetime型に変換します。

In [10]:
uriage_data['purchase_date'] = pd.to_datetime(uriage_data['purchase_date'])

In [11]:
uriage_data[['purchase_date']].head()

Unnamed: 0,purchase_date
0,2019-06-13 18:02:34
1,2019-07-13 13:05:29
2,2019-05-11 19:42:07
3,2019-02-12 23:40:45
4,2019-04-22 03:09:35


daetime型に変換されています。

月ごとの集計値を計算します。

In [12]:
uriage_data['purchase_month'] = uriage_data['purchase_date'].dt.strftime('%Y%m')
res = uriage_data.pivot_table(index='purchase_month', columns='item_name', aggfunc='size', fill_value=0)
res

item_name,商品W,商 品 n,商品E,商品M,商品P,商品S,商品W,商品X,商 品O,商 品Q,...,商品k,商品l,商品o,商品p,商品r,商品s,商品t,商品v,商品x,商品y
purchase_month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
201901,0,1,0,0,0,0,0,0,0,0,...,1,1,1,0,0,0,0,0,0,0
201902,0,0,0,0,0,0,0,1,0,0,...,0,0,0,0,0,1,1,1,0,0
201903,0,0,1,1,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
201904,1,0,0,0,0,0,0,0,0,1,...,0,0,0,0,0,1,0,0,0,0
201905,0,0,0,0,0,1,0,0,0,0,...,0,1,0,0,0,0,0,0,0,1
201906,0,0,0,0,0,0,1,0,0,0,...,0,0,0,1,0,0,0,0,1,0
201907,0,0,0,0,0,0,0,0,1,0,...,0,0,1,0,2,0,0,0,0,0


In [13]:
res.shape

(7, 99)

商品数が99個になっています。
次に価格の集計についても見てみます。

In [14]:
res = uriage_data.pivot_table(index='purchase_month', columns='item_name', values='item_price', aggfunc='sum', fill_value=0)
res

item_name,商品W,商 品 n,商品E,商品M,商品P,商品S,商品W,商品X,商 品O,商 品Q,...,商品k,商品l,商品o,商品p,商品r,商品s,商品t,商品v,商品x,商品y
purchase_month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
201901,0,1400,0,0,0,0,0,0,0,0,...,1100,1200,1500,0,0,0,0,0,0,0
201902,0,0,0,0,0,0,0,2400,0,0,...,0,0,0,0,0,1900,2000,2200,0,0
201903,0,0,500,1300,1600,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
201904,2300,0,0,0,0,0,0,0,0,1700,...,0,0,0,0,0,1900,0,0,0,0
201905,0,0,0,0,0,1900,0,0,0,0,...,0,1200,0,0,0,0,0,0,0,2500
201906,0,0,0,0,0,0,2300,0,0,0,...,0,0,0,1600,0,0,0,0,2400,0
201907,0,0,0,0,0,0,0,0,0,0,...,0,0,1500,0,1800,0,0,0,0,0


こちらも全く意味をなしてないことがわかります。

### ノック14 : 商品名の揺れを補正しよう

まずは商品名の揺れを補正していくようです。今回抽出された商品の一覧です。

In [15]:
pd.unique(uriage_data['item_name'])

array(['商品A', '商 品 S', '商 品 a', '商品Z', '商品a', '商品S', '商品 a', '商品V', '商品O',
       '商 品U', '商品L', '商  品V', '商 品O', '商品C', '商品I', '商品r', '商品X', '商品 g',
       '商品R', '商品P', '商品Q', '商品y', '商品 A', '商品N', '商品W', '商 品E', '商品K',
       '商品B', '商品F', '商 品s', '  商品W', ' 商 品 n', '商 品F', '商品D', '商品M',
       '商品Y', '商品U', '商品H', '商品T', '商品J', '商  品O', '商品E', '商  品Q', ' 商品S',
       ' 商品M', '商  品T', '商品G', '商 品G', ' 商品P', ' 商品E', '商 品N', '商 品Y',
       '商品 J', '商品 V', '商品 K', '商 品V', '商 品D', '商 品A', '商品 F', '商品 H',
       '商 品K', '商 品T', '商品 X', '商品 Q', '商 品X', '商 品H', '商 品C', '商品 B',
       '商品 O', '商品 T', '商品v', '商品p', '商品i', '商品 w', '商 品 s', '商 品 q',
       '商品s', '商品l', '商品t', '商品k', '商品g', '商品o', '商品 R', '商品 S', '商 品M',
       '商品j', '商品d', '商品 I', '商品 E', '商品 o', '商品c', '商品 v', '商品e', '商品x',
       '商 品I', ' 商品W', ' 商品X', '商品 M', '商 品P'], dtype=object)

商品数は９９個です。

In [16]:
len(pd.unique(uriage_data['item_name']))

99

スペースの有無、半角全角統一をします。文字列を扱うメソッド`str`を利用します。

In [17]:
uriage_data['item_name'] = uriage_data['item_name'].str.upper()
uriage_data['item_name'] = uriage_data['item_name'].str.replace("　","")
uriage_data['item_name'] = uriage_data['item_name'].str.replace(" ","")
uriage_data.sort_values(by=['item_name'], ascending=True).head(3)

Unnamed: 0,purchase_date,item_name,item_price,customer_name,purchase_month
0,2019-06-13 18:02:34,商品A,100.0,深井菜々美,201906
1748,2019-05-19 20:22:22,商品A,100.0,松川綾女,201905
223,2019-06-25 08:13:20,商品A,100.0,板橋隆,201906


In [18]:
uriage_data['item_name'].unique()

array(['商品A', '商品S', '商品Z', '商品V', '商品O', '商品U', '商品L', '商品C', '商品I',
       '商品R', '商品X', '商品G', '商品P', '商品Q', '商品Y', '商品N', '商品W', '商品E',
       '商品K', '商品B', '商品F', '商品D', '商品M', '商品H', '商品T', '商品J'],
      dtype=object)

In [19]:
len(uriage_data['item_name'].unique())

26

となり、商品名の揺れは解消されました。

### ノック15 :  金額欠損値の補完をしよう

金額にどれぐらいの欠損値（Null)があるか確認します。

In [20]:
uriage_data.isnull().sum()

purchase_date       0
item_name           0
item_price        387
customer_name       0
purchase_month      0
dtype: int64

In [21]:
uriage_data.shape

(2999, 5)

行数が2999で、387行が欠損値で約１２％が欠落していることになります。

教科書では、

In [22]:
uriage_data.isnull().any(axis=0)

purchase_date     False
item_name         False
item_price         True
customer_name     False
purchase_month    False
dtype: bool

とデータの欠損の有無を確認しています。

In [23]:
uriage_data.isnull().head()

Unnamed: 0,purchase_date,item_name,item_price,customer_name,purchase_month
0,False,False,False,False,False
1,False,False,True,False,False
2,False,False,True,False,False
3,False,False,False,False,False
4,False,False,True,False,False


anyメソッド、引数のオプションにaxisを指定することで、一つでもNullがあればTrueを返し、Nullの有無を確認出来ます。

In [24]:
uriage_data.isnull().any(axis=0)

purchase_date     False
item_name         False
item_price         True
customer_name     False
purchase_month    False
dtype: bool

このNull値に対して、補完をします。少々複雑ですが、教科書では以下の通りように補完しています。それぞれのitem_nameに対して、Nullではない値の最大値を持ってきて、補完しています。

In [25]:
flg_is_null = uriage_data['item_price'].isnull()

for trg in list(uriage_data.loc[flg_is_null, 'item_name'].unique()):
  price = uriage_data.loc[(~flg_is_null) & (uriage_data['item_name'] == trg), 'item_price'].max()
  uriage_data['item_price'].loc[(flg_is_null) & (uriage_data['item_name'] == trg)] = price
  
uriage_data.head()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_with_indexer(indexer, value)


Unnamed: 0,purchase_date,item_name,item_price,customer_name,purchase_month
0,2019-06-13 18:02:34,商品A,100.0,深井菜々美,201906
1,2019-07-13 13:05:29,商品S,1900.0,浅田賢二,201907
2,2019-05-11 19:42:07,商品A,100.0,南部慶二,201905
3,2019-02-12 23:40:45,商品Z,2600.0,麻生莉緒,201902
4,2019-04-22 03:09:35,商品A,100.0,平田鉄二,201904


panasのversionによって、上記の様なワーニングが出ますが、本筋ではないので無視します。興味があったら、pandasのコピーとビューについて調べてみてください。

### ノック16 : 顧客名の揺れを補正しよう

次は文字列の揺れの修正になります。

In [26]:
kokyaku_data['顧客名'].head()

0     須賀ひとみ
1    岡田　 敏也
2      芳賀 希
3     荻野  愛
4     栗田 憲一
Name: 顧客名, dtype: object

こちらもスペースが有無に違いがある事尾がわかります。

In [27]:
uriage_data['customer_name'].head()

0    深井菜々美
1     浅田賢二
2     南部慶二
3     麻生莉緒
4     平田鉄二
Name: customer_name, dtype: object

こちらはスペースがありません。こういった名前の表式の差異は、名前が一意キーとなっている場合ｌ、ジョインできないなどの大きいな問題になります。

こちらは、スペースを削除する方向でデータの補正を行います。

In [28]:
kokyaku_data['顧客名'] = kokyaku_data['顧客名'].str.replace(" ","")
kokyaku_data['顧客名'] = kokyaku_data['顧客名'].str.replace("　","")
kokyaku_data['顧客名'].head()

0    須賀ひとみ
1     岡田敏也
2      芳賀希
3      荻野愛
4     栗田憲一
Name: 顧客名, dtype: object

事務レベルでは名前の補正は本当にやっかいです。このほかにも、同姓同名の処理や、漢字が同じなのに読み方が異なる場合など、大変です。

### ノック17 : 日付の揺れを補正しよう

次に日付の揺れを補正します。教科書の場合は、日付の表記が異なっていたり、エクセルの設定により日付が数字になっていたりするので、それを補正します。

まずは数値として取り込まれているデータを取得します。

In [29]:
flg_is_series = kokyaku_data['登録日'].astype('str').str.isdigit()
flg_is_series.head()

0    False
1     True
2    False
3     True
4     True
Name: 登録日, dtype: bool

In [30]:
flg_is_series.sum()

22

isdigitがtrueである数=日付が数値として読み込まれている数が２２個である事がわかります。内容を見てみると、42xxxという数値が含まれています。

In [31]:
kokyaku_data['登録日']

0      2018/01/04
1           42782
2      2018/01/07
3           42872
4           43127
          ...    
195    2017/06/20
196    2018/06/20
197    2017/04/29
198    2019/04/19
199    2019/04/23
Name: 登録日, Length: 200, dtype: object

エクセルでの日付が数値になっているのは1900年1月１日からの日数ですので、to_timedeltaメソッドでその日数をdatetime型に変換し、1900年1月１日をto_datetime型に変換し、加算することで現在の日付をdatetime型で取得します。

In [32]:
fromSerial = pd.to_timedelta(kokyaku_data.loc[flg_is_series, '登録日'].astype('float'), unit='D') + pd.to_datetime('1900/01/01')
fromSerial

1     2017-02-18
3     2017-05-19
4     2018-01-29
21    2017-07-06
27    2017-06-17
47    2017-01-08
49    2017-07-15
53    2017-04-10
76    2018-03-31
80    2018-01-12
99    2017-06-01
114   2018-06-05
118   2018-01-31
122   2018-04-18
139   2017-05-27
143   2017-03-26
155   2017-01-21
172   2018-03-24
179   2017-01-10
183   2017-07-26
186   2018-07-15
192   2018-06-10
Name: 登録日, dtype: datetime64[ns]

次に、数値以外の日付をそのままdatetime型で取得します。

In [33]:
fromString = pd.to_datetime(kokyaku_data.loc[~flg_is_series,'登録日'])
fromString

0     2018-01-04
2     2018-01-07
5     2017-06-20
6     2018-06-11
7     2017-05-19
         ...    
195   2017-06-20
196   2018-06-20
197   2017-04-29
198   2019-04-19
199   2019-04-23
Name: 登録日, Length: 178, dtype: datetime64[ns]

あとはこの二つを連結すれば良いです。

In [34]:
kokyaku_data['登録日'] = pd.concat([fromSerial, fromString])
kokyaku_data[['登録日']].head()

Unnamed: 0,登録日
0,2018-01-04
1,2017-02-18
2,2018-01-07
3,2017-05-19
4,2018-01-29


登録年月を取得し、月ごとの登録者数を算出してみます。教科書ではgroupbyを利用してます。また、datetime型をobject型に変換するdtを利用します。

In [35]:
kokyaku_data['登録年月'] = kokyaku_data['登録日'].dt.strftime('%Y%m')
kokyaku_data['登録年月']

0      201801
1      201702
2      201801
3      201705
4      201801
        ...  
195    201706
196    201806
197    201704
198    201904
199    201904
Name: 登録年月, Length: 200, dtype: object

In [36]:
res = kokyaku_data.groupby('登録年月').count()
res

Unnamed: 0_level_0,顧客名,かな,地域,メールアドレス,登録日
登録年月,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
201701,15,15,15,15,15
201702,11,11,11,11,11
201703,14,14,14,14,14
201704,15,15,15,15,15
201705,13,13,13,13,13
201706,14,14,14,14,14
201707,17,17,17,17,17
201801,13,13,13,13,13
201802,15,15,15,15,15
201803,17,17,17,17,17


教科書をコピーしているだけだとつまらないので、個人的によく利用するresampleメソッドを利用して、groupbyと同じ処理をしてみます。resampleメソッドでは2017年8月の集計がちゃんと０というように出力されます。インデックスを登録日に変更する必要があります。

In [37]:
kokyaku_data.set_index('登録日').resample('M').count()[['顧客名']].head(10)

Unnamed: 0_level_0,顧客名
登録日,Unnamed: 1_level_1
2017-01-31,15
2017-02-28,11
2017-03-31,14
2017-04-30,15
2017-05-31,13
2017-06-30,14
2017-07-31,17
2017-08-31,0
2017-09-30,0
2017-10-31,0


最後にエクセル由来に数値型が残っていないことを確認します。登録日のカラムはdatetime型なので一度文字列にしてから、isdigitメソッドを利用します。

In [38]:
kokyaku_data['登録日'].astype('str').str.isdigit().sum()

0

となり、ちゃんとすべての数値がdatetime型に変換されていることがわかりました。

### ノック18 : 顧客名をキーに二つのデータを結合しよう

これまでの売上履歴と顧客台帳をマージします。顧客名を一意キーとして結合します。pandasのmergeメソッドを利用します。

In [39]:
join_data = pd.merge(uriage_data, kokyaku_data, left_on = 'customer_name', right_on = '顧客名', how='left')
join_data.head()

Unnamed: 0,purchase_date,item_name,item_price,customer_name,purchase_month,顧客名,かな,地域,メールアドレス,登録日,登録年月
0,2019-06-13 18:02:34,商品A,100.0,深井菜々美,201906,深井菜々美,ふかい ななみ,C市,fukai_nanami@example.com,2017-01-26,201701
1,2019-07-13 13:05:29,商品S,1900.0,浅田賢二,201907,浅田賢二,あさだ けんじ,C市,asada_kenji@example.com,2018-04-07,201804
2,2019-05-11 19:42:07,商品A,100.0,南部慶二,201905,南部慶二,なんぶ けいじ,A市,nannbu_keiji@example.com,2018-06-19,201806
3,2019-02-12 23:40:45,商品Z,2600.0,麻生莉緒,201902,麻生莉緒,あそう りお,D市,asou_rio@example.com,2018-07-22,201807
4,2019-04-22 03:09:35,商品A,100.0,平田鉄二,201904,平田鉄二,ひらた てつじ,D市,hirata_tetsuji@example.com,2017-06-07,201706


当然ながら顧客名とcustomer_nameが重複するので、customer_nameを削除します。

In [40]:
join_data = join_data.drop('customer_name', axis=1)
join_data.head()

Unnamed: 0,purchase_date,item_name,item_price,purchase_month,顧客名,かな,地域,メールアドレス,登録日,登録年月
0,2019-06-13 18:02:34,商品A,100.0,201906,深井菜々美,ふかい ななみ,C市,fukai_nanami@example.com,2017-01-26,201701
1,2019-07-13 13:05:29,商品S,1900.0,201907,浅田賢二,あさだ けんじ,C市,asada_kenji@example.com,2018-04-07,201804
2,2019-05-11 19:42:07,商品A,100.0,201905,南部慶二,なんぶ けいじ,A市,nannbu_keiji@example.com,2018-06-19,201806
3,2019-02-12 23:40:45,商品Z,2600.0,201902,麻生莉緒,あそう りお,D市,asou_rio@example.com,2018-07-22,201807
4,2019-04-22 03:09:35,商品A,100.0,201904,平田鉄二,ひらた てつじ,D市,hirata_tetsuji@example.com,2017-06-07,201706


このようなデータ加工をクレンジングと言うそうです。知りませんでした。。

### ノック19 : クレンジングしたデータをダンプしよう

最後にCSVで出力するのですが、必要なカラムだけを出力します。

In [41]:
dump_data = join_data[['purchase_date', 'purchase_month', 'item_name', 'item_price', '顧客名', 'かな', '地域', 'メールアドレス', '登録日']]
dump_data.head()

Unnamed: 0,purchase_date,purchase_month,item_name,item_price,顧客名,かな,地域,メールアドレス,登録日
0,2019-06-13 18:02:34,201906,商品A,100.0,深井菜々美,ふかい ななみ,C市,fukai_nanami@example.com,2017-01-26
1,2019-07-13 13:05:29,201907,商品S,1900.0,浅田賢二,あさだ けんじ,C市,asada_kenji@example.com,2018-04-07
2,2019-05-11 19:42:07,201905,商品A,100.0,南部慶二,なんぶ けいじ,A市,nannbu_keiji@example.com,2018-06-19
3,2019-02-12 23:40:45,201902,商品Z,2600.0,麻生莉緒,あそう りお,D市,asou_rio@example.com,2018-07-22
4,2019-04-22 03:09:35,201904,商品A,100.0,平田鉄二,ひらた てつじ,D市,hirata_tetsuji@example.com,2017-06-07


to_csvメソッドを利用してCSVで保存します。

In [42]:
dump_data.to_csv('dump_data.csv', index=False)

確認してみます。

In [43]:
!head -n 5 dump_data.csv

purchase_date,purchase_month,item_name,item_price,顧客名,かな,地域,メールアドレス,登録日
2019-06-13 18:02:34,201906,商品A,100.0,深井菜々美,ふかい ななみ,C市,fukai_nanami@example.com,2017-01-26 00:00:00
2019-07-13 13:05:29,201907,商品S,1900.0,浅田賢二,あさだ けんじ,C市,asada_kenji@example.com,2018-04-07 00:00:00
2019-05-11 19:42:07,201905,商品A,100.0,南部慶二,なんぶ けいじ,A市,nannbu_keiji@example.com,2018-06-19 00:00:00
2019-02-12 23:40:45,201902,商品Z,2600.0,麻生莉緒,あそう りお,D市,asou_rio@example.com,2018-07-22 00:00:00


### ノック20 : データを集計しよう

ノック１９で加工したデータを利用して、再度集計処理をしてみます。

In [44]:
import_data = pd.read_csv('dump_data.csv')
import_data.head()

Unnamed: 0,purchase_date,purchase_month,item_name,item_price,顧客名,かな,地域,メールアドレス,登録日
0,2019-06-13 18:02:34,201906,商品A,100.0,深井菜々美,ふかい ななみ,C市,fukai_nanami@example.com,2017-01-26 00:00:00
1,2019-07-13 13:05:29,201907,商品S,1900.0,浅田賢二,あさだ けんじ,C市,asada_kenji@example.com,2018-04-07 00:00:00
2,2019-05-11 19:42:07,201905,商品A,100.0,南部慶二,なんぶ けいじ,A市,nannbu_keiji@example.com,2018-06-19 00:00:00
3,2019-02-12 23:40:45,201902,商品Z,2600.0,麻生莉緒,あそう りお,D市,asou_rio@example.com,2018-07-22 00:00:00
4,2019-04-22 03:09:35,201904,商品A,100.0,平田鉄二,ひらた てつじ,D市,hirata_tetsuji@example.com,2017-06-07 00:00:00


purchase_monthに対して商品ごとの集計をします。

In [45]:
byItem = import_data.pivot_table(index='purchase_month', columns='item_name', aggfunc='size', fill_value=0)
byItem.head()

item_name,商品A,商品B,商品C,商品D,商品E,商品F,商品G,商品H,商品I,商品J,...,商品Q,商品R,商品S,商品T,商品U,商品V,商品W,商品X,商品Y,商品Z
purchase_month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
201901,18,13,19,17,18,15,11,16,18,17,...,17,21,20,17,7,22,13,14,10,0
201902,19,14,26,21,16,14,14,17,12,14,...,22,22,22,23,19,22,24,16,11,1
201903,17,21,20,17,9,27,14,18,12,16,...,23,16,20,12,23,18,16,21,16,0
201904,17,19,24,20,18,17,14,11,18,13,...,20,20,16,16,11,15,14,16,20,0
201905,24,14,16,14,19,18,23,15,16,11,...,13,22,18,16,16,9,21,16,20,0


とても綺麗なテーブルになっていると思います。次に、売上金額です。

In [46]:
byPrice = import_data.pivot_table(index='purchase_month', columns='item_name',values='item_price', aggfunc='sum', fill_value=0)
byPrice.head()

item_name,商品A,商品B,商品C,商品D,商品E,商品F,商品G,商品H,商品I,商品J,...,商品Q,商品R,商品S,商品T,商品U,商品V,商品W,商品X,商品Y,商品Z
purchase_month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
201901,1800,2600,5700,6800,9000,9000,7700,12800,16200,17000,...,28900,37800,38000,34000,14700,48400,29900,33600,25000,0
201902,1900,2800,7800,8400,8000,8400,9800,13600,10800,14000,...,37400,39600,41800,46000,39900,48400,55200,38400,27500,2600
201903,1700,4200,6000,6800,4500,16200,9800,14400,10800,16000,...,39100,28800,38000,24000,48300,39600,36800,50400,40000,0
201904,1700,3800,7200,8000,9000,10200,9800,8800,16200,13000,...,34000,36000,30400,32000,23100,33000,32200,38400,50000,0
201905,2400,2800,4800,5600,9500,10800,16100,12000,14400,11000,...,22100,39600,34200,32000,33600,19800,48300,38400,50000,0


次に顧客ごとの販売数です。

In [47]:
Customer = import_data.pivot_table(index='purchase_month', columns='顧客名', aggfunc='size', fill_value=0)
Customer.head()

顧客名,さだ千佳子,中仁晶,中田美智子,丸山光臣,久保田倫子,亀井一徳,五十嵐春樹,井上桃子,井口寛治,井川真悠子,...,香椎優一,高原充則,高梨結衣,高沢美咲,高田さんま,鳥居広司,鶴岡薫,麻生莉緒,黄川田博之,黒谷長利
purchase_month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
201901,3,1,4,2,2,0,5,3,3,1,...,0,1,1,1,5,2,0,2,2,5
201902,9,1,2,2,1,4,2,1,0,4,...,4,0,3,2,0,1,2,4,0,1
201903,1,2,1,6,1,4,3,3,2,2,...,3,1,6,2,4,2,4,2,2,1
201904,0,3,1,2,0,2,2,0,3,2,...,2,4,2,3,4,3,2,1,2,0
201905,3,2,5,2,4,1,2,1,3,3,...,1,1,1,0,2,2,3,4,4,1


次に地域ごとにおける販売数です。

In [48]:
Region = import_data.pivot_table(index='purchase_month', columns='地域', aggfunc='size', fill_value=0)
Region.head()

地域,A市,B市,C市,D市,E市,F市,G市,H市
purchase_month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
201901,59,55,72,34,49,57,49,42
201902,71,46,65,48,61,52,43,63
201903,64,52,57,43,52,59,51,59
201904,64,48,54,45,48,58,40,52
201905,57,52,68,48,59,65,35,43


とても便利で、実用的です。最後に集計期間で購入していない顧客の洗い出しをしています。purchase_dataがNullのユーザーを抽出しています。

In [49]:
away_data = pd.merge(uriage_data, kokyaku_data, left_on='customer_name', right_on='顧客名', how='right')
away_data[away_data['purchase_date'].isnull()][['顧客名', '登録日']]

Unnamed: 0,顧客名,登録日
2999,福井美希,2019-04-23


とても有意義な演習でした。実際の現場はもっとデータが汚いかと思いますが、演習の題材としては非常に勉強になるものでした。教科書の著者に感謝申し上げます。

## 関連記事
- [第1章 ウェブからの注文数を分析する10本ノック](/ml/data100/01/)
- [第2章 小売店のデータでデータ加工を行う10本ノック](/ml/data100/02/)
- [第3章 顧客の全体像を把握する10本ノック](/ml/data100/03/)
- [第4章 顧客の行動を予測する10本ノック](/ml/data100/04/)
- [第5章 顧客の退会を予測する10本ノック](/ml/data100/05/)
- [第6章 物流の最適ルートをコンサルティングする10本ノック](/ml/data100/06/)
- [第7章 ロジスティクスネットワークの最適設計を行う10本ノック](/ml/data100/07/)
- [第8章 数値シミュレーションで消費者行動を予測する10本ノック](/ml/data100/08/)
- [第9章 潜在顧客を把握するための画像認識10本ノック](/ml/data100/09/)
- [第10章 アンケート分析を行うための自然言語処理10本ノック](/ml/data100/10/)