# ２章　小売店のデータでデータ加工を行う１０本ノック

本章では、ある小売店の売上履歴と顧客台帳データを用いて、データ分析の素地となる「データの加工」を習得することが目的です。
実際の現場データは手入力のExcel等、決して綺麗なデータではない事が多いため、
データの揺れや整合性の担保など、汚いデータを取り扱うデータ加工を主体に進めて行きます。

### ノック１１：データを読み込んでみよう

In [2]:
import pandas as pd
uriage_data = pd.read_csv('uriage.csv')
uriage_data.head()

Unnamed: 0,purchase_date,item_name,item_price,customer_name
0,2019-06-13 18:02:34,商品A,100.0,深井菜々美
1,2019-07-13 13:05:29,商 品 S,,浅田賢二
2,2019-05-11 19:42:07,商 品 a,,南部慶二
3,2019-02-12 23:40:45,商品Z,2600.0,麻生莉緒
4,2019-04-22 03:09:35,商品a,,平田鉄二


In [3]:
kokyaku_data = pd.read_excel('kokyaku_daicho.xlsx')
kokyaku_data.head()

Unnamed: 0,顧客名,かな,地域,メールアドレス,登録日
0,須賀ひとみ,すが ひとみ,H市,suga_hitomi@example.com,2018/01/04
1,岡田 敏也,おかだ としや,E市,okada_toshiya@example.com,42782
2,芳賀 希,はが のぞみ,A市,haga_nozomi@example.com,2018/01/07
3,荻野 愛,おぎの あい,F市,ogino_ai@example.com,42872
4,栗田 憲一,くりた けんいち,E市,kurita_kenichi@example.com,43127


In [4]:
nfl_data = pd.read_clipboard()
nfl_data

Unnamed: 0,POS,AFC East,AFC North,AFC South,AFC West
0,1st,Patriots,Ravens,Texans,Chiefs
1,2nd,Dolphins,Steelers,Colts,Chargers
2,3rd,Bills,Browns,Titans,Broncos
3,4th,Jets,Bengals,Jaguars,Raiders


### ノック１２：データの揺れを見てみよう

In [7]:
uriage_data['item_name'].head()

0      商品A
1    商 品 S
2    商 品 a
3      商品Z
4      商品a
Name: item_name, dtype: object

In [8]:
uriage_data['item_price'].head()

0     100.0
1       NaN
2       NaN
3    2600.0
4       NaN
Name: item_price, dtype: float64

### ノック１３：データに揺れがあるまま集計しよう

In [10]:
uriage_data['purchase_date'] = pd.to_datetime(uriage_data['purchase_date'])
uriage_data['purchase_month'] = uriage_data['purchase_date'].dt.strftime('%Y%m')
res = uriage_data.pivot_table(index='purchase_month', columns='item_name', aggfunc='size', fill_value=0)
res

item_name,商品W,商 品 n,商品E,商品M,商品P,商品S,商品W,商品X,商 品O,商 品Q,...,商品k,商品l,商品o,商品p,商品r,商品s,商品t,商品v,商品x,商品y
purchase_month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
201901,0,1,0,0,0,0,0,0,0,0,...,1,1,1,0,0,0,0,0,0,0
201902,0,0,0,0,0,0,0,1,0,0,...,0,0,0,0,0,1,1,1,0,0
201903,0,0,1,1,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
201904,1,0,0,0,0,0,0,0,0,1,...,0,0,0,0,0,1,0,0,0,0
201905,0,0,0,0,0,1,0,0,0,0,...,0,1,0,0,0,0,0,0,0,1
201906,0,0,0,0,0,0,1,0,0,0,...,0,0,0,1,0,0,0,0,1,0
201907,0,0,0,0,0,0,0,0,1,0,...,0,0,1,0,2,0,0,0,0,0


In [11]:
res = uriage_data.pivot_table(index='purchase_month', columns='item_name', values='item_price', aggfunc='sum', fill_value=0)
res

item_name,商品W,商 品 n,商品E,商品M,商品P,商品S,商品W,商品X,商 品O,商 品Q,...,商品k,商品l,商品o,商品p,商品r,商品s,商品t,商品v,商品x,商品y
purchase_month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
201901,0,1400,0,0,0,0,0,0,0,0,...,1100,1200,1500,0,0,0,0,0,0,0
201902,0,0,0,0,0,0,0,2400,0,0,...,0,0,0,0,0,1900,2000,2200,0,0
201903,0,0,500,1300,1600,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
201904,2300,0,0,0,0,0,0,0,0,1700,...,0,0,0,0,0,1900,0,0,0,0
201905,0,0,0,0,0,1900,0,0,0,0,...,0,1200,0,0,0,0,0,0,0,2500
201906,0,0,0,0,0,0,2300,0,0,0,...,0,0,0,1600,0,0,0,0,2400,0
201907,0,0,0,0,0,0,0,0,0,0,...,0,0,1500,0,1800,0,0,0,0,0


In [17]:
yure_name_list = uriage_data['item_name'].value_counts()
yure_name_list

商品S      133
商品R      133
商品A      133
商品P      132
商品C      130
        ... 
商  品T      1
商 品D       1
商 品 s      1
商品 O       1
商 品N       1
Name: item_name, Length: 99, dtype: int64

In [24]:
yure_name_list[yure_name_list < 10].count()

74

### ノック１４：商品名の揺れを補正しよう

In [22]:
print(len(pd.unique(uriage_data.item_name)))

99


In [23]:
pd.unique(uriage_data.item_name)

array(['商品A', '商 品 S', '商 品 a', '商品Z', '商品a', '商品S', '商品 a', '商品V', '商品O',
       '商 品U', '商品L', '商  品V', '商 品O', '商品C', '商品I', '商品r', '商品X', '商品 g',
       '商品R', '商品P', '商品Q', '商品y', '商品 A', '商品N', '商品W', '商 品E', '商品K',
       '商品B', '商品F', '商 品s', '  商品W', ' 商 品 n', '商 品F', '商品D', '商品M',
       '商品Y', '商品U', '商品H', '商品T', '商品J', '商  品O', '商品E', '商  品Q', ' 商品S',
       ' 商品M', '商  品T', '商品G', '商 品G', ' 商品P', ' 商品E', '商 品N', '商 品Y',
       '商品 J', '商品 V', '商品 K', '商 品V', '商 品D', '商 品A', '商品 F', '商品 H',
       '商 品K', '商 品T', '商品 X', '商品 Q', '商 品X', '商 品H', '商 品C', '商品 B',
       '商品 O', '商品 T', '商品v', '商品p', '商品i', '商品 w', '商 品 s', '商 品 q',
       '商品s', '商品l', '商品t', '商品k', '商品g', '商品o', '商品 R', '商品 S', '商 品M',
       '商品j', '商品d', '商品 I', '商品 E', '商品 o', '商品c', '商品 v', '商品e', '商品x',
       '商 品I', ' 商品W', ' 商品X', '商品 M', '商 品P'], dtype=object)

In [26]:
uriage_data['item_name'] = uriage_data['item_name'].str.upper()
uriage_data['item_name'] = uriage_data['item_name'].str.replace('　', '')
uriage_data['item_name'] = uriage_data['item_name'].str.replace(' ', '')
uriage_data.sort_values(by=['item_name'], ascending=True)

Unnamed: 0,purchase_date,item_name,item_price,customer_name,purchase_data,purchase_month
0,2019-06-13 18:02:34,商品A,100.0,深井菜々美,2019-06-13 18:02:34,201906
1748,2019-05-19 20:22:22,商品A,100.0,松川綾女,2019-05-19 20:22:22,201905
223,2019-06-25 08:13:20,商品A,100.0,板橋隆,2019-06-25 08:13:20,201906
1742,2019-06-13 16:03:17,商品A,100.0,小平陽子,2019-06-13 16:03:17,201906
1738,2019-02-10 00:28:43,商品A,100.0,松田浩正,2019-02-10 00:28:43,201902
...,...,...,...,...,...,...
2880,2019-04-22 00:36:52,商品Y,,田辺光洋,2019-04-22 00:36:52,201904
2881,2019-04-30 14:21:09,商品Y,,高原充則,2019-04-30 14:21:09,201904
1525,2019-01-24 10:27:23,商品Y,2500.0,五十嵐春樹,2019-01-24 10:27:23,201901
1361,2019-05-28 13:45:32,商品Y,2500.0,大崎ヒカル,2019-05-28 13:45:32,201905


In [27]:
print(pd.unique(uriage_data['item_name']))
print(len(pd.unique(uriage_data['item_name'])))

['商品A' '商品S' '商品Z' '商品V' '商品O' '商品U' '商品L' '商品C' '商品I' '商品R' '商品X' '商品G'
 '商品P' '商品Q' '商品Y' '商品N' '商品W' '商品E' '商品K' '商品B' '商品F' '商品D' '商品M' '商品H'
 '商品T' '商品J']
26


### ノック１５：金額欠損値の補完をしよう

In [28]:
uriage_data.isnull().any(axis=0)

purchase_date     False
item_name         False
item_price         True
customer_name     False
purchase_data     False
purchase_month    False
dtype: bool

In [31]:
flg_is_null = uriage_data['item_price'].isnull()
for trg in list(uriage_data.loc[flg_is_null, 'item_name'].unique()):
    price = uriage_data.loc[(~flg_is_null) & (uriage_data['item_name'] == trg), 'item_price'].max()
    uriage_data['item_price'].loc[(flg_is_null) & (uriage_data['item_name'])] = price
    
uriage_data.head()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_with_indexer(indexer, value)


Unnamed: 0,purchase_date,item_name,item_price,customer_name,purchase_data,purchase_month
0,2019-06-13 18:02:34,商品A,100.0,深井菜々美,2019-06-13 18:02:34,201906
1,2019-07-13 13:05:29,商品S,2500.0,浅田賢二,2019-07-13 13:05:29,201907
2,2019-05-11 19:42:07,商品A,2500.0,南部慶二,2019-05-11 19:42:07,201905
3,2019-02-12 23:40:45,商品Z,2600.0,麻生莉緒,2019-02-12 23:40:45,201902
4,2019-04-22 03:09:35,商品A,2500.0,平田鉄二,2019-04-22 03:09:35,201904


### ノック１６：顧客名の揺れを補正しよう

In [32]:
kokyaku_data['顧客名'].head()

0     須賀ひとみ
1    岡田　 敏也
2      芳賀 希
3     荻野  愛
4     栗田 憲一
Name: 顧客名, dtype: object

In [33]:
uriage_data['customer_name'].head()

0    深井菜々美
1     浅田賢二
2     南部慶二
3     麻生莉緒
4     平田鉄二
Name: customer_name, dtype: object

In [None]:
kokyaku_data['顧客名'] = kokyaku_data['顧客名'].str.replace('　','')
kokyaku

### ノック１７：日付の揺れを補正しよう

### ノック１８：顧客名をキーに２つのデータを結合(ジョイン)しよう

### ノック１９：クレンジングしたデータをダンプしよう

### ノック２０：データを集計しよう