In [37]:
# Data の読み込み

import pandas as pd

uriage_data = pd.read_csv('sample_code/chapter_2/uriage.csv')
uriage_data.head()

Unnamed: 0,purchase_date,item_name,item_price,customer_name
0,2019-06-13 18:02:34,商品A,100.0,深井菜々美
1,2019-07-13 13:05:29,商 品 S,,浅田賢二
2,2019-05-11 19:42:07,商 品 a,,南部慶二
3,2019-02-12 23:40:45,商品Z,2600.0,麻生莉緒
4,2019-04-22 03:09:35,商品a,,平田鉄二


In [38]:
kokyaku_data = pd.read_excel('sample_code/chapter_2/kokyaku_daicho.xlsx')
kokyaku_data.head()

Unnamed: 0,顧客名,かな,地域,メールアドレス,登録日
0,須賀ひとみ,すが ひとみ,H市,suga_hitomi@example.com,2018/01/04
1,岡田 敏也,おかだ としや,E市,okada_toshiya@example.com,42782
2,芳賀 希,はが のぞみ,A市,haga_nozomi@example.com,2018/01/07
3,荻野 愛,おぎの あい,F市,ogino_ai@example.com,42872
4,栗田 憲一,くりた けんいち,E市,kurita_kenichi@example.com,43127


Data に欠損値や表記の整合性がない事が散見され Data の揺れが起こっている。

In [39]:
uriage_data['item_name'].head()

0      商品A
1    商 品 S
2    商 品 a
3      商品Z
4      商品a
Name: item_name, dtype: object

Data に Space が含まれていたり Alphabet が小文字になっている。
このまま Data 分析を行ってしまうと本来一つの商品である「商品A」の正確な集計がとれないことが予想される。

In [40]:
uriage_data['item_price'].head()

0     100.0
1       NaN
2       NaN
3    2600.0
4       NaN
Name: item_price, dtype: float64

欠損値「NaN」が確認できる。

In [41]:
uriage_data['purchase_date'] = pd.to_datetime(uriage_data['purchase_date'])
uriage_data['purchase_month'] = uriage_data['purchase_date'].dt.strftime('%Y%m')
res = uriage_data.pivot_table(index='purchase_month', columns='item_name', aggfunc='size', fill_value=0)
res

item_name,商品W,商 品 n,商品E,商品M,商品P,商品S,商品W,商品X,商 品O,商 品Q,...,商品k,商品l,商品o,商品p,商品r,商品s,商品t,商品v,商品x,商品y
purchase_month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
201901,0,1,0,0,0,0,0,0,0,0,...,1,1,1,0,0,0,0,0,0,0
201902,0,0,0,0,0,0,0,1,0,0,...,0,0,0,0,0,1,1,1,0,0
201903,0,0,1,1,1,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
201904,1,0,0,0,0,0,0,0,0,1,...,0,0,0,0,0,1,0,0,0,0
201905,0,0,0,0,0,1,0,0,0,0,...,0,1,0,0,0,0,0,0,0,1
201906,0,0,0,0,0,0,1,0,0,0,...,0,0,0,1,0,0,0,0,1,0
201907,0,0,0,0,0,0,0,0,1,0,...,0,0,1,0,2,0,0,0,0,0


Data の揺れにより下記事項が起こっていることが確認できる。
- 商品S や 商品s 等、本来同じ商品が別の商品として集計されている。
- 本来26個の商品が99個商品に増えてしまっている。

In [42]:
res = uriage_data.pivot_table(index='purchase_month', columns='item_name', values='item_price', aggfunc='sum',
                              fill_value=0)
res

item_name,商品W,商 品 n,商品E,商品M,商品P,商品S,商品W,商品X,商 品O,商 品Q,...,商品k,商品l,商品o,商品p,商品r,商品s,商品t,商品v,商品x,商品y
purchase_month,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1,Unnamed: 12_level_1,Unnamed: 13_level_1,Unnamed: 14_level_1,Unnamed: 15_level_1,Unnamed: 16_level_1,Unnamed: 17_level_1,Unnamed: 18_level_1,Unnamed: 19_level_1,Unnamed: 20_level_1,Unnamed: 21_level_1
201901,0,1400,0,0,0,0,0,0,0,0,...,1100,1200,1500,0,0,0,0,0,0,0
201902,0,0,0,0,0,0,0,2400,0,0,...,0,0,0,0,0,1900,2000,2200,0,0
201903,0,0,500,1300,1600,0,0,0,0,0,...,0,0,0,0,0,0,0,0,0,0
201904,2300,0,0,0,0,0,0,0,0,1700,...,0,0,0,0,0,1900,0,0,0,0
201905,0,0,0,0,0,1900,0,0,0,0,...,0,1200,0,0,0,0,0,0,0,2500
201906,0,0,0,0,0,0,2300,0,0,0,...,0,0,0,1600,0,0,0,0,2400,0
201907,0,0,0,0,0,0,0,0,0,0,...,0,0,1500,0,1800,0,0,0,0,0


item_price も Data の揺れにより正しい集計結果になっていないことを確認。

In [43]:
# 商品名の揺れを補正する

# 売上履歴の item_name の重複を除外した Unique な Data 件数を確認とる。
print(len(pd.unique(uriage_data.item_name)))

99


In [44]:
uriage_data['item_name'] = uriage_data['item_name'].str.upper()  # 小文字を大文字へ変換
uriage_data['item_name'] = uriage_data['item_name'].str.replace('　', '')  # 全角 Space を削除
uriage_data['item_name'] = uriage_data['item_name'].str.replace(' ', '')  # 半角 Space を削除
uriage_data.sort_values(by=['item_name'], ascending=True)  # item_name 順に Sort して出力

Unnamed: 0,purchase_date,item_name,item_price,customer_name,purchase_month
0,2019-06-13 18:02:34,商品A,100.0,深井菜々美,201906
1748,2019-05-19 20:22:22,商品A,100.0,松川綾女,201905
223,2019-06-25 08:13:20,商品A,100.0,板橋隆,201906
1742,2019-06-13 16:03:17,商品A,100.0,小平陽子,201906
1738,2019-02-10 00:28:43,商品A,100.0,松田浩正,201902
...,...,...,...,...,...
2880,2019-04-22 00:36:52,商品Y,,田辺光洋,201904
2881,2019-04-30 14:21:09,商品Y,,高原充則,201904
1525,2019-01-24 10:27:23,商品Y,2500.0,五十嵐春樹,201901
1361,2019-05-28 13:45:32,商品Y,2500.0,大崎ヒカル,201905


In [45]:
# unique()関数で商品名の一覧とその数を取得し結果を検証する
print(pd.unique(uriage_data['item_name']))
print(len(pd.unique(uriage_data['item_name'])))

['商品A' '商品S' '商品Z' '商品V' '商品O' '商品U' '商品L' '商品C' '商品I' '商品R' '商品X' '商品G'
 '商品P' '商品Q' '商品Y' '商品N' '商品W' '商品E' '商品K' '商品B' '商品F' '商品D' '商品M' '商品H'
 '商品T' '商品J']
26


- A~Zの商品に統一
- 件数: 26件

商品名における Data の揺れが解消されたことを確認。

In [46]:
# 金額欠損値の補完

uriage_data.isnull().any(axis=0)  # isnull()関数で欠損値の有無を確認

purchase_date     False
item_name         False
item_price         True
customer_name     False
purchase_month    False
dtype: bool

"item_price True" となっている為、金額項目に欠損値が含まれていると確認。

In [47]:
for trg in list(uriage_data['item_name'].sort_values().unique()):
    max_amount = str(uriage_data.loc[uriage_data['item_name'] == trg]['item_price'].max())
    min_amount = str(uriage_data.loc[uriage_data['item_name'] == trg]['item_price'].min(skipna=False))
    print(f'{trg}の最大額: {max_amount}の最少額: {min_amount}')

商品Aの最大額: 100.0の最少額: nan
商品Bの最大額: 200.0の最少額: nan
商品Cの最大額: 300.0の最少額: nan
商品Dの最大額: 400.0の最少額: nan
商品Eの最大額: 500.0の最少額: nan
商品Fの最大額: 600.0の最少額: nan
商品Gの最大額: 700.0の最少額: nan
商品Hの最大額: 800.0の最少額: nan
商品Iの最大額: 900.0の最少額: nan
商品Jの最大額: 1000.0の最少額: nan
商品Kの最大額: 1100.0の最少額: nan
商品Lの最大額: 1200.0の最少額: nan
商品Mの最大額: 1300.0の最少額: nan
商品Nの最大額: 1400.0の最少額: nan
商品Oの最大額: 1500.0の最少額: nan
商品Pの最大額: 1600.0の最少額: nan
商品Qの最大額: 1700.0の最少額: nan
商品Rの最大額: 1800.0の最少額: nan
商品Sの最大額: 1900.0の最少額: nan
商品Tの最大額: 2000.0の最少額: nan
商品Uの最大額: 2100.0の最少額: nan
商品Vの最大額: 2200.0の最少額: nan
商品Wの最大額: 2300.0の最少額: nan
商品Xの最大額: 2400.0の最少額: nan
商品Yの最大額: 2500.0の最少額: nan
商品Zの最大額: 2600.0の最少額: 2600.0


最小値が、ほぼ NaN になり Data が欠損されていることを改めて確認。

In [48]:
# 集計期間中に商品単価の変動はない、とう前提がある為、欠損値について他の同じ商品の単価より補完していく。

# item_price 内の欠損値のある箇所を特定し flg_is_null 変数にどの行に欠損値が存在するのか保持
flg_is_null = uriage_data['item_price'].isnull()
# 欠損値の存在する商品名を抽出し List 化して Loop 処理を行う。
for trg in list(uriage_data.loc[flg_is_null, 'item_name'].unique()):
    # 欠損値がある商品と同じ商品 Data から金額を取得。
    price = uriage_data.loc[(~flg_is_null) & (uriage_data['item_name'] == trg), 'item_price'].max()
    # 欠損を起こしている大賞 Data を抽出し、price で欠損値に代入
    uriage_data['item_price'].loc[flg_is_null & (uriage_data['item_name'] == trg)] = price
uriage_data.head()

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  self._setitem_single_block(indexer, value, name)


Unnamed: 0,purchase_date,item_name,item_price,customer_name,purchase_month
0,2019-06-13 18:02:34,商品A,100.0,深井菜々美,201906
1,2019-07-13 13:05:29,商品S,1900.0,浅田賢二,201907
2,2019-05-11 19:42:07,商品A,100.0,南部慶二,201905
3,2019-02-12 23:40:45,商品Z,2600.0,麻生莉緒,201902
4,2019-04-22 03:09:35,商品A,100.0,平田鉄二,201904


In [49]:
uriage_data.isnull().any(axis=0)

purchase_date     False
item_name         False
item_price        False
customer_name     False
purchase_month    False
dtype: bool

"item_price False" より金額欠損がなくなった事を確認。

In [50]:
for trg in list(uriage_data['item_name'].sort_values().unique()):
    max_amount = str(uriage_data.loc[uriage_data['item_name'] == trg]['item_price'].max())
    min_amount = str(uriage_data.loc[uriage_data['item_name'] == trg]['item_price'].min(skipna=False))
    print(f'{trg}の最大額: {max_amount}の最少額: {min_amount}')

商品Aの最大額: 100.0の最少額: 100.0
商品Bの最大額: 200.0の最少額: 200.0
商品Cの最大額: 300.0の最少額: 300.0
商品Dの最大額: 400.0の最少額: 400.0
商品Eの最大額: 500.0の最少額: 500.0
商品Fの最大額: 600.0の最少額: 600.0
商品Gの最大額: 700.0の最少額: 700.0
商品Hの最大額: 800.0の最少額: 800.0
商品Iの最大額: 900.0の最少額: 900.0
商品Jの最大額: 1000.0の最少額: 1000.0
商品Kの最大額: 1100.0の最少額: 1100.0
商品Lの最大額: 1200.0の最少額: 1200.0
商品Mの最大額: 1300.0の最少額: 1300.0
商品Nの最大額: 1400.0の最少額: 1400.0
商品Oの最大額: 1500.0の最少額: 1500.0
商品Pの最大額: 1600.0の最少額: 1600.0
商品Qの最大額: 1700.0の最少額: 1700.0
商品Rの最大額: 1800.0の最少額: 1800.0
商品Sの最大額: 1900.0の最少額: 1900.0
商品Tの最大額: 2000.0の最少額: 2000.0
商品Uの最大額: 2100.0の最少額: 2100.0
商品Vの最大額: 2200.0の最少額: 2200.0
商品Wの最大額: 2300.0の最少額: 2300.0
商品Xの最大額: 2400.0の最少額: 2400.0
商品Yの最大額: 2500.0の最少額: 2500.0
商品Zの最大額: 2600.0の最少額: 2600.0


すべての商品の最大と最小が一致している事を確認。