In [1]:
# import libraries
import pandas as pd
import numpy as np

In [2]:
# read csv file
df = pd.read_csv('./data/online_retail.csv')

# data preparation
---------------------


## select data
----------


#### select data source

今回分析対象とするデータセットはUCI Machine Learning Repositoryで提供されている`Online Retail.xlsx`とします。

| # | data | included/excluded | reasons | quality | volume/data types |
|:---:|:---|:---|:---|:---|:---|
| 1 | Online Retail.xlsx | included |  |  |  |

- 注意点: 実際のデータサイエンスのプロジェクトでは無数のデータセットが存在します。自分の必要とするデータがどこにあるのか調べるのも一苦労ですが、きちんとデータが管理されている組織ではデータカタログが提供されている場合があります。データカタログに関してはは[こちら](https://www.realize-corp.jp/glossary/data-catalog)を参照して下さい。
- 注意点: 実際のデータサイエンスのプロジェクトでは集めてきたデータセットの中から、データの品質が十分であったり、十分なデータ量があるデータセットのみを分析に用います。データの品質が十分で無いために、データサイエンスのプロジェクトが頓挫することもあります。

#### select attributes

今回の分析では全て利用します。

#### select records

- キャンセルの注文は行から削除します。（Quantity, UnitPriceがマイナスの行は削除します）
- 重複のある行は削除します。（重複の理由はわからないがとりあえず怪しいので削除）
- CustomerIDが欠損している行は削除します。（バスケット分析に使えないため）


## clean data
------------------


In [3]:
# remove unnncesary columns
columns = [] # remove no columns if array is empty
df = df.drop(columns=columns)

In [4]:
# clean outlier

## Quantity

del_flg = df.Quantity < 0
df = df.drop(df[del_flg].index)

## UnitPrice

del_flg = df.UnitPrice < 0
df = df.drop(df[del_flg].index)

In [5]:
# clean missing data
df = df[df.CustomerID.isnull() == False]

In [6]:
# clean duplicate records
df = df.drop_duplicates()

## construct data
----------


In [7]:
# derive attributes
# skip

In [8]:
# create item master
item_master = df[['StockCode', 'Description']].drop_duplicates().sort_values('StockCode').reset_index(drop=True)

In [9]:
# show item master
item_master

Unnamed: 0,StockCode,Description
0,10002,INFLATABLE POLITICAL GLOBE
1,10080,GROOVY CACTUS INFLATABLE
2,10120,DOGGY RUBBER
3,10123C,HEARTS WRAPPING TAPE
4,10124A,SPOTS ON RED BOOKCOVER TAPE
...,...,...
3892,C2,CARRIAGE
3893,DOT,DOTCOM POSTAGE
3894,M,Manual
3895,PADS,PADS TO MATCH ALL CUSHIONS


In [10]:
# generate records
# prep = df.groupby(['InvoiceNo', 'StockCode'])['Quantity'].sum()
prep = df.groupby(['InvoiceNo', 'Description'])['Quantity'].sum()
prep = prep.unstack().reset_index(drop=True).fillna(0)
prep = prep.apply(lambda x: x>0)

## integrate data
-------------

今回は単一のデータセットしか使っていないためこのタスクは対象外となります。

- 注意点: 実際のデータサイエンスプロジェクトでは、たくさんのテーブルを結合することがよくあります。このタスクはSQLで実行することが多いですが、処理が複雑になるとSQLの行数が1000行を超えることもあります。


# format data
----------------

今回はconstruct dataでデータのformatまでしているのでこのタスクは対象外になります。

In [11]:
# write prepared data
prep.to_csv('./data/prep.csv', encoding='utf-8', index=None)