## **事前準備**

### ファイルのワーキングディレクトリを表示する

In [1]:
import os
print(os.getcwd())

/Users/yui/データ分析/ECサイトデータ分析/src


### ライブラリのインポート

In [2]:
import pandas as pd

### 初期定義

<div style="line-height: 1;">
フォルダ構成のルール
<br/>
    
1. プロジェクトで分ける
2. データとソースコードで分ける
3. 元データ（input）とプログラムで作成したデータ（output）で分ける

<br/>
    
フォルダ構成の例
- プロジェクト名
    - data
        - input
        - output
    - src
        - XXX.ipynb
        - ・・・
<br/><br/><br/>

f文字列<br/><br/>
f''は、f文字列と呼ばれるPythonの文字列リテラルの一種で、式を埋め込むことができます。<br/>
具体的には、f''の中に{}で囲んだ式を埋め込むことができ、それらの式は実行された結果が文字列に置き換わります。<br/>
例えば、f'{data_dir}/input'は、data_dir変数の値を文字列に埋め込んで、../data/inputという文字列を生成しています。<br/>
ここで、data_dirは../dataというディレクトリパスを表す変数であると仮定します。

</div>

In [4]:
data_dir = '../data' # このipynbから見たdataフォルダのパス
input_dir = f'{data_dir}/input' #変数data_dirから見たinputフォルダのパス
output_dir = f'{data_dir}/output'
order_file = f'{input_dir}/order.csv'
customer_file = f'{input_dir}/customer_master.csv'
item_file = f'{input_dir}/item_master.csv'
output_file = f'{output_dir}/order_processed.csv'

### データの読み込み

In [5]:
df_order = pd.read_csv(order_file)
df_customer = pd.read_csv(customer_file)
df_item = pd.read_csv(item_file)

## **データの状態の確認**

### 読み込んだデータの表示

In [6]:
display(df_order)
display(df_customer)
display(df_item)

Unnamed: 0,オーダーID,オーダー日,顧客ID,商品ID,数量,売上,出荷日,キャンセル日,ステータス
0,201901010005-1,2019-01-01,C00002159,TB-BUNN,1,9800,2019-01-01,,配達済み
1,201901010001-1,2019-01-01,C00000112,TO-AUNN,1,2280,2019-01-04,,配達済み
2,201901010005-2,2019-01-01,C00002159,PA-BMBS,1,20000,2019-01-02,,配達済み
3,201901010004-1,2019-01-01,C00001710,BP-BUNN,1,9800,2019-01-01,,配達済み
4,201901020019-2,2019-01-02,C00001925,PA-AMBL,1,16500,2019-01-07,,配達済み
...,...,...,...,...,...,...,...,...,...
13929,202209300008-1,2022-09-30,C00000279,HA-BUNN,1,4800,2022-10-04,,配達済み
13930,202209300019-1,2022-09-30,C00001949,TS-AMBS,1,7900,2022-10-05,,配達済み
13931,202209300018-1,2022-09-30,C00001779,VE-CMWL,1,16800,2022-10-07,,配達済み
13932,202209300013-2,2022-09-30,C00001192,HC-AUNN,1,1200,2022-10-05,,配達済み


Unnamed: 0,顧客ID,氏名,ひらがな,生年月日,性別,都道府県
0,C00000001,伊波 正巳,いは まさみ,2003-09-04,男,東京都
1,C00000002,細貝 園子,ほそがい そのこ,1993-06-08,女,新潟県
2,C00000003,大畑 正紀,おおはた まさのり,2003-06-19,男,愛媛県
3,C00000004,青木 勇気,あおき ゆうき,1978-12-17,男,大阪府
4,C00000005,鵜飼 克己,うかい かつみ,2002-03-01,男,埼玉県
...,...,...,...,...,...,...
2226,C00002227,森田 崇,もりた たかし,1972-09-26,男,大阪府
2227,C00002228,鈴木 ゆうこ,すずき ゆうこ,1989-11-28,女,大阪府
2228,C00002229,青山 智子,あおやま ともこ,1994-11-04,女,東京都
2229,C00002230,菊池 佳子,きくち よしこ,1994-01-14,女,福岡県


Unnamed: 0,商品ID,商品名,カテゴリ,サブカテゴリ,色,サイズ,定価
0,CT-AMBS,Men Black コート A S,アウター,Men,Black,S,39600
1,JA-AMBS,Men Black ジャケット A S,アウター,Men,Black,S,31900
2,VE-AMBS,Men Black ベスト A S,アウター,Men,Black,S,19800
3,SW-AMBS,Men Black セーター A S,トップス,Men,Black,S,16000
4,NI-AMBS,Men Black ニット A S,トップス,Men,Black,S,10000
...,...,...,...,...,...,...,...
470,VE-AKGL,Kids Gray ベスト A L,アウター,Kids,Gray,L,14500
471,SW-AKGL,Kids Gray セーター A L,トップス,Kids,Gray,L,7600
472,NI-AKGL,Kids Gray ニット A L,トップス,Kids,Gray,L,8300
473,TS-AKGL,Kids Gray Tシャツ A L,トップス,Kids,Gray,L,4300


### 欠損値の有無の確認

isnull()でデータフレームのそれぞれの値が欠損値であるかどうか判断し、sum（）で各列の欠損値の値を集計する

In [7]:
print(df_order.isnull().sum())

オーダーID        0
オーダー日         0
顧客ID          3
商品ID          3
数量            0
売上            0
出荷日           0
キャンセル日    13665
ステータス         0
dtype: int64


In [8]:
print(df_customer.isnull().sum())

顧客ID    0
氏名      0
ひらがな    0
生年月日    0
性別      0
都道府県    0
dtype: int64


In [9]:
print(df_item.isnull().sum())

商品ID       0
商品名        0
カテゴリ       0
サブカテゴリ     0
色         16
サイズ       16
定価         0
dtype: int64


### 欠損値の内容の確認

loc[条件]で、データフレームから条件に合致したデータを参照する

In [12]:
display(df_order.loc[df_order['顧客ID'].isnull()])

Unnamed: 0,オーダーID,オーダー日,顧客ID,商品ID,数量,売上,出荷日,キャンセル日,ステータス
237,201902090006-1,2019-02-09,,,0,999999,2019-02-17,,テスト
239,201902090008-1,2019-02-09,,,0,999999,2019-02-15,,テスト
240,201902090000-1,2019-02-09,,,0,999999,2019-02-15,,テスト


In [13]:
display(df_order.loc[df_order['商品ID'].isnull()])

Unnamed: 0,オーダーID,オーダー日,顧客ID,商品ID,数量,売上,出荷日,キャンセル日,ステータス
237,201902090006-1,2019-02-09,,,0,999999,2019-02-17,,テスト
239,201902090008-1,2019-02-09,,,0,999999,2019-02-15,,テスト
240,201902090000-1,2019-02-09,,,0,999999,2019-02-15,,テスト


In [15]:
display(df_item.loc[df_item['色'].isnull()])

Unnamed: 0,商品ID,商品名,カテゴリ,サブカテゴリ,色,サイズ,定価
44,TB-AUNN,トートバッグ A,バッグ,Unisex,,,7800
45,SB-AUNN,ショルダーバッグ A,バッグ,Unisex,,,8800
46,BP-AUNN,バックパック A,バッグ,Unisex,,,10200
47,HA-AUNN,帽子 A,小物,Unisex,,,5280
48,HC-AUNN,ハンカチ A,小物,Unisex,,,1200
49,TO-AUNN,タオル A,小物,Unisex,,,2280
50,TB-BUNN,トートバッグ B,バッグ,Unisex,,,9800
51,SB-BUNN,ショルダーバッグ B,バッグ,Unisex,,,6800
52,BP-BUNN,バックパック B,バッグ,Unisex,,,9800
53,HA-BUNN,帽子 B,小物,Unisex,,,4800


### 重複の有無の確認

duplicated(subset_['列名'])でデータの重複を確認する。<br>
subsetで列名を指定することで、特定の列の値で重複を判断する。<br>
subsetを指定しなかった場合は前れtの値が重複しているかどうか、つまり、完全に同一の行があるかを判定する。

In [18]:
print(df_order.duplicated(subset=['オーダーID']).sum())

261


In [19]:
print(df_customer.duplicated(subset=['顧客ID']).sum())

0


In [20]:
print(df_item.duplicated(subset=['商品ID']).sum())

0


### 重複の内容を確認する

loc[条件]で条件に合致した行を参照する<br><br>

duplicated(subset=['列名']),keep=False
  - keep='first' 重複があった場合も最初の行は重複と見なさない<br>
  - keep='last' 重複があった場合も最後の行は重複と見なさない<br>
  - keep=False 重複していれば最初の行であろうが最後の行であろうが重複とみなす<br>

In [22]:
display(df_order.loc[df_order.duplicated(subset=['オーダーID'],keep=False)].sort_values(['オーダーID']))

Unnamed: 0,オーダーID,オーダー日,顧客ID,商品ID,数量,売上,出荷日,キャンセル日,ステータス
10865,202203010000-1,2022-03-01,C00000340,SW-CWWM,1,18400,2022-03-05,,配達済み
11126,202203010000-1,2022-03-01,C00000340,SW-CWWM,1,18400,2022-03-05,,配達済み
10866,202203010000-2,2022-03-01,C00000340,TS-BWGL,1,7600,2022-03-06,,配達済み
11127,202203010000-2,2022-03-01,C00000340,TS-BWGL,1,7600,2022-03-06,,配達済み
11130,202203010000-3,2022-03-01,C00000340,TS-CMBL,1,7600,2022-03-06,,配達済み
...,...,...,...,...,...,...,...,...,...
11380,202203310006-1,2022-03-31,C00001124,BP-AKNN,1,7800,2022-04-04,,配達済み
11120,202203310008-1,2022-03-31,C00001285,VE-BMWS,1,18000,2022-04-06,,配達済み
11381,202203310008-1,2022-03-31,C00001285,VE-BMWS,1,18000,2022-04-06,,配達済み
11124,202203310010-1,2022-03-31,C00002048,PA-CWBS,1,14300,2022-04-07,,配達済み


## **データ加工＆加工結果の確認**

### 欠損値の除去

dropna()で欠損値を含む行を削除。　<br>
subsetで列名を指定すること絵、特定の列での欠損値を含む行を削除できる。<br>
inplace=Trueで処理後の内容でもとデータを上書きする。<br><br>
※欠損値の補完の場合はfillna()がよく使われる。

In [23]:
df_order.dropna(subset=['商品ID'],inplace=True)

### 処理結果の確認

In [24]:
print(df_order.isnull().sum())

オーダーID        0
オーダー日         0
顧客ID          0
商品ID          0
数量            0
売上            0
出荷日           0
キャンセル日    13662
ステータス         0
dtype: int64


### 重複の削除

drop_duplicates()で重複を削除する

In [25]:
df_order.drop_duplicates(subset=['オーダーID'],keep='last',inplace=True)

### 処理結果の確認

In [26]:
print(df_order.duplicated(subset=['オーダーID']).sum())

0


### データの結合

データの結合にはpd.mergeを使用する。<br>
引数で結合する2つのデータフレームと結合キー(on)と結合方法(how)を指定する。<br><br>
結合方法
 - left
 - right
 - inner
 - outer

In [27]:
df_merge = pd.merge(df_order,df_customer,on='顧客ID',how= 'left')

In [28]:
df_merge = pd.merge(df_merge,df_item,on='商品ID',how= 'left')

### 処理結果の確認

In [30]:
display(df_merge.head())

Unnamed: 0,オーダーID,オーダー日,顧客ID,商品ID,数量,売上,出荷日,キャンセル日,ステータス,氏名,ひらがな,生年月日,性別,都道府県,商品名,カテゴリ,サブカテゴリ,色,サイズ,定価
0,201901010005-1,2019-01-01,C00002159,TB-BUNN,1,9800,2019-01-01,,配達済み,竹田 朋実,たけだ ともみ,1995-07-01,女,東京都,トートバッグ B,バッグ,Unisex,,,9800
1,201901010001-1,2019-01-01,C00000112,TO-AUNN,1,2280,2019-01-04,,配達済み,小川 幸枝,おがわ ゆきえ,1991-06-13,女,神奈川県,タオル A,小物,Unisex,,,2280
2,201901010005-2,2019-01-01,C00002159,PA-BMBS,1,20000,2019-01-02,,配達済み,竹田 朋実,たけだ ともみ,1995-07-01,女,東京都,Men Black パンツ B S,ボトムス,Men,Black,S,20000
3,201901010004-1,2019-01-01,C00001710,BP-BUNN,1,9800,2019-01-01,,配達済み,植田 陽一,うえだ よういち,1995-06-23,男,東京都,バックパック B,バッグ,Unisex,,,9800
4,201901020019-2,2019-01-02,C00001925,PA-AMBL,1,16500,2019-01-07,,配達済み,原田 由香,はらだ ゆか,1975-10-12,女,大阪府,Men Black パンツ A L,ボトムス,Men,Black,L,16500


In [31]:
print(df_merge.duplicated(subset='オーダーID').sum())

0


In [32]:
print(df_merge.isnull().sum())

オーダーID        0
オーダー日         0
顧客ID          0
商品ID          0
数量            0
売上            0
出荷日           0
キャンセル日    13403
ステータス         0
氏名            0
ひらがな          0
生年月日          0
性別            0
都道府県          0
商品名           0
カテゴリ          0
サブカテゴリ        0
色          4164
サイズ        4164
定価            0
dtype: int64


### データの出力

In [33]:
df_merge.to_csv(output_file,index=False)