# 実践：イギリスECサイトの市場販売データ

## 目標

このデータ分析の目的は、市場販売データに基づいて、売れ行きの良い製品を発掘し、より効果的なマーケティング戦略を策定して収益を向上させることです。

この実践プロジェクトの目的は、データのクリーン度と整然度を評価する練習を行い、評価結果に基づいてデータをクリーニングし、次の分析に使用できるデータを得ることです。

## 紹介

カラムの定義：
- `InvoiceNo`: インボイス番号。6桁。取引を識別するための一意の番号。“c”で始まる場合、取引が取り消されたことを示す。
- `StockCode`: 商品コード。5桁。商品を表す一意の商品コード。
- `Description`: 商品名。
- `Quantity`: 取引の商品数量。
- `InvoiceDate`: 請求書が発行された日時。つまり取引が行われた日時。
- `UnitPrice`: 商品単価。単位はポンド（£）。
- `CustomerID`: カスタマーID。5桁。カスタマーに関する一意のID。
- `Country`: 国名。カスタマー所在の国名。

## データの読み込み

In [7]:
import pandas as pd

In [8]:
raw_data = pd.read_csv("./e_commerce.csv")
raw_data.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,12/1/2010 8:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,12/1/2010 8:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,12/1/2010 8:26,3.39,17850.0,United Kingdom


## データの整理

#### データの整然度

**ランダムに10個を取り出して観察する**

In [12]:
raw_data.sample(10)

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
513702,579559,21822,GLITTER CHRISTMAS TREE WITH BELLS,2,11/30/2011 11:30,0.79,16764.0,United Kingdom
144260,548733,84536A,ENGLISH ROSE NOTEBOOK A7 SIZE,16,4/4/2011 10:29,0.42,17648.0,United Kingdom
458960,575855,21669,BLUE STRIPE CERAMIC DRAWER KNOB,1,11/11/2011 12:24,1.45,14527.0,United Kingdom
400113,571296,82582,AREA PATROLLED METAL SIGN,1,10/16/2011 16:13,2.1,13760.0,United Kingdom
410825,572134,21615,4 LAVENDER BOTANICAL DINNER CANDLES,12,10/21/2011 10:13,1.25,12500.0,Germany
279636,561353,21877,HOME SWEET HOME MUG,12,7/26/2011 14:42,1.25,18094.0,United Kingdom
508662,579259,22975,SPACEBOY CHILDRENS EGG CUP,12,11/29/2011 8:40,1.25,12451.0,Switzerland
86948,543623,22784,LANTERN CREAM GAZEBO,16,2/10/2011 15:24,4.25,16405.0,United Kingdom
285420,561903,21175,GIN + TONIC DIET METAL SIGN,12,7/31/2011 16:04,2.55,17162.0,United Kingdom
83427,543306,20676,RED RETROSPOT BOWL,2,2/7/2011 11:56,1.25,16686.0,United Kingdom


#### データのクリーン度

In [14]:
raw_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541909 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   InvoiceNo    541909 non-null  object 
 1   StockCode    541909 non-null  object 
 2   Description  540455 non-null  object 
 3   Quantity     541909 non-null  int64  
 4   InvoiceDate  541909 non-null  object 
 5   UnitPrice    541909 non-null  float64
 6   CustomerID   406829 non-null  float64
 7   Country      541909 non-null  object 
dtypes: float64(2), int64(1), object(5)
memory usage: 33.1+ MB


**出力結果からすると、DescriptionとCustomerIDには欠損値が存在する。
かつ、InvoiceDateはDate型であるはず、CustomerIDはfloatではなくStringであるべき**

#### 欠損値

**Descriptionの欠損データを抽出する**

In [18]:
raw_data[raw_data["Description"].isnull()]

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
622,536414,22139,,56,12/1/2010 11:52,0.0,,United Kingdom
1970,536545,21134,,1,12/1/2010 14:32,0.0,,United Kingdom
1971,536546,22145,,1,12/1/2010 14:33,0.0,,United Kingdom
1972,536547,37509,,1,12/1/2010 14:33,0.0,,United Kingdom
1987,536549,85226A,,1,12/1/2010 14:34,0.0,,United Kingdom
...,...,...,...,...,...,...,...,...
535322,581199,84581,,-2,12/7/2011 18:26,0.0,,United Kingdom
535326,581203,23406,,15,12/7/2011 18:31,0.0,,United Kingdom
535332,581209,21620,,6,12/7/2011 18:35,0.0,,United Kingdom
536981,581234,72817,,27,12/8/2011 10:33,0.0,,United Kingdom


**1454個欠損しているデータを発見、これらのデータの中でUnitPriceが一見全部0になっているが、**

**念の為UnitPriceが0でない欠損データが存在するかを検証する**

In [20]:
raw_data[(raw_data["Description"].isnull()) & (raw_data["UnitPrice"]!=0)]

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country


**ない**

**CustomerIDが欠損しているデータを抽出する**

In [23]:
raw_data[(raw_data["CustomerID"].isnull())]

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
622,536414,22139,,56,12/1/2010 11:52,0.00,,United Kingdom
1443,536544,21773,DECORATIVE ROSE BATHROOM BOTTLE,1,12/1/2010 14:32,2.51,,United Kingdom
1444,536544,21774,DECORATIVE CATS BATHROOM BOTTLE,2,12/1/2010 14:32,2.51,,United Kingdom
1445,536544,21786,POLKADOT RAIN HAT,4,12/1/2010 14:32,0.85,,United Kingdom
1446,536544,21787,RAIN PONCHO RETROSPOT,2,12/1/2010 14:32,1.66,,United Kingdom
...,...,...,...,...,...,...,...,...
541536,581498,85099B,JUMBO BAG RED RETROSPOT,5,12/9/2011 10:26,4.13,,United Kingdom
541537,581498,85099C,JUMBO BAG BAROQUE BLACK WHITE,4,12/9/2011 10:26,4.13,,United Kingdom
541538,581498,85150,LADIES & GENTLEMEN METAL SIGN,1,12/9/2011 10:26,4.96,,United Kingdom
541539,581498,85174,S/4 CACTI CANDLES,1,12/9/2011 10:26,10.79,,United Kingdom


**結構存在するけど分析には支障をきたさないので残す**

#### 重複データ

**InvoiceNo、StockCode、CustomerIDは全部一意であるが、一回の取引で違う商品が存在することもあるためInvoiceNoは重複しても良い。**

**違う取引で同じ商品を購入された場合を考慮して、StockNoの重複も許せる。同じ顧客が複数回の購入もできるため、CustomerIDの重複も許容できる**

**よって、重複データの処理はスキップしても良い**

#### 不整合データの処理

In [28]:
raw_data["Country"].value_counts()

Country
United Kingdom          495266
Germany                   9495
France                    8557
EIRE                      8196
Spain                     2533
Netherlands               2371
Belgium                   2069
Switzerland               2002
Portugal                  1519
Australia                 1259
Norway                    1086
Italy                      803
Channel Islands            758
Finland                    695
Cyprus                     622
Sweden                     462
Unspecified                446
Austria                    401
Denmark                    389
Japan                      358
Poland                     341
Israel                     297
China                      288
Singapore                  229
USA                        218
UK                         211
Iceland                    182
Canada                     151
Greece                     146
Malta                      127
United States               73
United Arab Emirates        68


**Countryデータからわかるのは、「USA」「United States」がアメリカのことを示し、「UK」「U.K.」「United Kingdom」がイギリスを示している**

**これらの表示方法を統一するべき**

#### 異常値の処理

In [31]:
raw_data.describe()

Unnamed: 0,Quantity,UnitPrice,CustomerID
count,541909.0,541909.0,406829.0
mean,9.55225,4.611114,15287.69057
std,218.081158,96.759853,1713.600303
min,-80995.0,-11062.06,12346.0
25%,1.0,1.25,13953.0
50%,3.0,2.08,15152.0
75%,10.0,4.13,16791.0
max,80995.0,38970.0,18287.0


**QuantityとUnitPriceに負数が存在する。処理が必要**

**Quanityが負数であるデータの抽出**

In [34]:
raw_data[raw_data["Quantity"]<0]

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
141,C536379,D,Discount,-1,12/1/2010 9:41,27.50,14527.0,United Kingdom
154,C536383,35004C,SET OF 3 COLOURED FLYING DUCKS,-1,12/1/2010 9:49,4.65,15311.0,United Kingdom
235,C536391,22556,PLASTERS IN TIN CIRCUS PARADE,-12,12/1/2010 10:24,1.65,17548.0,United Kingdom
236,C536391,21984,PACK OF 12 PINK PAISLEY TISSUES,-24,12/1/2010 10:24,0.29,17548.0,United Kingdom
237,C536391,21983,PACK OF 12 BLUE PAISLEY TISSUES,-24,12/1/2010 10:24,0.29,17548.0,United Kingdom
...,...,...,...,...,...,...,...,...
540449,C581490,23144,ZINC T-LIGHT HOLDER STARS SMALL,-11,12/9/2011 9:57,0.83,14397.0,United Kingdom
541541,C581499,M,Manual,-1,12/9/2011 10:28,224.69,15498.0,United Kingdom
541715,C581568,21258,VICTORIAN SEWING BOX LARGE,-5,12/9/2011 11:57,10.95,15311.0,United Kingdom
541716,C581569,84978,HANGING HEART JAR T-LIGHT HOLDER,-1,12/9/2011 11:58,1.25,17315.0,United Kingdom


**結果を見ると、Quantityが負数になっているデータは、InvoiceNoが「C」で始まっている(つまり取引が取り消された)模様**

**取り消されたデータをさらに抽出すると**

In [37]:
raw_data[(raw_data["Quantity"]<0) & (raw_data["InvoiceNo"].str[0]!="C")]

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
2406,536589,21777,,-10,12/1/2010 16:50,0.0,,United Kingdom
4347,536764,84952C,,-38,12/2/2010 14:42,0.0,,United Kingdom
7188,536996,22712,,-20,12/3/2010 15:30,0.0,,United Kingdom
7189,536997,22028,,-20,12/3/2010 15:30,0.0,,United Kingdom
7190,536998,85067,,-6,12/3/2010 15:30,0.0,,United Kingdom
...,...,...,...,...,...,...,...,...
535333,581210,23395,check,-26,12/7/2011 18:36,0.0,,United Kingdom
535335,581212,22578,lost,-1050,12/7/2011 18:38,0.0,,United Kingdom
535336,581213,22576,check,-30,12/7/2011 18:38,0.0,,United Kingdom
536908,581226,23090,missing,-338,12/8/2011 9:56,0.0,,United Kingdom


**推測が間違った。取り消したトレードのQuantityが全部負数になっているわけではない　1336/10624**

**ただ、UnitPriceの値も気になる。InvoiceNoの先頭がCじゃなく、かつQuantityが負数のデータのUnitPriceは必ず0である可能性は？**

In [39]:
raw_data[(raw_data["Quantity"]<0) & (raw_data["InvoiceNo"].str[0]!="C") & (raw_data["UnitPrice"]!=0)]

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country


**結論：**

**Quantityが0である場合**

**1.InvoiceNoはCから始まる**

**2.UnitPriceは0**

**これらは有効なデータではなく、分析の邪魔になってしまうため整理が必要**

**次はUnitpriceが負数のデータを抽出する**

In [42]:
raw_data[raw_data["UnitPrice"]<0]

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
299983,A563186,B,Adjust bad debt,1,8/12/2011 14:51,-11062.06,,United Kingdom
299984,A563187,B,Adjust bad debt,1,8/12/2011 14:52,-11062.06,,United Kingdom


**二つ存在、消す**

## データの処理

**読み込みデータにそのまま操作せず、コピーを作って処理を行う**

In [46]:
data = raw_data.copy()
data.head()

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,12/1/2010 8:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,12/1/2010 8:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,12/1/2010 8:26,3.39,17850.0,United Kingdom


**まずInvoiceDateをfloat型からdatetime型へ変換する**

In [48]:
data["InvoiceDate"] = pd.to_datetime(data["InvoiceDate"])
data["InvoiceDate"]

0        2010-12-01 08:26:00
1        2010-12-01 08:26:00
2        2010-12-01 08:26:00
3        2010-12-01 08:26:00
4        2010-12-01 08:26:00
                 ...        
541904   2011-12-09 12:50:00
541905   2011-12-09 12:50:00
541906   2011-12-09 12:50:00
541907   2011-12-09 12:50:00
541908   2011-12-09 12:50:00
Name: InvoiceDate, Length: 541909, dtype: datetime64[ns]

**次はCustomerIDをfloat型からstringに変換する**

In [50]:
data["CustomerID"] = data["CustomerID"].astype(str)
data["CustomerID"]

0         17850.0
1         17850.0
2         17850.0
3         17850.0
4         17850.0
           ...   
541904    12680.0
541905    12680.0
541906    12680.0
541907    12680.0
541908    12680.0
Name: CustomerID, Length: 541909, dtype: object

**元のデータがfloat型だったため、末尾に.0がついている。IDに.0は不必要なため切り取る**

In [97]:
data["CustomerID"] = data["CustomerID"].str.slice(0,-2)

**Descriptionが欠損しているデータをドロップする**

In [53]:
data.dropna(subset=["Description"],inplace=True)

In [54]:
data["Description"].isnull().sum()

0

**Country変数の「USA」を「United States」に変換する**

In [55]:
data["Country"] = data["Country"].replace({"USA":"United States"})

In [56]:
len(data[data["Country"]=="USA"])

0

**Country変数の「UK」と「U.K.」を「United States」に変換する**

In [57]:
data["Country"] = data["Country"].replace({"UK":"United Kingdom","U.K.":"United Kingdom"})

In [58]:
print(len(data[data["Country"]=="UK"]))
print(len(data[data["Country"]=="U.K."]))

0
0


**Quantityが負数のデータをドロップ**

In [59]:
data = data[data["Quantity"]>=0]

In [60]:
len(data[data["Quantity"]<0])

0

**UnitPriceが負数のデータをドロップ**

In [61]:
data = data[data["UnitPrice"]>=0]

In [62]:
len(data[data["UnitPrice"]<0])

0

## 整理したデータを保存する(完了)

In [64]:
data.to_csv("e_commerce_cleaned.csv",index=False)