# 项目：评估和清理英国电商公司销售数据

## 分析目标

此数据分析的目的是，根据市场销售数据，挖掘畅销产品，以便制定更有效的市场策略来提升营收。

本实战项目的目的在于练习评估数据干净和整洁度，并且基于评估结果，对数据进行清洗，从而得到可供下一步分析的数据。

## 简介

原始数据集记录了一家英国在线零售公司在2010年12月1日至2011年12月9日期间的所有交易情况，涵盖了该公司在全球不同国家和地区的业务数据。该公司主要销售覆盖各个场景的礼品，包括但不限于生日礼品、结婚纪念品、圣诞礼品等等。该公司的客户群体主要包括批发商和个人消费者，其中批发商占据了相当大的比例。

数据每列的含义如下：
- `InvoiceNo`: 发票号码。6位数，作为交易的唯一标识符。如果这个代码以字母“c”开头，表示这笔交易被取消。
- `StockCode`: 产品代码。5位数，作为产品的唯一标识符。
- `Description`: 产品名称。
- `Quantity`: 产品在交易中的数量。
- `InvoiceDate`: 发票日期和时间。交易发生的日期和时间。
- `UnitPrice`: 单价。价格单位为英镑（£）。
- `CustomerID`: 客户编号。5位数，作为客户的唯一标识符。
- `Country`: 国家名称。客户所居住的国家的名称。

## 读取数据

导入数据分析所需要的库，并通过pandas的```read_csv()```函数将原始文件里的数据内容解析为DataFrame，并赋值给变量```original_data```

In [1]:
import pandas as pd

In [2]:
original_data = pd.read_csv(r"D:\HuaweiMoveData\Users\王振 鸣\Desktop\数据分析实战练习\实战练习1\e_commerce.csv")

```original_data```:原始数据，为了和后面清理好之后的数据做出区分

In [3]:
original_data.head(10)

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,12/1/2010 8:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,12/1/2010 8:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
5,536365,22752,SET 7 BABUSHKA NESTING BOXES,2,12/1/2010 8:26,7.65,17850.0,United Kingdom
6,536365,21730,GLASS STAR FROSTED T-LIGHT HOLDER,6,12/1/2010 8:26,4.25,17850.0,United Kingdom
7,536366,22633,HAND WARMER UNION JACK,6,12/1/2010 8:28,1.85,17850.0,United Kingdom
8,536366,22632,HAND WARMER RED POLKA DOT,6,12/1/2010 8:28,1.85,17850.0,United Kingdom
9,536367,84879,ASSORTED COLOUR BIRD ORNAMENT,32,12/1/2010 8:34,1.69,13047.0,United Kingdom


## 评估数据

在这一部分，我将对上一部分建立的```original_data```这个DataFrame所包含的数据进行评估。

评估主要从两个方面进行：结构和内容。即整齐度和干净度。数据的结构性问题指不符合“每列是一个变量，每行是一个观察值，每个单元是一个值”这三个标准，数据的内容性问题包括存在丢失数据、重复数据、无效数据等。

### 评估整洁度

可以用```sample()```方法随机抽取一些数据来观察

In [4]:
original_data.sample(10)

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
313772,564536,21912,VINTAGE SNAKES & LADDERS,2,8/25/2011 15:12,3.75,13159.0,United Kingdom
498841,578541,22852,DOG BOWL VINTAGE CREAM,6,11/24/2011 15:01,4.25,14277.0,France
229421,C557047,22838,3 TIER CAKE TIN RED AND CREAM,-2,6/16/2011 14:36,14.95,13488.0,United Kingdom
503161,578921,21080,SET/20 RED RETROSPOT PAPER NAPKINS,1,11/27/2011 11:57,0.85,13596.0,United Kingdom
540249,581473,23295,SET OF 12 MINI LOAF BAKING CASES,1,12/8/2011 19:57,0.83,12748.0,United Kingdom
108115,545503,85123A,WHITE HANGING HEART T-LIGHT HOLDER,2,3/3/2011 11:34,2.95,15719.0,United Kingdom
437112,574265,23470,CARD HOLDER LOVE BIRD LARGE,2,11/3/2011 14:17,6.25,15605.0,United Kingdom
482638,577480,22792,FLUTED ANTIQUE CANDLE HOLDER,12,11/20/2011 11:37,0.85,14525.0,United Kingdom
290380,562376,22969,HOMEMADE JAM SCENTED CANDLES,12,8/4/2011 15:04,1.45,15254.0,United Kingdom
440769,574547,22457,NATURAL SLATE HEART CHALKBOARD,3,11/4/2011 15:08,2.95,17841.0,United Kingdom


从抽样的10行数据来看，数据符合结构性标准，具体来看每行是关于某商品的一次交易，每列是交易相关的各个变量，因此不存在结构性问题。




### 评估数据干净度

可以通过```info()```方法对数据内容进行一个大致的了解。

In [5]:
original_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541909 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column       Non-Null Count   Dtype  
---  ------       --------------   -----  
 0   InvoiceNo    541909 non-null  object 
 1   StockCode    541909 non-null  object 
 2   Description  540455 non-null  object 
 3   Quantity     541909 non-null  int64  
 4   InvoiceDate  541909 non-null  object 
 5   UnitPrice    541909 non-null  float64
 6   CustomerID   406829 non-null  float64
 7   Country      541909 non-null  object 
dtypes: float64(2), int64(1), object(5)
memory usage: 33.1+ MB


##### 关键参数以及得到的信息：



1.541909 entries 表示整个数据有541909行。

2.```Description``` 和 ```CustomerID``` 存在缺失值（非空缺值数量 < 总行数）。

3.```InvoiceDate```表示发票时间，数据类型应该是时间，而不是字符串。

4.```CustomerID```表示客户的编号，数据类型应该是字符串，而不是浮点数。

```
```
##### 评估缺失数据

在了解```Description```存在缺失值后，根据条件提取出缺失观察值。

In [6]:
original_data[original_data["Description"].isnull()]

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country
622,536414,22139,,56,12/1/2010 11:52,0.0,,United Kingdom
1970,536545,21134,,1,12/1/2010 14:32,0.0,,United Kingdom
1971,536546,22145,,1,12/1/2010 14:33,0.0,,United Kingdom
1972,536547,37509,,1,12/1/2010 14:33,0.0,,United Kingdom
1987,536549,85226A,,1,12/1/2010 14:34,0.0,,United Kingdom
...,...,...,...,...,...,...,...,...
535322,581199,84581,,-2,12/7/2011 18:26,0.0,,United Kingdom
535326,581203,23406,,15,12/7/2011 18:31,0.0,,United Kingdom
535332,581209,21620,,6,12/7/2011 18:35,0.0,,United Kingdom
536981,581234,72817,,27,12/8/2011 10:33,0.0,,United Kingdom


- 有1454条交易数据存在缺失值。

- 从输出结果来看，这些缺失值中UnitPrice列都为0，为了验证猜想，我们再增加筛选条件，看是否存在Description变量缺失且UnitPrice不为0的数据。

In [7]:
original_data[(original_data["Description"].isnull()) & (original_data["UnitPrice"] != 0)]

Unnamed: 0,InvoiceNo,StockCode,Description,Quantity,InvoiceDate,UnitPrice,CustomerID,Country


筛选出来的结果数量为0

## 清理数据

## 保存清理后的数据