# 项目：评估和清理英国电商公司销售数据

## 分析目标: 畅销产品

此数据分析的目的是，根据市场销售数据，挖掘畅销产品，以便制定更有效的市场策略来提升营收。

本实战项目的目的在于练习评估数据干净和整洁度，并且基于评估结果，对数据进行清洗，从而得到可供下一步分析的数据。

## 简介

原始数据集记录了一家英国在线零售公司在2010年12月1日至2011年12月9日期间的所有交易情况，涵盖了该公司在全球不同国家和地区的业务数据。该公司主要销售覆盖各个场景的礼品，包括但不限于生日礼品、结婚纪念品、圣诞礼品等等。该公司的客户群体主要包括批发商和个人消费者，其中批发商占据了相当大的比例。

数据每列的含义如下：
- `InvoiceNo`: 发票号码。6位数，作为交易的唯一标识符。如果这个代码以字母“c”开头，表示这笔交易被取消。
- `StockCode`: 产品代码。5位数，作为产品的唯一标识符。
- `Description`: 产品名称。
- `Quantity`: 产品在交易中的数量。
- `InvoiceDate`: 发票日期和时间。交易发生的日期和时间。
- `UnitPrice`: 单价。价格单位为英镑（£）。
- `CustomerID`: 客户编号。5位数，作为客户的唯一标识符。
- `Country`: 国家名称。客户所居住的国家的名称。

## 读取数据

In [1]:
import pandas as pd

In [2]:
original_data = pd.read_csv(r"e_commerce.csv")  # 默认（列名为文件第一行，索引为初始位置索引）

翻译列名

In [3]:
original_data = original_data.rename(columns={"InvoiceNo":"发票号码","StockCode":"产品代码","Description":"产品名称","Quantity":"成交量",
                   "InvoiceDate":"成交时间","UnitPrice":"单价英镑","CustomerID":"客户编号","Country":"所在国家"})

## 评估数据结构  
是否符合 "1.每列是一个变量 2.每行是一个观察值 3.每个单元格是一个值" 这三个标准

In [4]:
original_data.head()  # 显示前几行 默认5行

Unnamed: 0,发票号码,产品代码,产品名称,成交量,成交时间,单价英镑,客户编号,所在国家
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,12/1/2010 8:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,12/1/2010 8:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,12/1/2010 8:26,3.39,17850.0,United Kingdom


In [5]:
original_data.sample(10)  # 随机显示几行  默认1行

Unnamed: 0,发票号码,产品代码,产品名称,成交量,成交时间,单价英镑,客户编号,所在国家
249170,558888,23169,CLASSIC GLASS COOKIE JAR,4,7/4/2011 15:29,4.15,14056.0,United Kingdom
103948,545084,22630,DOLLY GIRL LUNCH BOX,24,2/28/2011 10:55,1.95,12458.0,Switzerland
285700,561917,21165,BEWARE OF THE CAT METAL SIGN,1,8/1/2011 11:57,1.69,16904.0,United Kingdom
220,536390,85123A,WHITE HANGING HEART T-LIGHT HOLDER,64,12/1/2010 10:19,2.55,17511.0,United Kingdom
14974,537627,21704,BAG 250g SWIRLY MARBLES,72,12/7/2010 14:58,0.72,14739.0,United Kingdom
170905,551349,21731,RED TOADSTOOL LED NIGHT LIGHT,12,4/28/2011 10:03,1.65,14740.0,United Kingdom
369658,569081,22579,WOODEN TREE CHRISTMAS SCANDINAVIAN,24,9/30/2011 11:54,0.29,13972.0,United Kingdom
471055,576618,84032A,CHARLIE+LOLA PINK HOT WATER BOTTLE,2,11/15/2011 17:00,3.29,,United Kingdom
121357,546755,21317,GLASS SPHERE CANDLE STAND MEDIUM,2,3/16/2011 13:29,5.45,12502.0,Spain
231572,557271,21034,REX CASH+CARRY JUMBO SHOPPER,1,6/19/2011 11:41,0.95,17769.0,United Kingdom


通过观察10行数据，符合三个标准，不存在结构性问题

## 评估数据内容

In [6]:
original_data.info()  # 行数、列数、标签索引(起始to结束)、每列类型、类型统计、列名、空值

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541909 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column  Non-Null Count   Dtype  
---  ------  --------------   -----  
 0   发票号码    541909 non-null  object 
 1   产品代码    541909 non-null  object 
 2   产品名称    540455 non-null  object 
 3   成交量     541909 non-null  int64  
 4   成交时间    541909 non-null  object 
 5   单价英镑    541909 non-null  float64
 6   客户编号    406829 non-null  float64
 7   所在国家    541909 non-null  object 
dtypes: float64(2), int64(1), object(5)
memory usage: 33.1+ MB


共 541909行 8列。  
缺失值列：产品名称、客户编号  
**数据类型：成交时间（应该是时间类型），客户编号（应该是字符串类型）**

- ###  评估缺失数据

- 缺失值列：产品名称

In [7]:
original_data[original_data["产品名称"].isnull()]  # 查看空值的行

Unnamed: 0,发票号码,产品代码,产品名称,成交量,成交时间,单价英镑,客户编号,所在国家
622,536414,22139,,56,12/1/2010 11:52,0.0,,United Kingdom
1970,536545,21134,,1,12/1/2010 14:32,0.0,,United Kingdom
1971,536546,22145,,1,12/1/2010 14:33,0.0,,United Kingdom
1972,536547,37509,,1,12/1/2010 14:33,0.0,,United Kingdom
1987,536549,85226A,,1,12/1/2010 14:34,0.0,,United Kingdom
...,...,...,...,...,...,...,...,...
535322,581199,84581,,-2,12/7/2011 18:26,0.0,,United Kingdom
535326,581203,23406,,15,12/7/2011 18:31,0.0,,United Kingdom
535332,581209,21620,,6,12/7/2011 18:35,0.0,,United Kingdom
536981,581234,72817,,27,12/8/2011 10:33,0.0,,United Kingdom


产品名称缺失值1454行，观察来看有缺失值的单价都为0，是否缺失值的单价都为0  
筛选条件验证：产品名称缺失值 & 单价 == 0 的值

In [8]:
original_data[(original_data["产品名称"].isnull()) & (original_data["单价英镑"] == 0)]  # 查看空值的行

Unnamed: 0,发票号码,产品代码,产品名称,成交量,成交时间,单价英镑,客户编号,所在国家
622,536414,22139,,56,12/1/2010 11:52,0.0,,United Kingdom
1970,536545,21134,,1,12/1/2010 14:32,0.0,,United Kingdom
1971,536546,22145,,1,12/1/2010 14:33,0.0,,United Kingdom
1972,536547,37509,,1,12/1/2010 14:33,0.0,,United Kingdom
1987,536549,85226A,,1,12/1/2010 14:34,0.0,,United Kingdom
...,...,...,...,...,...,...,...,...
535322,581199,84581,,-2,12/7/2011 18:26,0.0,,United Kingdom
535326,581203,23406,,15,12/7/2011 18:31,0.0,,United Kingdom
535332,581209,21620,,6,12/7/2011 18:35,0.0,,United Kingdom
536981,581234,72817,,27,12/8/2011 10:33,0.0,,United Kingdom


结果看来产品名称缺失值 同时 单价都为0。这样无法提供有效数据，可以删除。

**缺失值列：产品名称（删除）**

- 缺失值列：客户编号

In [9]:
original_data[original_data["客户编号"].isnull()]  # 查看空值的行

Unnamed: 0,发票号码,产品代码,产品名称,成交量,成交时间,单价英镑,客户编号,所在国家
622,536414,22139,,56,12/1/2010 11:52,0.00,,United Kingdom
1443,536544,21773,DECORATIVE ROSE BATHROOM BOTTLE,1,12/1/2010 14:32,2.51,,United Kingdom
1444,536544,21774,DECORATIVE CATS BATHROOM BOTTLE,2,12/1/2010 14:32,2.51,,United Kingdom
1445,536544,21786,POLKADOT RAIN HAT,4,12/1/2010 14:32,0.85,,United Kingdom
1446,536544,21787,RAIN PONCHO RETROSPOT,2,12/1/2010 14:32,1.66,,United Kingdom
...,...,...,...,...,...,...,...,...
541536,581498,85099B,JUMBO BAG RED RETROSPOT,5,12/9/2011 10:26,4.13,,United Kingdom
541537,581498,85099C,JUMBO BAG BAROQUE BLACK WHITE,4,12/9/2011 10:26,4.13,,United Kingdom
541538,581498,85150,LADIES & GENTLEMEN METAL SIGN,1,12/9/2011 10:26,4.96,,United Kingdom
541539,581498,85174,S/4 CACTI CANDLES,1,12/9/2011 10:26,10.79,,United Kingdom


客户编号缺失值135080行，观察来看其他的值都有，只是客户编号缺失并不影响畅销产品的分析，所以可以保留这部分缺失

- ### 评估重复数据

In [10]:
original_data.value_counts()  # 全列元素同时 出现次数 (次数2以上为重复)

发票号码     产品代码   产品名称                                 成交量  成交时间              单价英镑  客户编号     所在国家          
555524   22698  PINK REGENCY TEACUP AND SAUCER        1   6/5/2011 11:37    2.95  16923.0  United Kingdom    20
         22697  GREEN REGENCY TEACUP AND SAUCER       1   6/5/2011 11:37    2.95  16923.0  United Kingdom    12
572861   22775  PURPLE DRAWERKNOB ACRYLIC EDWARDIAN   12  10/26/2011 12:46  1.25  14102.0  United Kingdom     8
572344   M      Manual                                48  10/24/2011 10:43  1.50  14607.0  United Kingdom     6
578289   23395  BELLE JARDINIERE CUSHION COVER        1   11/23/2011 14:07  3.75  17841.0  United Kingdom     6
                                                                                                             ..
553915   21174  POTTERING IN THE SHED METAL SIGN      12  5/19/2011 19:51   2.08  18225.0  United Kingdom     1
         21165  BEWARE OF THE CAT METAL SIGN          12  5/19/2011 19:51   1.69  18225.0  United Kingdom     

产品(产品代码、产品名称、单价)、成交（发票号码、成交量、成交时间）、客户（客户编号、所在国家）  
分析这3个能否同时存在。  
一个人，买了多个一样产品，可以成立，但是分批同时下单，有矛盾，分批了，成交时间、发票号码应该不同；同时成交，应该就生成一个单。数量在成交量上面体现，所以判断这个可能是系统错误导致重复数据。

**全列重复（删除）**

- ### 评估不一致数据

通过查看不同元素，观察是否存在不一致数据

In [11]:
original_data["所在国家"].value_counts()  # 单列元素同时 出现次数 (次数2以上为重复)

United Kingdom          495266
Germany                   9495
France                    8557
EIRE                      8196
Spain                     2533
Netherlands               2371
Belgium                   2069
Switzerland               2002
Portugal                  1519
Australia                 1259
Norway                    1086
Italy                      803
Channel Islands            758
Finland                    695
Cyprus                     622
Sweden                     462
Unspecified                446
Austria                    401
Denmark                    389
Japan                      358
Poland                     341
Israel                     297
China                      288
Singapore                  229
USA                        218
UK                         211
Iceland                    182
Canada                     151
Greece                     146
Malta                      127
United States               73
United Arab Emirates        68
European

发现 英国、美国等出现了多次不同单词表示

**使不一致数据统一成一个，最好全翻译成中文**

- ### 评估无效/错误数据

如果这个发票号码以字母“c”开头，表示这笔交易被取消。

**无效数据：删除发票号码是C开头的行**

In [12]:
original_data.describe()  # 数字描述统计（发现异常最小值和最大值）

Unnamed: 0,成交量,单价英镑,客户编号
count,541909.0,541909.0,406829.0
mean,9.55225,4.611114,15287.69057
std,218.081158,96.759853,1713.600303
min,-80995.0,-11062.06,12346.0
25%,1.0,1.25,13953.0
50%,3.0,2.08,15152.0
75%,10.0,4.13,16791.0
max,80995.0,38970.0,18287.0


发现成交量和单价最小值有负数，这是不对的

In [13]:
original_data.sort_values("成交量")    # 重新排序 发现异常的小值和大值 返回DataFrame

Unnamed: 0,发票号码,产品代码,产品名称,成交量,成交时间,单价英镑,客户编号,所在国家
540422,C581484,23843,"PAPER CRAFT , LITTLE BIRDIE",-80995,12/9/2011 9:27,2.08,16446.0,United Kingdom
61624,C541433,23166,MEDIUM CERAMIC TOP STORAGE JAR,-74215,1/18/2011 10:17,1.04,12346.0,United Kingdom
225529,556690,23005,printing smudges/thrown away,-9600,6/14/2011 10:37,0.00,,United Kingdom
225530,556691,23005,printing smudges/thrown away,-9600,6/14/2011 10:37,0.00,,United Kingdom
4287,C536757,84347,ROTATING SILVER ANGELS T-LIGHT HLDR,-9360,12/2/2010 14:23,0.03,15838.0,United Kingdom
...,...,...,...,...,...,...,...,...
421632,573008,84077,WORLD WAR 2 GLIDERS ASSTD DESIGNS,4800,10/27/2011 12:26,0.21,12901.0,United Kingdom
74614,542504,37413,,5568,1/28/2011 12:03,0.00,,United Kingdom
502122,578841,84826,ASSTD DESIGN 3D PAPER STICKERS,12540,11/25/2011 15:57,0.00,13256.0,United Kingdom
61619,541431,23166,MEDIUM CERAMIC TOP STORAGE JAR,74215,1/18/2011 10:01,1.04,12346.0,United Kingdom


产看成交量为负数对销量无效，删除  
**无效数据：删除成交量 <= 0的行**

In [14]:
original_data.sort_values("单价英镑")  # 重新排序 发现异常的小值和大值 返回DataFrame

Unnamed: 0,发票号码,产品代码,产品名称,成交量,成交时间,单价英镑,客户编号,所在国家
299984,A563187,B,Adjust bad debt,1,8/12/2011 14:52,-11062.06,,United Kingdom
299983,A563186,B,Adjust bad debt,1,8/12/2011 14:51,-11062.06,,United Kingdom
40984,539750,22652,TRAVEL SEWING KIT,1,12/21/2010 15:40,0.00,,United Kingdom
52217,540696,84562A,,1,1/11/2011 9:14,0.00,,United Kingdom
52262,540699,POST,,1000,1/11/2011 9:32,0.00,,United Kingdom
...,...,...,...,...,...,...,...,...
16356,C537651,AMAZONFEE,AMAZON FEE,-1,12/7/2010 15:49,13541.33,,United Kingdom
43703,C540118,AMAZONFEE,AMAZON FEE,-1,1/5/2011 9:57,16453.71,,United Kingdom
43702,C540117,AMAZONFEE,AMAZON FEE,-1,1/5/2011 9:55,16888.02,,United Kingdom
524602,C580605,AMAZONFEE,AMAZON FEE,-1,12/5/2011 11:36,17836.46,,United Kingdom


In [15]:
original_data[original_data["单价英镑"] == 0]

Unnamed: 0,发票号码,产品代码,产品名称,成交量,成交时间,单价英镑,客户编号,所在国家
622,536414,22139,,56,12/1/2010 11:52,0.0,,United Kingdom
1970,536545,21134,,1,12/1/2010 14:32,0.0,,United Kingdom
1971,536546,22145,,1,12/1/2010 14:33,0.0,,United Kingdom
1972,536547,37509,,1,12/1/2010 14:33,0.0,,United Kingdom
1987,536549,85226A,,1,12/1/2010 14:34,0.0,,United Kingdom
...,...,...,...,...,...,...,...,...
536981,581234,72817,,27,12/8/2011 10:33,0.0,,United Kingdom
538504,581406,46000M,POLYESTER FILLER PAD 45x45cm,240,12/8/2011 13:58,0.0,,United Kingdom
538505,581406,46000S,POLYESTER FILLER PAD 40x40cm,300,12/8/2011 13:58,0.0,,United Kingdom
538554,581408,85175,,20,12/8/2011 14:06,0.0,,United Kingdom


In [16]:
original_data[original_data["单价英镑"] < 0]

Unnamed: 0,发票号码,产品代码,产品名称,成交量,成交时间,单价英镑,客户编号,所在国家
299983,A563186,B,Adjust bad debt,1,8/12/2011 14:51,-11062.06,,United Kingdom
299984,A563187,B,Adjust bad debt,1,8/12/2011 14:52,-11062.06,,United Kingdom


单价为0对销量没有效，可以删除  
单价为负数有2行，为调整坏账，对销量无效，可以删除  
**无效数据：删除单价英镑 <= 0的行**

## 清理数据

数据类型："成交时间"（应该是时间类型），"客户编号"（应该是字符串类型）  
缺失值列："产品名称"（删除）  
全列重复（删除）  
不一致数据："所在国家" 统一成一个，全翻译成中文)  
无效数据：删除发票号码是C开头的行  
无效数据：删除成交量   <= 0的行  
无效数据：删除单价英镑 <= 0的行  

In [17]:
cleaned_data = original_data.copy()  # 把原始数据拷贝一份重新赋值给新的变量，来区分清理后的数据
cleaned_data

Unnamed: 0,发票号码,产品代码,产品名称,成交量,成交时间,单价英镑,客户编号,所在国家
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,12/1/2010 8:26,2.55,17850.0,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,12/1/2010 8:26,2.75,17850.0,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,12/1/2010 8:26,3.39,17850.0,United Kingdom
...,...,...,...,...,...,...,...,...
541904,581587,22613,PACK OF 20 SPACEBOY NAPKINS,12,12/9/2011 12:50,0.85,12680.0,France
541905,581587,22899,CHILDREN'S APRON DOLLY GIRL,6,12/9/2011 12:50,2.10,12680.0,France
541906,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4,12/9/2011 12:50,4.15,12680.0,France
541907,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4,12/9/2011 12:50,4.15,12680.0,France


- ### 清洗 转换数据类型

"成交时间"转换成时间类型，有点费时

In [18]:
cleaned_data["成交时间"] = cleaned_data["成交时间"].apply(pd.to_datetime)  # 返回Series

"客户编号"转换成字符串类型，并去掉小数点

In [19]:
cleaned_data["客户编号"] = cleaned_data["客户编号"].astype("str")  # 转换成 分类类型
cleaned_data["客户编号"] = cleaned_data["客户编号"].str[0:-2] # 去掉小数点
cleaned_data

Unnamed: 0,发票号码,产品代码,产品名称,成交量,成交时间,单价英镑,客户编号,所在国家
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850,United Kingdom
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850,United Kingdom
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850,United Kingdom
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850,United Kingdom
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850,United Kingdom
...,...,...,...,...,...,...,...,...
541904,581587,22613,PACK OF 20 SPACEBOY NAPKINS,12,2011-12-09 12:50:00,0.85,12680,France
541905,581587,22899,CHILDREN'S APRON DOLLY GIRL,6,2011-12-09 12:50:00,2.10,12680,France
541906,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4,2011-12-09 12:50:00,4.15,12680,France
541907,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4,2011-12-09 12:50:00,4.15,12680,France


确认类型转换成功

In [20]:
cleaned_data.info()  # 确认类型转换成功

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 541909 entries, 0 to 541908
Data columns (total 8 columns):
 #   Column  Non-Null Count   Dtype         
---  ------  --------------   -----         
 0   发票号码    541909 non-null  object        
 1   产品代码    541909 non-null  object        
 2   产品名称    540455 non-null  object        
 3   成交量     541909 non-null  int64         
 4   成交时间    541909 non-null  datetime64[ns]
 5   单价英镑    541909 non-null  float64       
 6   客户编号    541909 non-null  object        
 7   所在国家    541909 non-null  object        
dtypes: datetime64[ns](1), float64(1), int64(1), object(5)
memory usage: 33.1+ MB


- ### 清洗 缺失值

**缺失值列："产品名称"（删除）**

In [21]:
cleaned_data = cleaned_data.dropna(subset=["产品名称"])        # 单列缺失值 删除行

确认缺失值删除成功

In [22]:
cleaned_data["产品名称"].isnull().sum() # 空值数量 返回一个整数

0

- ### 清洗 重复数据

**全列重复（删除）**

In [23]:
cleaned_data = cleaned_data.drop_duplicates()  # 删除 全列 同时绝对重复元素 # 返回 全DataFrame

确认重复删除成功

In [24]:
cleaned_data.duplicated().sum()  # 重复总数

0

- ### 清洗 不一致数据

**不一致数据："所在国家" 统一成一个，全翻译成中文**

看一下有多少项

In [25]:
cleaned_data["所在国家"].value_counts()  # 返回 Series 值计数：元素出现的次数 # 通过查看不同元素，观察是否存在不一致数据

United Kingdom          488639
Germany                   9480
France                    8541
EIRE                      8184
Spain                     2528
Netherlands               2371
Belgium                   2069
Switzerland               1994
Portugal                  1510
Australia                 1258
Norway                    1086
Italy                      803
Channel Islands            757
Finland                    695
Cyprus                     611
Sweden                     461
Unspecified                442
Austria                    401
Denmark                    389
Japan                      358
Poland                     341
Israel                     294
China                      284
Singapore                  229
USA                        218
UK                         206
Iceland                    182
Canada                     151
Greece                     146
Malta                      127
United States               73
United Arab Emirates        68
European

In [26]:
cleaned_data = cleaned_data.replace({"France":"法国",
    "United Kingdom":"英国",
    "Germany":"德国",
    "EIRE":"爱尔兰",
    'Spain': '西班牙',
    'Netherlands': '荷兰',
    'Belgium': '比利时',
    'Switzerland': '瑞士',
    'Portugal': '葡萄牙',
    'Australia': '澳大利亚',
    'Norway': '挪威',
    'Italy': '意大利',
    'Channel Islands': '海峡群岛',  # 这里使用了通用译名
    'Finland': '芬兰',
    'Cyprus': '塞浦路斯',
    'Sweden': '瑞典',
    'Unspecified': '未指定',  # 这里使用了描述性词语
    'Austria': '奥地利',
    'Denmark': '丹麦',
    'Poland': '波兰',
    'Japan': '日本',
    'Israel': '以色列',
    'China': '中国',
    'Singapore': '新加坡',
    'UK': '英国',
    'Iceland': '冰岛',
    'Canada': '加拿大',
    'Greece': '希腊',
    'USA': '美国',
    'Malta': '马耳他',
    'United Arab Emirates': '阿联酋',
    'United States': '美国',  # 注意这里与'USA'重复，通常'United States'也指美国
    'European Community': '欧洲共同体',  # 这里使用了通用译名
    'RSA': '南非',  # RSA通常代表南非共和国（Republic of South Africa）
    'Lebanon': '黎巴嫩',
    'Lithuania': '立陶宛',
    'Brazil': '巴西',
    'Czech Republic': '捷克共和国',
    'Bahrain': '巴林',
    'Saudi Arabia': '沙特阿拉伯',
    'U.K.': '英国'})           # 多个1换1 返回 全DataFrame

确认不一致统一成功

In [27]:
cleaned_data["所在国家"].value_counts()

英国       488846
德国         9480
法国         8541
爱尔兰        8184
西班牙        2528
荷兰         2371
比利时        2069
瑞士         1994
葡萄牙        1510
澳大利亚       1258
挪威         1086
意大利         803
海峡群岛        757
芬兰          695
塞浦路斯        611
瑞典          461
未指定         442
奥地利         401
丹麦          389
日本          358
波兰          341
以色列         294
美国          291
中国          284
新加坡         229
冰岛          182
加拿大         151
希腊          146
马耳他         127
阿联酋          68
欧洲共同体        61
南非           58
黎巴嫩          45
立陶宛          35
巴西           32
捷克共和国        30
巴林           19
沙特阿拉伯        10
Name: 所在国家, dtype: int64

同一完有38项 英国有2项，美国有1项

- ### 无效/错误数据

**无效数据：删除发票号码是C开头的行，相当于只提取!=C开头的行**

In [28]:
cleaned_data[cleaned_data["发票号码"].str[0] == 'C']

Unnamed: 0,发票号码,产品代码,产品名称,成交量,成交时间,单价英镑,客户编号,所在国家
141,C536379,D,Discount,-1,2010-12-01 09:41:00,27.50,14527,英国
154,C536383,35004C,SET OF 3 COLOURED FLYING DUCKS,-1,2010-12-01 09:49:00,4.65,15311,英国
235,C536391,22556,PLASTERS IN TIN CIRCUS PARADE,-12,2010-12-01 10:24:00,1.65,17548,英国
236,C536391,21984,PACK OF 12 PINK PAISLEY TISSUES,-24,2010-12-01 10:24:00,0.29,17548,英国
237,C536391,21983,PACK OF 12 BLUE PAISLEY TISSUES,-24,2010-12-01 10:24:00,0.29,17548,英国
...,...,...,...,...,...,...,...,...
540449,C581490,23144,ZINC T-LIGHT HOLDER STARS SMALL,-11,2011-12-09 09:57:00,0.83,14397,英国
541541,C581499,M,Manual,-1,2011-12-09 10:28:00,224.69,15498,英国
541715,C581568,21258,VICTORIAN SEWING BOX LARGE,-5,2011-12-09 11:57:00,10.95,15311,英国
541716,C581569,84978,HANGING HEART JAR T-LIGHT HOLDER,-1,2011-12-09 11:58:00,1.25,17315,英国


In [29]:
cleaned_data[cleaned_data["发票号码"].str[0] == 'c']

Unnamed: 0,发票号码,产品代码,产品名称,成交量,成交时间,单价英镑,客户编号,所在国家


In [30]:
cleaned_data = cleaned_data[(cleaned_data["发票号码"].str[0] != 'C') & (cleaned_data["成交量"] > 0) & (cleaned_data["单价英镑"] > 0)]
cleaned_data

Unnamed: 0,发票号码,产品代码,产品名称,成交量,成交时间,单价英镑,客户编号,所在国家
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850,英国
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850,英国
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850,英国
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850,英国
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850,英国
...,...,...,...,...,...,...,...,...
541904,581587,22613,PACK OF 20 SPACEBOY NAPKINS,12,2011-12-09 12:50:00,0.85,12680,法国
541905,581587,22899,CHILDREN'S APRON DOLLY GIRL,6,2011-12-09 12:50:00,2.10,12680,法国
541906,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4,2011-12-09 12:50:00,4.15,12680,法国
541907,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4,2011-12-09 12:50:00,4.15,12680,法国


确认删除成功

In [31]:
cleaned_data[cleaned_data["发票号码"].str[0] == 'C']

Unnamed: 0,发票号码,产品代码,产品名称,成交量,成交时间,单价英镑,客户编号,所在国家


In [32]:
cleaned_data[cleaned_data["成交量"] <= 0]

Unnamed: 0,发票号码,产品代码,产品名称,成交量,成交时间,单价英镑,客户编号,所在国家


In [33]:
cleaned_data[cleaned_data["单价英镑"] <= 0]

Unnamed: 0,发票号码,产品代码,产品名称,成交量,成交时间,单价英镑,客户编号,所在国家


## 保存清洗后的文件

- ### 重置索引

In [34]:
cleaned_data=cleaned_data.reset_index(drop=True)  # 重置索引为 初始位置索引 drop=True(删除原索引)
cleaned_data

Unnamed: 0,发票号码,产品代码,产品名称,成交量,成交时间,单价英镑,客户编号,所在国家
0,536365,85123A,WHITE HANGING HEART T-LIGHT HOLDER,6,2010-12-01 08:26:00,2.55,17850,英国
1,536365,71053,WHITE METAL LANTERN,6,2010-12-01 08:26:00,3.39,17850,英国
2,536365,84406B,CREAM CUPID HEARTS COAT HANGER,8,2010-12-01 08:26:00,2.75,17850,英国
3,536365,84029G,KNITTED UNION FLAG HOT WATER BOTTLE,6,2010-12-01 08:26:00,3.39,17850,英国
4,536365,84029E,RED WOOLLY HOTTIE WHITE HEART.,6,2010-12-01 08:26:00,3.39,17850,英国
...,...,...,...,...,...,...,...,...
524873,581587,22613,PACK OF 20 SPACEBOY NAPKINS,12,2011-12-09 12:50:00,0.85,12680,法国
524874,581587,22899,CHILDREN'S APRON DOLLY GIRL,6,2011-12-09 12:50:00,2.10,12680,法国
524875,581587,23254,CHILDRENS CUTLERY DOLLY GIRL,4,2011-12-09 12:50:00,4.15,12680,法国
524876,581587,23255,CHILDRENS CUTLERY CIRCUS PARADE,4,2011-12-09 12:50:00,4.15,12680,法国


- ### 另存清洗文件

In [38]:
cleaned_data.to_csv(r"e_commerce_cleaned.csv",index=False)  # index=False（不写入索引）