# 评估清洗淘宝乐高数据
## 1. 分析目标
本项目使用的数据为淘宝乐高产品销售数据，分析目的在于对获取到的数据进行整齐和干净度进行评估，并且基于评估结果，对数据进行清洗。

方便后续分析卖出产品数量最高的店铺和最畅销的产品。

## 2. 数据简介
原始数据集记录了近一年淘宝平台各个线上店铺乐高产品的销售情况，涵盖了不同店铺销售的不同种类乐高产品的数量。

每列数据含义如下：
- `goods_name`： 乐高产品名称。
- `shop_name`：卖出乐高产品的淘宝店铺名称。
- `price`：产品单价，单位为元（￥）。
- `purchase_num`：购买数量，用于标识某一产品在某店铺的购买次数。
- `location`：城市，用于标识淘宝店铺所在城市（每个店铺所在城市固定，即店铺名称与城市一一对应）。

## 3. 数据评估

### 3.1 读取数据

导入数据分析所需要的库，并通过Pandas的`read_csv`函数，将原始数据文件"乐高淘宝数据.csv"里的数据内容解析为DataFrame，并赋值给original_data.

In [1]:
import pandas as pd

In [2]:
original_data = pd.read_csv("乐高淘宝数据.csv")
original_data.head()

Unnamed: 0,goods_name,shop_name,price,purchase_num,location
0,乐高旗舰店官网悟空小侠系列80012孙悟,乐高官方旗舰店,1299.0,['867人付款'],浙江 嘉兴
1,LEGO乐高 71043收藏版哈利波特霍格沃兹城堡玩具礼物,天猫国际进口超市,3299.0,['259人付款'],浙江 杭州
2,LEGO乐高机械组布加迪42083粉丝收藏旗舰款玩具模型礼物,天猫国际进口超市,2799.0,['441人付款'],浙江 杭州
3,乐高旗舰店官网3月新品76895超级赛车系列法拉利赛车积木玩具男孩,乐高官方旗舰店,199.0,['358人付款'],浙江 嘉兴
4,乐高旗舰店官网3月新品得宝系列10921超级英雄实验室大颗粒益智,乐高官方旗舰店,299.0,['126人付款'],浙江 嘉兴


### 3.2 评估数据
在本节，将对上面建立的`original_data`这个DataFrame所包含的数据进行评估。

评估主要从以下两个方面进行：
1. 结构：即整齐度。数据的结构性问题指不符合“每列是一个变量，每行是一个观察值，每个单元格是一个值”这三个标准。
2. 内容：即干净度。数据的内容问题包括存在丢失数据、重复数据、无效数据等。

#### 3.2.1 评估数据整齐度

使用DataFrame的`sample()`方法随机获取十行数据，观察`original_data`是否符合整齐数据要求：

In [3]:
original_data.sample(10)

Unnamed: 0,goods_name,shop_name,price,purchase_num,location
1293,乐高积木女孩子系列公主梦冰雪奇缘城堡6街景7拼装8益智9玩具礼物,tb5307835902,35.8,['283人付款'],广东 汕头
2302,LEGO乐高积木全新正品现货包邮超级英雄系列70906小丑低底盘汽车,jeffreyluk78,428.0,['29人付款'],广东 佛山
3708,LEGO 乐高 人仔武器 配件 93252 珍珠金色 洛基 法老 权杖,liufang198521,9.9,['7人付款'],北京
1252,【天津现货中通包邮】乐高积木大颗粒得宝10874智能蒸汽火车电动,waterlike1,348.0,['46人付款'],天津
1813,2020乐高我的世界积木系列男孩子益智拼装拼图儿童玩具村庄6-14岁,佳佳馒头,48.0,['37人付款'],广东 汕头
4083,乐高科技机械组42056保时捷 GT3 RS绝版出售 刘昊然同款,寒翊scorpion,3268.0,['6人付款'],河南 郑州
87,【现货】乐高 LEGO 70676 积木玩具幻影忍者 劳埃德的泰坦机甲,雨齐泪,458.0,['109人付款'],北京
3765,LEGO乐高10261创意过山车男孩女孩拼装积木儿童玩具收藏礼物,优优工艺品超市_2009,2538.0,['15人付款'],上海
2194,中华街积木拼装成年立体微颗粒建筑高难度拼图玩具大人乐高女孩,bboyinmylife,88.8,['43人付款'],广东 汕头
181,乐高幻影忍者人仔 儿童乐高玩具男孩 拼装,大母指玩具专营店,79.0,['188人付款'],上海


从抽样的十行数据来看，数据符合“每列是一个变量，每行是一个观察值，每个单元格是一个值”的要求。具体来看每行是关于某个商品在某个店铺销售数量的记录，商品名称和店铺名称共同构成了产品在某店铺销售情况的唯一标识，每列是销售情况的各个相关变量，因此不存在结构性问题。

#### 3.2.2 评估数据干净度

In [4]:
original_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 4404 entries, 0 to 4403
Data columns (total 5 columns):
 #   Column        Non-Null Count  Dtype  
---  ------        --------------  -----  
 0   goods_name    4404 non-null   object 
 1   shop_name     4404 non-null   object 
 2   price         4404 non-null   float64
 3   purchase_num  4404 non-null   object 
 4   location      4404 non-null   object 
dtypes: float64(1), object(4)
memory usage: 172.2+ KB


从输出结果来看，数据共有4404条观察值，没有缺失数据的列。

此外，`purchase_num`表示商品的购买数量，数据类型应为整数，为了方便后续统计计算，应当进行数据格式转换。

**数据清洗1：** 使用Series的`.str`属性的`slice`方法对`purchase_num`列进行截取，只保留有效数字，并将截取后的新DataFrame赋值给`celaned_data`。

In [5]:
cleaned_data = original_data.copy()
cleaned_data["purchase_num"] = cleaned_data["purchase_num"].str.slice(2, -5)
cleaned_data["purchase_num"]

0       867
1       259
2       441
3       358
4       126
       ... 
4399     41
4400     36
4401     14
4402    112
4403    117
Name: purchase_num, Length: 4404, dtype: object

使用DataFrame的`astype()`方法将截取后只保留数字的`celaned_data`列数据类型转换为int类型。

由于转换时发现部分字符串末尾存在“+”，转换类型失败，先使用str属性的strip()方法去掉末尾的“+”

In [6]:
cleaned_data["purchase_num"] = cleaned_data["purchase_num"].str.strip("+")
cleaned_data["purchase_num"]

0       867
1       259
2       441
3       358
4       126
       ... 
4399     41
4400     36
4401     14
4402    112
4403    117
Name: purchase_num, Length: 4404, dtype: object

In [7]:
cleaned_data["purchase_num"] = cleaned_data["purchase_num"].astype(int)
cleaned_data["purchase_num"]

0       867
1       259
2       441
3       358
4       126
       ... 
4399     41
4400     36
4401     14
4402    112
4403    117
Name: purchase_num, Length: 4404, dtype: int32

输出结果显示`purchase_num`已经被成功转换为整数类型。

##### 3.2.2.1 评估缺失数据
根据上面的输出结果，初步判断原始数据中，没有缺失数据的列，这里使用series的`isnull()`方法获取每列数据的缺失值，进行验证。

In [8]:
original_data[original_data["goods_name"].isnull()]

Unnamed: 0,goods_name,shop_name,price,purchase_num,location


In [9]:
original_data[original_data["shop_name"].isnull()]

Unnamed: 0,goods_name,shop_name,price,purchase_num,location


In [10]:
original_data[original_data["price"].isnull()]

Unnamed: 0,goods_name,shop_name,price,purchase_num,location


In [11]:
original_data[original_data["purchase_num"].isnull()]

Unnamed: 0,goods_name,shop_name,price,purchase_num,location


In [12]:
original_data[original_data["location"].isnull()]

Unnamed: 0,goods_name,shop_name,price,purchase_num,location


验证结果显示original_data中没有缺失的数据

##### 3.2.2.2 评估重复数据
由于`goods_name`、`shop_name`和`price`共同构成了产品在某店铺销售情况的唯一标识，因此不能存在`goods_name`、`shop_name`和`price`均相同的记录。

首先使用DataFrame的`duplicated()`方法获取所有列均重复的记录：

In [13]:
original_data[original_data.duplicated()]

Unnamed: 0,goods_name,shop_name,price,purchase_num,location
64,【官方】乐高赛车系列1974保时捷911 Turbo 3.0赛车75895玩具7岁+,天猫超市,119.00,['492人付款'],上海
69,乐高(LEGO)积木玩具 75892 迈凯伦塞纳 超级赛车系列粉丝收藏礼物,凌逸,98.00,['456人付款'],广东 深圳
76,我的世界乐高积木男孩子迷你系列益智拼装儿童机关山洞玩具6-14岁,琳琳积木001,66.00,['1172人付款'],广东 汕头
95,兼容乐高成年大人高难度遥控积木拼装编程玩具越野跑汽车模型电动,乘势电商,229.00,['377人付款'],广东 中山
98,LEGO乐高拼装积木42105科技系列机械组漂浮双体船男孩子玩具2020,yuanqi2016,247.00,['41人付款'],上海
...,...,...,...,...,...
4372,乐高40165婚礼套装结婚套装新郎新娘40197LEGO拼装玩具伴手礼送人,nc_zone,99.00,['35人付款'],广东 广州
4373,乐高积木LEGO漫威复仇者联盟76108奇异博士至圣所大对决 男孩玩具,nc_zone,798.00,['8人付款'],广东 广州
4376,LEGO 乐高 3666 1x6基础板 黑白 红黄橙 蓝绿 深浅灰 米棕紫 湖蓝,禁令十条,0.68,['39人付款'],北京
4382,LEGO乐高 4599 1x1 水龙头连接件 黑 白 浅灰 红 黄 蓝 米 珍珠金,gaojiayi8888,0.43,['47人付款'],上海


根据输出结果，可以发现，共有993项观察值所有变量值均重复，对于这些重复的行需要进行删除。

**数据清洗2**: 使用`DataFrame`的`drop_duplicates`方法删除所有列值均重复的行

In [14]:
cleaned_data = cleaned_data.drop_duplicates()
cleaned_data[cleaned_data.duplicated()]

Unnamed: 0,goods_name,shop_name,price,purchase_num,location


输出结果显示，993项重复数据已删除

再次使用DataFrame的duplicated()方法获取`goods_name`、`shop_name`和`price`列均重复的记录：

In [15]:
cleaned_data[cleaned_data.duplicated(subset=["goods_name", "shop_name", "price"])]

Unnamed: 0,goods_name,shop_name,price,purchase_num,location
607,乐高旗舰店官网悟空小侠系列80012孙悟空齐天大圣黄金机甲,乐高官方旗舰店,1299.0,223,浙江 嘉兴
1509,乐高5月新品悟空小侠系列80008悟空小侠云霄战机孙悟空齐天大圣,乐高官方旗舰店,499.0,203,浙江 嘉兴
2939,乐高5月新品悟空小侠系列80008悟空小侠云霄战机孙悟空齐天大圣,乐高官方旗舰店,499.0,101,浙江 嘉兴
4265,乐高旗舰店官网5月新品悟空小侠系列80009猪大厨移动钉耙车玩具,乐高官方旗舰店,599.0,76,浙江 嘉兴


输出结果显示，有4项观察值`goods_name`、`shop_name`和`price`列均重复，取其中一条重复数据观察`purchase_num`列不的情况。（在前面的数据清洗中已经删除掉了所有行都一致的数据，由于每个店铺所在城市是固定的，可以忽略本列数据影响，因此这个时候筛选出来的重复数据中`purchase_num`应该包含不同的值，下面做一次验证）

In [16]:
cleaned_data[(cleaned_data["goods_name"] == "乐高5月新品悟空小侠系列80008悟空小侠云霄战机孙悟空齐天大圣") & (cleaned_data["shop_name"] == "乐高官方旗舰店")]

Unnamed: 0,goods_name,shop_name,price,purchase_num,location
819,乐高5月新品悟空小侠系列80008悟空小侠云霄战机孙悟空齐天大圣,乐高官方旗舰店,499.0,2371,浙江 嘉兴
1509,乐高5月新品悟空小侠系列80008悟空小侠云霄战机孙悟空齐天大圣,乐高官方旗舰店,499.0,203,浙江 嘉兴
2939,乐高5月新品悟空小侠系列80008悟空小侠云霄战机孙悟空齐天大圣,乐高官方旗舰店,499.0,101,浙江 嘉兴


通过观察可以发现，`goods_name`、`shop_name`和`price`列均重复的行，`purchase_num`列数据不一致，可以进行合并处理。

**数据清洗3：** 使用DataFrame的`groupby().agg()`分类汇总方法合并`goods_name`、`shop_name`和`price`列重复，`purchase_num`列数据不一致的行，并对`purchase_num`列中的数据做求和处理。

In [18]:
cleaned_data = cleaned_data.groupby(["goods_name", "shop_name", "price", "location"]).agg({"purchase_num": "sum"})
cleaned_data = cleaned_data.reset_index()
cleaned_data

Unnamed: 0,goods_name,shop_name,price,location,purchase_num
0,"(legofree) 乐高 LEGO 21050 建筑工作室, 順豐包郵",legofree,3540.0,广东 深圳,8
1,10月新品乐高ow守望先锋系列75976破坏球小颗粒积木儿童拼装玩具,唛宝网,248.0,上海,103
2,1月新品 乐高LEGO 幻影忍者 71710 忍者改装赛车,wang爱heng,245.0,上海,24
3,1月新品 乐高LEGO大颗粒 10914 得宝豪华缤纷桶,wang爱heng,338.0,上海,22
4,1月新品LEGO乐高幻影忍者系列71702黄金机甲小颗粒积木8岁+玩具,半步多l,259.0,上海,17
...,...,...,...,...,...
3402,香港正品 乐高街景系列LEGO10247 10253 10214 10234 10255 1...,siokong,398.0,广东 深圳,9
3403,高难度乐高大型积木航空母舰模型男孩拼装玩具军事系列儿童益智力,小天才积木城,168.0,浙江 温州,89
3404,高难度航母男孩智力成人益智8-10-12岁礼物拼装玩具兼容 乐高积木,梦幻猪尼,228.0,广东 汕头,69
3405,高难度限量积木拼装玩具益智大人乐高10266阿波罗11号登月舱男孩,wanju021,606.0,上海,13


In [19]:
cleaned_data[cleaned_data.duplicated(subset=["goods_name", "shop_name", "price"])]

Unnamed: 0,goods_name,shop_name,price,location,purchase_num


In [20]:
cleaned_data[(cleaned_data["goods_name"] == "乐高5月新品悟空小侠系列80008悟空小侠云霄战机孙悟空齐天大圣") & (cleaned_data["shop_name"] == "乐高官方旗舰店")]

Unnamed: 0,goods_name,shop_name,price,location,purchase_num
1505,乐高5月新品悟空小侠系列80008悟空小侠云霄战机孙悟空齐天大圣,乐高官方旗舰店,499.0,浙江 嘉兴,2675


输出结果显示，重复观察值已经合并为一行，并且`purchase_num`列进行了求和

##### 3.2.2.3 评估不一致数据
不一致数据可能存在`shop_name`中，需要验证是否存在多个值指代一个产品/店铺的情况。

使用Series的`value_counts()`查看相关变量包含哪些值，以及值对应的个数：

In [23]:
cleaned_data["shop_name"].value_counts()

shop_name
乐高官方旗舰店        121
nc_zone        105
cnnetearn      100
liji0904        99
浅海蓝深            62
              ... 
kon商店            1
tb74218179       1
冲击力服装            1
tb154568555      1
lovetautau       1
Name: count, Length: 739, dtype: int64

In [24]:
cleaned_data["shop_name"].sort_values()

2426     0202jelly
2436     07blzhou2
2183     07blzhou2
70      323716茉莉花茶
2354         38ren
           ...    
126           麦宝的店
1495          麦宝的店
1076          麦若紫凌
353         黄大胖买手店
2545         黄梓聪zc
Name: shop_name, Length: 3407, dtype: object

由于店铺名称数据种类较多，且很难通过名称判定是否为同一家店铺，识别多个值指代一个店铺的情况难度较大，暂时不做修改。

##### 3.2.2.4 评估无效或错误数据
首先通过`DataFrame`的`describe()`方法对统计信息进行快速了解

In [25]:
cleaned_data.describe()

Unnamed: 0,price,purchase_num
count,3407.0,3407.0
mean,358.746739,87.595832
std,634.010396,282.695677
min,0.06,0.0
25%,48.0,8.0
50%,138.0,23.0
75%,396.5,71.0
max,8888.0,7000.0


从`purchase_num`的平均值和最小值来看，不存在数据为负数的异常情况，为干净数据。

### 3.3 总结

从数评估来看，原始数据存在以下问题：  
1. `purchase_num`的数据类型为字符串，需要转变为整数型便于后续计算；  
2. 有大量重复的行需要进行删除处理；
3. 除了`purchase_num`列其它列的值均一致的行，需要对`purchase_num`列进行求和合并为一行数据。

### 3.3 保存清洗好的数据
使用Pandas的`to_cvs()`函数将清洗好的数据，存储到新的文件中，文件名为`乐高淘宝数据(清洗后）.csv`

//encoding参数指定文件编码，避免中文乱码问题，index参数设置为false表示忽略位置索引

In [40]:
cleaned_data.to_csv("乐高淘宝数据(清洗后）.csv", encoding="utf-8_sig", index=False) 

In [34]:
pd.read_csv("乐高淘宝数据(清洗后）.csv").head(20)

Unnamed: 0,goods_name,shop_name,price,location,purchase_num
0,"(legofree) 乐高 LEGO 21050 建筑工作室, 順豐包郵",legofree,3540.0,广东 深圳,8
1,10月新品乐高ow守望先锋系列75976破坏球小颗粒积木儿童拼装玩具,唛宝网,248.0,上海,103
2,1月新品 乐高LEGO 幻影忍者 71710 忍者改装赛车,wang爱heng,245.0,上海,24
3,1月新品 乐高LEGO大颗粒 10914 得宝豪华缤纷桶,wang爱heng,338.0,上海,22
4,1月新品LEGO乐高幻影忍者系列71702黄金机甲小颗粒积木8岁+玩具,半步多l,259.0,上海,17
5,1月新品LEGO乐高幻影忍者系列71706寇的极速战车小颗粒积木玩具,半步多l,65.0,上海,12
6,1月新品LEGO乐高幻影忍者系列71710忍者改装赛车积木玩具,半步多l,259.0,上海,8
7,1月新品LEGO乐高幻影忍者系列71713帝国神龙小颗粒积木玩具,半步多l,229.0,上海,2
8,1月新品LEGO乐高幻影忍者系列71714凯/71715杰/71716劳埃德的街机,半步多l,70.0,上海,227
9,1月新品LEGO乐高幻影忍者系列71714凯/71715杰/71716劳埃德的街机,老汉触网,74.0,江苏 苏州,289
