### 数据清洗


In [87]:
import pandas as pd
import numpy as np
import pymysql
from sqlalchemy import create_engine

conn = create_engine('mysql+pymysql://root:xin010727@localhost:3306/tiktok')
sql = 'select * from douyin'
data = pd.read_sql(sql=sql,con=conn)
data

Unnamed: 0,spu_id,spu_name,user_id,brand_name,shop_id,shop_name,c1_id,c1_name,c2_id,c2_name,c3_id,c3_name,gmv,unit_sold,brand_clean
0,3445769446910786789,浒城古娘休闲阔腿裤-SA1945,,浒城古娘 (hcgn),,,,,,,,,9995.0000,5,
1,3413099447008239629,蜜丝婷Mistine小蓝帽防晒霜乳身体防紫外线清爽不油持久SPF50+,,蜜丝婷 (Mistine),,,,,,,,,378.1025,10,
2,3494791652806121543,【韩安冉推荐】多燕瘦SOSO棒果冻140g,5.888719e+10,多燕瘦,,多燕瘦休闲零食旗舰店,33.0,食品酒水,3367.0,营养成分,336722.0,酵素,265.5000,2,
3,3475254900873650633,AD054史努比夏季休闲百搭背带裤男女宝可穿短款,6.700814e+10,史努比 (Snoopy),9052376.0,靓搭快时尚童装店,11.0,服装,1102.0,女装,110207.0,女士牛仔裤,89.8500,2,
4,3449074087392092231,笑哭不得推荐10-海澜之家工装风大口袋休闲裤HKCAJ3Q501A,,海澜之家 (HLA),,,,,,,,,2142.0000,9,
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
199995,3475881414128438051,38码心上 普拉达/半身裙/未使用/MIA-RH-wgg,7.438720e+10,普拉达 (PRADA),5572767.0,奢品匯旗舰店,11.0,服装,1102.0,女装,110213.0,女士半身裙,5600.0000,1,普拉达 (PRADA)
199996,3474337298173279815,《现货》48小时发货 男士休闲裤 81232195,2.811224e+14,迈特优 (MontVoo),,迈特优服饰旗舰店,11.0,服装,1101.0,男装,110113.0,男士休闲裤,89.0000,1,
199997,3478473538787229299,【大利专享】OLAY新生金纯大红瓶面霜50G,6.073981e+10,玉兰油 (OLAY),12463680.0,OLAY宝杰专卖店,31.0,个护化妆,3101.0,面部护肤,310103.0,乳液面霜,30520.0000,140,玉兰油 (OLAY)
199998,3459723656899478226,雅鹿【爆炸夫妻专享】轻薄系列YZ006A52580-Z067,7.588933e+10,雅鹿（YALOO）,,雅鹿服装服饰旗舰店,11.0,服装,1101.0,男装,110105.0,男士羽绒服,99.0000,1,


In [88]:
data.isnull().mean()

spu_id         0.000000
spu_name       0.000000
user_id        0.104860
brand_name     0.000005
shop_id        0.712875
shop_name      0.160920
c1_id          0.167785
c1_name        0.167785
c2_id          0.167785
c2_name        0.167785
c3_id          0.167785
c3_name        0.167785
gmv            0.000000
unit_sold      0.000000
brand_clean    0.854775
dtype: float64

#### 缺失值处理

'user_id'列：由于该列缺失比例较高，可能需要先了解缺失值的原因，以决定如何处理缺失值。如果数据采集过程中出现了问题，例如由于系统故障或数据传输错误，导致数据丢失，那么可能需要考虑使用其他数据集或使用机器学习模型等方法来填充缺失值。如果缺失值是由于用户未提供数据而导致的，则可以将该行数据删除。

In [102]:
# 删除缺失行
data_clean = data.dropna(subset=['user_id'])

'shop_id'列：由于该列的缺失比例非常高，可能需要考虑删除该列，除非该列对分析非常重要。否则，使用该列的分析结果可能会产生较大的偏差和误导性。

In [103]:
# 缺失值过多，摒弃
data_clean = data_clean.drop(columns='shop_id')

'brand_name'列：这列的缺失比例非常小，可以考虑使用其他数据集或外部数据源来填充缺失值，例如品牌信息的在线数据库。如果填充缺失值不可行，则可以使用其他列进行分析，并将这些列的缺失值删除。

In [104]:
# 由于无法填充缺失值，所以选择剔除
data_clean = data_clean.dropna(subset=['brand_name'])

'brand_clean'列：观察到，这列是品牌名称的清洗结果，我们选择保留所有中文结果，直接覆盖

In [105]:
# 定义正则表达式模式，用于匹配中文字符
pattern = re.compile(r'[\u4e00-\u9fa5]')

# 使用apply方法和lambda函数将结果追加到新的列中
data_clean['brand_clean'] = data_clean['brand_name'].str.extract(r'([\u4e00-\u9fa5]+)')


还有一些列缺失比例相同，推测可能是由于缺失数据的特殊含义。例如，如果缺失值表示某些产品没有分类，那么可能需要将这些产品单独处理或删除。如果缺失值表示分类信息未收集到，则可以尝试通过其他途径获取这些信息，并将其与数据集合并。

In [None]:
# 此处我们不做处理
data_clean.isnull().mean()

In [106]:
data_clean.head()

Unnamed: 0,spu_id,spu_name,user_id,brand_name,shop_name,c1_id,c1_name,c2_id,c2_name,c3_id,c3_name,gmv,unit_sold,brand_clean
2,3494791652806121543,【韩安冉推荐】多燕瘦SOSO棒果冻140g,58887190000.0,多燕瘦,多燕瘦休闲零食旗舰店,33.0,食品酒水,3367.0,营养成分,336722.0,酵素,265.5,2,多燕瘦
3,3475254900873650633,AD054史努比夏季休闲百搭背带裤男女宝可穿短款,67008140000.0,史努比 (Snoopy),靓搭快时尚童装店,11.0,服装,1102.0,女装,110207.0,女士牛仔裤,89.85,2,史努比
5,3482370923200388645,时瑞名表汇/卡西欧未使用/5/22/sr-0000-2,2594484000000000.0,卡西欧 (CASIO),嗨吃鱼二手奢侈品旗舰店,24.0,珠宝礼品,2403.0,钟表,240301.0,腕表,998.0,1,卡西欧
6,3488441337618022025,拉夏贝尔女鞋 夏秋新款 时尚休闲运动鞋 L3212436042,2277807000000000.0,拉夏贝尔 (La Chapelle),拉夏贝尔鞋类旗舰店,13.0,运动健康,1301.0,运动鞋包,130102.0,跑步鞋,119.0,1,拉夏贝尔
8,3491968107197666362,百草味樱樱团子麻薯樱花味120g*3,281945400000000.0,百草味 (BE&CHEERY),鲸象休闲食品专营店,33.0,食品酒水,3301.0,休闲食品,330107.0,饼干糕点,38.5,3,百草味


#### 重复值处理

In [94]:
data_clean.duplicated().sum()

0

没有重复值，也没有异常值，不需要删除

#### 其他处理

In [95]:
data_clean = data_clean.reset_index(drop=True)

In [107]:
data_clean['user_id'] = data_clean['user_id'].astype('int64')

In [115]:
df = data_clean
df

Unnamed: 0,spu_id,spu_name,user_id,brand_name,shop_name,c1_id,c1_name,c2_id,c2_name,c3_id,c3_name,gmv,unit_sold,brand_clean
2,3494791652806121543,【韩安冉推荐】多燕瘦SOSO棒果冻140g,58887191311,多燕瘦,多燕瘦休闲零食旗舰店,33.0,食品酒水,3367.0,营养成分,336722.0,酵素,265.50,2,多燕瘦
3,3475254900873650633,AD054史努比夏季休闲百搭背带裤男女宝可穿短款,67008140332,史努比 (Snoopy),靓搭快时尚童装店,11.0,服装,1102.0,女装,110207.0,女士牛仔裤,89.85,2,史努比
5,3482370923200388645,时瑞名表汇/卡西欧未使用/5/22/sr-0000-2,2594483837083348,卡西欧 (CASIO),嗨吃鱼二手奢侈品旗舰店,24.0,珠宝礼品,2403.0,钟表,240301.0,腕表,998.00,1,卡西欧
6,3488441337618022025,拉夏贝尔女鞋 夏秋新款 时尚休闲运动鞋 L3212436042,2277806638379117,拉夏贝尔 (La Chapelle),拉夏贝尔鞋类旗舰店,13.0,运动健康,1301.0,运动鞋包,130102.0,跑步鞋,119.00,1,拉夏贝尔
8,3491968107197666362,百草味樱樱团子麻薯樱花味120g*3,281945425582088,百草味 (BE&CHEERY),鲸象休闲食品专营店,33.0,食品酒水,3301.0,休闲食品,330107.0,饼干糕点,38.50,3,百草味
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
199995,3475881414128438051,38码心上 普拉达/半身裙/未使用/MIA-RH-wgg,74387202381,普拉达 (PRADA),奢品匯旗舰店,11.0,服装,1102.0,女装,110213.0,女士半身裙,5600.00,1,普拉达
199996,3474337298173279815,《现货》48小时发货 男士休闲裤 81232195,281122426327424,迈特优 (MontVoo),迈特优服饰旗舰店,11.0,服装,1101.0,男装,110113.0,男士休闲裤,89.00,1,迈特优
199997,3478473538787229299,【大利专享】OLAY新生金纯大红瓶面霜50G,60739805715,玉兰油 (OLAY),OLAY宝杰专卖店,31.0,个护化妆,3101.0,面部护肤,310103.0,乳液面霜,30520.00,140,玉兰油
199998,3459723656899478226,雅鹿【爆炸夫妻专享】轻薄系列YZ006A52580-Z067,75889330108,雅鹿（YALOO）,雅鹿服装服饰旗舰店,11.0,服装,1101.0,男装,110105.0,男士羽绒服,99.00,1,雅鹿
