# 读取并处理数据

In [1]:
import pandas as pd
import numpy as np

In [5]:
data = pd.read_csv('./双十一淘宝美妆数据.csv') #读取csv文件

In [9]:
data.head() #head方法查看csv前5行数据，也可增加n参数来读取更多行，如n=10可读取前10行数据

Unnamed: 0,update_time,id,title,price,sale_count,comment_count,店名
0,2016/11/14,A18164178225,CHANDO/自然堂 雪域精粹纯粹滋润霜50g 补水保湿 滋润水润面霜,139.0,26719.0,2704.0,自然堂
1,2016/11/14,A18177105952,CHANDO/自然堂凝时鲜颜肌活乳液120ML 淡化细纹补水滋润专柜正品,194.0,8122.0,1492.0,自然堂
2,2016/11/14,A18177226992,CHANDO/自然堂活泉保湿修护精华水（滋润型135ml 补水控油爽肤水,99.0,12668.0,589.0,自然堂
3,2016/11/14,A18178033846,CHANDO/自然堂 男士劲爽控油洁面膏 100g 深层清洁 男士洗面奶,38.0,25805.0,4287.0,自然堂
4,2016/11/14,A18178045259,CHANDO/自然堂雪域精粹纯粹滋润霜（清爽型）50g补水保湿滋润霜,139.0,5196.0,618.0,自然堂


In [7]:
data.shape #查看导入数据行列总数

(27598, 7)

In [10]:
# 查看各字段信息，分别为列名、非空数据、数据类型
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 27598 entries, 0 to 27597
Data columns (total 7 columns):
 #   Column         Non-Null Count  Dtype  
---  ------         --------------  -----  
 0   update_time    27598 non-null  object 
 1   id             27598 non-null  object 
 2   title          27598 non-null  object 
 3   price          27598 non-null  float64
 4   sale_count     25244 non-null  float64
 5   comment_count  25244 non-null  float64
 6   店名             27598 non-null  object 
dtypes: float64(3), object(4)
memory usage: 1.5+ MB


In [11]:
#查看指定列数据的频数分布
data['店名'].value_counts()

悦诗风吟    3021
佰草集     2265
欧莱雅     1974
雅诗兰黛    1810
倩碧      1704
美加净     1678
欧珀莱     1359
妮维雅     1329
相宜本草    1313
兰蔻      1285
娇兰      1193
自然堂     1190
玉兰油     1135
兰芝      1091
美宝莲      825
资生堂      821
植村秀      750
薇姿       746
雅漾       663
雪花秀      543
SKII     469
蜜丝佛陀     434
Name: 店名, dtype: int64

In [13]:
# 处理重复数据
data = data.drop_duplicates()

In [14]:
# 查看处理后的数据行列
data.shape 

(27512, 7)

In [19]:
# 删除重复值后，数据的索引即第1列可能不会改变，因此应用下面的方法重置索引
data.reset_index(inplace = True, drop = True)

In [21]:
# 处理缺失值，查看每一列是否存在缺失值
data.isnull().any() 

update_time      False
id               False
title            False
price            False
sale_count        True
comment_count     True
店名               False
dtype: bool

可以看到有两列数据存在缺失值：sale_count，comment_count

此处可以从数据和列名判断评论数和销量有可能存在为0的情况，我们来验证一下

In [22]:
# 查看sale_count列的众数
mode_01 = data.sale_count.mode()
mode_01

0    0.0
Name: sale_count, dtype: float64

In [23]:
# 查看comment_count列的众数
mode_02 = data.comment_count.mode()
mode_02

0    0.0
Name: comment_count, dtype: float64

可以看到这两列的众数都为0，因此我们可以先用0来填充缺失值

In [24]:
data = data.fillna(0)

In [31]:
# 查看每一列处理后的缺失值情况
data.isnull().any()

update_time      False
id               False
title            False
price            False
sale_count       False
comment_count    False
店名               False
dtype: bool

In [36]:
# 增加一列销售额,方便后续统计分析
data['sale_amount'] = data['price'] * data['sale_count'] 

Unnamed: 0,update_time,id,title,price,sale_count,comment_count,店名,sale_amount
0,2016/11/14,A18164178225,CHANDO/自然堂 雪域精粹纯粹滋润霜50g 补水保湿 滋润水润面霜,139.0,26719.0,2704.0,自然堂,3713941.0
1,2016/11/14,A18177105952,CHANDO/自然堂凝时鲜颜肌活乳液120ML 淡化细纹补水滋润专柜正品,194.0,8122.0,1492.0,自然堂,1575668.0
2,2016/11/14,A18177226992,CHANDO/自然堂活泉保湿修护精华水（滋润型135ml 补水控油爽肤水,99.0,12668.0,589.0,自然堂,1254132.0
3,2016/11/14,A18178033846,CHANDO/自然堂 男士劲爽控油洁面膏 100g 深层清洁 男士洗面奶,38.0,25805.0,4287.0,自然堂,980590.0
4,2016/11/14,A18178045259,CHANDO/自然堂雪域精粹纯粹滋润霜（清爽型）50g补水保湿滋润霜,139.0,5196.0,618.0,自然堂,722244.0
...,...,...,...,...,...,...,...,...
27507,2016/11/5,A535642405757,SK-II【11-11】全新大眼眼霜skii放大双眼眼部修护精华紧致,590.0,0.0,0.0,SKII,0.0
27508,2016/11/5,A535911851408,SK-II 11-11预售skii大眼眼霜sk2眼部修护精华霜淡化黑眼圈,590.0,0.0,0.0,SKII,0.0
27509,2016/11/5,A537027211850,SK-II 11-11预售skii前男友护肤面膜sk2精华面膜贴密集修护,1740.0,0.0,0.0,SKII,0.0
27510,2016/11/5,A538212160126,SK-II 11-11预售skiisk2神仙水护肤精华油面部套装滋润补水密集修,1190.0,0.0,0.0,SKII,0.0


# 数据可视化

## 统计谁家的化妆品卖的最好

In [42]:
from pyecharts import options as opts
from pyecharts.charts import Map, Timeline, Bar, Line, Pie
from pyecharts.components import Table
from pyecharts.options import ComponentTitleOpts

In [44]:
dts = list(data['update_time'].unique())
dts.reverse()
dts

['2016/11/5',
 '2016/11/6',
 '2016/11/7',
 '2016/11/8',
 '2016/11/9',
 '2016/11/10',
 '2016/11/11',
 '2016/11/12',
 '2016/11/13',
 '2016/11/14']

In [99]:
tl = Timeline()

#创建时间轴组件
tl.add_schema(
        is_loop_play=False,
        play_interval=500,
    )

#循环创建条形图
for dt in dts:
    #统计出品牌销量和销售额对应的字典
    item = data[data['update_time'] <= dt].groupby('店名').agg({'sale_count': 'sum', 'sale_amount': 'sum'}).sort_values(by='sale_count', ascending=False)[:10].sort_values(by='sale_count').to_dict()
    bar = (
        Bar()
        #添加x轴
        .add_xaxis([*item['sale_count'].keys()])
        .add_yaxis("销售量", [round(val/10000,2) for val in item['sale_count'].values()], label_opts=opts.LabelOpts(position="right", formatter='{c}万'))
        # formatter为标签内容格式器，支持字符串模板和回调函数两种形式，字符串模板与回调函数返回的字符串均支持用 \n 换行。
        # 字符串模板 模板变量有：
        # {a}：系列名。
        # {b}：数据名。
        # {c}：数据值。
        
        #添加y轴
        .add_yaxis("销售额", [round(val/10000/10000,2) for val in item['sale_amount'].values()], label_opts=opts.LabelOpts(position="right", formatter='{c} 亿元'))
        #x-y轴反转
        .reversal_axis()
        #设置标题
        .set_global_opts(
            title_opts=opts.TitleOpts("累计销售量排行 TOP10")
        )
    )
    #给时间轴组建中添加条形图，和对应时间
    tl.add(bar, dt)
tl.render_notebook()

In [102]:
item = data.groupby('店名').agg({'sale_count': 'sum'}).sort_values(by='sale_count', ascending=False)[:10].to_dict()['sale_count']
item = {k: round(v/10000, 2) for k, v in item.items()}

#创建饼图
c = (
    Pie()
    .add("销量", [*item.items()])
    .set_series_opts(label_opts=opts.LabelOpts(formatter="{b}: {c} 万({d}%)"))
     # 不同图表类型下的 {a}，{b}，{c}，{d} 含义不一样。 其中变量{a}, {b}, {c}, {d}在不同图表类型下代表数据含义为：

    # 折线（区域）图、柱状（条形）图、K线图 : {a}（系列名称），{b}（类目值），{c}（数值）, {d}（无）
    # 散点图（气泡）图 : {a}（系列名称），{b}（数据名称），{c}（数值数组）, {d}（无）
    # 地图 : {a}（系列名称），{b}（区域名称），{c}（合并数值）, {d}（无）
    # 饼图、仪表盘、漏斗图: {a}（系列名称），{b}（数据项名称），{c}（数值）, {d}（百分比）
)
c.render_notebook()

{'相宜本草': 6546.29, '美宝莲': 3935.81, '悦诗风吟': 3907.05, '妮维雅': 3825.45, '欧莱雅': 3377.32, '自然堂': 1783.75, '蜜丝佛陀': 1539.12, '佰草集': 1499.45, '兰芝': 913.02, '美加净': 882.59}


## 谁家的化妆品最贵

In [103]:
item = data.groupby('店名').agg({'price': 'mean'}).sort_values(by='price', ascending=False)[:20].sort_values(by='price').to_dict()
c = (
    Bar()
    .add_xaxis([*item['price'].keys()])
    .add_yaxis("销售量", [round(v, 2) for v in item['price'].values()], label_opts=opts.LabelOpts(position="right"))
    .reversal_axis()
    .set_global_opts(
        title_opts=opts.TitleOpts("平均价格排行 TOP20")
    )
)
c.render_notebook()