这是Analiytics Vidhya的竞赛题目，大型商场销售额预测，该项目提供了从不同城市的10家商店中收集的多种商品的销售数据，目的是通过这些销售数据建立一个模型，预测每个产品在特定商店中的销售情况。在这里使用竞赛中提供的数据，先对数据进行分析，来发现销售的规律。

数据已经从Analiytics Vidhya网站上下载了，首先导入使用的类库，并读入数据文件。

In [1]:
import pandas as pd
import numpy as np

# 读入数据
df = pd.read_csv('data/sales/mall_sales.csv')
df.head()

Unnamed: 0,Item_Identifier,Item_Weight,Item_Fat_Content,Item_Visibility,Item_Type,Item_MRP,Outlet_Identifier,Outlet_Establishment_Year,Outlet_Size,Outlet_Location_Type,Outlet_Type,Item_Outlet_Sales
0,FDA15,9.3,Low Fat,0.016047,Dairy,249.8092,OUT049,1999,Medium,Tier 1,Supermarket Type1,3735.138
1,DRC01,5.92,Regular,0.019278,Soft Drinks,48.2692,OUT018,2009,Medium,Tier 3,Supermarket Type2,443.4228
2,FDN15,17.5,Low Fat,0.01676,Meat,141.618,OUT049,1999,Medium,Tier 1,Supermarket Type1,2097.27
3,FDX07,19.2,Regular,0.0,Fruits and Vegetables,182.095,OUT010,1998,,Tier 3,Grocery Store,732.38
4,NCD19,8.93,Low Fat,0.0,Household,53.8614,OUT013,1987,High,Tier 3,Supermarket Type1,994.7052


数据读入之后，首先看一下是否有缺失值。

In [2]:
df.isna().any()

Item_Identifier              False
Item_Weight                   True
Item_Fat_Content             False
Item_Visibility              False
Item_Type                    False
Item_MRP                     False
Outlet_Identifier            False
Outlet_Establishment_Year    False
Outlet_Size                   True
Outlet_Location_Type         False
Outlet_Type                  False
Item_Outlet_Sales            False
dtype: bool

通过计算可以看出，商品重量和店铺大小存在缺失值。那么，看一下缺失值的数量，再来决定如何处理缺失值。

In [3]:
# 查看数据集的结构
df.shape

(8523, 12)

In [4]:
# 查看商品重量非NA的数量
data = df['Item_Weight'].count()
data

7060

In [5]:
# 查看店铺大小非NA的数量
data = df['Outlet_Size'].count()
data

6113

通过计算可以看到，缺失值所占比例较大，如果是要构建模型进行预测，需要对数据进行缺失值填充。在这里只是对数据分析，因此对缺失值先采取删除的策略。留待后续预测是在填充缺失值。

In [6]:
# 删除缺失值
new_df = df.dropna()
new_df.shape

(4650, 12)

删除缺失值后，剩余4650条记录，这些数据全部都是2013年的销售数据，首先对这些数据进行分析，寻找那些是影响销售的主要因素，以及如何进行改进。数据集中的项目如下：
<table align="left">
    <tr><td>项目名称</td><td>项目描述</td></tr>
    <tr><td>Item_Identifier</td><td>唯一产品ID</td></tr>
    <tr><td>Item_Weight</td><td>产品重量</td></tr>
    <tr><td>Item_Fat_Content</td><td>产品是否低脂</td></tr>
    <tr><td>Item_Visibility</td><td>该产品占商店总产品展示区的百分比</td></tr>
    <tr><td>Item_Type</td><td>产品种类</td></tr>
    <tr><td>Item_MRP</td><td>产品最高零售价（标价）</td></tr>
    <tr><td>Outlet_Identifier</td><td>商店唯一ID</td></tr>
    <tr><td>Outlet_Establishment_Year</td><td>商店成立的年份</td></tr>
    <tr><td>Outlet_Size</td><td>商店的面积</td></tr>
    <tr><td>Outlet_Location_Type</td><td>商店所在的城市类型</td></tr>
    <tr><td>Outlet_Type</td><td>商店的类型</td></tr>
    <tr><td>Item_Outlet_Sales</td><td>该产品在对应商店的销售额</td></tr>
</table>

有些项目是数值型，的有些项目是分类项目，首先看一下各个产品的总体销售状况。

In [7]:
# 获取商店列表
outlet_list = new_df.groupby(['Outlet_Identifier']).size().index.tolist()
# 获取产品类比列表
type_list = new_df.groupby(['Item_Type']).size().index.tolist()
# 获取产品列表
item_list = new_df.groupby(['Item_Identifier']).size().index.tolist()

print(len(item_list))

1535


可以看到，目前在所有的商店，在售的产品总共有1535种，产品种类还是相当丰富。首先查看一下销售额Top10的产品：

In [8]:
data = new_df.groupby(['Item_Identifier']).sum()
data = data.sort_values(by='Item_Outlet_Sales', ascending=False)['Item_Outlet_Sales']
data = data[0: 10]
x_axis = data.index.tolist()
y_axis = [data[item] for item in x_axis]
from pyecharts import Bar

bar = Bar('产品销售额')
bar.add('产品', x_axis, y_axis, xaxis_rotate=30, yaxis_rotate=30)
bar

换个角度思考，在不同的商店中因为产品的种类比较多，统计分析单个产品的销售额作用有限，首先分析在每个商店中，那些产品类比的销售比较好，这与商店所处的位置，有很大的关系。

In [37]:
data = new_df.groupby(['Outlet_Identifier', 'Item_Type']).sum()['Item_Outlet_Sales']
show_datas = []
for outlet in outlet_list:
    tmp = data[outlet].sort_values(ascending=False)
    x_axis = tmp.index.tolist()
    y_axis = [tmp[type] for type in x_axis]
    show_datas.append((outlet, x_axis, y_axis))
    
bar = Bar('销售额')
for outlet, x_axis, y_axis in show_datas:
    bar.add(outlet, x_axis, y_axis, xaxis_rotate=30, yaxis_rotate=30)
bar

通过上图可以看出OUT049和OUT035的销售额比较高，然后对这几个店铺进行分析，看看销售额与什么因素有关，比如：店铺的大小，店铺所在的城市等。

In [41]:
data = new_df[['Outlet_Identifier', 'Outlet_Size', 'Outlet_Location_Type']]
data.drop_duplicates(inplace=True)
data

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/indexing.html#indexing-view-versus-copy
  


Unnamed: 0,Outlet_Identifier,Outlet_Size,Outlet_Location_Type
0,OUT049,Medium,Tier 1
1,OUT018,Medium,Tier 3
4,OUT013,High,Tier 3
11,OUT046,Small,Tier 1
19,OUT035,Small,Tier 2


在这里可以看到OUT049店铺的面积是Medium并且是Tier 1城市，相对来说比较容易理解，它的销量为什么比较大。再进一步对比一下OUT046和OUT035，这两个店铺与想象稍微不一致，应该进一步深挖原因，为什么OUT035的销售额要比OUT046的大。通过进一步的追踪发现OUT035做的好的地方，是否可以拓展到其他的商店，OUT046是否有需要改善的地方。

数据分析就是要寻找数据的变化规律，数据的关系，以及数据的异常值。找到异常值后，进一步进行追踪发现问题，或者有点，来指导营销。