##  读取csv

In [30]:
import pandas as pd
import os
import sys
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
#设置工作空间f
os.chdir(r'E:/Taidy')

## 使用read_csv读取
order = pd.read_csv('Data/附件1.csv', engine = 'python', encoding = 'gbk')
print('附件一的数据类型为：', '\n', order.shape)

order['支付时间'] = pd.to_datetime(order['支付时间'], errors = 'coerce', format = '%Y-%m-%d')

附件一的数据类型为： 
 (70680, 9)


## 清洗数据

### 检测与处理缺失值

In [31]:
#数据清洗，去缺失值
print('缺失值数量:\n', order.isnull().sum())

缺失值数量:
 订单号     0
设备ID    0
应付金额    0
实际金额    0
商品      0
支付时间    1
地点      0
状态      0
提现      0
dtype: int64


In [32]:
#数据清洗，去缺失值
print('去除缺失值之前： ',order.shape)
order = order.dropna()
print('去除缺失值之后： ',order.shape)

去除缺失值之前：  (70680, 9)
去除缺失值之后：  (70679, 9)


### 检测并处理重复值

In [33]:
print('去重前附件一的形状为：',order.shape)

##样本去重
order.drop_duplicates(inplace = True)
print('附件一样本去重后的长度为：',len(order))


去重前附件一的形状为： (70679, 9)
附件一样本去重后的长度为： 70679


### 检测与处理异常值

In [34]:
# -*- coding: gbk -*-

##定义异常值识别与处理函数
def outRange(Ser1):
    QL = Ser1.quantile(0.25)
    QU = Ser1.quantile(0.75)
    IQR = QU-QL
    Ser1.loc[Ser1>(QU+1.5*IQR)] = QU
    Ser1.loc[Ser1<(QL-1.5*IQR)] = QL
    return Ser1
## 处理应付金额和实际金额的异常值
order['应付金额'] = outRange(order['应付金额'])
order['实际金额'] = outRange(order['实际金额'])

##查看处理后的应付金额和实际金额的最小值，最大值
print('应付金额最小值为：', order['应付金额'].min())
print('应付金额最大值为：', order['应付金额'].max())
print('实际金额最小值为：', order['实际金额'].min())
print('实际金额最大值为：', order['实际金额'].max())

应付金额最小值为： 0.8
应付金额最大值为： 6.5
实际金额最小值为： 0.8
实际金额最大值为： 6.5


In [35]:
print('数据预处理后附件一的形状:', order.shape)
appendix1 = order.to_csv('Data/appendix1.csv', sep = ';', index = True)

数据预处理后附件一的形状: (70679, 9)


## 提取每台售货机对应的销售数据，保存到csv文件中

In [36]:
order1 = order.iloc[(order['地点']=='A').values,[0, 1, 2, 3, 4, 5, 6, 7, 8]]
order1.to_csv('Data/task1-1A.csv', sep = ';', index = False)

order2 = order.iloc[(order['地点']=='B').values,[0, 1, 2, 3, 4, 5, 6, 7, 8]]
order2.to_csv('Data/task1-1B.csv', sep = ';', index = False)

order3 = order.iloc[(order['地点']=='C').values,[0, 1, 2, 3, 4, 5, 6, 7, 8]]
order3.to_csv('Data/task1-1C.csv', sep = ';', index = False)

order4 = order.iloc[(order['地点']=='D').values,[0, 1, 2, 3, 4, 5, 6, 7, 8]]
order4.to_csv('Data/task1-1D.csv', sep = ';', index = False)

order5 = order.iloc[(order['地点']=='E').values,[0, 1, 2, 3, 4, 5, 6, 7, 8]]
order5.to_csv('Data/task1-1E.csv', sep = ';', index = False)


print('每台售货机对应的销售数据写入文本目录后文件列表为：\n', os.listdir('Data'))


每台售货机对应的销售数据写入文本目录后文件列表为：
 ['.~lock.appendix_1.csv#', '.~lock.附件1.csv#', '.~lock.附件2.csv#', 'appendix1.csv', 'appendix_1.csv', 'app_merge.csv', 'task1-1A.csv', 'task1-1B.csv', 'task1-1C.csv', 'task1-1D.csv', 'task1-1E.csv', 'task1.csv', 'task2', 'task2-4+0.xlsx', 'task2_4.xlsx', 'task3', '~$task2-4+0.xlsx', '附件1.csv', '附件2.csv']


In [37]:
import numpy as np

order1['month'] = [i.month for i in order1['支付时间']]
detailGroup1 = order1[['month','订单号','实际金额']].groupby(by='month')

order2['month'] = [i.month for i in order2['支付时间']]
detailGroup2 = order2[['month','订单号','实际金额']].groupby(by='month')

order3['month'] = [i.month for i in order3['支付时间']]
detailGroup3 = order3[['month','订单号','实际金额']].groupby(by='month')

order4['month'] = [i.month for i in order4['支付时间']]
detailGroup4 = order4[['month','订单号','实际金额']].groupby(by='month')

order5['month'] = [i.month for i in order5['支付时间']]
detailGroup5 = order5[['month','订单号','实际金额']].groupby(by='month')

Group1 = detailGroup1.agg({'订单号':np.size,'实际金额':np.sum})
Group2 = detailGroup2.agg({'订单号':np.size,'实际金额':np.sum})
Group3 = detailGroup3.agg({'订单号':np.size,'实际金额':np.sum})
Group4 = detailGroup4.agg({'订单号':np.size,'实际金额':np.sum})
Group5 = detailGroup5.agg({'订单号':np.size,'实际金额':np.sum})

print('A处售货机的月订单号总数和实际金额总数为：\n', Group1)
print('B处售货机的月订单号总数和实际金额总数为：\n', Group2)
print('C处售货机的月订单号总数和实际金额总数为：\n', Group3)
print('D处售货机的月订单号总数和实际金额总数为：\n', Group4)
print('E处售货机的月订单号总数和实际金额总数为：\n', Group5)




A处售货机的月订单号总数和实际金额总数为：
         订单号    实际金额
month              
1       335  1206.2
2       114   374.0
3       255   810.2
4       447  1618.2
5       756  2816.8
6      1669  5850.4
7       476  1702.3
8       666  2078.1
9      1040  3811.0
10     1565  5458.7
11     1160  4335.8
12     2003  6808.1
B处售货机的月订单号总数和实际金额总数为：
         订单号    实际金额
month              
1       366  1250.5
2       185   580.8
3       265   886.8
4       603  2111.8
5       869  3223.8
6      1856  6589.0
7       345  1248.2
8       981  3335.2
9      1745  6088.9
10     2026  7291.7
11     2031  7094.8
12     2210  7484.6
C处售货机的月订单号总数和实际金额总数为：
         订单号    实际金额
month              
1       379  1382.2
2       207   738.5
3       263   927.5
4       734  2755.5
5       789  2993.8
6      1882  6738.6
7       764  2699.4
8      1259  4560.0
9      1678  6110.9
10     2216  8182.7
11     1943  7085.4
12     2379  8485.6
D处售货机的月订单号总数和实际金额总数为：
         订单号    实际金额
month              
1       259   887.8
2       

In [38]:
Group1

Unnamed: 0_level_0,订单号,实际金额
month,Unnamed: 1_level_1,Unnamed: 2_level_1
1,335,1206.2
2,114,374.0
3,255,810.2
4,447,1618.2
5,756,2816.8
6,1669,5850.4
7,476,1702.3
8,666,2078.1
9,1040,3811.0
10,1565,5458.7


In [45]:
print('A处售货机每月的每单平均交易额：\n', detailGroup1.agg({'实际金额':np.mean}))
print('B处售货机每月的每单平均交易额：\n', detailGroup2.agg({'实际金额':np.mean}))
print('C处售货机每月的每单平均交易额：\n', detailGroup3.agg({'实际金额':np.mean}))
print('D处售货机每月的每单平均交易额：\n', detailGroup4.agg({'实际金额':np.mean}))
print('E处售货机每月的每单平均交易额：\n', detailGroup5.agg({'实际金额':np.mean}))


A处售货机每月的每单平均交易额：
            实际金额
month          
1      3.600597
2      3.280702
3      3.177255
4      3.620134
5      3.725926
6      3.505333
7      3.576261
8      3.120270
9      3.664423
10     3.487987
11     3.737759
12     3.398952
B处售货机每月的每单平均交易额：
            实际金额
month          
1      3.416667
2      3.139459
3      3.346415
4      3.502156
5      3.709781
6      3.550108
7      3.617971
8      3.399796
9      3.489341
10     3.599062
11     3.493255
12     3.386697
C处售货机每月的每单平均交易额：
            实际金额
month          
1      3.646966
2      3.567633
3      3.526616
4      3.754087
5      3.794423
6      3.580553
7      3.533246
8      3.621922
9      3.641776
10     3.692554
11     3.646629
12     3.566877
D处售货机每月的每单平均交易额：
            实际金额
month          
1      3.427799
2      2.975177
3      3.479167
4      3.529571
5      3.631028
6      3.631442
7      3.497792
8      3.179720
9      3.454934
10     3.476560
11     3.463306
12     3.306494
E处售货机每月的每单平均交易额：
            实际金

In [53]:
daily1 = order1.set_index('支付时间').groupby(pd.Grouper(freq='D'))['订单号'].count()
monthly1 = daily1.groupby(pd.Grouper(freq='M')).mean()

daily2 = order2.set_index('支付时间').groupby(pd.Grouper(freq='D'))['订单号'].count()
monthly2 = daily2.groupby(pd.Grouper(freq='M')).mean()

daily3 = order3.set_index('支付时间').groupby(pd.Grouper(freq='D'))['订单号'].count()
monthly3 = daily3.groupby(pd.Grouper(freq='M')).mean()

daily4 = order4.set_index('支付时间').groupby(pd.Grouper(freq='D'))['订单号'].count()
monthly4 = daily4.groupby(pd.Grouper(freq='M')).mean()

daily5 = order5.set_index('支付时间').groupby(pd.Grouper(freq='D'))['订单号'].count()
monthly5 = daily5.groupby(pd.Grouper(freq='M')).mean()


print('A处售货机每月的日均订单量为：\n', monthly1)
print('B处售货机每月的日均订单量为：\n', monthly2)
print('C处售货机每月的日均订单量为：\n', monthly3)
print('D处售货机每月的日均订单量为：\n', monthly4)
print('E处售货机每月的日均订单量为：\n', monthly5)

A处售货机每月的日均订单量为：
 支付时间
2017-01-31    10.806452
2017-02-28     4.071429
2017-03-31     8.225806
2017-04-30    14.900000
2017-05-31    24.387097
2017-06-30    55.633333
2017-07-31    15.354839
2017-08-31    21.483871
2017-09-30    34.666667
2017-10-31    50.483871
2017-11-30    38.666667
2017-12-31    64.612903
Freq: M, Name: 订单号, dtype: float64
B处售货机每月的日均订单量为：
 支付时间
2017-01-31    11.806452
2017-02-28     6.607143
2017-03-31     8.548387
2017-04-30    20.100000
2017-05-31    28.032258
2017-06-30    61.866667
2017-07-31    11.129032
2017-08-31    31.645161
2017-09-30    58.166667
2017-10-31    65.354839
2017-11-30    67.700000
2017-12-31    71.290323
Freq: M, Name: 订单号, dtype: float64
C处售货机每月的日均订单量为：
 支付时间
2017-01-31    12.225806
2017-02-28     7.392857
2017-03-31     8.483871
2017-04-30    24.466667
2017-05-31    25.451613
2017-06-30    62.733333
2017-07-31    24.645161
2017-08-31    40.612903
2017-09-30    55.933333
2017-10-31    71.483871
2017-11-30    64.766667
2017-12-31    76.741935
