In [1]:
import pandas as pd

In [2]:
def leap_year(year):  
    '''
    判断是否闰年，输入参数可以是字符串的年份或数字的年份
    '''
    if isinstance(year,int) and year>0:  # 判断是大于0的整数
        if (year%4 == 0 and year%100!=0) or year%400 == 0:
            return True  
        else:
            return False
    elif isinstance(year,str):
        if year.isdigit():
            if int(year)>0 and ((int(year)%4 == 0 and int(year)%100!=0) or int(year)%400 == 0):
                return True  
            elif int(year)>0:
                return False
        else: 
            return False
    else:
        return False          

def month_days(year):
    month_day_dict={k:0 for k in range(1,13)} #生成每个月天数的字典
    for k in month_day_dict.keys():
        if k==2 and leap_year(year):
            month_day_dict[2]=29
        elif k==2 and not leap_year(year):
            month_day_dict[2]=28
        elif k in [1,3,5,7,8,10,12]:
            month_day_dict[k]=31
        elif k in [4,6,9,11]:
            month_day_dict[k]=30
    return month_day_dict

def Preprocessing(df,date,days):
    fun = df['支付时间'].apply(lambda x: x.startswith(date))
    df_m =  df[fun == True]
    turnover = df_m['实际金额'].sum()
    count = df_m.shape[0]
    month_averages = turnover/count
    daily_order = count/days
    print("售货机%s月交易额："%(date),turnover)
    print("售货机%s月订单总量："%(date),count)
    print("售货机%s月每单平均交易额："%(date),month_averages)
    print("售货机%s月日均订单量："%(date),daily_order)
    return turnover,count,month_averages,daily_order

In [3]:
#读取附件1数据，检验是否有缺失值
df =pd.read_csv('./附件1.csv',encoding="gbk")
df.isnull().sum()
#检查是否有重复数据
s_isdup = df.duplicated()
print(s_isdup.value_counts()) 
# 用均方差法找出价格异常值,标准差能反映一个数据集的离散程度
s = df['实际金额']
# 序列中的价格和平均价格的差距
zscore = s - s.mean()
# 这里用3.5倍sigma
df['isOutlier'] = zscore.abs() > 4 * s.std()
# 输出异常的样本
df_out = df[df['isOutlier'] == True]
print(df_out)

False    70679
dtype: int64
                                   订单号             设备ID   应付金额   实际金额  \
128      DD201708167493310994276352579  E43A6E078A06874  112.5  112.5   
188    DD20170816749300679580989029282  E43A6E078A04228   34.0   34.0   
207      DD2017060120342069B41A466BA7E  E43A6E078A04172   25.0   25.0   
329      DD201708167493851137095860395  E43A6E078A04172   18.0   18.0   
346      DD2017060208293796BA4B4BDCBB5  E43A6E078A06874   25.0   25.0   
392      DD201708167493303992205263012  E43A6E078A06874   26.0   26.0   
461      DD201708167493530861468619957  E43A6E078A04172   51.0   51.0   
617      DD2017060217382410B09252A6AD8  E43A6E078A04228   25.0   25.0   
670      DD2017060221540227B80D48799B7  E43A6E078A04172   25.0   25.0   
922      DD201706031439176859885991280  E43A6E078A04172   25.0   25.0   
1166     DD201708167493909466084927976  E43A6E078A04228   51.0   51.0   
1273    DD2017081674930193283231365244  E43A6E078A04172   21.0   21.0   
1284     DD201707181944

In [4]:
A = df[df["地点"] == 'A']
B = df[df["地点"] == 'B']
C = df[df["地点"] == 'C']
D = df[df["地点"] == 'D']
E = df[df["地点"] == 'E']
A.to_csv("./task-1A.csv",encoding="gbk")
B.to_csv("./task-1B.csv",encoding="gbk")
C.to_csv("./task-1C.csv",encoding="gbk")
D.to_csv("./task-1D.csv",encoding="gbk")
E.to_csv("./task-1E.csv",encoding="gbk")
alldata = [A,B,C,D,E]
months = month_days(2017)

In [5]:
turnover = 0
order = 0
for i in alldata:
    a = i['实际金额'].sum()
    b = i['订单号'].count() 
    turnover = turnover + a
    order = order + b

print("所有售货机的交易总额:",turnover)    
print("订单总量:",order)

所有售货机的交易总额: 286979.69999999995
订单总量: 70679


In [6]:
for i in alldata:
    for j in months:       
        Preprocessing(i,'2017/%d'%(j),months[j])
    print('-'*40)

售货机2017/1月交易额： 20576.199999999997
售货机2017/1月订单总量： 5063
售货机2017/1月每单平均交易额： 4.064033181907959
售货机2017/1月日均订单量： 163.32258064516128
售货机2017/2月交易额： 440.5
售货机2017/2月订单总量： 114
售货机2017/2月每单平均交易额： 3.8640350877192984
售货机2017/2月日均订单量： 4.071428571428571
售货机2017/3月交易额： 914.3
售货机2017/3月订单总量： 255
售货机2017/3月每单平均交易额： 3.5854901960784313
售货机2017/3月日均订单量： 8.225806451612904
售货机2017/4月交易额： 1804.5
售货机2017/4月订单总量： 447
售货机2017/4月每单平均交易额： 4.0369127516778525
售货机2017/4月日均订单量： 14.9
售货机2017/5月交易额： 3385.1
售货机2017/5月订单总量： 756
售货机2017/5月每单平均交易额： 4.477645502645503
售货机2017/5月日均订单量： 24.387096774193548
售货机2017/6月交易额： 6755.1
售货机2017/6月订单总量： 1669
售货机2017/6月每单平均交易额： 4.047393648891552
售货机2017/6月日均订单量： 55.63333333333333
售货机2017/7月交易额： 1950.5
售货机2017/7月订单总量： 476
售货机2017/7月每单平均交易额： 4.097689075630252
售货机2017/7月日均订单量： 15.35483870967742
售货机2017/8月交易额： 2236.9
售货机2017/8月订单总量： 666
售货机2017/8月每单平均交易额： 3.3587087087087086
售货机2017/8月日均订单量： 21.483870967741936
售货机2017/9月交易额： 4479.5
售货机2017/9月订单总量： 1040
售货机2017/9月每单平均交易额： 4.307211538461538
售货