# 转换字符串时间为标准时间

In [1]:
import pandas as pd

order = pd.read_table("../data/meal_order_info.csv",sep = ",",encoding = "gbk")
print("进行转换前订单信息表lock_time的类型为：",order["lock_time"].dtypes)
order["lock_time"] = pd.to_datetime(order["lock_time"])
print("进行转换后订单信息表lock_time的类型为：",order["lock_time"].dtypes)

进行转换前订单信息表lock_time的类型为： object
进行转换后订单信息表lock_time的类型为： datetime64[ns]


# Timestamp 的最小时间和最大时间

In [2]:
print("最小时间为：",pd.Timestamp.min)

最小时间为： 1677-09-21 00:12:43.145225


In [3]:
print("最大时间为：",pd.Timestamp.max)

最大时间为： 2262-04-11 23:47:16.854775807


# 时间字符串转换为 DatetimeIndex 和 PeriodIndex

In [4]:
dateIndex = pd.DatetimeIndex(order["lock_time"])
print("转换为DatetimeIndex后数据的类型为：\n",type(dateIndex))

转换为DatetimeIndex后数据的类型为：
 <class 'pandas.core.indexes.datetimes.DatetimeIndex'>


In [5]:
periodIndex = pd.PeriodIndex(order["lock_time"],freq = "S")
print("转换为PeriodIndex后数据的类型为：\n",type(periodIndex))

转换为PeriodIndex后数据的类型为：
 <class 'pandas.core.indexes.period.PeriodIndex'>


# 提取 datetime 数据中的时间序列数据

In [6]:
year1 = [i.year for i in order["lock_time"]]
print("lock_time中的年份数据前5个为：",year1[:5])
month1 = [i.month for i in order["lock_time"]]
print("lock_time中的月份数据前5个为：",month1[:5])
day1 = [i.day for i in order["lock_time"]]
print("lock_time中的日期数据前5个为：",day1[:5])
weekday1 = [i.weekday_name for i in order["lock_time"]]
print("lock_time的星期名称数据前5个为：",weekday1[:5])

lock_time中的年份数据前5个为： [2016, 2016, 2016, 2016, 2016]
lock_time中的月份数据前5个为： [8, 8, 8, 8, 8]
lock_time中的日期数据前5个为： [1, 1, 1, 1, 1]
lock_time的星期名称数据前5个为： ['Monday', 'Monday', 'Monday', 'Monday', 'Monday']


  import sys


# 提取 DatetimeIndex 和 PeriodIndex 中的数据

In [7]:
print("dateIndex中的星期名称数据前5个为：\n",dateIndex.weekday_name[:5])
print("periodIndex中的星期标号数据前5个为：",periodIndex.weekday[:5])

dateIndex中的星期名称数据前5个为：
 Index(['Monday', 'Monday', 'Monday', 'Monday', 'Monday'], dtype='object', name='lock_time')
periodIndex中的星期标号数据前5个为： Int64Index([0, 0, 0, 0, 0], dtype='int64', name='lock_time')


# 使用 Timedelta 实现时间数据的加运算

In [8]:
# 将lock_time数据向后平移一天

time1 = order["lock_time"] + pd.Timedelta(days = 1)
print("lock_time加上一天前前5行数据为：\n",order["lock_time"][:5])
print("lock_time加上一天前前5行数据为：\n",time1[:5])

lock_time加上一天前前5行数据为：
 0   2016-08-01 11:11:46
1   2016-08-01 11:31:55
2   2016-08-01 12:54:37
3   2016-08-01 13:08:20
4   2016-08-01 13:07:16
Name: lock_time, dtype: datetime64[ns]
lock_time加上一天前前5行数据为：
 0   2016-08-02 11:11:46
1   2016-08-02 11:31:55
2   2016-08-02 12:54:37
3   2016-08-02 13:08:20
4   2016-08-02 13:07:16
Name: lock_time, dtype: datetime64[ns]


# 使用 Timedelta 实现书剑数据的减运算

In [9]:
timeDelta = order["lock_time"] - pd.to_datetime("2017-1-1")
print("lock_time减去2017年1月1日0点0时0分后的数据：\n",timeDelta[:5])
print("lock_time减去time1后的数据类型为：",timeDelta.dtypes)

lock_time减去2017年1月1日0点0时0分后的数据：
 0   -153 days +11:11:46
1   -153 days +11:31:55
2   -153 days +12:54:37
3   -153 days +13:08:20
4   -153 days +13:07:16
Name: lock_time, dtype: timedelta64[ns]
lock_time减去time1后的数据类型为： timedelta64[ns]


# 订单信息表时间数据转换

In [10]:
import pandas as pd

order = pd.read_table("../data/meal_order_info.csv",sep = ",",encoding = "gbk")
order["use_start_time"] = pd.to_datetime(order["use_start_time"])
order["lock_time"] = pd.to_datetime(order["lock_time"])
print("进行转换后订单信息表use_start_time和lock_time的类型为：\n",order[["use_start_time","lock_time"]].dtypes)

进行转换后订单信息表use_start_time和lock_time的类型为：
 use_start_time    datetime64[ns]
lock_time         datetime64[ns]
dtype: object


# 订单信息表时间信息提取

In [12]:
year = [i.year for i in order["lock_time"]] # 提取年份信息
month = [i.month for i in order["lock_time"]] # 提取月份信息
day = [i.day for i in order["lock_time"]] # 提取日期信息
week = [i.week for i in order["lock_time"]] # 提取周信息
weekday = [i.weekday() for i in order["lock_time"]] # 提取星期信息

# 提取星期名称信息

weekname = [i.weekday_name for i in order["lock_time"]]
print("订单详情表中的前5条数据的年份信息为：",year[:5])
print("订单详情表中的前5条数据的月份信息为：",month[:5])
print("订单详情表中的前5条数据的日期信息为：",day[:5])
print("订单详情表中的前5条数据的周信息为：",week[:5])
print("订单详情表中的前5条数据的星期信息为：",weekday[:5])
print("订单详情表中的前5条数据的星期名称信息为：",weekname[:5])

订单详情表中的前5条数据的年份信息为： [2016, 2016, 2016, 2016, 2016]
订单详情表中的前5条数据的月份信息为： [8, 8, 8, 8, 8]
订单详情表中的前5条数据的日期信息为： [1, 1, 1, 1, 1]
订单详情表中的前5条数据的周信息为： [31, 31, 31, 31, 31]
订单详情表中的前5条数据的星期信息为： [0, 0, 0, 0, 0]
订单详情表中的前5条数据的星期名称信息为： ['Monday', 'Monday', 'Monday', 'Monday', 'Monday']


  if __name__ == '__main__':


# 查看订单信息表时间统计信息

In [13]:
timemin = order["lock_time"].min()
timemax = order["lock_time"].max()
print("订单最早的时间为：",timemin)
print("订单最晚的时间为：",timemax)
print("订单持续的时间为：",timemax - timemin)

订单最早的时间为： 2016-08-01 11:11:46
订单最晚的时间为： 2016-08-31 21:56:12
订单持续的时间为： 30 days 10:44:26


In [14]:
chekTime = order["lock_time"] - order["use_start_time"]
print("平均点餐时间为：",chekTime.mean())
print("最短点餐时间为：",chekTime.min())
print("最长点餐时间为：",chekTime.max())

平均点餐时间为： 0 days 01:12:10.326923
最短点餐时间为： -1 days +00:05:03
最长点餐时间为： 16 days 00:08:00


# 对菜品订单详情表依据订单编号分组

In [15]:
import pandas as pd
import numpy as np
from sqlalchemy import create_engine

engine = create_engine("mysql+pymysql://root:@127.0.0.1:3306/testdb?charset=utf8")
detail = pd.read_sql_table("meal_order_detail1",con = engine)
detailGroup = detail[["order_id","counts","amounts"]].groupby(by = "order_id")
print("分组后的订单详情表为：",detailGroup)

分组后的订单详情表为： <pandas.core.groupby.groupby.DataFrameGroupBy object at 0x000000B23502C940>


# GroupBy 类求均值、标准差、中位数

In [16]:
print("订单详情表分组后前5组每组的均值为：\n",detailGroup.mean().head())

订单详情表分组后前5组每组的均值为：
           counts  amounts
order_id                 
1002      1.0000   32.000
1003      1.2500   30.125
1004      1.0625   43.875
1008      1.0000   63.000
1011      1.0000   57.700


In [17]:
print("订单详情表分组后前5组每组的标准差为：\n",detailGroup.std().head())

订单详情表分组后前5组每组的标准差为：
            counts    amounts
order_id                    
1002      0.00000  16.000000
1003      0.46291  21.383822
1004      0.25000  31.195886
1008      0.00000  64.880660
1011      0.00000  50.077828


In [18]:
print("订单详情表分组后前5组每组的大小为：\n",detailGroup.size().head())

订单详情表分组后前5组每组的大小为：
 order_id
1002     7
1003     8
1004    16
1008     5
1011    10
dtype: int64


# 使用 agg 求出当前数据对应的统计量

In [19]:
print("订单详情表的菜品销量与售价的和与均值为：\n",detail[["counts","amounts"]].agg([np.sum,np.mean]))

订单详情表的菜品销量与售价的和与均值为：
            counts        amounts
sum   3088.000000  125992.000000
mean     1.111191      45.337172


# 使用 agg 分别求字段的不同统计量

In [20]:
print("订单详情表的菜品销量总和与售价的均值为：\n",detail.agg({"counts":np.sum,"amounts":np.mean}))

订单详情表的菜品销量总和与售价的均值为：
 counts     3088.000000
amounts      45.337172
dtype: float64


# 使用 agg 方法求不同字段的不同数目统计量

In [21]:
print("菜品订单详情表的菜品销量总和与均值为：\n",detail.agg({"counts":np.sum,"amounts":[np.mean,np.sum]}))

菜品订单详情表的菜品销量总和与均值为：
       counts        amounts
mean     NaN      45.337172
sum   3088.0  125992.000000


# 在 agg 方法中使用自定义函数

In [22]:
# 自定义函数求两倍的和

def DoubleSum(data):
    s = data.sum() * 2
    return s

print("菜品订单详情表的菜品销量两倍总和为：\n",detail.agg({"counts":DoubleSum},axis = 0))

菜品订单详情表的菜品销量两倍总和为：
 counts    6176.0
dtype: float64


# agg 方法中使用的自定义函数含 NumPy 中的函数

In [23]:
# 自定义函数求两倍的和

def DoubleSum1(data):
    s = np.sum(data) * 2
    return s

print("订单详情表的菜品销量两倍总和为：\n",detail.agg({"counts":DoubleSum1},axis = 0).head())

订单详情表的菜品销量两倍总和为：
    counts
0     2.0
1     2.0
2     2.0
3     2.0
4     2.0


In [24]:
print("订单详情表的菜品销量与售价的和的两倍为：\n",detail[["counts","amounts"]].agg(DoubleSum1))

订单详情表的菜品销量与售价的和的两倍为：
 counts       6176.0
amounts    251984.0
dtype: float64


# 使用 agg 方法做简单的聚合

In [25]:
print("订单详情表分组后前3组每组的均值为：\n",detailGroup.agg(np.mean).head(3))

订单详情表分组后前3组每组的均值为：
           counts  amounts
order_id                 
1002      1.0000   32.000
1003      1.2500   30.125
1004      1.0625   43.875


In [26]:
print("订单详情表分组后前3组每组的标准差为：\n",detailGroup.agg(np.std).head(3))

订单详情表分组后前3组每组的标准差为：
            counts    amounts
order_id                    
1002      0.00000  16.000000
1003      0.46291  21.383822
1004      0.25000  31.195886


# 使用 agg 方法对分组数据使用不同的聚合函数

In [27]:
print("订单详情分组前3组每组菜品总数和售价均值为：\n",detailGroup.agg({"counts":np.sum,"amounts":np.mean}).head(3))

订单详情分组前3组每组菜品总数和售价均值为：
           counts  amounts
order_id                 
1002         7.0   32.000
1003        10.0   30.125
1004        17.0   43.875


# apply 方法的基本用法

In [28]:
print("订单详情表的菜品销量与售价的均值为：\n",detail[["counts","amounts"]].apply(np.mean))

订单详情表的菜品销量与售价的均值为：
 counts      1.111191
amounts    45.337172
dtype: float64


# 使用 apply 方法进行聚合操作

In [29]:
print("订单详情表分组后前3组每组的均值为：\n",detailGroup.apply(np.mean).head(3))

订单详情表分组后前3组每组的均值为：
               order_id  counts  amounts
order_id                               
1002      1.431572e+26  1.0000   32.000
1003      1.253875e+30  1.2500   30.125
1004      6.275628e+61  1.0625   43.875


In [30]:
print("订单详情表分组后前3组每组的标准差为：\n",detailGroup.apply(np.std).head(3))

订单详情表分组后前3组每组的标准差为：
             counts    amounts
order_id                     
1002      0.000000  14.813122
1003      0.433013  20.002734
1004      0.242061  30.205287


# 使用 transform 方法将销量和售价翻倍

In [34]:
print("订单详情表的菜品销量与售价的两倍为：\n",detail[["counts","amounts"]].transform(lambda x:x*2).head(4))

订单详情表的菜品销量与售价的两倍为：
    counts  amounts
0     2.0     98.0
1     2.0     96.0
2     2.0     60.0
3     2.0     50.0


# 使用 transform 实现组内离差标准化

In [36]:
print("订单详情表分组后实现组内离差标准化后前5行为：\n",detailGroup.transform(lambda x:(x.mean()-x.min())/(x.max()-x.min())).head())

  """Entry point for launching an IPython kernel.


订单详情表分组后实现组内离差标准化后前5行为：
    counts   amounts
0     NaN  0.555556
1     NaN  0.555556
2     NaN  0.555556
3     NaN  0.555556
4     NaN  0.555556


# 订单详情表按照日期分组

In [37]:
import pandas as pd
import numpy as np
from sqlalchemy import create_engine

engine = create_engine("mysql+pymysql://root:@127.0.0.1:3306/testdb?charset=utf8")
detail = pd.read_sql_table("meal_order_detail1",con = engine)
detail["place_order_time"] = pd.to_datetime(detail["place_order_time"])
detail["date"] = [i.date() for i in detail["place_order_time"]]
detailGroup = detail[["date","counts","amounts"]].groupby(by = "date")
print("订单详情表前5组每组的数目为：\n",detailGroup.size().head())

订单详情表前5组每组的数目为：
 date
2016-08-01    217
2016-08-02    138
2016-08-03    157
2016-08-04    144
2016-08-05    193
dtype: int64


# 求分组后的订单详情表每日菜品销售的均价、中位数

In [38]:
dayMean = detailGroup.agg({"amounts":np.mean})
print("订单详情表前5组单日菜品销售均价为：\n",dayMean.head())

订单详情表前5组单日菜品销售均价为：
               amounts
date                 
2016-08-01  43.161290
2016-08-02  44.384058
2016-08-03  43.885350
2016-08-04  52.423611
2016-08-05  44.927461


In [41]:
dayMedian = detailGroup.agg({"amounts":np.median})
print("订单详情表前5组单日菜品售价中位数为：\n",dayMedian.head())

订单详情表前5组单日菜品售价中位数为：
             amounts
date               
2016-08-01     33.0
2016-08-02     35.0
2016-08-03     38.0
2016-08-04     39.0
2016-08-05     37.0


# 求取订单详情表中单日菜品总销量

In [42]:
daySaleSum = detailGroup.apply(np.sum)["counts"]
print("订单详情表前5组单日菜品售出数目为：\n",daySaleSum.head())

订单详情表前5组单日菜品售出数目为：
 date
2016-08-01    233.0
2016-08-02    151.0
2016-08-03    192.0
2016-08-04    169.0
2016-08-05    224.0
Name: counts, dtype: float64
