# 结论推导测试题
在下面的空白处探索 `store_data.csv`，回答以下测试题。

In [1]:
# 导入并加载数据
import pandas as pd
import matplotlib.pyplot as plt
% matplotlib inline

# 读入数据
df = pd.read_csv('store_data.csv')
# 看下type注意week的类型是object也就是字符了
print(df.dtypes)
# 转换成datatime格式
df['week'] = pd.to_datetime(df['week'])
# 检查下数据
print(df.head(3))
df.info()

week      object
storeA     int64
storeB     int64
storeC     int64
storeD     int64
storeE     int64
dtype: object
        week  storeA  storeB  storeC  storeD  storeE
0 2014-05-04    2643    8257    3893    6231    1294
1 2014-05-11    6444    5736    5634    7092    2907
2 2014-05-18    9646    2552    4253    5447    4736
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 200 entries, 0 to 199
Data columns (total 6 columns):
week      200 non-null datetime64[ns]
storeA    200 non-null int64
storeB    200 non-null int64
storeC    200 non-null int64
storeD    200 non-null int64
storeE    200 non-null int64
dtypes: datetime64[ns](1), int64(5)
memory usage: 9.5 KB


In [2]:
# 接下来我们熟悉下datatime的操作
# 通过.dt可以得到week着列的year、month、day的信息，比如
print(df['week'].dt.month.head())
# 注意输出的前3个数据都是5月，那么输出的是个什么类型的数据呢？
type(df['week'].dt.month)
# 对是pandas的一维数据结构Series，就是一串带索引的数值
# 而数值就是刚刚.dt.month解析出来的月

0    5
1    5
2    5
3    5
4    6
Name: week, dtype: int64


pandas.core.series.Series

In [3]:
# 那么我们继续探索，怎么发现最大年，月与日呢？
# 为了方便以后使用我们定几个个变量max_year，max_month, max_day

max_year = df['week'].dt.year.max()
# 对于year，我们直接.dt.year后面跟一个max()就可以了

max_month = df[df['week'].dt.year == max_year]['week'].dt.month.max()
# 这里稍微麻烦些，我要确定在最大年的最大月是多少
# 如果不加限制的话，肯定输出12月，就没有意义了
# 还记得dataframe的filter用法么？
# df[中间是过滤条件]
# 于是我们用[df['week'].dt.year == max_year]表示年做个限定
# 最后使用dt.month.max()求出最大月

max_day = df[(df['week'].dt.year == max_year) &
             (df['week'].dt.month == max_month)]['week'].dt.day.max()
# 与上面大致相同，就是要加入两个过滤条件
# [(条件1) & (条件2)]

# 最后检查下是否和数据一致
print(max_year, max_month, max_day)
print(df.tail(1))

# 根据这个规则就可以选中这一列了
df[(df['week'].dt.year == max_year) &
   (df['week'].dt.month == max_month) &
   (df['week'].dt.day == max_day)]

2018 2 25
          week  storeA  storeB  storeC  storeD  storeE
199 2018-02-25    7560    6904    3569    5045    2585


Unnamed: 0,week,storeA,storeB,storeC,storeD,storeE
199,2018-02-25,7560,6904,3569,5045,2585


In [4]:
# 最后一个月的总销售额
last_month = df[(df['week'].dt.year == max_year) &
                (df['week'].dt.month == max_month)]
print(last_month)
# 检查没有问题，我们用sum求和
last_month.sum().sum()
# 第一个sum是没列求和（每个stroe的），第二个是把A-Estore的再求和

          week  storeA  storeB  storeC  storeD  storeE
196 2018-02-04    4853    6503    4187    5956    1458
197 2018-02-11    9202    3677    4540    6186     243
198 2018-02-18    3512    7511    4151    5596    3501
199 2018-02-25    7560    6904    3569    5045    2585


96739

In [5]:
# 平均销售额
df.mean()

storeA    5865.480
storeB    6756.710
storeC    4942.105
storeD    5431.405
storeE    2580.025
dtype: float64

In [6]:
# 2016 年 3 月 13 日的销售额
df[df['week'] == '2016-03-13'].sum()[1:].sum()
# 直接filter中输入要的日期就好了
# 注意这种过滤和上面的year\month\day的过滤不同
# 当第一次sum以后，会有week这行信息
# 如果在sum会报错，因为这行不能sum
# 加一个[1:]把week这行去掉，就好了

16605

In [7]:
# C 店销售额最低的一周
print(df['storeC'].idxmin())
# 先使用idxmin找到最小值的索引
print(df.iloc[df['storeC'].idxmin()])
# 再打印出来
# 可以使用.min检查值对不对
print(df['storeC'].min())
# 最后要求的是最低一周
print(df.iloc[df['storeC'].idxmin()]['week'])
# 就是独立输出week的值了

9
week      2014-07-06 00:00:00
storeA                   8567
storeB                   3228
storeC                    927
storeD                   3277
storeE                    168
Name: 9, dtype: object
927
2014-07-06 00:00:00


In [8]:
# 最后3个月的
# 简单的就是把3个sum.sum进行加和

def lastmonths(n):
   # 首先是计算出来最后一个月的
    current_year = max_year
    current_month = max_month
    total = 0
    while n > 0:
        total = total + df[(df['week'].dt.year == current_year) & (df['week'].dt.month == current_month)].sum().sum()
        # 定义下total是由每次循环的总数加和得来的
        # 注意条件已经变成了current_year和current_month
        if current_month == 1:
            current_month = 12
            current_year = current_year - 1
            # 这里要做个判断，如果是1月了，就要变化到前一年的12月
        else:
            current_month = current_month - 1
            # 否则的话只月数少1
        n = n-1
        # n计数减1
    return total
    # 返回总数

lastmonths(5)
# 调用函数，想看几个月看几个月

581594

In [20]:
# plus
# 附加找到最后一个月的简洁方法，和推算最后n个月的方法
# 感谢Kaido同学提供的方法(出于一致性原因有些调整)
df['week'].max()
# 注意筛选出来的max已经是Timestap格式了，不能用dt进行元素抽离

Timestamp('2018-02-25 00:00:00')

In [21]:
# df['week'].max().dt.year 这种是错的
# 这种可以搞出来最大年
df['week'].dt.year.max()

2018

In [28]:
# 因为是Timestamp格式，直接使用.year就可以
df['week'].max().year

2018

In [32]:
pd.Timedelta('1day')

Timedelta('1 days 00:00:00')

In [22]:
def get_last_n_month(date, n):
    for i in range(n):
        # 使用Timestemp方法定义年、月、日 （ ）中的3个参数
        # 减去1天
        date = pd.Timestamp(date.year, date.month, 1) \
        - pd.Timedelta('1day')
    # 上面for循环的意思就是，每循环一遍减少1天，所以从1号就变成了上月最后一天
    # 最后调整下返回
    return date + pd.Timedelta('1day')

In [34]:
get_last_n_month(df['week'].max(), 3)

Timestamp('2017-12-01 00:00:00')

In [36]:
# 使用Period也可以的
temp2 = pd.Period(df['week'].max(), freq='M')
temp2

Period('2018-02', 'M')

In [39]:
type((temp2 - 2))

pandas._libs.tslibs.period.Period

In [40]:
(temp2 - 2).to_timestamp()

Timestamp('2017-12-01 00:00:00')