# 填补缺失的日期

In [60]:
import pandas as pd
import datetime
import numpy as np

In [61]:
#把datetime转成字符串
def datetime_toString(dt):
    return dt.strftime("%Y-%m-%d")

# 【函数说明】：输入dataframe日期升序，日期字段名为date，价格字段名为price
# 填补最小日期到最大日期之间的缺失日期
# 返回：完整的dataframe
def fill_date(dataframe):
    df_plus = pd.DataFrame() #空表，存储填充的缺失日期序列
    row = dataframe.head(1).copy(); #复制一行作为插入模板
    df_dates = dataframe['date'].tolist()  #数据日期转为列表
    date_start = df_dates[0] #初始时间
    date_increase = date_start; #迭代时间
    for j in range(0, len(df_dates)):
        date_increase_s = datetime_toString(date_increase)   #日期转换为字符串类型，使日期可进行逻辑比较
        date_pre_s = datetime_toString(df_dates[j]) #j一直在累加
        # 如数据中日期列表与期望日期序列不相等，即存在缺失值执行while程序
        while (date_pre_s != date_increase_s and date_pre_s > date_increase_s): #忽略重复日期（最好前期有去重！）
            # print(date_pre_s + " != " + date_increase_s + ", add " + date_increase_s)
            row.loc[0, ('date',)] = date_increase #passes a nested tuple of (slice(None),('one','second'))
            row.loc[0, ('price',)] = None
            df_plus = pd.concat([df_plus, row]) #将缺失日期新的数据列表中
            date_increase += datetime.timedelta(days=1) #日期加一
            date_increase_s = datetime_toString(date_increase)  
        date_increase += datetime.timedelta(days=1) #日期加一
        
    # print("\n df_plus's shape: ", df_plus.shape, "\n", df_plus)
    dataframe = pd.concat([dataframe, df_plus], ignore_index=False) #将缺失日期加入数据列表中（尾部）
    dataframe = dataframe.sort_values(by=['date']) #重新排序
    
    # 验证
    print("起止日期间隔天数：", (date_increase - date_start).days)
    
    return dataframe

In [62]:
# 加载数据
FILENAME = "agricultural_products_data/apple.csv"
dataframe = pd.read_csv(FILENAME) #会自动给行添加索引
dataframe['date'] = pd.to_datetime(dataframe['date']) #转换为标准日期格式
# print(dataframe.head(30)) #查看dataframe的前几行，默认为5

df_filled = fill_date(dataframe)
print("\n 【缺失日期填充（总表部分）】df_filled's shape:", df_filled.shape, "\n", df_filled.head(30))
        
# 缺失值填充：http://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.interpolate.html#pandas.DataFrame.interpolate
df_filled['price'] = df_filled['price'].interpolate('linear') #'linear': ignore the index and treat the values as equally spaced
print("\n 【价格缺失值填充（总表部分】df_insert's shape:", df_filled.shape, "\n", df_filled.head(30))

# 结果保留两位小数
format = lambda x:"%.2f"%x
df_filled['price'] = df_filled['price'].map(format)
df_filled.to_csv(FILENAME.split('.', 1)[0] + "_interpolate.csv", index=False)

起止日期间隔天数： 1668

 【缺失日期填充（总表部分）】df_filled's shape: (1668, 4) 
          date farmsName  price          bazaar
0  2014-01-02      富士苹果  10.71  广东省广州市江南农副产品市场
1  2014-01-03      富士苹果  10.71  广东省广州市江南农副产品市场
2  2014-01-04      富士苹果  10.71  广东省广州市江南农副产品市场
3  2014-01-05      富士苹果  10.71  广东省广州市江南农副产品市场
0  2014-01-06      富士苹果    NaN  广东省广州市江南农副产品市场
4  2014-01-07      富士苹果  10.71  广东省广州市江南农副产品市场
5  2014-01-08      富士苹果  10.71  广东省广州市江南农副产品市场
6  2014-01-09      富士苹果  10.71  广东省广州市江南农副产品市场
7  2014-01-10      富士苹果  11.07  广东省广州市江南农副产品市场
8  2014-01-11      富士苹果  10.71  广东省广州市江南农副产品市场
9  2014-01-12      富士苹果  10.71  广东省广州市江南农副产品市场
10 2014-01-13      富士苹果  11.43  广东省广州市江南农副产品市场
11 2014-01-14      富士苹果  11.43  广东省广州市江南农副产品市场
12 2014-01-15      富士苹果  11.43  广东省广州市江南农副产品市场
13 2014-01-16      富士苹果  11.43  广东省广州市江南农副产品市场
14 2014-01-17      富士苹果  11.43  广东省广州市江南农副产品市场
15 2014-01-18      富士苹果  11.43  广东省广州市江南农副产品市场
16 2014-01-19      富士苹果  11.43  广东省广州市江南农副产品市场
17 2014-01-20      富士苹果  11.43  广东省广州市江南农副产品市

In [None]:
def foo():
    print("hello foo!")

In [63]:
# 参考：https://blog.csdn.net/leo_sheng/article/details/83316285