### 時系列データの扱い方

In [2]:
import pandas as pd

In [3]:
# 表示する行数を10行、列数を無制限に設定
pd.options.display.max_rows = 10
pd.options.display.max_columns = None

In [4]:
df = pd.read_csv('sample.csv', encoding='utf-8', header=0)
df

Unnamed: 0,売上日,社員ID,商品分類,商品名,単価,数量,売上金額
0,2020-01-04,a023,ボトムス,ロングパンツ,7000,8,56000
1,2020-01-05,a003,ボトムス,ジーンズ,6000,10,60000
2,2020-01-05,a052,アウター,ジャケット,10000,7,70000
3,2020-01-06,a003,ボトムス,ロングパンツ,7000,10,70000
4,2020-01-07,a036,ボトムス,ロングパンツ,7000,2,14000
...,...,...,...,...,...,...,...
219,2020-12-26,a052,アウター,ダウン,18000,4,72000
220,2020-12-28,a036,アウター,ダウン,18000,3,54000
221,2020-12-30,a003,アウター,ダウン,18000,4,72000
222,2020-12-30,a047,ボトムス,ハーフパンツ,3000,3,9000


In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 224 entries, 0 to 223
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   売上日     224 non-null    object
 1   社員ID    224 non-null    object
 2   商品分類    224 non-null    object
 3   商品名     224 non-null    object
 4   単価      224 non-null    int64 
 5   数量      224 non-null    int64 
 6   売上金額    224 non-null    int64 
dtypes: int64(3), object(4)
memory usage: 12.4+ KB


In [7]:
# 売上日カラムを時系列データへ変換する
df['売上日'] = pd.to_datetime(df['売上日'])
df['売上日'] #datetime64

0     2020-01-04
1     2020-01-05
2     2020-01-05
3     2020-01-06
4     2020-01-07
         ...    
219   2020-12-26
220   2020-12-28
221   2020-12-30
222   2020-12-30
223   2020-12-31
Name: 売上日, Length: 224, dtype: datetime64[ns]

In [8]:
# 売上日カラムをindexに指定する
df_2 = df.set_index("売上日")
df_2

Unnamed: 0_level_0,社員ID,商品分類,商品名,単価,数量,売上金額
売上日,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2020-01-04,a023,ボトムス,ロングパンツ,7000,8,56000
2020-01-05,a003,ボトムス,ジーンズ,6000,10,60000
2020-01-05,a052,アウター,ジャケット,10000,7,70000
2020-01-06,a003,ボトムス,ロングパンツ,7000,10,70000
2020-01-07,a036,ボトムス,ロングパンツ,7000,2,14000
...,...,...,...,...,...,...
2020-12-26,a052,アウター,ダウン,18000,4,72000
2020-12-28,a036,アウター,ダウン,18000,3,54000
2020-12-30,a003,アウター,ダウン,18000,4,72000
2020-12-30,a047,ボトムス,ハーフパンツ,3000,3,9000


In [9]:
df_2.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 224 entries, 2020-01-04 to 2020-12-31
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   社員ID    224 non-null    object
 1   商品分類    224 non-null    object
 2   商品名     224 non-null    object
 3   単価      224 non-null    int64 
 4   数量      224 non-null    int64 
 5   売上金額    224 non-null    int64 
dtypes: int64(3), object(3)
memory usage: 12.2+ KB


In [13]:
df02 = pd.read_csv('sample02.csv', encoding='utf-8', header=0)
df02 # header=0 で1行目をカラムにして読み込んでいる

Unnamed: 0,売上日,社員ID,商品分類,商品名,単価,数量,売上金額
0,2020年1月04日,a023,ボトムス,ロングパンツ,7000,8,56000
1,2020年1月05日,a003,ボトムス,ジーンズ,6000,10,60000
2,2020年1月05日,a052,アウター,ジャケット,10000,7,70000
3,2020年1月06日,a003,ボトムス,ロングパンツ,7000,10,70000
4,2020年1月07日,a036,ボトムス,ロングパンツ,7000,2,14000
...,...,...,...,...,...,...,...
219,2020年12月26日,a052,アウター,ダウン,18000,4,72000
220,2020年12月28日,a036,アウター,ダウン,18000,3,54000
221,2020年12月30日,a003,アウター,ダウン,18000,4,72000
222,2020年12月30日,a047,ボトムス,ハーフパンツ,3000,3,9000


In [14]:
df02.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 224 entries, 0 to 223
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   売上日     224 non-null    object
 1   社員ID    224 non-null    object
 2   商品分類    224 non-null    object
 3   商品名     224 non-null    object
 4   単価      224 non-null    int64 
 5   数量      224 non-null    int64 
 6   売上金額    224 non-null    int64 
dtypes: int64(3), object(4)
memory usage: 12.4+ KB


In [None]:
df02['売上日'] = pd.to_datetime(df02['売上日'])
# 結果はエラーになる
# 年月日のカラムでは変換できない為

In [16]:
df02['売上日'] = pd.to_datetime(df02['売上日'], format='%Y年%m月%d日')
df02['売上日']

0     2020-01-04
1     2020-01-05
2     2020-01-05
3     2020-01-06
4     2020-01-07
         ...    
219   2020-12-26
220   2020-12-28
221   2020-12-30
222   2020-12-30
223   2020-12-31
Name: 売上日, Length: 224, dtype: datetime64[ns]

In [19]:
# csvを読み込む段階で、時系列データを変換する事は可能
# parse_dates 読み込みと同時に日付を時系列データに変換する
# index_col 指定した値をindexにする
df = pd.read_csv('sample.csv', encoding='utf-8', header=0, parse_dates=True, index_col='売上日')
df

Unnamed: 0_level_0,社員ID,商品分類,商品名,単価,数量,売上金額
売上日,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2020-01-04,a023,ボトムス,ロングパンツ,7000,8,56000
2020-01-05,a003,ボトムス,ジーンズ,6000,10,60000
2020-01-05,a052,アウター,ジャケット,10000,7,70000
2020-01-06,a003,ボトムス,ロングパンツ,7000,10,70000
2020-01-07,a036,ボトムス,ロングパンツ,7000,2,14000
...,...,...,...,...,...,...
2020-12-26,a052,アウター,ダウン,18000,4,72000
2020-12-28,a036,アウター,ダウン,18000,3,54000
2020-12-30,a003,アウター,ダウン,18000,4,72000
2020-12-30,a047,ボトムス,ハーフパンツ,3000,3,9000


In [20]:
df.info()

<class 'pandas.core.frame.DataFrame'>
DatetimeIndex: 224 entries, 2020-01-04 to 2020-12-31
Data columns (total 6 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   社員ID    224 non-null    object
 1   商品分類    224 non-null    object
 2   商品名     224 non-null    object
 3   単価      224 non-null    int64 
 4   数量      224 non-null    int64 
 5   売上金額    224 non-null    int64 
dtypes: int64(3), object(3)
memory usage: 12.2+ KB


### 時系列データの抽出

In [21]:
# 8月のデータ抽出
df['2020-08']

Unnamed: 0_level_0,社員ID,商品分類,商品名,単価,数量,売上金額
売上日,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2020-08-01,a013,ボトムス,ロングパンツ,7000,9,63000
2020-08-03,a023,ボトムス,ジーンズ,6000,1,6000
2020-08-04,a003,トップス,シャツ,4000,7,28000
2020-08-07,a003,ボトムス,ハーフパンツ,3000,1,3000
2020-08-08,a023,ボトムス,ロングパンツ,7000,5,35000
...,...,...,...,...,...,...
2020-08-26,a036,ボトムス,ハーフパンツ,3000,6,18000
2020-08-26,a051,トップス,シャツ,4000,6,24000
2020-08-27,a003,ボトムス,ロングパンツ,7000,9,63000
2020-08-28,a003,アウター,ダウン,18000,4,72000


In [22]:
df['2020-08-15':'2020-09-14']

Unnamed: 0_level_0,社員ID,商品分類,商品名,単価,数量,売上金額
売上日,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2020-08-15,a023,ボトムス,ロングパンツ,7000,1,7000
2020-08-17,a036,アウター,ダウン,18000,8,144000
2020-08-20,a003,ボトムス,ロングパンツ,7000,5,35000
2020-08-21,a003,アウター,ダウン,18000,3,54000
2020-08-23,a023,ボトムス,ジーンズ,6000,3,18000
...,...,...,...,...,...,...
2020-09-11,a051,ボトムス,ロングパンツ,7000,4,28000
2020-09-12,a013,ボトムス,ロングパンツ,7000,6,42000
2020-09-12,a036,ボトムス,ハーフパンツ,3000,2,6000
2020-09-14,a036,トップス,ニット,8000,7,56000


### 時系列データの集計

In [23]:
# 売上金額のデータのみ抽出
df_3 = df[['売上金額']]
df_3

Unnamed: 0_level_0,売上金額
売上日,Unnamed: 1_level_1
2020-01-04,56000
2020-01-05,60000
2020-01-05,70000
2020-01-06,70000
2020-01-07,14000
...,...
2020-12-26,72000
2020-12-28,54000
2020-12-30,72000
2020-12-30,9000


In [None]:
# 期間事の集計はresampleメソッド ()の中に期間を入れる
df_3.resample('M')

In [None]:
df_3.resample('M').sum()

In [None]:
df_3.resample('Q').sum()

In [None]:
df_3.resample('10D').sum()

In [None]:
df_3.resample('M').mean()

In [None]:
df_3.resample('M').max()