# 時系列データの扱い方
Pandasを使用した時系列データの処理について<br>
Pandasでは、DataFrameのインデックスを日付型に設定することにより、時系列データとして扱うことができる<br>

In [4]:
import pandas as pd

In [8]:
pd.options.display.max_rows = 10
pd.options.display.max_columns = None

In [11]:
"""
アパレル会社の社員ごとの売上金額に関するデータが含まれるCSVファイルがある。
まず、options属性を使用して、表示する行数を10行、列数を無制限に指定。
そして、CSVファイルをデータフレームとして読み込み、完成イメージの通りに表示する。

・ファイルを読み込む際には、文字コードにUTF-8を指定。
"""

pd.read_csv('csv_files/sample.csv', encoding='utf-8')

Unnamed: 0,売上日,社員ID,商品分類,商品名,単価,数量,売上金額
0,2020-01-04,a023,ボトムス,ロングパンツ,7000,8,56000
1,2020-01-05,a003,ボトムス,ジーンズ,6000,10,60000
2,2020-01-05,a052,アウター,ジャケット,10000,7,70000
3,2020-01-06,a003,ボトムス,ロングパンツ,7000,10,70000
4,2020-01-07,a036,ボトムス,ロングパンツ,7000,2,14000
...,...,...,...,...,...,...,...
219,2020-12-26,a052,アウター,ダウン,18000,4,72000
220,2020-12-28,a036,アウター,ダウン,18000,3,54000
221,2020-12-30,a003,アウター,ダウン,18000,4,72000
222,2020-12-30,a047,ボトムス,ハーフパンツ,3000,3,9000


In [10]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 224 entries, 0 to 223
Data columns (total 7 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   売上日     224 non-null    object
 1   社員ID    224 non-null    object
 2   商品分類    224 non-null    object
 3   商品名     224 non-null    object
 4   単価      224 non-null    int64 
 5   数量      224 non-null    int64 
 6   売上金額    224 non-null    int64 
dtypes: int64(3), object(4)
memory usage: 12.4+ KB


In [15]:
"""
アパレル会社の社員ごとの売上金額に関するデータが含まれるCSVファイルをデータフレームとして読み込み、'売上日'列の情報を取得。

・ファイルを読み込む際には、文字コードにUTF-8を指定。
"""

df = pd.read_csv('csv_files/sample.csv', encoding='utf-8')
df[['売上日']].info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 224 entries, 0 to 223
Data columns (total 1 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   売上日     224 non-null    object
dtypes: object(1)
memory usage: 1.9+ KB


In [17]:
"""
アパレル会社の社員ごとの売上金額に関するデータが含まれるCSVファイルをデータフレームとして読み込み、'売上日'列を日時型のデータに変換し、表示。

・ファイルを読み込む際には、文字コードにUTF-8を指定。
"""
df = pd.read_csv('csv_files/sample.csv', encoding='utf-8')
pd.to_datetime(df['売上日'])

0     2020-01-04
1     2020-01-05
2     2020-01-05
3     2020-01-06
4     2020-01-07
         ...    
219   2020-12-26
220   2020-12-28
221   2020-12-30
222   2020-12-30
223   2020-12-31
Name: 売上日, Length: 224, dtype: datetime64[ns]

In [23]:
"""
アパレル会社の社員ごとの売上金額に関するデータが含まれるCSVファイルがある。
まず、このCSVファイルをデータフレームとして読み込み、'売上日'列を日時型のデータに変換する。
そして、日時型に変換した'売上日'列をインデックスに指定し、表示。

・csvファイルの'売上日'列の書式は、'●年●月●日'という形式になっている。
・ファイルを読み込む際には、文字コードにUTF-8を指定する。
"""

df = pd.read_csv('csv_files/sample_pd13.csv', encoding='utf-8')
df['売上日'] = pd.to_datetime(df['売上日'], format='%Y年%m月%d日')
df.set_index('売上日')

Unnamed: 0_level_0,社員ID,商品分類,商品名,単価,数量,売上金額
売上日,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2020-01-04,a023,ボトムス,ロングパンツ,7000,8,56000
2020-01-05,a003,ボトムス,ジーンズ,6000,10,60000
2020-01-05,a052,アウター,ジャケット,10000,7,70000
2020-01-06,a003,ボトムス,ロングパンツ,7000,10,70000
2020-01-07,a036,ボトムス,ロングパンツ,7000,2,14000
...,...,...,...,...,...,...
2020-12-26,a052,アウター,ダウン,18000,4,72000
2020-12-28,a036,アウター,ダウン,18000,3,54000
2020-12-30,a003,アウター,ダウン,18000,4,72000
2020-12-30,a047,ボトムス,ハーフパンツ,3000,3,9000


In [31]:
"""
アパレル会社の社員ごとの売上金額に関するデータが含まれるCSVファイルがある。
このCSVファイルの'売上日'列を日時型のデータとしてインデックスに指定し、データフレームとして読み込む。

・ファイルを読み込む際には、文字コードにUTF-8を指定
"""

df = pd.read_csv('csv_files/sample.csv', encoding='utf-8', parse_dates=True, index_col='売上日')
df
# parse_dates=Trueは読み込むときに日時の列を日時型で読み込む

Unnamed: 0_level_0,社員ID,商品分類,商品名,単価,数量,売上金額
売上日,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2020-01-04,a023,ボトムス,ロングパンツ,7000,8,56000
2020-01-05,a003,ボトムス,ジーンズ,6000,10,60000
2020-01-05,a052,アウター,ジャケット,10000,7,70000
2020-01-06,a003,ボトムス,ロングパンツ,7000,10,70000
2020-01-07,a036,ボトムス,ロングパンツ,7000,2,14000
...,...,...,...,...,...,...
2020-12-26,a052,アウター,ダウン,18000,4,72000
2020-12-28,a036,アウター,ダウン,18000,3,54000
2020-12-30,a003,アウター,ダウン,18000,4,72000
2020-12-30,a047,ボトムス,ハーフパンツ,3000,3,9000


In [53]:
"""
アパレル会社の社員ごとの売上金額に関するデータが含まれるCSVファイルがある。
まず、このファイルをデータフレームとして読み込み、'売上日'列を日時型のデータに変換してインデックスに指定し、2020年8月のデータのみ抽出

・ファイルを読み込む際には、文字コードにUTF-8を指定。
"""
pd.options.display.max_rows = 50
df = pd.read_csv('csv_files/sample.csv', encoding='utf-8', parse_dates=True, index_col='売上日')
df.loc['2020-08']

Unnamed: 0_level_0,社員ID,商品分類,商品名,単価,数量,売上金額
売上日,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2020-08-01,a013,ボトムス,ロングパンツ,7000,9,63000
2020-08-03,a023,ボトムス,ジーンズ,6000,1,6000
2020-08-04,a003,トップス,シャツ,4000,7,28000
2020-08-07,a003,ボトムス,ハーフパンツ,3000,1,3000
2020-08-08,a023,ボトムス,ロングパンツ,7000,5,35000
2020-08-09,a023,トップス,シャツ,4000,1,4000
2020-08-11,a013,ボトムス,ロングパンツ,7000,8,56000
2020-08-13,a023,ボトムス,ジーンズ,6000,8,48000
2020-08-15,a023,ボトムス,ロングパンツ,7000,1,7000
2020-08-17,a036,アウター,ダウン,18000,8,144000


In [54]:
"""
アパレル会社の社員ごとの売上金額に関するデータが含まれるCSVファイルがある。
まず、このファイルをデータフレームとして読み込み、'売上日'列を日時型のデータに変換してインデックスに指定し、2020年8月15日～2020年9月14日のデータのみ抽出。

・ファイルを読み込む際には、文字コードにUTF-8を指定。
"""

df = pd.read_csv('csv_files/sample.csv', encoding='utf-8', parse_dates=['売上日'], index_col='売上日')
df['2020-08-15':'2020-09-14']


Unnamed: 0_level_0,社員ID,商品分類,商品名,単価,数量,売上金額
売上日,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
2020-08-15,a023,ボトムス,ロングパンツ,7000,1,7000
2020-08-17,a036,アウター,ダウン,18000,8,144000
2020-08-20,a003,ボトムス,ロングパンツ,7000,5,35000
2020-08-21,a003,アウター,ダウン,18000,3,54000
2020-08-23,a023,ボトムス,ジーンズ,6000,3,18000
2020-08-24,a003,ボトムス,ハーフパンツ,3000,9,27000
2020-08-24,a023,アウター,ジャケット,10000,7,70000
2020-08-24,a052,トップス,シャツ,4000,8,32000
2020-08-25,a003,トップス,ニット,8000,1,8000
2020-08-25,a003,ボトムス,ジーンズ,6000,3,18000


In [58]:
"""
アパレル会社の社員ごとの売上金額に関するデータが含まれるCSVファイルがある。
まず、このファイルをデータフレームとして読み込み、'売上日'列を日時型のデータに変換してインデックスに指定し、'売上金額'の列のみ抽出。
ポイント

・ファイルを読み込む際には、文字コードにUTF-8を指定。
"""

df = pd.read_csv('csv_files/sample.csv', encoding='utf-8', parse_dates=['売上日'], index_col='売上日')
df[['売上金額']]

Unnamed: 0_level_0,売上金額
売上日,Unnamed: 1_level_1
2020-01-04,56000
2020-01-05,60000
2020-01-05,70000
2020-01-06,70000
2020-01-07,14000
...,...
2020-12-26,72000
2020-12-28,54000
2020-12-30,72000
2020-12-30,9000


In [63]:
"""
アパレル会社の社員ごとの売上金額に関するデータが含まれるCSVファイルがある。
まずこのファイルをデータフレームとして読み込み、'売上日'列を日時型のデータに変換してインデックスに指定し、週ごとの'売上金額'の合計を算出。
ポイント

・ファイルを読み込む際には、文字コードにUTF-8を指定。
"""
pd.options.display.max_rows = 100

df = pd.read_csv('csv_files/sample.csv', encoding='utf-8', parse_dates=['売上日'], index_col='売上日')
df[['売上金額']].resample('w').sum()

Unnamed: 0_level_0,売上金額
売上日,Unnamed: 1_level_1
2020-01-05,186000
2020-01-12,340000
2020-01-19,19000
2020-01-26,197000
2020-02-02,28000
2020-02-09,191000
2020-02-16,37000
2020-02-23,247000
2020-03-01,14000
2020-03-08,318000


In [65]:
"""
アパレル会社の社員ごとの売上金額に関するデータが含まれるCSVファイルがある。
まず、このファイルをデータフレームとして読み込み、'売上日'列を日時型のデータに変換してインデックスに指定し、月ごとの'売上金額'の合計を算出。

・ファイルを読み込む際には、文字コードにUTF-8を指定。
"""

df = pd.read_csv('csv_files/sample.csv', encoding='utf-8', parse_dates=['売上日'], index_col='売上日')
df[['売上金額']].resample('m').sum()

Unnamed: 0_level_0,売上金額
売上日,Unnamed: 1_level_1
2020-01-31,742000
2020-02-29,517000
2020-03-31,625000
2020-04-30,511000
2020-05-31,555000
2020-06-30,958000
2020-07-31,883000
2020-08-31,1395000
2020-09-30,800000
2020-10-31,589000


In [66]:
"""
アパレル会社の社員ごとの売上金額に関するデータが含まれるCSVファイルがある。
まず、このファイルをデータフレームとして読み込み、'売上日'列を日時型のデータに変換してインデックスに指定し、四半期ごとの'売上金額'の平均を算出。

・ファイルを読み込む際には、文字コードにUTF-8を指定。
"""

df = pd.read_csv('csv_files/sample.csv', encoding='utf-8', parse_dates=['売上日'], index_col='売上日')
df[['売上金額']].resample('Q').mean()

Unnamed: 0_level_0,売上金額
売上日,Unnamed: 1_level_1
2020-03-31,37680.0
2020-06-30,42166.666667
2020-09-30,48093.75
2020-12-31,43435.483871


In [67]:
"""
アパレル会社の社員ごとの売上金額に関するデータが含まれるCSVファイルがある。
まず、このファイルをデータフレームとして読み込み、'売上日'列を日時型のデータに変換してインデックスに指定し、10日ごとの'売上金額'の最大値を算出。

・ファイルを読み込む際には、文字コードにUTF-8を指定。
"""

df = pd.read_csv('csv_files/sample.csv', encoding='utf-8', parse_dates=['売上日'], index_col='売上日')
df[['売上金額']].resample('10D').max()

Unnamed: 0_level_0,売上金額
売上日,Unnamed: 1_level_1
2020-01-04,126000
2020-01-14,54000
2020-01-24,42000
2020-02-03,144000
2020-02-13,72000
2020-02-23,50000
2020-03-04,90000
2020-03-14,56000
2020-03-24,32000
2020-04-03,80000


In [69]:
"""
アパレル会社の社員ごとの売上金額に関するデータが含まれるCSVファイルがある。
まず、このファイルをデータフレームとして読み込み、'売上日'列を日時型のデータに変換してインデックスに指定し、15日ごとの'売上金額'の合計、平均、最大値、最小値をまとめて算出。

・ファイルを読み込む際には、文字コードにUTF-8を指定。
"""

df = pd.read_csv('csv_files/sample.csv', encoding='utf-8', parse_dates=['売上日'], index_col='売上日')
df[['売上金額']].resample('15D').agg(['sum', 'mean', 'max', 'min'])

Unnamed: 0_level_0,売上金額,売上金額,売上金額,売上金額
Unnamed: 0_level_1,sum,mean,max,min
売上日,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2
2020-01-04,541000,49181.818182,126000,7000
2020-01-19,229000,25444.444444,54000,4000
2020-02-03,228000,45600.0,144000,16000
2020-02-18,320000,40000.0,72000,4000
2020-03-04,486000,34714.285714,90000,6000
2020-03-19,80000,26666.666667,32000,24000
2020-04-03,296000,42285.714286,80000,21000
2020-04-18,215000,30714.285714,70000,6000
2020-05-03,320000,53333.333333,100000,30000
2020-05-18,235000,39166.666667,80000,7000


## memo

時系列データの抽出
```python
df['2020-08']
df['2020-08-15':'2020-09-14']
```

時系列データの集計
```python
df_3 = df[['売上金額']]

df_3.resample('M') # 月ごと これはただのオブジェクト
df_3.resample('M').sum()
df_3.resample('Q').sum() # 四半期ごと
df_3.resample('10D').sum() # 10日ごと
df_3.resample('Q').agg(['sum', 'mean', 'max', 'min']) # 四半期ごとに合計、平均、最大、最を同時に算出
```


曜日ごとの集計
```python
df_3.index.weekday # 曜日を0～6の数値で取得

df_3[df_3.index.weekday == 0] 
df_3[df_3.index.weekday == 0].mean() # 月曜日だけの平均

df_4 = df_4.set_index(df_4.index.weekday) # 曜日番号をindexに変更
df_4.index.name = '曜日番号'
df_4.sum(level='曜日番号').sort_index() # 曜日番号ごとに合計を算出し、曜日番号順にソート表示 引数levelには集約するインデックス名
```

In [70]:
"""
アパレル会社の社員ごとの売上金額に関するデータが含まれるCSVファイルがる。
まず、このファイルをデータフレームとして読み込み、'売上日'列を日時型のデータに変換してインデックスに指定し、インデックスの曜日を整数0から整数6の数値で表示。

ポイント

・ファイルを読み込む際には、文字コードに'UTF-8'を指定。
"""

df = pd.read_csv('csv_files/sample.csv', encoding='utf-8', parse_dates=['売上日'], index_col='売上日')
df.index.weekday

Int64Index([5, 6, 6, 0, 1, 3, 4, 5, 5, 5,
            ...
            1, 1, 4, 5, 5, 5, 0, 2, 2, 3],
           dtype='int64', name='売上日', length=224)

In [74]:
"""
アパレル会社の社員ごとの売上金額に関するデータが含まれるCSVファイルがる。
まず、このファイルをデータフレームとして読み込み、'売上日'列を日時型のデータに変換してインデックスに指定し、'売上日'が月曜日のデータを抽出。

ポイント

・ファイルを読み込む際には、文字コードに'UTF-8'を指定。
"""

df = pd.read_csv('csv_files/sample.csv', encoding='utf-8', parse_dates=['売上日'], index_col='売上日')
df = df[['売上金額']]
df[df.index.weekday == 0]

Unnamed: 0_level_0,売上金額
売上日,Unnamed: 1_level_1
2020-01-06,70000
2020-02-03,20000
2020-02-03,144000
2020-02-10,21000
2020-03-02,9000
2020-03-02,50000
2020-04-20,24000
2020-05-25,72000
2020-06-08,49000
2020-06-15,30000


In [75]:
"""
アパレル会社の社員ごとの売上金額に関するデータが含まれるCSVファイルがる。
まず、このファイルをデータフレームとして読み込み、'売上日'列を日時型のデータに変換してインデックスに指定し、'売上日'が月曜日のデータの平均を抽出。

ポイント

・ファイルを読み込む際には、文字コードに'UTF-8'を指定。
"""

df = pd.read_csv('csv_files/sample.csv', encoding='utf-8', parse_dates=['売上日'], index_col='売上日')
df = df[['売上金額']]
df[df.index.weekday == 0].mean()

売上金額    48969.69697
dtype: float64

In [84]:
"""
アパレル会社の社員ごとの売上金額に関するデータが含まれるCSVファイルがある。
まず、このファイルをデータフレームとして読み込み、'売上日'列を日時型のデータに変換してインデックスに指定。
次に、インデックスの値を0から6の曜日番号に変換し、インデックスの名前を'曜日番号'に変更。
そして、曜日ごとの'売上金額'の合計を算出。


・ファイルを読み込む際には、文字コードに'UTF-8'を指定。
"""

df = pd.read_csv('csv_files/sample.csv', encoding='utf-8', parse_dates=['売上日'], index_col='売上日')
df = df[['売上金額']]
df = df.set_index(df.index.weekday) # 曜日番号をindexに変更
df.index.name = '曜日番号'
# df.sum(level='曜日番号').sort_index()
df.groupby('曜日番号').sum()

Unnamed: 0_level_0,売上金額
曜日番号,Unnamed: 1_level_1
0,1616000
1,2030000
2,1037000
3,1793000
4,1413000
5,890000
6,900000
