## 時系列Data を読み込んでみよう

In [3]:
# File一覧の取得
from glob import glob  # glob を import

import pandas as pd

files = glob('data/person_count_1sec/out_0001/*.csv')  # Data一覧を取得
files.sort()  # Data一覧を Sort
files[:5]  # 先頭５行を確認

['data/person_count_1sec/out_0001\\person_count_out_0001_2021011509.csv',
 'data/person_count_1sec/out_0001\\person_count_out_0001_2021011510.csv',
 'data/person_count_1sec/out_0001\\person_count_out_0001_2021011511.csv',
 'data/person_count_1sec/out_0001\\person_count_out_0001_2021011512.csv',
 'data/person_count_1sec/out_0001\\person_count_out_0001_2021011513.csv']

File名が「person_count_out_0001」までが共通で、その後ろは、「2021011509」となっており、2021年１月15日の９時代の Data であると考えられる。
まずは、最初の File だけを読み込んでみる

In [5]:
# 先頭Data の読み込み
import pandas as pd
from IPython.display import display
data = pd.read_csv(files[0])  # 先頭の File のみ読み込み
display(data.head(5))  # Data の先頭５行のみ表示
print(data.dtypes)  # 各列の Data型を表示

Unnamed: 0,id,place,receive_time,sensor_num,in1,out1,state1,in2,out2,state2
0,0,1,2021-01-15 09:00:00.144,2,508,73,0,73,508,0
1,1,1,2021-01-15 09:00:01.146,2,508,73,0,73,508,0
2,2,1,2021-01-15 09:00:02.161,2,508,73,0,73,508,0
3,3,1,2021-01-15 09:00:03.176,2,508,73,0,73,508,0
4,4,1,2021-01-15 09:00:04.192,2,508,73,0,73,508,0


id               int64
place            int64
receive_time    object
sensor_num       int64
in1              int64
out1             int64
state1           int64
in2              int64
out2             int64
state2           int64
dtype: object


receive_time に milli秒単位まで入っている。
※ IoT等の sensor data では milli秒単位まで出てくることが多い。
Data型が object型になっており、このままでは文字列情報としてか使用できないので datetime型に変換していく。

In [7]:
# datetime型への変換
data['receive_time'] = pd.to_datetime(data['receive_time'])
display(data.head())
print(data.dtypes)

Unnamed: 0,id,place,receive_time,sensor_num,in1,out1,state1,in2,out2,state2
0,0,1,2021-01-15 09:00:00.144,2,508,73,0,73,508,0
1,1,1,2021-01-15 09:00:01.146,2,508,73,0,73,508,0
2,2,1,2021-01-15 09:00:02.161,2,508,73,0,73,508,0
3,3,1,2021-01-15 09:00:03.176,2,508,73,0,73,508,0
4,4,1,2021-01-15 09:00:04.192,2,508,73,0,73,508,0


id                       int64
place                    int64
receive_time    datetime64[ns]
sensor_num               int64
in1                      int64
out1                     int64
state1                   int64
in2                      int64
out2                     int64
state2                   int64
dtype: object


datetime型は読み込み時にも指定できる。あらかしめ Data を確認し、datetime型で読み込みたい Column が決まっている場合は、読み込み時に指定するのが良い。

In [8]:
# datetime型を指定して読み込み
data = pd.read_csv(files[0], parse_dates=['receive_time'])  # datetime型で読み込む列を指定して読み込み
display(data.head())  # 先頭５行を表示
print(data.dtypes)  # 各列の Data型を確認

Unnamed: 0,id,place,receive_time,sensor_num,in1,out1,state1,in2,out2,state2
0,0,1,2021-01-15 09:00:00.144,2,508,73,0,73,508,0
1,1,1,2021-01-15 09:00:01.146,2,508,73,0,73,508,0
2,2,1,2021-01-15 09:00:02.161,2,508,73,0,73,508,0
3,3,1,2021-01-15 09:00:03.176,2,508,73,0,73,508,0
4,4,1,2021-01-15 09:00:04.192,2,508,73,0,73,508,0


id                       int64
place                    int64
receive_time    datetime64[ns]
sensor_num               int64
in1                      int64
out1                     int64
state1                   int64
in2                      int64
out2                     int64
state2                   int64
dtype: object


読み込み時に、receive_time列にdatetime型を指定して全File を読み込んでいく

In [9]:
# 全Data の読み込み
data = []  # List を準備
for f in files:
    tmp = pd.read_csv(f, parse_dates=['receive_time'])  # receive_time を datetime型で指定して読み込み
    data.append(tmp)  # List に Data を追加
data = pd.concat(data, ignore_index=True)  # Data を結合。ignore_index=True で index は結合毎にふりなおす
display(data.head())  # 先頭５行を表示
len(data)  # Data件数を表示

Unnamed: 0,id,place,receive_time,sensor_num,in1,out1,state1,in2,out2,state2
0,0,1,2021-01-15 09:00:00.144,2,508,73,0,73,508,0
1,1,1,2021-01-15 09:00:01.146,2,508,73,0,73,508,0
2,2,1,2021-01-15 09:00:02.161,2,508,73,0,73,508,0
3,3,1,2021-01-15 09:00:03.176,2,508,73,0,73,508,0
4,4,1,2021-01-15 09:00:04.192,2,508,73,0,73,508,0


2346162

## 日付の範囲を確認しよう

いつからいつの Data なのか開始日と終了日を取得して出力してみる。
分析対象がどの日付の範囲で、何日間の Data なのかを把握する必要がある

In [11]:
# 開始日、終了日の表示
min_receive_time = data['receive_time'].min()  # receive_time列の最小値を取得
max_receive_time = data['receive_time'].max()  # receive_time列の最大値を取得
print(min_receive_time)  # 最小値を表示
print(max_receive_time)  # 最大値を表示

2021-01-15 09:00:00.144000
2021-02-14 17:59:59.956000


In [12]:
# 期間の表示
print(data['receive_time'].max() - data['receive_time'].min())

30 days 08:59:59.812000
