# このノートブックについて

電力需給に関する元ネタとなるデータからダミーデータを生成するノートブック。

元ネタは電力会社（一般送配電事業者）がでんき予報で発信するデータを利用できる。
ただし、CSVデータとして読み込みやすいよう、多少の整形が必要なこともある。
以下のようなフォーマットのデータを配置しておくとよい。

```
DATETIME,Measured,Predicted,UseRate,EstimatedSupplyCapacity
2021/1/5 0:00,1495,1510,80,1864
2021/1/5 1:00,1446,1440,78,1832
2021/1/5 2:00,1450,1410,79,1817
(snip)
```

このノートブックでは、この元ネタを基に、1分毎の値を埋めたデータを生成する。
埋める際には固定値だと面白くないので、実測値相当の値を程よくランダム化することにした。
以下のようなデータが出力される。

```
+-------------------+--------+---------+------------------+-----------------------+
|          timestamp|Measured|Predicted|           UseRate|EstimatedSupplyCapacity|
+-------------------+--------+---------+------------------+-----------------------+
|2021-01-05 00:00:00|    1475|     1533|0.7858284496537027|                   1877|
|2021-01-05 00:01:00|    1510|     1533|0.8044752264251465|                   1877|
|2021-01-05 00:02:00|    1521|     1533| 0.810335641981886|                   1877|
(snip)
```

# 電力データを変換する

In [2]:
import random
from pyspark.sql.functions import udf
from pyspark.sql.types import *
from pyspark.sql.functions import to_timestamp, to_date, explode
from datetime import datetime, timedelta

入力となる元ネタデータ `data/power_grid_sample.csv` と 出力データ（のディレクトリ） `data/power_grid_dummydata` を指定する。

In [3]:
data_file = 'data/power_grid_sample.csv'
randomized_file = 'data/power_grid_dummydata'

元ネタのCSVファイルを読み込む。

In [4]:
df1 = spark.read.format('csv').option('header', 'true').option('inferSchema', 'true').load(data_file)

                                                                                

In [5]:
df1.schema

StructType(List(StructField(DATETIME,StringType,true),StructField(Measured,IntegerType,true),StructField(Predicted,IntegerType,true),StructField(UseRate,IntegerType,true),StructField(EstimatedSupplyCapacity,IntegerType,true)))

時刻の文字列は後で扱いやすいようタイムスタンプ型に変換しておく。

In [6]:
df2 = df1.select(to_timestamp(df1['DATETIME'], 'yyyy/M/d H:mm').alias('timestamp'), '*')

実測値相当の値をランダム化するUDFを定義し用いる。

In [7]:
randomize_width = 30

In [8]:
@udf(IntegerType())
def randamize(col):
    diff = random.randint(-randomize_width, randomize_width)
    return col + diff

In [9]:
df3 = df2.select(randamize(df2['Measured']).alias('RMeasured'),
                randamize(df2['Predicted']).alias('RPredicted'),
                randamize(df2['EstimatedSupplyCapacity']).alias('REstimatedSupplyCapacity'), '*')

使用率はランダム変化させた実測値に依存するので再計算する。

In [10]:
df4 = df3.select((df3['RMeasured']/df3['REstimatedSupplyCapacity']).alias('RUseRate'), '*')

In [11]:
df5 = df4.select('timestamp', 'RMeasured', 'RPredicted', 'RUseRate', 'REstimatedSupplyCapacity')

間を埋めたレコードの時刻を付与する。

In [12]:
@udf(ArrayType(TimestampType()))
def transform_timestamp(timestamp):
    records = [timestamp]
    num_records = 59
    for i in range(0, num_records):
        delta = timedelta(minutes=i+1)
        records.append(timestamp + delta)
        
    return records

In [13]:
df6 = df5.select(explode(transform_timestamp(df5['timestamp'])).alias('timestamp_min'), '*')

In [14]:
df6.show(70)

[Stage 2:>                                                          (0 + 1) / 1]

+-------------------+-------------------+---------+----------+------------------+------------------------+
|      timestamp_min|          timestamp|RMeasured|RPredicted|          RUseRate|REstimatedSupplyCapacity|
+-------------------+-------------------+---------+----------+------------------+------------------------+
|2021-01-05 00:00:00|2021-01-05 00:00:00|     1501|      1483| 0.815317762085823|                    1841|
|2021-01-05 00:01:00|2021-01-05 00:00:00|     1501|      1483| 0.815317762085823|                    1841|
|2021-01-05 00:02:00|2021-01-05 00:00:00|     1501|      1483| 0.815317762085823|                    1841|
|2021-01-05 00:03:00|2021-01-05 00:00:00|     1501|      1483| 0.815317762085823|                    1841|
|2021-01-05 00:04:00|2021-01-05 00:00:00|     1501|      1483| 0.815317762085823|                    1841|
|2021-01-05 00:05:00|2021-01-05 00:00:00|     1501|      1483| 0.815317762085823|                    1841|
|2021-01-05 00:06:00|2021-01-05 00:00

                                                                                

# 全レコードのランダム化

念のため、レコード全体について実測値総統の値をランダム化しておく。合わせて、使用率も計算しなおす。

In [23]:
randomize_width = 10

In [24]:
df7 = df6.select(randamize(df6['RMeasured']).alias('RRMeasured'), '*')

In [25]:
df7.show()

+----------+-------------------+-------------------+---------+----------+------------------+------------------------+
|RRMeasured|      timestamp_min|          timestamp|RMeasured|RPredicted|          RUseRate|REstimatedSupplyCapacity|
+----------+-------------------+-------------------+---------+----------+------------------+------------------------+
|      1505|2021-01-05 00:00:00|2021-01-05 00:00:00|     1476|      1502|0.7918454935622318|                    1864|
|      1491|2021-01-05 00:01:00|2021-01-05 00:00:00|     1476|      1502|0.7918454935622318|                    1864|
|      1492|2021-01-05 00:02:00|2021-01-05 00:00:00|     1476|      1502|0.7918454935622318|                    1864|
|      1493|2021-01-05 00:03:00|2021-01-05 00:00:00|     1476|      1502|0.7918454935622318|                    1864|
|      1456|2021-01-05 00:04:00|2021-01-05 00:00:00|     1476|      1502|0.7918454935622318|                    1864|
|      1506|2021-01-05 00:05:00|2021-01-05 00:00:00|    

In [26]:
df8 = df7.select((df7['RRMeasured']/df7['REstimatedSupplyCapacity']).alias('RRUseRate'), '*')

In [27]:
df8.show()

+------------------+----------+-------------------+-------------------+---------+----------+-----------------+------------------------+
|         RRUseRate|RRMeasured|      timestamp_min|          timestamp|RMeasured|RPredicted|         RUseRate|REstimatedSupplyCapacity|
+------------------+----------+-------------------+-------------------+---------+----------+-----------------+------------------------+
|               0.8|      1480|2021-01-05 00:00:00|2021-01-05 00:00:00|     1478|      1507|0.798918918918919|                    1850|
|0.7854054054054054|      1453|2021-01-05 00:01:00|2021-01-05 00:00:00|     1478|      1507|0.798918918918919|                    1850|
|0.7908108108108108|      1463|2021-01-05 00:02:00|2021-01-05 00:00:00|     1478|      1507|0.798918918918919|                    1850|
|0.8145945945945946|      1507|2021-01-05 00:03:00|2021-01-05 00:00:00|     1478|      1507|0.798918918918919|                    1850|
|0.8118918918918919|      1502|2021-01-05 00:04:

必要なカラムだけ残し、名称を付けなおす。

In [28]:
df9 = df8.select(df8['timestamp_min'].alias('timestamp'), df8['RRMeasured'].alias('Measured'), df8['RPredicted'].alias('Predicted'), df8['RRUseRate'].alias('UseRate'), df8['REstimatedSupplyCapacity'].alias('EstimatedSupplyCapacity'))

In [29]:
df9.show()

+-------------------+--------+---------+------------------+-----------------------+
|          timestamp|Measured|Predicted|           UseRate|EstimatedSupplyCapacity|
+-------------------+--------+---------+------------------+-----------------------+
|2021-01-05 00:00:00|    1475|     1533|0.7858284496537027|                   1877|
|2021-01-05 00:01:00|    1510|     1533|0.8044752264251465|                   1877|
|2021-01-05 00:02:00|    1521|     1533| 0.810335641981886|                   1877|
|2021-01-05 00:03:00|    1507|     1533|0.8028769312733085|                   1877|
|2021-01-05 00:04:00|    1509|     1533|0.8039424613745338|                   1877|
|2021-01-05 00:05:00|    1523|     1533|0.8114011720831114|                   1877|
|2021-01-05 00:06:00|    1522|     1533|0.8108684070324986|                   1877|
|2021-01-05 00:07:00|    1523|     1533|0.8114011720831114|                   1877|
|2021-01-05 00:08:00|    1520|     1533|0.8098028769312733|                 

# 書き込み

ここではTSVとDelta Lakeフォーマットの2種類を出力しておく。

In [30]:
df9.write.format('csv').option('header', 'true').option('sep', r'/t').save(randomized_file+'.tsv')
df9.write.format('delta').save(randomized_file+'.delta')

                                                                                