# Script Table Operator (マイクロモデリングへの応用)

- このノートブックでは、STO (Script Table Operator) の仕組みを利用して、マイクロモデリング（小さなセグメントごとに予測モデルを学習）を実装します
- 再現可能性のため、ノートブック上でPythonファイルを作成して保存する形にしていますが、実際にはエディタなどでPythonスクリプトを作成するほうが書きやすいだろうと思います

In [None]:
%pip install pandas "sqlalchemy<2" ipython-sql teradataml

import warnings
warnings.simplefilter("ignore", (FutureWarning, DeprecationWarning))
# pandas, teradataml の警告を非表示にして見やすくするため設定
# 実行結果には影響しない

In [2]:
from getpass import getpass
from urllib.parse import quote_plus

# 接続情報
host = "host.docker.internal"
user = "demo_user"
database = "demo_user"
password = getpass("Password > ")
dbs_port = 1025
encryptdata = "true"

connstr = (
  f"teradatasql://{user}:{quote_plus(password)}@{host}/?"
  f"&database={database}"
  f"&dbs_port={dbs_port}"
  f"&encryptdata={encryptdata}"
)

%load_ext sql
%config SqlMagic.autopandas=True
%sql {connstr}

# 接続確認
%sql SELECT database, current_timestamp

Password >  ········


 * teradatasql://demo_user:***@host.docker.internal/?database=demo_user&dbs_port=1025&encryptdata=true
1 rows affected.


Unnamed: 0,Database,Current TimeStamp(6)
0,DEMO_USER,2024-04-02 11:00:05.750000-04:00


In [3]:
# teradataml のコンテキストを開始
from sqlalchemy import create_engine
from teradataml import create_context, remove_context, DataFrame
engine = create_engine(connstr)
context = create_context(tdsqlengine=engine, temp_database_name=user)

# 接続確認
DataFrame('"dbc"."dbcInfoV"')

InfoKey,InfoData
RELEASE,17.20.03.23
LANGUAGE SUPPORT MODE,Standard
VERSION,17.20.03.23


In [4]:
# ファイルの検索場所を指定
# 各セッションで一度実行
from teradataml import get_connection

q = f"SET SESSION SEARCHUIFDBPATH = {database}" 
conn = get_connection()
conn.execute(q)

<sqlalchemy.engine.cursor.LegacyCursorResult at 0x7827204a4850>

## データの準備

In [5]:
import pandas as pd

# 日本の都市の気温データをロード
filename = "data/temperature.csv"
df = pd.read_csv(filename)
df["date"] = pd.to_datetime(df["date"], format="%Y/%m/%d")
print(df.shape)
display(df)

# Teradata にロード
from teradataml import copy_to_sql
from teradatasqlalchemy import DATE, VARCHAR
copy_to_sql(df, "temperature", if_exists="replace",
            primary_index=["date", "location"],
            types={"location": VARCHAR(20), "date": DATE()})

# ロード結果の確認
DataFrame("temperature")

(10661, 4)


Unnamed: 0,date,location,avg_temp,max_temp
0,2020-01-01,Tokyo,5.5,10.2
1,2020-01-02,Tokyo,6.2,11.3
2,2020-01-03,Tokyo,6.1,12.0
3,2020-01-04,Tokyo,7.2,12.2
4,2020-01-05,Tokyo,5.4,10.2
...,...,...,...,...
10656,2024-02-27,Sendai,5.1,7.8
10657,2024-02-28,Sendai,5.1,8.3
10658,2024-02-29,Sendai,5.8,10.0
10659,2024-03-01,Sendai,5.4,10.5


date,location,avg_temp,max_temp
20/08/18,Fukuoka,30.0,34.9
22/12/20,Sapporo,-4.7,-0.3
20/05/04,Sapporo,16.7,22.5
22/04/22,Osaka,18.5,23.1
21/11/12,Naha,20.5,22.8
23/01/31,Fukuoka,5.6,11.7
23/11/03,Nagoya,18.8,25.7
20/05/24,Nagoya,22.4,27.2
22/04/10,Fukuoka,18.7,24.6
21/01/26,Fukuoka,11.5,13.5


## 観測地点ごとに予測モデルを学習

In [6]:
# location ごと最高気温を予測するARIMAモデルを作成する

script = r"""
# データを取得
# STOではデータは標準入力からTSVで取得
import pandas as pd
import sys
from statsmodels.tsa.arima.model import ARIMA

# STOが取得する数値データは科学計算表記で　 '2.10000000000000E 001' のように与えられる
# Python がこれを読める用に空白を+に変えて '2.10000000000000E+001' のように変換する
str_to_float = lambda a: float(a.replace("E ", "E+"))
str_to_int = lambda a: int(a.replace("E ", "E+"))
x = pd.read_csv(sys.stdin, sep="\t", header=None,
                names=["date", "location", "avg_temp", "max_temp"],
                converters={"avg_temp": str_to_float,
                            "max_temp": str_to_float})

# このAMPにデータがない場合は何も出力しない
if len(x) == 0:
    sys.exit()

location = x["location"].loc[0]  # このAMPに含まれるlocation
x = x.sort_values("date")
y = x["max_temp"]
y.index = pd.to_datetime(x["date"], format="%Y-%m-%d")

model = ARIMA(y, order=(2,0,1), freq="D").fit()

# model を文字列情報として保存
# 一度バイナリデータに変換してから文字列に書き出す
from base64 import b64encode 
import pickle 
model_obj = b64encode(pickle.dumps(model))  # bytes type
model_str = model_obj.decode("ascii")

out = [location, model_str]

# 結果は標準出力へTSV形式で与える
import csv
writer = csv.writer(sys.stdout, delimiter="\t", lineterminator="\n")
writer.writerow(out)
"""
filename = "temperature4.py"
with open(filename, "w") as f:
    f.write(script)


# Teradata側にスクリプトを配置
from teradataml import install_file
try:
  install_file("temperature4", filename, file_on_client=True, replace=False)
except Exception as e:
  install_file("temperature4", filename, file_on_client=True, replace=True)


# スクリプトを実行
# 今回は、学習結果を後に利用するため、
# 結果を手元に取得するのではなくモデルを（一時）テーブルに書き出す形にする
q = f"""
CREATE VOLATILE TABLE temperature_model 
AS (
  SELECT * FROM

  SCRIPT(
    ON (
      SELECT
        CAST(CAST("date" AS FORMAT 'YYYY-MM-DD') AS CHAR(10)) AS "date",
        location, 
        avg_temp,
        max_temp
      FROM temperature 
    )  PARTITION BY location
    SCRIPT_COMMAND('tdpython3 {database}/temperature4.py;')
    
    RETURNS ('location VARCHAR(10), model CLOB(10M)')
  )
)
WITH DATA
ON COMMIT PRESERVE ROWS
"""

conn = get_connection()
conn.execute(q)

File temperature4.py replaced in Vantage


<sqlalchemy.engine.cursor.LegacyCursorResult at 0x7826c013ef10>

## 保存された学習結果を確認

In [7]:
# モデルの保持されている一時テーブルを参照
# 
# モデルは文字列にエンコードして保存されている
# ここでは、pandas.DataFrame にした方が表示が軽いので抽出している
x = DataFrame("temperature_model").to_pandas()
x

Unnamed: 0,location,model
0,Sendai,gASVHCgBAAAAAACMG3N0YXRzbW9kZWxzLnRzYS5hcmltYS...
1,Fukuoka,gASVHCgBAAAAAACMG3N0YXRzbW9kZWxzLnRzYS5hcmltYS...
2,Nagoya,gASVHCgBAAAAAACMG3N0YXRzbW9kZWxzLnRzYS5hcmltYS...
3,Tokyo,gASVHCgBAAAAAACMG3N0YXRzbW9kZWxzLnRzYS5hcmltYS...
4,Naha,gASVHCgBAAAAAACMG3N0YXRzbW9kZWxzLnRzYS5hcmltYS...
5,Osaka,gASVHCgBAAAAAACMG3N0YXRzbW9kZWxzLnRzYS5hcmltYS...
6,Sapporo,gASVHCgBAAAAAACMG3N0YXRzbW9kZWxzLnRzYS5hcmltYS...


In [8]:
# モデルの挙動を手元で確認

# 文字列化したモデルをもとに復元
import pickle
from base64 import b64decode

index = 0
location = x.location.values[index]
model_str = x.model.values[0].encode("ascii")
model_obj = b64decode(model_str)
model = pickle.loads(model_obj)
print(model)

# 将来を予測
yhat = model.forecast(10)
print(f"Forecaset for {location}")
print(yhat)


<statsmodels.tsa.arima.model.ARIMAResultsWrapper object at 0x7826b39c5520>
Forecaset for Sendai
2024-03-03    6.408427
2024-03-04    7.308728
2024-03-05    7.724577
2024-03-06    7.928569
2024-03-07    8.039851
2024-03-08    8.110501
2024-03-09    8.163279
2024-03-10    8.208136
2024-03-11    8.249421
2024-03-12    8.289035
Freq: D, Name: predicted_mean, dtype: float64


## データベース上で推論を実施

In [9]:
# データベース上で推論を実施

script = r"""
# データを取得
# STOではデータは標準入力からTSVで取得
import pandas as pd
import sys

# 今回は数値データが含まれない
x = pd.read_csv(sys.stdin, sep="\t", header=None,
                names=["location", "model"])

# このAMPにデータがない場合は何も出力しない
if len(x) == 0:
    sys.exit()

for _, (location, model) in x.iterrows():
    import pickle
    from base64 import b64decode
    model_str = model.encode("ascii")
    model_obj = b64decode(model_str)
    model = pickle.loads(model_obj)
    
    yhat = model.forecast(20)  # 20日分の予測
    # 予測はインデックス付きの series で返るので、データフレームに変換
    yhat = pd.DataFrame(yhat).reset_index()
    yhat.insert(0, "location", location)  # location 情報を追加
    # 予測結果を出力
    yhat.to_csv(sys.stdout, sep="\t", index=False, header=False)
"""
filename = "temperature5.py"
with open(filename, "w") as f:
    f.write(script)

# Teradata側にスクリプトを配置
from teradataml import install_file
try:
  install_file("temperature5", filename, file_on_client=True, replace=False)
except Exception as e:
  install_file("temperature5", filename, file_on_client=True, replace=True)


# スクリプトを実行
q = f"""
SELECT * FROM

  SCRIPT(
    ON (
      SELECT * FROM temperature_model )
    SCRIPT_COMMAND('tdpython3 {database}/temperature5.py;')
    
    RETURNS ('location VARCHAR(10), "date" DATE, max_temp_forecast FLOAT')
  )
"""

x = DataFrame(query=q)
x

File temperature5.py replaced in Vantage


location,date,max_temp_forecast
Tokyo,24/03/05,12.270377085561474
Fukuoka,24/03/04,9.843999815897176
Fukuoka,24/03/05,10.424787303561777
Nagoya,24/03/03,10.57562841850719
Nagoya,24/03/05,11.702318362889915
Sendai,24/03/03,6.408427005327406
Sendai,24/03/04,7.308727703577722
Sendai,24/03/05,7.724576513664386
Nagoya,24/03/04,11.369857632013607
Fukuoka,24/03/03,8.844270038059559


In [10]:
# 結果が途切れてしまっているので、pandas.DataFrameに取得して確認
x.to_pandas().sort_values(["location", "date"])

Unnamed: 0,location,date,max_temp_forecast
1,Fukuoka,2024-03-03,8.844270
5,Fukuoka,2024-03-04,9.844000
9,Fukuoka,2024-03-05,10.424787
13,Fukuoka,2024-03-06,10.769803
17,Fukuoka,2024-03-07,10.982092
...,...,...,...
63,Tokyo,2024-03-18,12.793994
67,Tokyo,2024-03-19,12.822885
71,Tokyo,2024-03-20,12.851640
75,Tokyo,2024-03-21,12.880260
