Teradata データベースの基本情報の抽出
===========================

- 本資料では、Teradataデータベースにおける基本情報の取得方法をご紹介します
- クエリでデータベースを触っていてよく必要になる代表的なものをカバーしています
- Python上で [ipython-sql](https://github.com/catherinedevlin/ipython-sql) ライブラリを用いたデモとなっていますが、他のフレームワークからも同様の操作が可能です

## 接続情報

データベースに接続時に指定する情報です。

- `host` データベースのIPアドレス
- `user` ユーザー名
- `password` ユーザーに対応するパスワード
- `dbs_port` データベースのポート番号（デフォルト値：1025）
- `database` 接続先のデータベース名（省略するとユーザーデータベースに接続）
- `encryptdata` データベースとの通信を暗号化するか否か（"true" 推奨）
- `logmech` オプショナルなログインメカニズムの指定

In [None]:
%pip install pandas "sqlalchemy<2" ipython-sql teradatasql teradatasqlalchemy teradataml
# sqlalchemy version 2以上との連携に不具合が確認されています。しばらくは sqlalchemy version 1を推奨します

import warnings
warnings.simplefilter("ignore", (FutureWarning, DeprecationWarning))
# pandas, teradataml の警告を非表示にして見やすくするため設定
# 実行結果には影響しない

In [2]:
from getpass import getpass

host = "host.docker.internal"
user = "demo_user"
database = "demo_user"
password = getpass("Password > ")
dbs_port = 1025
encryptdata = "true"

Password >  ········


## Teradataへの接続

In [3]:
import pandas as pd
from urllib.parse import quote_plus

%load_ext sql
%config SqlMagic.autopandas=True

# SqlAlchemy 形式の接続文字列
# SqlAlchemy 形式の接続文字列
# パスワードに特殊文字が含まれるとエラーとなるので、URLエンコードして渡す
connstr = (
  f"teradatasql://{user}:{quote_plus(password)}@{host}/?"
  f"&database={database}"
  f"&dbs_port={dbs_port}"
  f"&encryptdata={encryptdata}"
)

%sql {connstr}

# 接続できていることを確認
%sql SELECT USER, SESSION, CURRENT_TIMESTAMP

 * teradatasql://demo_user:***@host.docker.internal/?database=demo_user&dbs_port=1025&encryptdata=true
1 rows affected.


Unnamed: 0,User,Session,Current TimeStamp(6)
0,DEMO_USER,1074,2024-04-02 02:26:22.650000-04:00


## Teradata データベースからの基礎情報取得

### Version情報

In [4]:
%sql SELECT * FROM dbc.dbcInfoV

 * teradatasql://demo_user:***@host.docker.internal/?database=demo_user&dbs_port=1025&encryptdata=true
3 rows affected.


Unnamed: 0,InfoKey,InfoData
0,VERSION,17.20.03.23
1,LANGUAGE SUPPORT MODE,Standard
2,RELEASE,17.20.03.23


### データベース一覧

- `dbc.databasesV` に一覧が格納されている

In [5]:
%sql SELECT databaseName, creatorName, ownerName FROM dbc.databasesV

 * teradatasql://demo_user:***@host.docker.internal/?database=demo_user&dbs_port=1025&encryptdata=true
46 rows affected.


Unnamed: 0,DatabaseName,CreatorName,OwnerName
0,TD_SYSXML,DBC,system
1,GLOBAL_FUNCTIONS,DBC,DBC
2,TDaaS_TDBCMgmt2,DBC,DBC
3,All,DBC,DBC
4,TD_SYSGPL,DBC,system
5,TD_ANALYTICS_DB,DBC,system
6,DBC,DBC,DBC
7,SYSJDBC,DBC,system
8,TD_SYSFNLIB,DBC,system
9,SYSLIB,DBC,system


### テーブル (オブジェクト) 一覧

- `dbc.tablesV`に一覧が保持されている
- `TableKind` 列はオブジェクトの種類を示す
  - `T` テーブル
  - `O` テーブル (Primary Index なし), NOS, 外部テーブル含む
  - `V` ビュー
  - `P` プロシージャ
- 代替として、`HELP DATABASE <databasename>` で特定のデータベースに含まれるオブジェクトの一覧表示が得られる

In [6]:
%sql SELECT databaseName, tableName, tableKind FROM dbc.tablesV WHERE databaseName = '{database}'

 * teradatasql://demo_user:***@host.docker.internal/?database=demo_user&dbs_port=1025&encryptdata=true
14 rows affected.


Unnamed: 0,DataBaseName,TableName,TableKind
0,demo_user,get_data,P
1,demo_user,mtcars,O
2,demo_user,cylinfo,O
3,demo_user,space_report,P
4,demo_user,ml__filter__171240287690655,V
5,demo_user,ml__select__171239028593018,V
6,demo_user,ml__join__171239094174217,V
7,demo_user,ml__aggregate_agg__171241953492892,V
8,demo_user,ml__assign__171239882822371,V
9,demo_user,ml__assign__171245801434918,V


### テーブル、ビューの内容を少し見る

- Teradataには `LIMIT <n>` 構文がなく、代わりに `TOP <n>` を用いる
- 類似の機能に `SAMPLE <n>` があるが、これは無作為に抽出を意図するため、場合によってはスキャン量が増えてしまうため、純粋な閲覧目的には適さない

In [7]:
# mtcars は "teradata-from-python.ipynb" で定義している
x = %sql SELECT TOP 20 * FROM mtcars
display(x.head())

x = %sql SELECT * FROM mtcars
display(x.head())

 * teradatasql://demo_user:***@host.docker.internal/?database=demo_user&dbs_port=1025&encryptdata=true
20 rows affected.


Unnamed: 0,id,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
1,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
2,Valiant,18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1
3,Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
4,Merc 230,22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2


 * teradatasql://demo_user:***@host.docker.internal/?database=demo_user&dbs_port=1025&encryptdata=true
32 rows affected.


Unnamed: 0,id,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2


### テーブルの定義

- `SHOW TABLE <tablename>` で、そのテーブルの定義（CREATE文）が 1行1列のデータで返ってくる
- 改行文字に "\r" が使われているので、Pythonで表示するには "\r" を "\n" に変換する

In [8]:
x = %sql SHOW TABLE mtcars
print(x.values[0,0].replace("\r", "\n"))

 * teradatasql://demo_user:***@host.docker.internal/?database=demo_user&dbs_port=1025&encryptdata=true
1 rows affected.
CREATE MULTISET TABLE DEMO_USER.mtcars ,FALLBACK ,
     NO BEFORE JOURNAL,
     NO AFTER JOURNAL,
     CHECKSUM = DEFAULT,
     DEFAULT MERGEBLOCKRATIO,
     MAP = TD_MAP1
     (
      id VARCHAR(1024) CHARACTER SET UNICODE NOT CASESPECIFIC,
      mpg FLOAT,
      cyl BIGINT,
      disp FLOAT,
      hp BIGINT,
      drat FLOAT,
      wt FLOAT,
      qsec FLOAT,
      vs BIGINT,
      am BIGINT,
      gear BIGINT,
      carb BIGINT)
NO PRIMARY INDEX ;


### 変数（列）定義の取得

- 変数定義をプログラムから取得したい場合、`dbc.columnsV` を参照する
- `ColumnType` は変数型を略称で示す。主な略称は以下：
  - `I`: 整数（4 byte）
  - `I1`, `I2`, `I8`: 整数（1, 2, 8 byte）
  - `F`: float型
  - `CV`: varchar型
  - `TS`: timestamp型
  - `JN`: JSON型
- `CharType`は文字列変数の種別を示す。主な値は以下：
  - 1: LATIN
  - 2: UNICODE
  - 0: 文字列型でない
- `ColumnLength`は値を格納に使うバイト数を示す
  - Unicode文字列は1文字に2バイト使うので、`varchar(10)` -> 20
- 代替として、`HELP TABLE <tablename>` で特定のテーブルの列一覧を得られる

In [9]:
q = f"""
SELECT
  DatabaseName, TableName, ColumnName,
  ColumnType, CharType, ColumnLength
FROM
  dbc.columnsV
WHERE
  tablename IN ('mtcars')
  AND DatabaseName = '{user}'
ORDER BY 2, 3
"""

%sql {q}

 * teradatasql://demo_user:***@host.docker.internal/?database=demo_user&dbs_port=1025&encryptdata=true
12 rows affected.


Unnamed: 0,DatabaseName,TableName,ColumnName,ColumnType,CharType,ColumnLength
0,demo_user,mtcars,am,I8,0,8
1,demo_user,mtcars,carb,I8,0,8
2,demo_user,mtcars,cyl,I8,0,8
3,demo_user,mtcars,disp,F,0,8
4,demo_user,mtcars,drat,F,0,8
5,demo_user,mtcars,gear,I8,0,8
6,demo_user,mtcars,hp,I8,0,8
7,demo_user,mtcars,id,CV,2,2048
8,demo_user,mtcars,mpg,F,0,8
9,demo_user,mtcars,qsec,F,0,8


### 接続しているユーザー名、データベース（スキーマ）の表示

In [10]:
%sql SELECT user, database

 * teradatasql://demo_user:***@host.docker.internal/?database=demo_user&dbs_port=1025&encryptdata=true
1 rows affected.


Unnamed: 0,User,Database
0,DEMO_USER,DEMO_USER


### 現在の日時の表示

- `date`, `current_date`, `current_time`, `current_timestamp`, `time` はいずれも関数で予約語
- `time` は 時間・分・秒をつなげた数値なので扱いに注意

In [11]:
%sql SELECT date, current_date, current_time, current_timestamp, time

 * teradatasql://demo_user:***@host.docker.internal/?database=demo_user&dbs_port=1025&encryptdata=true
1 rows affected.


Unnamed: 0,Date,Date.1,Current Time(0),Current TimeStamp(6),Time
0,2024-04-02,2024-04-02,02:26:23-04:00,2024-04-02 02:26:23.410000-04:00,22623.41


### 接続先のデータベースの変更

- `SET SESSION DATABASE <databasename>` で変更可能
- `ipython-sql` の接続先名には反映されないので、表示との不一致に注意

In [12]:
%sql SET SESSION DATABASE dbc
x = %sql SELECT user, database
display(x)

# データベースを移動したので、次のクエリはエラーになる
# %sql SELECT top 10 * FROM probe_t

# データベース名を明示すれば良い
x = %sql SELECT top 5 * FROM {database}.mtcars
display(x)

# 元に戻す
%sql SET SESSION DATABASE {database}
x = %sql SELECT USER, DATABASE
display(x)

 * teradatasql://demo_user:***@host.docker.internal/?database=demo_user&dbs_port=1025&encryptdata=true
1 rows affected.
 * teradatasql://demo_user:***@host.docker.internal/?database=demo_user&dbs_port=1025&encryptdata=true
1 rows affected.


Unnamed: 0,User,Database
0,DEMO_USER,DBC


 * teradatasql://demo_user:***@host.docker.internal/?database=demo_user&dbs_port=1025&encryptdata=true
5 rows affected.


Unnamed: 0,id,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
1,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
2,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
3,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
4,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4


 * teradatasql://demo_user:***@host.docker.internal/?database=demo_user&dbs_port=1025&encryptdata=true
1 rows affected.
 * teradatasql://demo_user:***@host.docker.internal/?database=demo_user&dbs_port=1025&encryptdata=true
1 rows affected.


Unnamed: 0,User,Database
0,DEMO_USER,DEMO_USER


### クエリの実行計画の表示

- `EXPLAIN`文を用いて、クエリの実行計画を表示できます
- 読み解くのは簡単ではありませんが、処理の効率性などを実行前に検証することが可能です
- 結果は１列からなる実行ステップですが、１セルが長い文字列になっているため、表示する場合はnumpyのArrayを表示すると読みやすいです

In [13]:
q = """
SELECT
  databaseName, count(*)
FROM
  dbc.tablesV
GROUP BY
  databaseName
"""

x = %sql EXPLAIN {q}
print(x.values[:,0])

 * teradatasql://demo_user:***@host.docker.internal/?database=demo_user&dbs_port=1025&encryptdata=true
72 rows affected.
[' This request is eligible for incremental planning and execution (IPE)'
 ' but does not meet cost thresholds. The following is the static plan'
 ' for the request.' '  1) First, we lock DBC.DBase in view TABLESV_SZ in'
 '     TD_DATADICTIONARYMAP for access, we lock DBC.TVM in view'
 '     TABLESV_SZ in TD_DATADICTIONARYMAP for access, and we lock DBC.OU'
 '     in view TABLESV_SZ in TD_DATADICTIONARYMAP for access.'
 '  2) Next, we do a two-AMP RETRIEVE step in TD_DATADICTIONARYMAP from'
 '     DBC.Zones in view TABLESV_SZ by way of unique index # 4 "DBC.Zones'
 '     in view TABLESV_SZ.ZoneNameI = ZONE" with no residual conditions'
 '     into Spool 2 (group_amps), which is built locally on the AMPs.'
 '     The size of Spool 2 is estimated with high confidence to be 1 row'
 '     (17 bytes).  The estimated time for this step is 0.01 seconds.'
 '  3) We do a grou