Python言語による Teradata への接続
===========================

Python から Teradata への接続方法としては、主に次の3つのライブラリが用意されています。
提供する機能は重複しているため、開発者の好みに合わせて選択していただくことが可能です。

<table>
  <tr>
    <th style="text-align:center">ライブラリ名</th>
    <th style="text-align:center">pip install</th>
    <th style="text-align:center">特徴</th>
  </tr>
  <tr>
    <td style="text-align:center"><a href="https://pypi.org/project/teradatasql/">teradatasql</a></td>
    <td style="text-align:center">○</td>
    <td style="text-align:left">
      <ur>
        <li><a href="https://www.python.org/dev/peps/pep-0249/">Pythonの標準データベースAPI</a>準拠
        <li>SQLによる分析、操作
      </ur>
    </td>
  </tr>
  <tr>
    <td style="text-align:center"><a href="https://pypi.org/project/teradatasqlalchemy/">teradatasqlalchemy</a></td>
    <td style="text-align:center">○</td>
    <td style="text-align:left">
      <ur>
        <li><a href="https://www.sqlalchemy.org/">SqlAlchemy</a>へのteradata拡張
        <li>SQLに加えて、SqlAlchemy独自のシンタックスによる分析、操作が可能
        <li><a href="https://pypi.org/project/ipython-sql/">ipython-sql</a> を介して、NotebookマジックによるSQLの実行が可能
      </ur>
    </td>
  </tr>
  <tr>
    <td style="text-align:center"><a href="https://pypi.org/project/teradataml/">teradataml</a></td>
    <td style="text-align:center">○</td>
    <td style="text-align:left">
      <ur>
        <li>SQLを直接書かず、pandas に近いシンタックスによる分析、操作が可能
        <li>scikit-learn に近いシンタックスで Teradataの機械学習機能の操作が可能
      </ur>        
    </td>
  </tr>
   
</table>

- 上記のすべては [Vantage Module for Jupyter](https://downloads.teradata.com/download/tools/vantage-modules-for-jupyter) に含まれています。Vantage Module for Jupyter は分析環境がプリインストールされた Docker Imageです。[Docker](https://www.docker.com/)を利用している場合には分析環境として利用可能です。
- `sqlalchemy` に対応しているので、結果として [ipython-sql](https://pypi.org/project/ipython-sql/) ライブラリが提供するノートブック用のマジックコマンドを用いることができます（ただし、互換性のためしばらくは sqlalchemy v1 を推奨）。これにより、Jupyterノートブック上でSQLの実行コードが簡素化されます。

本資料では、`teradatasql`, `teradatasqlalchemy` (+ `ipython-sql`), `teradataml` の３つのライブラリを用いた接続実行例をご紹介します。

In [None]:
%pip install pandas "sqlalchemy<2" ipython-sql teradatasql teradatasqlalchemy teradataml
# sqlalchemy version 2以上との連携に不具合が確認されています。しばらくは sqlalchemy version 1を推奨します

import warnings
warnings.simplefilter("ignore", (FutureWarning, DeprecationWarning))
# pandas, teradataml の警告を非表示にして見やすくするため設定
# 実行結果には影響しない

## 接続情報

データベースに接続時に指定する情報です。必要な値の種類は実際の環境に合わせて変わります。

- `host` データベースのIPアドレス（ClearScape Experience上で開いたノートブックなら "host.docker.internal"）
- `user` ユーザー名
- `database` 規定データベース名
- `password` ユーザーに対応するパスワード
- `dbs_port` データベースのポート番号（デフォルト値：1025）
- `database` 接続先のデータベース名（省略するとユーザーデータベースに接続）
- `encryptdata` データベースとの通信を暗号化するか否か（"true" 推奨）

In [2]:
from getpass import getpass

host = "host.docker.internal"
user = "demo_user"
database = "demo_user"
password = getpass("Password > ")
dbs_port = 1025
encryptdata = "true"

Password >  ········


## Teradatasql

- `pip install` でインストール可能 (https://pypi.org/project/teradatasql/)
- Pythonの標準的なデータベースAPIに準拠（[PEP249](https://www.python.org/dev/peps/pep-0249/)）
- Pandas の `read_sql` 関数でクエリの結果をDataFrameへの変換が可能

In [3]:
from urllib.parse import quote_plus
import pandas as pd
import teradatasql
print("teradatasql version:", teradatasql.vernumber.sVersionNumber)

teradatasql version: 17.20.0.0


In [4]:
# 標準的なPython DB API を利用する例

with teradatasql.connect(host=host, user=user, password=password, database=database,
                         dbs_port=dbs_port, encryptdata=encryptdata) as conn:
  c = conn.cursor()
  q = """SELECT * FROM dbc.dbcInfoV"""   # Teradataのバージョン情報を取得するクエリ
  c.execute(q)
  for row in c:
    print(row)

['VERSION', '17.20.03.23']
['LANGUAGE SUPPORT MODE', 'Standard']
['RELEASE', '17.20.03.23']


In [5]:
# Pandas の read_sqlを利用する例
# 最新のpandasでは警告が出ますが動作はします。
# より安全な方法は 下記のSQLAlchemyを用いて接続する方法です。
with teradatasql.connect(host=host, user=user, password=password, database=database,
                         dbs_port=dbs_port, encryptdata=encryptdata) as conn:
  q = """SELECT * FROM dbc.dbcInfoV"""   # Teradataのバージョン情報を取得するクエリ
  x = pd.read_sql(q, conn)
x

  x = pd.read_sql(q, conn)


Unnamed: 0,InfoKey,InfoData
0,VERSION,17.20.03.23
1,LANGUAGE SUPPORT MODE,Standard
2,RELEASE,17.20.03.23


## TeradatasqlAlchemy

- `pip install` でインストール可能 (https://pypi.org/project/teradatasqlalchemy/)
- [SqlAlchemy](https://www.sqlalchemy.org/) への Teradata対応

In [6]:
# SqlAlchemy 形式の接続文字列
# パスワードに特殊文字が含まれるとエラーとなるので、URLエンコードして渡す
connstr = (
  f"teradatasql://{user}:{quote_plus(password)}@{host}/?"
  f"&database={database}"
  f"&dbs_port={dbs_port}"
  f"&encryptdata={encryptdata}"
)

In [7]:
# SqlAlchemy を用いたデータベース接続, クエリ実行の例

from sqlalchemy import create_engine

engine = create_engine(connstr)
with engine.connect() as conn:
  q = """SELECT * FROM dbc.dbcInfoV"""   # Teradataのバージョン情報を取得するクエリ
  x = pd.read_sql(q, conn)
x  

Unnamed: 0,InfoKey,InfoData
0,VERSION,17.20.03.23
1,LANGUAGE SUPPORT MODE,Standard
2,RELEASE,17.20.03.23


## IPython-sql 

- ノートブック上で使えるSQLマジックコマンドを提供するオープンソースライブラリ (https://github.com/catherinedevlin/ipython-sql)
- バックエンドでSqlAlchemyを用いているので、`teradatasqlalchemy` を導入することで Teradataの操作にも使うことができる
- クエリの結果を全て取り込むので、極端に大きな抽出には向かない

In [8]:
%load_ext sql
%config SqlMagic.autopandas=True
# `autopandas=True` に設定すると、結果をDataFrameで返すようになり、後の操作に便利

# 一度接続文字列を渡すと、接続を保持してくれるので、次回以降クエリだけを渡せば良くなります
%sql {connstr}

In [9]:
%sql SELECT * FROM dbc.dbcInfoV

 * teradatasql://demo_user:***@host.docker.internal/?database=demo_user&dbs_port=1025&encryptdata=true
3 rows affected.


Unnamed: 0,InfoKey,InfoData
0,VERSION,17.20.03.23
1,LANGUAGE SUPPORT MODE,Standard
2,RELEASE,17.20.03.23


In [10]:
# 結果を変数 (pandas DataFrame) に格納することも可能
x = %sql SELECT * FROM dbc.dbcInfoV
x["foo"] = "bar"
x

 * teradatasql://demo_user:***@host.docker.internal/?database=demo_user&dbs_port=1025&encryptdata=true
3 rows affected.


Unnamed: 0,InfoKey,InfoData,foo
0,VERSION,17.20.03.23,bar
1,LANGUAGE SUPPORT MODE,Standard,bar
2,RELEASE,17.20.03.23,bar


In [11]:
# 長いクエリの場合、一度クエリを文字列に格納して実行する方法と

q = """
WITH tmp AS (
  SELECT 1 AS a
)
,tmp2 AS (
  SELECT 1 AS x FROM tmp
  UNION ALL
  SELECT 2 AS x FROM tmp
  UNION ALL
  SELECT 3 AS x FROM tmp
)
SELECT
   x
  ,x*x AS square_x
FROM
  tmp2
"""

# {} で囲った中身はPythonで解釈してからクエリとして渡される
%sql {q}

 * teradatasql://demo_user:***@host.docker.internal/?database=demo_user&dbs_port=1025&encryptdata=true
3 rows affected.


Unnamed: 0,x,square_x
0,1,1
1,2,4
2,3,9


In [12]:
%%sql

/* セルマジック(%%)を用いてセル全体をクエリとして渡す方法がある */
WITH tmp AS (
  SELECT 1 AS a
)
,tmp2 AS (
  SELECT 1 AS x FROM tmp
  UNION ALL
  SELECT 2 AS x FROM tmp
  UNION ALL
  SELECT 3 AS x FROM tmp
)
SELECT
   x
  ,x*x AS square_x
FROM
  tmp2

 * teradatasql://demo_user:***@host.docker.internal/?database=demo_user&dbs_port=1025&encryptdata=true
3 rows affected.


Unnamed: 0,x,square_x
0,1,1
1,2,4
2,3,9


In [13]:
# クエリの所要時間を簡単に測りたい場合に, %time コマンドを併用することもできる

q = """SELECT * FROM dbc.dbcInfoV"""
x = %time %sql {q}
x

 * teradatasql://demo_user:***@host.docker.internal/?database=demo_user&dbs_port=1025&encryptdata=true
3 rows affected.
CPU times: user 4.17 ms, sys: 916 µs, total: 5.09 ms
Wall time: 24.9 ms


Unnamed: 0,InfoKey,InfoData
0,VERSION,17.20.03.23
1,LANGUAGE SUPPORT MODE,Standard
2,RELEASE,17.20.03.23


## TeradataML

- `pip install` でインストール可能（https://pypi.org/project/teradataml/）
- データフレームを操作する感覚でデータベースを操作するシンタックスを提供
- Scikit-learn に近い感覚で機械学習モデルを構築するシンタックスを提供
- Pandas データフレームからTeradataへのデータロードに便利

In [14]:
from io import StringIO
import pandas as pd
from sqlalchemy import create_engine
from teradataml import create_context, remove_context, in_schema, DataFrame, copy_to_sql

# 最初に「コンテキスト」を作成して使います
# コンテキストの作成には、SqlAlchemyのエンジンを用いるのが楽です
engine = create_engine(connstr)
context = create_context(tdsqlengine=engine, temp_database_name=user)
# temp_database_name には、操作の過程で作成される中間テーブル・ビューの保存場所を指定します。
# ユーザーが CREATE VIEW, CREATE TABLE を行う権限を持っているデータベースを指定します
# 通常は、ユーザー名を指定することで十分です。

In [15]:
# ローカルのデータをteradataのテーブルへ格納
# 例として、`mtcars`データを用いる

data = """
"id","mpg","cyl","disp","hp","drat","wt","qsec","vs","am","gear","carb"
"Mazda RX4",21,6,160,110,3.9,2.62,16.46,0,1,4,4
"Mazda RX4 Wag",21,6,160,110,3.9,2.875,17.02,0,1,4,4
"Datsun 710",22.8,4,108,93,3.85,2.32,18.61,1,1,4,1
"Hornet 4 Drive",21.4,6,258,110,3.08,3.215,19.44,1,0,3,1
"Hornet Sportabout",18.7,8,360,175,3.15,3.44,17.02,0,0,3,2
"Valiant",18.1,6,225,105,2.76,3.46,20.22,1,0,3,1
"Duster 360",14.3,8,360,245,3.21,3.57,15.84,0,0,3,4
"Merc 240D",24.4,4,146.7,62,3.69,3.19,20,1,0,4,2
"Merc 230",22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2
"Merc 280",19.2,6,167.6,123,3.92,3.44,18.3,1,0,4,4
"Merc 280C",17.8,6,167.6,123,3.92,3.44,18.9,1,0,4,4
"Merc 450SE",16.4,8,275.8,180,3.07,4.07,17.4,0,0,3,3
"Merc 450SL",17.3,8,275.8,180,3.07,3.73,17.6,0,0,3,3
"Merc 450SLC",15.2,8,275.8,180,3.07,3.78,18,0,0,3,3
"Cadillac Fleetwood",10.4,8,472,205,2.93,5.25,17.98,0,0,3,4
"Lincoln Continental",10.4,8,460,215,3,5.424,17.82,0,0,3,4
"Chrysler Imperial",14.7,8,440,230,3.23,5.345,17.42,0,0,3,4
"Fiat 128",32.4,4,78.7,66,4.08,2.2,19.47,1,1,4,1
"Honda Civic",30.4,4,75.7,52,4.93,1.615,18.52,1,1,4,2
"Toyota Corolla",33.9,4,71.1,65,4.22,1.835,19.9,1,1,4,1
"Toyota Corona",21.5,4,120.1,97,3.7,2.465,20.01,1,0,3,1
"Dodge Challenger",15.5,8,318,150,2.76,3.52,16.87,0,0,3,2
"AMC Javelin",15.2,8,304,150,3.15,3.435,17.3,0,0,3,2
"Camaro Z28",13.3,8,350,245,3.73,3.84,15.41,0,0,3,4
"Pontiac Firebird",19.2,8,400,175,3.08,3.845,17.05,0,0,3,2
"Fiat X1-9",27.3,4,79,66,4.08,1.935,18.9,1,1,4,1
"Porsche 914-2",26,4,120.3,91,4.43,2.14,16.7,0,1,5,2
"Lotus Europa",30.4,4,95.1,113,3.77,1.513,16.9,1,1,5,2
"Ford Pantera L",15.8,8,351,264,4.22,3.17,14.5,0,1,5,4
"Ferrari Dino",19.7,6,145,175,3.62,2.77,15.5,0,1,5,6
"Maserati Bora",15,8,301,335,3.54,3.57,14.6,0,1,5,8
"Volvo 142E",21.4,4,121,109,4.11,2.78,18.6,1,1,4,2
"""
mtcars = pd.read_csv(StringIO(data))
display(mtcars)

Unnamed: 0,id,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
5,Valiant,18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1
6,Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
7,Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2
8,Merc 230,22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2
9,Merc 280,19.2,6,167.6,123,3.92,3.44,18.3,1,0,4,4


In [16]:
# copy_to_sql 関数でテーブルを作成
# pandasのバージョンにより警告文が発生されます
copy_to_sql(mtcars, "mtcars", if_exists="replace", index=False)

In [17]:
# テーブル・ビューを指定してデータフレームとして取得
# ここで、df は teradataml のデータフレームである点に注意
# ノートブック上の表示がpandas.DataFrameと違います（列名の背景がグレイっぽいのがteradataml）
df = DataFrame("mtcars")
print(type(df))
df

<class 'teradataml.dataframe.dataframe.DataFrame'>


id,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
Valiant,18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1
Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
Merc 230,22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2
Merc 280,19.2,6,167.6,123,3.92,3.44,18.3,1,0,4,4
Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2
Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4


In [18]:
# テーブルが規定データベースにない場合
df = DataFrame(in_schema("dbc", "dbcInfoV"))
display(df)

# または (ダブルクォートが必要)
df = DataFrame('"dbc"."dbcInfoV"')
df

InfoKey,InfoData
LANGUAGE SUPPORT MODE,Standard
RELEASE,17.20.03.23
VERSION,17.20.03.23


InfoKey,InfoData
LANGUAGE SUPPORT MODE,Standard
RELEASE,17.20.03.23
VERSION,17.20.03.23


In [19]:
# クエリからデータフレームを取得することもできます
df = DataFrame(query="""SELECT InfoData FROM dbc.dbcInfoV""")
df

InfoData
Standard
17.20.03.23
17.20.03.23


### Pandasライクな In-DBデータ処理

In [20]:
x = DataFrame("mtcars")  # mtcars を例に使用

# テーブルのメタ情報
print(x.shape)
print()
print(x.columns)
print()
print(x.dtypes)

(32, 12)

['id', 'mpg', 'cyl', 'disp', 'hp', 'drat', 'wt', 'qsec', 'vs', 'am', 'gear', 'carb']

id        str
mpg     float
cyl       int
disp    float
hp        int
drat    float
wt      float
qsec    float
vs        int
am        int
gear      int
carb      int


In [21]:
# teradataml.DataFrame はデータベース上のデータへのマッピングを保持しています。
# 実装上は、クエリの形で定義されているだけで、データの実態は（少量のサンプルを除いて）抽出しません
x.show_query()

'select * from "mtcars"'

In [22]:
# 全件抽出するに .to_pandas メソッドを用いてローカル環境のpandas.DataFrameに変換します
# 大量データに使用するとネットワークを逼迫したり大量メモリを消費する可能性があるので注意
x.to_pandas()

Unnamed: 0,id,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
0,Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4
1,Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
2,Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
3,Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
4,Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
5,Valiant,18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1
6,Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
7,Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2
8,Merc 230,22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2
9,Merc 280,19.2,6,167.6,123,3.92,3.44,18.3,1,0,4,4


In [23]:
# あるいは、.to_csv によりファイルに書き込むことも可能です
# 大量データに使用する場合は注意
x.to_csv("mtcars.csv", all_rows=True)
print()

# 作成したファイルの冒頭を表示
!head mtcars.csv


Data is successfully exported into mtcars.csv

id,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Mazda RX4,2.1e+01,6,1.6e+02,110,3.9e+00,2.62e+00,1.646e+01,0,1,4,4
Mazda RX4 Wag,2.1e+01,6,1.6e+02,110,3.9e+00,2.875e+00,1.702e+01,0,1,4,4
Datsun 710,2.28e+01,4,1.08e+02,93,3.85e+00,2.32e+00,1.861e+01,1,1,4,1
Hornet 4 Drive,2.14e+01,6,2.58e+02,110,3.08e+00,3.215e+00,1.944e+01,1,0,3,1
Hornet Sportabout,1.87e+01,8,3.6e+02,175,3.15e+00,3.44e+00,1.702e+01,0,0,3,2
Valiant,1.81e+01,6,2.25e+02,105,2.76e+00,3.46e+00,2.022e+01,1,0,3,1
Duster 360,1.43e+01,8,3.6e+02,245,3.21e+00,3.57e+00,1.584e+01,0,0,3,4
Merc 240D,2.44e+01,4,1.467e+02,62,3.69e+00,3.19e+00,2e+01,1,0,4,2
Merc 230,2.28e+01,4,1.408e+02,95,3.92e+00,3.15e+00,2.29e+01,1,0,4,2


In [24]:
# 列の抽出
display(x.filter(["id", "wt"], axis=1))

# あるいは
x[["id", "wt"]]

id,wt
Datsun 710,2.32
Hornet Sportabout,3.44
Valiant,3.46
Duster 360,3.57
Merc 230,3.15
Merc 280,3.44
Merc 240D,3.19
Hornet 4 Drive,3.215
Mazda RX4 Wag,2.875
Mazda RX4,2.62


id,wt
Datsun 710,2.32
Hornet Sportabout,3.44
Valiant,3.46
Duster 360,3.57
Merc 230,3.15
Merc 280,3.44
Merc 240D,3.19
Hornet 4 Drive,3.215
Mazda RX4 Wag,2.875
Mazda RX4,2.62


In [25]:
# 行の抽出
x[x["cyl"] > 5]

id,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1
Valiant,18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1
Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4
Merc 280,19.2,6,167.6,123,3.92,3.44,18.3,1,0,4,4
Merc 450SE,16.4,8,275.8,180,3.07,4.07,17.4,0,0,3,3
Merc 450SL,17.3,8,275.8,180,3.07,3.73,17.6,0,0,3,3
Merc 280C,17.8,6,167.6,123,3.92,3.44,18.9,1,0,4,4
Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2
Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4
Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4


In [26]:
# 並べ替え
x.sort(["cyl", "mpg"])

id,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb
Volvo 142E,21.4,4,121.0,109,4.11,2.78,18.6,1,1,4,2
Toyota Corona,21.5,4,120.1,97,3.7,2.465,20.01,1,0,3,1
Merc 230,22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2
Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1
Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2
Porsche 914-2,26.0,4,120.3,91,4.43,2.14,16.7,0,1,5,2
Fiat X1-9,27.3,4,79.0,66,4.08,1.935,18.9,1,1,4,1
Honda Civic,30.4,4,75.7,52,4.93,1.615,18.52,1,1,4,2
Lotus Europa,30.4,4,95.1,113,3.77,1.513,16.9,1,1,5,2
Fiat 128,32.4,4,78.7,66,4.08,2.2,19.47,1,1,4,1


In [27]:
# 変数を定義
x = x.assign(mpgx2=x["mpg"] * 2)
x

id,mpg,cyl,disp,hp,drat,wt,qsec,vs,am,gear,carb,mpgx2
Datsun 710,22.8,4,108.0,93,3.85,2.32,18.61,1,1,4,1,45.6
Hornet Sportabout,18.7,8,360.0,175,3.15,3.44,17.02,0,0,3,2,37.4
Valiant,18.1,6,225.0,105,2.76,3.46,20.22,1,0,3,1,36.2
Duster 360,14.3,8,360.0,245,3.21,3.57,15.84,0,0,3,4,28.6
Merc 230,22.8,4,140.8,95,3.92,3.15,22.9,1,0,4,2,45.6
Merc 280,19.2,6,167.6,123,3.92,3.44,18.3,1,0,4,4,38.4
Merc 240D,24.4,4,146.7,62,3.69,3.19,20.0,1,0,4,2,48.8
Hornet 4 Drive,21.4,6,258.0,110,3.08,3.215,19.44,1,0,3,1,42.8
Mazda RX4 Wag,21.0,6,160.0,110,3.9,2.875,17.02,0,1,4,4,42.0
Mazda RX4,21.0,6,160.0,110,3.9,2.62,16.46,0,1,4,4,42.0


In [28]:
# 結合
tmp = pd.DataFrame({"cyl": [4, 6, 8], "cyl_name": ["four", "six", "eight"], "cyl_name_ja": ["四", "六", "八"]})
copy_to_sql(tmp, "cylinfo", if_exists="replace", index=False, primary_index=None)

y = DataFrame("cylinfo")
y

cyl,cyl_name,cyl_name_ja
8,eight,八
6,six,六
4,four,四


In [29]:
z = x.join(y, on="cyl", how="inner", lsuffix="x", rsuffix="y")
z[["id", "x_cyl", "cyl_name", "cyl_name_ja"]]

id,x_cyl,cyl_name,cyl_name_ja
Datsun 710,4,four,四
Hornet Sportabout,8,eight,八
Valiant,6,six,六
Duster 360,8,eight,八
Merc 230,4,four,四
Merc 280,6,six,六
Merc 240D,4,four,四
Hornet 4 Drive,6,six,六
Mazda RX4 Wag,6,six,六
Mazda RX4,6,six,六


In [30]:
# 集約
x.groupby("cyl").agg({
  "mpg": ["min", "mean", "max", "count"],
  "wt": ["mean", "median"]
})

cyl,min_mpg,mean_mpg,max_mpg,count_mpg,mean_wt,median_wt
6,17.8,19.74285714285714,21.4,7,3.117142857142857,3.215
4,21.4,26.663636363636364,33.9,11,2.285727272727273,2.2
8,10.4,15.100000000000003,19.2,14,3.999214285714287,3.755


In [31]:
# Window関数 (グループ別の平均)
x[["cyl", "mpg"]].window(partition_columns="cyl").mean().sort("cyl").to_pandas()

Unnamed: 0,cyl,mpg,cyl_mean,mpg_mean
0,4,27.3,4.0,26.663636
1,4,21.4,4.0,26.663636
2,4,22.8,4.0,26.663636
3,4,30.4,4.0,26.663636
4,4,22.8,4.0,26.663636
5,4,26.0,4.0,26.663636
6,4,30.4,4.0,26.663636
7,4,24.4,4.0,26.663636
8,4,21.5,4.0,26.663636
9,4,33.9,4.0,26.663636


In [32]:
# Window関数 (累積和)
(
  x[["cyl", "wt"]]
    .window(partition_columns="cyl", order_columns="wt", window_end_point=0)
    .sum()
    .sort(["cyl", "wt"])
    .to_pandas()
)

Unnamed: 0,cyl,wt,cyl_sum,wt_sum
0,4,1.513,4,1.513
1,4,1.615,8,3.128
2,4,1.835,12,4.963
3,4,1.935,16,6.898
4,4,2.14,20,9.038
5,4,2.2,24,11.238
6,4,2.32,28,13.558
7,4,2.465,32,16.023
8,4,2.78,36,18.803
9,4,3.15,40,21.953
