# Redshift ML ワークショップ 
---

### ワークショップの概要
本ワークショップでは、Amazon SageMaker Notebook Instances 上で動作する Jupyter ノートブックを使用します。このワークショップでは、3 種類のユーザーのペルソナに基づいて 3 つのラボを取り上げます。   
1. **データアナリスト - 機械学習にはあまり精通していないユーザー**  
2. **高度なデータアナリスト - 機械学習にも多少精通しているユーザー**  
3. **データサイエンティスト -  機械学習のエキスパート**  


### ラボのコンポーネント
    
* __Jupyter Notebook__:  
あなたは今、Jupyter ノートブックの中にいます。これは、様々な種類のコードを実行し、その結果を見ながら対話型で確認することができる探索的な環境です。このワークショップでは、3 つのラボがそれぞれ 1 つのノートブックになっています。これらのノートブックは、各ラボの上部にある目次からアクセスできます。

* __Amazon SageMaker Notebook Instance__:  
このノートブックは、Amazon SageMakerノートブックインスタンス上で実行されています。これは、フルマネージドの Amazon EC2 インスタンスで、事前に設定された Jupyter ノートブックサーバと、`conda`ライブラリのセットを持っています。このワークショップのラボに必要な依存関係はすべてすでに存在しています。

* __`conda` Python Kernel__:  
カーネルは、インタラクティブなコードを受け取って実行し、ユーザーに出力を返すプロセスです。ノートブックのフロントエンドは，カーネルのバックエンドと通信します。このワークショップでは、`conda_python3`カーネルを使用します。

[Project Jupyter]: https://jupyter.org/
[SageMaker example notebooks]: https://github.com/awslabs/amazon-sagemaker-examples


### Tips:
 
* 灰色の `code` のセルを上から下への順に実行していってください
* 各セルには、実行すると何が起こるかを説明するタイトルテキストがあります
* 最新のブラウザであれば動作する見込みですが、 Chrome の利用をを推奨します
* ネットワークの接続性が悪いと、ノートブックの操作に若干の遅れが生じることがあります
* セルが実行されると、左側のテキストが `In [*]:` に変わります
* セルのコードが終了すると、左側のテキストが `In [19]:` に変わります 
    * 数字はセルが実行された順番を示します
* **最後に** - セルの再実行は自由です 
    * セルを複数回実行したり、順番を間違えたり、再実行しても問題はありません

## 1. お客様のテストアカウント固有の情報を修正
Redshift クラスターにアクセスするための認証情報を設定します
このステップでは、`host_name` を Redshift クラスターの `hostname` に置き換えてください

また、このノートブックに必要な python のライブラリをいくつかインストールします

-----
**期待されるアウトプット**: なし

In [1]:
%%bash


echo "{
  \"user_name\": \"awsuser\",
  \"password\": \"Awsuser123\",
  \"host_name\": \"redshift-ml-demo.cehdaz7u3h70.us-west-2.redshift.amazonaws.com\",
  \"port_num\": \"5439\",
  \"db_name\": \"dev\"
}" > redshift-ml-workshop.creds

cat redshift-ml-workshop.creds

pip install psycopg2-binary
pip install sqlalchemy 
pip install simplejson
pip install ipython-sql




{
  "user_name": "awsuser",
  "password": "Awsuser123",
  "host_name": "redshift-ml-demo.cehdaz7u3h70.us-west-2.redshift.amazonaws.com",
  "port_num": "5439",
  "db_name": "dev"
}


You should consider upgrading via the '/home/ec2-user/anaconda3/envs/python3/bin/python -m pip install --upgrade pip' command.
You should consider upgrading via the '/home/ec2-user/anaconda3/envs/python3/bin/python -m pip install --upgrade pip' command.
You should consider upgrading via the '/home/ec2-user/anaconda3/envs/python3/bin/python -m pip install --upgrade pip' command.
You should consider upgrading via the '/home/ec2-user/anaconda3/envs/python3/bin/python -m pip install --upgrade pip' command.


## 2. Redshift クラスターへの接続とクエリの実行
Redshift の接続を管理するために、sqlalchemy と ipython-sql の Python ライブラリを使用します
このテストが完了すると、ラボの残りの部分に進むことができます


-----

接続するために、 `hostname` の部分をクラスターエンドポイント名で置き換えます

**サンプルアウトプット**:
`current_user`	`version`
awsuser	PostgreSQL 8.0.2 on i686-pc-linux-gnu, compiled by GCC gcc (GCC) 3.4.2 20041017 (Red Hat 3.4.2-6.fc3), Redshift 1.0.23274

In [2]:
%reload_ext sql

%sql postgresql+psycopg2://awsuser:Awsuser123@hostname:5439/dev
#SELECT current_user, version();

In [3]:
%sql SELECT current_user, version();

 * postgresql+psycopg2://awsuser:***@redshift-ml-demo.cehdaz7u3h70.us-west-2.redshift.amazonaws.com:5439/dev
1 rows affected.


current_user,version
awsuser,"PostgreSQL 8.0.2 on i686-pc-linux-gnu, compiled by GCC gcc (GCC) 3.4.2 20041017 (Red Hat 3.4.2-6.fc3), Redshift 1.0.23274"


# Lab 1 - データアナリストユーザー 
---

### データセットの情報: ###
### 銀行のマーケティングデータセット ###

このデータは、ポルトガルの銀行機関のダイレクトマーケティングキャンペーンに関連するものです。このマーケティングキャンペーンは、電話での問い合わせが基本でした。商品（銀行の定期預金）を申し込む（「はい」）か、申し込まない（「いいえ」）かを確認するために、同じ顧客に複数回接触することがしばしばありました

この分類のシナリオのゴールは、顧客が定期預金 （変数 y) を申し込むかどうか (yes/no) を予測することです

### 属性情報 / 入力変数 / 銀行の顧客データ: ###
1 - age (numeric)   
2 - job  
3 - marital   
4 - education   
5 - default  
6 - housing  
7 - loan  
8 - contact 
9 - month  
10 - day_of_week  
11 - duration  
12 - campaign  
13 - pdays  
14 - previous  
15 - poutcome  
16 - emp.var.rate  
17 - cons.price.idx  
18 - cons.conf.idx  
19 - euribor3m  
20 - nr.employed  

出力変数 :  
21 - y - 顧客は定期預金を契約していますか? (binary: 'yes','no')  


**参考:** https://archive.ics.uci.edu/ml/datasets/bank+marketing
    
サンプルデータセットは `bank_details_training` と `bank_details_inference` テーブルに既にロードされています

また、デフォルトの実行時間(90分)で作成されたモデルが Redshift クラスターにあらかじめ組み込まれています。このワークショップでは、待ち時間を短縮するために、`MAX_RUNTIME` オプションを `９００ 秒` に設定して、修正版の create model を実行します

推論クエリには、事前に作成されたモデルによって作成された SQL 関数を使用します


#### ユースケース 1 の CREATE MODEL の変更 - データアナリストユーザー

In [None]:
%%sql
/* -- Create model for bank marketing use case with max runtime 900 secs -- */
 CREATE MODEL model_bank_marketing_v2
FROM (
    SELECT age
        ,job
        ,marital
        ,education
        ,"default"
        ,housing
        ,loan
        ,contact
        ,month
        ,day_of_week
        ,duration
        ,campaign
        ,pdays
        ,previous
        ,poutcome
        ,emp_var_rate
        ,cons_price_idx
        ,cons_conf_idx
        ,euribor3m
        ,nr_employed
        ,y
    FROM bank_details_training
    ) TARGET y 
FUNCTION func_model_bank_marketing_v2 
IAM_ROLE '<< replace IAM role arn >>' 
SETTINGS(S3_BUCKET '<< replace S3 output bucket >>', MAX_RUNTIME 900);


#### ユースケース 1 の Show MODEL

In [None]:
%%sql
/* -- Show all models -- */
 SHOW model ALL;

In [None]:
%%sql
/* -- Show prebuilt model for bank marketing  -- */
 SHOW model model_bank_marketing;

In [None]:
%%sql
/* -- Show model for bank marketing created during the workshop -- */
 SHOW model model_bank_marketing_v2;

#### モデル `model_bank_marketing` の推論/精度の確認
ここでは、モデルの精度をチェックするためのクエリを実行します。ここでは、事前に構築されたモデルによって作成された関数を推論に使用し、推論テーブル `bank_details_inference` のデータセットに対して実行します。ワークショップで作成したモデルが作成した関数に対しても、自由に実行してみてください

In [None]:
%%sql

/* -- Check accuracy for bank marketing using prebuilt model function  -- */
 WITH infer_data
AS (
	SELECT y AS actual
		,func_model_bank_marketing(age, job, marital, education, "default", housing, loan, contact, month, day_of_week, duration, campaign, pdays, previous, poutcome, emp_var_rate, cons_price_idx, cons_conf_idx, euribor3m, nr_employed) AS predicted
		,CASE 
			WHEN actual = predicted
				THEN 1::INT
			ELSE 0::INT
			END AS correct
	FROM bank_details_inference
	)
	,aggr_data
AS (
	SELECT SUM(correct) AS num_correct
		,COUNT(*) AS total
	FROM infer_data
	)
SELECT (num_correct::FLOAT / total::FLOAT) AS accuracy
FROM aggr_data;

#### 定期預金を申し込む顧客数と申し込まない顧客数の予測
このクエリは、推論テーブル `bank_details_inference` のデータセットに対して実行しています

#### 予測クエリのサンプルアウトプット

```sql
     deposit_prediction     | count
----------------------------+-------
 Yes-will-do-a-term-deposit |  5362
 No-term-deposit            | 35826
(2 rows)

```

In [None]:
%%sql 
/* -- Predict whether the customer will do a term deposit or not  -- */
WITH term_data AS ( SELECT func_model_bank_marketing( age,job,marital,education,"default",housing,loan,contact,month,day_of_week,duration,campaign,pdays,previous,poutcome,emp_var_rate,cons_price_idx,cons_conf_idx,euribor3m,nr_employed) AS predicted 
FROM bank_details_inference )
SELECT 
CASE WHEN predicted = 'Y'  THEN 'Yes-will-do-a-term-deposit'
     WHEN predicted = 'N'  THEN 'No-term-deposit'
     ELSE 'Neither' END as deposit_prediction,
COUNT(1) AS count
from term_data GROUP BY 1;

# Lab 2 - 高度なデータアナリストユーザー 
----  

### データセットの情報: ####
### アイリスデータセット ###

こちらはおそらくパターン認識の文献の中で最もよく知られているデータベースでしょう。フィッシャーの論文はこの分野の古典であり、現在でも頻繁に参照されています。(例えば、Duda & Hart を参照してください。) 
このデータセットには、それぞれ 50 個のインスタンスからなる 3 つのクラスが含まれており、各クラスはアイリスの種類を表しています。1 つのクラスは他の 2 つのクラスから線形分離可能ですが、後者はお互いに線形分離できません

*予測される属性:* アヤメのクラス


属性情報:

1. がくへんの長さ (cm)
2. がくへんの幅 (cm)
3. 花びらの長さ (cm)
4. 花びらの幅 (cm)
5. クラス:
-- Iris Setosa
-- Iris Versicolour
-- Iris Virginica */

ユーザーは、create model の中で `PROBLEM_TYPE` と `OBJECTIVE` とった情報を指定してモデルを作成できます 

SageMaker Autopilot は、すべてのアルゴリズムを試すのではなく、ユーザーが指定した `PROBLEM_TYPE` と `OBJECTIVE` に応じたアルゴリズムを選択します 

この例では、 `PROBLEM_TYPE` として `multiclass classification` を指定します

SageMaker Autopilot でサポートされているすべての PROBLEM_TYPE についてはこちらを参照 - https://docs.aws.amazon.com/sagemaker/latest/dg/autopilot-automate-model-development-problem-types.html 

`OBJECTIVE` は  `accuracy` を指定します。 このメトリクスは、機械学習システムの予測品質を測定するために使用されます

*デフォルト値:* MSE: 回帰用, F1: for バイナリ分類用, Accuracy: for マルチクラス分類用

サポートされるすべての "objectives" は以下を参照: https://docs.aws.amazon.com/redshift/latest/dg/r_CREATE_MODEL.html#r_user_guidance_create_model


サンプルデータセットは `iris_data_train` と `iris_data_test` テーブルに既にロードされています

また、デフォルトの実行時間(90分)で作成されたモデルが Redshift クラスターにあらかじめ組み込まれています。このワークショップでは、待ち時間を短縮するために、`MAX_RUNTIME` オプションを `９００ 秒` に設定して、修正版の create model を実行します

推論クエリには、事前に作成されたモデルによって作成された SQL 関数を使用します

実行前に、 `IAM role` と `S3 bucket` は必ず変更してください


#### 高度なデータアナリストユーザー向けの Create Model ####

In [1]:
%%sql
/* -- Create model for iris use case - with max runtime 900 secs -- */
 CREATE MODEL model_iris_v2
FROM (
SELECT 
   Id,
   SepalLengthCm,
   SepalWidthCm,
   PetalLengthCm,
   PetalWidthCm,
   Species
FROM iris_data_train
)
TARGET Species 
FUNCTION func_model_iris_v2 IAM_ROLE '<< replace IAM role arn >>' 
PROBLEM_TYPE multiclass_classification 
OBJECTIVE 'accuracy' 
SETTINGS (S3_BUCKET '<< replace S3 output bucket >>', MAX_RUNTIME 900);



UsageError: Cell magic `%%sql` not found.


### ユースケース 2 のアイリスデータセットのための Show model

In [None]:
%%sql
/* -- show pre built model for iris -- */
 SHOW model model_iris;

In [None]:
%%sql 
/* -- show model for model created during the workshop -- */
 SHOW model model_iris_v2;

#### モデル `model_iris` の推論/精度の確認
ここでは、モデルの精度を確認するためのクエリを実行します。ここでは、事前に作成したモデルが作成した関数を推論に使用し、推論テーブル `iris_data_test` のデータセットに対して実行します 

ワークショップで作成したモデルが作成した関数に対しても、自由に実行してみてください

In [None]:
%%sql
/* -- Inference query for iris data set -- */
WITH infer_data AS (
    SELECT Species AS label,
        func_model_iris(Id, SepalLengthCm, SepalWidthCm, PetalLengthCm, PetalWidthCm) AS predicted,
        CASE WHEN label is NULL THEN NULL ELSE label END AS actual,
        CASE WHEN actual = predicted THEN 1::INT
        ELSE 0::INT END AS correct
    FROM iris_data_test
),
aggr_data AS (
    SELECT SUM(correct) as num_correct, COUNT(*) as total FROM infer_data
)
SELECT (num_correct::float/total::float) AS accuracy FROM aggr_data;

#### テストデータセットを使ってアイリスの花のクラスを予測 
推論テーブル `iris_data_set` のデータセットに対して、このクエリを実行します

#### 予測のサンプルアウトプット

```sql
dev-# from class_data GROUP BY 1;
  class_distribution   | count
-----------------------+-------
 Class-Iris-versicolor |    82
 Class-Iris-setosa     |    81
 Class-Iris-virginica  |    88
(3 rows)
```


In [None]:
%%sql
/* -- Predict the Iris flower class -- */ 
WITH class_data AS ( SELECT func_model_iris( 
   Id,
   SepalLengthCm,
   SepalWidthCm,
   PetalLengthCm,
   PetalWidthCm) AS class 
FROM iris_data_test )
SELECT 
CASE WHEN class = 'Iris-versicolor'  THEN 'Class-Iris-versicolor'
     WHEN class = 'Iris-setosa'  THEN 'Class-Iris-setosa'
     WHEN class = 'Iris-virginica'  THEN 'Class-Iris-virginica'
     ELSE 'Class-Other' END as class_distribution,
COUNT(1) AS count
from class_data GROUP BY 1;

# Lab 3 - データサイエンティスト / 機械学習エキスパート 
---

### データセットの情報: ###

物理的な測定からアワビの年齢を予測します。アワビの年齢を決定するには、貝殻を円錐形に切り取り、染色し、顕微鏡で輪の数を数えますが、これは退屈で時間のかかる作業です。年齢を予測するためには、より簡単に得られる他の測定方法を用います。この問題を解決するためには、気象パターンや場所（つまり食べ物の有無）など、さらなる情報が必要になることもあります

元のデータから、値が欠落している例が削除され（大部分は予測値が欠落している）、連続値の範囲はANNで使用するためにスケーリングされています（200で割ることにより）


属性情報:

属性名、属性タイプ、測定単位、簡単な説明が与えられます。リングの数は、連続値として、または分類問題として予測する値です

### 名前 / データ型 / 測定の単位 / 説明 ###
---
Sex / nominal / -- / M, F, and I (infant)  
Length / continuous / mm / Longest shell measurement  
Diameter / continuous / mm / perpendicular to length  
Height / continuous / mm / with meat in shell  
Whole weight / continuous / grams / whole abalone 
Shucked weight / continuous / grams / weight of meat  
Viscera weight / continuous / grams / gut weight (after bleeding)  
Shell weight / continuous / grams / after being dried  
Rings / integer / -- / +1.5 gives the age in years  
  
*参考* : https://archive.ics.uci.edu/ml/datasets/Abalone  

この例では、ユーザーは高度な機械学習エキスパートと想定され、Autopilot は使われず、直接 `preprocessors` や `hyper parameters` などの高度なプロパティを指定します 


このシナリオでは `MODEL_TYPE` , `OBJECTIVE`, `PREPROCESSORS` そして `HYPER PARAMETERS` を指定します

すべてのサポートされたオプションはこちらを参照 - https://docs.aws.amazon.com/redshift/latest/dg/r_CREATE_MODEL.html#r_auto_off_create_model


サンプルデータセットは `abalone_xgb_train` と `abalone_xgb_test` テーブルに既にロードされています

`xgboost` を指定した create model を実行します。 ~15 分ほどかかります 

推論クエリには、モデルが作成したSQL関数を使用することができます

create model を実行する前に、テーブルを作成してサンプルデータをロードします。COPY 文の中で、必ず `IAM role` を変更してください


In [None]:
%%sql
/* -- Create table for xgboost model training -- */
CREATE TABLE abalone_xgb_train (
length_val float, 
diameter float, 
height float,
whole_weight float, 
shucked_weight float, 
viscera_weight float,
shell_weight float, 
rings int
);


In [None]:
%%sql
/* -- Create table for xgboost model testing -- */
CREATE TABLE abalone_xgb_test (
length_val float, 
diameter float, 
height float,
whole_weight float, 
shucked_weight float, 
viscera_weight float,
shell_weight float, 
rings int
);


In [None]:
%%sql
/* -- COPY for abalone_xgb_train -- */
COPY abalone_xgb_train FROM 's3://redshift-downloads/redshift-ml/workshop/xgboost_abalone_data/train/' REGION 'us-east-1' IAM_ROLE '<< replace IAM role arn >>' IGNOREHEADER 1 CSV;


In [None]:
%%sql
/* -- COPY for abalone_xgb_test -- */
COPY abalone_xgb_test FROM 's3://redshift-downloads/redshift-ml/workshop/xgboost_abalone_data/test/' REGION 'us-east-1' IAM_ROLE '<< replace IAM role arn >>' IGNOREHEADER 1 CSV;


In [None]:
%%sql
/* -- Create model -- */
CREATE MODEL model_abalone_xgboost_regression 
FROM (SELECT
      length_val,
      diameter,
      height,
      whole_weight,
      shucked_weight,
      viscera_weight,
      shell_weight,
      rings
     FROM abalone_xgb_train)
TARGET Rings 
FUNCTION func_model_abalone_xgboost_regression 
IAM_ROLE '<< replace IAM role arn >>' 
AUTO OFF 
MODEL_TYPE xgboost 
OBJECTIVE 'reg:squarederror' 
PREPROCESSORS 'none' 
HYPERPARAMETERS DEFAULT EXCEPT (NUM_ROUND '100') 
SETTINGS (S3_BUCKET '<< S3 bucket >>');


### xgboost のための Show model ###

In [None]:
SHOW model model_abalone_xgboost_regression;

#### モデルの推論/精度を確認 ####
MSE/RMSE [低いほどよい]: 回帰問題では、精度のため Mean Squared Error / Root Mean Squared Error を実行します

In [None]:
%%sql
/* -- Accuracy query -- */
WITH infer_data AS (
    SELECT Rings AS label, func_model_abalone_xgboost_regression(
Length_val, Diameter, Height, Whole_weight, Shucked_weight, Viscera_weight,
Shell_weight
) AS predicted,
    CASE WHEN label is NULL THEN 0 ELSE label END AS actual
    FROM abalone_xgb_test
)
SELECT SQRT(AVG(POWER(actual - predicted, 2))) AS rmse FROM infer_data;


#### 採取するアワビ種の年齢層を予測 (テストテーブルでの実行) #### 

サンプルアウトプット

```sql
     age_group     | count
-------------------+-------
 age_between_10_20 |   589
 age_between_5_10  |   247
 age_5_and_under   |     1
 age_over_20       |     1
(4 rows)
```

In [None]:
%%sql
/* -- Prediction query -- */
WITH age_data AS ( SELECT func_model_abalone_xgboost_regression( length_val, 
                                               diameter, 
                                               height, 
                                               whole_weight, 
                                               shucked_weight, 
                                               viscera_weight, 
                                               shell_weight ) + 1.5 AS age
FROM abalone_xgb_test )
SELECT 
CASE WHEN age  > 20 THEN 'age_over_20'
     WHEN age  > 10 THEN 'age_between_10_20'
     WHEN age  > 5  THEN 'age_between_5_10'
     ELSE 'age_5_and_under' END as age_group,
COUNT(1) AS count
from age_data GROUP BY 1;

# デバッグのためのシステムテーブル #

In [None]:
%%sql
/* -- stv_ml_model_info -- */
SELECT * FROM stv_ml_model_info WHERE model_name='model_abalone_xgboost_regression';
