# DEMO1

以下のコードはSnowpark ML Demo( https://github.com/Snowflake-Labs/snowpark-python-demos/tree/main/snowpark-ml-housing-demo )より引用しました。

<div style="border-radius: 10px; border: #DEB887 solid; padding: 15px; background-color: #FFFAF0; font-size: 95%; text-align: left">
<h3 align="left"><font color='#3498DB'>🦄 Notes: </font></h3>

```Python
import os
import tarfile
import urllib.request

DOWNLOAD_ROOT = "https://raw.githubusercontent.com/ageron/handson-ml2/master/"
HOUSING_PATH = os.path.join("datasets", "housing")
HOUSING_URL = DOWNLOAD_ROOT + "datasets/housing/housing.tgz"

def fetch_housing_data(housing_url=HOUSING_URL, housing_path=HOUSING_PATH):
    if not os.path.isdir(housing_path):
        os.makedirs(housing_path)
    tgz_path = os.path.join(housing_path, "housing.tgz")
    urllib.request.urlretrieve(housing_url, tgz_path)
    housing_tgz = tarfile.open(tgz_path)
    housing_tgz.extractall(path=housing_path)
    housing_tgz.close()

fetch_housing_data()
```


このコードは、California Housing Pricesデータセット（住宅価格データセット）をインターネットからダウンロードし、ローカルのフォルダに保存するためのものです。以下に、コード内で使用されている主要な関数やメソッドをテーブルにまとめて説明します。

| 関数/メソッド | 説明 |
|----------------|------|
| `import os` | Pythonの`os`モジュールをインポート。ファイルおよびディレクトリの操作に使用する。 |
| `import tarfile` | Pythonの`tarfile`モジュールをインポート。tarファイルの操作に使用する。 |
| `import urllib.request` | Pythonの`urllib.request`モジュールをインポート。URLからデータをダウンロードするために使用する。 |
| `DOWNLOAD_ROOT` | データをダウンロードするための基本URLを指定。 |
| `HOUSING_PATH` | ローカルのデータ保存先フォルダのパスを指定。 |
| `HOUSING_URL` | ダウンロード対象のデータのURLを指定。 |
| `def fetch_housing_data(housing_url=HOUSING_URL, housing_path=HOUSING_PATH):` | データをダウンロードし、ローカルに保存するための関数を定義。関数内で指定したURLからデータをダウンロードし、ローカルのフォルダに保存。 |
| `if not os.path.isdir(housing_path):` | ローカルのデータ保存先フォルダが存在しない場合、フォルダを作成する。 |
| `os.makedirs(housing_path)` | ディレクトリを作成する関数。 |
| `tgz_path = os.path.join(housing_path, "housing.tgz")` | ローカルでのtarファイルの保存パスを指定。 |
| `urllib.request.urlretrieve(housing_url, tgz_path)` | 指定したURLからファイルをダウンロードしてローカルに保存。 |
| `housing_tgz = tarfile.open(tgz_path)` | ダウンロードしたtarファイルを開いて、その中のファイルにアクセスするための`tarfile`オブジェクトを作成。 |
| `housing_tgz.extractall(path=housing_path)` | tarファイル内のすべてのファイルを指定したディレクトリに解凍。 |
| `housing_tgz.close()` | tarファイルをクローズしてリソースを解放。 |
| `fetch_housing_data()` | データのダウンロードと保存を行うために定義した関数を呼び出す。 |

このコードの主な目的は、データセットをダウンロードしてローカルに保存し、後続のデータ分析や機械学習モデルのトレーニングに使用するためのデータを用意することです。

```
* os.path.join() 関数を使用して、ディレクトリパスの生成と結合を行う。("datasets" と "housing" という2つのディレクトリ名を結合して、新しいディレクトリパスを作成)
* "datasets" ディレクトリ内に "housing" ディレクトリを作成し、そのパスを HOUSING_PATH 変数に格納

<div style="border-radius: 10px; border: #DEB887 solid; padding: 15px; background-color: #FFFAF0; font-size: 95%; text-align: left">
<h3 align="left"><font color='#3498DB'>🦄 Notes: </font></h3>
    
```Python
import pandas as pd
from snowflake.snowpark import functions as F
from snowflake.snowpark.functions import udf
# Snowpark
from snowflake.snowpark.session import Session
from snowflake.snowpark.types import *


def load_housing_data ( housing_path = HOUSING_PATH ): 
    csv_path = os.path.join ( housing_path , "housing.csv" ) 
    return pd.read_csv ( csv_path ) 

housing = load_housing_data()
housing.head()
```

このコードは、PythonのPandasライブラリを使用して、California Housing Pricesデータセットをロードし、最初のいくつかの行を表示するためのものです。以下に、コードで使用されている主要なライブラリや関数を説明します。

| ライブラリ/関数 | 説明 |
|-----------------|------|
| `import pandas as pd` | Pandasライブラリをインポート。データフレームを操作するためのライブラリ。 |
| `from snowflake.snowpark import functions as F` | SnowflakeのSnowparkライブラリから`functions`モジュールをインポートし、`F`としてエイリアスを付ける。 |
| `from snowflake.snowpark.functions import udf` | SnowflakeのSnowparkライブラリから`udf`関数をインポート。ユーザー定義関数を作成するために使用する。 |
| `from snowflake.snowpark.session import Session` | SnowflakeのSnowparkライブラリから`Session`クラスをインポート。セッションを作成するために使用する。 |
| `from snowflake.snowpark.types import *` | SnowflakeのSnowparkライブラリからすべての型をインポート。データ型を操作するために使用する。 |
| `def load_housing_data(housing_path=HOUSING_PATH):` | データをロードするための関数を定義。指定したパスからCSVファイルを読み込んでPandasのデータフレームに変換し、そのデータフレームを返す。 |
| `csv_path = os.path.join(housing_path, "housing.csv")` | ローカルのデータ保存先フォルダ内にあるCSVファイルのパスを指定。 |
| `return pd.read_csv(csv_path)` | 指定したCSVファイルをPandasの`read_csv`関数を使用して読み込み、データフレームとして返す。 |
| `housing = load_housing_data()` | `load_housing_data`関数を呼び出して、データセットをロードし、`housing`変数に格納。 |
| `housing.head()` | `housing`データフレームの最初のいくつかの行を表示するために、`head`メソッドを呼び出す。 |

このコードは、データセットをPandasのデータフレームとしてロードし、その内容を最初のいくつかの行で確認するために使用されています。 Snowflakeの関連ライブラリや関数は、この特定のコードスニペットでは使用されていないようです。 Snowflake関連の機能は、他の部分で使用されている可能性があります。

<div style="border-radius: 10px; border: #DEB887 solid; padding: 15px; background-color: #FFFAF0; font-size: 95%; text-align: left">
<h3 align="left"><font color='#3498DB'>🦄 Notes: </font></h3>


```Python
import json

with open('creds.json') as f:
    data = json.load(f)
    USERNAME = data['username']
    PASSWORD = data['password']
    SF_ACCOUNT = data['sf_account']
    SF_WH = data['sf_wh']
    SF_DB = data['sf_db']
    SF_SCHEMA = data['sf_schema']

CONNECTION_PARAMETERS = {
   "account": SF_ACCOUNT,
   "user": USERNAME,
   "password": PASSWORD,
   "database": SF_DB,
   "schema": SF_SCHEMA,
   "warehouse": SF_WH
}
session = Session.builder.configs(CONNECTION_PARAMETERS).create()
```
提供されたコードは、JSONファイルからSnowflakeデータベースへの接続情報を読み込み、Snowflakeのセッションを設定するためのものです。以下に、コードで使用されている主要な関数やメソッドを表にまとめて説明します。

| 関数/メソッド | 説明 |
|----------------|------|
| `import json` | Pythonの`json`モジュールをインポート。JSONデータの読み書きに使用する。 |
| `with open('creds.json') as f:` | 'creds.json'という名前のJSONファイルを読み込む。ファイルを開いた後、`f`としてファイルオブジェクトを扱う。 |
| `data = json.load(f)` | JSONファイルを読み込み、その内容をPythonのデータ構造に変換する。このコードでは`data`変数にJSONデータが格納される。 |
| `USERNAME = data['username']` | `data`からユーザー名を取得し、`USERNAME`変数に格納。 |
| `PASSWORD = data['password']` | `data`からパスワードを取得し、`PASSWORD`変数に格納。 |
| `SF_ACCOUNT = data['sf_account']` | `data`からSnowflakeアカウント名を取得し、`SF_ACCOUNT`変数に格納。 |
| `SF_WH = data['sf_wh']` | `data`からSnowflakeウェアハウス名を取得し、`SF_WH`変数に格納。 |
| `SF_DB = data['sf_db']` | `data`からSnowflakeデータベース名を取得し、`SF_DB`変数に格納。 |
| `SF_SCHEMA = data['sf_schema']` | `data`からSnowflakeスキーマ名を取得し、`SF_SCHEMA`変数に格納。 |
| `CONNECTION_PARAMETERS = {...}` | Snowflakeデータベースへの接続に使用される接続情報を辞書型のオブジェクトで設定。 |
| `session = Session.builder.configs(CONNECTION_PARAMETERS).create()` | Snowflakeのセッションを作成。指定した接続情報を使用してセッションを設定し、`session`変数にセッションオブジェクトを格納。 |

このコードは、JSONファイルから取得したSnowflakeデータベースへの接続情報を使用して、Snowflakeのセッションを確立します。セッションを確立することで、Snowflakeデータベースへのクエリ実行などの操作が可能になります。


<div style="border-radius: 10px; border: #DEB887 solid; padding: 15px; background-color: #FFFAF0; font-size: 95%; text-align: left">
<h3 align="left"><font color='#3498DB'>🦄 Notes: </font></h3>

```Python
%%time

query = "create or replace table HOUSING_DATA (LONGITUDE float,LATITUDE float,HOUSING_MEDIAN_AGE float," +\
        "TOTAL_ROOMS float,TOTAL_BEDROOMS float,POPULATION float,HOUSEHOLDS float," +\
        "MEDIAN_INCOME float,MEDIAN_HOUSE_VALUE float,OCEAN_PROXIMITY varchar)"
        
session.sql(query).collect()
```

提供されたコードは、Snowflakeデータベース内に新しいテーブルを作成するためのSQLクエリを実行するものです。また、コードを実行するのにかかる時間も計測しています。以下に、コードで使用されている主要な関数やメソッドを表にまとめて説明します。

| 関数/メソッド | 説明 |
|----------------|------|
| `%%time` | Jupyter Notebookなどの環境で実行時間を計測するためのマジックコマンド。 |
| `query = "create or replace table HOUSING_DATA ..."` | データベースに新しいテーブルを作成するためのSQLクエリを作成。このSQLクエリは、HOUSING_DATAという名前のテーブルを作成し、テーブルの列とデータ型を定義しています。 |
| `session.sql(query).collect()` | `session`オブジェクトを使用して、作成したSQLクエリをデータベースに送信し、実行。`collect()`メソッドはクエリの結果を収集し、必要な場合に表示する。 |

このコードは、新しいデータベーステーブルを作成するためのSQLクエリを実行しています。テーブルは "HOUSING_DATA" という名前で作成され、さまざまな列とデータ型が定義されています。データベース内にテーブルを作成することで、データの保存やクエリ実行のためのテーブルを用意することができます。また、`%%time`を使用して、クエリの実行にかかる時間を計測しています。
```
* create or replace table ステートメントを使用して、名前が "HOUSING_DATA" のテーブルを作成
* カラム名とその型を指定。

<div style="border-radius: 10px; border: #DEB887 solid; padding: 15px; background-color: #FFFAF0; font-size: 95%; text-align: left">
<h3 align="left"><font color='#3498DB'>🦄 Notes: </font></h3>

```Python
# need to convert column names to upper case before writing into Snowflake
housing.columns = [x.upper() for x in housing.columns]
housing.head()
```
提供されたコードは、Pandasデータフレーム内の列名（カラム名）を大文字に変換する操作を実行しています。大文字に変換した列名は、おそらくSnowflakeデータベースにデータを書き込む際に使用されることを意味します。以下に、コードで使用されている主要な関数やメソッドを表にまとめて説明します。

| 関数/メソッド | 説明 |
|----------------|------|
| `housing.columns` | データフレームの列名を含む属性。 |
| `housing.columns = [x.upper() for x in housing.columns]` | リスト内包表記を使用して、データフレームの列名を大文字に変換しています。新しい列名は元の列名の大文字バージョンに置き換えられます。 |
| `housing.head()` | データフレームの最初のいくつかの行を表示するために`head`メソッドを呼び出しています。 |

このコードは、データフレーム内の列名を大文字に変換することで、データフレームの列名をSnowflakeデータベースとの互換性に合わせています。 Snowflakeデータベースは一般的に大文字を使用するため、データの書き込みやクエリ実行に適した形式にデータフレームを変更しています。

```
* 既にあるhousingというデータのカラム名を変更

<div style="border-radius: 10px; border: #DEB887 solid; padding: 15px; background-color: #FFFAF0; font-size: 95%; text-align: left">
<h3 align="left"><font color='#3498DB'>🦄 Notes: </font></h3>

```Python
snowpark_df = session.write_pandas(housing, "HOUSING_DATA")
```
提供されたコードは、SnowflakeデータベースにPandasデータフレーム（`housing`）を書き込むための操作を実行しています。以下に、コードで使用されている関数やメソッドを説明します。

| 関数/メソッド | 説明 |
|----------------|------|
| `session.write_pandas(housing, "HOUSING_DATA")` | `session`オブジェクトを使用して、Pandasデータフレーム `housing` を "HOUSING_DATA" という名前のSnowflakeデータベーステーブルに書き込む操作を実行。Snowflakeデータベースにデータを書き込むためのメソッド。 `housing` データフレームの内容が指定されたテーブルに書き込まれる。 `write_pandas`メソッドは、PandasデータフレームをSnowflakeテーブルに書き込むのに便利な方法です。 |

このコードは、`housing` データフレームの内容を指定したSnowflakeデータベーステーブルに書き込みます。この操作により、PandasデータをSnowflakeデータベースに移行し、データベース内でクエリ実行や分析を行うことができるようになります。

```
* データフレーム housing を "HOUSING_DATA" というテーブルに書き込む

<div style="border-radius: 10px; border: #DEB887 solid; padding: 15px; background-color: #FFFAF0; font-size: 95%; text-align: left">
<h3 align="left"><font color='#3498DB'>🦄 Notes: </font></h3>

```Python
snowpark_df.toPandas().head()
```

提供されたコードは、Snowflakeデータベースからデータを取得し、それをPandasデータフレームに変換して最初のいくつかの行を表示する操作を実行しています。以下に、コードで使用されている関数やメソッドを説明します。

| 関数/メソッド | 説明 |
|----------------|------|
| `snowpark_df.toPandas()` | `snowpark_df` というSnowflakeデータフレームをPandasデータフレームに変換する操作。これにより、Snowflakeデータベースから取得したデータがPandasデータフレームとして扱えるようになります。 |
| `.head()` | データフレームの最初のいくつかの行を表示するためのPandasのメソッド。 |

このコードは、`snowpark_df` からSnowflakeデータベース内のデータを取得し、それをPandasデータフレームに変換して、そのデータフレームの最初のいくつかの行を表示しています。これにより、Snowflakeデータベースから取得したデータをPandasを使用して分析や視覚化などの作業を行うために利用できます。


# DEMO2

このノートブックでは、Scikit-Learn MLパイプラインを訓練します。このパイプラインには、欠損値の補完、スケーリング、ワンホットエンコーディングなどの一般的な特徴エンジニアリングタスクが含まれています。また、RandomForestRegressorモデルも含まれており、カリフォルニアの中央住宅価格を予測します。

このパイプラインを、Snowpark Python Stored Procedure（SPROC）を使用して訓練し、保存します。そして、保存されたモデル/パイプラインをSnowflakeのステージに保存し、Snowpark Python User-Defined Functions（UDFs）を使用して、Snowflakeワーキングプール上でスケーラブルに読み込んで実行する方法を示します。

<div style="border-radius: 10px; border: #DEB887 solid; padding: 15px; background-color: #FFFAF0; font-size: 95%; text-align: left">
<h3 align="left"><font color='#3498DB'>🦄 Notes: </font></h3>

```Python
# Snowpark
import datetime
import io
import json

import joblib
import numpy as np
import pandas as pd
import snowflake.snowpark
from sklearn.compose import ColumnTransformer
from sklearn.ensemble import RandomForestRegressor
from sklearn.impute import SimpleImputer
from sklearn.metrics import mean_squared_error
from sklearn.model_selection import train_test_split
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import OneHotEncoder, StandardScaler
from snowflake.snowpark import version as v
from snowflake.snowpark.functions import sproc
from snowflake.snowpark.session import Session

with open('creds.json') as f:
    data = json.load(f)
    USERNAME = data['username']
    PASSWORD = data['password']
    SF_ACCOUNT = data['sf_account']
    SF_WH = data['sf_wh']
    SF_DB = data['sf_db']
    SF_SCHEMA = data['sf_schema']

CONNECTION_PARAMETERS = {
   "account": SF_ACCOUNT,
   "user": USERNAME,
   "password": PASSWORD,
   "database": SF_DB,
   "schema": SF_SCHEMA,
   "warehouse": SF_WH
}

session = Session.builder.configs(CONNECTION_PARAMETERS).create()
session.add_packages('snowflake-snowpark-python', 'scikit-learn', 'pandas', 'numpy', 'joblib', 'cachetools')
```

<div style="border-radius: 10px; border: #DEB887 solid; padding: 15px; background-color: #FFFAF0; font-size: 95%; text-align: left">
<h3 align="left"><font color='#3498DB'>🦄 Notes: </font></h3>

```Python

query = "create or replace stage models" +\
        " directory = (enable = true)" +\
        " copy_options = (on_error='skip_file')"
        
session.sql(query).collect()
```

提供されたコードは、Snowflakeデータベース内に新しいステージ（stage）を作成するためのSQLクエリを実行するものです。以下に、コードで使用されている関数やメソッドを説明します。

| 関数/メソッド | 説明 |
|----------------|------|
| `query = "create or replace stage models" + ...` | 新しいステージ（stage）を作成するためのSQLクエリを作成。このSQLクエリは、"models" という名前のステージを作成し、ステージの設定情報を指定しています。 |
| `session.sql(query)` | `session`オブジェクトを使用して、作成したSQLクエリをデータベースに送信する操作。 |
| `.collect()` | SQLクエリの実行結果を収集する操作。この場合、クエリの実行結果に関連するデータが収集され、必要に応じて表示されます。 |

このコードは、"models" という名前のステージを作成し、そのステージの設定情報を指定しています。ステージは、データの一時的な保管場所として使用され、データのアップロードやダウンロードに利用できます。この操作により、Snowflakeデータベース内でのデータの管理や移動が容易になります。

```
* " directory = (enable = true)" : データステージのディレクトリを有効にし、データを格納するためのディレクトリを作成
* "copy_options = (on_error='skip_file')": データのコピー時にエラーが発生した場合、ファイルをスキップするオプションを設定

<div style="border-radius: 10px; border: #DEB887 solid; padding: 15px; background-color: #FFFAF0; font-size: 95%; text-align: left">
<h3 align="left"><font color='#3498DB'>🦄 Notes: </font></h3>

```Python
query = "create or replace stage udf" +\
        " copy_options = (on_error='skip_file')"
        
session.sql(query).collect()
```
提供されたコードは、Snowflakeデータベース内に新しいステージ（stage）を作成するためのSQLクエリを実行するものです。以下に、コードで使用されている関数やメソッドを説明します。

| 関数/メソッド | 説明 |
|----------------|------|
| `query = "create or replace stage udf" + ...` | 新しいステージ（stage）を作成するためのSQLクエリを作成。このSQLクエリは、"udf" という名前のステージを作成し、ステージの設定情報を指定しています。 |
| `session.sql(query)` | `session`オブジェクトを使用して、作成したSQLクエリをデータベースに送信する操作。 |
| `.collect()` | SQLクエリの実行結果を収集する操作。この場合、クエリの実行結果に関連するデータが収集され、必要に応じて表示されます。 |

このコードは、"udf" という名前のステージを作成し、そのステージの設定情報を指定しています。ステージは、データの一時的な保管場所として使用され、データのアップロードやダウンロードに利用できます。新しいステージを作成することで、データの一時的な保管や処理に役立つ場所を確保できます。

<div style="border-radius: 10px; border: #DEB887 solid; padding: 15px; background-color: #FFFAF0; font-size: 95%; text-align: left">
<h3 align="left"><font color='#3498DB'>🦄 Notes: </font></h3>

```Python
def save_file(session, model, path):
  input_stream = io.BytesIO()
  joblib.dump(model, input_stream)
  session._conn._cursor.upload_stream(input_stream, path)
  return "successfully created file: " + path
```
提供されたコードは、指定されたモデルオブジェクトを指定されたパスに保存するための関数です。以下に、関数内で使用されている主要な関数やメソッドを説明します。

| 関数/メソッド | 説明 |
|----------------|------|
| `def save_file(session, model, path):` | ファイルを保存するための関数を定義。引数として、`session`オブジェクト、モデルオブジェクト、および保存先のパス（path）を受け取ります。 |
| `input_stream = io.BytesIO()` | `io.BytesIO()`を使用して、バイトデータをメモリ内のバッファに書き込むためのストリームオブジェクト（`input_stream`）を作成。 |
| `joblib.dump(model, input_stream)` | `joblib`モジュールを使用して、モデルオブジェクトを指定したバイトストリーム（`input_stream`）にシリアライズして保存。 |
| `session._conn._cursor.upload_stream(input_stream, path)` | `session`オブジェクトの内部メソッド（`_conn._cursor.upload_stream`）を使用して、バイトストリーム内のデータを指定したパス（`path`）にアップロード。 |
| `return "successfully created file: " + path` | ファイルが正常に作成されたことを示すメッセージを返し、保存されたファイルのパスを含めて返します。 |

この関数は、モデルオブジェクトを指定されたパスにシリアライズして保存するために使用されます。保存先のパスにファイルが正常に作成された場合、"successfully created file" とそのファイルのパスが返されます。この関数は、モデルの保存やファイルのアップロードなどのデータ操作に役立ちます。


<div style="border-radius: 10px; border: #DEB887 solid; padding: 15px; background-color: #FFFAF0; font-size: 95%; text-align: left">
<h3 align="left"><font color='#3498DB'>🦄 Notes: </font></h3>

```Python
def train_model(session: snowflake.snowpark.Session) -> float:
    snowdf = session.table("HOUSING_DATA")
    # split the train and test set
    snowdf_train, snowdf_test = snowdf.random_split([0.8, 0.2], seed=82) # use seed to make the split repeatable
    

    # save the train and test sets as time stamped tables in Snowflake 
    snowdf_train.write.mode("overwrite").save_as_table("HOUSING_TRAIN")
    snowdf_test.write.mode("overwrite").save_as_table("HOUSING_TEST")
    
    housing = snowdf_train.drop("MEDIAN_HOUSE_VALUE").to_pandas() # drop labels for training set
    housing_labels = snowdf_train.select("MEDIAN_HOUSE_VALUE").to_pandas()
    housing_test = snowdf_test.drop("MEDIAN_HOUSE_VALUE").to_pandas()
    housing_test_labels = snowdf_test.select("MEDIAN_HOUSE_VALUE").to_pandas()

    # numerical features
    housing_num = housing.drop("OCEAN_PROXIMITY", axis=1)
    # create a pipeline for numerical features
    num_pipeline = Pipeline([
            ('imputer', SimpleImputer(strategy="median")),
            ('std_scaler', StandardScaler()),
        ])

    num_attribs = list(housing_num)
    cat_attribs = ["OCEAN_PROXIMITY"]

    preprocessor = ColumnTransformer([
            ("num", num_pipeline, num_attribs),
            ("cat", OneHotEncoder(), cat_attribs)
        ])

    full_pipeline = Pipeline([
            ('preprocessor', preprocessor),
            ('model', RandomForestRegressor(n_estimators=100, random_state=42)),
        ])

    # fit the preprocessing pipeline and the model together
    full_pipeline.fit(housing, housing_labels)

    # save the full pipeline including the model
    save_file(session, full_pipeline, "@MODELS/housing_fores_reg.joblib")

    # predict on the test set and return the root mean squared error (RMSE)
    housing_predictions = full_pipeline.predict(housing_test)
    lin_mse = mean_squared_error(housing_test_labels, housing_predictions)
    lin_rmse = np.sqrt(lin_mse)
    return lin_rmse
```
提供されたコードは、機械学習モデルのトレーニング、評価、およびモデルの保存を行う操作を含む関数です。以下に、コード内で使用されている主要な関数やメソッド、設定、および手順をまとめて説明します。

| 関数/メソッド | 説明 |
|----------------|------|
| `def train_model(session: snowflake.snowpark.Session) -> float:` | モデルのトレーニングと評価を行うための関数を定義。関数は`session`オブジェクトを受け取り、RMSE（平均二乗誤差の平方根）を返します。 |
| `snowdf = session.table("HOUSING_DATA")` | Snowflakeデータベースから "HOUSING_DATA" テーブルを読み込む。 |
| `snowdf_train, snowdf_test = snowdf.random_split([0.8, 0.2], seed=82)` | データをトレーニングセットとテストセットにランダムに分割。分割にはseed（乱数のシード値）を使用して、分割を再現可能にする。 |
| `snowdf_train.write.mode("overwrite").save_as_table("HOUSING_TRAIN")` | トレーニングデータを "HOUSING_TRAIN" という名前のテーブルとしてSnowflakeデータベースに保存。 |
| `snowdf_test.write.mode("overwrite").save_as_table("HOUSING_TEST")` | テストデータを "HOUSING_TEST" という名前のテーブルとしてSnowflakeデータベースに保存。 |
| `housing = snowdf_train.drop("MEDIAN_HOUSE_VALUE").to_pandas()` | トレーニングデータから目的変数 "MEDIAN_HOUSE_VALUE" を削除し、特徴量データをPandasデータフレームに変換。 |
| `housing_labels = snowdf_train.select("MEDIAN_HOUSE_VALUE").to_pandas()` | トレーニングデータの目的変数 "MEDIAN_HOUSE_VALUE" をPandasデータフレームとして取得。 |
| `housing_test = snowdf_test.drop("MEDIAN_HOUSE_VALUE").to_pandas()` | テストデータから目的変数 "MEDIAN_HOUSE_VALUE" を削除し、特徴量データをPandasデータフレームに変換。 |
| `housing_test_labels = snowdf_test.select("MEDIAN_HOUSE_VALUE").to_pandas()` | テストデータの目的変数 "MEDIAN_HOUSE_VALUE" をPandasデータフレームとして取得。 |
| `num_pipeline = Pipeline([...])` | 数値特徴量用のデータ前処理パイプラインを定義。欠損値の補完と標準化を行う。 |
| `preprocessor = ColumnTransformer([...])` | 特徴量の前処理用のカスタム前処理パイプラインを定義。数値特徴量とカテゴリカル特徴量に異なる処理を適用。 |
| `full_pipeline = Pipeline([...])` | フルパイプラインを定義。前処理とモデル（ランダムフォレスト回帰）を組み合わせる。 |
| `full_pipeline.fit(housing, housing_labels)` | フルパイプラインをトレーニングデータに適合させる。 |
| `save_file(session, full_pipeline, "@MODELS/housing_fores_reg.joblib")` | モデルを保存するための `save_file` 関数を呼び出し、トレーニング済みのモデルを指定したパスに保存。 |
| `housing_predictions = full_pipeline.predict(housing_test)` | テストデータに対するモデルの予測を実行。 |
| `lin_mse = mean_squared_error(housing_test_labels, housing_predictions)` | 平均二乗誤差（MSE）を計算。 |
| `lin_rmse = np.sqrt(lin_mse)` | 平均二乗誤差の平方根（RMSE）を計算。 |
| `return lin_rmse` | RMSEを返し、モデルの評価結果として出力。 |

このコードは、データ分析および機械学習のワークフローを実行しており、データの前処理、モデルのトレーニング、モデルの評価、およびモデルの保存の各ステップを含んでいます。関数はRMSE（平均二乗誤差の平方根）を返し、モデルの性能評価を提供します。また、モデルはトレーニング済みで、データベース内に保存されています。
```R
 * save_file(session, full_pipeline, "@MODELS/housing_fores_reg.joblib"は、full_pipeline という機械学習パイプラインを指定の場所に保存するための操作を実行する。
* "@MODELS/housing_fores_reg.joblib" は、データベース内の MODELS というデータステージ内にある housing_fores_reg.joblib というファイルへのパスを表す。

<div style="border-radius: 10px; border: #DEB887 solid; padding: 15px; background-color: #FFFAF0; font-size: 95%; text-align: left">
<h3 align="left"><font color='#3498DB'>🦄 Notes: </font></h3>

```Python
# Create an instance of StoredProcedure using the sproc() function
train_model_sp = sproc(train_model, replace=True)
```

提供されたコードは、StoredProcedure（ストアドプロシージャ）のインスタンスを作成するための操作を示しています。以下に、コードで使用されている関数やメソッドを説明します。

| 関数/メソッド | 説明 |
|----------------|------|
| `train_model_sp = sproc(train_model, replace=True)` | `sproc()`関数を使用して、`train_model`という関数をStoredProcedureのインスタンスとして作成。`replace=True`パラメータは、同じ名前のストアドプロシージャが既に存在する場合に、それを置き換えることを指定します。 |

このコードは、`train_model`という関数をStoredProcedureとして実行可能な形式に変換し、`train_model_sp`という変数にそのインスタンスを格納します。ストアドプロシージャは通常、データベース内での特定の処理やタスクを実行するために使用されます。この例では、`train_model`関数をStoredProcedureとして実行できるようにしています。

```
* ユーザー定義関数(UDF):必要とする処理を自分で記述して作成した関数。
* ストアドプロシージャ:実行する複数のSQL文をまとめ、プログラムのようなものとしてDBMS内に保存し、データベースの外部から呼び出すもの。

<div style="border-radius: 10px; border: #DEB887 solid; padding: 15px; background-color: #FFFAF0; font-size: 95%; text-align: left">
<h3 align="left"><font color='#3498DB'>🦄 Notes: </font></h3>

```Python
train_model_sp()
```
提供されたコードは、StoredProcedureである `train_model_sp` を実行する操作を示しています。具体的には、`train_model_sp()` という呼び出しを行っています。これにより、StoredProcedure内の `train_model` 関数が実行され、モデルのトレーニング、評価、および保存が実行されるでしょう。

StoredProcedureは、通常はデータベース内で特定の処理やタスクを実行するために使用されます。この場合、StoredProcedure内で機械学習モデルのトレーニングと評価が行われ、その結果が返されるでしょう。実行には時間がかかる可能性があるため、実行が完了するのを待つ必要があります。

<div style="border-radius: 10px; border: #DEB887 solid; padding: 15px; background-color: #FFFAF0; font-size: 95%; text-align: left">
<h3 align="left"><font color='#3498DB'>🦄 Notes: </font></h3>

```Python
import os
import sys

import cachetools
from snowflake.snowpark.functions import udf

session.add_import("@MODELS/housing_fores_reg.joblib")  

@cachetools.cached(cache={})
def read_file(filename):
       import_dir = sys._xoptions.get("snowflake_import_directory")
       if import_dir:
              with open(os.path.join(import_dir, filename), 'rb') as file:
                     m = joblib.load(file)
                     return m

features = ['LONGITUDE', 'LATITUDE', 'HOUSING_MEDIAN_AGE', 'TOTAL_ROOMS',
       'TOTAL_BEDROOMS', 'POPULATION', 'HOUSEHOLDS', 'MEDIAN_INCOME', 'OCEAN_PROXIMITY']

@udf(name="predict", is_permanent=True, stage_location="@udf", replace=True)
def predict(LONGITUDE: float, LATITUDE: float, HOUSING_MEDIAN_AGE: float, TOTAL_ROOMS: float, 
                    TOTAL_BEDROOMS: float, POPULATION: float, HOUSEHOLDS: float, MEDIAN_INCOME: float, 
                    OCEAN_PROXIMITY: str) -> float:
       m = read_file('housing_fores_reg.joblib')       
       row = pd.DataFrame([locals()], columns=features)
       return m.predict(row)[0]
```
提供されたコードは、以下の処理を行うためのスクリプトを示しています。各部分について、使用されている関数、メソッド、設定などをまとめて説明します。

| 関数/メソッド | 説明 |
|----------------|------|
| `session.add_import("@MODELS/housing_fores_reg.joblib")` | Snowflakeセッションにモデルファイルのインポートパスを追加。 |
| `@cachetools.cached(cache={})` | キャッシュを使用して関数をメモ化するデコレータ。 |
| `read_file(filename)` | モデルファイルを読み込む関数。ファイルを指定されたディレクトリから読み込み、モデルオブジェクトを返す。 |
| `@udf(name="predict", is_permanent=True, stage_location="@udf", replace=True)` | Snowflakeのユーザー定義関数（UDF）を作成するデコレータ。UDFは予測モデルを呼び出し、予測を返すために使用される。 |
| `predict(...)` | UDFとして定義された関数。引数として特徴量を受け取り、モデルを使用して予測を行い、結果を返す。 |

このコードの目的は、Snowflakeデータベース内で保存されたモデルファイルを読み込み、そのモデルを使用して予測を行うためのUDFを作成することです。UDFはデータベース内のデータに対して予測を実行するのに役立ちます。

```
* @cachetools.cached(cache={}) では、デコレータを使用して関数にキャッシュの機能を追加している。引数 cache はキャッシュの設定を指定するための辞書。この辞書内で、キャッシュのサイズ制限やキャッシュのエントリの有効期限などを設定できる。
* sys._xoptions.get("snowflake_import_directory") を使用して、Snowflake（データウェアハウスプラットフォーム）のデータインポートディレクトリを取得している。
* Snowflakeのデータインポートディレクトリは、データをアップロードまたはダウンロードするためのディレクトリ。
* データインポートディレクトリが存在する場合、with ステートメントを使用して指定されたファイル名のファイルをバイナリモードで開く。
* joblib.load(file) を使用して、ファイルからデータを読み取る。
* @udf()でpredict関数を @udf という名前のステージに保存させる。
*  -> float:で返り値を浮動小数点に指定。

<div style="border-radius: 10px; border: #DEB887 solid; padding: 15px; background-color: #FFFAF0; font-size: 95%; text-align: left">
<h3 align="left"><font color='#3498DB'>🦄 Notes: </font></h3>

```Python
from snowflake.snowpark import functions as F

snowdf_test = session.table("HOUSING_TEST")
inputs = snowdf_test.drop("MEDIAN_HOUSE_VALUE")
snowdf_results = snowdf_test.select(*inputs,
                    predict(*inputs).alias('PREDICTION'), 
                    (F.col('MEDIAN_HOUSE_VALUE')).alias('ACTUAL_LABEL')
                    ).limit(20)
                    
snowdf_results.to_pandas().head(20)
```
提供されたコードは、Snowflakeデータベースからテストデータを読み込み、予測を実行して予測結果と実際のラベルを含むデータフレームを作成し、それをPandasデータフレームに変換して表示する操作を示しています。以下に、コードで使用されている関数やメソッド、設定などを説明します。

| 関数/メソッド | 説明 |
|----------------|------|
| `snowdf_test = session.table("HOUSING_TEST")` | Snowflakeデータベースから "HOUSING_TEST" テーブルを読み込み、それを `snowdf_test` という名前のSnowflakeデータフレームに格納。 |
| `inputs = snowdf_test.drop("MEDIAN_HOUSE_VALUE")` | テストデータから目的変数 "MEDIAN_HOUSE_VALUE" を削除し、特徴量データを `inputs` という名前のSnowflakeデータフレームに格納。 |
| `predict(*inputs).alias('PREDICTION')` | `predict` UDFを使用して予測を行い、予測結果を "PREDICTION" という名前のカラムとして追加。 |
| `F.col('MEDIAN_HOUSE_VALUE').alias('ACTUAL_LABEL')` | "MEDIAN_HOUSE_VALUE" カラムを "ACTUAL_LABEL" という名前のカラムに名前を変更。 |
| `snowdf_results = ...` | 上記の操作に基づいて、予測結果と実際のラベルを含む新しいデータフレームを作成し、それを `snowdf_results` という名前のSnowflakeデータフレームに格納。 |
| `snowdf_results.to_pandas().head(20)` | `snowdf_results` データフレームをPandasデータフレームに変換し、最初の20行を表示。 |

このコードは、モデルを使用してテストデータに対する予測を行い、その結果をデータフレームにまとめて表示します。予測結果と実際のラベルが表示され、モデルの性能評価やデータの理解に役立ちます。

```
* snowdf_test.select():
* snowdf_test データフレームから特定の列を選択。
* *inputs は inputs に含まれる列を選択することを意味し、predict(*inputs) は UDF predict を使用して予測し、新しい列 PREDICTION を生成。
* (F.col('MEDIAN_HOUSE_VALUE')).alias('ACTUAL_LABEL') は MEDIAN_HOUSE_VALUE 列を ACTUAL_LABEL としてリネーム。

<div style="border-radius: 10px; border: #DEB887 solid; padding: 15px; background-color: #FFFAF0; font-size: 95%; text-align: left">
<h3 align="left"><font color='#3498DB'>🦄 Notes: </font></h3>

```Python
#ベクトル化されたUDFを使用して最適なパフォーマンスを実現します
#上記のコードはモデルを並列で実行しますが、予測を行う際に行ごとに実行されます。ベクトル化されたUDFを使用することで、さらに向上させることができます。Snowparkは行を自動的に分割し、各UDF実行にバッチを送信するため、スループットが向上します。

import os
import sys

import cachetools
import pandas
from snowflake.snowpark import types as T
from snowflake.snowpark.functions import pandas_udf

features = ['LONGITUDE', 'LATITUDE', 'HOUSING_MEDIAN_AGE', 'TOTAL_ROOMS',
       'TOTAL_BEDROOMS', 'POPULATION', 'HOUSEHOLDS', 'MEDIAN_INCOME', 'OCEAN_PROXIMITY']

session.add_import("@MODELS/housing_fores_reg.joblib")  
@cachetools.cached(cache={})
def read_file(filename):
       import_dir = sys._xoptions.get("snowflake_import_directory")
       if import_dir:
              with open(os.path.join(import_dir, filename), 'rb') as file:
                     m = joblib.load(file)
                     return m

@pandas_udf(max_batch_size=100)
def predict_batch(df: T.PandasDataFrame[float, float, float, float,
                                          float, float, float, float, str]) -> T.PandasSeries[float]:
       m = read_file('housing_fores_reg.joblib') 
       df.columns = features
       return m.predict(df)
```
提供されたコードは、ベクトル化されたユーザー定義関数（Vectorized UDFs）を使用して、パフォーマンスを最適化し、予測処理を高速化する操作を示しています。以下に、コードで使用されている関数、メソッド、設定などを説明します。

| 関数/メソッド | 説明 |
|----------------|------|
| `session.add_import("@MODELS/housing_fores_reg.joblib")` | Snowflakeセッションにモデルファイルのインポートパスを追加。 |
| `@cachetools.cached(cache={})` | キャッシュを使用して関数をメモ化するデコレータ。 |
| `read_file(filename)` | モデルファイルを読み込む関数。ファイルを指定されたディレクトリから読み込み、モデルオブジェクトを返す。 |
| `@pandas_udf(max_batch_size=100)` | ベクトル化されたユーザー定義関数（Vectorized UDF）を作成するデコレータ。`max_batch_size` パラメータを指定して、UDFのバッチ処理の最大サイズを設定。 |
| `predict_batch(...)` | UDFとして定義された関数。Pandasデータフレームをバッチとして処理し、モデルを使用して一括で予測を行い、結果を返す。 |

このコードは、パフォーマンスを向上させ、予測処理を高速化するためにベクトル化されたUDFを使用しています。ベクトル化されたUDFは、データフレームのバッチを効率的に処理し、各バッチに対してモデル予測を一括で実行します。これにより、処理の高速化とスループットの向上が期待されます。

<div style="border-radius: 10px; border: #DEB887 solid; padding: 15px; background-color: #FFFAF0; font-size: 95%; text-align: left">
<h3 align="left"><font color='#3498DB'>🦄 Notes: </font></h3>

```Python
from snowflake.snowpark import functions as F

snowdf_test = session.table("HOUSING_TEST")
inputs = snowdf_test.drop("MEDIAN_HOUSE_VALUE")
snowdf_results = snowdf_test.select(*inputs,
                    predict_batch(*inputs).alias('PREDICTION'), 
                    (F.col('MEDIAN_HOUSE_VALUE')).alias('ACTUAL_LABEL')
                    ).limit(20)
                    
snowdf_results.to_pandas().head(20)
```
提供されたコードは、ベクトル化されたユーザー定義関数（Vectorized UDF）を使用して、テストデータに対する予測を高速化し、予測結果と実際のラベルを含むデータフレームを作成し、それをPandasデータフレームに変換して表示する操作を示しています。以下に、コードで使用されている関数やメソッド、設定などを説明します。

| 関数/メソッド | 説明 |
|----------------|------|
| `snowdf_test = session.table("HOUSING_TEST")` | Snowflakeデータベースから "HOUSING_TEST" テーブルを読み込み、それを `snowdf_test` という名前のSnowflakeデータフレームに格納。 |
| `inputs = snowdf_test.drop("MEDIAN_HOUSE_VALUE")` | テストデータから目的変数 "MEDIAN_HOUSE_VALUE" を削除し、特徴量データを `inputs` という名前のSnowflakeデータフレームに格納。 |
| `predict_batch(*inputs).alias('PREDICTION')` | `predict_batch` ベクトル化されたUDFを使用して、予測を一括で行い、予測結果を "PREDICTION" という名前のカラムとして追加。 |
| `(F.col('MEDIAN_HOUSE_VALUE')).alias('ACTUAL_LABEL')` | "MEDIAN_HOUSE_VALUE" カラムを "ACTUAL_LABEL" という名前のカラムに名前を変更。 |
| `snowdf_results = ...` | 上記の操作に基づいて、予測結果と実際のラベルを含む新しいデータフレームを作成し、それを `snowdf_results` という名前のSnowflakeデータフレームに格納。 |
| `snowdf_results.to_pandas().head(20)` | `snowdf_results` データフレームをPandasデータフレームに変換し、最初の20行を表示。 |

このコードは、ベクトル化されたUDFを使用してテストデータに対する予測を高速化し、その結果をデータフレームにまとめて表示します。予測結果と実際のラベルが表示され、モデルの性能評価やデータの理解に役立ちます。ベクトル化されたUDFを使用することで、予測処理の高速化が実現されます。
