Copyright (c) Microsoft Corporation. All rights reserved.

Licensed under the MIT License.

# 予測パイプライン - 自動化 ML

---

![Impressions](https://PixelServer20190423114238.azurewebsites.net/api/impressions/MachineLearningNotebooks/how-to-use-azureml/automated-machine-learning/manymodels/03_Forecasting/03_Forecasting_Pipeline.png)

このノートブックでは、11,973 の AutoML モデルのバッチ予測を行うためのパイプラインを作成します。これらのモデルのトレーニングとスコアリングは、このリポジトリのトレーニング ノートブックで完了しました。ここでは目的の予測期間を基に、予測用のパイプラインを設定します。プロセスを並列化するために、AutoMLPipelineBuilder を活用します。データとモデルの詳細については、データ準備およびトレーニングノートブックを参照してください。

パイプラインの設定は、このリポジトリのトレーニング パイプラインと似ています。手順と機能の詳細については、トレーニングフォルダを参照してください。

### 前提条件
この時点で、次の内容が完了している必要があります:

1. [00_Setup_AML_Workspace notebook](../../00_Setup_AML_Workspace.ipynb) を使用して AML ワークスペースが作成作成済みであること
2. [01_Data_Preparation.ipynb](../../01_Data_Preparation.ipynb) を実行してデータセットが作成済みであること
3. [02_AutoML_Training_Pipeline.ipynb](../02_AutoML_Training_Pipeline/02_AutoML_Training_Pipeline.ipynb) を実行してモデルがトレーニング済みであること

azureml.contrib.automl.pipeline.steps パッケージをインストールします

In [None]:
# !pip install azureml-contrib-automl-pipeline-steps

## 1.0 ワークスペース、データストア、およびコンピューティングの呼び出し

トレーニング パイプライン ノートブックで行ったように、ワークスペースを呼び出す必要があります。また、データストアとコンピューティングクラスターの変数を作成します。

### ワークスペースに接続する

In [None]:
import azureml.core
from azureml.core import Workspace, Datastore
import pandas as pd

# ワークスペースのセットアップ
ws= Workspace.from_config() 

# ワークスペースの確認
ws.get_details()

# データストアのセットアップ
dstore = ws.get_default_datastore()

output = {}
output['SDK version'] = azureml.core.VERSION
output['Subscription ID'] = ws.subscription_id
output['Workspace'] = ws.name
output['Resource Group'] = ws.resource_group
output['Location'] = ws.location
output['Default datastore name'] = dstore.name
pd.set_option('display.max_colwidth', -1)
outputDf = pd.DataFrame(data = output, index = [''])
outputDf.T

### 既存のコンピュート リソースをアタッチする

In [None]:
from azureml.core.compute import AmlCompute, ComputeTarget

# クラスタの名前を選択
amlcompute_cluster_name = "cpucluster"

found = False
# ワークスペースにこのコンピュート ターゲットが存在しているか確認
cts = ws.compute_targets
if amlcompute_cluster_name in cts and cts[amlcompute_cluster_name].type == 'AmlCompute':
    found = True
    print('既存のコンピュート ターゲットがあります。')
    compute = cts[amlcompute_cluster_name]
    
if not found:
    print('新しいコンピュート ターゲットを作成しています...')
    provisioning_config = AmlCompute.provisioning_configuration(vm_size='STANDARD_D16S_V3',
                                                           min_nodes=2,
                                                           max_nodes=20)
    # クラスタの作成
    compute = ComputeTarget.create(ws, amlcompute_cluster_name, provisioning_config)
    
print('クラスタの状態を確認中...')
# 最小ノード数と特定のタイムアウトをポーリングできます。
# min_node_count が提供されていない場合は、クラスターのスケール設定が使用されます。
compute.wait_for_completion(show_output = True, min_node_count = None, timeout_in_minutes = 20)
    
# 現在の AmlCompute ステータスの詳細なビューは、get_status() を使用して確認できます。

### 実験のセットアップ

In [None]:
from azureml.core import Experiment

experiment = Experiment(ws, 'manymodels-forecasting-pipeline')

## 2.0 登録済みの FileDataset を呼び出す
データ準備ノートブックでは、オレンジジュースの推論データをワークスペースに登録しました。10 シリーズのサブレットまたは 11,973 シリーズの完全なデータセットでパイプラインを実行することを選択できます。10シリーズから始めて拡大することをお勧めします。

In [None]:
from azureml.core.dataset import Dataset

filedst_10_models = Dataset.get_by_name(ws, name='oj_data_small_inference')
filedst_10_models_input = filedst_10_models.as_named_input('forecast_10_models')
 
#filedst_all_models = Dataset.get_by_name(ws, name='oj_data_inference')
#filedst_all_models_input = filedst_all_models.as_named_input('forecast_all_models')

## 3.0 予測パイプラインの構築
Now that the data, models, and compute resources are set up, we can put together a pipeline for forecasting. 
### Set up the environment to run the script
Specify the conda dependencies for your script. This will allow us to install packages and configure the environment.


データ、モデル、およびコンピューティング リソースを設定したので、予測用のパイプラインをまとめることができます。

スクリプトを実行するための環境のセットアップ
スクリプトの conda 依存関係を指定します。これにより、パッケージをインストールして環境を構成できます。

In [None]:
training_experiment_name = "<training_experiment_name_goes_here>"
training_pipeline_run_id ="<training_pipeline_run_id_goes_here>"

### Create the configuration to wrap the entry script 
AutoMLPipelineBuilder is used to build the inference step for many models. You will need to determine the number of workers and nodes appropriate for your use case. The process_count_per_node is based off the number of cores of the compute VM. The node_count will determine the number of master nodes to use, increasing the node count will speed up the training process.

* <b>experiment</b>: Current experiment.

* <b>inference_data</b>: Inference dataset.

* <b>compute_target</b>: Compute target for inference.

* <b>node_count</b>: The number of compute nodes to be used for running the user script. We recommend to start with 3 and increase the node_count if the training time is taking too long.

* <b>process_count_per_node</b>: The number of processes per node.

* <b>run_invocation_timeout</b>: The run() method invocation timeout in seconds. The timeout should be set to maximum training time of one AutoML run(with some buffer), by default it's 60 seconds.

* <b>output_datastore</b>: Output datastore to output the inference results.

* <b>train_experiment_name</b>: Training experiment name where many models were trained.

* <b>train_run_id</b>: Training run id where many models were trained.

* <b>partition_column_names</b>: Partition column names.

* <b>time_column_name(Optional)</b>: Time column name if it is timeseries

* <b>target_column_name(Optional)</b>: Target column name if the inference dataset has the target column

<span style="color:red"><b>NOTE: There are limits on how many runs we can do in parallel per workspace, and we currently recommend to set the parallelism to maximum of 320 runs per experiment per workspace. If users want to have more parallelism and increase this limit they might encounter Too Many Requests errors (HTTP 429). </b></span>

In [None]:
from azureml.contrib.automl.pipeline.steps import AutoMLPipelineBuilder

partition_column_names = ['Store', 'Brand']

inference_steps = AutoMLPipelineBuilder.get_many_models_batch_inference_steps(experiment=experiment,
                                                                              inference_data=filedst_10_models_input,
                                                                              compute_target=compute,
                                                                              node_count=2,
                                                                              process_count_per_node=8,
                                                                              run_invocation_timeout=300,
                                                                              output_datastore=dstore,
                                                                              train_experiment_name=training_experiment_name,
                                                                              train_run_id=training_pipeline_run_id,
                                                                              partition_column_names=partition_column_names,
                                                                              time_column_name="WeekStarting",
                                                                              target_column_name="Quantity")

## 4.0 Run the forecast pipeline
We can use the Experiment we created to track the runs of the pipeline and review the output.

In [None]:
from azureml.pipeline.core import Pipeline

pipeline = Pipeline(workspace = ws, steps=inference_steps)
run = experiment.submit(pipeline)

You can run the folowing command if you'd like to monitor the forecasting process in jupyter notebook. It will stream logs live while forecasting. 

**Note**: this command may not work for Notebook VM, however it should work on your local laptop.

In [None]:
run.wait_for_completion(show_output=True)

Succesfully forecasted on AutoML Models.

## 5.0 Pipeline Outputs
The forecasting pipeline forecasts the orange juice quantity for a Store by Brand. The pipeline returns one file with the predictions for each store and outputs the result to the forecasting_output Blob container. The details of the blob container is listed in 'forecasting_output.txt' under Outputs+logs. 

The following code snippet:
1. Downloads the contents of the output folder that is passed in the parallel run step 
2. Reads the parallel_run_step.txt file that has the predictions as pandas dataframe and 
3. Displays the top 10 rows of the predictions

In [None]:
import pandas as pd
import shutil
import os
import sys 
from scripts.helper import get_forecasting_output

forecasting_results_name = "forecasting_results"
forecasting_output_name = "many_models_inference_output"

forecast_file = get_forecasting_output(run, forecasting_results_name, forecasting_output_name)
df = pd.read_csv(forecast_file, delimiter=" ", header=None)
df.columns = ["Week Starting", "Store", "Brand", "Quantity",  "Advert", "Price" , "Revenue", "Predicted" ]
print("Prediction has ", df.shape[0], " rows. Here the first 10 rows are being displayed.")
df.head(10)

## 6.0 Publish and schedule the pipeline (Optional)

### 6.1 Publish the pipeline

Once you have a pipeline you're happy with, you can publish a pipeline so you can call it programmatically later on. See this [tutorial](https://docs.microsoft.com/en-us/azure/machine-learning/how-to-create-your-first-pipeline#publish-a-pipeline) for additional information on publishing and calling pipelines.

In [None]:
# published_pipeline = pipeline.publish(name = 'automl_forecast_many_models',
#                                      description = 'forecast many models',
#                                      version = '1',
#                                      continue_on_step_failure = False)

### 6.2 Schedule the pipeline
You can also [schedule the pipeline](https://docs.microsoft.com/en-us/azure/machine-learning/how-to-schedule-pipelines) to run on a time-based or change-based schedule. This could be used to automatically retrain or forecast models every month or based on another trigger such as data drift.

In [None]:
# from azureml.pipeline.core import Schedule, ScheduleRecurrence
    
# forecasting_pipeline_id = published_pipeline.id

# recurrence = ScheduleRecurrence(frequency="Month", interval=1, start_time="2020-01-01T09:00:00")
# recurring_schedule = Schedule.create(ws, name="automl_forecasting_recurring_schedule", 
#                             description="Schedule Forecasting Pipeline to run on the first day of every week",
#                             pipeline_id=forecasting_pipeline_id, 
#                             experiment_name=experiment.name, 
#                             recurrence=recurrence)