# 問題: 映画または番組をユーザーにレコメンドする

変更元:
- [Implementing a Recommender System with SageMaker, MXNet, and Gluon](https://github.com/awslabs/amazon-sagemaker-examples/blob/master/introduction_to_applying_machine_learning/gluon_recommender_system/gluon_recommender_system.ipynb)
- [An Introduction to Factorization Machines with MNIST](https://github.com/awslabs/amazon-sagemaker-examples/blob/master/introduction_to_amazon_algorithms/factorization_machines_mnist/factorization_machines_mnist.ipynb)
- [Extending Amazon SageMaker Factorization Machines Algorithm to Predict Top X Recommendations](https://aws.amazon.com/blogs/machine-learning/extending-amazon-sagemaker-factorization-machines-algorithm-to-predict-top-x-recommendations/)

## ビジネスシナリオの概要

あなたは、オンデマンド動画ストリーミングサービスをユーザーに提供することに重点を置いたスタートアップに勤務しています。会社では、ユーザーの閲覧履歴に基づいて映画/番組のレコメンデーションを提供するサービスの導入を検討しています。

そのため、ユーザーウェブサイトで使用するレコメンデーションエンジンを機械学習を利用して作成し、この問題の一部を解決するように指示されました。ユーザー選好の履歴とユーザーが視聴した映画のデータセットへのアクセスが許可されています。このデータセットを使用して機械学習モデルをトレーニングし、視聴する映画/番組のレコメンデーションをユーザーに提供できます。

## このデータセットについて  
Amazon Customer Reviews Dataset は、Amazon.com マーケットプレイスで 1995 年から 2015 年までの間に販売されたさまざまな商品のレビューのコレクションです。カスタマーレビューは、Amazon で最も重要なデータタイプの 1 つです。レビューの収集と表示は、創業当初から Amazon の企業文化の一部となっており、イノベーションを生み出す重要な源の 1 つであることはほぼ間違いありません。このデータセットの詳細については、[Amazon Customer Reviews Dataset](https://s3.amazonaws.com/amazon-reviews-pds/readme.html) を参照してください。

この演習では、動画のレビューに焦点を合わせます。この動画データセットには、16 万個のデジタル動画に関する、200 万人を上回る Amazon のお客様からの 1～5 個の星による評価が含まれます。

### 特徴量

**データ列**

- `marketplace`: 2 文字の国コード (この場合、すべて "US")
- `customer_id`: 1 人の作成者によって書かれたレビューを集約するために使用できるランダムな識別子
- `review_id`: レビューの一意の ID
- `product_id`: Amazon Standard Identification Number (ASIN)。http://www.amazon.com/dp/&lt;ASIN\> から商品の詳細ページにアクセスできる
- `product_parent`: その ASIN の親商品。複数の ASIN (同じ商品の色または形のバリエーション) を 1 つの親商品にまとめることができる
- `product_title`: 商品のタイトル説明
- `product_category`: レビューをグループ化するために使用できる広範な商品カテゴリ (この場合、デジタル動画)
- `star_rating`: 商品の評価 (1～5 個の星)
- `helpful_votes`: レビューに対する「役に立った」の投票数
- `total_votes`: レビューで受け取った投票の合計数
- `vine`: Vine プログラムの一環として書かれたレビューか?
- `verified_purchase`: 確認済みの購入者からのレビューか?
- `review_headline`: レビュー自体のタイトル
- `review_body`: レビューのテキスト
- `review_date`: レビューが作成された日付


**データ形式**
- 引用符またはエスケープ文字なしのタブ `\t` 区切りのテキストファイル
- 各ファイルの最初の行はヘッダー。1 行が 1 レコードに相当する

### データセットの属性

ウェブサイト: https://s3.amazonaws.com/amazon-reviews-pds/readme.html

このデータセットは Amazon の許可を得て提供されているもので、AWS デジタルトレーニングサービス契約 (https://aws.amazon.com/training/digital-training-agreement から入手可能) の条件が適用されます。このラボの実施以外の目的でデータセットをコピー、変更、販売、エクスポート、使用することは明示的に禁止されています。

## ブレインストーミングと問題の設計

(機械学習で解答できる問題)

ほとんどのプロジェクトでは最初のステップとして、答えを必要とする問題、利用可能なデータはこの問題をどのようにサポートするか、問題の答えを得るためにどのツール (この場合、機械学習モデル) を使用するかについて考えます。これは、探索の範囲を絞り込み、使用する特徴量を明確にするのに役立つため、重要なステップです。

少し時間を取って、以下のセルにこのデータセットに関する自分の考えを入力します。機械学習を使って予測できるものは何でしょうか? それがビジネス/クライアントの観点から関連があると思われるのはなぜですか? これらの考えが重要であると考える理由を説明します。

In [None]:
# Write your thoughts here

データの処理方法についてはいくつかのアイデアがあると思いますが、ここでは私たち全員が、特定のユーザーに動画をレコメンドする作業に取り組みます。

## レコメンデーションと因数分解機

レコメンダシステムは、いろいろな意味で機械学習の現在の人気に火を付けました。Amazon の最初期の成功例の 1 つは、"この商品を買った人はこんな商品も買っています" 機能です。賞金 100 万ドルの Netflix Prize により、研究に拍車がかかるとともに一般の認識が高まり、他の多くのデータサイエンスに関するコンテストが生まれるきっかけとなりました。

レコメンダシステムでは、多数のデータソースと機械学習アルゴリズムを利用できます。ほとんどのシステムでは、教師なし学習、教師あり学習、強化学習というさまざまな学習手法を組み合わせて総合的なフレームワークを構築しています。ただし、中核となるコンポーネントはほとんどの場合、特定の商品に対するユーザーの評価 (または購入) を、同様の商品に対するユーザーの評価履歴および他の類似ユーザーの行動に基づいて予測するモデルです。これに必要な最小限のデータセットは、ユーザーによる商品の評価履歴です (保有しています)。

使用する手法は、因数分解機です。因数分解機は、分類タスクと回帰タスクの両方に使用できる汎用的な教師あり学習アルゴリズムです。これは線形モデルの拡張であり、高次元スパースデータセット内の特徴量間の相互作用を倹約的に (単純に) キャプチャするように設計されています。このため、クリック予測、商品レコメンデーションなど、特徴量を使用してデータパターンを処理する際の適切な候補となります。

# ステップ 1: 問題の定式化とデータ収集

このプロジェクトを始めるにあたり、このシナリオにおけるビジネス上の問題と達成しようとしているビジネス目標を 2、3 文にまとめて、以下に入力します。これには、チームが目指す必要のあるビジネスメトリクスを含めます。その情報を定義したら、機械学習の問題文を明確に書き出します。最後に、これが表す機械学習のタイプに関するコメントを 1、2 文追加します。

#### <span style="color: blue;">プロジェクトプレゼンテーション: これらの詳細の要約をプロジェクトプレゼンテーションに含めます。</span>

### ビジネスシナリオをひととおり読み通してから、以下を実行します

### 1.機械学習がデプロイすべき適切なソリューションかどうか、また適切なソリューションである場合はその理由を判断します。

In [None]:
# Write your answer here

### 2.ビジネス上の問題、成功のメトリクス、求める機械学習の出力を定式化します。

In [None]:
# Write your answer here

### 3.取り組んでいる機械学習の問題のタイプを特定します。

In [None]:
# Write your answer here

### 4.使用しているデータの適切性を分析します。

In [None]:
# Write your answer here

### 設定

注力する領域を特定したところで、問題を解決するための作業を開始できるようにセットアップしましょう。

**注意:** このノートブックは `ml.m4.xlarge` ノートブックインスタンスで作成およびテストされました。

まず、以下を指定します。
- トレーニングデータとモデルデータに使用する Amazon Simple Storage Service (Amazon S3) バケットとプレフィックス (?)。これは、ノートブックインスタンス、トレーニング、ホスティングと同じリージョン内にある必要があります。
- トレーニングとホスティング用にデータへのアクセス権を付与するために使用する AWS Identity and Access Management (IAM) ロールの [Amazon リソースネーム (ARN)](https://docs.aws.amazon.com/general/latest/gr/aws-arns-and-namespaces.html)。これらの作成方法については、ドキュメントを参照してください。

**注意:** ノートブックインスタンス、トレーニング、またはホスティングに複数のロールが必要な場合、`get_execution_role()` コールを適切で完全な IAM ロールの ARN 文字列に置き換えます。

**`<LabBucketName>`** をラボアカウントに用意されたリソース名に置き換えます。

In [None]:
# Change the bucket and prefix according to your information
bucket = '<LabBucketName>'
prefix = 'sagemaker-fm' 

import sagemaker
role = sagemaker.get_execution_role()

ここで、このサンプルノートブックの残りの部分に必要な Python ライブラリを読み込みます。

In [None]:
import os, subprocess
import warnings
import pandas as pd
import numpy as np
import sagemaker
from sagemaker.mxnet import MXNet
import boto3
import json
import matplotlib.pyplot as plt
import seaborn as sns

# Add this to display all the outputs in the cell and not just the last one
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"

# Ignore warnings
warnings.filterwarnings("ignore")

# ステップ 2: データの前処理と可視化 
このデータの前処理フェーズでは、データを探索して可視化し、データに対する理解を深める必要があります。まず、必要なライブラリをインポートし、データを pandas の DataFrame に読み込みます。その後、データを探索します。データセットのシェイプを確認し、作業している列と列のタイプ (数値、カテゴリ) を調べます。特徴量に対して基本的な統計を実行して、特徴量の平均と範囲を理解することを検討します。ターゲット列を詳細に調べて、その分布を判断します。

### 考慮すべき具体的な質問
1.特徴量に対して実行した基本的な統計からどのようなことを推測できますか? 

2.ターゲットクラスの分布から、どのようなことを推測できますか?

3.データを探索することで推測できたことは他にありますか?

#### <span style="color: blue;">プロジェクトプレゼンテーション: これらの質問や他の同様の質問に対する自分の回答の要約をプロジェクトプレゼンテーションに含めます。</span>

まず、Amazon S3 パブリックバケットからこのノートブック環境にデータセットを取り込みます。

In [None]:
# Check whether the file is already in the desired path or if it needs to be downloaded

base_path = '/home/ec2-user/SageMaker/project/data/AmazonReviews'
file_path = '/amazon_reviews_us_Digital_Video_Download_v1_00.tsv.gz'

if not os.path.isfile(base_path + file_path):
    subprocess.run(['mkdir', '-p', base_path])
    subprocess.run(['aws', 's3', 'cp', 's3://amazon-reviews-pds/tsv' + file_path, base_path])
else:
    print('File already downloaded!')

### データセットを読み込む

扱っているデータの内容を理解できるようにするために、データを pandas の DataFrame に読み込みます。

**注意:** ファイルを読み込む際に `error_bad_lines=False` と設定します。そうしない場合、問題を作成するレコードの数が非常に少なくなる可能性があるためです。

**ヒント:** Python の組み込みの `read_csv` 関数 ([ドキュメント](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.read_csv.html)) を使用できます。pandas の `read_csv` で `delimiter='\t'` を使用してファイルパスを直接使用できます。

例: `pd.read_csv('filename.tar.gz', delimiter = '\t', error_bad_lines=False)`

In [None]:
df = # Enter your code here

データセットの最初の数行を出力します。 

**ヒント**: 行を出力するには、`pandas.head(<number>)` 関数を使用します。

In [None]:
# Enter your code here

では、すべての列にはどのような情報が含まれているでしょうか?

### データセットの構造

データにもう少し精通し、どのような特徴量が手元にあるのかを確認します。

- `marketplace`: 2 文字の国コード (この場合、すべて "US")
- `customer_id`: 1 人の作成者によって書かれたレビューを集約するために使用できるランダムな識別子
- `review_id`: レビューの一意の ID
- `product_id`: Amazon Standard Identification Number (ASIN)。http://www.amazon.com/dp/&lt;ASIN\> から商品の詳細ページにアクセスできる
- `product_parent`: その ASIN の親商品。複数の ASIN (同じ商品の色または形のバリエーション) を 1 つの親商品にまとめることができる
- `product_title`: 商品のタイトル説明
- `product_category`: レビューをグループ化するために使用できる広範な商品カテゴリ (この場合、デジタル動画)
- `star_rating`: 商品の評価 (1～5 個の星)
- `helpful_votes`: レビューに対する「役に立った」の投票数
- `total_votes`: レビューで受け取った投票の合計数
- `vine`: Vine プログラムの一環として書かれたレビューか?
- `verified_purchase`: 確認済みの購入者からのレビューか?
- `review_headline`: レビュー自体のタイトル
- `review_body`: レビューのテキスト
- `review_date`: レビューが作成された日付

### データセットを分析し、理解する

#### データを探索する

**ヒント:** 以下の問題の答えを得るために、[こちら](https://pandas.pydata.org/pandas-docs/stable/reference/frame.html) を参照できます。

**問題:** データセットに行と列はそれぞれいくつありますか?

データセットのサイズを確認します。 

**ヒント**: DataFrame のサイズを確認するには、`<dataframe>.shape` 関数を使用します。

In [None]:
# Enter your code here

In [None]:
# Enter your Answer here

**問題:** null 値が含まれている列はどれですか。また、その列には null 値がいくつ含まれていますか?

データセットの概要を出力します。 

**ヒント**: `<dataframe>.info` 関数を使用して、キーワード引数 `null_counts = True` を指定します。

In [None]:
# Enter your code here

In [None]:
# Enter your Answer here

**問題:** 重複する行はありますか? ある場合、いくつありますか?  

**ヒント**: `dataframe.duplicated()` ([ドキュメント](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.duplicated.html#pandas.DataFrame.duplicated)) を使用して DataFrame をフィルタリングし、新しい DataFrame の長さを確認します。

In [None]:
duplicates = # Enter your code here

# Enter your code here

In [None]:
# Enter your Answer here

### データの前処理

ここでは、使用する特徴量と、モデル向けに特徴量を準備する方法を決定します。この例では、使用する特徴量を `customer_id`、`product_id`、`product_title`、`star_rating` に限定します。レコメンデーションシステムにその他の特徴量を追加すると役立つ可能性がありますが、このノートブックの範囲を超えた大量の処理 (特にテキストデータ) が必要になります。

このデータセットを小さくし、前述の列のみを使用します。 

**ヒント**: 列をリストとして渡すことで、複数の列を DataFrame として選択します。例: `df[['column_name 1', 'column_name 2']]`

In [None]:
df_reduced = # Enter your code here

データセットを小さくした後で、重複があるかどうかをもう一度確認します。

In [None]:
duplicates = # Enter your code here

# Enter your code here

In [None]:
# Enter your Answer here

**問題:** 現在データセットに重複があるのはなぜですか? データセットを小さくした後、何が変わりましたか? 重複している最初の 20 行を確認します。

**ヒント**: 行を出力するには、`pandas.head(<number>)` 関数を使用します。

In [None]:
# Enter your code here

**ヒント:** 重複する DataFrame の最初の 2 つの要素を確認し、元の DataFrame の df にクエリを実行してデータがどのようになるのかを確認します。`query` 関数 ([ドキュメント](https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.DataFrame.query.html)) を使用できます。

例:

```
df_eg = pd.DataFrame({
            'A': [1,2,3,4],
            'B': [
        })
df_eg.query('A > 1 &amp; B > 0')
```

In [None]:
# Enter your code here

In [None]:
# Enter your Answer here

続行する前に、重複する行を削除します。

**ヒント**: `~` 演算子を使用して重複していないすべての行を選択します。例:
    
```
df_eg = pd.DataFrame({
            'A': [1,2,3,4],
            'B': [2,0,5,2]
        })
df_eg[~(df_eg['B'] > 0)]
```

In [None]:
df_reduced = # Enter your code here

### データセット内の一部の行を可視化する
上記の部分でまだそうしていない場合には、以下のスペースを使用して、データの一部をさらに可視化できます。特に、`star_rating`、`customer_id`、`product_id` などの特徴量の分布を確認します。

**考慮すべき具体的な質問**

1.特徴量の分布を確認した結果、これらの特徴量はどの程度モデルに役立つと思われますか? これらの分布から推測できる、データの理解を深めるのに役立つと思われるものが何かありますか? 

2.すべてのデータを使用する必要がありますか? どの特徴量を使用する必要がありますか?

3.ユーザー評価の件数が最も多い月は何月ですか?

以下のセルを使用してデータを可視化し、これらの質問や他の関心を持つ質問に回答します。必要に応じてセルを挿入および削除します。

#### <span style="color: blue;">プロジェクトプレゼンテーション: この質問や同様の質問に対する自分の回答の要約をプロジェクトプレゼンテーションに含めます。</span>

`sns.barplot` ([ドキュメント](https://seaborn.pydata.org/generated/seaborn.barplot.html)) を使用して、`star_rating` の密度と分布のグラフを作成します。

In [None]:
# Enter your code here to count the number of reviews with a specific rating

sns.barplot(
    x='index',
    y=<CODE>, # Enter your code here
    data=_, # The underscore symbol in Python is used to store the output of the last operation
    palette='GnBu_d'
)

**問題:** ユーザー評価の件数が最も多い月は何月ですか?  

**ヒント**:  
1.`pd.to_datetime` を使用して、`review_date` 列を datetime 列に変換します。 
2.`review_date` 列にある月を使用します。`<column_name>.dt.month` を使用してアクセスし、datetime 列で使用できます。 
3.`groupby` 関数で `idxmax` を使用します。 

In [None]:
# Convert the review date to a datetime type.Here you will use original dataframe 'df'
df['review_date'] = # Enter your code here

# Count the number of ratings by month
df.groupby(<CODE>).star_rating.count().reset_index()

# Use the bar plot again to plot the ratings(y) vs. review_date(x)
sns.barplot(x=<CODE>, y=<CODE>, data=_, palette='GnBu_d') # Enter your code here

In [None]:
# Use the Pandas groupby function on month to get the star rating count
max_month = df.groupby(<CODE>).star_rating.count().idxmax() # Enter your code here
print(f'The month with the most reviews is: {max_month}')

In [None]:
# Enter your Answer here

**ボーナス問題 (オプション):** レビューの数が最も多い年と最も少ない年はどれですか?

In [None]:
# Use the Pandas groupby function on year and get the star rating count
df.groupby(<CODE>).star_rating.count().reset_index() # Enter your code here

fig = plt.gcf()
fig.set_size_inches(10, 5)

# Use the bar plot to plot star_rating(y) vs. review_date(x)
sns.barplot(x=<CODE>, y=<CODE>, data=_, palette='GnBu_d') # Enter your code here

In [None]:
# Enter your Answer here

### データをクリーンアップする

**問題**: お客様 1 人あたりのレビューの数と動画 1 つあたりのレビューの数はどのように性質が異なりますか? 分位値を使用して確認します。

**ヒント**: お客様と商品の DataFrame の `<dataframe>['columns_name'].value_counts()` を使用します。そして関係を見つけるために `<dataframe>.quantile(<list>)` を使用します。

In [None]:
customers = # Enter your code here
products = # Enter your code here

quantiles = [0, 0.01, 0.02, 0.03, 0.04, 0.05, 0.1, 0.25, 0.5,
             0.75, 0.9, 0.95, 0.96, 0.97, 0.98, 0.99, 0.995,
             0.999, 1]
print('customers\n', <CODE>) # Enter your code here
print('products\n', <CODE>) # Enter your code here

In [None]:
# Enter your Answer here

この長い末尾を除外します。18 個以上の動画を評価したお客様と 95 件を超えるレビューがある商品を選択します。

In [None]:
customers1 = # Enter your code here
products1 = # Enter your code here

# Use the Pandas merge function to merge the customer1 and products1 with the original df_reduced dataset
reduced_df = (
            df_reduced.merge(pd.DataFrame({'customer_id': customers1.index}))
                      .merge(pd.DataFrame({'product_id': products1.index}))
            )# Enter your code here

**問題:** `customers1`、`products1`、および reduced_df という新しい DataFrame のシェイプはどのようになっていますか?  

**注意**: これには f-strings を使用します。
```
x= 3
print(f'X = {x}')
```

In [None]:
print(f'Number of users is {<CODE>} and number of items is {<CODE>}.')# Enter your code here
print(f'Length of reduced df is {<CODE>}.')# Enter your code here

DataFrame の最初の 5 列を出力します。

In [None]:
# Enter your code here

**問題:** `reduced_df` では評価の比率は同じ比率に維持されていますか?

In [None]:
reduced_df[<CODE>].value_counts().reset_index()# Enter your code here
sns.barplot(x='index', y='star_rating', data=_, palette='GnBu_d')

In [None]:
# Enter your Answer here

ここで、お客様ごとのカウントと商品ごとのカウントに関するお客様の分布と商品の分布を再作成します。

**ヒント**: `customer_id` 列と `product_id` 列で `value_counts()` 関数を使用します。

In [None]:
customers = # Enter your code here
products = # Enter your code here

fig, axs = plt.subplots(1, 2, figsize=(20, 5))
fig.suptitle('Distribution of counts per customer and product')
sns.distplot(customers, kde=False, ax=axs[0], color='teal')
sns.distplot(products, kde=False, ax=axs[1])

次に、各ユーザーと商品に番号を付け、独自の連続インデックスを付けます。これにより、情報をスパース形式で格納できます。この形式では、連続インデックスによって評価行列の行と列が示されます。

`customer_index` と `product_index` を作成するには、`customer_id` をインデックス値とし、ユーザーと商品の番号に連番/連続値を使用して新しい DataFrame を作成します。両方のインデックスの作成が完了したら、pandas の `merge` 関数を使用して `customer_index` と `product_index` をマージします。

**ヒント**: お客様の合計数と商品の合計数を生成するには `shape` 関数を使用します。0 からお客様数と商品数までの番号のリストを生成するには、`np.arange` を使用します。

In [None]:
customer_index = pd.DataFrame({'customer_id': customers.index,
                               'user': np.arange(<CODE>)}) # Enter your code here
product_index = pd.DataFrame({'product_id': products.index,
                              'item': np.arange(<CODE>)}) # Enter your code here

reduced_df = reduced_df.merge(<CODE>).merge(<CODE>)# Enter your code here
reduced_df.head()

解答例:
<div class="output_subarea"><div>

<table class="dataframe" border="1">
  <thead>
    <tr style="text-align: right">
      <th></th>
      <th>customer_id</th>
      <th>product_id</th>
      <th>star_rating</th>
      <th>product_title</th>
      <th>user</th>
      <th>item</th>
    </tr>
  </thead>
  <tbody>
    <tr>
      <th>0</th>
      <td>11763902</td>
      <td>B00PSLQYWE</td>
      <td>4</td>
      <td>ダウントンアビー シーズン 5</td>
      <td>3065</td>
      <td>103</td>
    </tr>
    <tr>
      <th>1</th>
      <td>1411480</td>
      <td>B00PSLQYWE</td>
      <td>5</td>
      <td>ダウントンアビー シーズン 5</td>
      <td>130</td>
      <td>103</td>
    </tr>
    <tr>
      <th>2</th>
      <td>35303629</td>
      <td>B00PSLQYWE</td>
      <td>5</td>
      <td>ダウントンアビー シーズン 5</td>
      <td>4683</td>
      <td>103</td>
    </tr>
    <tr>
      <th>3</th>
      <td>21285980</td>
      <td>B00PSLQYWE</td>
      <td>5</td>
      <td>ダウントンアビー シーズン 5</td>
      <td>449</td>
      <td>103</td>
    </tr>
    <tr>
      <th>4</th>
      <td>29260449</td>
      <td>B00PSLQYWE</td>
      <td>5</td>
      <td>ダウントンアビー シーズン 5</td>
      <td>131</td>
      <td>103</td>
    </tr>
  </tbody>
</table>
</div></div>

## <span style="color:red">ラボ 2 の終わり</span>

ローカルコンピュータにプロジェクトファイルを保存します。次の一連のステップを実行します。

1.ページ上部にある [**File**] メニューをクリックします。

1.[**Download as**] を選択し、[**Notebook(.ipynb)**] をクリックします。 

これにより、現在のノートブックがコンピュータのデフォルトのダウンロードフォルダにダウンロードされます。

# ステップ 3: モデルのトレーニングと評価

データセットを DataFrame から機械学習アルゴリズムで使用できる形式に変換するときに、実行する必要がある準備手順があります。Amazon SageMaker の場合、以下の手順を実行する必要があります。

1.データを `train_data` と `test_data` に分割します。   
2.Amazon SageMaker トレーニングジョブで使用できる適切なファイル形式にデータセットを変換します。これは CSV ファイルまたは record protobuf のいずれかです。詳細については、[トレーニングの共通データ形式](https://docs.aws.amazon.com/sagemaker/latest/dg/cdf-training.html) を参照してください。この問題の場合、データはスパースになるため、`scipy.sparse.lilmatrix` 関数を使用し、その後 `sagemaker.amazon.common.write_spmatrix_to_sparse_tensor` を使用してこの関数を `RecordIO protobuf` 形式に変換できます。   
3.Amazon S3 バケットにデータをアップロードします。バケットを作成したことがない場合は、[バケットの作成](https://docs.aws.amazon.com/AmazonS3/latest/gsg/CreatingABucket.html) を参照してください。   

以下のセルを使用して、これらの手順を完了します。必要に応じてセルを挿入および削除します。

#### <span style="color: blue;">プロジェクトプレゼンテーション: このフェーズでの主な決定事項をプロジェクトプレゼンテーションに記録します。</span>

### データを準備する

これで、データセットをモデルの入力として準備する作業を開始できます。モデルによって入力のニーズは異なります。Amazon SageMaker に実装されているアルゴリズムの一部には、recordIO でラップされた protobuf 形式のデータが必要です。この処理は、以下のセルで行います。

まず、データセットをトレーニングセットとテストセットに分割します。これにより、お客様が評価した動画のうち、トレーニングに含まれていなかった動画に対するモデルの精度を推測できます。

`test_df` DataFrame の作成から始めます。`customer_id` で DataFrame をグループ化し、`pd.groupby(' ').last()` に似た `last` 関数を使用して DataFrame を作成します。

In [None]:
test_df = reduced_df.groupby(<CODE>).last().reset_index() # Enter your code here

トレーニングデータを作成するには、`test_df` にある値を `reduced_df` DataFrame から削除します。

**ヒント**: `customer_id` 列と `product_id` 列を外部結合として使用して、`reduced_df` DataFrame と `test_df` データセットをマージします。

In [None]:
# Enter your code here
train_df = reduced_df.merge(<CODE>,
                            on=['customer_id', 'product_id'],
                            how='outer',
                            indicator=True,
                            indicator=True)
train_df = train_df[(train_df['_merge'] == 'left_only')].reset_index()

In [None]:
test_df.head()

これで、データのいくつかの基本的な特性を確認できるようになりました。これは、後でモデルのトレーニングのために特徴量を適切な形式に変換するのに役立ちます。

テストデータセットとトレーニングデータセットの長さに関して 2 つの変数 `nb_rating_test` と `nb_ratings_train` を作成します。

In [None]:
nb_ratings_test = # Enter your code here
nb_ratings_train = # Enter your code here
print(f" Training Count: {nb_ratings_train}")
print(f" Test Count: {nb_ratings_test}")

### データの変換

これで、pandas の DataFrame をスパース行列に変換できます。このプロセスは、トレーニングとテストの両方で同じです。Amazon SageMaker での因数分解機の実装では recordIO でラップされた protobuf を使用します。ここでは、現在持っているデータはディスク上の pandas の DataFrame です。そのため、データをスパース行列に変換して、各ユーザーと各映画の関係を表現します。

In [None]:
from scipy.sparse import lil_matrix

def loadDataset(df, lines, columns, regressor=True):
    """
    Convert the pandas dataframe into a sparse matrix
    
    Args:
        df: DataFrame
        lines: number of rows of the final sparse matrix
        columns: number of columns of final sparse matrix
        regressor: Boolean value to check if using regression
                  or classification
    Returns:
        X: Feature vector
        Y: Label vector
    """
    # Features are one-hot encoded in a sparse matrix
    
    # Use scipy.sparse.lil_matrix to create the feature vector X of type float32
    # The size of the matrix is the length of the dataframe and 
    # number of lines plus number of columns variable 
    X = lil_matrix((<CODE>, lines + columns)).astype('float32') # Enter your code here
    
    # Labels are stored in a vector.Instantiate an empty label vector Y.
    Y = # Enter your code here
    
    line = 0
    
    # For each row in the dataframe, use 1 for the item and product number
    for index, row in df.iterrows():
        X[line,row['user']] = 1
        X[line, lines + (row['item'])] = 1
        line += 1

        if regressor:
            # If using regression, append the star_rating from the row variable
            Y.append(<CODE>) # Enter your code here
        else:
            # Use 1 for star_rating 5 else use 0 from the row variable
            if int(row['star_rating']) >= 5:
                Y.append(<CODE>) # Enter your code here
            else:
                Y.append(<CODE>) # Enter your code here
            
    # Convert the list into a NumPy array of type float32     
    Y = np.array(<CODE>).astype('float32') # Enter your code here
    
    return X, Y

`loadDataset` 関数を使用してトレーニングセットとテストセットを作成します。

In [None]:
print(customers.shape[0],
      products.shape[0],
      customers.shape[0] + products.shape[0])

# Use loadDataset function with train_df, customers.shape[0] and products.shape[0]
X_train, Y_train = loadDataset(<CODE>) # Enter your code here

# Use loadDataset function with test_df, customers.shape[0] and products.shape[0]
X_test, Y_test = loadDataset(<CODE>) # Enter your code here

データがスパース形式になったので、protobuf 形式で保存し、Amazon S3 にアップロードします。この手順は難しそうな印象を与えるかもしれませんが、変換処理のほとんどは、以下で SageMaker としてインポートされる Amazon SageMaker Python SDK によって行われます。

In [None]:
import io 
import sagemaker.amazon.common as smac

def writeDatasetToProtobuf(X, bucket, prefix, key, d_type, Y=None):
    buf = io.BytesIO()
    if d_type == "sparse":
        smac.write_spmatrix_to_sparse_tensor(buf, X, labels=Y)
    else:
        smac.write_numpy_to_dense_tensor(buf, X, labels=Y)
        
    buf.seek(0)
    obj = '{}/{}'.format(prefix, key)
    boto3.resource('s3').Bucket(bucket).Object(obj).upload_fileobj(buf)
    return 's3://{}/{}'.format(bucket,obj)


fm_train_data_path = writeDatasetToProtobuf(X_train, bucket, prefix, 'train', "sparse", Y_train)    
fm_test_data_path = writeDatasetToProtobuf(X_test, bucket, prefix, 'test', "sparse", Y_test)  
  
print("Training data S3 path: ", fm_train_data_path)
print("Test data S3 path: ", fm_test_data_path)

これでデータの準備は完了です。成功です。 これでわかるように、モデルを作成するためにデータをクリーンアップして準備するには、多くの時間と労力が必要です。これはすべてのデータサイエンスプロジェクトに当てはまります。そして、このステップは結果に大きな影響を与えます。今後のすべての機械学習プロジェクトで、トレーニングのためにデータを理解し、準備する時間を十分に取るようにしてください!

## モデルをトレーニングする

ここでは、モデルをトレーニングします。トレーニングには、Amazon SageMaker トレーニングジョブを使用します。Amazon SageMaker トレーニングジョブを使用すると、トレーニング用のすべてのコードを記述する必要がないため、モデルを簡単に作成できます。コードは既にコンテナ形式に処理されています。

ノートブックからトレーニングジョブを作成する一般的なワークフローでは、予測子をインスタンス化し、いくつかのハイパーパラメータを渡し、データを正しい形式で渡します。以下のセルでこれを実行します。

FM 推定器の詳細については、[FactorizationMachines](https://sagemaker.readthedocs.io/en/stable/factorization_machines.html) を参照してください。

ハイパーパラメータの詳細については、[因数分解機のハイパーパラメータ](https://docs.aws.amazon.com/sagemaker/latest/dg/fact-machines-hyperparameters.html) を参照してください。

**ヒント**: 例:

```
sess = sagemaker.Session()

pca = sagemaker.estimator.Estimator(containers[boto3.Session().region_name],
                                    role,
                                    instance_count=1,
                                    instance_type='ml.m4.xlarge',
                                    output_path=output_location,
                                    sagemaker_session=sess)
                                    
pca.set_hyperparameters(featuer_dim=50000,
                        num_components=10,
                        subtract_mean=True,
                        algorithm_mode='randomized',
                        mini_batch_size=200)
                        
pca.fit({'train': s3_train_data})
```

In [None]:
from sagemaker import get_execution_role
from sagemaker import image_uris

output_prefix = 's3://' + bucket + '/sagemaker-fm/model'
instance_type= # Enter your code here
batch_size = # Enter your code here

fm = sagemaker.estimator.Estimator(
    image_uris.retrieve(boto3.Session().region_name, "factorization-machines"),
    role,
    instance_count=<CODE>, # Enter your code here
    instance_type=instance_type,
    output_path=output_prefix,
    sagemaker_session=sagemaker.Session()
)

# Use hyperparameter.For feature_dim use the column length of X_train 
fm.set_hyperparameters(
                        feature_dim=<CODE>, # Enter your code here
                        predictor_type='regressor',
                        mini_batch_size=batch_size,
                        num_factors=64,
                        epochs=25,
                        clip_gradient=5.0,
                        rescale_grad=1.0/batch_size
)

fm.fit({'train': ,# Enter your code here,
        'test': # Enter your code here
       })

**問題:** `batch_size` と `epochs` を変更すると、最終的なメトリクスはどうなりますか?  

In [None]:
# Enter your Answer here

**問題:** モデルの出力を確認します。使用されているメトリクスにはどのような意味がありますか? トレーニングセットとテストセットには違いがありますか? ある場合、それにはどのような意味がありますか?  

In [None]:
# Enter your Answer here

### 評価する

お疲れ様でした。 Amazon SageMaker トレーニングジョブが正常に開始されました。次はどうしますか? モデルが一貫した値を実際に予測していることを確認するための手段が必要です。どのようにこれを行いますか?

まず、モデルのパフォーマンスを概算するために単純ベースラインを計算します。最も簡単な概算方法は、ユーザーのどの商品評価も単にすべての評価の平均評価であると仮定することです。基本的にいえば、すべてのレビューの平均値を出力することのみを学習したモデルを持つということです。

**注意:** 個別の動画の平均を使用すると改善できる可能性がありますが、ここでは、同じ結論に行き着くため、重要ではありません。

`star_rating` の平均を計算して `naive_guess` を求めます。次に、テスト `star_rating` からの単純予測を 2 乗し、平均値を求めることで、単純 MSE を計算します。

$average(test(star\_rating) - naive\_guess)^2)$

In [None]:
naive_guess = np.mean(<CODE>) # Enter your code here
print(f'Naive MSE:', np.mean((<CODE>)**2)) # Enter your code here )

ここで、テストデータセットの予測を計算します。これを行うには、トレーニングしたモデルを_デプロイ_する必要があります。

**注意:** これは、上記の CloudWatch の出力に密接に連携しますが、`eval_net` 関数で部分的なミニバッチをスキップするため、若干異なる可能性があります。

`<estimator_name>.deploy` を使用して `initial_instance_count=1, instance_type=ml.m4.xlarge` を指定します。

In [None]:
fm_predictor = # Enter your code here

エンドポイントが 'InService' になったので、テストセットでのモデルのパフォーマンスを評価します。テストセットでのパフォーマンスとトレーニングセットでのパフォーマンスを比較します。

### 考慮すべき主な質問:
1.テストセットでのモデルのパフォーマンスはトレーニングセットでのパフォーマンスと比べてどのように異なりますか? この比較からどのようなことを推測できますか? 

2.正解率、適合率、再現率などのメトリクスの結果に明らかな違いはありますか? ある場合、そのような違いが見られる理由は何だと思われますか? 

3.ビジネスの状況と目標を考えると、ここで考慮すべき最も重要なメトリクスはどれですか? それはなぜですか?

4.最も重要だと考えるメトリクスの結果は、ビジネスの観点でのニーズを十分に満たすものですか? そうでない場合、次のイテレーション (次の特徴量エンジニアリングのセクション) の際に何を変更できると思いますか? 

以下のセルを使用して、これらの質問や他の質問に答えてください。必要に応じてセルを挿入および削除します。

#### <span style="color: blue;">プロジェクトプレゼンテーション: このセクションで回答するこれらの質問や他の同様の質問をプロジェクトプレゼンテーションに記録します。主な詳細と決定事項をプロジェクトプレゼンテーションに記録します。</span>

デプロイプロセスでは、トレーニングして Amazon S3 に保存したモデルを使用して、指定されたサイズ (この場合は `ml.m4.xlarge`) のインスタンスを作成する必要があります。予測を取得するには、JSON のシリアル化された形式でデータを渡す必要があります。推論から取得する出力もシリアル化された JSON 形式になるため、予測値を取得するために出力を逆シリアル化する必要もあります。

In [None]:
# Create a serializer function for the predictor
import json
from sagemaker.deserializers import JSONDeserializer
from sagemaker.serializers import BaseSerializer

class fm_serializer(BaseSerializer):
    CONTENT_TYPE='application/json'
    def serialize(data):
            js = {'instances': []}
            for row in data:
                js['instances'].append({'features': row.tolist()})
            return json.dumps(js)
fm_predictor.serializer = fm_serializer
fm_predictor.deserializer = JSONDeserializer()
print(f"Accepted content type: {fm_predictor.content_type}")

トレーニングセットの動作を確認します。エンドポイントを使用して、モデルから予測を取得します。

まず、1 つの予測がどのようになるのかを調べます。

Amazon SageMaker モデルコンテナでは、リクエストに 60 秒以内に応答します。モデル自体は、呼び出しに応答するまで 60 秒の最大処理時間をかけることができます。これを行うには、一度に 5 行分に対して `predict` 関数を呼び出し、それらの行をリストに追加します。

In [None]:
# Pass the X_train data to the deployed predictor 
ytrain_p = []
for i in range(0, 1000, 5):
    preds = fm_predictor.predict(<CODE>)<CODE> # Enter your code here
    p = [ytrain_p.append(x['score']) for x in preds]

**問題:** 推論を取得したので、サニティーチェックを実行します。推論で予測された最小値と最大値は何ですか? それらは、トレーニングデータの最小値と最大値に対応していますか?

In [None]:
print('The minimum rating predicted is: ', <CODE>, # Enter your code here
      'and the maximum is: ', <CODE> # Enter your code here
     )

ここで、テストデータセットを確認します。

In [None]:
Y_pred = []
# Enter your code here

**問題:** 予測での最小値と最大値はどのような点で似ていますか? 分布全体 (ヒストグラム) を確認した場合は、ボーナスポイントを獲得できます。

In [None]:
max(Y_pred), min(Y_pred)

In [None]:
sns.distplot(Y_pred, kde=False, bins=4)

最後に、テストセットの平均二乗誤差を計算し、ベースラインからどの程度改善されているかを確認します。

In [None]:
print('MSE:', <CODE> )# Enter your code here

レコメンダシステムでは、主観的な正確さも重要です。ランダムに選択したユーザーのレコメンデーションを取得し、直感的に適切かどうかを確認します。

ユーザー番号 200 を使用し、このユーザーが何を視聴し、何に高い評価を付けたのかを確認してみます。

In [None]:
reduced_df[<CODE>].sort_values(
    ['star_rating', 'item'], ascending=[False, True]) # Enter your code here

ご覧のように、このユーザーはコメディ映画、ロマンス映画、陽気な映画を視聴するのが好きで、ドラマやファンタジー映画を視聴するのは嫌いです。モデルでは、このユーザーによる映画の評価をどのように予測するのか確認してみましょう。

In [None]:
def prepare_predictions(user_id, number_movies, columns):
    # Create the sparse matrix similar to the one for training data
    X = il_matrix((<CODE>)).astype('float32')# Enter your code here
    movie_index_start = columns - number_movies

    # Fill out the matrix.Each row will be the same user with every possible movie.
    for row in range(number_movies):
        X[row, user_id - 1] = <CODE> # Enter your code here
        X[row, movie_index_start + row] = <CODE> # Enter your code here

    return X

user_200 = prepare_predictions(200,
                               <CODE> # Enter your code here ,
                               <CODE> # Enter your code here
                              )

ここで、モデルで予測する、ユーザー 200 がすべての映画に付ける評価のリストを作成します。

In [None]:
pred_200 = []
for i in range(0, <CODE>):
    preds = fm_predictor.predict(<CODE>)['predictions']
    p = [pred_200.append(x['score']) for x in preds]

次に、カタログ内のすべての一般的な動画について、ユーザー 200 の評価をループ処理して予測し、レコメンドする動画としない動画を確認します。

`reduced_df` DataFrame を使用して商品別にグループ化し、`titles` という新しい DataFrame を作成します。`product_title` 列を使用して、もう 1 つの列 `score` を作成し、`pred_200` からの値を追加します。

In [None]:
titles = reduced_df.groupby(<CODE>)[<CODE>].first().reset_index()
titles['score'] = # Enter your code here

**問題:** 最高スコアを獲得した商品はどれですか?  

**ヒント**: `sort_values` 関数を使用して `score` 列と `item` 列を並べ替え、パラメータ `asecnding=[False,True]` を使用します。

In [None]:
# Enter your code here

In [None]:
# Enter your Answer here

**問題:** このユーザーが高く評価する番組と最も低く評価する番組からどのような結論を導くことができますか? 

In [None]:
# Enter your Answer here

レコメンデーションに、他のユーザーとの相関関係があるかどうかを確認します。ユーザー 201 を試してみます。ユーザー 200 に対して行ったのと同じ操作を実行します。

In [None]:
user_201 = prepare_predictions(<CODE>, products.shape[0], customers.shape[0] + products.shape[0])

pred_201 = []
for i in range(0, user_201.shape[0], 5):
    preds = fm_predictor.predict(user_201[i:i+5].toarray())['predictions']
    p = [pred_201.append(x['score']) for x in preds]

In [None]:
plt.scatter(pred_200, pred_201)
plt.show()

**問題:** 2 人のユーザーの散布図からどのような結論を導くことができますか?  

In [None]:
# Enter your answer here:

推論のために作成したエンドポイントはもう使用しないため、削除します。

In [None]:
sagemaker.Session().delete_endpoint(fm_predictor.endpoint)

## <span style="color:red">ラボ 3 の終わり</span>

ローカルコンピュータにプロジェクトファイルを保存します。次の一連のステップを実行します。

1.ページ上部にある [**File**] メニューをクリックします。

1.[**Download as**] を選択し、[**Notebook(.ipynb)**] をクリックします。 

これにより、現在のノートブックがコンピュータのデフォルトのダウンロードフォルダにダウンロードされます。

# イテレーション 2

# ステップ 4: 特徴量エンジニアリング

これで、モデルのトレーニングと評価の 1 回目のイテレーションを完了しました。モデルで最初に得られた結果はビジネス上の問題を解決するにはおそらく不十分だったと仮定すると、モデルのパフォーマンスを改善できるようにするためにデータに関して何を変更できると思いますか?

### 考慮すべき主な質問:
1.機械学習の問題を変更することは、データセットに対してどのように役立ちますか? 回帰を使用して問題を解決しようとしましたが、分類は役立つでしょうか?
2.この機械学習の問題を機械学習の分類問題に変更するには何をする必要がありますか? 新しい分類の問題文を書き出してください。

#### <span style="color: blue;">プロジェクトプレゼンテーション: 主な決定事項とこのセクションで使用する手法をプロジェクトプレゼンテーションに記録します。また、モデルを再び評価した後に取得する新しいパフォーマンスメトリクスも記録します。</span>

ここで、取得した評価に応じてバイナリ出力を行うようトレーニングデータセットを変更します。評価が 5 つ星の場合、ユーザーに何かをレコメンドすることを検討します。今回も Amazon S3 に protobuf 形式で保存します。以下を実行します。  

1.`loadDataset` 関数を使用してオプション `regression=False` を指定し、トレーニングデータセットを作成します。  
2.データセットを protobuf 形式で書き込みます。 
3.`predictor_type='binary_classifier'` を使用してモデルを再トレーニングします。  
4.以前にテストセットに対して行ったときと同様に、エンドポイントにモデルをデプロイし、モデルを評価します。  
5.混同行列を使用して、テストセットでの結果を調べます。  

In [None]:
X_train_class, Y_train_class = # Enter your code here
X_test_class, Y_test_class = # Enter your code here

In [None]:
# Write dataset as a protobuf
fm_train_data_path = writeDatasetToProtobuf(<CODE>) # Enter your code here    
fm_test_data_path = writeDatasetToProtobuf(<CODE>) # Enter your code here    
  
print("Training data S3 path: ", fm_train_data_path)
print("Test data S3 path: ", fm_test_data_path)

### サンプルコード

```
fm_train_data_path = writeDatasetToProtobuf(X_train_class, bucket, prefix, 'train_class', "sparse", Y_train_class)    
fm_test_data_path = writeDatasetToProtobuf(X_test_class, bucket, prefix, 'test_class', "sparse", Y_test_class) 
```

最後に、回帰から二項分類に変更して、モデルを再トレーニングします。以前にモデルをトレーニングしたときと同じコードと設定を使用しますが、`predictor_type='binary_classifier` を変更します。

In [None]:
# Retrain your model
# Enter your code here

### サンプルコード 
```
from sagemaker import get_execution_role
from sagemaker import image_uris

#output_prefix= 's3://<LabBucketName>/sagemaker-fm/model'

output_prefix = 's3://' + bucket + '/sagemaker-fm/model'
instance_type='ml.m4.xlarge'
batch_size = 512

fm = sagemaker.estimator.Estimator(
    image_uris.retrieve("factorization-machines",boto3.Session().region_name),
    role,
    instance_count=1,
    instance_type=instance_type,
    output_path=output_prefix,
    sagemaker_session=sagemaker.Session()
)

fm.set_hyperparameters(feature_dim=X_train.shape[1],
                     # predictor_type='regressor',
                       predictor_type='binary_classifier',
                       mini_batch_size=batch_size,
                       num_factors=128,
                       epochs=25,
                       clip_gradient=5.0,
                       rescale_grad=1.0/batch_size
                       )

fm.fit({'train': fm_train_data_path, 'test': fm_test_data_path})
```

この新しいモデルのパフォーマンスを評価します。モデルをデプロイし、シリアライザを決定し、テストデータを渡します。

In [None]:
from sagemaker import deserializers
fm_predictor = fm.deploy(initial_instance_count=1,
                         instance_type='ml.m4.xlarge',
                         serializer=fm_serializer,
                         deserializer=JSONDeserializer())

In [None]:
# Pass the testing data to the classifier and get all the predictions
Y_pred = []
for i in range(0, X_test_class.shape[0], 5):
    preds = fm_predictor.predict(X_test_class[i:i+5].toarray())['predictions']
    p = [Y_pred.append(x['score']) for x in preds]

#### 結果を確認する

分類器のパフォーマンスを調べるために、混同行列を計算してグラフを作成します。**Scikit-Learn** の実装を使用します。

In [None]:
from sklearn.metrics import confusion_matrix

In [None]:
true = Y_test_class.astype(int)
predicted = [1 if value > 0.5 else 0 for value in Y_pred]
conf_matrix = confusion_matrix(true, predicted)
print(conf_matrix)
sns.heatmap(conf_matrix)

**問題:** モデルの精度はどれくらいですか?  

**ヒント**:
$$ Accuracy = \frac{TP + TN}{TP + FP + FN + TN} $$

In [None]:
# Accuracy
# Enter your code here

**問題:** すべてを 1 と予測する単純ベースラインモデルと比較して、今回のモデルの結果はどうでしたか?

In [None]:
(reduced_df.star_rating > 4).value_counts() / reduced_df.shape[0] * 100

In [None]:
# Enter your answer here

In [None]:
# Delete inference endpoint
sagemaker.Session().delete_endpoint(fm_predictor.endpoint)

## KNN で能力を統合する

分類器モデルの方が回帰モデルよりも優れていることがわかりました。ここでは、評価 (回帰) したり、ユーザーが映画を好きかどうか (二項分類) を予測したりするのではなく、K 近傍法 (KNN) モデルに適合するようにモデルを再パッケージして、お客様が好きな商品の **K 近傍**商品を予測し、それをお客様にレコメンドできるかどうかを確認します。

まず、Amazon S3 からモデルをダウンロードします。次に、KNN モデルに適合するようにモデルを再パッケージします。

**注意:** 次のセルを実行できるようにするために、使用しているカーネルが `conda_mxnet_p36` であることを確認してください。

### モデルデータをダウンロードする

In [None]:
import mxnet as mx
model_file_name = 'model.tar.gz'
model_full_path = f'{fm.output_path}/{fm.latest_training_job.job_name}/output/{model_file_name}'
print(f'Model Path: {model_full_path}')

# Download FM model 
os.system('aws s3 cp ' + model_full_path + ' .')

# Extract model file for loading to MXNet
os.system('tar xzvf ' + model_file_name)
os.system('unzip -o model_algo-1')
os.system('mv symbol.json model-symbol.json')
os.system('mv params model-0000.params')

### モデルデータを抽出して、商品とユーザーの潜在行列を作成する

ここでは、因数分解機をトレーニングした後で、各ユーザーと商品を表す値を抽出します。トレーニングの結果は、一緒に乗算したときにターゲット値 (0 または 1) を可能な限り厳密に表す 2 つの行列です。

より数学的にいうと、因数分解機モデルの出力は 3 つの N 次元配列 (ndarray) で構成されます:

    V – a (N x k) 行列では:
        k は潜在空間の次元
        N はユーザーと商品の合計数
    w – N 次元ベクトル
    b – 単一の数値: バイアス項

特徴量として使用するこれらの値を抽出するには、まず、モデルを読み込む必要があります。次に、3 つの行列のそれぞれから値を抽出し、`knn_item_matrix` 行列と t`knn_user_matrix` 行列を作成します。

In [None]:
# Extract model data
m = mx.module.Module.load('./model', 0, False, label_names=['out_label'])
V = m._arg_params['v'].asnumpy()
w = m._arg_params['w1_weight'].asnumpy()
b = m._arg_params['w0_weight'].asnumpy()

nb_users = customers.shape[0]
nb_item = products.shape[0]

# Item latent matrix - concat(V[i], w[i]). 
knn_item_matrix = np.concatenate((V[nb_users:], w[nb_users:]), axis=1)
knn_train_label = np.arange(1,nb_item+1)

# User latent matrix - concat (V[u], 1) 
ones = np.ones(nb_users).reshape((nb_users, 1))
knn_user_matrix = np.concatenate((V[:nb_users], ones), axis=1)

## KNN モデルを構築する

トレーニングデータを取得したので、そのデータを KNN モデルに提供できるようになりました。前回と同様、protobuf IO 形式のデータを Amazon S3 に保存し、モデルをインスタンス化し、ハイパーパラメータを設定する必要があります。

まず、パスと推定器を設定します。

In [None]:
print('KNN train features shape = ', knn_item_matrix.shape)
knn_prefix = 'knn'
train_key = 'train_knn'
knn_output_prefix = f's3://{bucket}/{knn_prefix}/output'
knn_train_data_path = writeDatasetToProtobuf(knn_item_matrix, bucket,
                                             knn_prefix, train_key,
                                             "dense",
                                             knn_train_label)
print(f'Uploaded KNN train data: {knn_train_data_path}')

nb_recommendations = 100

# Set up the estimator
knn = sagemaker.estimator.Estimator(
    image_uris.retrieve("knn",boto3.Session().region_name),
    get_execution_role(),
    instance_count=1,
    instance_type=instance_type,
    output_path=knn_output_prefix,
    sagemaker_session=sagemaker.Session()
)

ここで、ハイパーパラメータを設定します。この手法では、KNN にデフォルトの `index_type` パラメータを使用することに注意してください。正確ですが、大きなデータセットでは動作が遅くなる可能性があります。そのような場合には、概算ではありますが迅速に答えを得ることのできる、別の `index_type` パラメータを使用することもできます。

インデックスのタイプの詳細については、[k-NN ハイパーパラメータ](https://docs.aws.amazon.com/sagemaker/latest/dg/kNN_hyperparameters.html) を参照してください。

In [None]:
knn.set_hyperparameters(feature_dim=knn_item_matrix.shape[1],
                        k=nb_recommendations,
                        index_metric="INNER_PRODUCT",
                        predictor_type='classifier',
                        sample_size=200000)


knn.fit({'train': knn_train_data_path})

トレーニング済みのモデルが完成したので、バッチ推論で参照できるように保存します。

In [None]:
knn_model_name = knn.latest_training_job.job_name
print("created model: ", knn_model_name)

# Save the model so that you can reference it in the next step during batch inference
sm = boto3.client(service_name='sagemaker')
primary_container = {
    'Image': knn.image_name,
    'ModelDataUrl': knn.model_data,
}

knn_model = sm.create_model(
        ModelName = knn.latest_training_job.job_name,
        ExecutionRoleArn = knn.role,
        PrimaryContainer = primary_container)
print("saved the model")

## バッチ変換

モデルによって作成された予測を確認するには、推論を作成し、予測が妥当かどうかを確認する必要があります。前回と同様のプロセスを繰り返し、商品の考えられるすべての組み合わせを使用してユーザーを 1 人ずつ確認できます。ただし、Amazon SageMaker では、データセット全体の推論を実行するために使用できるバッチ変換ジョブを利用できます。詳細については、[バッチ変換を使用してデータセット全体の推論を取得する](https://docs.aws.amazon.com/sagemaker/latest/dg/how-it-works-batch.html) を参照してください。

このセクションでは、バッチ変換を使用して、すべてのユーザーを対象に上位 100 件のレコメンデーションを予測します。

In [None]:
# Upload inference data to S3
knn_batch_data_path = writeDatasetToProtobuf(knn_user_matrix,
                                             bucket,
                                             knn_prefix,
                                             train_key,
                                             "dense")
print ("Batch inference data path: ",knn_batch_data_path)

# Initialize the transformer object
transformer =sagemaker.transformer.Transformer(
    base_transform_job_name="knn",
    model_name=knn_model_name,
    instance_count=1,
    instance_type=instance_type,
    output_path=knn_output_prefix,
    accept="application/jsonlines; verbose=true",
    
)

# Start a transform job
transformer.transform(knn_batch_data_path,
                      content_type='application/x-recordio-protobuf',
                      split_type='RecordIO')
transformer.wait()

 

これで、予測を自由に調べることができるようになりました。まず、予測をダウンロードします。

In [None]:
# Download predictions 
results_file_name = "inference_output"
inference_output_file = "knn/output/train_knn.out"
s3_client = boto3.client('s3')
s3_client.download_file(bucket, inference_output_file, results_file_name)

In [None]:
# Open file and load it to memory
with open(results_file_name) as f:
    results = f.readlines() 

結果には、100 件の最近傍映画の ID と対応する距離が含まれています。ユーザー番号 200 について、どのようになっているのかを確認します。

In [None]:
test_user_idx = 200
u_one_json = json.loads(results[test_user_idx])
recommended_movies = [int(movie_id) for movie_id in u_one_json['labels']]
distances = [round(distance, 4) for distance in u_one_json['distances']]

print(f'Recommended movie Ids for user #{test_user_idx} : {recommended_movies}')

print(f'Movie distances for user #{test_user_idx} : {distances}')

ユーザー 200 の好みに最も近い映画を取得しました。次に、タイトルを確認できます。

In [None]:
titles_200 = reduced_df[reduced_df.item.isin(recommended_movies)].product_title.unique()
titles_200

これらをユーザー 200 のお気に入りの映画と比較します。

In [None]:
reduced_df.query('user==200 &amp; star_rating == 5')

**問題:** これらのレコメンデーションは妥当だと思いますか? そう思う理由、または思わない理由を説明してください。

In [None]:
# Enter your answer here:

In [None]:
np.isin(titles_200, titles.tail(100).product_title.unique()).sum()

**スーパーボーナス問題:** ユーザー 201 の予測を復元し、ユーザー 200 の予測と比較してください。まだ互いに相関関係にありますか? この手法は最初の回帰と比べて改善された手法だと思いますか?

In [None]:
# Recover the predictions for user 201

test_user_idx = 201
u_one_json = json.loads(results[test_user_idx])
recommended_movies_201 = [int(movie_id) for movie_id in u_one_json['labels']]

In [None]:
# Print out recommendations

titles_201 = reduced_df[reduced_df.item.isin(recommended_movies_201)].product_title.unique()
titles_201

In [None]:
# Compare the two predictions

overlap = np.isin(titles_200, titles_201).sum()
print(f'The recommendations for "user 201" that are present in "user 200" are: {overlap} out of: {len(titles_200)}')

In [None]:
# Compare with user 201 likes

reduced_df.query('user==201 &amp; star_rating == 5')

In [None]:
test_user_idx = 900
u_one_json = json.loads(results[test_user_idx])
recommended_movies_900 = [int(movie_id) for movie_id in u_one_json['labels']]
titles_900 = reduced_df[reduced_df.item.isin(recommended_movies_201)].product_title.unique()
overlap_900 = np.isin(titles_200, titles_900).sum()
print(f'The recommendations for "user 900" that are present in "user 200" are: {overlap} out of: {len(titles_200)}')
reduced_df.query('user==900 &amp; star_rating == 5')

In [None]:
# Enter your answer here:

これらのモデルを改善するために行えることはたくさんあります。例えば、評価以外の特徴量を追加すること、特徴量の選択を変えてみること、ハイパーパラメータをチューニングすること、モデルを変更することなどができます。最も高度なレコメンデーションアルゴリズムは、深層学習に基づいています。これを調べてみることもできます。

これで終了です! ユーザーの上位 100 件の映画を教えてくれる正常に機能するレコメンダシステムが完成しました。ハイパーパラメータとデータを自由に最適化したり、操作したりして、レコメンダシステムをさらに改善できるかどうかを試してみてください。

## 結論

このノートブックでは、Amazon SageMaker の組み込みアルゴリズムのみを使用して、さまざまな手法でレコメンデーションシステムを作成しました。さまざまな形式のデータを準備し、特徴量エンジニアリングを行う方法を学習しました。トレーニング済みモデルの問題を特定し、さまざまな方法で問題を再構成して、最終結果を得ることができました。

これでわかるように、モデルのトレーニングには、多くの手順、準備、検証が必要です。これは合理化されたプロセスではなく、反復的なプロセスです。このプロセスは、通常、以下の手順で構成される好ましい循環と考えることができます。

- (ビジネス上の) 問題を定義する
- 問題を機械学習の問題としてとらえる
- データを準備し、特徴量エンジニアリングを実行する
- モデルをトレーニングして評価する
- モデルをデプロイする (推論)
- モニタリングして評価する

すべての手順には独自の課題があり、各手順では相互に必要なものが提供されます。したがって、モデルのトレーニングのみではなく、パイプライン全体に注意することが重要です。
