データの読み込み

In [2]:
# pandasをpdという名前でインポート
import pandas as pd

# csvの内容を読み込み、DataFrameを生成する
df = pd.read_csv('penguins_binary_classification.csv') # URI

# 先頭5行を表示する
df.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,year
0,Adelie,Torgersen,39.1,18.7,181.0,3750.0,2007
1,Adelie,Torgersen,39.5,17.4,186.0,3800.0,2007
2,Adelie,Torgersen,40.3,18.0,195.0,3250.0,2007
3,Adelie,Torgersen,36.7,19.3,193.0,3450.0,2007
4,Adelie,Torgersen,39.3,20.6,190.0,3650.0,2007


In [3]:
# DataFrameの行数、列数
df.shape

(274, 7)

In [4]:
# DataFrameの列名の一覧
df.columns

Index(['species', 'island', 'bill_length_mm', 'bill_depth_mm',
       'flipper_length_mm', 'body_mass_g', 'year'],
      dtype='object')

In [5]:
# DataFrameのデータ型
df.dtypes

species               object
island                object
bill_length_mm       float64
bill_depth_mm        float64
flipper_length_mm    float64
body_mass_g          float64
year                   int64
dtype: object

エンコーディング

In [6]:
# 'species'列の出現回数を取得する
df['species'].value_counts()

Adelie    151
Gentoo    123
Name: species, dtype: int64

In [7]:
# 'Adelie'を0、'Gentoo'を1にマッピングする辞書を作成、置換。
# 置換した結果はdfのspecies列に上書き。
# 辞書の作成
species_mapper = {'Adelie':0, 'Gentoo': 1}

# 置換して代入しなおす
# ★エンコードはreplaceメソッド
df['species'] = df['species'].replace(species_mapper)

# 表示して確認
df.head()

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,year
0,0,Torgersen,39.1,18.7,181.0,3750.0,2007
1,0,Torgersen,39.5,17.4,186.0,3800.0,2007
2,0,Torgersen,40.3,18.0,195.0,3250.0,2007
3,0,Torgersen,36.7,19.3,193.0,3450.0,2007
4,0,Torgersen,39.3,20.6,190.0,3650.0,2007


In [8]:
# 'island'列の出現回数を取得する
df['island'].value_counts()

Biscoe       167
Dream         56
Torgersen     51
Name: island, dtype: int64

In [10]:
# 'Biscoe'を0、'Dream'を1、'Torgersen'を2にマッピングする辞書を作成、置換。
# 置換した結果はdfのspecies列に上書き。
# 辞書の作成
island_mapper = {'Biscoe':0, 'Dream':1, 'Torgersen':2}

# 置換して代入しなおす
# ★エンコードはreplaceメソッド
df['island'] = df['island'].replace(island_mapper)

# 表示して確認
df.head(20)

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,year
0,0,2,39.1,18.7,181.0,3750.0,2007
1,0,2,39.5,17.4,186.0,3800.0,2007
2,0,2,40.3,18.0,195.0,3250.0,2007
3,0,2,36.7,19.3,193.0,3450.0,2007
4,0,2,39.3,20.6,190.0,3650.0,2007
5,0,2,38.9,17.8,181.0,3625.0,2007
6,0,2,39.2,19.6,195.0,4675.0,2007
7,0,2,34.1,18.1,193.0,3475.0,2007
8,0,2,42.0,20.2,190.0,4250.0,2007
9,0,2,37.8,17.1,186.0,3300.0,2007


データの分割

In [12]:
# 機械学習用ライブラリのsklearnのmode_selectionモジュールからデータ分割関数のtrain_test_split関数をインポート
from sklearn.model_selection import train_test_split

# データセットを トレーニング用(train) と テスト＆検証用(train_and_validate) に分割
# ・テスト＆検証用の割合は20%
# ・乱数シードは0
# ・'species'列のばらつき具合を維持して分割する
train, test_and_validate = train_test_split(df, test_size=0.2, random_state=0, stratify=df['species'])

In [13]:
# 分割後のデータ数を確認
print(train.shape)
print(test_and_validate.shape)

(219, 7)
(55, 7)


In [14]:
# テスト＆検証用 のデータを、さらに テスト用(test) と 検証用(validate) に分割。
# ・テスト用の割合は50% 
# ・乱数シードは0
# ・'species'列のばらつき具合を維持して分割する
test, validate = train_test_split(test_and_validate, test_size=0.5, random_state=0, stratify=test_and_validate['species'])

In [15]:
# 分割後のデータ数を確認
print(train.shape)
print(test.shape)
print(validate.shape)

(219, 7)
(27, 7)
(28, 7)


データをS3に保存

In [16]:
# Amazon SageMaker用のモジュールをインポート
import boto3
from sagemaker.image_uris import retrieve

# S3バケットとプレフィックスの設定
bucket='c150021a3859271l9152183t1w1442260373-sandboxbucket-gdtdhwpcy7bo'
prefix='mod03-demo-training-a-model'

# トレーニングデータ、テストデータ、検証データのファイル名設定
train_file='penguins_train.csv'
test_file='penguins_test.csv'
validate_file='penguins_validate.csv'

# osモジュールのインポート(ファイルパスの生成用)
import os

# ioモジュールのインポート
import io
# S3へアクセスする準備
# boto3セッションからS3リソースを取得
s3_resource = boto3.Session().resource('s3')

# S3にCSVファイルをアップロードするための関数を定義
def upload_s3_csv(filename, folder, dataframe):
    csv_buffer = io.StringIO()
    dataframe.to_csv(csv_buffer, header=False, index=False)
    s3_resource.Bucket(bucket).Object(os.path.join(prefix, folder, filename)).put(Body=csv_buffer.getvalue())



sagemaker.config INFO - Not applying SDK defaults from location: /etc/xdg/sagemaker/config.yaml
sagemaker.config INFO - Not applying SDK defaults from location: /home/ec2-user/.config/sagemaker/config.yaml


In [18]:
# DataFrameをS3にアップロードする upload_s3_csv関数を使用

# ファイル名:train_fileの値
# フォルダ名:'train'
# アップするデータ:train(DataFrame)の内容
upload_s3_csv(train_file, 'train', train)

# ファイル名:test_fileの値
# フォルダ名:'test'
# アップするデータ:test(DataFrame)の内容
upload_s3_csv(test_file, 'test', test)

# ファイル名:validate_fileの値
# フォルダ名:'validate'
# アップするデータ:validate(DataFrame)の内容
upload_s3_csv(validate_file, 'validate', validate)

トレーニング

In [19]:
# ★ SageMakerにおいてXGBoostアルゴリズムを利用するためのDockerコンテナイメージを取得
container = retrieve('xgboost',boto3.Session().region_name,'1.0-1')

In [20]:
# ★ XGBoostのハイパーパラメータを辞書で保持
# 学習回数:42
# モデルの評価指標:'auc'
# 目的関数:'binary:logistic'
hyperparams={"num_round":"42",
             "eval_metric": "auc",
             "objective": "binary:logistic"}

In [21]:
# SageMaker SDKを使用して、XGBoostのモデルをトレーニングおよびデプロイするために必要なモジュールをインポート
import sagemaker

# トレーニング結果を保存するS3のパス
s3_output_location="s3://{}/{}/output/".format(bucket,prefix)

# ★ SageMakerのXGBoostアルゴリズムを使用するためにXGBoost Estimatorを作成
# ・使用するコンテナ:container
# ・SageMakerの実行ロール:sagemaker.get_execution_role()で取得した値
# ・トレーニングに使用するインスタンスの数:1
# ・トレーニングに使用するインスタンスのタイプ:'ml.m4.xlarge'
# ・トレーニング結果を保存するパス:s3_output_location
# ・ハイパーパラメータ:hyperparams
# ・SageMakerのセッション:sagemaker.session()で取得した値
xgb_model=sagemaker.estimator.Estimator(image_uri=container,
                                       role=sagemaker.get_execution_role(),
                                       instance_count=1,
                                       instance_type='ml.m4.xlarge',
                                       output_path=s3_output_location,
                                        hyperparameters=hyperparams,
                                        sagemaker_session=sagemaker.Session())

In [22]:
# SageMakerのトレーニングジョブに使用するトレーニングデータのパスとファイルの種類'text/csv'を指定

# トレーニング用データオブジェクト
train_channel = sagemaker.inputs.TrainingInput(
    "s3://{}/{}/train/".format(bucket,prefix,train_file),
    content_type='text/csv')

# 検証用データオブジェクト
validate_channel = sagemaker.inputs.TrainingInput(
    "s3://{}/{}/validate/".format(bucket,prefix,validate_file),
    content_type='text/csv')

# ★ トレーニングジョブで使うデータを辞書型で保持
# キー'train'にトレーニング用データオブジェクト、キー'validation'に検証用データオブジェクト を指定
data_channels = {'train': train_channel, 'validation': validate_channel}

In [23]:
# ★ XGBoostモデルを学習させる fitメソッド
# inputs:トレーニングジョブで使うデータ
# logs:False...ログを表示しない
xgb_model.fit(inputs=data_channels, logs=False)


2025-02-28 05:33:41 Starting - Starting the training job..
2025-02-28 05:33:55 Starting - Preparing the instances for training...
2025-02-28 05:34:19 Downloading - Downloading input data.....
2025-02-28 05:34:49 Downloading - Downloading the training image........
2025-02-28 05:35:35 Training - Training image download completed. Training in progress.....
2025-02-28 05:36:01 Uploading - Uploading generated training model..
2025-02-28 05:36:14 Completed - Training job completed


モデルのホスティング

In [24]:
# ★ リアルタイム推論
# XGBoostモデルをデプロイしてエンドポイントを作成
# xgb_model.fit()が済んでいるモデルに対してdeployメソッドを呼び出し、エンドポイントを取得
xgb_predictor = xgb_model.deploy(initial_instance_count=1, # インスタンスの数を指定
                serializer = sagemaker.serializers.CSVSerializer(), # シリアライザをCSV形式に設定
                instance_type='ml.m4.xlarge') # インスタンスタイプを指定

------!

予測の実行

In [25]:
# DataFrameの行数と列数を確認するためにshape属性を使用
test.shape

(27, 7)

In [26]:
# テストデータの最初の5行を表示するためにheadメソッドを使用
test.head(5)

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,year
217,1,0,46.2,14.4,214.0,4650.0,2008
117,0,2,35.7,17.0,189.0,3350.0,2009
218,1,0,49.5,16.2,229.0,5800.0,2008
21,0,0,35.9,19.2,189.0,3800.0,2007
141,0,1,32.1,15.5,188.0,3050.0,2009


In [27]:
# ★ リアルタイム推論用に 1レコード分のデータの正解列以外を抽出
# df.iloc[開始行インデックス:終了行インデックス, 開始列インデックス:終了列インデックス]
# インデックスは0から始まる
# 終了インデックスで指定した1つ手前までを取得する
# 開始インデックスを省略すると先頭から、終了インデックスを省略すると末尾までの扱いになる
row = test.iloc[0:1,1:] # テストデータから行インデックス0で、列インデックス1以降のデータを取得

# 表示
row.head()

Unnamed: 0,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,year
217,0,46.2,14.4,214.0,4650.0,2008


In [28]:
# ★ 1レコード分のデータをカンマ区切りの文字列に変換する
# 高度なテクニックなので中身の理解は不要
batch_X_csv_buffer = io.StringIO()
row.to_csv(batch_X_csv_buffer, header=False, index=False)
test_row = batch_X_csv_buffer.getvalue()

# 変換した文字列を表示
print(test_row)

0,46.2,14.4,214.0,4650.0,2008



In [29]:
# ★ モデルに予測させる エンドポイント.predictメソッド
xgb_predictor.predict(test_row)

# 予測した結果、1である確率が表示される

b'0.9954166412353516'

In [30]:
# テストデータの最初の5行を表示するためにheadメソッドを使用
test.head(5)

Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,year
217,1,0,46.2,14.4,214.0,4650.0,2008
117,0,2,35.7,17.0,189.0,3350.0,2009
218,1,0,49.5,16.2,229.0,5800.0,2008
21,0,0,35.9,19.2,189.0,3800.0,2007
141,0,1,32.1,15.5,188.0,3050.0,2009


エンドポイントを削除

In [31]:
# ★ エンドポイントを削除する エンドポイント.delete_endpointメソッド
xgb_predictor.delete_endpoint(delete_endpoint_config=True)

バッチ変換の実行

In [32]:
# ★ バッチ推論用に 全レコードの正解列以外を抽出
batch_X = test.iloc[:,1:]; # テストデータから全ての行の列インデックス1以降のデータを取得

# 取得したデータの最初の5行を表示
batch_X.head()

Unnamed: 0,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,year
217,0,46.2,14.4,214.0,4650.0,2008
117,2,35.7,17.0,189.0,3350.0,2009
218,0,49.5,16.2,229.0,5800.0,2008
21,0,35.9,19.2,189.0,3800.0,2007
141,1,32.1,15.5,188.0,3050.0,2009


In [33]:
# ★ 抽出したDataFrameをS3にアップロード

# バッチ推論で予測させるデータのファイル名
batch_X_file='batch-in.csv'

# S3にアップロード
upload_s3_csv(batch_X_file, 'batch-in', batch_X)

In [34]:
# バッチ推論で予測した結果の出力先を指定
batch_output = "s3://{}/{}/batch-out/".format(bucket,prefix)

# バッチ推論で予測させるデータのフルパス
batch_input = "s3://{}/{}/batch-in/{}".format(bucket,prefix,batch_X_file)

# ★ XGBoostトランスフォーマー(変換処理をしてくれるオブジェクト)を作成
# instance_count: トランスフォーマーの実行に使用するインスタンスの数
# instance_type: トランスフォーマーのインスタンスのタイプ
# strategy: バッチ変換のストラテジーを指定（MultiRecordは複数の入力レコードに対応）
# assemble_with: バッチ変換の際に結果をどのようにまとめるか指定（Lineは行ごとにまとめる）
# output_path: バッチ変換の結果を保存するS3のパスを指定
xgb_transformer = xgb_model.transformer(instance_count=1,
                                       instance_type='ml.m4.xlarge',
                                       strategy='MultiRecord',
                                       assemble_with='Line',
                                       output_path=batch_output)

# ★ バッチ変換(transform)を実行
# data: 変換対象のデータのパスを指定
# data_type: 変換対象のデータのタイプを指定（S3PrefixはS3上のプレフィックス内のデータを指定）
# content_type: 変換対象データのコンテンツタイプを指定
# split_type: 入力データをどのように分割するか指定（Lineは行ごとに分割）
xgb_transformer.transform(data=batch_input,
                         data_type='S3Prefix',
                         content_type='text/csv',
                         split_type='Line')

# バッチ変換が完了するのを待機
xgb_transformer.wait()

....................................
...

予測結果とテストデータの比較

In [37]:
# boto3モジュールを使用してS3クライアントを作成
s3 = boto3.client('s3')

# S3バケットからオブジェクトを取得
obj = s3.get_object(Bucket=bucket, Key="{}/batch-out/{}".format(prefix,'batch-in.csv.out'))

# バッチ変換の結果として得られた予測結果を読み込む
# ここではCSVデータを読み込み、列名を'species'としてDataFrameに変換
target_predicted = pd.read_csv(io.BytesIO(obj['Body'].read()),sep=',',names=['species'])

# DataFrameの最初の5行を表示
target_predicted.head(5)

Unnamed: 0,species
0,0.995417
1,0.008238
2,0.99449
3,0.003427
4,0.022247


In [38]:
# 予測結果の確率を受け取り、最終的に1か0かを決める関数を定義
# 確率が閾値より大きい場合は1、それ以外は0に変換して返す
def binary_convert(x):
    threshold = 0.65 # 閾値
    if x > threshold:
        return 1
    else:
        return 0

# 'species'列の各要素に関数を適用し、新しい 'binary' 列に代入
target_predicted['binary'] = target_predicted['species'].apply(binary_convert)

# 最初の10行を表示して、変換が正しく適用されていることを確認
print(target_predicted.head(10))

# テストデータ(正解が分かっている)の最初の10行を表示
test.head(10)

    species  binary
0  0.995417       1
1  0.008238       0
2  0.994490       1
3  0.003427       0
4  0.022247       0
5  0.005585       0
6  0.003427       0
7  0.995417       1
8  0.014837       0
9  0.995417       1


Unnamed: 0,species,island,bill_length_mm,bill_depth_mm,flipper_length_mm,body_mass_g,year
217,1,0,46.2,14.4,214.0,4650.0,2008
117,0,2,35.7,17.0,189.0,3350.0,2009
218,1,0,49.5,16.2,229.0,5800.0,2008
21,0,0,35.9,19.2,189.0,3800.0,2007
141,0,1,32.1,15.5,188.0,3050.0,2009
130,0,2,43.1,19.2,197.0,3500.0,2009
99,0,0,35.0,17.9,192.0,3725.0,2009
172,1,0,45.1,14.5,215.0,5000.0,2007
77,0,2,36.2,16.1,187.0,3550.0,2008
246,1,0,50.8,15.7,226.0,5200.0,2009


お疲れ様でした。

お疲れ様でした。

お疲れ様でした。