# 第15回 機械学習自動化技術（AutoML）に触れてみよう！

___
[![Open In Colab](https://colab.research.google.com/assets/colab-badge.svg)](https://colab.research.google.com/github/kimusaku/begin-python-2023/blob/main/workbook/lecture15.ipynb)

___

## この授業で学ぶこと

最終回の今回は、14回で学んだ機械学習を自動化する技術であるAutoMLがどのようなものかを知るため、Fujitsu AutoMLの無料版を使って機械学習モデルの自動構築を体験してもらう。

Fujitsu AutoMLの概要はこちらの[リンク](https://automl.jp.fujitsu.com/ja/)を参照のこと。

## 利用手順

まずはFujitsu AutoMLのライブラリをインストールする必要がある。 `pip install`でインストールすることが出来る。

今回も、前回利用してきたダイヤモンドのデータを利用する。

In [None]:
pip install fujitsu-automl

In [None]:
import pandas as pd
from sapientml import SapientML
from sapientml.util.logging import setup_logger
from sklearn.metrics import accuracy_score
from sklearn.model_selection import train_test_split
import seaborn as sns
import os

# ToyoNet-ACEで公開しているアカウント情報を貼り付ける。2024/07/17まで有効

In [None]:
train_data = sns.load_dataset('diamonds')
train_data

Fujitsu AutoMLでは、データセットと目的変数を指定することでその目的変数を予測するのに適している機械学習モデルの種類と前処理を自動で選択し、プログラムを組み立てて学習・推論を実行することができる。

以下のコードセルでは、ダイヤモンドのデータの `cut` 列を予測するモデルを構築する。

In [None]:
train_data, test_data = train_test_split(train_data)

y_true = test_data["cut"].reset_index(drop=True)
test_data.drop(["cut"], axis=1, inplace=True)

cls = SapientML(["cut"], model_type="fujitsu-automl")
setup_logger().handlers.clear()
cls.fit(train_data)

構築したモデルで予測を行うには以下のコードセルを実行する。

In [None]:
y_pred = cls.predict(test_data)

print("Accuracy:", accuracy_score(y_true, y_pred))

モデルの構築・予測のために生成されたプログラムは以下で確認することができる。

In [None]:
train_script = cls.model.files["final_train.py"].decode("utf-8")
print(train_script)

In [None]:
predict_script = cls.model.files["final_predict.py"].decode("utf-8")
print(predict_script)

## おわりに

プログラミング実習講義3,4では、Pythonによるプログラミングの基礎、基本的なアルゴリズムやデータ構造、また応用としてデータサイエンスおよび機械学習、AutoMLについて学んできた。過去に蓄積されてきたおびただしい量の便利なライブラリ・ツールに加えて近年では生成AIやノーコード・ローコード開発等の台頭により、人が必ずしも全てのコードを書かずとも高度なソフトウェアを開発することが出来ることになった。しかしながら、それらを正しく使いこなすにはプログラミングの素養がまだまだ重要である。経営学部の学生の皆様におかれても、この講義で学んだことをきっかけにプログラミングの素養を今後も引き続き磨いていってもらえることを願う。

## 演習

**課題**  
Fujitsu AutoMLを用いて、インターネットで入手可能な適当なデータセット（CSVファイル）および適当な目的変数を設定して機械学習モデルを構築し、学習・予測のために生成されたプログラムを確認しなさい。

以下のコードセルでは、URLで直接ダウンロード可能なデータセットを例として記載している。ここに新たなURLを指定するか、Google DriveにCSVファイルを置いて新しいデータを読み込んで試してみよう。Google Driveに置く方法で実施した場合は、レポートにCSVファイルも一緒に添付して提出してほしい。

なお、データセット・目的変数の選び方によってはFujitsu AutoMLのバグに起因するエラーが発生する可能性がある。データセット・目的変数の選び方が妥当かつどうしてもエラーが解消しない場合は、エラーのまま提出してもらって構わない。バグの報告は開発者にとってはとてもありがたいものである。

In [None]:
train_data = pd.read_csv("https://github.com/sapientml/sapientml/files/12481088/titanic.csv")
train_data

In [None]:
train_data, test_data = train_test_split(train_data)

y_true = test_data["survived"].reset_index(drop=True)
test_data.drop(["survived"], axis=1, inplace=True)

cls = SapientML(["survived"], model_type="fujitsu-automl")
setup_logger().handlers.clear()
cls.fit(train_data)

In [None]:
train_script = cls.model.files["final_train.py"].decode("utf-8")
print(train_script)

In [None]:
predict_script = cls.model.files["final_predict.py"].decode("utf-8")
print(predict_script)