# Prepare: 診断結果に基づきデータを充足する

## なにをするのか

Analyzeの診断結果に基づき、データの種類・質・量を充足させるのがPrepareのゴールです。データの作成(アノテーション)や、データをクレンジングするための処理を設計します。

## なぜやるのか

Analyzeの診断をクリアしないデータでプロジェクトを進めた場合、プロジェクトが失敗します。「データの品質が不十分」は、機械学習プロジェクトが失敗する理由の第2位であることを思い出してください。

## どうやるのか

Analyzeの診断結果に基づき、データの収集・作成が可能なステークホルダーに協力を依頼します。依頼するためには、5W1Hを明確にする必要があります。

* Why
   * なぜ収集・整備する必要があるか。
* When
   * いつまでに必要か。
* Where
   * (写真などを取る場合)どこでデータ作成を行うか。
* Who
   * 誰が行うか
* What
   * 作成するデータの構造(写真+ラベルなど)
* How
   * どのようにデータを収集・作成するか。

残念ながら依頼が快く受け入れられることは少ないです。だからと言って、今回限り(1度だけ)というのは避けましょう。モデルを構築するまで十分な精度が出るかわからないためです。画像であれば写真を回転させたりフリップしてデータ量のかさましを行う手法もありますが(Data Augmentation)、元のデータ量が整っているのに越したことはありません。

### プログラミング演習

データを作成する場合は、専用のツールを使用して自分・チームで作成するか、外注を行います。

データ作成ツールの例

* [doccano](https://github.com/doccano/doccano)
* [Label Studio](https://labelstud.io/)
* [Prodigy](https://prodi.gy/)

### コミュニケーション演習

Analyzeの診断結果に基づきデータの種類・質・量をそろえる場合、誰に何を依頼すべきでしょうか。

ロールの種別

| 英語名             | 日本語名                   | 役割                                                                 |
|--------------------|----------------------------|------------------------------|
| Product Manager    | プロダクトマネージャー     | ユーザー体験を向上させるために実装すべきソフトウェア機能を定義する。 |
| Business Analyst   | ビジネスアナリスト         | 解決すべきビジネス上の問題を定義する                                 |
| Data Analyst       | データアナリスト           | データの可視化と分析で問題を定量的に特定する。                       |
| Architect          | アーキテクト               | ソフトウェアアーキテクチャ全体を設計する。                           |
| DevOps Engineer    | DevOpsエンジニア           | ソフトウェアの開発・運用プロセスを自動化する。                       |
| Software Engineer  | ソフトウェアエンジニア     | ソフトウェアの開発を行う。                                           |
| Operator           | 業務担当者                 | ソフトウェアを利用し業務を行う。                                     |
| System Admin       | システム管理者             | サービスの挙動を監視する。                                           |
| IT Auditor         | IT監督者                   | システムや会社全体の権限管理や監査を行う。                           |
| Data architect     | データアーキテクト         | データを管理する基盤を設計、運用する。                               |
| Domain Expert      | 業務有識者                 | 深い業務知識を持ちデータの意味やあるべき状態について定義する。       |
| Data Scientist     | データサイエンティスト     | 機械学習モデルを開発する。                                           |

依頼の種別

* 情報共有: 開発に必要な情報/ドキュメントの提供を依頼する
* 作業: 開発に必要な作業を分担(依頼)する
* レビュー: 作業の確度を上げるため/承認を得るためレビューを依頼する

![communication](images/communication.PNG)

#### ビジネスチームへの依頼例

Product Managerに、 Domain Expertに対しデータ収集・作成を依頼してもらう必要があります。発注者/作業者のような関係になるとほぼ確実に上手くいかないため、データの収集・作成を行う部門にMLOpsチームが自ら出向いて話を聞く、一緒にデータを作成するなど部署の境界を超える取り組みが必要です。

* 作業依頼
   * 他部署へのデータ収集・作成を依頼してもらう必要があります。
   * MLOpsチームと情報交換を行うための定期的な時間の設定。

#### DevOpsチームへの依頼例

Data architectやSoftware Engineerに、データの収集や変換を行う処理を構築するのにどの程度時間・費用がかかるか見積りの作成を依頼しましょう。

* 作業依頼
   * データの収集・変換にかかる工数はどの程度か。

## AWS Empowerment

AWSでは、データの作成・収集を行うためのマネージドサービスを提供しています。サービスを利用していただくことで、依頼先のチームの負担を軽減することができます。

* データの作成([Amazon SageMaker Data Labeling](https://aws.amazon.com/jp/sagemaker/data-labeling/?nc1=h_ls))
   * Amazon SageMaker Ground Truth
   * Amazon SageMaker Ground Truth Plus
* データの収集
   * バッチ: [AWS Glue](https://aws.amazon.com/jp/glue/)
   * ストリーム: [Amazon Kinesis](https://aws.amazon.com/jp/kinesis/)

## Next Step

[Preprocess](04_preprocess.ipynb)

## References

1. James Pustejovsky and Amber Stubbs. [Natural Language Annotation for Machine Learning: A Guide to Corpus-Building for Applications](https://www.amazon.co.jp/dp/B009PBJVXC/ref=dp-kindle-redirect?_encoding=UTF8&btkr=1). 2012.
