[Japanese/English]
MediaPipe(Python版)を用いて手の姿勢推定を行い、検出したキーポイントを用いて、
簡易なMLPでハンドサインとフィンガージェスチャーを認識するサンプルプログラムです。
本リポジトリは以下の内容を含みます。
- サンプルプログラム
- ハンドサイン認識モデル(TFLite)
- フィンガージェスチャー認識モデル(TFLite)
- ハンドサイン認識用学習データ、および、学習用ノートブック
- フィンガージェスチャー認識用学習データ、および、学習用ノートブック
- mediapipe 0.8.1
- OpenCV 3.4.2 or Later
- Tensorflow 2.3.0 or Later
tf-nightly 2.5.0.dev or later (LSTMモデルのTFLiteを作成する場合のみ) - scikit-learn 0.23.2 or Later (学習時に混同行列を表示したい場合のみ)
- matplotlib 3.3.2 or Later (学習時に混同行列を表示したい場合のみ)
Webカメラを使ったデモの実行方法は以下です。
python app.py
デモ実行時には、以下のオプションが指定可能です。
- --device
カメラデバイス番号の指定 (デフォルト:0) - --width
カメラキャプチャ時の横幅 (デフォルト:960) - --height
カメラキャプチャ時の縦幅 (デフォルト:540) - --use_static_image_mode
MediaPipeの推論にstatic_image_modeを利用するか否か (デフォルト:未指定) - --min_detection_confidence
検出信頼値の閾値 (デフォルト:0.5) - --min_tracking_confidence
トラッキング信頼値の閾値 (デフォルト:0.5)
│ app.py │ keypoint_classification.ipynb │ point_history_classification.ipynb │ ├─model │ ├─keypoint_classifier │ │ │ keypoint.csv │ │ │ keypoint_classifier.hdf5 │ │ │ keypoint_classifier.py │ │ │ keypoint_classifier.tflite │ │ └─ keypoint_classifier_label.csv │ │ │ └─point_history_classifier │ │ point_history.csv │ │ point_history_classifier.hdf5 │ │ point_history_classifier.py │ │ point_history_classifier.tflite │ └─ point_history_classifier_label.csv │ └─utils └─cvfpscalc.py
推論用のサンプルプログラムです。
また、ハンドサイン認識用の学習データ(キーポイント)、
フィンガージェスチャー認識用の学習データ(人差指の座標履歴)を収集することもできます。
ハンドサイン認識用のモデル訓練用スクリプトです。
フィンガージェスチャー認識用のモデル訓練用スクリプトです。
ハンドサイン認識に関わるファイルを格納するディレクトリです。
以下のファイルが格納されます。
- 学習用データ(keypoint.csv)
- 学習済モデル(keypoint_classifier.tflite)
- ラベルデータ(keypoint_classifier_label.csv)
- 推論用クラス(keypoint_classifier.py)
フィンガージェスチャー認識に関わるファイルを格納するディレクトリです。
以下のファイルが格納されます。
- 学習用データ(point_history.csv)
- 学習済モデル(point_history_classifier.tflite)
- ラベルデータ(point_history_classifier_label.csv)
- 推論用クラス(point_history_classifier.py)
FPS計測用のモジュールです。
ハンドサイン認識、フィンガージェスチャー認識は、
学習データの追加、変更、モデルの再トレーニングが出来ます。
「k」を押すと、キーポイントの保存するモードになります(「MODE:Logging Key Point」と表示される)
「0」~「9」を押すと「model/keypoint_classifier/keypoint.csv」に以下のようにキーポイントが追記されます。
1列目:押下した数字(クラスIDとして使用)、2列目以降:キーポイント座標
キーポイント座標は以下の前処理を④まで実施したものを保存します。
初期状態では、パー(クラスID:0)、グー(クラスID:1)、指差し(クラスID:2)の3種類の学習データが入っています。
必要に応じて3以降を追加したり、csvの既存データを削除して、学習データを用意してください。
「keypoint_classification.ipynb」をJupyter Notebookで開いて上から順に実行してください。
学習データのクラス数を変更する場合は「NUM_CLASSES = 3」の値を変更し、
「model/keypoint_classifier/keypoint_classifier_label.csv」のラベルを適宜修正してください。
「keypoint_classification.ipynb」で用意しているモデルのイメージは以下です。
「h」を押すと、指先座標の履歴を保存するモードになります(「MODE:Logging Point History」と表示される)
「0」~「9」を押すと「model/point_history_classifier/point_history.csv」に以下のようにキーポイントが追記されます。
1列目:押下した数字(クラスIDとして使用)、2列目以降:座標履歴
キーポイント座標は以下の前処理を④まで実施したものを保存します。
初期状態では、静止(クラスID:0)、時計回り(クラスID:1)、反時計回り(クラスID:2)、移動(クラスID:4)の
4種類の学習データが入っています。
必要に応じて5以降を追加したり、csvの既存データを削除して、学習データを用意してください。
「point_history_classification.ipynb」をJupyter Notebookで開いて上から順に実行してください。
学習データのクラス数を変更する場合は「NUM_CLASSES = 4」の値を変更し、
「model/point_history_classifier/point_history_classifier_label.csv」のラベルを適宜修正してください。
「point_history_classification.ipynb」で用意しているモデルのイメージは以下です。
「LSTM」を用いたモデルは以下です。
使用する際には「use_lstm = False」を「True」に変更してください(要tf-nightly(2020/12/16時点))
以下に応用事例を紹介します。
- Control DJI Tello drone with Hand gestures
- Classifying American Sign Language Alphabets on the OAK-D
高橋かずひと(https://twitter.com/KzhtTkhs)
hand-gesture-recognition-using-mediapipe is under Apache v2 license.