In [None]:
# キーポイントマッチングによる位置姿勢認識
import open3d as o3d
import numpy as np
import copy
o3d.__version__

特定物体の姿勢推定について説明します．
画像中に映った物体の三次元的な位置姿勢（並進と回転の合計6パラメータ）の推定は，
古くから研究されてきた，コンピュータビジョン分野における基本的な課題の一つです．
三次元位置姿勢（以降，単に姿勢と記述します．）を認識することができれば，
ロボットアームによって，その物体を掴んだり操作することができます．
また，カメラの動きに合わせてリアルなCGを画像に合成する，いわゆるARアプリケーションや，
異なる視点で撮影された点群同士を張り合わせて大規模な環境地図を生成することも可能になります．

本節では，広く利用されているキーポイントマッチングを題材として，
異なる視点で撮影された２つの点群を入力として，これらを貼り合わせるためのアルゴリズムを紹介します．

キーポイントマッチングの目的は，
入力された2つの点群（source,targetとします）を貼り合わせる変換行列を求めることです．
変換行列は，$4\times4$の同次変換行列${\bf T} = [{\bf R},{\bf t};{\bf 0}, 1]$で表現されることが一般的です．
ここで，${\bf R}$ は$3 \times 3$の回転行列，${\bf t}$は$3 \times 1$の平行移動ベクトルです．
第3章で紹介したICPアルゴリズムの目的もこれと同様ですが，ICPアルゴリズムは2つの点群の初期位置がかなり近いことを前提としていますが，キーポイントマッチングではそれを仮定していません．
より一般的なシーンで利用できる利点があります．
推定する位置姿勢の精度が求められる場合は，キーポイントマッチングで得られた位置姿勢を初期値として，ICPアルゴリズムを適用することが多いです．

## キーポイントマッチングによる6DoF姿勢推定
位置姿勢は6自由度あるため，その探索空間は膨大です．
sourceの位置姿勢を逐次変更しながらtargetと照合すると計算コストが非常に高くなるため，現実的ではありません．

そこで，sourceとtargetのよく似た部分的な領域を見つけ出して，その情報をもとに姿勢を計算します．
部分的な領域の類似性を計算するので，効率的な姿勢計算が可能になります．
これがキーポイントマッチングによる姿勢推定です．
この手法は下記の4つのステップで処理がおこなわれます．

 1. キーポイント検出
 2. 特徴量記述
 3. 対応点探索
 4. 姿勢計算

各ステップをOpen3Dによって実装しましょう．

### キーポイント検出
まずは，sourceとtargetの両データに対してキーポイントを検出します．
特徴点に関しては，ISSのように物体表面の物理的な凹凸部分もとにキーポイントを検出する手法や，
単に等間隔にサンプリングをおなった点をキーポイントとする手法が存在します．
ISSに関しては第3章に説明がありますので，今回は等間隔サンプリングによってキーポイントを選択しましょう．
ここでは，Voxel Grid Filterを利用します．

## 特徴量記述
特徴量記述はキーポイントに対してそのキーポイントらしさを表現する情報（アイデンティティ）を付与する処理です．
キーポイント周りの形状をもとに計算した多次元ベクトルを特徴量とすることが一般的です．
特徴量に関する説明は第3章にあります．
今回は，FPFH特徴量を利用します．

キーポイント検出と特徴量記述は，sourceとtargetの両方の点群に適用する処理なので，ここでは関数として実装します．FPFH特徴量の計算には法線が必要ですので，計算することにします．
まずはマッチング対象の点群を読み込んで表示しましょう．

In [None]:
#データ読み込み
path = "../3rdparty/Open3D/examples/test_data/ICP/"
source = o3d.io.read_point_cloud(path+"cloud_bin_0.pcd")
target = o3d.io.read_point_cloud(path+"cloud_bin_1.pcd")

source.paint_uniform_color([0.5,0.5,1])
target.paint_uniform_color([1,0.5,0.5])
initial_trans = np.identity(4)
initial_trans[0,3] = -3.0

def draw_registration_result( source, target, transformation ):
    pcds = list()
    for s in source: 
        temp = copy.deepcopy(s)
        pcds.append( temp.transform(transformation) )
    pcds += target
    o3d.visualization.draw_geometries(pcds, zoom=0.3199,
                                      front = [0.024, -0.225, -0.973],
                                      lookat = [0.488, 1.722, 1.556],
                                      up = [0.047, -0.972, 0.226])

draw_registration_result( [source], [target], initial_trans)

```draw_registration_result```は，点群を画面表示するための関数です．
第１引数の点群(リストとして渡します．)を第３引数の姿勢変換のための行列によって変換し，第２引数の点群(こちらもリストとして渡します．)と同時に表示します．
ここでは，見やすさのために```source```をx軸方向に-3.0だけ平行移動しています．


次に，これら２つの点群から，キーポイントを検出し，特徴量を計算しましょう．

In [None]:
def keypoint_and_feature_extraction( pcd, voxel_size ):

    keypoints = pcd.voxel_down_sample(voxel_size)

    viewpoint = np.array([0.,0.,0.], dtype='float64')
    radius_normal = 2.0*voxel_size
    keypoints.estimate_normals(
        o3d.geometry.KDTreeSearchParamHybrid(radius=radius_normal, max_nn=30))
    keypoints.orient_normals_towards_camera_location( viewpoint )

    radius_feature = 5.0*voxel_size
    feature = o3d.pipelines.registration.compute_fpfh_feature(
        keypoints,
        o3d.geometry.KDTreeSearchParamHybrid(radius=radius_feature, max_nn=100))
    return keypoints, feature

voxel_size = 0.1
s_kp, s_feature = keypoint_and_feature_extraction( source, voxel_size )
t_kp, t_feature = keypoint_and_feature_extraction( target, voxel_size )

関数```keypoint_and_feature_extraction()```は引数として```pcd```と```voxel_size```をとります．
```pcd```はこの処理を適用する点群であり，```voxel_size```はVoxel Grid Filterのボクセルサイズ，すなわち，検出するキーポイントの間隔です．
3行目でVoxel Grid Filterによって間引いた点群をキーポイントとします．
5--9行目は点群に対して法線を計算しています．まず，法線を計算するための範囲として，間引いたデータの倍の半径を指定し，その範囲内で最大30点を使って計算する設定にしています．
9行目は適当な視点（カメラ視点の場合が多いですが，今回は原点としています．）を仮定し，その方向に法線が向くように法線方向に反転処理を適用しています．

11--14行目で特徴量を計算しています．
特徴量の計算範囲は，その後の処理の性能に大きな影響を与えるため，重要です．
特徴量を計算するために十分な点数や範囲を含むことを意識して設定しましょう．
ここでは，キーポイント間隔5倍の距離を半径を限度とした領域に含まれる点のうち，近いものから順に最大100点を選択することにしました．
12行目で使っている関数は，キーポイントと計算範囲のみを入力としてFPFH特徴量を計算しています．本来，FPFH特徴量を計算するには，キーポイント，特徴量を計算するために使う点群（キーポイントを選ぶ前の元の点群），計算範囲の3つの情報が必要です．この関数では，キーポイントから特徴量を計算していることになるので，厳密にはFPFH特徴量の計算方法とは異なりますが，キーポイントをVoxel Grid Filterで算出している（＝もとの点群とほぼ同じ空間分布の点群を使っている）ため，問題が少ないと思われます．
ちなみに，Point Cloud Library(PCL)の3D特徴量計算の関数は，キーポイントと特徴量を計算するために使う点群を分けて入力するように実装されています．

キーポイントを緑に着色して，もとの点群と一緒に表示します．

In [None]:
s_kp.paint_uniform_color([0,1,0])
t_kp.paint_uniform_color([0,1,0])
draw_registration_result([source,s_kp], [target,t_kp], initial_trans)

図の通り，元の点群に対してまんべんなくキーポイントを選択することができました．



### 対応点探索
このステップの目的は物体モデルと入力シーン間で物理的に同一の地点を指す座標同士の対応を得ることです．
このために両特徴量の距離を計算します．距離が最も小さいキーポイントのペアが対応点になりますが，
誤った対応点を含んでしまう場合があります．

この解決法には，いくつかの方法が存在します．
まずは，最も単純な方法として，特徴量間のノルムにしきい値を設定する方法があります．
しきい値以下のノルムが得られた場合に対応点とみなします．

しかしながら，点群には，センサノイズや，オクルージョンによる部分的な欠損が存在しうるので，
しきい値設定は簡単でない場合があります．
他の方法としては，双方向チェックがあります．sourceからtargetへマッチングした場合のベストマッチと
targetからsourceへマッチングした場合のベストマッチが同一であった場合に対応点とみなす方法です．
ノルムが比較的大きかったとしても，双方向のベストマッチが一致すれば，それらのキーポイントは物理的同一地点を
指している可能性が高いでしょう．

さらに，Ratio testと呼ばれる方法があります．
この方法では，最近傍のノルムが他と比べて際立って小さいかどうかを調べます．
具体的には，最近傍のノルム(Aとします)と第2位のノルム（Bとします）間の比(A/B)を計算し，A/Bがしきい値以下の
場合に対応点とする方法です．
ノルムが小さかったとしても，他にも類似した特徴量を持つキーポイントがあった場合は誤対応かもしれません．
Ratio testではそういった対応点候補を棄却することができます．
今回は，Ratio testを試してみましょう．

In [None]:
np_s_feature = s_feature.data.T
np_t_feature = t_feature.data.T

corrs = o3d.utility.Vector2iVector()
threshold = 0.9
for i,feat in enumerate(np_s_feature):
    # source側の特定の特徴量とtarget側の全特徴量間のノルムを計算
    distance = np.linalg.norm( np_t_feature - feat, axis=1 )
    nearest_idx = np.argmin(distance)
    dist_order = np.argsort(distance)
    ratio = distance[dist_order[0]] / distance[dist_order[1]]
    if ratio < threshold:
        corr = np.array( [[i],[nearest_idx]], np.int32 )
        corrs.append( corr )

print('対応点セットの数：', (len(corrs)) )

1,2行目では，特徴量ベクトルを取り出して(n,33)行列を作成しています．
4行目のcorrsは対応点のセットを保存するための変数です．source，target双方のキーポイントのインデクスを保持します．
5行目のfor文内では，sourceの特定のキーポイントの特徴量と，targetの特徴量のL2ノルムを計算しています．
ノルムが小さいものから1位と2位の比を計算して，threshold以下であれば，正しい対応点セットとみなして，source, targetのインデクスを保存します．


## 姿勢計算について
対応点探索によって，複数個のsourceとtargetの同一地点の点のペア（対応点）が得られます．
このステップでは，対応点を使ってsourceをtargetに位置合わせする変換を推定します．
ここで注意すべきことは，対応点セットには誤りを含む可能性があるということです．
対応点探索のステップで，Ratio testを使ったとしても，誤対応点を完全に排除することは困難です．
そこで，ロバスト推定法として有名なRANdom SAmple Consensus (RANSAC)を利用することにします．

## RANSAC
RANSACは，点群処理以外にも広く使われているロバスト推定法の一種です．
外れ値が含まれた観測値から，その影響を抑えつつ，モデルパラメータを推定します．
ここでは，2次元の点列から直線のパラメータ（傾きと切片）を算出する例をもとに，
RANSACの考え方について簡単に説明します．
図(a)は初期状態の点列です．ここでは，$y = 0.5x + 2.0$からサンプリングした50点に
ガウシアンノイズを付加し，さらにランダムな外れ値を40点追加した状態です．
90点全ての点を用いて最小二乗法を用いて求めた傾きと切片をもとに直線を描画した例が図(b)です．
推定したパラメータが外れ値の影響を受けていることがわかります．
RANSACでは，以下の２つの処理を繰り返すことによって，観測データにより良くフィットしたパラメータを
推定します．

1. サンプリング
   - ランダムに数個の計測点を選択し，モデルパラメータ（傾きと切片）を推定します．
2. 評価
   - 得られたモデルパラメータの良さを評価します．
   例えば，得られた直線から一定の距離（マージン）内にあるデータ点の個数（インライア）を数え，その数をパラメータの良さとします．

図(c)(d)はサンプリングの例です．(c)はサンプリングした点（赤色）が外れ値を含むので，黒線で描画したマージン内のインライア点数が少ないです．
(d)は比較的良い点をサンプリングした時の結果です．マージン内に多くの点が含まれていることがわかります．

RANSACではサンプリング処理のときに，外れ値を除いたデータのみを引き当てることを期待しています．
もし，そのようなサンプリングができれば，理想的なモデルパラメータを算出することができるからです．
それでは，RANSACを使った姿勢推定をおこないましょう．


## RANSACによる姿勢計算
誤りを含んでいる対応点セットから，正しい対応点のみを取り出して姿勢計算をおこないます．
まずは，対応点探索で得られたすべての対応点を確認してみましょう．



In [None]:
def create_lineset_from_correspondences( corrs_set, pcd1, pcd2, 
                                         transformation=np.identity(4) ):
    pcd1_temp = copy.deepcopy(pcd1)
    pcd1_temp.transform(transformation) 
    corrs = np.asarray(corrs_set)
    np_points1 = np.array(pcd1_temp.points)
    np_points2 = np.array(pcd2.points)
    points = list()
    lines = list()

    for i in range(corrs.shape[0]):
        points.append( np_points1[corrs[i,0]] )
        points.append( np_points2[corrs[i,1]] )
        lines.append([2*i, (2*i)+1])

    colors = [np.random.rand(3) for i in range(len(lines))]
    line_set = o3d.geometry.LineSet(
        points=o3d.utility.Vector3dVector(points),
        lines=o3d.utility.Vector2iVector(lines),
    )
    line_set.colors = o3d.utility.Vector3dVector(colors)
    return line_set

line_set = create_lineset_from_correspondences( corrs, s_kp, t_kp, initial_trans )
draw_registration_result([source,s_kp], [target,t_kp, line_set], initial_trans)

対応点をランダムに設定した色の直線で描画しています．
関数create_linset_from_correspondencesでは，visualizerで表示する直線群を作成しています．

この２つの点群は，ほぼ平行移動した状態で表示されているので，対応点の直線は平行に引かれるのが理想的な状態です．
Ratio Testで誤対応の可能性の高いペアは棄却したのですが，斜めに引かれている対応点の直線がいくつか存在することがわかります．これらが外れ値として振る舞います．
すべての対応点から姿勢を計算すると，先に説明した直線のパラメータ推定がうまく行かなかったことと同様に，姿勢も誤差を含むということが容易に想像されます．

では，RANSACを使う前に，実際にすべての点を使って姿勢計算を行ってみましょう．

In [None]:
trans_ptp = o3d.pipelines.registration.TransformationEstimationPointToPoint(False)
trans_all = trans_ptp.compute_transformation( s_kp, t_kp, corrs )
draw_registration_result([source], [target], trans_all )

クラスo3d.pipelines.registration.TransformationEstimationPointToPointは，2つの対応の取れた点群の二条誤差を最小化する変換行列を算出します．
スケーリングを含めた変換を推定可能ですが，今回は位置と姿勢のみを扱いますのでスケーリングは不要です．クラスの引数に与えたFalseはスケーリングを1として計算するためのフラグです．
2,3行目で，関数compute_transoformationによって変換行列を算出し，画面に表示しています．
外れ値を含む対応点を使って姿勢を計算したので，やはりずれが目立ちます．

次に，RANSACを使って，姿勢を計算してみましょう．
先に説明した一般的な直線のパラメータを算出する際のRANSACと対比させて説明します．

**サンプリング**

すべての対応点から，あらかじめ決めておいた個数の対応点を選択し，変換行列を計算します．
これには，TransformationEstimationPointToPointを利用します．

**評価**

得られた変換行列の妥当性を評価します．
source側の点群を変換行列によって姿勢変換し，target側の点群との距離を計算します．
この値があらかじめ決めておいたマージンより小さい場合はその対応点をインライアとして判定します．
また，インライアの対応点１点あたりの距離の平均値を計算します．
この値が小さいほど，良い変換行列ということになります．

サンプリングと評価の試行を繰り返して，最も良い変換行列を最終結果とします．


では，この処理を実行してみましょう．
o3d.pipelines.registration.registration_ransac_based_on_correspondenceを使います．

In [None]:
distance_threshold = voxel_size*1.5
result = o3d.pipelines.registration.registration_ransac_based_on_correspondence(
        s_kp, t_kp, corrs,
        distance_threshold,
        o3d.pipelines.registration.TransformationEstimationPointToPoint(False),
        ransac_n = 3, 
        checkers = [
            o3d.pipelines.registration.CorrespondenceCheckerBasedOnEdgeLength(0.9),
            o3d.pipelines.registration.CorrespondenceCheckerBasedOnDistance(distance_threshold)
        ], 
        criteria = o3d.pipelines.registration.RANSACConvergenceCriteria(100000, 0.999)
        )

この関数は引数が多いので，順に説明します．
- s_kp, t_kp, corrs
	- RANSACのために必要な材料です．それぞれ，source側のキーポイント，target側のキーポイント，対応点探索によって得られた対応点のインデクスのリストです．
- distance_threshold
	- インライアと判定する距離（マージン）のしきい値です．
- ransac_n
	- 姿勢変換行列の計算のためにサンプリングする対応点の個数です．
- checkers
	- 枝刈り処理に使われる条件です．ここでいう枝刈り処理とは，「サンプリング」と「評価」の間に簡単な条件をチェックすることによって，調べる必要のない（外れ値を含んだ）サンプルを除外する処理のことです．この処理により，無駄な「評価」をスキップすることができ，RANSACが高速化されます．ここでは，「EdgeLength」「Distance」を使った枝刈りをおこないます.「Distance」では，変換行列によってサンプリングした対応点(ransac_n点)を変換し，距離が近いかどうかを判定します．近ければ，有望な変換行列とみなします．「EdgeLength」では，サンプリングした対応点の配置の関係性を評価します．EdgeLengthとは，片方の点群内で対応点間の距離のことです．source内で2点選び，その距離を$e_s$とし，targetでも同様に距離を計算し$e_t$とします．もし，「サンプリング」によって選ばれた対応点がsourceとtargetの同一地点を指していれば，$e_s$と$e_t$の値は類似するはずです．これを条件に枝刈りをおこないます．
- criteria
	- RANSACの終了条件を指定しています．第１引数は試行回数の最大数です．試行中に得られた解の良さを利用して試行回数が変更されます．良い解を早い段階で発見した場合は，早期に試行が終了します．この時に使われる値が第２引数です．これら二つの値が大きいほど試行回数が増えることになるので，精度の良い解が得られる可能性が高まります．小さくすれば，その分，早く結果を得られます．

返却値である変数resultには，RANSACの結果が保存されています．
- correspondence_set: インライアと判定された対応点のインデクスのリスト
- fitness: インライア数/対応点数の値．大きいほど良い．
- inlier_rmse: インライアの平均二条誤差．小さいほど良い．
- tranformation：$4 \times 4の$変換行列

では，結果を確認しましょう．
まずはインライアの対応点を確認します．

In [None]:
line_set = create_lineset_from_correspondences( result.correspondence_set, s_kp, t_kp, initial_trans )
draw_registration_result([source,s_kp], [target,t_kp, line_set], initial_trans)

２つの点群の同一地点を結んだ対応点だけが残されているように見えます．この対応点であれば，精度の良い変換行列が計算できそうです．では，結果を表示してみましょう．

In [None]:
draw_registration_result([source], [target], result.transformation)


この図の通り，RANSACを使う前よりも精度の良い位置合わせができたことがわかります．
さらに精度を高める場合には，この結果を初期値としてICPアルゴリズムを実行することが良くとられる方法です．

ここまでの処理のサンプルコードの実行方法は次の通りです．引数としてマッチングさせる2つの点群データのパスを指定しています．
```bash
python o3d_keypoint_matching.py \ 
../3rdparty/Open3D/examples/test_data/ICP/cloud_bin_0.pcd \ 
../3rdparty/Open3D/examples/test_data/ICP/cloud_bin_1.pcd
```

補足ですが，open3dでは，対応点探索とRANSACによる姿勢計算をまとめて実行する方法も用意されています．
以下の通りです．

In [None]:
distance_threshold = voxel_size*1.5
result = o3d.pipelines.registration.registration_ransac_based_on_feature_matching(
        s_kp, t_kp, s_feature, t_feature, True,
        distance_threshold,
        o3d.pipelines.registration.TransformationEstimationPointToPoint(False),
        ransac_n = 3, 
        checkers = [
            o3d.pipelines.registration.CorrespondenceCheckerBasedOnEdgeLength(0.9),
            o3d.pipelines.registration.CorrespondenceCheckerBasedOnDistance(distance_threshold)
        ], 
        criteria = o3d.pipelines.registration.RANSACConvergenceCriteria(100000, 0.999)
        )

In [None]:
draw_registration_result([source], [target], result.transformation)