Skip to content

Latest commit

 

History

History
41 lines (25 loc) · 3.73 KB

L09_QA.md

File metadata and controls

41 lines (25 loc) · 3.73 KB

2022年度ゲノム情報解析入門

講義へのご意見・ご質問

● (Pandaの)課題テキストのリンクが前々回から変わっていない。

すみません、直すの忘れてました、次回から修正します。 御指摘ありがとうございます。

● ”データ上”最も優れた品種を作ることが可能になったが、技術上その品種を作ることができるのか疑問に思った。

これはとても大事な視点ですね。講義で少し触れます。

● Genomic Predictionは現時点でどこまで応用が進んでいるのか気になりました。

Genomic Selectionの様な形で、集団のデータを元に、交配を進めている例というのは、一部の都道府県の試験場等で行われていると思います。 ただ、不十分なデータであまり精度が高くない状態で進めてしまっている印象と、先ほど紹介した様にPredictionモデルを元に育種計画まで考えてやってる例は聞かないですね。 (動物の世界だとまた話は別かもしれません。)

● Genomic Predictionの理想の応用例においてGNを257.39まであげることができた。しかし理論上可能と言っていた300や400まではいかなかった。この方法は、自分でひたすら数値を変えて調べないといけないのですか?それとも最適な組み合わせを自動で計算してくれる機能があるのですか?

予測モデルから各領域の形質への影響を推定することが出来ます。 例えば y=SNP1×1000 + SNP2×-100 + SNP3×-200という式が得られれば、SNP1の領域のみ変異を入れられれば良いわけですね。 ただし実際には、(今回の講義では扱いませんが、)各SNPの回帰係数をそのまま効果の大きさとして扱うと色々と問題が生じるので、推定の誤差・連鎖や領域の広さ等を考慮する工夫も必要になります。

● 講義で紹介された、イネの籾数に関する予測モデルの作成の流れをもう少し詳しく知りたいです。

今回の講義で基礎的な部分は扱います!

● 完全な想像論だがRIL集団を作成する際、環境の違いや時間がかかることを考慮するとコンピュータ上で仮想的な植物(の遺伝子型)の集団を作ってそれをシミュレーションすることはできないのだろうか。そちらの方が様々なコストがかかるのだろうか。

集団サイズがそれほど得られない場合に、実際の栽培集団のデータにシミュレーションで作成した仮想的な集団を混ぜて学習データとする様な研究もあったりします。 が、あくまでもシミュレーション(自分で設定した恣意的なデータ)なので、あまりうまくいってない印象ですね。

● 残差の2乗和が最小となるようにモデルを構築することはわかりましたが、外れ値の排除はどのように行うのでしょうか?

外れ値の排除というより、 外れ値を上手く説明出来るようなモデルにするのか、それとも外れ値よりも平均値付近のデータを上手く説明出来るようなモデルにするのか、という感じですね。 損失関数(この値が最小になる様な式を求める)によって、どんなモデルを目指すのかが少し変わります。重要視する部分の違いです。