Skip to content

Latest commit

 

History

History
32 lines (22 loc) · 4.08 KB

L10_QA.md

File metadata and controls

32 lines (22 loc) · 4.08 KB

2022年度ゲノム情報解析入門

講義へのご意見・ご質問

● 動物では自家交配が難しく世代時間が長いので、RIL集団などのホモ接合型で固定した個体を作るのは難しいと思います。こうした場合、GWASやGenomic Predictionなどはどのように行うのが良いのでしょうか。

ホモ接合型で固定したRIL集団を使うメリットは、ヘテロ接合型や雑種強勢を考慮する必要が無く、検出力が得やすい所にあります。 しかし、記述して頂いた通り、動物では交配の難しさや世代時間の長さからGenotypeを固定した様な集団を作成するのは容易ではありません。 ただ、GWASやGenomic Predictionが出来なくなる訳ではなく、ヘテロ接合等を考慮したGWASやGenomic Predictionモデルを使用すれば可能になります。 どちらかというと、ヘテロも考慮する場合が通常で、RIL集団等を用意することが出来れば、より強力にGWAS/Genomic Predictionを行える、という感じです。

● (Lasso回帰の正則化項について)この時のαは実際どの程度の値を用いているのだろうか。植物によってゲノムサイズが異なるので一律には言えないかもしれないが、そのゲノムの大きさがこれくらいならαはこれくらい、などの目安があるのか気になった。それともどれくらい直線に近しくしたいかの目標によって変えるのだろうか。

αの値は形質値のスケールによって大幅に変わるので、基準の様なものは現状ありません。 この様なαの値をどのくらいにするのか色々試行錯誤することを、パラメータ調整(チューニング)と言ったりします。 Lassoに限らず様々な手法において、モデル構築の際に色々なパラメータを決める必要があります。 本講義ではややこしくなりそうだったので触れていませんが、 モデルを構築する際には、このαを決めるためにトレーニングデータ・テストデータとはまた別にバリデーションデータと呼ばれるデータを用意して、 最適なパラメータを決める過程が必要な場合が多いです。

● Genemic Prediction ではシンプルなモデルにして解析にかけるのが良いということだったけれど、研究の上でどうしても複雑なモデルを用いたいときは、どうするのだろうかと疑問に思った。

シンプルなモデルが良いというのは、「現実的に考えてある形質に関与している遺伝子の数はそれほど多くないだろう」という仮説の元、無暗に複雑なモデルを使ってしまうと過学習してしまう可能性が高いため、シンプルなモデルで予測モデルの構築を試みていました。 そのため、例えば「30,000個の遺伝子が複雑に相互作用しあって影響を与えている」様な形質があった場合、複雑なモデルの方が適していることもあります。 複雑なモデルを使いたい(機械学習とかAIを勉強しだした人にありがち)から使う、のではなく、状況的にその方が適していると考えられる場合に複雑なモデルを適用する、のが正しいです。 そして(個人的な意見ですが)、とても複雑なモデルが必要になるケースは生物学においてそこまで多くない様な気がします。

● 再提出が無制限と表示されていますが,ここのところ1回しか提出できない状況となっています.何か特別な設定をされているのでしょうか.

特に何も設定していないです。提出期限内でも1回しか提出出来ない感じですか?