Skip to content
Sugichang edited this page Jan 24, 2025 · 3 revisions

復習問題7 UNIX によるテキストファイル処理

計算機を利用する受講生と自分のPCを利用する聴講生では演習環境に差が生じるため、各問題において作業ディレクトリを適宜読み替えること。
例: ~/gitc/data/7_text 等と記載している場合、利用者各自の判断で ~/Desktop/gitc/data/7_text と読み替える など。

この演習では、ex7.sam を使⽤する。ファイルは ~/gitc/data/7_text/ にある。


印は応⽤問題です。時間に余裕があればトライしてみてください)

ex7.sam ファイルは SAM フォーマットで記されているデータである。内容に関しては「NGS 基本データフォーマット」の章を参照すること。

ex7.sam の中で、順鎖にも逆鎖にもマッピングされていないフラグメントがあるかどうかが知りたい。そのために以下の操作をせよ。

  1. ex7.sam からヘッダー部のみを抜き出して出⼒せよ。(ヒント: grep を使⽤せよ)

  2. ex7.sam からヘッダー部以外の⾏を抜き出し、ex7_2.sam として保存せよ。ex7_2.sam ファイルはマッピング結果部分のみのファイルとなった。

  3. ex7_2.sam にある各フラグメントのFLAG 値を確認するために、「2 カラム⽬」のみの値を出⼒せよ。 (ヒント: awk を使⽤せよ)

  4. 上記で出⼒された値がどのようなものであるか知りたい。このような場合、パイプ(|)を使い sort コマンドを実⾏してから、uniq コマンドを実⾏することで、「重複している値」を全て取り除くことができる。問3.の結果に対して sort | uniq を使⽤し、どのような値の種類があるかを調べよ。

スクリーンショット 2020-02-18 16 31 10

  1. ex7.sam には順鎖にも逆鎖にもマッピングされていないフラグメントがあるか? あるならば、それはどのフラグメント名であるかを出⼒せよ。(ヒント:SAM フォーマットのFLAG 値はどのような意味を持つかを確認せよ。 その上で、問4. で得られた結果と⽐較して考えるとよい。)
Clone this wiki locally