In [None]:
conda activate RNAseq

# RNAseqという場を起動する

In [None]:
mamba install -c bioconda fastp

# mamba install -c bioconda (コマンド名)：conda から必要なコマンドをダウンロードする

In [None]:
fastp -i WT_R1_001.fastq.gz -I WT_R2_001.fastq.gz -3 -o  WT_Q1.fq.gz -O WT_Q2.fq.gz  -h report_WT.html -j report_WT.json -q 20 -t 1 -T 1 -l 20 -w 8 -f 1 -F 1 --adapter_sequence GAACTGAG --adapter_sequence_r2 CGCTCCAC

# fastp -i サンプル名(adapter1使用ファイル).gz -I サンプル名(adapter2使用ファイル).fastq.gz -3 -o  クリア後サンプル名(adapter1使用ファイル).gz -O クリア後サンプル名(adapter2使用ファイル).fq.gz  -h report_(サンプル名).html -j report_(サンプル名).json -q 20 -t 1 -T 1 -l 20 -w 8 -f 1 -F 1 --adapter_sequence アダプター1配列 --adapter_sequence_r2 アダプター2配列：主なオプションの説明：
-i WT_R1_001.fastq.gz: **入力ファイル（R1）**として、WT_R1_001.fastq.gz を指定します。R1 はペアエンドシーケンシングの前方リードを示します。
-I WT_R2_001.fastq.gz: **入力ファイル（R2）**として、WT_R2_001.fastq.gz を指定します。R2 はペアエンドシーケンシングの後方リードを示します。
-3: リードの3'末端をトリミングします。
-o WT_Q1.fq.gz: **出力ファイル（R1）**として、トリミングされたR1の結果をWT_Q1.fq.gz に保存します。
-O WT_Q2.fq.gz: **出力ファイル（R2）**として、トリミングされたR2の結果をWT_Q2.fq.gz に保存します。
-h report_WT.html: HTML形式でレポートを生成し、report_WT.html というファイル名で保存します。
-j report_WT.json: JSON形式でレポートを生成し、report_WT.json というファイル名で保存します。
-q 20: クオリティスコアのカットオフとして、20以下のクオリティのリードを削除します。
-t 1: スレッド数を1に設定して並列処理します。
-T 1: トリミングの閾値を1に設定します。
-l 20: リードの最小長さを20に設定します。トリミング後に20未満のリードは削除されます。
-w 8: 最大のメモリ使用量（ワークスペース）を8GBに設定します。
-f 1: ファイルの出力形式として、FASTQフォーマットを指定します。
-F 1: FASTQ形式でのフォーマットチェックを有効にします。
--adapter_sequence GAACTGAG: アダプター配列（リードの3'末端に結合している可能性がある配列）としてGAACTGAGを指定し、この配列をトリミングします。
--adapter_sequence_r2 CGCTCCAC: R2のアダプター配列としてCGCTCCACを指定し、この配列をトリミングします。
概要：
このコマンドは、ペアエンドのシーケンシングデータ（WT_R1_001.fastq.gz と WT_R2_001.fastq.gz）に対して、以下の処理を行います：

リードの3'末端のトリミング。
アダプター配列の除去（R1, R2それぞれに指定）。
クオリティスコアが20未満のリードを削除。
長さが20未満のリードを削除。
トリミング後の結果をWT_Q1.fq.gz（R1）およびWT_Q2.fq.gz（R2）に保存。
HTMLとJSON形式で処理結果のレポートを生成。
メモリ制限を8GB、並列処理を1スレッドで実行。
このように、fastpを使ってシーケンシングデータをクリーンアップし、品質を高めるための前処理を行っています。

In [None]:
seqkit stats WT*_R*_001.fastq.gz WT*_Q*.fq.gz > WT_stats_output.csv 

# seqkit stats サンプル名(fastap前).gz サンプル名(fastap後).gz > サンプル名.csv：各部分の説明：
seqkit stats: seqkit の stats サブコマンドで、指定した FASTQ ファイルの統計情報を計算します。
WT*_R*_001.fastq.gz WT*_Q*.fq.gz:
WT*_R*_001.fastq.gz および WT*_Q*.fq.gz のパターンに一致するすべてのファイルが対象です。
* はワイルドカード（任意の文字列を表す）なので、たとえば WT1_R1_001.fastq.gz や WT2_Q1.fq.gz など、パターンに一致するすべてのファイルが含まれます。
> WT_stats_output.csv: seqkit stats の出力を WT_stats_output.csv というファイルに保存します。この CSV ファイルには、各ファイルの統計情報がまとまって出力されます。
出力内容の概要：
WT_stats_output.csv には、各ファイルに対して以下のような統計情報が含まれます：

file: ファイル名
format: ファイル形式（ここでは FASTQ）
type: シーケンスの種類（DNA、RNA、またはタンパク質）
num_seqs: シーケンス（リード）数
sum_len: シーケンスの総長
min_len: 最小シーケンス長
avg_len: 平均シーケンス長
max_len: 最大シーケンス長
Q20(%): Q20スコアの割合（クオリティスコア20以上の割合）
Q30(%): Q30スコアの割合（クオリティスコア30以上の割合）
GC(%): GC含量の割合
このコマンドの目的：
複数の FASTQ ファイルについて、品質やシーケンス長の分布などを一括で確認できるため、データ品質の概要を把握したり、ファイル間の比較をするのに便利です。CSV 形式なので、Excel や Numbers で開いて視覚的に確認や分析ができます。

In [None]:
bowtie2-build GCA_002142475.1.fna bowtie2_index

# bowtie2-build ゲノムファイル名 bowtie2_index
bowtie2-build: Bowtie 2 のインデックス構築プログラムを呼び出します。
GCA_002142475.1.fna: 入力ファイル。これはリファレンスゲノムのFASTA形式のファイルです。GCA_002142475.1.fna はゲノム配列を含んでいることを示します。
bowtie2_index: 出力ファイルのプレフィックス。このコマンドが実行されると、Bowtie 2 は複数のインデックスファイルを生成し、それらのファイル名の先頭に bowtie2_index という名前が付けられます。コマンドの役割
このコマンドを実行することで、GCA_002142475.1.fna というリファレンスゲノムを使ってインデックスを作成し、bowtie2_index.* というファイル群が出力されます。これらのインデックスファイルは、後で Bowtie 2 を使ってリードをこのリファレンスにマッピングする際に使用されます。

In [None]:
bowtie2 --sensitive -x bowite2_index –p 8 -1 R1.fq.gz -2 R2.fq.gz

# bowtie2 --sensitive -x bowite2_index –p 8 -1 クリア後ファイル.fq.gz -2 クリア後ファイル.fq.gz：bowtie2: Bowtie 2 のコマンドを呼び出します。
--sensitive: マッピングの設定を「sensitive（センシティブ）」モードに設定します。このモードはデフォルトよりも感度が高く、より多くの正確なアライメントを行いますが、処理速度は少し遅くなります。
-x bowtie2_index: 使用するリファレンスインデックスを指定します。これは bowtie2-build で作成したインデックスファイルのプレフィックス bowtie2_index です。
-p 8: マルチスレッド処理を指定します。この例では、8スレッドを使用して並列処理を行い、処理速度を向上させます。
-1 R1.fq.gz: ペアエンドリードの 1 つ目のファイルを指定します（前方リード）。この例では、圧縮された FASTQ ファイル R1.fq.gz です。
-2 R2.fq.gz: ペアエンドリードの 2 つ目のファイルを指定します（後方リード）。この例では、圧縮された FASTQ ファイル R2.fq.gz です。
コマンドの役割
このコマンドは、bowtie2_index というインデックスを用いて、R1.fq.gz と R2.fq.gz に含まれるペアエンドリードをマッピングします。マッピング結果は標準出力に表示されるか、オプションで指定すれば SAM ファイルとして保存できます。

In [None]:
samtools index -@ 4 WT2.bam

In [None]:
# samtools index -@ 4 bamファイル名：samtools: SAM/BAM/CRAM ファイルを操作するためのツール。
index: SAMtools のサブコマンドで、BAM ファイルのインデックスを作成します。これにより、大きな BAM ファイルに対して効率的にアクセスできるようになります。
-@ 4: 使用するスレッド数を指定します。この場合、4 スレッドを使用して並列処理を行い、インデックス作成の処理速度を向上させます。
WT2.bam: インデックスを作成する対象の BAM ファイルです。このファイルは、すでにマッピングが行われたリード情報を含んでいるはずです。
コマンドの役割
samtools index は BAM ファイルにインデックスを作成して、後で効率的にアクセスするための .bai ファイル（WT2.bam.bai）を生成します。このインデックスは、次のような操作を行うときに役立ちます。

特定のリファレンス領域を抽出する。
視覚化ツールで BAM ファイルを効率的に読み込む。
その他の解析ツールで高速アクセスを可能にする。

In [None]:
samtools flagstats WT2.bam

# samtools flagstats bamファイル名：samtools: SAM/BAM/CRAM ファイルを操作するためのツール。
flagstats: SAMtools のサブコマンドで、BAM ファイル内のリードに関する統計情報を出力します。具体的には、マッピングの状態やリードの総数などの詳細を表示します。
WT2.bam: 統計情報を取得したい対象の BAM ファイルです。
コマンドの役割
samtools flagstats を実行すると、指定された BAM ファイルの内容に基づいた統計情報が表示されます。出力される主な情報は以下のとおりです：

総リード数
マッピングされたリード数とその割合
一意にマッピングされたリードの数
マルチマッピング（複数の場所にマッピングされた）リードの数
ちゃんとペアが形成されているペアエンドリードの数
PCR 重複と見なされるリードの数

In [None]:
bowtie2 --sensitive -x bowite2_index –p 8 -1 R1.fq.gz -2 R2.fq.gz |samtools sort -@ 8 - >sample1.bam

# bowtie2 --sensitive -x bowite2_index –p 8 -1 R1.fq.gz -2 R2.fq.gz |samtools sort -@ 8 - >sample1.bam：このコマンドは、Bowtie 2 を使ってペアエンドリードをマッピングし、その出力を SAMtools でソートして BAM ファイルとして保存する一連のパイプ処理です。

In [None]:
#!/bin/bash

# adapters.txt の各行を読み込んで処理を行う
cat adapters.txt | awk 'NR > 1 {print $1, $2, $3}' | while read sample adapter1 adapter2; do
  echo "Processing sample: $sample"
  fastp -i ${sample}_R1_001.fastq.gz -I ${sample}_R2_001.fastq.gz \
        -3 -o ${sample}_Q1.fq.gz -O ${sample}_Q2.fq.gz \
        -h report_${sample}.html -j report_${sample}.json \
        -q 20 -t 1 -T 1 -l 20 -w 8 -f 1 -F 1 \
        --adapter_sequence ${adapter1} --adapter_sequence_r2 ${adapter2}
done


In [None]:
スクリプトの説明
cat adapters.txt | awk 'NR > 1 {print $1, $2, $3}': adapters.txt の1行目を除いた各行について、サンプル名と2つのアダプター配列を抽出します。
while read sample adapter1 adapter2; do ... done: 各行を読み取り、変数 sample、adapter1、adapter2 に格納して fastp を実行します。
fastp のオプションは、説明に記載された内容に基づいていますが、必要に応じて調整できます。


In [None]:
breseq -r Leptolyngbya_boryana_IAM101.gbk -o WT.gbk WT_Q1.fq.gz WT_Q2.fq.gz


In [None]:
igv -g GCA_002142475.1.fna WT.bam,WT2.bam

In [None]:
gdtools COMPARE -o integrate.html -r Leptolyngbya_boryana_IAM101.gbk WT.gd dg237.gd BR10PR22.gd
