## このtutorialの目標
- 遺伝子リストからBed fileをGRCh37で作成する

- gencode Release 26 (GRCh37)
- Comprehensive gene annotationの"transcript"行かつ"basic" tagの最初から最後までをgene領域と定義した

## 準備
gene_listを作成
gene_list例： (注意①タブ区切り、②1行目のcolumnの名前は必ず"gene"とする。2行目はあってもなくてもいい。)
gene	score
ENSG00000160460	-0.0286259792308088
ENSG00000174684	-0.0279487738205304
ENSG00000105696	-0.0274671499207989
ENSG00000036530	-0.0273632439634759
ENSG00000167971	-0.0272309033221084
ENSG00000171160	-0.0270953559492696
ENSG00000154118	-0.0270406160704988
ENSG00000213023	-0.0270396538281061
ENSG00000162188	-0.027008457209436
ENSG00000196361	-0.026997114013352
ENSG00000167733	-0.0269925008951092
ENSG00000167654	-0.0269833655151878
ENSG00000177108	-0.0268820364014152
ENSG00000148408	-0.0268771859571707

In [1]:
# 必要なライブラリを読み込む（もし未インストールなら、install.packages()でインストール）
library(dplyr)

# ファイルが保存されているディレクトリのパス
directory <- "~/work/scRNA-seq/result/mousetohuman2/"

# geneリストを格納するためのデータフレーム
gene_list <- data.frame(gene = character())

# gene_cluster_0.txt から gene_cluster_7.txt までのファイルを処理
for (i in 0:7) {
  file_path <- paste0(directory, "gene_cluster_", i, ".txt")
  
  # ファイルの読み込み
  data <- read.table(file_path, header = TRUE, sep = "\t", stringsAsFactors = FALSE)
  
  # Gene_stableNAID列（3列目）を抽出し、重複を削除
  gene_list <- bind_rows(gene_list, data.frame(gene = data$Gene_stableNAID)) %>%
    distinct()
}

# gene_listをファイルに書き込む
write.table(gene_list, file = "gene_list.txt", quote = FALSE, sep = "\t", row.names = FALSE, col.names = TRUE)

cat("gene_list.txtにGene_stableNAIDのリストを作成しました。\n")


 次のパッケージを付け加えます: ‘dplyr’ 


 以下のオブジェクトは ‘package:stats’ からマスクされています:

    filter, lag


 以下のオブジェクトは ‘package:base’ からマスクされています:

    intersect, setdiff, setequal, union




gene_list.txtにGene_stableNAIDのリストを作成しました。


In [2]:
getwd()

In [3]:
# ファイルパスを確認するためのコード
directory <- "~/work/scRNA-seq/result/mousetohuman2/"
for (i in 0:7) {
  file_path <- paste0(directory, "gene_cluster_", i, ".txt")
  if (file.exists(file_path)) {
    cat(file_path, "が存在します。\n")
  } else {
    cat(file_path, "が存在しません。\n")
  }
}

~/work/scRNA-seq/result/mousetohuman2/gene_cluster_0.txt が存在します。
~/work/scRNA-seq/result/mousetohuman2/gene_cluster_1.txt が存在します。
~/work/scRNA-seq/result/mousetohuman2/gene_cluster_2.txt が存在します。
~/work/scRNA-seq/result/mousetohuman2/gene_cluster_3.txt が存在します。
~/work/scRNA-seq/result/mousetohuman2/gene_cluster_4.txt が存在します。
~/work/scRNA-seq/result/mousetohuman2/gene_cluster_5.txt が存在します。
~/work/scRNA-seq/result/mousetohuman2/gene_cluster_6.txt が存在します。
~/work/scRNA-seq/result/mousetohuman2/gene_cluster_7.txt が存在します。


In [4]:
# 必要なライブラリを読み込み
library(dplyr)

# ファイルが保存されているディレクトリのパス
directory <- "~/work/scRNA-seq/result/mousetohuman2/"

# 保存先のディレクトリ（datalist）を作成
datalist_dir <- paste0(directory, "datalist/")
if (!dir.exists(datalist_dir)) {
  dir.create(datalist_dir)
}

# gene_cluster_0.txt から gene_cluster_7.txt までのファイルを処理
for (i in 0:7) {
  file_path <- paste0(directory, "gene_cluster_", i, ".txt")
  
  # ファイルの読み込み
  data <- read.table(file_path, header = TRUE, sep = "\t", stringsAsFactors = FALSE)
  
  # Gene_stableNAID列（3列目）を抽出し、重複を削除
  gene_list <- data.frame(gene = data$Gene_stableNAID) %>%
    distinct()
  
  # 各ファイルを個別に保存（gene_list_0.txt ~ gene_list_7.txt）
  output_file <- paste0(datalist_dir, "gene_list_", i, ".txt")
  write.table(gene_list, file = output_file, quote = FALSE, sep = "\t", row.names = FALSE, col.names = TRUE)
}

cat("8つのgenelistがdatalistディレクトリに保存されました。\n")


8つのgenelistがdatalistディレクトリに保存されました。


In [5]:
library(tidyverse)
library(dplyr)

── [1mAttaching core tidyverse packages[22m ──────────────────────────────────────────────────────────────── tidyverse 2.0.0 ──
[32m✔[39m [34mforcats  [39m 1.0.0     [32m✔[39m [34mreadr    [39m 2.1.5
[32m✔[39m [34mggplot2  [39m 3.5.1     [32m✔[39m [34mstringr  [39m 1.5.1
[32m✔[39m [34mlubridate[39m 1.9.3     [32m✔[39m [34mtibble   [39m 3.2.1
[32m✔[39m [34mpurrr    [39m 1.0.2     [32m✔[39m [34mtidyr    [39m 1.3.1
── [1mConflicts[22m ────────────────────────────────────────────────────────────────────────────────── tidyverse_conflicts() ──
[31m✖[39m [34mdplyr[39m::[32mfilter()[39m masks [34mstats[39m::filter()
[31m✖[39m [34mdplyr[39m::[32mlag()[39m    masks [34mstats[39m::lag()
[36mℹ[39m Use the conflicted package ([3m[34m<http://conflicted.r-lib.org/>[39m[23m) to force all conflicts to become errors


In [6]:
gft_df=read.table("/home/k1_taka/reference/gencode/gene_region.bed")
colnames(gft_df)=c("CHR", "START", "END","genes")
nrow(gft_df) #58288

In [7]:
gft_df2=gft_df %>% separate(genes, c("gene", "ver"), "\\.") %>% select(c("gene", "CHR", "START", "END"))

In [4]:
###ここは自分で作成したファイルを指定する###

dir_path="~/LDSC/S_LDSC_tutorial/20241011_tutorial"
gene_list="test_gene_list.txt"

In [5]:
gft_df3=gft_df2[!(duplicated(gft_df2$gene) | duplicated(gft_df2$gene, fromLast = TRUE)),] 

In [6]:
rownames(gft_df3)=gft_df3$gene

In [None]:
##修正20241017 bed_dfファイルにNAが含まれる場合も対応できるようにした
df=read.table(paste0(dir_path,"/", gene_list), header=1)

bed_df=gft_df3[df$gene,] %>% select(c("CHR", "START", "END"))
bed_df_woNA=na.omit(bed_df)
out_f=paste0(dir_path, "/gene_region_v26")
dir.create(out_f)
data_name=strsplit(gene_list, "\\.")
write.table(bed_df_woNA,paste0(out_f, "/", data_name[[1]][1], "_region.bed"),row.names=FALSE,col.names=FALSE, sep="\t", append=F, quote=F)

## output：
#dir_pathフォルダ内のgene_region_v26フォルダに「gene_listの拡張子まで+"_region.bed"」というファイルができている。
#ex. gene_list="gene_name.txt"としたら、"gene_name_region.bed"というファイルができている

In [8]:
library(dplyr)

# 基本設定
dir_path <- "~/LDSC/S_LDSC_tutorial4"
datalist_dir <- "~/work/scRNA-seq/result/mousetohuman2/datalist/"

# gft_df2 データフレームが既に存在している前提で進める
gft_df3 <- gft_df2[!(duplicated(gft_df2$gene) | duplicated(gft_df2$gene, fromLast = TRUE)),] 
rownames(gft_df3) <- gft_df3$gene

# 8つのgenelistを処理するループ
for (i in 0:7) {
  # gene_listファイルを指定
  gene_list <- paste0("gene_list_", i, ".txt")
  
  # gene_listファイルを読み込み
  df <- read.table(paste0(datalist_dir, gene_list), header = TRUE)
  
  # 必要な情報をgft_df3から抽出
  bed_df <- gft_df3[df$gene,] %>% select(c("CHR", "START", "END"))
  
  # NAの行を削除
  bed_df_woNA <- na.omit(bed_df)
  
  # 出力ディレクトリの作成
  out_f <- paste0(dir_path, "/gene_region_v26")
  if (!dir.exists(out_f)) {
    dir.create(out_f)
  }
  
  # 出力ファイル名を設定
  data_name <- strsplit(gene_list, "\\.")
  output_file <- paste0(out_f, "/", data_name[[1]][1], "_region.bed")
  
  # Bedファイルに書き込み
  write.table(bed_df_woNA, output_file, row.names = FALSE, col.names = FALSE, sep = "\t", append = FALSE, quote = FALSE)
  
  cat(output_file, "が作成されました。\n")
}


~/LDSC/S_LDSC_tutorial4/gene_region_v26/gene_list_0_region.bed が作成されました。
~/LDSC/S_LDSC_tutorial4/gene_region_v26/gene_list_1_region.bed が作成されました。
~/LDSC/S_LDSC_tutorial4/gene_region_v26/gene_list_2_region.bed が作成されました。
~/LDSC/S_LDSC_tutorial4/gene_region_v26/gene_list_3_region.bed が作成されました。
~/LDSC/S_LDSC_tutorial4/gene_region_v26/gene_list_4_region.bed が作成されました。
~/LDSC/S_LDSC_tutorial4/gene_region_v26/gene_list_5_region.bed が作成されました。
~/LDSC/S_LDSC_tutorial4/gene_region_v26/gene_list_6_region.bed が作成されました。
~/LDSC/S_LDSC_tutorial4/gene_region_v26/gene_list_7_region.bed が作成されました。


In [None]:
##オプション gene領域の前後100kBを含むように延長する

dir_path="LDSC/S_LDSC_tutorial/20241011_tutorial"
gene_list="test_gene_list.txt"
out_f2=${dir_path}/gene_region_v26_100KB_ext
mkdir ${out_f2}

filename=`echo $gene_list | cut -d "." -f 1`
export PATH=/home/k1_taka/miniconda3/envs/renv/bin:${PATH}
bedtools slop -i ${dir_path}/gene_region_v26/${filename}_region.bed -g /home/k1_taka/reference/chrom.sizes -b 100000 > ${out_f2}/${filename}_region_hg19_ext100Kbp.bed

##output###
#${dir_path}/gene_region_v26_100KB_extファイルに「gene_listの拡張子まで+"_region_hg19_ext100Kbp.bed"」というファイルができる

In [12]:
library(dplyr)

# 基本設定
dir_path <- "~/LDSC/S_LDSC_tutorial4"
datalist_dir <- "~/work/scRNA-seq/result/mousetohuman2/datalist/"

# gft_df2 データフレームが既に存在している前提で進める
gft_df3 <- gft_df2[!(duplicated(gft_df2$gene) | duplicated(gft_df2$gene, fromLast = TRUE)),]
rownames(gft_df3) <- gft_df3$gene

# 8つのgenelistを処理するループ
for (i in 0:7) {
  # gene_listファイルを指定
  gene_list <- paste0("gene_list_", i, ".txt")
  
  # gene_listファイルを読み込み
  df <- read.table(paste0(datalist_dir, gene_list), header = TRUE)
  
  # 必要な情報をgft_df3から抽出
  bed_df <- gft_df3[df$gene,] %>% select(c("CHR", "START", "END"))
  
  # NAの行を削除
  bed_df_woNA <- na.omit(bed_df)
  
  # 出力ディレクトリの作成
  out_f <- paste0(dir_path, "/gene_region_v26")
  if (!dir.exists(out_f)) {
    dir.create(out_f)
  }
  
  # 出力ファイル名を設定
  data_name <- strsplit(gene_list, "\\.")
  output_file <- paste0(out_f, "/", data_name[[1]][1], "_region.bed")
  
  # Bedファイルに書き込み
  write.table(bed_df_woNA, output_file, row.names = FALSE, col.names = FALSE, sep = "\t", append = FALSE, quote = FALSE)
  
  cat(output_file, "が作成されました。\n")
  
  ### 100kB拡張用の処理 ###
  # 100kB拡張の出力ディレクトリ作成
  out_f2 <- paste0(dir_path, "/gene_region_v26_100KB_ext")
  if (!dir.exists(out_f2)) {
    dir.create(out_f2)
  }
  
  # bedtoolsを使って前後100kBを含む領域を拡張
  system(paste0("bedtools slop -i ", output_file,
                " -g /home/k1_taka/reference/chrom.sizes -b 100000 > ",
                out_f2, "/", data_name[[1]][1], "_region_hg19_ext100Kbp.bed"))
  
  cat(out_f2, "/", data_name[[1]][1], "_region_hg19_ext100Kbp.bed が作成されました。\n")
}


~/LDSC/S_LDSC_tutorial4/gene_region_v26/gene_list_0_region.bed が作成されました。
~/LDSC/S_LDSC_tutorial4/gene_region_v26_100KB_ext / gene_list_0 _region_hg19_ext100Kbp.bed が作成されました。
~/LDSC/S_LDSC_tutorial4/gene_region_v26/gene_list_1_region.bed が作成されました。
~/LDSC/S_LDSC_tutorial4/gene_region_v26_100KB_ext / gene_list_1 _region_hg19_ext100Kbp.bed が作成されました。
~/LDSC/S_LDSC_tutorial4/gene_region_v26/gene_list_2_region.bed が作成されました。
~/LDSC/S_LDSC_tutorial4/gene_region_v26_100KB_ext / gene_list_2 _region_hg19_ext100Kbp.bed が作成されました。
~/LDSC/S_LDSC_tutorial4/gene_region_v26/gene_list_3_region.bed が作成されました。
~/LDSC/S_LDSC_tutorial4/gene_region_v26_100KB_ext / gene_list_3 _region_hg19_ext100Kbp.bed が作成されました。
~/LDSC/S_LDSC_tutorial4/gene_region_v26/gene_list_4_region.bed が作成されました。
~/LDSC/S_LDSC_tutorial4/gene_region_v26_100KB_ext / gene_list_4 _region_hg19_ext100Kbp.bed が作成されました。
~/LDSC/S_LDSC_tutorial4/gene_region_v26/gene_list_5_region.bed が作成されました。
~/LDSC/S_LDSC_tutorial4/gene_region_v26_100KB_ext / gene_

In [10]:
system("bedtools --version")

“ 命令の実行中にエラーが起きました ”


In [11]:
# bedtoolsのパスを環境変数に追加
Sys.setenv(PATH = paste("/usr/local/package/bedtools/2.31.1/bin", Sys.getenv("PATH"), sep = ":"))

# 確認のため、bedtoolsのバージョンを取得してみる
system("bedtools --version")


## 参考 gene_region.bedの作り方 (見るだけで実施しなくていいです)
gunzip gencode.v26lift37.annotation.gtf.gz

GTFファイルからtranscript領域の情報のみ取り出し、ENSGで連結させてgene領域を取ってくる
cat gencode.v26lift37.annotation.gtf | awk 'BEGIN{FS=OFS="\t"} $3 == "transcript" {print $0}'>onlytranscript_gencode_v26lift37.gtf
cat onlytranscript_gencode_v26lift37.gtf | grep 'tag \"basic\"' > onlytranscript_gencode_26lift37_tag_basic.gtf
#https://bi.biopapyrus.jp/format/gtf.html#google_vignette
awk 'BEGIN{FS="\t";OFS="\t"}{match($0, /gene_id */);
    pre_g_id_seq = substr($0, RSTART);
    split(pre_g_id_seq,g_id_seq,";");
    g_id = g_id_seq[1];
    gsub("gene_id ","",g_id);
    gsub("\"","",g_id);
    print $1,$4,$5,g_id
  }
' onlytranscript_gencode_26lift37_tag_basic.gtf > gene_transcript_list.gtf
#chr, start, end,ENSG

cat gene_transcript_list.gtf | awk 'BEGIN{FS="\t";OFS="\t"}{print $4}' | sort | uniq > gene_list.txt
gene_list=`less -S gene_list.txt`

rm gene_region.bed
for gene_id in ${gene_list}
do
min_bp=`cat gene_transcript_list.gtf | grep ${gene_id} | awk 'NR==1 {min=$2} {if($2 < min) min = $2} END {print min}'`
max_bp=`cat gene_transcript_list.gtf | grep ${gene_id} | awk 'NR==1 {max=$3} {if($3 > max) max = $3} END {print max}'`
cat gene_transcript_list.gtf | grep ${gene_id} | awk -v min_bp=${min_bp} -v max_bp=${max_bp} 'BEGIN{FS="\t";OFS="\t"}NR==1{print $1, min_bp, max_bp, $4}'>>gene_region.bed
done

In [None]:
## 以降20241017 debug作業内容　読み飛ばし可

In [8]:
df=read.table("/home/oguma/work/seurat/GSE163018/GSM4970298_organoid_H28126_scRNA/marker_gene_list/marker_gene_list_1.txt", header=1)

In [10]:
any(is.na(df)) #gene listにはNAは含まれていない

In [14]:
df$gene

In [11]:
bed_df=gft_df3[df$gene,] %>% select(c("CHR", "START", "END"))

In [12]:
any(is.na(bed_df))　#bedにはNAが含まれる

In [16]:
df$gene[!df$gene %in% rownames(bed_df)]
→検討結果: gtfに含まれないENSEMBL IDがgene_listに含まれる
考察 gtfはhg19で作成したが、gene_listはhg38でversion違いのため、gtfに含まれないgeneがあったのではないか？
対策: bed_dfからNAを除く

In [17]:
bed_df_woNA=na.omit(bed_df)

In [18]:
any(is.na(bed_df_woNA))

In [19]:
dim(bed_df_woNA)

In [20]:
dim(bed_df)  #df$gene[!df$gene %in% rownames(bed_df)]と同じ7行減っていて整合性OK