scripts/SNP-calling.Rmd

---
title: "### SNP-calling"
author: "Ruijuan Li"
date: "5/7/2018"
output: 
  html_document: 
    keep_md: yes
---

### Freebayes SNP calling 
```{r}
# 1) extract uniquely mapped reads 
# samtools view Aligned.sortedByCoord.out.bam | awk '$5 == "255"' > Ae_no_bolting_unique_mapped.sam
# samtools view Aligned.sortedByCoord.out.bam | awk '$5 == "255"' > Ol_no_bolting_unique_mapped.sam

# 2) from sam to bam
# samtools view -bT Brassica_napus_v4.1.chromosomes.fa Ae_no_bolting_unique_mapped.sam > Ae_no_bolting_unique_mapped.bam
# samtools view -bT Brassica_napus_v4.1.chromosomes.fa Ol_no_bolting_unique_mapped.sam > Ol_no_bolting_unique_mapped.bam

# 3) remove PCR duplicate
# samtools rmdup -s Ae_unique_sorted.bam Ae_no_bolting_unique_mapped_rmdup.bam
# samtools rmdup -s Ol_unique_sorted.bam Ol_no_bolting_unique_mapped_rmdup.bam

# 4) index bam file 
# samtools index Ae_no_bolting_unique_mapped_rmdup.bam
# samtools index Ol_no_bolting_unique_mapped_rmdup.bam

# 5) add read group and SNP calling 
# freebayes_v0.9.21-7-g7dd41db -f /share/malooflab/John/KIAT/Reference/Brassica_napus_v4.1.chromosomes.fa Ae_no_bolting_unique_mapped_rmdup.bam --genotype-qualities --dont-left-align-indels > Ae.vcf
# freebayes_v0.9.21-7-g7dd41db -f /share/malooflab/John/KIAT/Reference/Brassica_napus_v4.1.chromosomes.fa Ol_no_bolting_unique_mapped_rmdup.bam --genotype-qualities --dont-left-align-indels > Ol.vcf

# 6) remove sam files 
# rm Ae_no_bolting_unique_mapped.sam
# rm Ol_no_bolting_unique_mapped.sam
```

### GATK SNP calling 
```{r}
# 1) sort 
# samtools sort Ae_no_bolting_unique_mapped.bam -o Ae_unique_sorted.bam
# samtools sort Ol_no_bolting_unique_mapped.bam -o Ol_unique_sorted.bam

# 2) add readgroup 
# picard AddOrReplaceReadGroups I=Ae_unique_sorted.bam O=Ae_unique_sorted_addrg.bam RGID=Ae RGLB=lib1 RGPL=illumina RGPU=unit1 RGSM=Ae
# picard AddOrReplaceReadGroups I=Ol_unique_sorted.bam O=Ol_unique_sorted_addrg.bam RGID=Ol RGLB=lib1 RGPL=illumina RGPU=unit1 RGSM=Ol

# 3) mark PCR duplicate
# picard MarkDuplicates I=Ae_unique_sorted_addrg.bam O=Ae_unique_sorted_addrg_marked_duplicates.bam M=marked_dup_metrics_Ae.txt 
# picard MarkDuplicates I=Ol_unique_sorted_addrg.bam O=Ol_unique_sorted_addrg_marked_duplicates.bam M=marked_dup_metrics_Ol.txt

# 4) index bam file 
# samtools index Ae_unique_sorted_addrg_marked_duplicates.bam
# samtools index Ol_unique_sorted_addrg_marked_duplicates.bam

# 5) create fastq sequence dictionary file (only need to do once, under the ref fa file folder) 
# picard CreateSequenceDictionary R=Brassica_napus_v4.1.chromosomes.fa O=Brassica_napus_v4.1.chromosomes.dict

# 6) split 'N' trim (visualize bam alignment before & after alignment in IGV)
# GATK -T SplitNCigarReads -R Brassica_napus_v4.1.chromosomes.fa -I Ae_unique_sorted_addrg_marked_duplicates.bam -o Ae_unique_sorted_addrg_marked_duplicates_split.bam -rf ReassignOneMappingQuality -RMQF 255 -RMQT 60 -U ALLOW_N_CIGAR_READS
# GATK -T SplitNCigarReads -R Brassica_napus_v4.1.chromosomes.fa -I Ol_unique_sorted_addrg_marked_duplicates.bam -o Ol_unique_sorted_addrg_marked_duplicates_split.bam -rf ReassignOneMappingQuality -RMQF 255 -RMQT 60 -U ALLOW_N_CIGAR_READS 

# 7) determine suspicious intervals which are likely in need of realignment 
# GATK -T RealignerTargetCreator -R Brassica_napus_v4.1.chromosomes.fa -I Ae_unique_sorted_addrg_marked_duplicates_split.bam -o Ae_forIndelRealigner.intervals
# GATK -T RealignerTargetCreator -R Brassica_napus_v4.1.chromosomes.fa -I Ol_unique_sorted_addrg_marked_duplicates_split.bam -o Ol_forIndelRealigner.intervals

# 8) running realigner over those intervals 
# GATK -T IndelRealigner -R Brassica_napus_v4.1.chromosomes.fa -I Ae_unique_sorted_addrg_marked_duplicates_split.bam -targetIntervals Ae_forIndelRealigner.intervals -o Ae_realignedBam.bam 
# GATK -T IndelRealigner -R Brassica_napus_v4.1.chromosomes.fa -I Ol_unique_sorted_addrg_marked_duplicates_split.bam -targetIntervals Ol_forIndelRealigner.intervals -o Ol_realignedBam.bam
 
# 9) variant calling through slurm schedular using script https://github.com/MaloofLab/Li-eQTL-2018/blob/master/scripts/SNP_calling_GATK.slurm
```

### SNP filtering for Freebayes output 
```{r}
library(boxr) # need to put data to box for loading 
source("~/Desktop/F2_paper/submission/Li-eQTL-2018/scripts/helper.R")

# use Da-Ae as an example for SNP filtering from Freebayes  
vcf.freebayes.Ae <- read.table("~/Desktop/Brassica_project/KIAT_RNA_seq/parent_SNP/data/freebayes/as_diploid/no_bolting_unique_mapped/Ae_SNP_biallelic.recode.vcf",as.is=T,na.strings = ".:.:.:.:.:.:.") 

vcf.header.freebayes.Ae <- system("grep '#C' ~/Desktop/Brassica_project/KIAT_RNA_seq/parent_SNP/data/freebayes/as_diploid/no_bolting_unique_mapped/Ae_SNP_biallelic.recode.vcf",intern = TRUE) 
vcf.header.freebayes.Ae <- sub("#","",vcf.header.freebayes.Ae) 
vcf.header.freebayes.Ae <- unlist(strsplit(vcf.header.freebayes.Ae,split="\t"))

vcf.freebayes.reform.Ae <- SNP.freebayes.reformat.Ae(vcf.freebayes.Ae, vcf.header.freebayes.Ae)

# QUAL > 40 
vcf.freebayes.HQ.Ae <- vcf.freebayes.reform.Ae[vcf.freebayes.reform.Ae$QUAL>40,] 

# 10 < depth < 1000
vcf.freebayes.HQ.1.Ae <- vcf.freebayes.HQ.Ae[(!is.na(vcf.freebayes.HQ.Ae$Ae_tot.depth) & 
                              vcf.freebayes.HQ.Ae$Ae_tot.depth > 10 & 
                              vcf.freebayes.HQ.Ae$Ae_tot.depth < 1000),]

tmp.list <- strsplit(vcf.freebayes.HQ.1.Ae$INFO,split = ";")

for (i in 1:length(tmp.list)){
    tmp.list[[i]] <- tmp.list[[i]][c(1:41)] 
}

info <- matrix(
  unlist(tmp.list),
  nrow=nrow(vcf.freebayes.HQ.1.Ae),  
  byrow=TRUE
  )

colnames(info) <- c("AB","ABP","AC","AF","AN","AO","CIGAR","DP","DPB","DPRA","EPP","EPPR","GTI","LEN","MEANALT",
                    "MQM","MQMR","NS","NUMALT","ODDS","PAIRED","PAIREDR","PAO","PQA","PQR","PRO","QA","QR","RO",
                    "RPL","RPP","RPPR","RPR","RUN","SAF","SAP","SAR","SRF","SRP","SRR","TYPE")

for (i in 1:ncol(info)){
  info[,i] <- gsub("([[:print:]]+)(=)([[:print:]])","\\3",info[,i])
}

vcf.freebayes.HQ.1.Ae <- cbind(vcf.freebayes.HQ.1.Ae,info,stringsAsFactors=FALSE)

# tail bias 
vcf.freebayes.HQ.1.reform.Ae <- vcf.freebayes.HQ.1.Ae
vcf.freebayes.HQ.1.reform.Ae$RPR <- as.numeric(vcf.freebayes.HQ.1.reform.Ae$RPR)
vcf.freebayes.HQ.1.reform.Ae$RPL <- as.numeric(vcf.freebayes.HQ.1.reform.Ae$RPL)

vcf.freebayes.HQ.1.reform.Ae$MBR <- round(pmin(vcf.freebayes.HQ.1.reform.Ae$RPR, vcf.freebayes.HQ.1.reform.Ae$RPL)/(vcf.freebayes.HQ.1.reform.Ae$RPR + vcf.freebayes.HQ.1.reform.Ae$RPL), digits = 2) vcf.freebayes.HQ.2.tmp.Ae <- vcf.freebayes.HQ.1.reform.Ae

vcf.freebayes.HQ.2.test1.Ae <- 
vcf.freebayes.HQ.2.tmp.Ae[(vcf.freebayes.HQ.2.tmp.Ae$MBR>0.01),] 

# do the same analysis for Da-Ol-1 data, output file is vcf.freebayes.HQ.2.test1.Ol 

# combine Da-Ae and Da-Ol-1 filtered vcf data 
load("~/Desktop/Brassica_project/KIAT_RNA_seq/parent_SNP/data/freebayes/vcf.freebayes.HQ.2.test1.Ae")
load("~/Desktop/Brassica_project/KIAT_RNA_seq/parent_SNP/data/freebayes/vcf.freebayes.HQ.2.test1.Ol")

Ae <- vcf.freebayes.HQ.2.test1.Ae[,c("CHROM", "POS", "REF", "ALT", "Ae_gt")]
Ol <- vcf.freebayes.HQ.2.test1.Ol[,c("CHROM", "POS", "REF", "ALT", "Ol_gt")]

Ae$feature <- paste(Ae$CHROM, Ae$POS, Ae$REF, Ae$ALT, sep = "_")
Ol$feature <- paste(Ol$CHROM, Ol$POS, Ol$REF, Ol$ALT, sep = "_")

freebayes_result <- merge(Ae, Ol, by="feature", all=T)

freebayes_result_reform <- freebayes_result[,c("feature", "Ae_gt", "Ol_gt")]
freebayes_result_reform$Ae_gt <- gsub("NA", "1/1", freebayes_result_reform$Ae_gt)
freebayes_result_reform[is.na(freebayes_result_reform$Ae_gt)] <- "0/0"

freebayes_result_reform[which(is.na(freebayes_result_reform$Ae_gt)),]$Ae_gt <- "0/0"
freebayes_result_reform[which(is.na(freebayes_result_reform$Ol_gt)),]$Ol_gt <- "0/0"

freebayes_result_1 <- freebayes_result_reform[freebayes_result_reform$Ae_gt!=freebayes_result_reform$Ol_gt & freebayes_result_reform$Ae_gt!="0/1" & freebayes_result_reform$Ol_gt!="0/1",]  
```

### SNP filtering for GATK output 
```{r}
SNP.GATK.basic.filter <- function(vcf){
  # filter based on snpcluster 
  vcf.pass <- vcf[vcf$FILTER!="SnpCluster",]
  snpcluster.pass.ratio <- nrow(vcf.pass)/nrow(vcf)
  
  # filter based on QUAL score 
  vcf.HQ <- vcf.pass[vcf.pass$QUAL>40,]
  QUAL.40.pass.ratio <- nrow(vcf.HQ) / nrow(vcf.pass) 
  Ae.gt.matrix <- table(vcf.HQ$Ae_gt)
  Ol.gt.matrix <- table(vcf.HQ$Ol_gt)   
  
  cat("the percentage of SNPs that are not in snpcluster:", snpcluster.pass.ratio, "\n")
  cat("The percentage of SNPs with QUAL > 40:", QUAL.40.pass.ratio, "\n")
  cat("genotyping call matrix for Ae:", "\n")
  print(Ae.gt.matrix)
  cat("genotyping call matrix for Ol:", "\n") 
  print(Ol.gt.matrix)
  
  return(vcf.HQ)
}

vcf.GATK <- read.table("~/Desktop/Brassica_project/KIAT_RNA_seq/parent_SNP/data/GATK/as_diploid/no_bolting/GATK_SNP_biallelic.recode.ann.vcf",as.is=T,na.strings = ".") 

vcf.header.GATK <- system("grep '#C' ~/Desktop/Brassica_project/KIAT_RNA_seq/parent_SNP/data/GATK/as_diploid/no_bolting/GATK_SNP_biallelic.recode.ann.vcf",intern = TRUE) 
vcf.header.GATK <- sub("#","",vcf.header.GATK) 
vcf.header.GATK <- unlist(strsplit(vcf.header.GATK,split="\t"))

vcf.GATK.reform <- SNP.GATK.reformat(vcf.GATK, vcf.header.GATK)

vcf.GATK.HQ <- SNP.GATK.basic.filter(vcf.GATK.reform)

# depth 
vcf.GATK.HQ.1 <- vcf.GATK.HQ[(!is.na(vcf.GATK.HQ$Ae_approx.depth) & 
                              !is.na(vcf.GATK.HQ$Ol_approx.depth) & 
                              vcf.GATK.HQ$Ae_approx.depth > 10 & 
                              vcf.GATK.HQ$Ol_approx.depth > 10 & 
                              vcf.GATK.HQ$Ae_approx.depth < 1000 & 
                              vcf.GATK.HQ$Ol_approx.depth < 1000),]  

# genotype quality 
vcf.GATK.HQ.2 <- vcf.GATK.HQ.1[(!is.na(vcf.GATK.HQ.1$Ae_genotype.qual) &
                                !is.na(vcf.GATK.HQ.1$Ae_genotype.qual) & 
                                vcf.GATK.HQ.1$Ae_genotype.qual > 30 & 
                                vcf.GATK.HQ.1$Ol_genotype.qual > 30),]

vcf.tmp <- vcf.GATK.HQ.2

# subset SNPs between Ae & Ol 
vcf.Ae.Ol.GATK <- vcf.tmp[((vcf.tmp$Ae_gt=="1/1" & vcf.tmp$Ol_gt=="0/0") | (vcf.tmp$Ae_gt=="0/0" & vcf.tmp$Ol_gt=="1/1")),]  
```

### get intersection between freebayes and GATK output  
```{r}
load("~/Desktop/Brassica_project/KIAT_RNA_seq/parent_SNP/data/freebayes/freebayes_result_1.Rdata")
load("~/Desktop/Brassica_project/KIAT_RNA_seq/parent_SNP/output/vcf.Ae.Ol.GATK.Rdata") 

freebayes_result_1$CHROM <- gsub("([[:print:]]+)(_)([[:print:]]+)(_)([[:print:]]+)(_)([[:print:]])", "\\1", freebayes_result_1$feature)
freebayes_result_1$POS <- gsub("([[:print:]]+)(_)([[:print:]]+)(_)([[:print:]]+)(_)([[:print:]])", "\\3", freebayes_result_1$feature)
freebayes_result_1$REF <- gsub("([[:print:]]+)(_)([[:print:]]+)(_)([[:print:]]+)(_)([[:print:]])", "\\5", freebayes_result_1$feature)
freebayes_result_1$ALT <- gsub("([[:print:]]+)(_)([[:print:]]+)(_)([[:print:]]+)(_)([[:print:]])", "\\7", freebayes_result_1$feature)

vcf.Ae.Ol.freebayes.tmp <- freebayes_result_1
vcf.Ae.Ol.GATK.tmp <- vcf.Ae.Ol.GATK

# goal: get intersections where there SNP calls for both Da-Ae & Da-Ol-1 are the same. 
vcf.freebayes <- paste(vcf.Ae.Ol.freebayes.tmp$CHROM, vcf.Ae.Ol.freebayes.tmp$POS, 
                       vcf.Ae.Ol.freebayes.tmp$REF, vcf.Ae.Ol.freebayes.tmp$ALT,
                       vcf.Ae.Ol.freebayes.tmp$Ae_gt, vcf.Ae.Ol.freebayes.tmp$Ol_gt, 
                       sep = "_")

vcf.GATK <- paste(vcf.Ae.Ol.GATK.tmp$CHROM, vcf.Ae.Ol.GATK.tmp$POS, 
                  vcf.Ae.Ol.GATK.tmp$REF, vcf.Ae.Ol.GATK.tmp$ALT,
                  vcf.Ae.Ol.GATK.tmp$Ae_gt, vcf.Ae.Ol.GATK.tmp$Ol_gt,
                  sep = "_")  

vcf.Ae.Ol.intersect.2 <- intersect(vcf.freebayes, vcf.GATK)
length(vcf.Ae.Ol.intersect.2) # 63981 same SNP positions between freebayes & GATK   
```

### SNP annotation using snpEff
```{r}
# 1) build database for B.napus
# download snpEff databse, unzip 
# mkdir data 
# cd data 
# mkdir napus 
# cd napus  
# use the gff3 file in 
# /Network/Servers/avalanche.plb.ucdavis.edu/Volumes/Mammoth/Users/ruijuanli/Reference/B.napus/Brassica_napus.annotation_v5_modified_modified.gff3 (modified gff3 file)
# mv Brassica_napus.annotation_v5_modified_modified.gff3 genes.gff 
# wget ftp://bradata:zhl410ivf@brassicadb.org/Brassica_napus/Brassica_napus_v4.1.chromosomes.fa.gz
# mv Brassica_napus_v4.1.chromosomes.fa.gz sequences.fa.gz 
# gunzip *.gz
# cd ..
# mkdir genomes  
# cd genomes/ 
# wget ftp://bradata:zhl410ivf@brassicadb.org/Brassica_napus/Brassica_napus_v4.1.chromosomes.fa.gz
# mv Brassica_napus_v4.1.chromosomes.fa.gz sequences.fa.gz 
# gunzip sequences.fa.gz
# cd ..  (to snpEff home directory)
# vim snpEff.config #### 
# add "# Brassica napus genome  napus.genome: Brassica_napus" 
# java -jar snpEff.jar build -gff3 -v napus 

# 2) SNP annotation  
# cd cd ~/bin/snpEff/
# java -jar snpEff.jar napus SNP_biallelic.recode.vcf > SNP_biallelic.recode.ann.vcf 
```

### circos plot  
```{r}
library(circlize)

setEPS() 
postscript(file = "../output/density.eps", width=5.7, height=5.7)
par(mai = c(0.4, 0.4, 0.4, 0.4), ps = 8, cex = 1, cex.main = 1, cex.axis = 0.8, tcl = -0.3) 

# add SNP data for the marker, cytoband format 
F2_map <- read.csv("../input/LG.f2.madmapper.final.flipped_gen_C05C08.csv_gen.csv")
F2_map$chrom <- F2_map$X
F2_map$start <- gsub("(chr)(A|C)(01|02|03|04|05|06|07|08|09|10)(_)([[:print:]]+)", "\\5", F2_map$id) %>% as.numeric()

F2_map_cytoband <- data.frame(V1 = F2_map$chrom, 
                              V2 = F2_map$start,
                              V3 = F2_map$start + 100000, 
                              V4 = F2_map$id, 
                              V5 = c("stalk"))

circos.initializeWithIdeogram(F2_map_cytoband)    

# data 
# add SNP data 
vcf.Ae.Ol.intersect.df.2.sorted <-  read.csv("../input/vcf.Ae.Ol.intersect.df.2.csv")
vcf.Ae.Ol.intersect.df.2.sorted$CHROM <- gsub("chr","",vcf.Ae.Ol.intersect.df.2.sorted$CHROM)
dim(vcf.Ae.Ol.intersect.df.2.sorted)  #  62958     9 

circos.trackHist(factors = vcf.Ae.Ol.intersect.df.2.sorted$CHROM, x = vcf.Ae.Ol.intersect.df.2.sorted$POS, bin.size = 1000000, col = "blue", border = NA, bg.col = "#EFEFEF")  

gff.mRNA <- read.table("../input/gff.mRNA")
colnames(gff.mRNA) <- c("chrom", "start", "end", "gene_ID")
gff.mRNA$subgenome <- gsub("(chr)(A|C)(01|02|03|04|05|06|07|08|09|10)", "\\2", gff.mRNA$chrom)

gff.mRNA.main <- gff.mRNA[grep("random", gff.mRNA$chrom, invert = T),]
gff.mRNA.main$chrom <- gsub("(chr)(A|C)(01|02|03|04|05|06|07|08|09|10)", "\\3", gff.mRNA.main$chrom)
dim(gff.mRNA.main)  

gff.mRNA.main$chrom <- paste(gff.mRNA.main$subgenome, gff.mRNA.main$chrom, sep = "")

circos.trackHist(factors = gff.mRNA.main$chrom, x = gff.mRNA.main$start, bin.size = 1000000, 
    col = "orange", border = NA, bg.col = "#EFEFEF") 

dev.off()     
```