/
5.0.BWA_samtools.sh
270 lines (208 loc) · 7.32 KB
/
5.0.BWA_samtools.sh
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
76
77
78
79
80
81
82
83
84
85
86
87
88
89
90
91
92
93
94
95
96
97
98
99
100
101
102
103
104
105
106
107
108
109
110
111
112
113
114
115
116
117
118
119
120
121
122
123
124
125
126
127
128
129
130
131
132
133
134
135
136
137
138
139
140
141
142
143
144
145
146
147
148
149
150
151
152
153
154
155
156
157
158
159
160
161
162
163
164
165
166
167
168
169
170
171
172
173
174
175
176
177
178
179
180
181
182
183
184
185
186
187
188
189
190
191
192
193
194
195
196
197
198
199
200
201
202
203
204
205
206
207
208
209
210
211
212
213
214
215
216
217
218
219
220
221
222
223
224
225
226
227
228
229
230
231
232
233
234
235
236
237
238
239
240
241
242
243
244
245
246
247
248
249
250
251
252
253
254
255
256
257
258
259
260
261
262
263
264
265
266
267
268
269
270
#!/bin/bash
# mlasserre[at]pasteur[dot]edu[dot]uy
# help: automated BWA alignment for paired end reads & samtools coversion to bam
if [ -z "$1" ]
then
echo "
Automated BWA alignment & samtools conversion, filtering out potential human contaminated reads.
(Optimized version to handle size limits)
--------------- HELP ------------------
It uses:
- BWA (bwa aln -l 15 -k 3 && bwa sampe). For BWA, version 0.7.12-r1039
- Samtools, version 0.1.18 (r982:295)
Usage: bash <pathtoBWA_samtools.sh> <1:configFile.conf> <2:pathtoReferenceToMapIn> <3:pathtoReferenceToMapOut_INDEX>
2 - The second parameter should be the path for the reference genome file if the genome hasn't been indexed, OR
the FOLDER for the previously indexed genome, to save from the process of indexing again.
NOTE: for M bovis, this is in Tb73 strain, so the only option for you to have an index is if it's in Tb73
3 - Parameter 3 is a directory too, not the actual index file
WARNING:
-Complete paths please
-fastq files must have extension .fastq (not .fq)
-fastqFolders must be named identical to the fastqFiles
configFile example:
<path_to_folder1>
<path_to_folder2>
...
<path_to_folderN>
"
else
if [ -z $3 ]
then
echo "Es necesario agregar el path del index del genoma de referencia humano para eliminar estos reads."
exit
fi
if [ -z "$2" ]
then
echo "Es necesario agregar el path del genoma de referencia con el cual mapear."
exit
else
if [ ! -d $2 -a ! -f $2 ]
then
echo "El 2do parametro debe ser un archivo o un directorio"
exit
else
current=$(pwd)
ite=0
while read i;
do
linea=( $i )
ite=$((ite + 1))
## hay solo un item que necesito aca, pero por las dudas tomo el primero siempre
path=${linea[0]}
cd $path
current2=$(pwd)
cepa=$(basename $path)
fastq1=$(echo $path/*_1.fastq)
fastq2=$(echo $path/*_2.fastq)
#---------------------------------------- 1: BWA -----------------------------------------
# $1=configfile.conf $2=referenciaMapIn
echo "
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::
:::::::::::::::::::::::: Cepa $cepa :::::::::::::::::::::::::
::::::::::::::::::::::::::::::::::::::::::::::::::::::::::::"
## alineamiento contra $3
mkdir -p 1.BWA.alineamiento
cd 1.BWA.alineamiento
pathIndex=$3
echo $3
echo "
-----------------------
[BWA]Mapeando reads contra referencia $(basename $3) ...
-----------------------"
echo "[BWA]Alineando Reads 1..."
bwa aln -l 15 -k 3 $pathIndex/HumanRef.Index $fastq1 > Human.$cepa.R1.sai
echo "[BWA]Alineando Reads 2..."
bwa aln -l 15 -k 3 $pathIndex/HumanRef.Index $fastq2 > Human.$cepa.R2.sai
bwa sampe $pathIndex/HumanRef.Index Human.$cepa.R1.sai Human.$cepa.R2.sai $fastq1 $fastq2 > Human.alineamiento.$cepa.sam
echo "-----------------------
[BWA]Alineamiento culminado.
-----------------------
"
#---------------------------------------- 2: Samtools -----------------------------------------
echo "-----------------------
[Samtools]Creando archivo bam...
-----------------------"
#terminar de indentar...!!! :(
samtools view -bS Human.alineamiento.$cepa.sam > Human.alineamiento.$cepa.bam
samtools sort -n Human.alineamiento.$cepa.bam Human.alineamiento.$cepa.sort
samtools index Human.alineamiento.$cepa.sort.bam
samtools flagstat Human.alineamiento.$cepa.sort.bam
cd ..
echo "
-----------------------
[Samtools]Guardando reads que NO mapearon a referencia humano...
-----------------------"
mkdir -p 2.samtoolsFilter
cd 2.samtoolsFilter
### cambio de 4 a 12
samtools view -bh -f 12 ../1.BWA.alineamiento/Human.alineamiento.$cepa.sort.bam > NONmappedonesToHuman.$cepa.bam
readsFilt="$(samtools view -c NONmappedonesToHuman.$cepa.bam)"
######## verifico que me haya filtrado bien. Si filtró mal, me salgo del script #######
echo $readsFilt
echo "
-----------------------
[Bedtools]Transformando bam no mapeados a fastq...
-----------------------
"
bamToFastq -i NONmappedonesToHuman.$cepa.bam -fq NONmappedonesToHuman.${cepa}_1.fastq -fq2 NONmappedonesToHuman.${cepa}_2.fastq
## guardo los nuevos fastq resultantes
nameFQ1=$(echo $(ls *_1.fastq))
nameFQ2=$(echo $(ls *_2.fastq))
#fastq1=$(echo $(pwd)/$nameFQ1)
#fastq2=$(echo $(pwd)/$nameFQ2)
current2=$(pwd)
cd ../1.BWA.alineamiento
if [ $ite -eq 1 ]
then
echo "
-----------------------
[BWA]Generando índice de genoma referencia $(basename $2) ...
-----------------------"
# if $2 is a file
if [ -d $2 ]
then
pathIndexBovis=$2
echo $pathIndexBovis
#si el archivo es el genoma mismo, calculo el index
elif [ -f $2 ]
then
pathIndexBovis=$(pwd)
echo $pathIndexBovis
bwa index -p Bovis.Index $2
else
echo "Your second parameter isn't neither a file nor a directory path"
exit
fi
fi
echo "
-----------------------
[BWA]Mapeando reads a genoma de referencia $(basename $2)...
-----------------------"
echo "
[BWA]Alineando Reads 1..."
bwa aln -l 15 -k 3 $pathIndexBovis/Bovis.Tb73.Index ../2.samtoolsFilter/$nameFQ1 > $cepa.R1.sai
echo "[BWA]Alineando Reads 2..."
bwa aln -l 15 -k 3 $pathIndexBovis/Bovis.Tb73.Index ../2.samtoolsFilter/$nameFQ2 > $cepa.R2.sai
bwa sampe $pathIndexBovis/Bovis.Tb73.Index $cepa.R1.sai $cepa.R2.sai ../2.samtoolsFilter/$nameFQ1 ../2.samtoolsFilter/$nameFQ2 > alineamiento.$cepa.sam
echo "-----------------------
[BWA]Alineamiento contra $(basename $2) culminado.
-----------------------
"
#---------------------------------------- 2: Samtools -----------------------------------------
echo "-----------------------
[Samtools]Creando archivo bam...
-----------------------"
samtools view -bS alineamiento.$cepa.sam > alineamiento.$cepa.bam
samtools sort -n alineamiento.$cepa.bam alineamiento.$cepa.sortN
samtools sort alineamiento.$cepa.bam alineamiento.$cepa.sort
samtools index alineamiento.$cepa.sort.bam
samtools flagstat alineamiento.$cepa.sort.bam
# 7249440 + 0 in total (QC-passed reads + QC-failed reads)
# 0 + 0 duplicates
# 4843901 + 0 mapped (66.82%:-nan%)
# 7249440 + 0 paired in sequencing
# 3624720 + 0 read1
# 3624720 + 0 read2
# 4371752 + 0 properly paired (60.30%:-nan%)
# 4780668 + 0 with itself and mate mapped
# 63233 + 0 singletons (0.87%:-nan%)
# 0 + 0 with mate mapped to a different chr
# 0 + 0 with mate mapped to a different chr (mapQ>=5)
## EXTRAER DEL BAM DE BWA LAS SECUENCIAS QUE SOLO ALINEARON DE A PARES EN EL GENOMA DE REFERENCIA
echo "
-----------------------
[Samtools]Guardando reads que mapearon a referencia...
-----------------------"
mkdir -p ../2.samtoolsFilter
cd ../2.samtoolsFilter
reads="$(samtools view -c ../1.BWA.alineamiento/alineamiento.$cepa.sort.bam)"
samtools view -bh -F 12 ../1.BWA.alineamiento/alineamiento.$cepa.sort.bam > onlymappedones.$cepa.bam
readsFilt="$(samtools view -c onlymappedones.$cepa.bam)"
echo -e "Número de reads totales: " $reads "\nNúmero de reads filtrados: " $readsFilt
echo -e "$readsFilt / $reads" | bc -l
## BAM TO FASTQ
# voy a hacer bam to fastq porque velvet pide fastq (tambien acepta fasta, pero por las dudas) Y el SPADES también
echo "
-----------------------
[Bedtools]Transformando bam a fastq...
-----------------------
"
bamToFastq -i onlymappedones.$cepa.bam -fq onlymappedones.$cepa.fastq
echo "
-----------------------
1.BWA.Alineamiento: Comprimiendo sam y sai que no se van a utilizar...
-----------------------
"
cd ../1.BWA.alineamiento
tar cvzf alineamientos.sam.tar *.sam *.sai
rm *.sam
rm *.sai
cd ../..
echo "
----------------------- Cepa $cepa finalizada -----------------------
"
done < $1
cd $current
fi
fi
fi