#/data021/GIF/remkv6/Baum/CamTechGenomeComparison/09_contamination/blast/mitochondria Andrew thought that this scaffold was most likely the mitochondrial scaffold, but it was ~224kb, about 10x the size it should be.
I cut and pasted a subsection of this scaffold into an online blast and the first hit was H. glycines mitochondria.
#I cut and pasted this fasta sequence to a file
vi HGmitochondria
# I then used cdbyank to extract scaffold 000114F from the complete 2692 genome.
ln -s ../genome.2692.contaminated.fa
module load cdbfasta
cdbfasta genome.2692.contaminated.fa
makeblastdb -in 000114F -dbtype nucl -out
#put scaffold name in the list file
vi list
#extracted the seq
cat list|cdbyank genome.2692.contaminated.fa.cidx -o 000114F.fa
#made blast database
makeblastdb -in 000114F.fa -dbtype nucl -out 000114F.blastdb
#blast parameters
blastn -query HGmitochondria -outfmt 6 -db 000114F.blastdb -out HGmitoTo000114F.blast.out
#This give a distinct high quality alignment of ~10 mitochondrial genomes that have been concatenated in the assembly.
less HGmitoTo000114F.blast.out |sort -k 9,9 -V|awk '$12>500'>mito.alignment
Scaffold 000114F is a mitochondrial scaffold indeed, but many that have been assembled together. Multiple possiblities here. A single mitchondrial sequence can be extracted and be done. Or a phylogenetic comparison can be made from the ~10 that are there to asses the mitochondrial diversity in a single SCN population.
Andrew has requested that I extract the mitochondrial scaffold from the polished assembly, and to obtain the best representation of it through comparisons to the previously published sequence.
#softlinked polished genome
ln -s /data021/GIF/remkv6/Baum/CamTechGenomeComparison/09_contamination/blast/mitochondria/HGmitochondria HGmitochondria.fa
#Getting alignment coordinates
blastn -query HGmitochondria.fa -db /data021/GIF/remkv6/Baum/CamTechGenomeComparison/09_contamination/blast/mitochondria/000114F.blastdb -outfmt 6 -out HGto000114.blast.out
Extracted all sequences that came close to aligning to the full length of the published SCN mitochondrial genome.
This sequence: GenBank: HM640930.1
samtools faidx 000114.fa 000114\|quiver:68145-81929
samtools faidx 000114.fa 000114\|quiver:160138-173922
samtools faidx 000114.fa 000114\|quiver:228764-242537
samtools faidx 000114.fa 000114\|quiver:22155-35907
samtools faidx 000114.fa 000114\|quiver:182749-196526
samtools faidx 000114.fa 000114\|quiver:91173-104948
samtools faidx 000114.fa 000114\|quiver:205736-219495
samtools faidx 000114.fa 000114\|quiver:45170-58850
samtools faidx 000114.fa 000114\|quiver:251656-265475
samtools faidx 000114.fa 000114\|quiver:137355-151197
samtools faidx 000114.fa 000114\|quiver:1-12923
Sequences were manually adjusted to get the correct orientation of alignment. Then multiple alignment was peformed with muscle.
muscle -in mitostrandright.fa -out mitochondria.aln.fa
Gaps from sequencing error and nonoverlapping edges were trimmed.
A maximum likelihood tree was made in Bioedit with 1000 bootstraps.
Since the contigs extracted from 000114 were not annotating correctly, I decided to extract the p reads that were used in the assembly. The genome was now polished, so I used a different 000114 sequence than the previous two experiments.
#softlink pertinent files
ln -s /data021/GIF/severin/Baum/25_Quiver_genome738/genome738sl.polished.fasta
ln -s /data021/GIF/severin/Baum/04_Falcon/at3/1-preads_ovl/preads4falcon.fasta
Module load cdbfasta
cdbfasta genome738sl.polished.fasta
cdbyank genome738sl.polished.fasta.cidx -a 000114 -o 000114.fa
##Blasting 000114 to preads
#!/bin/bash
#PBS -l nodes=1:ppn=16
#PBS -l walltime=4:00:00
#PBS -N preadblast
#PBS -o ${PBS_JOBNAME}.o${PBS_JOBID} -e ${PBS_JOBNAME}.e${PBS_JOBID}
cd $PBS_O_WORKDIR
ulimit -s unlimited
module use /shared/software/GIF/modules
module load parallel
module load ncbi-blast
blastn -db preads.blastdb -task megablast -query 000114.fa -outfmt 6 -num_threads 16 -out 000114ToPreads.blast.out
# in case you need stats after job completion retain this as last line
ssh condo "qstat -f ${PBS_JOBID} |head"
cdbfasta preads4falcon.fasta
less 000114ToPreads.blast.out |awk '$12>40000 {print $2}' |sort|uniq|cdbyank preads4falcon.fasta.cidx -o preads.4.muscle
#I aligned these with muscle, and found out they were opposite strands. I made reverse complements in bioedit.
module load muscle
muscle -in preads.4.muscle -out test (deleted this file)
#pasted in the new sequences.
vi preadsbothsense.4.muscle.fa
#muscle would no longer align the sequences without a segmentation fault, so clustalw was used.
module load LAS/clustalw/2.1
clustalw retest
mv retest.fa AlignmentRawPreadsClustalW.fa
mv retest.dnd AlignmentRawPreadsClustalW.dnd
mv retest.aln AlignmentRawPreadsClustalW.aln
Made a tree with DNAml DNA Maximum liklihood method in bioedit with 1000 bootstraps. Only Total alignment length 3984bp for 17.
(((222818:0.00004,(252874:0.00004,(((((053248:0.00004,
173260:0.00004):0.00004,322144:0.00004):0.00004,
((042966:0.00024,264906:0.00004):0.00004,((280396:0.00020,
322148:0.00004):0.00004,(112708:0.00004,280820:0.00013):0.00013):0.00004):0.00004):0.00004,
024091:0.00049):0.00004,(261038:0.00127,160407:0.00004):0.00050):0.00004):0.00004):0.00045,
224883:0.00075):0.00004,219030:0.00004,296912:0.00004);
Most the gaps were removed here and the main variation was snps(usually apomorphic). There were a few deletion tracts that were interesting.
Ran cap3 on bioedit as internet was down.
Submitted this for annotation with Mitos under the invertebrate mitochondrial code.
This scaffold was 41kb, and had overlapping sections, probably an artifact from the circular nature of the mitochondrial genome. There were two genes missing from this annotation that are notpresent in the scaffold
In the whole scaffold (000114F)these genes are present:
awk '{print $1}' annotation.wholescaffold.tab|sed 's/-.*//g'|sort|uniq -c
16 atp6
1 atp8
14 cob
14 cox1
13 cox2
11 cox3
11 nad1
4 nad2
10 nad3
12 nad4
10 nad4l
16 nad5
37 nad6
1 rrnL
1 trnC(gca)
1 trnD(gtc)
1 trnG(tcc)
1 trnV(tac)
extracting missing sequences
Performed online blasts to determine the overlapping regions and then aligned with clustal w in bioedit. These positions were extracted from the cap3contig from the P reads. I first deleted position 37368-41445, and then deleted 1-14340. This left a mitochondrial scaffold of 23,027bp
cdbyank ../000114.fa.cidx -R -a '000114quiver 184731 184868' -o atp8.fa
cdbyank ../000114.fa.cidx -R -a '000114quiver 58464 58517' -o trnD.fa
Aligned these sequences to the 22kb mitochondrial contig. The difference in gene calls for ATP8 were due to 1 additional A in a string of A's at 10086. I added an A to the mito contig The difference for trnD.fa was that two additional A's were present in the mitochondrial contig, so I removed those.
Now the mitochondrial scaffold is 23,026bp.
Final Mitochondrial sequence
atp8trnDadded
TAATTAAATTATTAAAGTAGCCTGTCAACTATAAAGAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTTAAAGTATCAAGTATTTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATAAAGAAATAATTAAATTTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCGGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTAGCCTGTCAACTATAATAATTTAATTATTAAAGTATCCTGTCAACTATAAAGAAATAATTTAATTATTAAAGTATCCTGTCAACTATAAAGAAATAATTTAATTATTAAAGTAGCCTGCCAACTATTAATTAAATTATTAAAGTAGCCTGTCAACTATAATAATTTAATTATTAAAGTATCCTGTCAACTATAAAGAAATAATTTAATTATTAAAGTATCCTGTCAACTATAAAGAAATAATTTAATTATTAAAGTATATTAAAGTATCCTGTCAACTATAAAAAAATAATTTAATTATTAAAGTAGCCTGTCAACTATAATAATTTAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATAAAGAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAAATATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTAGCCTGCCAACTATTAATTAAATTATTAAAGTAGCCTGTCAACTATAATAATTTAATTATTAAAGTATCCTGTCAACTATAAAGAAATAATTTAATTATTAAAGTATCCTGTCAACTATAAAGAAATAATTAAATTATTAAAGTAGCCTGCCAACTATTAATTAAATTATTAAAGTGCCTGCCAACTATTAATTTAATTATTAAAGTATCCTGTCAACTATAAAGAAATAATTTAATTATTAAAGTATCCTGTCAACTATAAAGAAATAATTTAATTATTAAAGTATATTAAAGTATCCTGTCAACTATTAATTAAATTATTAAAGTAGCCTGTCAACTATTAATTAAATTATTAAAGTAGCCTGTCAACTATAATAATTAAATTATTAAAGTATCCTGTCAACTATAAAGAAATAATTAAATTATTAAAGTATCCTGTCAACTATAAAGAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTTAAAGTATCCTGTCAACTATAAAGAAATAATTAAATTATTAAAGTATCCTGTCAACTATAAAGAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTTAAAGTATCCTGTCAACTATAAAGAAATAATTAAATTTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTAGCCTGTCAACTATAAAGAAATAATTTAATTATTAAAGTATCCTGGCAACTATAAAGAAATAATTTAATTATTAAAGTATCCTGTCAACTATAAAGAAATAATTAAATTATTAAAGTAGCCTGCCAACTATAAAGAAATAATTAAATTATTAAAGTATCCTGTCAACTATAATAATTTAATTATTAAAGTATCCTGTCAACTATAAAGAAATAATTTAATTATTAAAGTATATTAAAGTATCCTGTCAACTATAAAAAAATAATTAAATTATTAAAGTAGCCTGCCAACTATTAATTAAATTATTAAAGTAGCCTGTCAACTATAATAATTTAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATAAAGAAATAATTAAATTTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAAATATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAAATATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAAATAAAATTCAGATAAATTTATAAAATCTAAAAAAACTGTAATAAAACTATTACACTTAAATTTTTAGTAAAAAAAGGTAACCTTTACTAAAAAAATAATATTGCTTTTTAAAAAAAAACTAAAAAAAAAACAAAAGGAAAAAAAGAAAGTAGTAATTTTTCCTTTTTACTAATTTTCATTTAAAGAAAAAGAATAATTAATCCTTTACAAATTAATAAACCCATATTATTAAAGAAAGAAAAAACTAAACCCCCCCTAGAAACTCCAAAAAAAAAAAGAAATATTTACCTTATGGAAAAAGAACAAGTAGACCTTACAGGGGAAAACTTCTCTAACATCAGGGGAAATAAGCCTTACCTGCCTTTTATCTCATAACATGATTAACGTAGCCTCGCTAGAATTTAATCTAAAAAACTTTTGTAAAAAAGCATTTAACAACGTCGCAAGCATTGTAGTTTTAATAGGTTCTACCACTATCCCTTTTTGAACCTTGAAACTACGTTAATGTCCATAAAAAAAAAAATCCACAAAAAAAAAAAGTAGTGCAACCTTGCTTAAAAGAGGAATTACATTGCTATAATTTAATTTTTTACCGTTGATTGATAAAAACTCTCCTCATTAGAACTATTATTTAAATAGTTCAAGTTTCTAAAAAAAACTGAAAATTTTTAGAAACAATAACATTTTCCCTTCCGGGAAAAAGTTTTCTCTCGTAAAAGGCTGATCACTAGGAGCTTCCAGAAACTCTATTCTATAAATTAATTATAAAATATATTCCAAATCTCCTATATTTCACTTATGTGAAAGGACCTCGGGTCTTAATCTACACGAAGCCCGTAGCGTACCATGGCATGCCTTAACGGTGACTTAATTAAACCATTTAATCAGCCGCACCCACCTCCGTACTCTAAACTAATAAAAAAAAAAAATAAAAAAAATTAATAAAAAATAAAAAAAATTAATAAAAAAAAAAAAAAAAATTAATAAAAAAAAAAAAAAAAATAAAGAAAAAAAATAATATTCAGTTTTTTACACCTTTTTAAACAATGCTTTTTATAGGTACTATTTTACCAACTAATACAAGAAATTCTTATTAGAAAATAAAACCCCGAATAATAATTAACAAAAGCTTGAAAACCTTCTAAAAATTCTACGTCGAACTTTTTTTCAAATTATTTAAACAACAAGAAACTAGGGCCAGTCATAGTTACCAAACCCAATCCCTAGCTACCCAAACATACCGAGAGAAGTCCATCAGGGCCTTGTACCATATAGGACGTTATCTAATCACTACTCCGACTTTTTTTAAAATTAAAAAAAAGATCTTACCAAAAATGTTCTTCTTAAACAAAAATACAAATTTTTGGTCTGAGAAAAAATCTTCATTTAAAAAATTACCAATTTTTTCAAATAAAAAATTCACCTTTTTTTTGTAAAAAAAAGATTACTAAAATTATTAAAAAAAATTCTTAAATACCTTCTTTTTGGAAAAAAGAAATTCTAAAATTTAAAATAAAAGAAAAAATTTACTTTTTTTACAAAAAATAAAAAATAAAAAATAAAATTTAACTGTAATATTAAAAATTTATTCATTAAATAAAAAAAAATATATAAGGAAAAAAAAAAAAAATATTTTTTTTTTACACCTAAAAATTATATTAAAAAATAGAAAAATAAGAAAAACTTAAAAAAAAAAATGAAAAAAGTCACTTTATATATAGATTTCTGGCGCAGCGTTTTTATGTACACAAAAAAAAAAATAAAAAAAAAATAAAATTCAACTGTAATATTAAAAATTTATTCATTAAATAAAAAAAAATATATAAGGGAAAAAAAAATAAAAAATAAAAAATAAAATTCAACTGTAATATTAAAAATTTATTCATTAAATAAAAAAAAATATATAAGGAGAAAAAAAAAAAATATTTTTTTTTTACACCTAAAAATTATATTAAAAAATAAAAAAATAAGAAAAACTTAAAAAAAAAAATGAAAAAAGTCACTTTATATATAGATTTCTGGCGCAGCGTTTTTATGTACACAAAAAAAAATAAAATTCAACTGTAATATTAAAAATTTATTCATTAAATAAAAAAAAATATATAAGGAAAAAAAAAAAAAATATTTTTTTTTTACACCTAAAAATTATATTAAAAAATAGAAAAATAAGAAAAACTTAAAAAAAAAAATGAAAAAAGTCACTTTATATATAGATTTCTGGCGCAGCGTTTTTATGTACACAAAAAAAAAAAATAAAAAAAAATAAATTCAACTGTAATATTAAAAATTTATTCATTAAATAAAAAAAAATATATAAGGAAAAAAAAAAAAATATTTTTTTTTTTACACCTAAAAATTATATTAAAAAATAGAAAAATAAGAAAAACTTAAAAAAAAAAATGAAAAAAGTCACTTTATATATAGATTTCTGGCGCAGCGTTTTTATGTACACAAAAAAAAAATAAAAAAAAAATAAAATTCAACTGTAATATTAAAAATTTATTCATTAAATAAAAAAAAATATATAAGGAAAAAAAAAAAAAATATTTTTTTTTTACACCTAAAAATTATATTAAAAAATAGAAAAATAAGAAAAACTTAAAAAAAAAAATGAAAAAAGTCACTTTATATATAGATTTCTGGCGCAGCGTTTTTATGTACACAAAAAAAAAATAAAAAAAAAAATAAAATTCAACTGTAATATTAAAAATTTATTCATTAAATAAAAAAAAATATATAAGGAGAAAAAAAAAAAATATTTTTTTTTTACACCTAAAAATTATATTAAAAAATAGAAAAATAAGAAAAACTTAAAAAAAAAAATGAAAAAAGTCACTTTATATATAGATTTCTGGCGCAGCGTTTTTATGTACACAAAAAAAAAAATAAAATTCAACTGTAATATTAAAAATTTATTCATTAAATAAAAAAAAATATATAAGGGAAAAAAAAAAAAATATTTTTTTTTTACACCTAAAAATTATATTAAAAAATAGAAAAATAAGAAAAACTTAAAAAAAAAAATGAAAAAAGTCACTTTATATATAGATTTCTGGCGCAGCGTTTTTATGTACACAAAAAAAAATAAAAAAAAATAAATTCAACTGTAATATTAAAAATTTATTCATTAAATAAAAAAAAATATATAAGGAAAAAAAAAAAAAATATTTTTTTTTTACACCTAAAAATTATATTAAAAAATAGAAAAATAAGAAAAACTTAAAAAAAAAAATGAAAAAAGTCACTTTATATATAGATTTCTGGCGCAGCGTTTTTATGTACACAAAAAAAAAATAAAAAAAAAATAAAATTCAACTGTAATATTAAAAATTTATTCATTAAATAAAAAAAAATATATAAGGAGAAAAAAAAAAAATATTTTTTTTTTACACCTAAAAATTATATTAAAAAATAGAAAAATAAGAAAAACTTAAAAAAAAAAATGAAAAAAGTCACTTTATATATAGATTTCTGGCGCAGCGTTTTTATGTACACAAAAAAAAAATAAAATTCAACTGTAATATTAAAAATTTATTCATTAAATAAAAAAAAATATATAAGGGAAAAAAAAAAAAATATTTTTTTTTTACACCTAAAAATTATATTAAAAAATAGAAAAATAAGAAAAACTTAAAAAAAAAAATGAAAAAAGTCACTTTATATATAGATTTCTGGCGCAGCGTTTTTATGTACACAAAAAAAAATAAAAAAAATAAAATTCAACTGTAATATTAAAAATTTCTTAATTAAAAAGTTTTCTTATGACCTTATTTACCCAAAAAATAAATTCTTCAAATAAAATAAAAAAACAAAAAAACCTTAAAAATGACAAATTTAAATACTAAATATACTATTTCATTAAAATGGTTTCTTTCATATAAAAAAATAGTTTATAAAAATTATTATAAACTATTTTTTATGGATTTTATAAAAATCCAATAAATTAAAAAGTTACATTTTAAAATATAACTTTTTAATATTAACTTATAAAATAACACACCTGTAAAATAAAATATCTTTATTCCAAGTAGTTCTTTAATGCCTAGAAAAATTTTCTAGCCTTAAAAGGAAATAATTTTTAAATTATCAATCAAAAAAATTTTGACTAAAAATTTAAAAAAGAAAGAAACCCAATAAAAAGGTTAAAATTAAAAAAAAATAAAAGAAATGGTTTTCAAAACCAAAAAATAACCAAAAACTAAAAAAAATCTTTGCAGACGAAATACAATATAATAAAAATTAATTTTTTAGAAAAGAACGAAAAGAACCAATAAAATTTAAACCCAAAAAAAATAAAAAAAGTAAAAAAAAAATAATAAAAAAAATAAAACTAAAAATATAAAAGGAAAAGAAAAAAGAAAAAAAAGATAAACTGAAAATTAAAAAATCATAAAAAAAAAATTAAAAAAAAAAATTAAAAAAAAAAAATTAAAAAAAAAAAATGACTTATAAACTGAAGAAAAAGTACCACAATAAACTAAAAAAAGAAAAACACCTGAAAAAAAAACTAACAAAATCAAAGCAAAAGGTATAAAGGAGATAAAAGGAGAAAAAGTAAATATAATAAAAAGAATTATTAAAACTAAGAAAAAAATAACTTTAAAAATATCCTTTCTAAAAATAGCGATAAAGAAACATAAAAGAACTAAATAAAAAAAAGTTTTTTATTAAACTTGTCTGCACAAAAATATAATCTTAAATAAAAAAACTATACAAAAGTTACCTAAAATTTCTCTTAAACCTAAAATAAAAATAATAAAAATATAATAAAAGGAAAAATATTATCTTCTTAGTATCTTCAAAACTAAATTTTAAAAAAAATAAACTAAAATATAAAAAATCTTTAACTTTTATTTTGTAGGAATATTGGTCTAATTTTAACCTAAAAATCTAAAAAATAATTTAATTAGAAAATAATTAAAAAAAATTAAAAATAAAAAAAAAAAATAAAAAAAACAAAAAAAAGCCCCCAAGAAAAGAAAAGGGATTTCTAGAAAGGAACTACCAATAAAAGTTAAAAAAAATCAAACTAATATAAAAATTAAAACTAAAAATTTATTACTAATATCTAAAACACCTCGTTCAAAGGTAAAAAAAAGTGGAAAAAAAAAAATCACAATTGATATTAATATTAATATTACTCCTAAAAGTTTATTAGAAACTGAGCGAAGAATAGCATAAACAAAAAGAAAATATCATTCAGGAACAATATGGATAGGACTAACAAGAAAATTAATTTCCTCAAATATTAAAACATCACTAAAAAAAAAAAGGAAAAAAAAGAAAAAAAACAAAAAAAAAAATAAAAAATAGAAAATTAATAAAATCCTTAAACCAAAAAAATGGAAAAAAGGTTTTTTTTAGAAAATTAGAATGAAGGAAAAGTTTGGATCTGCTACCATAAAAATGTAAAAAAAAAAAATGTAAAAAAATAAAAAAAATTAAAAAAAAAGGAAATAAAAAATGCAGAAAGAAAAAAAATTTTAAAGAATTTGATCTAAATAAAAAAGAACCTCAGAAAAAAAATATTAAATTAAAACCAAAAAAAGGGATTACCCTAAGAAGACTAGTAATAACAATCCCTGCCCAAAAAGATATTTGAGCTCAAACTATAACATAACCTAAAAAGGAGATTAATATTAATAAAAAAAGAATTAAAAGACCAAAAAACCAAACTTTTTTTAAACGTAAACTAAAAAAAAAAAAACCTTTAATAAAATGCAAAAAAATAATAATAAAAAAAAACCTGACAAGATTAAAATGCAAAATACGAAAAAATCAACCAAAATTAACCTCAAATATTAAATATTGTACAGAAAAAAATGAGAAAAAAGAAAAATTAGAATAATATAAAACCAAAAAAACACCTCTTAAAATCTGTAAAAAAAAAATAAAACCTAATAAACTACCAAAATTTCAAATATAACTTAAATTTAAAGAAACTGGGAGATTTTTAAAGAAGAACTAGCTAAAAAATCTAATGTAACACAAACAAAAATTTAAAAAATAAAATAAAAAGCTTTTAAAAATCTAAAAAAAAAAAATTAAAATTAAAAAAAATAAAAAAAAATATAATTTCATAAAAAAATCAAAAAAAGAAAAATTTTTTTCCTAAAAAAAAAATCATAATTAAAAAAAGAGAAAAATAAAAACCAAAAAAAAAAATAAAAAAAACCAAAAAAAAAGAAAAACTAAAAAAATTAATAAAAACAAAAAAAATAAAAAATTCACTATAAAAAGACAAAGATAAAGGTAAACCTCTATTTATTAAAAAAACTAAAATAAAAAAAAGAAGACAAAAAAAGTAAAAATAAAAAAAACCACCACCAAAATAGACTAAACGTCTACCTAAATTATGAAAAATTTCTCCAACAAAATAAAAACCTAAAACTGAAACAAAACCATGAGAAAGTATTATAAAAAGGGCTCCATTTTTTCCTAACTGAAAAAAAACTAGGTAAATAATTAAAATTATGCTTATATGAAAAACAGAGGAAAAAGCAACCAAAGATTTTAAATCTCTTTGTATTAAACAAATTAAAGAACAAAAAAAAAGTCCAATAATAGCAATAAACAAAAAAAAAAAAGAATTACTAAATAAAAAACTAATTAAAAATCGACTAAAACCATGAACCCCAAATTTTAATAAAATCCCAGCTAATAATATACTAGCAACAGTAGAAGCTTCAACATGTATTTTAGGTAATCAGAAATGTAAAAAAAAAACTGGAAATTTTATTAAAAAAACCAAAACCATAAAAAAAAATATTTTTTTATTTAATAAAGAATCAAAATAAACTAGAAATTTAATAAAATTTAGGTTAAAATCATTTAAAAAAATAAAAAGAAAAAAATAACCCAAAAAAAAAGAATAGAAAAATAAAAAAAAAATAGAATTAATTTTTTCAATTTGGACTCCAAAAAATAAAGTCAAAAAAACTACCGGGATTATAGAAAGTTCAAAAATAATAAAAAAAAAAATAAAACTTAAAATAAAAAAAAAAAAAAACCTTAAAAAAAAAAGAACAAAAGAAAAAAAAAAAATAACCCAGTTTTCTTCTATTAAAAAAATTAAAACCAACGTTAGAAATATAAAAAATACAAGACTAAAATTAAAAAAAAATTCAATTAAAAAAAATCTACCAGCCCAAAAAAAAAAAAATAAAAAAAAAAAAAATAAAAAAAAAAGAAAAAAAAAAAAATCTAAAAAAAAAAAAAAAAAAAAAAAATCTAAAAACCTTTTAATTACAAATTAAAAATTCTAAAAATTAAAATATAAAGAAAAAATTAAAAAACTCATCAATAAATAAAAAAAAAAAGAAAAAGTCAAACTACATCCACAAAATGTCAATAAATAATAGAAAATTCAAAACCAATATGATGAAAAAAATTTAAAGTTTTATTTTTTTGACGAAAGAAATTAATAAAAATAAAGATAATCCCTAATATTACATGTAAACCATGAAAACCTGTTATTAAAAAAAATAACCTACCAAAAACTCTGTCACTTAAGGTAAAGAAGGAATTTAAATATTCAGAAATTTGAATCAAAATAAAAAAAAATCCAAGAAAAATAGAAAAAAAAATTGAACTTAAAGAAAATCCATTAAATAAAAAAGTATAATGAGAAAAGGTAATAACCGAAGCTCTACCTAGAAGTAAAAGAGAATTAAAAAAGGGTAAACCAAAAGGGTTAATTTTTTCTAAACCTAAAGGGGTCGAAAAAAAACCTAAATCTATATTAGTTACCAAAACTAAATCAAAAAAAAACCAAAAAAACCTAAAAAAAAATATAACTTCACTAAAAAGAAAAAGTAAAAAACCAAACTTAAAACCGTCAATAGAAAAGAAAGAATGAAAGCCAACTAAAGCCTCAATAAAAACCAAAAAAAATCATTTAAAAAAAAATAAAAAAAAAATAATTACTATAAAAAAAAAAAAAAAATTAAATTTAAAAAAAATTAATAAACTAGAAAAAAAAAATAAAGTTAATAAACTAAAAAAAAAAGGTATAAACGAATTAGATAAATTCAATCAAAAAGTATAAAAAACCAGTCAATAACTCCGAAATATCAATTCAGTATAATTATAATTTTAATAAACTAGTAAAAAAACCTTTTAATAAAAAATTAAAAATACTTCAATATAATTTTTACCAAAAATAAATTAGACTAAAAAAAAAAAAAATACGATTAAAAGAAAAAAAATTAAAAAATTTTTTTCTTTTAAAAAAAAAAAAAGAAAAAGCTCCAATCAAAAATTAAAAAAAGAAAAAATAACAAAAAAAAAAAAAAATGGAAAAAAAAAAAAAAAAAAATAACTAGTAATAAAAAAAAAAAGAAAAATTTTAAAAAAAAAAGAAAATTTAATTGGTAAATTAAAAAAATAAAAAGCCTTTTCGAGATCTAATATATTCTTAGAAAGAATTAAAAAAAAAAAAAAAAAAAAATAAAAAAAAATAATAAAAAAAAAATCCCTTTCTAAATAAAAAATAAATAAAAAAAAAAAATTTAATCCTTCCAAGGAGAAAAAAAAAATAAATAATCTATAGTCATTAATGAAAAAAAAAATAATATATAAAAAAAATAAACCTAAAAAAAAAAAAAAAAATACTACAGAATAAAAAAGAAAAAAAAGAACTGGGATATAAACCAATTTTTTTAAAATTAAAAAAAAAATTATTAAAAAATCTTTTAAAAAAAAAATTAAAAAAAAAAATCAAAAAAAAAAAGGCCCTAAACCACTCTTAAATATTAAAATGACTCAAGTAAAAAAAAAATCAAAATTTAGTAAAAAAAAAAAACCTAATATTTCCTGAAAATAAAAAAAAAAAATTAAATTAATAAAAAAAAAATTATAGATTAATAAAAAATAGCAAAAAAAAATAACCAAAAAAAAAAATCTAAATCATCAAAAAATAAAACTTAAAAAAAAAAAATTATAATAAATAAAAAAAAAAATTATAAAAATAAATTACTTAAAAAAAACTAAATTTTCTAAATTTATATGAAAAAAATTTCCTGTTAAAAATTCTATTGAAGAATTTTCAATTAAATTAATTTTAGAGACCTTAAAAAAAAAAAAAGTATCCAGAACCAAAAAAATAAAAAAAACCAATGCTAAAAAACTAATAAAGGAACCAAAGGATCTAAGAACATTCCAAAAAAAAAAAAAATCACTATAATCTAAATATTTACGTGGAAACCCCTGTAAACCAACAAAATGTATAGGAAAAAAAGTAAGATTAACCCCTATAAAAAAAAATCAAAAAAAAAAATTAGAAAAAATATAATCAAAATTAAAAAAAAAAAAAAAATTAAAAATGTAAAAAAAACCAAGGAAAATACCAAAAATAGCTCCTATACTTAAGACATAATGAAAATGAGCTACCACATAATAAGAATCATGCAAAACTACATCCAAACTTGCGTTACTAAGAATTAAACCTCTTAAACCACCAATAGTAAAAAGGAAAATAAAACCAAAAACTCAATATATCAAAAAATTAAAAAAAAAAGGAGAGCCGTAAACCCTTATTAGCCAAGAAAAAACCTTAATACCAGTTGGAATAGCAATAATTATAGTAGCTGCACTAAAATACGCACGACTATCTATATCTATTCCAACAACAAATATATGATGAGCTCAAACTAAACAACCAATAAAACCAATACTAATAATAGCGTAAATTATTCCTAAATAACCAAAAAGAATTTTTTTACCTGTATAGAATTGGATAGTTAATCTAACTAAACCAAAAGCAGGTAAAATTAAAACATAAACCTCTGGATGACCAAAAAATCAAAATAAATGTTGAAAAACCAAAGGATTACCTCCACCTGTTCTATCAAAAAAATTTCCATTAAAATTACGATCAACTAATAAAAGAGTAATAGCTCCTGCCAAAACAGGTAGAGTTAAAATTAAAAGAAAAATTGAAATTAGAATTGTCCAAATAAAAAGATTAAGATTAAAAAAACTTAAAGTTATATTTTTTAAATTTTTAATGGTTACTCAAAAATTTAAACTACCCCCAATGGAACTAATACCTGCTAAATGTAAAGAAAGAATTGAAAAATCAACTCTATAACCTGGGTGGCCAAAACTACTAAGAGGTGGATAAAGGGTTCAACTTGTCCCTAGACCTTCATCTACTAAAAAACCAAAAAATAGAAATGTAATAGATATTGGTAATAATCAAAAACTCAAAGAATTAATTCGAGGAAAGGATAAATCAGAAGCAAAAATAAAAAATGGAACCAAAAAATTACCAAAAGCACCAATTAAAGCAGGTATAACTAAAAAAAAAATTATAATTAATGCATGACTAGTAATAAAAGAATTATATAACTGACCACTAGAAAAAAAAATGAAAGGATTTATTAATTCTAAACGAATCAAAAATGAAAAACTTGAACCTAAAAGACCAGACCAAAACGAAAAAAAAAGATATAAAATTCTAATCTCTTTATGATTAACGGTTCTAAAAAAAGAATAAACAAAAAGACTCATATTAATTTTTTTAAAAATCATTCAAAAAAAAAAGCTAAAAATATAAAAAAAAAAATTAAAAAAAAAATTAAAAAAAAAGATTTTAAAGTTATTAAAAAAATAGTTAATAAAAAAAACTCTAAATCAAATAATACAAATAAAAGTATTAAAAAATAAAAATGTAAAGAAAAAAAAATATTAGTTTCACCTAAAGAATTAAAACCCCTTTCAAAACTAAAAAGAGAATTAAAAAAAAAAAAAAAAAAGGAAAAAAAAAAATTAAAAAAAAAAAGAAAAAAAAAAATAAAAAAAAAAAATAAAAAATAGAAAAAAAATCAAATAATTAAAAAGATCCTTTCGTACATTTTTTAAAAAAAAAAATTAATCCAGATAAACAATTCTAACTTACGTCGAATTAAACTAATTTCACGTTTAAAAAATAGAAGAACAGTCTTAAAAAGAAAAAAAACTAAAAATTTTACTTATTTATAAAAAACAACACCGATGTAAAAAAATCCTGTTAACTCTAGAGAAATTTTAAAAACCAAAAAGGGTCACAAAAATTATAAAAAATTTTACCCTAAAAAAAATAAAAAAACAAATTTCTAAAGACTTCTCTTGGTATTATAAAAAAAAATAATTTTTAATTTTTTAATAAATTATTAAAAAAAATAAAAAAAAAAATAAAAAAAAACATTCATCCTCGAATCCATTAAAAAAACTAATTAATTTGCTACCTTAGACCAATCACGCTAAAGGTGCCTTTAAAATTAATAATCAAGAGGCAGTTTAAAAAAATTAAAAAAAAAATTACCAATTATTCTAAAAAAAAACTTTAAGAAAAAAAAATTAATAAAAAAAATTAGAAAAATAAAAAAAATTAAAAAAAATAATAATAGAAAAATTTTTTTTTTCTTAATAAATTAAAAAAAAAATAAAAAAATTAAAAAAAAAATAAAAAAAAAAACTTTAAACTTTTAAAACATTTTTTCAAAAATAAAAAAAATTTTATATTATAATTTTAACTTATAACTTTAAAAAATTTTTAATTTTAAATTTAAATTATAATTAATTAAAAATAAAAAACTTATCCTGAAATACAAAACCAAAAAAAAAAAATAAAAAAAATTTTAAATAATTTTTTAAAATTAAAAAATAAAAAAAGATTTAAAAAAATTTATAAGTGTTAATTCAATAACAACTGGTATAAAGGAATGATTAGCTCCACAGATTTCAGAACACTGACCATAAAAAACTCCAACTGATTCAAAGAAAAAATCTATAATATTTAAAAGACCACTTATAACGTCTATTTTTAAAAAAAATATAGGTAAAGTTCAAGAATGAATTACATCAAAAGAGGTTAAAACAAAACGGACAAAAAAATTAACTGGAAGAATTAGACGATTATCTACCTCTAAAAGTCGGTAGTCCCCCAACACAAAAAATTCGTCAGAAAGTATAAAAGAATCAAAGAAAAACCCTAAATTATCACCAATTTCATAAGATCAATATCATTGATGACCAACTACCTTAATAGTCAAGTCTGAACTAGTGTTAGAAAAATTAAAAAAAAAAAGTAAAAAAATAGAAGGAATAATTTGAGAAATCAAGAAAAAAATTGGAATAAAACATATCCAAAACTCCAATAAACCAAATCCTAAATTAAGATTAAAGAAAAAATTAAAAAAAAAAAGAAAAAAAAAAACAAAAAAAACAAAAAAAACAATTACAAATAATAAAAAACAATTAAAATTGTTAAATCAATCAAATCAAATAGATAAAAAACTAAAAAAAATAATAATATTAAAATCAAAAAAAAAGATAATAAATCTTTTTATTTTGCAAATAAAAATTTTTCATTAAAATAAATATCTAAAAATAATAACCTACAAAGGAAAATTCAGTTTAGAAAACTAAAAAAAAATATTTAAATTTTTTCCCCTTGAATGAAAAACAAAAATTCTAATAATAAAATAAAAATTCCAATAAATGAGAAATCTTTTAAGCTTAAAATAAAAATAATTAAAATATAATATACATTTAATAAAAAATTCACTAGCTTCTCCTTTAATAAGCAATAAAAAAATTCTAAAAATAAAATAAGCTAATTTTTTTATTTATAAACCTTATAAAACAAAAATATAAATTCTTCTTAAAATAAAAATAAAATAAAAAATAAAAATAAAAAAATAAAATAAAAAAAAAAATTAAAAAAAATTAAATTAGAAAAACAAAAAAAATTAAGCAAAAAATAATTTAAAAAAAAAATAAAAAATTCAAAAAAATTAAAAAAAAAAAGATTAATAAAAAAAAAAAAATAATTAAAAGAGAAAAATAAACGATAAAAAAAAATATTAAAAAAAAAAAAAAATCTATTAAAAAAAAAAAAAAATAAAAAAAAAAAAAAATAAAAATAAAAAAAATACTAATAAAAAAATCTAATTCTAAAAAAAAATAATAAAAAAAAAAAAATTAATAAAAAAAAAAAAATTTCAAAAAAAAGAAAAAAATAACAATAAAAAAGAAAGAAAAAGAAAAAAATAACTAAAAAAGATAAAAAAAATTTTTTTTATTCAAAAAAAAAAAAAAAAAAAAAAACTTTAAAACTATAAAAAAAAGTTAAAAAAAAACAAAAAAAAACAAAAAAAAAACAAAAAAAAACCAAAAAAACCTAAAAAAAAAAATTCTAAAATCAAATGCTTTCTAATAAATCCATTTAAAAAAAAGATTCTACATAAATTAAAAAGACTAGATATAATTTGAAATTTAACTCAGTTAAAATAATTTAAATTTAATGAAAAAAAAATTAAATTTTGTTGCCCGTTATTAATAAATATAAAAAAACCAACCTGTAAAAACAACAAACTTTTAAAGAAAGCATGACTAACTAAATGAAAAAAACTTAGAAAAAAAAAACCTAAAGAAAAAGTAAAAAAACAAAGACCTATCTGAGAAAGAGTTCTTAAAGCAACAATTTTTTTTAAATCTGATTCAAAAAAAACTAAAAAAGAAGAAAAAAAAAAAGAAAATAAACCAAAAAAAAAAATTAAAAAAAGAAAAAAAAAAAAAAACTTAAAAAAAAAAAGAAAAAGTAAAAAAACACCCGCAGTAACCAGAGTTCTACTATGAACCAAAGCACTGACAGGAGTAGGAGCTCTTATTGCCTTTGGTAATCATCCTATAAAAGGAAATTGGGCACTTTTAGTTATAGATGCTATAAAAAATCCTAAAAAAAAAAAACTAAAAAAAAAAAAAAAAAAATTAACTAAAAAAAAAAAAAAAAGAAAAAAATCACCTAAACGATTAACTAAAACTGTTAATATAGAACTAGATATTGAATCAAAATTATTATAATAATTAACTAAAAAAAAACTACTCAAACCTAAAAAATCCCAAAAAACAAAAATAAAAAAAAAAGTATCCCTTAAAATAAAAAAAATCATAGAAAAAACAAAAAAAAAAACTATAAAATAAAAATAAAAAAAAAAAATATCATTTTTTATATAAAAAAAACTAAAAAATAAAACAAATAATAAAATTAAAAACAGAACAAAAATAAAAAAAAAATTATAAATCCTCAAATTAAAACAAAAATCAAAAAGAAATCAAAAAAAATTAAAAAAAAAATTATAAAAAAAAAAAAATAAAAAGAAAAAAATAAAAAATAAAATAACAAAAAAAAATTCAAAAAAAAAAAATTTAAAAAAATTTATTTAAAAAATAAAGAATTAAAAAAAAGATTTTCCGTACCAAAAAAAACTAAACTTATAATAAAAAAAAATAAAAAAAAAATTGTAGAACAAACTCTAAGAGAAAGAAAAAAAAAAAACCTAAAAACCTTAAAAATTAAAATCAAAATTATAAAAATAAAAAAAACAATTAACTCCAAAAAAACAATAAAACCTATAATTTTCTCTCCTTTGACTAAGCCCACAATCATAATAAAAAAAAAAATAAGAAACAAAATAAAAATAAAAAATACTTAAAAAATATAAATACCTACTAAGGAATTTTTTTATAAAACTACTCACTGAGATAAAAAATTAATAAAATAAAAAATAAATAAACTTGAATTAAAACAACCATAAAATCAAAAATTAAAATAAAAAAAAAAAAAGGAAAAAAATAAAAAAAATTAAAAAAAAAAAAAAGAACTAAAAGTTTAAAACAATGACCAAAAACCAAATTAACTATCAAACGTAAAGAAAGAGTAACAGGACGAAAAATTAAACTAAAAAATTCAACCCAAAATAAAAAGAAAACTAAAAAAAAATTAACTTCTAGAATCAAAAGGCTTAAAAATCCTTTTGATTCAAGGAAAGTTAAAAAAACAGAAAAAAAAAAAATAAAACCTAAAAAAAAAATAAAAAAAATAAAAAAATCAAAAAAATAAACAAAAAAATAAAAAAAACCTAAAATAAAATAAAAAAAAAAAAAAAAAATTAAATATAAGGATAAAATCTCATATTGTTTTAGCGAGAAAAAATTATAGAAGAAAAAAAAAATATTTAAATCAAAAAAATTAGAAAAAAAAACTAAACTAAAAAAAACTAAAAAATAAAAAAATAAAAAAAAAAAAAAATCATAATTAACAAAAAATTTTTATTACCTTAGAATAATGAATACTATAGACTATAAAATTATCATAGAAAATTTCTTTTTAAAAATAATAAAAAAAAAGCAAAAATAATAAAAAAAAAAAAAGTAAGAAAAAACCAAAAAAATATCATTAAAAAATCTAAACGTAACCGTGGAAAAAAACTACGAATAAAAATAATCAATAAAAAAAATGGAATTAAAAAAAAACTAAAAAAAAGACAAAAAAAAAAAATATAAAAAAAAAGAATAGAATATTCTGAAAGAAAAAAAAAAATAAAAAATAAACTACTAAACTCAATATTATAACCACTAACTAATTCTCTCTCACCTTCAGCTAGATCAAATGGGGAACGATTAGATTCAGCTAATACAAAAATTAATAGTACAAAAAAAAAAAACAAAAAAAAAAAACAAAAATCTTTTTTAAAAATATCAAAAGAACTAAAAAAAAAAAAACAAAAAACCAGAAAAAAAACAAAAACAAAATCAAAAGAAAAGGATTGAGCTATTAAACGTAAACTACCTAAAAAAGAAAATTTAGAAATACTAAAATAACTCAAAAAAAAAAATAAAAATAAAAAAAAAGCAATTATAGAAATTAAAAAAATAATATTAAAAAAAAGAGAGAAAAAAAAAAAAGAAAAAAAAAACCATAAAAATAAAGATAAAATAAACTGAATAAAAGAAAAAAAAAAAATAATATAAAAAAAAAAATTAAATAAAAAAAGAAACTCTTTACTTAAAAGTTTTAAACCATCAAGGATTGCTTGCAGATAACCAAAAAAGAAAAATTTATTCGGAGATAAACGTTCCTGAGAAAAAGCTAAAAGATAATGCTCAGTCATTACAAAAAAAACAACAGATAGTAAAATTAAAAGAAAAAAAAATAAAAACTAAAAGCTTTAAAATTTTTATTTTTACAGAATAATATTTTAATATTTAAAATAAAAACTTAAGAAATAAAAATATTCAATTTTTTTTACCTATTAATATGAAATTAAAAATTCTAAAATTAAAATAAAAAATTTTATTTAAGATTTAAGTTCTCACAAATCTACCTTACTACAACTTATCCCAAAATATAAATAAGGAACTGATGGACAATTAGTACTAAAAATAATAAAAATTAAAAAAAAAATAAATTTTTTTTTACTTTTTTTTCCTATTAATAAACAAAAATTAAACTATAATAAAAATTAAAAAAAAAATGTAGCTCAATTAAACTTAATTTTATACTCTATATATTTCTACAAAAAAAGTAAAAAAATAATATTTTTTTTAATAAAAAAAAAAAGATAAACATACAGAAAATAAAAAAAAAAGCTAAAATGGAGGTTTCTCCTATTAATTATCAAACTCCAAAAATTAATTATTTATTCCAACTTAATTCTTTCTATTTATAAAAAAAAATTACTCAAGTATTAAAAAAGAAAAAATAACTGGATTCAAACCCAGGTTTTTTAAAAAGAAATTGATTTTTTTTTTTATTAAAAAAAAATAAATTTTAAACAAAATATAAAAAACCTATAATAAATTAAAAAAATCTAAAAATCTAAAGTTAAAAATTAAAAAACGTATAGCCGATTCTTCTGGAACGTTTTAAAGACCATTAATAAAAAACTAATTAATTAATTAATAAAATAATTTAAACTTAAATAAAATTTTTTTATTAACCAAAAAACTAAAACAAAAAATAAAAAGATTAAAAACTTCTTATTAACATTAAGATATTATAAAAATTAAATAAAACCTTTTTTTACAAAAATAATAATTATTACATCAAAATGAAAAGGGATCTAATTAATCTTTTTTACTTTTTTTCCAAAAGAGATAACTTAGGAAAAAAGATTAATTAGATCCAAAAAATAAAAAATATAATTTTTAGTTTTTTTTTGGTTTTATGACTCTAATCTTAAAAAAAAAACTGTTTTTTTTTAATAAATTAGTTAATTTTAAATTAATTAATATAAATAAATTAATATTAATTAATTTAAAATTAACTAATTAATTAAAAAAAATAGATATTAATTCTTAATATATTCTCTTTAAGTGTAAGAAAAAGTTGTTCTTTGTATTAAAAACTTCTTTATTCTTTCATATTTTAATTAAACACAACTTTTAAAAAACCCTTTACACATCTGATTTAACGTTTTATGGTAAAAACTTTAAATCTAGTGTTCCTCATATGCAGTTTTTTAATTAATTAAAAAAACTTAATTCGACGGTTGATGAATAAAAGAGTAATATTGACATAATTAAATATTATTCTATTAGATTCTTTCTAATTTAAGAATTACTAGAAAATTTTTTTAAAAAGATTCGATCGCTTACTAACCTCTTGGTATTAGGTTTAGTTTATAAAATAAACTTTAAATTAAATTAAAGCTGAATCACTTTTAAAATTTTCTAAAAGATTCTTTTAATGGTTGAATATTAAATGAATTAACCTTAAAGTAAGTCAACATCTTTTAACCAATTTAATATTTTTAAATATTATTTTTTAATATATTAAAAAAAAAATAACTTAGTTATAACACACCTGTATAGTTAGAAATATTAACAAGTTTTTTATAATTTTTTATATTTGTTAAAAACCTTAACTTTTTATTTTAAATATTCTTGTTTTATTTAGACTTGTACGCTTTGCTATTTTTAATGCTAAATAACTTTTTTTATTATGACTTAATTATAAAAATTTCTTAATTAAAGGATTAATATCTAACCGAAAAATCTGGAAATTCAAAAAAAAGAGAAAATAAATATTTTTCTAATTAATAAAAATTCTTAACAATATATATATATTAAAGAAATATAGAATTTTGTTTTATTTTTTTATACTTTTTTAAGATTAGAGTCAAAAAATAAATTTTTTGAACACTTTAACTAAAAAGTATTTTTTATTTTTTATTATAATTAGTTTTACTACATATTGATTATTTACCTATCATAATTATTAGGGTAACTTTCCTATGTTTTTTTGTTACTAATTTTTTTTCCAAGTGTTTTTTTTTTAGTTTTTTAAAAAACCAATATTATTTTTTTAGTAAAATACCATACTAAAAATTTAAATGTAATAATTTTCAGTTTTTTTAGATTTTATAAATTTATCTGAATTTTATTT
In text form.
Name Start Stop Strand Length Structure
trnT(tgt) 5203 5260 + 58 svg ps
trnG(tcc) 6277 6334 - 58 svg ps
cob-1_b 7382 8050 - 669
trnP(tgg) 8562 8609 - 48 svg ps
trnD(gtc) 8619 8672 - 54 svg ps
nad6-3_c 8993 9106 - 114
nad6-1 9108 9470 - 363
nad6-3_a 9498 9524 - 27
nad6-3_b 9528 9530 - 3
nad5-1 9580 9594 - 15
trnF(gaa) 9585 9640 - 56 svg ps
trnV(tac) 9649 9704 - 56 svg ps
cob-0_b 9738 10172 - 435
cob-0_a 10087 10764 - 678
nad4 10934 11857 - 924
nad6-2 11942 12142 - 201
cox3 12109 12825 - 717
trnI(gat) 12862 12919 - 58 svg ps
nad2 12982 13782 - 801
cox1 13894 15303 - 1410
nad3 15318 15608 - 291
rrnL 15647 16091 - 445 svg ps
cox2 16464 17081 - 618
trnC(gca) 17125 17180 - 56 svg ps
trnS2(aga) 17196 17252 + 57 svg ps
nad5-0 17991 18977 - 987
nad4l 19109 19366 - 258
atp6 19333 19572 - 240
nad6-0 19684 20067 - 384
nad1 20022 20777 - 756
trnY(gta) 20802 20859 - 58 svg ps
atp8 21541 21690 - 150
old scaffold name = 000114|quiver
new scaffold name = atp8trnDadded
#remove old 000114|quiver scaffold
#####grep -vFw ">000114|quiver" <( grep ">" genome738sl.polished.fasta |sed 's/>//g'|cut -f 1 -d " " |cdbyank genome738sl.polished.fasta.cidx) >genome738sl.polished.Mito.fasta &
######is it gone? yes.
#####grep "000114" genome738sl.polished.Mito.fasta
The above script only deleted the header. I ended up deleting the scaffold manually in vi.
#add in the new
cat genome738sl.polished.Mito.fasta final.000114.fa >genome738sl.polished.mitoFixed.fa
~/common_scripts/new_Assemblathon.pl genome738sl.polished.mitoFixed.fa >newAssemblathon.stats.txt
Number of scaffolds 738
Total size of scaffolds 123846405
Longest scaffold 2006230
Shortest scaffold 3822
Number of scaffolds > 1K nt 738 100.0%
Number of scaffolds > 10K nt 728 98.6%
Number of scaffolds > 100K nt 344 46.6%
Number of scaffolds > 1M nt 7 0.9%
Number of scaffolds > 10M nt 0 0.0%
Mean scaffold size 167814
Median scaffold size 91520
N50 scaffold length 304127
L50 scaffold count 109
scaffold %A 31.13
scaffold %C 18.88
scaffold %G 18.87
scaffold %T 31.12
scaffold %N 0.00
scaffold %non-ACGTN 0.00
Number of scaffold non-ACGTN nt 0
Percentage of assembly in scaffolded contigs 0.0%
Percentage of assembly in unscaffolded contigs 100.0%
Average number of contigs per scaffold 1.0
mkdir circos
cd circos/
cp ../../29_effectorMapping/circos/bands.conf .
cp ../../29_effectorMapping/circos/ticks.conf .
cp ../../29_effectorMapping/circos/ideogram.conf .
cp ../../29_effectorMapping/circos/housekeeping.conf .
cp ../../29_effectorMapping/circos/circos.test.delete .
ln -s ../swapMitoScaffolds/final.000114.fa
ln -s ../000114.fa
module load ncbi-blast
makeblastdb -in 000114.fa -dbtype nucl -out orig.000114.blastdb
blastn -db orig.000114.blastdb -outfmt 6 -query final.000114.fa -out finaltoorig.blast.out awk '$12>10000 {print $1,$7,$8,$2,$9,$10}' finaltoorig.blast.out >syntenic.ribbons.txt
cat 000114.fa final.000114.fa |bioawk -c fastx '{print "chr - "$name" "$name" 0 " length($seq)" green"}' >mito.kary
sed -i 's/|quiver//g' syntenic.ribbons.txt
awk '{print $1,$2,$3,$4,$5,$6,"color=spectral-11-div"}' syntenic.ribbons.txt >tmp
mv tmp syntenic.ribbons.txt
#pasted in annotation and modified to make gene tracks
awk '{print "New_Mitochondria",$2,$3, "100"}' mitochondria.gff >gene.histogram
Had to modify the circos conf file, the ideogram.conf file, and the ticks.conf file to obtain ticks at the correct proportions #circos.test.delete -conf files
circos conf file
karyotype = ./mito.kary
chromosomes_units = 10000
label_size = 80p
<<include ideogram.conf>>
<<include ticks.conf>>
<<include bands.conf>>
<<include colors.brewer.conf>>
<links>
<link>
file=syntenic.ribbons.txt
radius = 0.94r
bezier_radius = 0.1r
thickness = 1
ribbon = yes
</link>
</links>
<plots>
<plot>
type = histogram
fill_color = green
file =./gene.histogram
r1 = .99r
r0 = .92r
orientation = out
extend_bin = no
thickness = 10
</plot>
<plot>
type = histogram
fill_color = green
file =./oldgene.hist
r1 = .99r
r0 = .92r
orientation = out
extend_bin = no
thickness = 10
</plot>
</plots>
<image>
<<include /shared/software/GIF/programs/circos/0.69.2/etc/image.conf>>
angle_offset* =-140
</image>
<<include /shared/software/GIF/programs/circos/0.69.2/etc/colors_fonts_patterns.conf>>
<<include ./housekeeping.conf>>
ideogram.conf
<ideogram>
<spacing>
default = 0.002r
break = 20u
axis_break_at_edge = yes
axis_break = yes
axis_break_style = 2
<break_style 1>
stroke_color = black
thickness = 0.25r
stroke_thickness = 2p
</break>
<break_style 2>
stroke_color = black
stroke_thickness = 5p
thickness = 2r
</break>
</spacing>
radius = 0.91r
thickness = 40p
fill = yes
stroke_color = white
stroke_thickness = 2p
fill_color = black
show_label = yes
label_font = bold
label_size = 40
label_parallel = yes
label_radius = dims(ideogram,radius_outer) + 0.06r
</ideogram>
ticks.conf
show_ticks = yes
show_tick_labels = yes
show_grid = no
grid_start = dims(ideogram,radius_inner)-0.5r
grid_end = dims(ideogram,radius_inner)
<ticks>
skip_first_label = yes
skip_last_label = no
radius = dims(ideogram,radius_outer)
tick_separation = 2p
min_label_distance_to_edge = 0p
label_separation = .4p
label_offset = 2p
label_size = 28p
multiplier = 0.001
color = black
label_parallel = yes
<tick>
spacing = 2u
size = 28p
thickness = 1p
color = black
show_label = yes
label_size = 28p
label_offset = 0p
suffix = kb
format = %s
grid = yes
grid_color = lgrey
grid_thickness = 1p
</tick>
<tick>
spacing = 10u
size = 28p
thickness = 4p
color = black
show_label = yes
suffix = kb
label_size = 28p
label_offset = 0p
format = %s
grid = yes
grid_color = grey
grid_thickness = 1p
</tick>
<tick>
spacing = 100u
size = 28p
thickness = 2p