Skip to content

Latest commit

 

History

History
427 lines (358 loc) · 36.5 KB

P02_Mitochondria.md

File metadata and controls

427 lines (358 loc) · 36.5 KB

Investigate putative mitochondrial scaffold

#/data021/GIF/remkv6/Baum/CamTechGenomeComparison/09_contamination/blast/mitochondria Andrew thought that this scaffold was most likely the mitochondrial scaffold, but it was ~224kb, about 10x the size it should be.

I cut and pasted a subsection of this scaffold into an online blast and the first hit was H. glycines mitochondria.


#I cut and pasted this fasta sequence to a file
vi HGmitochondria
# I then used cdbyank to extract scaffold 000114F from the complete 2692 genome.
ln -s ../genome.2692.contaminated.fa
module load cdbfasta
cdbfasta genome.2692.contaminated.fa
makeblastdb -in 000114F -dbtype nucl -out
#put scaffold name in the list file
vi list
#extracted the seq
cat list|cdbyank genome.2692.contaminated.fa.cidx -o 000114F.fa
#made blast database
makeblastdb -in 000114F.fa -dbtype nucl -out 000114F.blastdb
#blast parameters
blastn -query HGmitochondria -outfmt 6 -db 000114F.blastdb -out HGmitoTo000114F.blast.out
#This give a distinct high quality alignment of ~10 mitochondrial genomes that have been concatenated in the assembly.
less HGmitoTo000114F.blast.out |sort -k 9,9 -V|awk '$12>500'>mito.alignment
Scaffold 000114F is a mitochondrial scaffold indeed, but many that have been assembled together. Multiple possiblities here. A single mitchondrial sequence can be extracted and be done. Or a phylogenetic comparison can be made from the ~10 that are there to asses the mitochondrial diversity in a single SCN population.

Continuance of mitochondrial extraction

Andrew has requested that I extract the mitochondrial scaffold from the polished assembly, and to obtain the best representation of it through comparisons to the previously published sequence.


#softlinked polished genome
ln -s /data021/GIF/remkv6/Baum/CamTechGenomeComparison/09_contamination/blast/mitochondria/HGmitochondria HGmitochondria.fa

#Getting alignment coordinates
blastn -query HGmitochondria.fa -db /data021/GIF/remkv6/Baum/CamTechGenomeComparison/09_contamination/blast/mitochondria/000114F.blastdb -outfmt 6 -out HGto000114.blast.out

Extracted all sequences that came close to aligning to the full length of the published SCN mitochondrial genome.
This sequence: GenBank: HM640930.1

samtools faidx 000114.fa 000114\|quiver:68145-81929
samtools faidx 000114.fa 000114\|quiver:160138-173922
samtools faidx 000114.fa 000114\|quiver:228764-242537
samtools faidx 000114.fa 000114\|quiver:22155-35907
samtools faidx 000114.fa 000114\|quiver:182749-196526
samtools faidx 000114.fa 000114\|quiver:91173-104948
samtools faidx 000114.fa 000114\|quiver:205736-219495
samtools faidx 000114.fa 000114\|quiver:45170-58850
samtools faidx 000114.fa 000114\|quiver:251656-265475
samtools faidx 000114.fa 000114\|quiver:137355-151197
samtools faidx 000114.fa 000114\|quiver:1-12923

Sequences were manually adjusted to get the correct orientation of alignment.  Then multiple alignment was peformed with muscle.
muscle -in mitostrandright.fa -out mitochondria.aln.fa
Gaps from sequencing error and nonoverlapping edges were trimmed.
A maximum likelihood tree was made in Bioedit with 1000 bootstraps.

Mitochondrial Tree

Revamped approach to fix this mitochondrial scaffold

Since the contigs extracted from 000114 were not annotating correctly, I decided to extract the p reads that were used in the assembly. The genome was now polished, so I used a different 000114 sequence than the previous two experiments.


#softlink pertinent files
ln -s  /data021/GIF/severin/Baum/25_Quiver_genome738/genome738sl.polished.fasta
ln -s /data021/GIF/severin/Baum/04_Falcon/at3/1-preads_ovl/preads4falcon.fasta


Module load cdbfasta
cdbfasta genome738sl.polished.fasta
cdbyank genome738sl.polished.fasta.cidx -a 000114 -o 000114.fa


##Blasting 000114 to preads
#!/bin/bash
#PBS -l nodes=1:ppn=16
#PBS -l walltime=4:00:00
#PBS -N preadblast
#PBS -o ${PBS_JOBNAME}.o${PBS_JOBID} -e ${PBS_JOBNAME}.e${PBS_JOBID}
cd $PBS_O_WORKDIR
ulimit -s unlimited
module use /shared/software/GIF/modules
module load parallel
module load ncbi-blast

blastn -db preads.blastdb -task megablast -query 000114.fa -outfmt 6 -num_threads 16 -out 000114ToPreads.blast.out
# in case you need stats after job completion retain this as last line
ssh condo "qstat -f ${PBS_JOBID} |head"

cdbfasta preads4falcon.fasta
less 000114ToPreads.blast.out |awk '$12>40000 {print $2}' |sort|uniq|cdbyank preads4falcon.fasta.cidx -o preads.4.muscle

#I aligned these with muscle, and found out they were opposite strands.  I made reverse complements in bioedit.
module load muscle
muscle -in preads.4.muscle -out test (deleted this file)

#pasted in the new sequences.
vi preadsbothsense.4.muscle.fa

#muscle would no longer align the sequences without a segmentation fault, so clustalw was used.
module load LAS/clustalw/2.1
clustalw retest
mv retest.fa AlignmentRawPreadsClustalW.fa
mv retest.dnd AlignmentRawPreadsClustalW.dnd
mv retest.aln AlignmentRawPreadsClustalW.aln

 Made a tree with DNAml DNA Maximum liklihood method in bioedit with 1000 bootstraps. Only Total alignment length 3984bp for 17.
 (((222818:0.00004,(252874:0.00004,(((((053248:0.00004,
 173260:0.00004):0.00004,322144:0.00004):0.00004,
 ((042966:0.00024,264906:0.00004):0.00004,((280396:0.00020,
 322148:0.00004):0.00004,(112708:0.00004,280820:0.00013):0.00013):0.00004):0.00004):0.00004,
 024091:0.00049):0.00004,(261038:0.00127,160407:0.00004):0.00050):0.00004):0.00004):0.00045,
 224883:0.00075):0.00004,219030:0.00004,296912:0.00004);

  Most the gaps were removed here and the main variation was snps(usually apomorphic). There were a few deletion tracts that were interesting.

Deletions

Final mitochondrial genome

Ran cap3 on bioedit as internet was down.
Submitted this for annotation with Mitos under the invertebrate mitochondrial code.
This scaffold was 41kb, and had overlapping sections, probably an artifact from the circular nature of the mitochondrial genome. There were two genes missing from this annotation that are notpresent in the scaffold
In the whole scaffold (000114F)these genes are present:

awk '{print $1}' annotation.wholescaffold.tab|sed 's/-.*//g'|sort|uniq -c
    16 atp6
     1 atp8
    14 cob
    14 cox1
    13 cox2
    11 cox3
    11 nad1
     4 nad2
    10 nad3
    12 nad4
    10 nad4l
    16 nad5
    37 nad6
     1 rrnL
     1 trnC(gca)
     1 trnD(gtc)
     1 trnG(tcc)
     1 trnV(tac)
extracting missing sequences
Performed online blasts to determine the overlapping regions and then aligned with clustal w in bioedit. These positions were extracted from the cap3contig from the P reads. I first deleted position 37368-41445, and then deleted 1-14340. This left a mitochondrial scaffold of 23,027bp


cdbyank ../000114.fa.cidx -R -a '000114quiver 184731 184868' -o atp8.fa
cdbyank ../000114.fa.cidx -R -a '000114quiver 58464 58517' -o trnD.fa
Aligned these sequences to the 22kb mitochondrial contig. The difference in gene calls for ATP8 were due to 1 additional A in a string of A's at 10086. I added an A to the mito contig The difference for trnD.fa was that two additional A's were present in the mitochondrial contig, so I removed those.
Now the mitochondrial scaffold is 23,026bp.

Final Mitochondrial sequence
atp8trnDadded

TAATTAAATTATTAAAGTAGCCTGTCAACTATAAAGAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTTAAAGTATCAAGTATTTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATAAAGAAATAATTAAATTTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCGGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTAGCCTGTCAACTATAATAATTTAATTATTAAAGTATCCTGTCAACTATAAAGAAATAATTTAATTATTAAAGTATCCTGTCAACTATAAAGAAATAATTTAATTATTAAAGTAGCCTGCCAACTATTAATTAAATTATTAAAGTAGCCTGTCAACTATAATAATTTAATTATTAAAGTATCCTGTCAACTATAAAGAAATAATTTAATTATTAAAGTATCCTGTCAACTATAAAGAAATAATTTAATTATTAAAGTATATTAAAGTATCCTGTCAACTATAAAAAAATAATTTAATTATTAAAGTAGCCTGTCAACTATAATAATTTAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATAAAGAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAAATATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTAGCCTGCCAACTATTAATTAAATTATTAAAGTAGCCTGTCAACTATAATAATTTAATTATTAAAGTATCCTGTCAACTATAAAGAAATAATTTAATTATTAAAGTATCCTGTCAACTATAAAGAAATAATTAAATTATTAAAGTAGCCTGCCAACTATTAATTAAATTATTAAAGTGCCTGCCAACTATTAATTTAATTATTAAAGTATCCTGTCAACTATAAAGAAATAATTTAATTATTAAAGTATCCTGTCAACTATAAAGAAATAATTTAATTATTAAAGTATATTAAAGTATCCTGTCAACTATTAATTAAATTATTAAAGTAGCCTGTCAACTATTAATTAAATTATTAAAGTAGCCTGTCAACTATAATAATTAAATTATTAAAGTATCCTGTCAACTATAAAGAAATAATTAAATTATTAAAGTATCCTGTCAACTATAAAGAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTTAAAGTATCCTGTCAACTATAAAGAAATAATTAAATTATTAAAGTATCCTGTCAACTATAAAGAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTTAAAGTATCCTGTCAACTATAAAGAAATAATTAAATTTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTAGCCTGTCAACTATAAAGAAATAATTTAATTATTAAAGTATCCTGGCAACTATAAAGAAATAATTTAATTATTAAAGTATCCTGTCAACTATAAAGAAATAATTAAATTATTAAAGTAGCCTGCCAACTATAAAGAAATAATTAAATTATTAAAGTATCCTGTCAACTATAATAATTTAATTATTAAAGTATCCTGTCAACTATAAAGAAATAATTTAATTATTAAAGTATATTAAAGTATCCTGTCAACTATAAAAAAATAATTAAATTATTAAAGTAGCCTGCCAACTATTAATTAAATTATTAAAGTAGCCTGTCAACTATAATAATTTAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATAAAGAAATAATTAAATTTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAAATATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAAATATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTGTCAACTATTAAGAAAATAATTAAATTATTAAAGTATCCTATCAACTATTAAGAAAATAATTAAAATAAAATTCAGATAAATTTATAAAATCTAAAAAAACTGTAATAAAACTATTACACTTAAATTTTTAGTAAAAAAAGGTAACCTTTACTAAAAAAATAATATTGCTTTTTAAAAAAAAACTAAAAAAAAAACAAAAGGAAAAAAAGAAAGTAGTAATTTTTCCTTTTTACTAATTTTCATTTAAAGAAAAAGAATAATTAATCCTTTACAAATTAATAAACCCATATTATTAAAGAAAGAAAAAACTAAACCCCCCCTAGAAACTCCAAAAAAAAAAAGAAATATTTACCTTATGGAAAAAGAACAAGTAGACCTTACAGGGGAAAACTTCTCTAACATCAGGGGAAATAAGCCTTACCTGCCTTTTATCTCATAACATGATTAACGTAGCCTCGCTAGAATTTAATCTAAAAAACTTTTGTAAAAAAGCATTTAACAACGTCGCAAGCATTGTAGTTTTAATAGGTTCTACCACTATCCCTTTTTGAACCTTGAAACTACGTTAATGTCCATAAAAAAAAAAATCCACAAAAAAAAAAAGTAGTGCAACCTTGCTTAAAAGAGGAATTACATTGCTATAATTTAATTTTTTACCGTTGATTGATAAAAACTCTCCTCATTAGAACTATTATTTAAATAGTTCAAGTTTCTAAAAAAAACTGAAAATTTTTAGAAACAATAACATTTTCCCTTCCGGGAAAAAGTTTTCTCTCGTAAAAGGCTGATCACTAGGAGCTTCCAGAAACTCTATTCTATAAATTAATTATAAAATATATTCCAAATCTCCTATATTTCACTTATGTGAAAGGACCTCGGGTCTTAATCTACACGAAGCCCGTAGCGTACCATGGCATGCCTTAACGGTGACTTAATTAAACCATTTAATCAGCCGCACCCACCTCCGTACTCTAAACTAATAAAAAAAAAAAATAAAAAAAATTAATAAAAAATAAAAAAAATTAATAAAAAAAAAAAAAAAAATTAATAAAAAAAAAAAAAAAAATAAAGAAAAAAAATAATATTCAGTTTTTTACACCTTTTTAAACAATGCTTTTTATAGGTACTATTTTACCAACTAATACAAGAAATTCTTATTAGAAAATAAAACCCCGAATAATAATTAACAAAAGCTTGAAAACCTTCTAAAAATTCTACGTCGAACTTTTTTTCAAATTATTTAAACAACAAGAAACTAGGGCCAGTCATAGTTACCAAACCCAATCCCTAGCTACCCAAACATACCGAGAGAAGTCCATCAGGGCCTTGTACCATATAGGACGTTATCTAATCACTACTCCGACTTTTTTTAAAATTAAAAAAAAGATCTTACCAAAAATGTTCTTCTTAAACAAAAATACAAATTTTTGGTCTGAGAAAAAATCTTCATTTAAAAAATTACCAATTTTTTCAAATAAAAAATTCACCTTTTTTTTGTAAAAAAAAGATTACTAAAATTATTAAAAAAAATTCTTAAATACCTTCTTTTTGGAAAAAAGAAATTCTAAAATTTAAAATAAAAGAAAAAATTTACTTTTTTTACAAAAAATAAAAAATAAAAAATAAAATTTAACTGTAATATTAAAAATTTATTCATTAAATAAAAAAAAATATATAAGGAAAAAAAAAAAAAATATTTTTTTTTTACACCTAAAAATTATATTAAAAAATAGAAAAATAAGAAAAACTTAAAAAAAAAAATGAAAAAAGTCACTTTATATATAGATTTCTGGCGCAGCGTTTTTATGTACACAAAAAAAAAAATAAAAAAAAAATAAAATTCAACTGTAATATTAAAAATTTATTCATTAAATAAAAAAAAATATATAAGGGAAAAAAAAATAAAAAATAAAAAATAAAATTCAACTGTAATATTAAAAATTTATTCATTAAATAAAAAAAAATATATAAGGAGAAAAAAAAAAAATATTTTTTTTTTACACCTAAAAATTATATTAAAAAATAAAAAAATAAGAAAAACTTAAAAAAAAAAATGAAAAAAGTCACTTTATATATAGATTTCTGGCGCAGCGTTTTTATGTACACAAAAAAAAATAAAATTCAACTGTAATATTAAAAATTTATTCATTAAATAAAAAAAAATATATAAGGAAAAAAAAAAAAAATATTTTTTTTTTACACCTAAAAATTATATTAAAAAATAGAAAAATAAGAAAAACTTAAAAAAAAAAATGAAAAAAGTCACTTTATATATAGATTTCTGGCGCAGCGTTTTTATGTACACAAAAAAAAAAAATAAAAAAAAATAAATTCAACTGTAATATTAAAAATTTATTCATTAAATAAAAAAAAATATATAAGGAAAAAAAAAAAAATATTTTTTTTTTTACACCTAAAAATTATATTAAAAAATAGAAAAATAAGAAAAACTTAAAAAAAAAAATGAAAAAAGTCACTTTATATATAGATTTCTGGCGCAGCGTTTTTATGTACACAAAAAAAAAATAAAAAAAAAATAAAATTCAACTGTAATATTAAAAATTTATTCATTAAATAAAAAAAAATATATAAGGAAAAAAAAAAAAAATATTTTTTTTTTACACCTAAAAATTATATTAAAAAATAGAAAAATAAGAAAAACTTAAAAAAAAAAATGAAAAAAGTCACTTTATATATAGATTTCTGGCGCAGCGTTTTTATGTACACAAAAAAAAAATAAAAAAAAAAATAAAATTCAACTGTAATATTAAAAATTTATTCATTAAATAAAAAAAAATATATAAGGAGAAAAAAAAAAAATATTTTTTTTTTACACCTAAAAATTATATTAAAAAATAGAAAAATAAGAAAAACTTAAAAAAAAAAATGAAAAAAGTCACTTTATATATAGATTTCTGGCGCAGCGTTTTTATGTACACAAAAAAAAAAATAAAATTCAACTGTAATATTAAAAATTTATTCATTAAATAAAAAAAAATATATAAGGGAAAAAAAAAAAAATATTTTTTTTTTACACCTAAAAATTATATTAAAAAATAGAAAAATAAGAAAAACTTAAAAAAAAAAATGAAAAAAGTCACTTTATATATAGATTTCTGGCGCAGCGTTTTTATGTACACAAAAAAAAATAAAAAAAAATAAATTCAACTGTAATATTAAAAATTTATTCATTAAATAAAAAAAAATATATAAGGAAAAAAAAAAAAAATATTTTTTTTTTACACCTAAAAATTATATTAAAAAATAGAAAAATAAGAAAAACTTAAAAAAAAAAATGAAAAAAGTCACTTTATATATAGATTTCTGGCGCAGCGTTTTTATGTACACAAAAAAAAAATAAAAAAAAAATAAAATTCAACTGTAATATTAAAAATTTATTCATTAAATAAAAAAAAATATATAAGGAGAAAAAAAAAAAATATTTTTTTTTTACACCTAAAAATTATATTAAAAAATAGAAAAATAAGAAAAACTTAAAAAAAAAAATGAAAAAAGTCACTTTATATATAGATTTCTGGCGCAGCGTTTTTATGTACACAAAAAAAAAATAAAATTCAACTGTAATATTAAAAATTTATTCATTAAATAAAAAAAAATATATAAGGGAAAAAAAAAAAAATATTTTTTTTTTACACCTAAAAATTATATTAAAAAATAGAAAAATAAGAAAAACTTAAAAAAAAAAATGAAAAAAGTCACTTTATATATAGATTTCTGGCGCAGCGTTTTTATGTACACAAAAAAAAATAAAAAAAATAAAATTCAACTGTAATATTAAAAATTTCTTAATTAAAAAGTTTTCTTATGACCTTATTTACCCAAAAAATAAATTCTTCAAATAAAATAAAAAAACAAAAAAACCTTAAAAATGACAAATTTAAATACTAAATATACTATTTCATTAAAATGGTTTCTTTCATATAAAAAAATAGTTTATAAAAATTATTATAAACTATTTTTTATGGATTTTATAAAAATCCAATAAATTAAAAAGTTACATTTTAAAATATAACTTTTTAATATTAACTTATAAAATAACACACCTGTAAAATAAAATATCTTTATTCCAAGTAGTTCTTTAATGCCTAGAAAAATTTTCTAGCCTTAAAAGGAAATAATTTTTAAATTATCAATCAAAAAAATTTTGACTAAAAATTTAAAAAAGAAAGAAACCCAATAAAAAGGTTAAAATTAAAAAAAAATAAAAGAAATGGTTTTCAAAACCAAAAAATAACCAAAAACTAAAAAAAATCTTTGCAGACGAAATACAATATAATAAAAATTAATTTTTTAGAAAAGAACGAAAAGAACCAATAAAATTTAAACCCAAAAAAAATAAAAAAAGTAAAAAAAAAATAATAAAAAAAATAAAACTAAAAATATAAAAGGAAAAGAAAAAAGAAAAAAAAGATAAACTGAAAATTAAAAAATCATAAAAAAAAAATTAAAAAAAAAAATTAAAAAAAAAAAATTAAAAAAAAAAAATGACTTATAAACTGAAGAAAAAGTACCACAATAAACTAAAAAAAGAAAAACACCTGAAAAAAAAACTAACAAAATCAAAGCAAAAGGTATAAAGGAGATAAAAGGAGAAAAAGTAAATATAATAAAAAGAATTATTAAAACTAAGAAAAAAATAACTTTAAAAATATCCTTTCTAAAAATAGCGATAAAGAAACATAAAAGAACTAAATAAAAAAAAGTTTTTTATTAAACTTGTCTGCACAAAAATATAATCTTAAATAAAAAAACTATACAAAAGTTACCTAAAATTTCTCTTAAACCTAAAATAAAAATAATAAAAATATAATAAAAGGAAAAATATTATCTTCTTAGTATCTTCAAAACTAAATTTTAAAAAAAATAAACTAAAATATAAAAAATCTTTAACTTTTATTTTGTAGGAATATTGGTCTAATTTTAACCTAAAAATCTAAAAAATAATTTAATTAGAAAATAATTAAAAAAAATTAAAAATAAAAAAAAAAAATAAAAAAAACAAAAAAAAGCCCCCAAGAAAAGAAAAGGGATTTCTAGAAAGGAACTACCAATAAAAGTTAAAAAAAATCAAACTAATATAAAAATTAAAACTAAAAATTTATTACTAATATCTAAAACACCTCGTTCAAAGGTAAAAAAAAGTGGAAAAAAAAAAATCACAATTGATATTAATATTAATATTACTCCTAAAAGTTTATTAGAAACTGAGCGAAGAATAGCATAAACAAAAAGAAAATATCATTCAGGAACAATATGGATAGGACTAACAAGAAAATTAATTTCCTCAAATATTAAAACATCACTAAAAAAAAAAAGGAAAAAAAAGAAAAAAAACAAAAAAAAAAATAAAAAATAGAAAATTAATAAAATCCTTAAACCAAAAAAATGGAAAAAAGGTTTTTTTTAGAAAATTAGAATGAAGGAAAAGTTTGGATCTGCTACCATAAAAATGTAAAAAAAAAAAATGTAAAAAAATAAAAAAAATTAAAAAAAAAGGAAATAAAAAATGCAGAAAGAAAAAAAATTTTAAAGAATTTGATCTAAATAAAAAAGAACCTCAGAAAAAAAATATTAAATTAAAACCAAAAAAAGGGATTACCCTAAGAAGACTAGTAATAACAATCCCTGCCCAAAAAGATATTTGAGCTCAAACTATAACATAACCTAAAAAGGAGATTAATATTAATAAAAAAAGAATTAAAAGACCAAAAAACCAAACTTTTTTTAAACGTAAACTAAAAAAAAAAAAACCTTTAATAAAATGCAAAAAAATAATAATAAAAAAAAACCTGACAAGATTAAAATGCAAAATACGAAAAAATCAACCAAAATTAACCTCAAATATTAAATATTGTACAGAAAAAAATGAGAAAAAAGAAAAATTAGAATAATATAAAACCAAAAAAACACCTCTTAAAATCTGTAAAAAAAAAATAAAACCTAATAAACTACCAAAATTTCAAATATAACTTAAATTTAAAGAAACTGGGAGATTTTTAAAGAAGAACTAGCTAAAAAATCTAATGTAACACAAACAAAAATTTAAAAAATAAAATAAAAAGCTTTTAAAAATCTAAAAAAAAAAAATTAAAATTAAAAAAAATAAAAAAAAATATAATTTCATAAAAAAATCAAAAAAAGAAAAATTTTTTTCCTAAAAAAAAAATCATAATTAAAAAAAGAGAAAAATAAAAACCAAAAAAAAAAATAAAAAAAACCAAAAAAAAAGAAAAACTAAAAAAATTAATAAAAACAAAAAAAATAAAAAATTCACTATAAAAAGACAAAGATAAAGGTAAACCTCTATTTATTAAAAAAACTAAAATAAAAAAAAGAAGACAAAAAAAGTAAAAATAAAAAAAACCACCACCAAAATAGACTAAACGTCTACCTAAATTATGAAAAATTTCTCCAACAAAATAAAAACCTAAAACTGAAACAAAACCATGAGAAAGTATTATAAAAAGGGCTCCATTTTTTCCTAACTGAAAAAAAACTAGGTAAATAATTAAAATTATGCTTATATGAAAAACAGAGGAAAAAGCAACCAAAGATTTTAAATCTCTTTGTATTAAACAAATTAAAGAACAAAAAAAAAGTCCAATAATAGCAATAAACAAAAAAAAAAAAGAATTACTAAATAAAAAACTAATTAAAAATCGACTAAAACCATGAACCCCAAATTTTAATAAAATCCCAGCTAATAATATACTAGCAACAGTAGAAGCTTCAACATGTATTTTAGGTAATCAGAAATGTAAAAAAAAAACTGGAAATTTTATTAAAAAAACCAAAACCATAAAAAAAAATATTTTTTTATTTAATAAAGAATCAAAATAAACTAGAAATTTAATAAAATTTAGGTTAAAATCATTTAAAAAAATAAAAAGAAAAAAATAACCCAAAAAAAAAGAATAGAAAAATAAAAAAAAAATAGAATTAATTTTTTCAATTTGGACTCCAAAAAATAAAGTCAAAAAAACTACCGGGATTATAGAAAGTTCAAAAATAATAAAAAAAAAAATAAAACTTAAAATAAAAAAAAAAAAAAACCTTAAAAAAAAAAGAACAAAAGAAAAAAAAAAAATAACCCAGTTTTCTTCTATTAAAAAAATTAAAACCAACGTTAGAAATATAAAAAATACAAGACTAAAATTAAAAAAAAATTCAATTAAAAAAAATCTACCAGCCCAAAAAAAAAAAAATAAAAAAAAAAAAAATAAAAAAAAAAGAAAAAAAAAAAAATCTAAAAAAAAAAAAAAAAAAAAAAAATCTAAAAACCTTTTAATTACAAATTAAAAATTCTAAAAATTAAAATATAAAGAAAAAATTAAAAAACTCATCAATAAATAAAAAAAAAAAGAAAAAGTCAAACTACATCCACAAAATGTCAATAAATAATAGAAAATTCAAAACCAATATGATGAAAAAAATTTAAAGTTTTATTTTTTTGACGAAAGAAATTAATAAAAATAAAGATAATCCCTAATATTACATGTAAACCATGAAAACCTGTTATTAAAAAAAATAACCTACCAAAAACTCTGTCACTTAAGGTAAAGAAGGAATTTAAATATTCAGAAATTTGAATCAAAATAAAAAAAAATCCAAGAAAAATAGAAAAAAAAATTGAACTTAAAGAAAATCCATTAAATAAAAAAGTATAATGAGAAAAGGTAATAACCGAAGCTCTACCTAGAAGTAAAAGAGAATTAAAAAAGGGTAAACCAAAAGGGTTAATTTTTTCTAAACCTAAAGGGGTCGAAAAAAAACCTAAATCTATATTAGTTACCAAAACTAAATCAAAAAAAAACCAAAAAAACCTAAAAAAAAATATAACTTCACTAAAAAGAAAAAGTAAAAAACCAAACTTAAAACCGTCAATAGAAAAGAAAGAATGAAAGCCAACTAAAGCCTCAATAAAAACCAAAAAAAATCATTTAAAAAAAAATAAAAAAAAAATAATTACTATAAAAAAAAAAAAAAAATTAAATTTAAAAAAAATTAATAAACTAGAAAAAAAAAATAAAGTTAATAAACTAAAAAAAAAAGGTATAAACGAATTAGATAAATTCAATCAAAAAGTATAAAAAACCAGTCAATAACTCCGAAATATCAATTCAGTATAATTATAATTTTAATAAACTAGTAAAAAAACCTTTTAATAAAAAATTAAAAATACTTCAATATAATTTTTACCAAAAATAAATTAGACTAAAAAAAAAAAAAATACGATTAAAAGAAAAAAAATTAAAAAATTTTTTTCTTTTAAAAAAAAAAAAAGAAAAAGCTCCAATCAAAAATTAAAAAAAGAAAAAATAACAAAAAAAAAAAAAAATGGAAAAAAAAAAAAAAAAAAATAACTAGTAATAAAAAAAAAAAGAAAAATTTTAAAAAAAAAAGAAAATTTAATTGGTAAATTAAAAAAATAAAAAGCCTTTTCGAGATCTAATATATTCTTAGAAAGAATTAAAAAAAAAAAAAAAAAAAAATAAAAAAAAATAATAAAAAAAAAATCCCTTTCTAAATAAAAAATAAATAAAAAAAAAAAATTTAATCCTTCCAAGGAGAAAAAAAAAATAAATAATCTATAGTCATTAATGAAAAAAAAAATAATATATAAAAAAAATAAACCTAAAAAAAAAAAAAAAAATACTACAGAATAAAAAAGAAAAAAAAGAACTGGGATATAAACCAATTTTTTTAAAATTAAAAAAAAAATTATTAAAAAATCTTTTAAAAAAAAAATTAAAAAAAAAAATCAAAAAAAAAAAGGCCCTAAACCACTCTTAAATATTAAAATGACTCAAGTAAAAAAAAAATCAAAATTTAGTAAAAAAAAAAAACCTAATATTTCCTGAAAATAAAAAAAAAAAATTAAATTAATAAAAAAAAAATTATAGATTAATAAAAAATAGCAAAAAAAAATAACCAAAAAAAAAAATCTAAATCATCAAAAAATAAAACTTAAAAAAAAAAAATTATAATAAATAAAAAAAAAAATTATAAAAATAAATTACTTAAAAAAAACTAAATTTTCTAAATTTATATGAAAAAAATTTCCTGTTAAAAATTCTATTGAAGAATTTTCAATTAAATTAATTTTAGAGACCTTAAAAAAAAAAAAAGTATCCAGAACCAAAAAAATAAAAAAAACCAATGCTAAAAAACTAATAAAGGAACCAAAGGATCTAAGAACATTCCAAAAAAAAAAAAAATCACTATAATCTAAATATTTACGTGGAAACCCCTGTAAACCAACAAAATGTATAGGAAAAAAAGTAAGATTAACCCCTATAAAAAAAAATCAAAAAAAAAAATTAGAAAAAATATAATCAAAATTAAAAAAAAAAAAAAAATTAAAAATGTAAAAAAAACCAAGGAAAATACCAAAAATAGCTCCTATACTTAAGACATAATGAAAATGAGCTACCACATAATAAGAATCATGCAAAACTACATCCAAACTTGCGTTACTAAGAATTAAACCTCTTAAACCACCAATAGTAAAAAGGAAAATAAAACCAAAAACTCAATATATCAAAAAATTAAAAAAAAAAGGAGAGCCGTAAACCCTTATTAGCCAAGAAAAAACCTTAATACCAGTTGGAATAGCAATAATTATAGTAGCTGCACTAAAATACGCACGACTATCTATATCTATTCCAACAACAAATATATGATGAGCTCAAACTAAACAACCAATAAAACCAATACTAATAATAGCGTAAATTATTCCTAAATAACCAAAAAGAATTTTTTTACCTGTATAGAATTGGATAGTTAATCTAACTAAACCAAAAGCAGGTAAAATTAAAACATAAACCTCTGGATGACCAAAAAATCAAAATAAATGTTGAAAAACCAAAGGATTACCTCCACCTGTTCTATCAAAAAAATTTCCATTAAAATTACGATCAACTAATAAAAGAGTAATAGCTCCTGCCAAAACAGGTAGAGTTAAAATTAAAAGAAAAATTGAAATTAGAATTGTCCAAATAAAAAGATTAAGATTAAAAAAACTTAAAGTTATATTTTTTAAATTTTTAATGGTTACTCAAAAATTTAAACTACCCCCAATGGAACTAATACCTGCTAAATGTAAAGAAAGAATTGAAAAATCAACTCTATAACCTGGGTGGCCAAAACTACTAAGAGGTGGATAAAGGGTTCAACTTGTCCCTAGACCTTCATCTACTAAAAAACCAAAAAATAGAAATGTAATAGATATTGGTAATAATCAAAAACTCAAAGAATTAATTCGAGGAAAGGATAAATCAGAAGCAAAAATAAAAAATGGAACCAAAAAATTACCAAAAGCACCAATTAAAGCAGGTATAACTAAAAAAAAAATTATAATTAATGCATGACTAGTAATAAAAGAATTATATAACTGACCACTAGAAAAAAAAATGAAAGGATTTATTAATTCTAAACGAATCAAAAATGAAAAACTTGAACCTAAAAGACCAGACCAAAACGAAAAAAAAAGATATAAAATTCTAATCTCTTTATGATTAACGGTTCTAAAAAAAGAATAAACAAAAAGACTCATATTAATTTTTTTAAAAATCATTCAAAAAAAAAAGCTAAAAATATAAAAAAAAAAATTAAAAAAAAAATTAAAAAAAAAGATTTTAAAGTTATTAAAAAAATAGTTAATAAAAAAAACTCTAAATCAAATAATACAAATAAAAGTATTAAAAAATAAAAATGTAAAGAAAAAAAAATATTAGTTTCACCTAAAGAATTAAAACCCCTTTCAAAACTAAAAAGAGAATTAAAAAAAAAAAAAAAAAAGGAAAAAAAAAAATTAAAAAAAAAAAGAAAAAAAAAAATAAAAAAAAAAAATAAAAAATAGAAAAAAAATCAAATAATTAAAAAGATCCTTTCGTACATTTTTTAAAAAAAAAAATTAATCCAGATAAACAATTCTAACTTACGTCGAATTAAACTAATTTCACGTTTAAAAAATAGAAGAACAGTCTTAAAAAGAAAAAAAACTAAAAATTTTACTTATTTATAAAAAACAACACCGATGTAAAAAAATCCTGTTAACTCTAGAGAAATTTTAAAAACCAAAAAGGGTCACAAAAATTATAAAAAATTTTACCCTAAAAAAAATAAAAAAACAAATTTCTAAAGACTTCTCTTGGTATTATAAAAAAAAATAATTTTTAATTTTTTAATAAATTATTAAAAAAAATAAAAAAAAAAATAAAAAAAAACATTCATCCTCGAATCCATTAAAAAAACTAATTAATTTGCTACCTTAGACCAATCACGCTAAAGGTGCCTTTAAAATTAATAATCAAGAGGCAGTTTAAAAAAATTAAAAAAAAAATTACCAATTATTCTAAAAAAAAACTTTAAGAAAAAAAAATTAATAAAAAAAATTAGAAAAATAAAAAAAATTAAAAAAAATAATAATAGAAAAATTTTTTTTTTCTTAATAAATTAAAAAAAAAATAAAAAAATTAAAAAAAAAATAAAAAAAAAAACTTTAAACTTTTAAAACATTTTTTCAAAAATAAAAAAAATTTTATATTATAATTTTAACTTATAACTTTAAAAAATTTTTAATTTTAAATTTAAATTATAATTAATTAAAAATAAAAAACTTATCCTGAAATACAAAACCAAAAAAAAAAAATAAAAAAAATTTTAAATAATTTTTTAAAATTAAAAAATAAAAAAAGATTTAAAAAAATTTATAAGTGTTAATTCAATAACAACTGGTATAAAGGAATGATTAGCTCCACAGATTTCAGAACACTGACCATAAAAAACTCCAACTGATTCAAAGAAAAAATCTATAATATTTAAAAGACCACTTATAACGTCTATTTTTAAAAAAAATATAGGTAAAGTTCAAGAATGAATTACATCAAAAGAGGTTAAAACAAAACGGACAAAAAAATTAACTGGAAGAATTAGACGATTATCTACCTCTAAAAGTCGGTAGTCCCCCAACACAAAAAATTCGTCAGAAAGTATAAAAGAATCAAAGAAAAACCCTAAATTATCACCAATTTCATAAGATCAATATCATTGATGACCAACTACCTTAATAGTCAAGTCTGAACTAGTGTTAGAAAAATTAAAAAAAAAAAGTAAAAAAATAGAAGGAATAATTTGAGAAATCAAGAAAAAAATTGGAATAAAACATATCCAAAACTCCAATAAACCAAATCCTAAATTAAGATTAAAGAAAAAATTAAAAAAAAAAAGAAAAAAAAAAACAAAAAAAACAAAAAAAACAATTACAAATAATAAAAAACAATTAAAATTGTTAAATCAATCAAATCAAATAGATAAAAAACTAAAAAAAATAATAATATTAAAATCAAAAAAAAAGATAATAAATCTTTTTATTTTGCAAATAAAAATTTTTCATTAAAATAAATATCTAAAAATAATAACCTACAAAGGAAAATTCAGTTTAGAAAACTAAAAAAAAATATTTAAATTTTTTCCCCTTGAATGAAAAACAAAAATTCTAATAATAAAATAAAAATTCCAATAAATGAGAAATCTTTTAAGCTTAAAATAAAAATAATTAAAATATAATATACATTTAATAAAAAATTCACTAGCTTCTCCTTTAATAAGCAATAAAAAAATTCTAAAAATAAAATAAGCTAATTTTTTTATTTATAAACCTTATAAAACAAAAATATAAATTCTTCTTAAAATAAAAATAAAATAAAAAATAAAAATAAAAAAATAAAATAAAAAAAAAAATTAAAAAAAATTAAATTAGAAAAACAAAAAAAATTAAGCAAAAAATAATTTAAAAAAAAAATAAAAAATTCAAAAAAATTAAAAAAAAAAAGATTAATAAAAAAAAAAAAATAATTAAAAGAGAAAAATAAACGATAAAAAAAAATATTAAAAAAAAAAAAAAATCTATTAAAAAAAAAAAAAAATAAAAAAAAAAAAAAATAAAAATAAAAAAAATACTAATAAAAAAATCTAATTCTAAAAAAAAATAATAAAAAAAAAAAAATTAATAAAAAAAAAAAAATTTCAAAAAAAAGAAAAAAATAACAATAAAAAAGAAAGAAAAAGAAAAAAATAACTAAAAAAGATAAAAAAAATTTTTTTTATTCAAAAAAAAAAAAAAAAAAAAAAACTTTAAAACTATAAAAAAAAGTTAAAAAAAAACAAAAAAAAACAAAAAAAAAACAAAAAAAAACCAAAAAAACCTAAAAAAAAAAATTCTAAAATCAAATGCTTTCTAATAAATCCATTTAAAAAAAAGATTCTACATAAATTAAAAAGACTAGATATAATTTGAAATTTAACTCAGTTAAAATAATTTAAATTTAATGAAAAAAAAATTAAATTTTGTTGCCCGTTATTAATAAATATAAAAAAACCAACCTGTAAAAACAACAAACTTTTAAAGAAAGCATGACTAACTAAATGAAAAAAACTTAGAAAAAAAAAACCTAAAGAAAAAGTAAAAAAACAAAGACCTATCTGAGAAAGAGTTCTTAAAGCAACAATTTTTTTTAAATCTGATTCAAAAAAAACTAAAAAAGAAGAAAAAAAAAAAGAAAATAAACCAAAAAAAAAAATTAAAAAAAGAAAAAAAAAAAAAAACTTAAAAAAAAAAAGAAAAAGTAAAAAAACACCCGCAGTAACCAGAGTTCTACTATGAACCAAAGCACTGACAGGAGTAGGAGCTCTTATTGCCTTTGGTAATCATCCTATAAAAGGAAATTGGGCACTTTTAGTTATAGATGCTATAAAAAATCCTAAAAAAAAAAAACTAAAAAAAAAAAAAAAAAAATTAACTAAAAAAAAAAAAAAAAGAAAAAAATCACCTAAACGATTAACTAAAACTGTTAATATAGAACTAGATATTGAATCAAAATTATTATAATAATTAACTAAAAAAAAACTACTCAAACCTAAAAAATCCCAAAAAACAAAAATAAAAAAAAAAGTATCCCTTAAAATAAAAAAAATCATAGAAAAAACAAAAAAAAAAACTATAAAATAAAAATAAAAAAAAAAAATATCATTTTTTATATAAAAAAAACTAAAAAATAAAACAAATAATAAAATTAAAAACAGAACAAAAATAAAAAAAAAATTATAAATCCTCAAATTAAAACAAAAATCAAAAAGAAATCAAAAAAAATTAAAAAAAAAATTATAAAAAAAAAAAAATAAAAAGAAAAAAATAAAAAATAAAATAACAAAAAAAAATTCAAAAAAAAAAAATTTAAAAAAATTTATTTAAAAAATAAAGAATTAAAAAAAAGATTTTCCGTACCAAAAAAAACTAAACTTATAATAAAAAAAAATAAAAAAAAAATTGTAGAACAAACTCTAAGAGAAAGAAAAAAAAAAAACCTAAAAACCTTAAAAATTAAAATCAAAATTATAAAAATAAAAAAAACAATTAACTCCAAAAAAACAATAAAACCTATAATTTTCTCTCCTTTGACTAAGCCCACAATCATAATAAAAAAAAAAATAAGAAACAAAATAAAAATAAAAAATACTTAAAAAATATAAATACCTACTAAGGAATTTTTTTATAAAACTACTCACTGAGATAAAAAATTAATAAAATAAAAAATAAATAAACTTGAATTAAAACAACCATAAAATCAAAAATTAAAATAAAAAAAAAAAAAGGAAAAAAATAAAAAAAATTAAAAAAAAAAAAAAGAACTAAAAGTTTAAAACAATGACCAAAAACCAAATTAACTATCAAACGTAAAGAAAGAGTAACAGGACGAAAAATTAAACTAAAAAATTCAACCCAAAATAAAAAGAAAACTAAAAAAAAATTAACTTCTAGAATCAAAAGGCTTAAAAATCCTTTTGATTCAAGGAAAGTTAAAAAAACAGAAAAAAAAAAAATAAAACCTAAAAAAAAAATAAAAAAAATAAAAAAATCAAAAAAATAAACAAAAAAATAAAAAAAACCTAAAATAAAATAAAAAAAAAAAAAAAAAATTAAATATAAGGATAAAATCTCATATTGTTTTAGCGAGAAAAAATTATAGAAGAAAAAAAAAATATTTAAATCAAAAAAATTAGAAAAAAAAACTAAACTAAAAAAAACTAAAAAATAAAAAAATAAAAAAAAAAAAAAATCATAATTAACAAAAAATTTTTATTACCTTAGAATAATGAATACTATAGACTATAAAATTATCATAGAAAATTTCTTTTTAAAAATAATAAAAAAAAAGCAAAAATAATAAAAAAAAAAAAAGTAAGAAAAAACCAAAAAAATATCATTAAAAAATCTAAACGTAACCGTGGAAAAAAACTACGAATAAAAATAATCAATAAAAAAAATGGAATTAAAAAAAAACTAAAAAAAAGACAAAAAAAAAAAATATAAAAAAAAAGAATAGAATATTCTGAAAGAAAAAAAAAAATAAAAAATAAACTACTAAACTCAATATTATAACCACTAACTAATTCTCTCTCACCTTCAGCTAGATCAAATGGGGAACGATTAGATTCAGCTAATACAAAAATTAATAGTACAAAAAAAAAAAACAAAAAAAAAAAACAAAAATCTTTTTTAAAAATATCAAAAGAACTAAAAAAAAAAAAACAAAAAACCAGAAAAAAAACAAAAACAAAATCAAAAGAAAAGGATTGAGCTATTAAACGTAAACTACCTAAAAAAGAAAATTTAGAAATACTAAAATAACTCAAAAAAAAAAATAAAAATAAAAAAAAAGCAATTATAGAAATTAAAAAAATAATATTAAAAAAAAGAGAGAAAAAAAAAAAAGAAAAAAAAAACCATAAAAATAAAGATAAAATAAACTGAATAAAAGAAAAAAAAAAAATAATATAAAAAAAAAAATTAAATAAAAAAAGAAACTCTTTACTTAAAAGTTTTAAACCATCAAGGATTGCTTGCAGATAACCAAAAAAGAAAAATTTATTCGGAGATAAACGTTCCTGAGAAAAAGCTAAAAGATAATGCTCAGTCATTACAAAAAAAACAACAGATAGTAAAATTAAAAGAAAAAAAAATAAAAACTAAAAGCTTTAAAATTTTTATTTTTACAGAATAATATTTTAATATTTAAAATAAAAACTTAAGAAATAAAAATATTCAATTTTTTTTACCTATTAATATGAAATTAAAAATTCTAAAATTAAAATAAAAAATTTTATTTAAGATTTAAGTTCTCACAAATCTACCTTACTACAACTTATCCCAAAATATAAATAAGGAACTGATGGACAATTAGTACTAAAAATAATAAAAATTAAAAAAAAAATAAATTTTTTTTTACTTTTTTTTCCTATTAATAAACAAAAATTAAACTATAATAAAAATTAAAAAAAAAATGTAGCTCAATTAAACTTAATTTTATACTCTATATATTTCTACAAAAAAAGTAAAAAAATAATATTTTTTTTAATAAAAAAAAAAAGATAAACATACAGAAAATAAAAAAAAAAGCTAAAATGGAGGTTTCTCCTATTAATTATCAAACTCCAAAAATTAATTATTTATTCCAACTTAATTCTTTCTATTTATAAAAAAAAATTACTCAAGTATTAAAAAAGAAAAAATAACTGGATTCAAACCCAGGTTTTTTAAAAAGAAATTGATTTTTTTTTTTATTAAAAAAAAATAAATTTTAAACAAAATATAAAAAACCTATAATAAATTAAAAAAATCTAAAAATCTAAAGTTAAAAATTAAAAAACGTATAGCCGATTCTTCTGGAACGTTTTAAAGACCATTAATAAAAAACTAATTAATTAATTAATAAAATAATTTAAACTTAAATAAAATTTTTTTATTAACCAAAAAACTAAAACAAAAAATAAAAAGATTAAAAACTTCTTATTAACATTAAGATATTATAAAAATTAAATAAAACCTTTTTTTACAAAAATAATAATTATTACATCAAAATGAAAAGGGATCTAATTAATCTTTTTTACTTTTTTTCCAAAAGAGATAACTTAGGAAAAAAGATTAATTAGATCCAAAAAATAAAAAATATAATTTTTAGTTTTTTTTTGGTTTTATGACTCTAATCTTAAAAAAAAAACTGTTTTTTTTTAATAAATTAGTTAATTTTAAATTAATTAATATAAATAAATTAATATTAATTAATTTAAAATTAACTAATTAATTAAAAAAAATAGATATTAATTCTTAATATATTCTCTTTAAGTGTAAGAAAAAGTTGTTCTTTGTATTAAAAACTTCTTTATTCTTTCATATTTTAATTAAACACAACTTTTAAAAAACCCTTTACACATCTGATTTAACGTTTTATGGTAAAAACTTTAAATCTAGTGTTCCTCATATGCAGTTTTTTAATTAATTAAAAAAACTTAATTCGACGGTTGATGAATAAAAGAGTAATATTGACATAATTAAATATTATTCTATTAGATTCTTTCTAATTTAAGAATTACTAGAAAATTTTTTTAAAAAGATTCGATCGCTTACTAACCTCTTGGTATTAGGTTTAGTTTATAAAATAAACTTTAAATTAAATTAAAGCTGAATCACTTTTAAAATTTTCTAAAAGATTCTTTTAATGGTTGAATATTAAATGAATTAACCTTAAAGTAAGTCAACATCTTTTAACCAATTTAATATTTTTAAATATTATTTTTTAATATATTAAAAAAAAAATAACTTAGTTATAACACACCTGTATAGTTAGAAATATTAACAAGTTTTTTATAATTTTTTATATTTGTTAAAAACCTTAACTTTTTATTTTAAATATTCTTGTTTTATTTAGACTTGTACGCTTTGCTATTTTTAATGCTAAATAACTTTTTTTATTATGACTTAATTATAAAAATTTCTTAATTAAAGGATTAATATCTAACCGAAAAATCTGGAAATTCAAAAAAAAGAGAAAATAAATATTTTTCTAATTAATAAAAATTCTTAACAATATATATATATTAAAGAAATATAGAATTTTGTTTTATTTTTTTATACTTTTTTAAGATTAGAGTCAAAAAATAAATTTTTTGAACACTTTAACTAAAAAGTATTTTTTATTTTTTATTATAATTAGTTTTACTACATATTGATTATTTACCTATCATAATTATTAGGGTAACTTTCCTATGTTTTTTTGTTACTAATTTTTTTTCCAAGTGTTTTTTTTTTAGTTTTTTAAAAAACCAATATTATTTTTTTAGTAAAATACCATACTAAAAATTTAAATGTAATAATTTTCAGTTTTTTTAGATTTTATAAATTTATCTGAATTTTATTT


Mitochondrial Annotation


In text form.

Name    Start   Stop    Strand  Length  Structure
trnT(tgt)   5203    5260    +   58  svg ps
trnG(tcc)   6277    6334    -   58  svg ps
cob-1_b     7382    8050    -   669     
trnP(tgg)   8562    8609    -   48  svg ps
trnD(gtc)   8619    8672    -   54  svg ps
nad6-3_c    8993    9106    -   114     
nad6-1  9108    9470    -   363     
nad6-3_a    9498    9524    -   27  
nad6-3_b    9528    9530    -   3   
nad5-1  9580    9594    -   15  
trnF(gaa)   9585    9640    -   56  svg ps
trnV(tac)   9649    9704    -   56  svg ps
cob-0_b     9738    10172   -   435     
cob-0_a     10087   10764   -   678     
nad4    10934   11857   -   924     
nad6-2  11942   12142   -   201     
cox3    12109   12825   -   717     
trnI(gat)   12862   12919   -   58  svg ps
nad2    12982   13782   -   801     
cox1    13894   15303   -   1410    
nad3    15318   15608   -   291     
rrnL    15647   16091   -   445     svg ps
cox2    16464   17081   -   618     
trnC(gca)   17125   17180   -   56  svg ps
trnS2(aga)  17196   17252   +   57  svg ps
nad5-0  17991   18977   -   987     
nad4l   19109   19366   -   258     
atp6    19333   19572   -   240     
nad6-0  19684   20067   -   384     
nad1    20022   20777   -   756     
trnY(gta)   20802   20859   -   58  svg ps
atp8    21541   21690   -   150   

Swapping out scaffold and getting stats

old scaffold name = 000114|quiver
new scaffold name = atp8trnDadded

#remove old 000114|quiver scaffold
#####grep -vFw ">000114|quiver" <( grep ">" genome738sl.polished.fasta |sed 's/>//g'|cut -f 1 -d " " |cdbyank genome738sl.polished.fasta.cidx) >genome738sl.polished.Mito.fasta &
######is it gone? yes.
#####grep "000114" genome738sl.polished.Mito.fasta
The above script only deleted the header.  I ended up deleting the scaffold manually in vi.
#add in the new
cat genome738sl.polished.Mito.fasta final.000114.fa >genome738sl.polished.mitoFixed.fa
~/common_scripts/new_Assemblathon.pl genome738sl.polished.mitoFixed.fa >newAssemblathon.stats.txt

Number of scaffolds        738
Total size of scaffolds  123846405
   Longest scaffold    2006230
  Shortest scaffold       3822
Number of scaffolds > 1K nt        738 100.0%
Number of scaffolds > 10K nt        728  98.6%
Number of scaffolds > 100K nt        344  46.6%
Number of scaffolds > 1M nt          7   0.9%
Number of scaffolds > 10M nt          0   0.0%
 Mean scaffold size     167814
Median scaffold size      91520
N50 scaffold length     304127
 L50 scaffold count        109
        scaffold %A      31.13
        scaffold %C      18.88
        scaffold %G      18.87
        scaffold %T      31.12
        scaffold %N       0.00
scaffold %non-ACGTN       0.00
Number of scaffold non-ACGTN nt          0
Percentage of assembly in scaffolded contigs       0.0%
Percentage of assembly in unscaffolded contigs     100.0%
Average number of contigs per scaffold        1.0

Circos representation of mitochondrial scaffold collapse

mkdir circos
cd circos/
cp ../../29_effectorMapping/circos/bands.conf .
cp ../../29_effectorMapping/circos/ticks.conf .
cp ../../29_effectorMapping/circos/ideogram.conf .
cp ../../29_effectorMapping/circos/housekeeping.conf .
cp ../../29_effectorMapping/circos/circos.test.delete  .
ln -s ../swapMitoScaffolds/final.000114.fa
ln -s ../000114.fa
module load ncbi-blast
makeblastdb -in 000114.fa -dbtype nucl -out orig.000114.blastdb
blastn -db orig.000114.blastdb -outfmt 6 -query final.000114.fa -out finaltoorig.blast.out awk '$12>10000 {print $1,$7,$8,$2,$9,$10}' finaltoorig.blast.out >syntenic.ribbons.txt
cat 000114.fa final.000114.fa |bioawk -c fastx '{print "chr - "$name" "$name" 0 " length($seq)" green"}' >mito.kary
sed -i 's/|quiver//g' syntenic.ribbons.txt
awk '{print $1,$2,$3,$4,$5,$6,"color=spectral-11-div"}' syntenic.ribbons.txt >tmp
mv tmp syntenic.ribbons.txt
#pasted in annotation and modified to make gene tracks
awk '{print "New_Mitochondria",$2,$3, "100"}' mitochondria.gff >gene.histogram
Had to modify the circos conf file, the ideogram.conf file, and the ticks.conf file to obtain ticks at the correct proportions #circos.test.delete -conf files

circos conf file

karyotype = ./mito.kary
chromosomes_units = 10000
label_size = 80p
  <<include ideogram.conf>>
  <<include ticks.conf>>
  <<include bands.conf>>
  <<include colors.brewer.conf>>
<links>
<link>
file=syntenic.ribbons.txt
radius = 0.94r
bezier_radius = 0.1r
thickness = 1
ribbon = yes
</link>
</links>

<plots>
<plot>
   type = histogram
   fill_color = green
   file =./gene.histogram
   r1 = .99r
   r0 = .92r
   orientation = out
   extend_bin  = no
   thickness = 10

 </plot>
<plot>
   type = histogram
   fill_color = green
   file =./oldgene.hist
   r1 = .99r
   r0 = .92r
   orientation = out
   extend_bin  = no
   thickness = 10

 </plot>

</plots>

<image>
  <<include /shared/software/GIF/programs/circos/0.69.2/etc/image.conf>>
angle_offset* =-140
</image>





<<include /shared/software/GIF/programs/circos/0.69.2/etc/colors_fonts_patterns.conf>>
<<include ./housekeeping.conf>>

ideogram.conf

<ideogram>
  <spacing>
    default = 0.002r
    break   = 20u
    axis_break_at_edge = yes
    axis_break         = yes
    axis_break_style   = 2

    <break_style 1>
     stroke_color     = black

     thickness        = 0.25r
     stroke_thickness = 2p
    </break>

    <break_style 2>
     stroke_color     = black
     stroke_thickness = 5p
     thickness        = 2r
    </break>
  </spacing>
  radius           = 0.91r
  thickness        = 40p
  fill             = yes
  stroke_color     = white
  stroke_thickness = 2p
  fill_color       = black
  show_label       = yes
  label_font       = bold
  label_size       = 40
  label_parallel   = yes
  label_radius = dims(ideogram,radius_outer) + 0.06r
</ideogram>

ticks.conf

show_ticks          = yes
show_tick_labels    = yes

show_grid = no
grid_start         = dims(ideogram,radius_inner)-0.5r
grid_end           = dims(ideogram,radius_inner)

<ticks>
skip_first_label     = yes
skip_last_label      = no
radius               = dims(ideogram,radius_outer)
tick_separation      = 2p
min_label_distance_to_edge = 0p
label_separation = .4p
label_offset     = 2p
label_size = 28p
multiplier = 0.001
color = black
  label_parallel   = yes








<tick>
spacing        = 2u
size           = 28p
thickness      = 1p
color          = black
show_label     = yes
label_size     = 28p
label_offset   = 0p
suffix = kb
format         = %s
grid           = yes
grid_color     = lgrey
grid_thickness = 1p
</tick>
<tick>
spacing        = 10u
size           = 28p
thickness      = 4p
color          = black
show_label     = yes
suffix = kb
label_size     = 28p
label_offset   = 0p
format         = %s
grid           = yes
grid_color     = grey
grid_thickness = 1p
</tick>
<tick>
spacing        = 100u
size           = 28p
thickness      = 2p

Mitochondrial Collapse Circos