In [2]:
import re

# sourced from https://www.ncbi.nlm.nih.gov/nuccore/KF745068.1
covid_sequence = '''ttgtggcatt aatttgcctg ctcatctagg cagtggacat atgctcaaca ctgggtataa
       61 ttctaattga atactatttt tcagttagag cgtcgtgtct cttgtacgtc tcggtcacaa
      121 tacacggttt cgtccggtgc gtggcaattc ggggcacatc atgtctttcg tggctggtgt
      181 gaccgcgcaa ggtgcgcgcg gtacgtatcg agcagcgctc aactctgaaa aacatcaaga
      241 ccatgtgtct ctaactgtgc cactctgtgg ttcaggaaac ctggttgaaa aactttcacc
      301 atggttcatg gatggcgaaa atgcctatga agtggtgaag gccatgttac ttaaaaagga
      361 gccacttctc tatgtgccca tccggctggc tggacacact agacacctcc caggtcctcg
      421 tgtatacctg gttgagaggc tcattgcttg tgaaaatcca ttcatggtta accaattggc
      481 ttatagctct agtgcaaatg gcagcttggt tggcacaact ttgcagggca agcctattgg
      541 tatgttcttc ccttatgaca tcgaacttgt cacaggaaag caaaatattc tcctgcgcaa
      601 gtatggccgt ggtggttatc actacacccc attccactat gagcgagaca acacctcttg
      661 ccctgagtgg atggacgatt ttgaggcgga tcctaaaggc aaatatgccc agaatctgct
      721 taagaagttg attggcggtg atgtcactcc agttgaccaa tacatgtgtg gcgttgatgg
      781 aaaacccatt agtgcctacg catttttaat ggccaaggat ggaataacca aactggctga
      841 tgttgaagcg gacgtcgcag cacgtgctga tgacgaaggc ttcatcacat taaagaacaa
      901 tctatataga ttggtttggc atgttgagcg taaagacgtt ccatatccta agcaatctat
      961 ttttactatt aatagtgtgg tccaaaagga tggtgttgaa aacactcctc ctcactattt
     1021 tactcttgga tgcaaaattt taacgctcac cccacgcaac aagtggagtg gcgtttctga
     1081 cttgtccctc aaacaaaaac tcctttacac cttctatggt aaggagtcac ttgagaaccc
     1141 aacctacatt taccactccg cattcattga gtgtggaagt tgtggtaatg attcctggct
     1201 tacagggaat gctatccaag ggtttgcctg tggatgtggg gcatcatata cagctaatga
     1261 tgtcgaagtc caatcatctg gcatgattaa gccaaatgct cttctttgtg ctacttgccc
     1321 ctttgctaag ggtgatagct gttcttctaa ttgcaaacat tcagttgctc agttggttag
     1381 ttacctttct gagcgttgta atgttattgc tgattctaag tccttcacac ttatctttgg
     1441 tggcgtagct tacgcctact ttggatgtga ggaaggtact atgtattttg tgcctagagc
     1501 taagtctgtt gtctcaagga ttggagactc catctttaca ggctgtactg gctcttggaa
     1561 caaggtcact caaattgcta acatgttctt ggaacagact cagcattccc ttaactttgt
     1621 gggagagttc gttgtcaacg atgttgtcct cgcaattctc tctggaacca caactaatgt
     1681 tgacaaaata cgccagcttc tcaaaggtgt tacccttgac aagttgcgtg attatttagc
     1741 tgactatgac gtagcagtca ctgccggccc attcatggat aatgctatta atgttggtgg
     1801 tacaggatta cagtatgccg ccattactgc accttatgta gttctcactg gcttaggtga
     1861 gtcctttaag aaagttgcaa ccataccgta caaggtttgc aactctgtta aggatactct
     1921 gacttattat gctcacagcg tgttgtacag agtttttcct tatgacatgg attctggtgt
     1981 gtcatccttt agtgaactac tttttgattg cgttgatctt tcagtagctt ctacctattt
     2041 tttagtccgc ctcttgcaag ataagactgg cgactttatg tctacaatta ttacttcctg
     2101 ccaaactgct gttagtaagc ttctagatac atgttttgaa gctacagaag caacatttaa
     2161 cttcttgtta gatttggcag gattgttcag aatctttctt cgcaatgcct atgtgtacac
     2221 ttcacaaggg tttgtggtgg tcaatggcaa agtttctaca cttgtcaaac aagtgttaga
     2281 cttgcttaat aagggtatgc aacttttgca tacaaaggtc tcctgggctg gttctaatat
     2341 cagtgctgtt atctacagcg gcagggagtc tctaatattc ccatcgggaa cctattactg
     2401 tgtcaccact aaggctaagt ccgttcaaca agatcttgac gttattttgc ctggtgagtt
     2461 ttccaagaag cagttaggac tgctccaacc tactgacaat tctacaactg ttagtgttac
     2521 tgtatccagt aacatggttg aaactgttgt gggtcaactt gagcaaacta atatgcatag
     2581 tcctgatgtt atagtaggtg actatgtcat tattagtgaa aaattgtttg tgcgtagtaa
     2641 ggaagaagac ggatttgcct tctaccctgc ttgcactaat ggtcatgctg taccgactct
     2701 ctttagactt aagggaggtg cacctgtaaa aaaagtagcc tttggcggtg atcaagtaca
     2761 tgaggttgct gctgtaagaa gtgttactgt cgagtacaac attcatgctg tattagacac
     2821 actacttgct tcttctagtc ttagaacctt tgttgtagat aagtctttgt caattgagga
     2881 gtttgctgac gtagtaaagg aacaagtctc agacttgctt gttaaattac tgcgtggaat
     2941 gccgattcca gattttgatt tagacgattt tattgacgca ccatgctatt gctttaacgc
     3001 tgagggtgat gcatcttggt cttctactat gatcttctct cttcaccccg tcgagtgtga
     3061 cgaggagtgt tctgaagtag aggcttcaga tttagaagaa ggtgaatcag agtgcatttc
     3121 tgagacttca actgaacaag ttgacgtttc tcatgaggtt tctgacgacg agtgggctgc
     3181 tgcagttgat gaagcgttcc ccctcgatga agcagaagat gttactgaat ctgtgcaaga
     3241 agaagcacaa ccagtagaag tacctgttga agatattgcg caggttgtca tagctgacac
     3301 cttacaggaa actcctgttg tgtctgatac tgttgaagtc ccaccgcaag tggtgaaact
     3361 tccgtctgaa cctcagacta tccagcccga ggtaaaagaa gttgcacctg tctatgaggc
     3421 tgataccgaa cagacacaga gtgttactgt taaacctaag aggttacgca aaaagcgtaa
     3481 tgttgaccct ttgtccaatt ttgaacataa ggttattaca gagtgcgtta ccatagtttt
     3541 aggtgacgca attcaagtag ccaagtgcta tggggagtct gtgttagtta atgctgctaa
     3601 cacacatctt aagcatggcg gtggtatcgc tggtgctatt aatgcggctt caaaaggggc
     3661 tgtccaaaaa gagtcagatg agtatattct ggctaaaggg ccgttacaag taggagattc
     3721 agttctcttg caaggccatt ctctagctaa gaatatcctg catgtcgtag gcccagatgc
     3781 ccgcgctaaa caggatgttt ctctccttag taagtgctat aaggctatga atgcatatcc
     3841 tcttgtagtc actcctcttg tttcagcagg catatttggt gtaaaaccag ctgtgtcttt
     3901 tgattatctt attagagagg ctaagactag agttttagtc gtcgttaatt cccaagatgt
     3961 ctataagagt cttaccatag ttgacattcc acagagtttg actttttcat atgatgggtt
     4021 acgtggcgca atacgtaaag ctaaagatta tggttttact gtttttgtgt gcacagacaa
     4081 ctctgctaac actaaagttc ttaggaacaa gggtgttgat tatactaaga agtttcttac
     4141 agttgacggt gtgcaatatt attgctacac gtctaaggac actttagatg atatcttaca
     4201 acaggctaat aagtctgttg gtattatatc tatgcctttg ggatatgtgt ctcatggttt
     4261 agacttaatt caagcaggga gtgtcgtgcg tagagttaac gtgccctacg tgtgtctcct
     4321 agctaataaa gagcaagaag ctattttgat gtctgaagac gttaagttaa acccttcaga
     4381 agattttata aagcacgtcc gcactaatgg tggttacaat tcttggcatt tagtcgaggg
     4441 tgaactattg gtgcaagact tacgcttaaa taagctcctg cattggtctg atcaaaccat
     4501 atgctacaag gatagtgtgt tttatgttgt aaagaatagt acagcttttc catttgaaac
     4561 actttcagca tgtcgtgcgt atttggattc acgcacgaca cagcagttaa caatcgaagt
     4621 cttagtgact gtcgatggtg taaattttag aacagtcgtt ctaaataata agaatactta
     4681 tagatcacag cttggatgcg ttttctttaa tggtgctgat atttctgata ccattcctga
     4741 tgagaaacag aatggtcaca gtttatatct agcagacaat ttgactgctg atgaaacaaa
     4801 ggcgcttaaa gagttatatg gccccgttga tcctactttc ttacacagat tctattcact
     4861 taaggctgca gtccataagt ggaagatggt tgtgtgtgat aaggtacgtt ctctcaaatt
     4921 gagtgataat aattgttatc ttaatgcagt tattatgaca cttgatttat tgaaggacat
     4981 taaatttgtt atacctgctc tacagcatgc atttatgaaa cataagggcg gtgattcaac
     5041 tgacttcata gccctcatta tggcttatgg caattgcaca tttggtgctc cagatgatgc
     5101 ctctcggtta cttcataccg tgcttgcaaa ggctgagtta tgctgttctg cacgcatggt
     5161 ttggagagag tggtgcaatg tctgtggcat aaaagatgtt gttctacaag gcttaaaagc
     5221 ttgttgttac gtgggtgtgc aaactgttga agatctgcgt gctcgcatga catatgtatg
     5281 ccagtgtggt ggtgaacgtc atcggcaaat agtcgaacac accaccccct ggttgctgct
     5341 ctcaggcaca ccaaatgaaa aattggtgac aacctccacg gcgcctgatt ttgtagcgtt
     5401 taatgtcttt cagggcattg aaacggctgt tggccattat gttcatgctc gcctgaaggg
     5461 tggtcttatt ttaaagtttg actctggcac cgttagcaag acttcagact ggaagtgcaa
     5521 ggtgacagat gtacttttcc ccggccaaaa atacagtagc gattgtaatg tcgtacggta
     5581 ttctttggac ggtaatttca gaacagaggt tgatcccgac ctatctgctt tctatgttaa
     5641 ggatggtaaa tactttacaa gtgaaccacc cgtaacatat tcaccagcta caattttagc
     5701 tggtagtgtc tacactaata gctgccttgt atcgtctgat ggacaacctg gcggtgatgc
     5761 tattagtttg agttttaata accttttagg gtttgattct agtaaaccag tcactaagaa
     5821 atacacttac tccttcttgc ctaaagaaga cggcgatgtg ttgttggctg agtttgacac
     5881 ttatgaccct atttataaga atggtgccat gtataaaggc aaaccaattc tttgggtcaa
     5941 caaagcatct tatgatacta atcttaataa gttcaataga gctagtttgc gtcaaatttt
     6001 tgacgtagcc cccattgaac tcgaaaataa attcacacct ttgagtgtgg agtctacacc
     6061 agttgaacct ccaactgtag atgtggtagc acttcaacag gaaatgacaa ttgtcaaatg
     6121 taagggttta aataaacctt tcgtgaagga caatgtcagt ttcgttgctg atgactcagg
     6181 tactcccgtt gttgagtatc tgtctaaaga agatctacat acattgtatg tagaccctaa
     6241 gtatcaagtc attgtcttaa aagacaatgt actttcttct atgcttagat tgcacaccgt
     6301 tgagtcaggt gatattaacg ttgttgcagc ttctggatct ttgacacgta aagtgaaatt
     6361 actatttagg gcttcatttt atttcaaaga atttgctacc cgcactttca ctgctaccac
     6421 tgctgtaggt agttgtataa agagtgtagt gcggcatcta ggtgttacta gaggcatatt
     6481 gacaggctgt tttagttttg tcaagatgtt atttatgctt ccactagctt actttagtga
     6541 ttcaaaactc ggcaccacag aggttaaagt gagtgctttg aaaacagctg gcgttgtgac
     6601 aggtaatgtt gtaaaacagt gttgcactgc tgctgttgat ttaagtatgg ataagttgcg
     6661 ccgtgtggat tggaaatcaa ccctacggtt gttacttatg ttatgcacaa ctatggtatt
     6721 gttgtcttct gtgtatcact tgtatgtctt caatcaggtc ttatcaagtg atgttatgtt
     6781 tgaagatgcc caaggtttga aaaagttcta caaagaagtt agagcttacc taggaatctc
     6841 ttctgcttgt gacggtcttg cttcagctta tagggcgaat tcctttgatg tacctacatt
     6901 ctgcgcaaac cgttctgcaa tgtgtaattg gtgcttgatt agccaagatt ccataactca
     6961 ctacccagct cttaagatgg ttcaaacaca tcttagccac tatgttctta acatagattg
     7021 gttgtggttt gcatttgaga ctggtttggc atacatgctc tatacctcgg ccttcaactg
     7081 gttgttgttg gcaggtacat tgcattattt ctttgcacag acttccatat ttgtagactg
     7141 gcggtcatac aattatgctg tgtctagtgc cttctggtta ttcacccaca ttccaatggc
     7201 gggtttggta cgaatgtata atttgttagc atgcctttgg cttttacgca agttttatca
     7261 gcatgtaatc aatggttgca aagatacggc atgcttgctc tgctataaga ggaaccgact
     7321 tactagagtt gaagcttcta ccgttgtctg tggtggaaaa cgtacgtttt atatcacagc
     7381 aaatggcggt atttcattct gtcgtaggca taattggaat tgtgtggatt gtgacactgc
     7441 aggtgtgggg aataccttca tctgtgaaga agtcgcaaat gacctcacta ccgccctacg
     7501 caggcctatt aacgctacgg atagatcaca ttattatgtg gattccgtta cagttaaaga
     7561 gactgttgtt cagtttaatt atcgtagaga cggtcaacca ttttacgagc ggtttcccct
     7621 ctgcgctttt acaaatctag ataagttgaa gttcaaagag gtctgtaaaa ctactactgg
     7681 tatacctgaa tacaacttta tcatctacga ctcatcagat cgtggccagg aaagtttagc
     7741 taggtctgca tgtgtttatt attctcaagt cttgtgtaaa tcaattcttt tggttgactc
     7801 aagtttggtt acttctgttg gtgattctag tgaaatcgcc actaaaatgt ttgattcctt
     7861 tgttaatagt ttcgtctcgc tgtataatgt cacacgcgat aagttggaaa aacttatctc
     7921 tactgctcgt gatggcgtaa ggcgaggcga taacttccat agtgtcttaa caacattcat
     7981 tgacgcagca cgaggccccg caggtgtgga gtctgatgtt gagaccaatg aaattgttga
     8041 ctctgtgcag tatgctcata aacatgacat acaaattact aatgagagtt acaataatta
     8101 tgtaccctca tatgttaaac ctgatagtgt gtctaccagt gatttaggta gtctcattga
     8161 ttgtaatgcg gcttcagtta accaaattgt cttgcgtaat tctaatggtg cttgtatttg
     8221 gaacgctgct gcatatatga aactctcgga tgcacttaaa cgacagattc gcattgcatg
     8281 ccgtaagtgt aatttagctt tccggttaac cacctcaaag ctacgcgcta atgataatat
     8341 cttatcagtt agattcactg ctaacaaaat tgttggtggt gctcctacat ggtttaatgc
     8401 gttgcgtgac tttacgttaa agggttacgt tcttgctacc attattgtgt ttctgtgtgc
     8461 tgtactgatg tatttgtgtt tacctacatt ttctatggta cctgttgaat tttatgaaga
     8521 ccgcatcttg gactttaaag ttcttgataa tggtatcatt agggatgtaa atcctgatga
     8581 taagtgcttt gctaataagc accggtcctt cacacaatgg tatcatgagc atgttggtgg
     8641 tgtctatgac aactctatca catgcccatt gacagttgca gtaattgctg gagttgctgg
     8701 tgctcgcatt ccagacgtac ctactacatt ggcttgggtg aacaatcaga taattttctt
     8761 tgtttctcga gtctttgcta atacaggcag tgtttgctac actcctatag atgagatacc
     8821 ctataagagt ttctctgata gtggttgcat tcttccatct gagtgcacta tgtttaggga
     8881 tgcagagggc cgtatgacac catactgcca tgatcctact gttttgcctg gggcttttgc
     8941 gtacagtcag atgaggcctc atgttcgtta cgacttgtat gatggtaaca tgtttattaa
     9001 atttcctgaa gtagtatttg aaagtacact taggattact agaactctgt caactcagta
     9061 ctgccggttc ggtagttgtg agtatgcaca agagggtgtt tgtattacca caaatggctc
     9121 gtgggccatt tttaatgacc accatcttaa tagacctggt gtctattgtg gctctgattt
     9181 tattgacatt gtcaggcggt tagcagtatc actgttccag cctattactt atttccaatt
     9241 gactacctca ttggtcttgg gtataggttt gtgtgcgttc ctgactttgc tcttctatta
     9301 tattaataaa gtaaaacgtg cttttgcaga ttacacccag tgtgctgtaa ttgctgttgt
     9361 tgctgctgtt cttaatagct tgtgcatctg ctttgttgcc tctataccat tgtgtatagt
     9421 accttacact gcattgtact attatgctac attctatttt actaatgagc ctgcatttat
     9481 tatgcatgtt tcttggtaca ttatgttcgg gcctatcgtt cccatatgga tgacctgcgt
     9541 ctatacagtt gcaatgtgct ttagacactt cttctgggtt ttagcttatt ttagtaagaa
     9601 acatgtagaa gtttttactg atggtaagct taattgtagt ttccaggacg ctgcctctaa
     9661 tatctttgtt attaacaagg acacttatgc agctcttaga aactctttaa ctaatgatgc
     9721 ctattcacga tttttggggt tgtttaacaa gtataagtac ttctctggtg ctatggaaac
     9781 agccgcttat cgtgaagctg cagcatgtca tcttgctaaa gccttacaaa catacagcga
     9841 gactggtagt gatcttcttt accaaccacc caactgtagc ataacctctg gcgtgttgca
     9901 aagcggtttg gtgaaaatgt cacatcccag tggagatgtt gaggcttgta tggttcaggt
     9961 tacctgcggt agcatgactc ttaatggtct ttggcttgac aacacagtct ggtgcccacg
    10021 acacgtaatg tgcccggctg accagttgtc tgatcctaat tatgatgcct tgttgatttc
    10081 tatgactaat catagtttca gtgtgcaaaa acacattggc gctccagcaa acttgcgtgt
    10141 tgttggtcat gccatgcaag gcactctttt gaagttgact gtcgatgttg ctaaccctag
    10201 cactccagcc tacactttta caacagtgaa acctggcgca gcatttagtg tgttagcatg
    10261 ctataatggt cgtccgactg gtacattcac tgttgtaatg cgccctaact acacaattaa
    10321 gggttccttt ctgtgtggtt cttgtggtag tgttggttac accaaggagg gtagtgtgat
    10381 caatttttgt tacatgcatc aaatggaact tgctaatggt acacataccg gttcagcatt
    10441 tgatggtact atgtatggtg cctttatgga taaacaagtg caccaagttc agttaacaga
    10501 caaatactgc agtgttaatg tagtagcttg gctttacgca gcaatactta atggttgcgc
    10561 ttggtttgta aaacctaatc gcactagtgt tgtttctttt aatgaatggg ctcttgccaa
    10621 ccaattcact gaatttgttg gcactcaatc cgttgacatg ttagctgtca aaacaggcgt
    10681 tgctattgaa cagctgcttt atgcgatcca acaactttat actgggttcc agggaaagca
    10741 aatccttggc agtactatgt tggaagatga attcacacct gaggatgtta atatgcagat
    10801 tatgggtgtg gttatgcaga gtggtgtgag aaaagttaca tatggtactg cgcattggtt
    10861 gttcgcgacc cttgtctcaa cctatgtgat aatcttacaa gccactaaat ttactttgtg
    10921 gaactacttg tttgagacta ttcccacaca gttgttccca ctcttatttg tgactatggc
    10981 cttcgttatg ttgttggtta aacacaaaca cacctttttg acacttttct tgttgcctgt
    11041 ggctatttgt ttgacttatg caaacatagt ctacgagccc actactccca tttcgtcagc
    11101 gctgattgca gttgcaaatt ggcttgcccc cactaatgct tatatgcgca ctacacatac
    11161 tgatattggt gtctacatta gtatgtcact tgtattagtc attgtagtga agagattgta
    11221 caacccatca ctttctaact ttgcgttagc attgtgcagt ggtgtaatgt ggttgtacac
    11281 ttatagcatt ggagaagcct caagccccat tgcctatctg gtttttgtca ctacactcac
    11341 tagtgattat acgattacag tctttgttac tgtcaacctt gcaaaagttt gcacttatgc
    11401 catctttgct tactcaccac agcttacact tgtgtttccg gaagtgaaga tgatactttt
    11461 attatacaca tgtttaggtt tcatgtgtac ttgctatttt ggtgtcttct ctcttttgaa
    11521 ccttaagctt agagcaccta tgggtgtcta tgactttaag gtctcaacac aagagttcag
    11581 attcatgact gctaacaatc taactgcacc tagaaattct tgggaggcta tggctctgaa
    11641 ctttaagtta ataggtattg gcggtacacc ttgtataaag gttgctgcta tgcagtctaa
    11701 acttacagat cttaaatgca catctgtggt tctcctctct gtgctccaac agttacactt
    11761 agaggctaat agtagggcct gggctttctg tgttaaatgc cataatgata tattggcagc
    11821 aacagacccc agtgaggctt tcgagaaatt cgtaagtctc tttgccactt taatgacttt
    11881 ttctggtaat gtagatcttg atgcgttagc tagtgatatt tttgacactc ctagcgtact
    11941 tcaagctact ctttctgagt tttcacactt agctaccttt gctgagttgg aagctgcgca
    12001 gaaagcctat caggaagcta tggactctgg tgacacctca ccacaagttc ttaaggcttt
    12061 gcagaaggct gttaatatag ctaaaaacgc ctatgagaag gataaggcag tggcccgtaa
    12121 gttagaacgt atggctgatc aggctatgac ttctatgtat aagcaagcac gtgctgaaga
    12181 caagaaagca aaaattgtca gtgctatgca aactatgttg tttggtatga ttaagaagct
    12241 cgacaacgat gttcttaatg gtatcatttc taacgctagg aatggttgta tacctcttag
    12301 tgtcattcca ctgtgtgctt caaataaact tcgcgttgta attcctgact tcaccgtctg
    12361 gaatcaggta gtcacatatc cctcgcttaa ctacgctggg gctttgtggg acattacagt
    12421 tataaacaat gtggacaatg aaattgttaa gtcttcagat gttgtagaca gcaatgaaaa
    12481 tttaacatgg ccacttgttt tagaatgcac tagggcatcc acttctgccg ttaagttgca
    12541 aaataatgag atcaaacctt caggtttaaa aaccatggtt gtgtctgcag gtcaagagca
    12601 aactaactgt aatactagtt ccttagctta ttacgaacct gtgcagggtc gtaaaatgct
    12661 gatggctctt ctttctgata atgcctatct caaatgggcg cgtgttgaag gtaaggacgg
    12721 atttgttagt gtagagctac aacctccttg caaattcttg attgcgggac caaaaggacc
    12781 tgaaatccga tatctctatt ttgttaaaaa tcttaacaac cttcatcgcg ggcaagtgtt
    12841 agggcacatt gctgcgactg ttagattgca agctggttct aacaccgagt ttgcctctaa
    12901 ttcttcggtg ttgtcacttg ttaacttcac cgttgatcct caaaaagctt atctcgattt
    12961 cgtcaatgcg ggaggtgccc cattgacaaa ttgtgttaag atgcttactc ctaaaactgg
    13021 tacaggtata gctatatctg ttaaaccaga gagtacagct gatcaagaga cttatggtgg
    13081 agcttcagtg tgtctctatt gccgtgcgca tatagaacat cctgatgtct ctggtgtttg
    13141 taaatataag ggtaagtttg tccaaatccc tgctcagtgt gtccgtgacc ctgtgggatt
    13201 ttgtttgtca aataccccct gtaatgtctg tcaatattgg attggatatg ggtgcaattg
    13261 tgactcgctt aggcaagcag cactgcccca atctaaagat tccaattttt taaacgagtc
    13321 cggggttcta ttgtaaatgc ccgaatagaa ccctgttcaa gtggtttgtc cactgatgtc
    13381 gtctttaggg catttgacat ctgcaactat aaggctaagg ttgctggtat tggaaaatac
    13441 tacaagacta atacttgtag gtttgtagaa ttagatgacc aagggcatca tttagactcc
    13501 tattttgtcg ttaagaggca tactatggag aattatgaac tagagaagca ctgttacgat
    13561 ttgttacgtg actgtgatgc tgtagctccc catgatttct tcatctttga tgtagacaaa
    13621 gttaaaacac ctcatattgt acgtcagcgt ttaactgagt acactatgat ggatcttgta
    13681 tatgccctga ggcactttga tcaaaatagc gaagtgctta aggctatctt agtgaagtat
    13741 ggttgctgtg atgttaccta ctttgaaaat aaactctggt ttgattttgt tgaaaatccc
    13801 agtgttattg gtgtttatca taaacttgga gaacgtgtac gccaagctat cttaaacact
    13861 gttaaatttt gtgaccacat ggtcaaggct ggtttagtcg gtgtgctcac actagacaac
    13921 caggacctta atggcaagtg gtatgatttt ggtgacttcg taatcactca acctggttca
    13981 ggagtagcta tagttgatag ctactattct tatttgatgc ctgtgctctc aatgaccgat
    14041 tgtctggccg ctgagacaca tagggattgt gattttaata aaccactcat tgagtggcca
    14101 cttactgagt atgattttac tgattataag gtacaactct ttgagaagta ctttaaatat
    14161 tgggatcaga cgtatcacgc aaattgcgtt aattgtactg atgaccgttg tgtgttacat
    14221 tgtgctaatt tcaatgtatt gtttgctatg actatgccta agacttgttt cggacccata
    14281 gtccgaaaga tctttgttga tggcgtgcca tttgtagtat cttgtggtta tcactacaaa
    14341 gaattaggtt tagtcatgaa tatggatgtt agtctccata gacataggct ctctcttaag
    14401 gagttgatga tgtatgccgc tgatccagcc atgcacattg cctcctctaa cgcttttctt
    14461 gatttgagga catcatgttt tagtgtcgct gcacttacaa ctggtttgac ttttcaaact
    14521 gtgcggcctg gcaattttaa ccaagacttc tatgatttcg tggtatctaa aggtttcttt
    14581 aaggagggct cttcagtgac gctcaaacat tttttctttg ctcaagatgg taatgctgct
    14641 attacagatt ataattacta ttcttataat ctgcctacta tgtgtgacat caaacaaatg
    14701 ttgttctgca tggaagttgt aaacaagtac ttcgaaatct atgacggtgg ttgtcttaat
    14761 gcttctgaag tggttgttaa taatttagac aagagtgctg gccatccttt taataagttt
    14821 ggcaaagctc gtgtctatta tgagagcatg tcttaccagg agcaagatga actctttgcc
    14881 atgacaaagc gtaacgtcat tcctaccatg actcaaatga atctaaaata tgctattagt
    14941 gctaagaata gagctcgcac tgttgcaggc gtgtccatac ttagcacaat gactaatcgc
    15001 cagtaccatc agaaaatgct taagtccatg gctgcaactc gtggagcgac ttgcgtcatt
    15061 ggtactacaa agttctatgg tggctgggat ttcatgctta aaacattgta caaagatgtt
    15121 gataatccgc atcttatggg ttgggattac cctaagtgtg atagagctat gcctaatatg
    15181 tgtagaatct tcgcttcact catattagct cgtaaacatg gcacttgttg tactacaagg
    15241 gacagatttt atcgcttggc aaatgagtgt gctcaggtgc taagcgaata tgttctatgt
    15301 ggtggtggtt actacgtcaa acctggaggt accagtagcg gagatgccac cactgcatat
    15361 gccaatagtg tctttaacat tttgcaggcg acaactgcta atgtcagtgc acttatgggt
    15421 gctaatggca acaagattgt tgacaaagaa gttaaagaca tgcagtttga tttgtatgtc
    15481 aatgtttaca ggagcactag cccagacccc aaatttgttg ataaatacta tgcttttctt
    15541 aataagcact tttctatgat gatactgtct gatgacggtg tcgtttgcta taatagtgat
    15601 tatgcagcta agggttacat tgctggaata cagaatttta aggaaacgct gtattatcag
    15661 aacaatgtct ttatgtctga agctaaatgc tgggtggaaa ccgatctgaa gaaagggcca
    15721 catgaattct gttcacagca tacgctttat attaaggatg gcgacgatgg ttacttcctt
    15781 ccttatccag acccttcaag aattttgtct gccggttgct ttgtagatga tatcgttaag
    15841 actgacggta cactcatggt agagcggttt gtgtctttgg ctatagatgc ttaccctctc
    15901 acaaagcatg aagatataga ataccagaat gtattctggg tctacttaca gtatatagaa
    15961 aaactgtata aagaccttac aggacacatg cttgacagtt attctgtcat gctatgtggt
    16021 gataattctg ctaagttttg ggaagaggca ttctatagag atctctatag ttcgcctacc
    16081 actttgcagg ctgtcggttc atgcgttgta tgccattcac agacttccct acgctgtggg
    16141 acatgcatcc gtagaccatt tctctgctgt aaatgctgct atgatcatgt tatagcaact
    16201 ccacataaga tggttttgtc tgtttctctt tacgtttgta atgcccctgg ttgtggcgtt
    16261 tcagacgtta ctaagctata tttaggtggt atgagctact tttgtgtaga tcatagacct
    16321 gtgtgtagtt ttccactttg cgctaatggt cttgtattcg gcttatacaa gaatatgtgc
    16381 acaggtagtc cttctatagt tgaatttaat aggttggcta cctgtgactg gactgaaagt
    16441 ggtgattaca cccttgccaa tactacaaca gaaccactca aactttttgc tgctgagact
    16501 ttacgtgcca ctgaagaggc gtctaagcag tcttatgcta ttgccaccat caaagaaatt
    16561 gttggtgagc gccaactatt acttgtgtgg gaggctggca agtccaaacc accactcaat
    16621 cgtaattatg tttttactgg ttatcatata accaaaaata gtaaagtgca gctcggtgag
    16681 tacatcttcg agcgcattga ttatagtgat gctgtatcct acaagtctag tacaacgtat
    16741 aaactgactg taggtgacat cttcgtactt acctctcact ctgtggctac cttgacggcg
    16801 cccacaattg tgaatcaaga gaggtatgtt aaaattactg ggttgtaccc aaccattacg
    16861 gtacctgaag agttcgcaag tcatgttgcc aacttccaaa aatcaggtta tagtaaatat
    16921 gtcactgttc aggggccacc tggcactggc aaaagtcatt ttgctatagg gttagcgatt
    16981 tactacccta cagcacgtgt tgtttataca gcatgttcac acgcagctgt tgatgctttg
    17041 tgtgaaaaag cttttaaata tttgaacatt gctaaatgtt cccgtatcat tcctgcaaag
    17101 gcacgtgttg agtgctatga caggtttaaa gttaatgaga caaattctca atatttgttt
    17161 agtactatta atgctctacc agaaacttct gccgatattc tggtggttga tgaggttagt
    17221 atgtgcacta attatgatct ttcaattatt aatgcacgta ttaaagctaa gcacattgtc
    17281 tatgtaggag atccagcaca gttgccagct cctaggactt tgttgactag aggcacattg
    17341 gaaccagaaa atttcaatag tgtcactaga ttgatgtgta acttaggtcc tgacatattt
    17401 ttaagtatgt gctacaggtg tcctaaggaa atagtaagca ctgtgagcgc tcttgtctac
    17461 aataataaat tgttagccaa gaaggagctt tcaggccagt gctttaaaat actctataag
    17521 ggcaatgtga cgcatgatgc tagctctgcc attaatagac cacaactcac atttgtgaag
    17581 aattttatta ctgccaatcc ggcatggagt aaggcagtct ttatttcgcc ttataattca
    17641 cagaatgctg tggctcgttc aatgctgggc cttactactc agactgttga ttcctcacag
    17701 ggttcagaat accagtacgt tatcttctgt caaacagcag atacggcaca tgctaacaac
    17761 attaacagat ttaatgttgc aatcactcgt gcccaaaaag gtattctttg tgttatgaca
    17821 tctcaggcac tctttgagtc cttagagttt actgaattgt cttttactaa ttacaagctt
    17881 cagtctcaga ttgtaactgg cctttttaaa gattgctcta gagaaacttc tggcctctca
    17941 cctgcttatg caccaacata cgttagtgtt gatgacaagt ataagacgag tgatgagctt
    18001 tgcgtgaatc ttaatttacc cgcaaatgtc ccatactctc gtgttatttc caggatgggc
    18061 tttaaactcg atgcaacagt tcctggatat cctaagcttt tcattactcg tgaagaggct
    18121 gtaaggcaag ttcgaagctg gataggcttc gatgttgagg gtgctcatgc ttcccgtaat
    18181 gcatgtggca ccaatgtgcc tctacaatta ggattttcaa ctggtgtgaa ctttgttgtt
    18241 cagccagttg gtgttgtaga cactgagtgg ggtaacatgt taacgggcat tgctgcccgt
    18301 cctccaccag gtgaacagtt taagcacctc gtgcctctta tgcataaggg ggctgcatgg
    18361 cctattgtta gacgacgtat agtgcaaatg ttgtcagaca ctttagacaa attgtctgat
    18421 tactgtacgt ttgtttgttg ggctcatggc tttgaattaa cgtctgcatc atacttttgc
    18481 aagataggta aggaacagaa gtgttgcatg tgcaatagac gcgctgcagc gtactcttca
    18541 cctctgcaat cttatgcctg ctggactcat tcctgcggtt atgattatgt ctacaaccct
    18601 ttctttgtcg atgttcaaca gtggggttat gtaggcaatc ttgctactaa tcacgatcgt
    18661 tattgctctg tccatcaagg agctcatgtg gcttctaatg atgcaataat gactcgttgt
    18721 ttagctattc attcttgttt tatagaacgt gtggattggg atatagagta tccttatatc
    18781 tcacatgaaa agaaattgaa ttcctgttgt agaatcgttg agcgcaacgt cgtacgtgct
    18841 gctcttcttg ccggttcatt tgacaaagtc tatgatattg gcaatcctaa aggaattcct
    18901 attgttgatg accctgtggt tgattggcat tattttgatg cacagccctt gaccaggaag
    18961 gtacaacagc ttttctatac agaggacatg gcctcaagat ttgctgatgg gctctgctta
    19021 ttttggaact gtaatgtacc aaaatatcct aataatgcaa ttgtatgcag gtttgacaca
    19081 cgtgtgcatt ctgagttcaa tttgccaggt tgtgatggcg gtagtttgta tgttaacaag
    19141 cacgcttttc atacaccagc atatgatgtg agtgcattcc gtgatctgaa acctttacca
    19201 ttcttttatt attctactac accatgtgaa gtgcatggta atggtagtat gatagaggat
    19261 attgattatg tacccctaaa atctgcagtc tgtattacaa cttgtaattt agggggcgct
    19321 gtttgtagga agcatgctac agagtacaga gagtatatgg aagcatataa tcttgtctct
    19381 gcatcaggtt tccgcctttg gtgttataag acctttgata tttataatct ctggtctact
    19441 tttacaaaag ttcaaggttt ggaaaacatt gcttttaatg ttgttaaaca aggccatttt
    19501 attggtgttg agggtgaact acctgtagct gtagtcaatg ataagatctt caccaagagt
    19561 ggcgttaatg acatttgtat gtttgagaat aaaaccactt tgcctactaa tatagctttt
    19621 gaactctatg ctaagcgtgc tgtacgctcg catcccgatt tcaaattgct acacaattta
    19681 caagcagaca tttgctacaa gttcgtcctt tgggattatg aacgtagcaa tatttatggt
    19741 actgctacta ttggtgtatg taagtacact gatattgatg ttaattcagc tttgaatata
    19801 tgttttgaca tacgcgataa tggttcattg gagaagttca tgtctactcc caatgccatc
    19861 tttatttctg atagaaaaat caagaaatac ccttgtatgg taggtcctga ttatgcttac
    19921 ttcaatggtg ctatcatccg tgatagtgat gttgttaaac aaccagtgaa gttctacttg
    19981 tataagaaag tcaataatga gtttattgat cctactgagt gtatttacac tcagagtcgc
    20041 tcttgtagtg acttcctacc cctgtctgac atggagaaag actttctatc ttttgatagt
    20101 gctgttttca ttaagaagta tggcttggaa aactatgctt ttgagcacgt agtctatgga
    20161 gacttctctc atactacgtt aggcggtctt cacttgctta ttggtttata caagaagcaa
    20221 caggaaggtc atattattat ggaagaaatg ctaaaaggta gctcaactat tcataactat
    20281 tttattactg agactaacac agcggctttt aaggcggtgt gttctgttat agatttaaag
    20341 cttgacgact ttgttatgat tttaaagaat caagaccttg gcgtagtatc caaggttgtc
    20401 aaggttccta ttgacttaac aatgattgag tttatgttat ggtgtaagga tggacaggtt
    20461 caaaccttct accctcgact ccaggcttct gcagattgga aacctggtca tgcaatgcca
    20521 tccctcttta aagttcaaaa tgtaaacctt gaacgttgtg agcttgctaa ttacaagcaa
    20581 tctattccta tgcctcgcgg tgtgcacatg aacatcgcta aatatatgca attgtgccag
    20641 tatttaaata cttgcacatt agccgtgcct gccaatatgc gtgttataca ttttggcgct
    20701 ggttctgata aaggtatcgc tcctggtacc tcagttttac gacagtggct tcctacagat
    20761 gccattatta tagataatga tttaaacgag ttcgtgtcag atgctgacat aactttattt
    20821 ggagattgtg taactgtacg tgtcggccaa caagtggatc ttgttatttc cgacatgtat
    20881 gatcctacta ctaagaatgt aacaggtagt aatgagtcaa aggctttatt ctttacttac
    20941 ctgtgtaacc tcattaataa taatcttgct cttggtgggt ctgttgctat taaaataaca
    21001 gaacactctt ggagcgttga actttatgaa cttatgggaa aatttgcttg gtggactgtt
    21061 ttctgcacca atgcaaatgc atcctcatct gaaggattcc tcttaggtat taattacttg
    21121 ggtactatta aagaaaatat agatggtggt gctatgcacg ccaactatat attttggaga
    21181 aattccactc ctatgaatct gagtacttac tcactttttg atttatccaa gtttcaatta
    21241 aaattaaaag gaacaccagt tcttcaatta aaggagagtc aaattaacga actcgtaata
    21301 tctctcctgt cgcagggtaa gttacttatc cgtgacaatg atacactcag tgtttctact
    21361 gatgttcttg ttaacaccta cagaaagtta cgttgatgta gggccagatt ctgttaagtc
    21421 tgcttgtatt gaggttgata tacaacagac tttctttgat aaaacttggc ctaggccaat
    21481 tgatgtttct aaggctgacg gtattatata ccctcaaggc cgtacatatt ctaacataac
    21541 tatcacttat caaggtcttt ttccctatca gggagaccat ggtgatatgt atgtttactc
    21601 tgcaggacat gctacaggca caactccaca aaagttgttt gtagctaact attctcagga
    21661 cgtcaaacag tttgctaatg ggtttgtcgt ccgtatagga gcagctgcct attccactgg
    21721 cactgttatt attagcccat ctaccagcgc tactatacga aaaatttacc ctgcttttat
    21781 gctgggttct tcagttggta atttctcaga tggtaaaatg ggccgcttct tcaatcatac
    21841 tctagttctt ttgcccgatg gatgtggcac tttacttaga gctttttatt gtattctaga
    21901 gcctcgctct ggaaatcatt gtcctgctgg caattcctat acttcttttg ccacttatca
    21961 cactcctgca acagattgtt ctgatggcaa ttacaatcgt aatgccagtc tgaactcttt
    22021 taaggagtat tttaatttac gtaactgcac ctttatgtac acttataaca ttaccgaaga
    22081 tgagatttta gagtggtttg gcattacaca aactgctcaa ggtgttcacc tcttctcatc
    22141 tcggtatgtt gatttgtacg gcggcaatat gtttcaattt gccaccttgc ctgtttatga
    22201 cactattaag tattactcta tcattcctca cagtattcgt tctatccaaa gtgatagaaa
    22261 agcttgggct gccttctacg tatataaact tcaaccgtta actttcctgt tggatttttc
    22321 tgttgatggt tatatacgca gagctataga ctgtggtttt aatgatttgt cacaactcca
    22381 ctgctcatat gaatccttcg atgttgaatc tggagtttat tcagtttcgt ctttcgaagc
    22441 aaaaccttct ggctcagttg tggaacaggc tgaaggtgtt gaatgtgatt tttcacctct
    22501 tctgtctggc acacctcctc aggtttataa tttcaagcgt ttggttttta ccaattgcaa
    22561 ttataatctt accaaattgc tttcactttt ttctgtgaat gattttactt gtagtcaaat
    22621 atctccagca gcaattgcta gcaactgtta ttcttcactg attttggatt acttttcata
    22681 cccacttagt atgaaatccg atctcagtgt tagttctgct ggtccaatat cccagtttaa
    22741 ttataaacag tccttttcta atcccacatg tttgatttta gcgactgttc ctcataacct
    22801 tactactatt actaagcctc ttaagtacag ctatattaac aagtgctctc gtcttctttc
    22861 tgatgatcgt actgaagtac ctcagttagt gaacgctaat caatactcac cctgtgtatc
    22921 cattgtccca tccactgtgt gggaagacgg tgattattat aggaaacaac tatctccact
    22981 tgaaggtggt ggctggcttg ttgctagtgg ctcaactgtt gccatgactg agcaattaca
    23041 gatgggcttt ggtattacag ttcaatatgg tacagacacc aatagtgttt gccccaagct
    23101 tgaatttgct aatgacacaa aaattgcctc tcaattaggc aattgcgtgg aatattccct
    23161 ctatggtgtt tcgggccgtg gtgtttttca gaattgcaca gctgtaggtg ttcgacagca
    23221 gcgctttgtt tatgatgcgt accagaattt agttggctat tattctgatg atggcaacta
    23281 ctactgtttg cgtgcttgtg ttagtgttcc tgtttctgtc atctatgata aagaaactaa
    23341 aacccacgct actctatttg gtagtgttgc atgtgaacac atttcttcta ccatgtctca
    23401 atactcccgt tctacgcgat caatgcttaa acggcgagat tctacatatg gcccccttca
    23461 gacacctgtt ggttgtgtcc taggacttgt taattcctct ttgttcgtag aggactgcaa
    23521 gttgcctctc ggtcaatctc tctgtgctct tcctgacaca cctagtactc tcacacctcg
    23581 cagtgtgcgc tctgttccag gtgaaatgcg cttggcatcc attgctttta atcatcccat
    23641 tcaggttgat caacttaata gtagttattt taaattaagt atacccacta atttttcctt
    23701 tggtgtgact caggagtaca ttcagacaac cattcagaaa gttactgttg attgtaaaca
    23761 gtacgtttgc aatggtttcc agaagtgtga gcaattactg cgcgagtatg gccagttttg
    23821 ttccaaaata aaccaggctc tccatggtgc caatttacgc caggatgatt ctgtacgtaa
    23881 tttgtttgcg agcgtgaaaa gctctcaatc atctcctatc ataccaggtt ttggaggtga
    23941 ctttaatttg acacttctag aacctgtttc tatatctact ggcagtcgta gtgcacgtag
    24001 tgctattgag gatttgctat ttgacaaagt cactatagct gatcctggtt atatgcaagg
    24061 ttacgatgat tgtatgcatc aaggtccagc atcagctcgt gatcttattt gtgctcaata
    24121 tgtggctggt tataaagtat tacctcctct tatggatgtt aatatggaag ccgcgtatac
    24181 ttcatctttg cttggcagca tagcaggtgt tggctggact gctggcttat cctcctttgc
    24241 tgctattcca tttgcacaga gtatctttta taggttaaac ggtgttggca ttactcaaca
    24301 ggttctttca gagaaccaaa agcttattgc caataagttt aatcaggctc tgggagctat
    24361 gcaaacaggc ttcactacaa ctaatgaagc ttttcggaag gttcaggatg ctgtgaacaa
    24421 caatgcacag gctctatcca aattagctag cgagctatct aatacttttg gtgctatttc
    24481 cgcctctatt ggagacatca tacaacgtct tgatgttctc gaacaggacg cccaaataga
    24541 cagacttatt aatggccgtt tgacaacact aaatgctttt gttgcacagc agcttgttcg
    24601 ttccgaatca gctgctcttt ccgctcaatt ggctaaagat aaagtcaatg agtgtgtcaa
    24661 ggcacaatcc aagcgttctg gattttgcgg tcaaggcaca catatagtgt cctttgttgt
    24721 aaatgcccct aatggccttt acttcatgca tgttggttat taccctagca accacattga
    24781 ggttgtttct gcttatggtc tttgcgatgc agctaaccct actaattgta tagcccctgt
    24841 taatggctac tttattaaaa ctaataacac taggattgtt gatgagtggt catatactgg
    24901 ctcgtccttc tattcacctg agcccatcac ctcccttaat actaagtatg ttgcaccaca
    24961 ggtgacatac caaaacattt ctactaacct ccctcctcct cttctcggca attccaccgg
    25021 gattgacttc caagatgagt tggatgagtt tttcaaaaat gttagcacca gtatacctaa
    25081 ttttggttct ctaacacaga ttaatactac attactcgat cttacctacg agatgttgtc
    25141 tcttcaacaa gttgttaaag cccttaatga gtcttacata gaccttaaag agcttggcaa
    25201 ttatacttat tacaacaaat ggccgtggta catttggctt ggtttcattg ctgggcttgt
    25261 tgccttagct ctatgcgtct tcttcatact gtgctgcact ggttgtggca caaactgtat
    25321 gggaaaactt aagtgtaatc gttgttgtga tagatacgag gaatacgacc tcgagccgca
    25381 taaggttcat gttcactaat taacgaacta tcaatgagag ttcaaagacc acccactctc
    25441 ttgttagtgt tctcactctc tcttttggtc actgcattct caaaacctct ctatgtacct
    25501 gagcattgtc agaattattc tggttgcatg cttagggctt gtattaaaac tgcccaagct
    25561 gatacagctg gtctttatac aaattttcga attgacgtcc catctgcaga atcaactggt
    25621 actcaatcag tttctgtcga tcgtgagtca acttcaactc atgatggtcc taccgaacat
    25681 gttactagtg tgaatctttt tgacgttggt tactcagtta attaacgaac tctatggatt
    25741 acgtgtctct gcttaatcaa atttggcaga agtaccttaa ttcaccgtat actacttgtt
    25801 tgtatattcc taaacccaca gctaagtata cacctttagt tggcacttca ttgcaccctg
    25861 tgctgtggaa ctgtcagcta tcctttgctg gttatactga atctgctgtt aattctacaa
    25921 aagctttggc caaacaggac gcagctcagc gaatcgcttg gttgctacat aaggatggag
    25981 gaatccctga tggatgttcc ctctacctcc ggcactcaag tttattcgcg caaagcgagg
    26041 aagaggagcc attctccaac taagaaactg cgctacgtta agcgtagatt ttctcttctg
    26101 cgccctgaag accttagtgt tattgtccaa ccaacacact atgtcagggt tacattttca
    26161 gaccccaaca tgtggtatct acgttcgggt catcatttac actcagttca caattggctt
    26221 aaaccttatg gcggccaacc tgtttctgag taccatatta ctctagcttt gctaaatctc
    26281 actgatgaag atttagctag agatttttca cccattgcgc tctttttgcg caatgtcaga
    26341 tttgagctac atgagttcgc cttgctgcgc aaaactcttg ttcttaatgc atcagagatc
    26401 tactgtgcta acatacatag atttaagcct gtgtatagag ttaacacggc aatccctact
    26461 attaaggatt ggcttctcgt tcagggattt tccctttacc atagtggcct ccctttacat
    26521 atgtcaatct ctaaattgca tgcactggat gatgttactc gcaattacat cattacaatg
    26581 ccatgcttta gaacttatcc tcaacaaatg tttgttactc ctttggccgt agatgttgtc
    26641 tccatacggt cttccaatca gggtaataaa caaattgttc attcttaccc cattttacat
    26701 catccaggat tttaacgaac tatggctttc tcggcgtctt tatttaaacc cgtccagcta
    26761 gccccagttt ctcctgcatt tcatcgcatt gagtctactg actctattgt tttcacatac
    26821 attcctgcta gcggctatgt agctgcttta gctgtcaatg tgtgtctcat tcccctatta
    26881 ttactgctac gtcaagatac ttgtcgtcgc agcattatca gaactatggt tctctatttc
    26941 cttgttctgt ataacttttt attagccatt gtattagtca atggtgtaca ttatccaact
    27001 ggaagttgcc tgatagcctt cttagttatc ctcataatac tttggtttgt agatagaatt
    27061 cgtttctgtc tcatgctgaa ttcctacatt tcactgtttg acatgcgttc ccactttatt
    27121 cgtgttagta cagtttcttc tcatggtatg gtccctgtca tacacaccaa accattattt
    27181 attagaaact tcgatcagcg ttgcagctgt tctcgttgtt tttatttgca ctcttccact
    27241 tatatagagt gcacttatat tagccgtttt agtaagatta gcctagtttc tgtaactgac
    27301 ttctccttaa acggcaatgt ttccactgtt ttcgtgcctg caacgcgcga ttcagttcct
    27361 cttcacataa tcgccccgag ctcgcttatc gtttaagcag ctctgcgcta ctatgggtcc
    27421 cgtgtagagg ctaatccatt agtctctctt tggacatatg gaaaacgaac tatgttaccc
    27481 tttgtccaag aacgaatagg gttgttcata gtaaactttt tcatttttac cgtagtatgt
    27541 gctataacac tcttggtgtg tatggctttc cttacggcta ctagattatg tgtgcaatgt
    27601 atgacaggct tcaataccct gttagttcag cccgcattat acttgtataa tactggacgt
    27661 tcagtctatg taaaattcca ggatagtaaa ccccctctac cacctgacga gtgggtttaa
    27721 cgaactcctt cataatgtct aatatgacgc aactcactga ggcgcagatt attgccatta
    27781 ttaaagactg gaactttgca tggtccctga tctttctctt aattactatc gtactacagt
    27841 atggataccc atcccgtagt atgactgtct atgtctttaa aatgtttgtt ttatggctcc
    27901 tatggccatc ttccatggcg ctatcaatat ttagcgccgt ttatccaatt gatctagctt
    27961 cccagataat ctctggcatt gtagcagctg tttcagctat gatgtggatt tcctactttg
    28021 tgcagagtat ccggctgttt atgagaactg gatcatggtg gtcattcaat cctgagacta
    28081 attgcctttt gaacgttcca tttggtggta caactgtcgt acgtccactc gtagaggact
    28141 ctaccagtgt aactgctgtt gtaaccaatg gccacctcaa aatggctggc atgcatttcg
    28201 gtgcttgtga ctacgacaga cttcctaatg aagtcaccgt ggccaaaccc aatgtgctga
    28261 ttgctttaaa aatggtgaag cggcaaagct acggaactaa ttccggcgtt gccatttacc
    28321 atagatataa ggcaggtaat tacaggagtc cgcctattac ggcggatatt gaacttgcat
    28381 tgcttcgagc ttaggctctt tagtaagagt atcttaattg attttaacga atctcaattt
    28441 cattgttatg gcagcccctg ctgcacctcg tgctgtttcc tttgccgata acaatgatat
    28501 aacaaataca aacctgtctc gaggtagagg acgtaatcca aaaccacgag ctgcaccaaa
    28561 taacactgtc tcttggtaca ctgggcttac ccaacacggg aaagtccctc ttacctttcc
    28621 acctgggcag ggtgtacctc ttaatgccaa ttccacccct gcgcaaaatg ctgggtattg
    28681 gcggagacag gacagaaaaa ttaataccgg gaatggaatt aagcaactgg ctcccaggtg
    28741 gtacttctac tacactggaa ctggacccga agcagcactc ccattccggg ctgttaagga
    28801 tggcatcgtt tgggtccatg aagatggcgc cactgatgct ccttcaactt ttgggacgcg
    28861 gaaccctaac aatgattcag ctattgttac acaattcgcg cccggtacta agcttcctaa
    28921 aaacttccac attgagggga ctggaggcaa tagtcaatca tcttcaagag cctctagcgt
    28981 aagcagaaac tcttccagat ctagttcaca aggttcaaga tcaggaaact ctacccgcgg
    29041 cacttctcca ggtccatctg gaatcggagc agtaggaggt gatctacttt accttgatct
    29101 tctgaacaga ctacaagccc ttgagtctgg caaagtaaag caatcgcagc caaaagtaat
    29161 cactaagaaa gatgctgctg ctgctaaaaa taagatgcgc cacaagcgca cttccaccaa
    29221 aagtttcaac atggtgcaag cttttggtct tcgcggacca ggagacctcc agggaaactt
    29281 tggtgatctt caattgaata aactcggcac tgaggaccca cgttggcccc aaattgctga
    29341 gcttgctcct acagccagtg cttttatggg tatgtcgcaa tttaaactta cccatcagaa
    29401 caatgatgat catggcaacc ctgtgtactt ccttcggtac agtggagcca ttaaacttga
    29461 cccaaagaat cccaactaca ataagtggtt ggagcttctt gagcaaaata ttgatgccta
    29521 caaaaccttc cctaagaagg aaaagaaaca aaaggcacca aaagaagaat caacagacca
    29581 aatgtctgaa cctccaaagg agcagcgtgt gcaaggtagc atcactcagc gcactcgcac
    29641 ccgtccaagt gttcagcctg gtccaatgat tgatgttaac actgattagt gtcactcaaa
    29701 gtaacaagat cgcggcaatc gtttgtgttt ggcaatccca tctcaccatc gcttgtccac
    29761 tcttgcacag aatggaatca tgttgtaatt acagtgcaat aaggtaatta taacccattt
    29821 aattgatagc tatgctttat taaagtgtgt agctgtagag agaatgttaa agactgtcac
    29881 ctctgcgtga ttgcaagtga a'''
    

In [16]:
%run ../codons.py

codons = Codons(amino_acids_form = 'one_letter', hyphenated = False)
codons.translation(covid_sequence)
print(codons.proteins)

['LWH', 'LWHFACSSRZWTYAZHWV', 'LWHFACSSRZWTYAZHWVF', 'LWHFACSSRZWTYAZHWVFLBTIFZLERRVSCTSRSZYTVSSGAWZFGAHHVFRGWCDRARCARYVSSSAZL', 'LWHFACSSRZWTYAZHWVFLBTIFZLERRVSCTSRSZYTVSSGAWZFGAHHVFRGWCDRARCARYVSSSAZLKTSRPCVSBCATLWFRKPG', 'LWHFACSSRZWTYAZHWVFLBTIFZLERRVSCTSRSZYTVSSGAWZFGAHHVFRGWCDRARCARYVSSSAZLKTSRPCVSBCATLWFRKPGKTFTMVHGWRKCL', 'LWHFACSSRZWTYAZHWVFLBTIFZLERRVSCTSRSZYTVSSGAWZFGAHHVFRGWCDRARCARYVSSSAZLKTSRPCVSBCATLWFRKPGKTFTMVHGWRKCLSGEGHVT', 'LWHFACSSRZWTYAZHWVFLBTIFZLERRVSCTSRSZYTVSSGAWZFGAHHVFRGWCDRARCARYVSSSAZLKTSRPCVSBCATLWFRKPGKTFTMVHGWRKCLSGEGHVTKGATSLCAHPAGWTH', 'LWHFACSSRZWTYAZHWVFLBTIFZLERRVSCTSRSZYTVSSGAWZFGAHHVFRGWCDRARCARYVSSSAZLKTSRPCVSBCATLWFRKPGKTFTMVHGWRKCLSGEGHVTKGATSLCAHPAGWTHTPPRSSCIPG', 'LWHFACSSRZWTYAZHWVFLBTIFZLERRVSCTSRSZYTVSSGAWZFGAHHVFRGWCDRARCARYVSSSAZLKTSRPCVSBCATLWFRKPGKTFTMVHGWRKCLSGEGHVTKGATSLCAHPAGWTHTPPRSSCIPGEAHCL', 'LWHFACSSRZWTYAZHWVFLBTIFZLERRVSCTSRSZYTVSSGAWZFGAHHVFRGWCDRARCARYVSSSAZLKTSRPCVSBCATLWFRKPGKTFTMVHGWRKCLSGEGHVTKGATSLCAHPAGWTHTPPRSSCIPGE

In [13]:
print(len(codons.proteins))

749
