# IMPORTS

In [36]:
from Bio import SeqIO
import pandas as pd
import json

## INPUT FILE

In [37]:
input_fasta = 'covid_sequence.fa'

# INPUT ORFS INFO

In [38]:
orfs={
    '1A':{'START_NUMBER':266,'END_NUMBER':13483,'START_CODON':'ATG','END_CODON':'TAA'},
    '1AB':{'START_NUMBER':266,'END_NUMBER':21555,'START_CODON':'ATG','END_CODON':'TAA'},
    'SPIKE':{'START_NUMBER':21563,'END_NUMBER':25384,'START_CODON':'ATG','END_CODON':'TAA'},
    '3A':{'START_NUMBER':25393,'END_NUMBER':26220,'START_CODON':'ATG','END_CODON':'TAA'},
    '4':{'START_NUMBER':26245,'END_NUMBER':26472,'START_CODON':'ATG','END_CODON':'TAA'},
    '5':{'START_NUMBER':26523,'END_NUMBER':27191,'START_CODON':'ATG','END_CODON':'TAA'},
    '6':{'START_NUMBER':27202,'END_NUMBER':27387,'START_CODON':'ATG','END_CODON':'TAA'},
    '7A':{'START_NUMBER':27394,'END_NUMBER':27759,'START_CODON':'ATG','END_CODON':'TGA'},
    '7B':{'START_NUMBER':27756,'END_NUMBER':27887,'START_CODON':'ATG','END_CODON':'TAA'},
    '8':{'START_NUMBER':27894,'END_NUMBER':28262,'START_CODON':'ATG','END_CODON':'TAA'},
    '9':{'START_NUMBER':28281,'END_NUMBER':29540,'START_CODON':'ATG','END_CODON':'TAA'},
    '10':{'START_NUMBER':29565,'END_NUMBER':29681,'START_CODON':'ATG','END_CODON':'TAG'}
}

# WRITE METHODS

In [39]:
def write_header(output_file):
    text = 'SAMPLE,GAPS,N_BASES,LENGHT,START_CODON,END_CODON,START_POSIX,END_POSIX\n'
    file =  open(output_file,'a')
    file.write(text)
    file.close()
    
def write_quality(output_file,name,gaps,nbase,lenght,start_codon,end_codon,start_posix,end_posix):
    #ESCREVENDO PARAMETROS DE QUALIDADE
    text = f"{name},{gaps},{nbase},{lenght},{start_codon},{end_codon},{start_posix},{end_posix}\n"
    file =  open(output_file,'a')
    file.write(text)
    file.close()

def write_fasta(output_file,name,sequence):
    text = f'>{name}\n{sequence}\n'
    file =  open(output_file,'a')
    file.write(text)
    file.close()

# ORF1A

In [40]:
#DECLARAÇÃO DE VARIAVEIS UNICAS PRA CADA ORF
#Arquivos
output_file_quality = './output/quality_ORF_1A.csv'
output_file_fasta = './output/ORF_1A.fasta'

#posições genomicas
start_codon = orfs['1A']['START_CODON']
start_posix = orfs['1A']['START_NUMBER'] - 1
end_codon = orfs['1A']['END_CODON']
end_posix = orfs['1A']['END_NUMBER']


#CRIANDO HEADER DO ARQUIVO CSV DE QUALIDADE
write_header(output_file_quality)

#LENDO O ARQUIVO DE ENTRADA FASTA, NECESSÁRIO CHAMAR CADA VEZ QUE FOR ITERAR SOBRE AS SEQUENCIAS 
fasta_sequences = SeqIO.parse(open(input_fasta),'fasta')

#OLHANDO CADAS SEQUENCIA UNITARIAMENTE
for fasta in fasta_sequences:
    
    #PEGANDO NOME E SEQUENCIA DAS AMOSTRAS 
    name, sequence = fasta.id, str(fasta.seq)
    
    #ORF
    orf = sequence[start_posix : end_posix]
    
    #ANALISE DE PARAMETROS DE QUALIDADE
    gaps = orf.count('-')
    nbase = orf.count('N')
    lenght = len(orf)
    
    #TESTA SE O START CODON E O END CODON SÃO OS ESPERADOS
    if not (orf[:3] == start_codon and orf[-3:] == end_codon):
        print(f'Sample:{name} com inicio ou final divergente: inicio:{orf[:5]}\tfinal:{orf[-3:]}')
        write_fasta('problems_1A.fa',name,sequence)

    #SALVANDO AS SEQUENCIAS 
    write_fasta(output_file_fasta,name,orf)
    
    #ESCREVENDO PARAMETROS DE QUALIDADE
    write_quality(output_file_quality,name,gaps,nbase,lenght,orf[:3],orf[-3:],start_posix,end_posix)

Sample:hCoV-19/Brazil/MG-LBI194/2021 com inicio ou final divergente: inicio:-----	final:TAA


# ORF1AB

In [41]:
#DECLARAÇÃO DE VARIAVEIS UNICAS PRA CADA ORF
#Arquivos
output_file_quality = './output/quality_ORF_1AB.csv'
output_file_fasta = './output/ORF_1AB.fasta'

#posições genomicas
start_codon = orfs['1AB']['START_CODON']
start_posix = orfs['1AB']['START_NUMBER'] - 1
end_codon = orfs['1AB']['END_CODON']
end_posix = orfs['1AB']['END_NUMBER']


#CRIANDO HEADER DO ARQUIVO CSV DE QUALIDADE
write_header(output_file_quality)

#LENDO O ARQUIVO DE ENTRADA FASTA, NECESSÁRIO CHAMAR CADA VEZ QUE FOR ITERAR SOBRE AS SEQUENCIAS 
fasta_sequences = SeqIO.parse(open(input_fasta),'fasta')

#OLHANDO CADAS SEQUENCIA UNITARIAMENTE
for fasta in fasta_sequences:
    
    #PEGANDO NOME E SEQUENCIA DAS AMOSTRAS 
    name, sequence = fasta.id, str(fasta.seq)
    
    #ORF
    orf = sequence[start_posix : end_posix]
    
    #ADICIONANDO A BASE C NA POSIÇÃO 13202 QUE SERIA CORRESPONDENTE A POSIÇÃO 13468 DA SEQUENCIA ORIGINAL
    orf = orf[:13202]+"C"+orf[13202:]
    
    #ANALISE DE PARAMETROS DE QUALIDADE
    gaps = orf.count('-')
    nbase = orf.count('N')
    lenght = len(orf)
    
    #TESTA SE O START CODON E O END CODON SÃO OS ESPERADOS
    if not (orf[:3] == start_codon and orf[-3:] == end_codon):
        print(f'Sample:{name} com inicio ou final divergente: inicio:{orf[:5]}\tfinal:{orf[-3:]}')
        write_fasta('problems_1AB.fa',name,sequence)

    #SALVANDO AS SEQUENCIAS 
    write_fasta(output_file_fasta,name,orf)
    
    #ESCREVENDO PARAMETROS DE QUALIDADE
    write_quality(output_file_quality,name,gaps,nbase,lenght,orf[:3],orf[-3:],start_posix,end_posix)

Sample:hCoV-19/Brazil/MG-LBI194/2021 com inicio ou final divergente: inicio:-----	final:TAA


# SPIKE

In [42]:
#DECLARAÇÃO DE VARIAVEIS UNICAS PRA CADA ORF
#Arquivos
output_file_quality = './output/quality_ORF_SPIKE.csv'
output_file_fasta = './output/ORF_SPIKE.fasta'

#posições genomicas
start_codon = orfs['SPIKE']['START_CODON']
start_posix = orfs['SPIKE']['START_NUMBER'] - 1
end_codon = orfs['SPIKE']['END_CODON']
end_posix = orfs['SPIKE']['END_NUMBER']


#CRIANDO HEADER DO ARQUIVO CSV DE QUALIDADE
write_header(output_file_quality)

#LENDO O ARQUIVO DE ENTRADA FASTA, NECESSÁRIO CHAMAR CADA VEZ QUE FOR ITERAR SOBRE AS SEQUENCIAS 
fasta_sequences = SeqIO.parse(open(input_fasta),'fasta')

#OLHANDO CADAS SEQUENCIA UNITARIAMENTE
for fasta in fasta_sequences:
    
    #PEGANDO NOME E SEQUENCIA DAS AMOSTRAS 
    name, sequence = fasta.id, str(fasta.seq)
    
    #ORF
    orf = sequence[start_posix : end_posix]
    
    #ANALISE DE PARAMETROS DE QUALIDADE
    gaps = orf.count('-')
    nbase = orf.count('N')
    lenght = len(orf)
    
    #TESTA SE O START CODON E O END CODON SÃO OS ESPERADOS
    if not ( orf[:3] == start_codon and orf[-3:] == end_codon):
        print(f'Sample:{name} com inicio ou final divergente: inicio:{orf[:5]}\tfinal:{orf[-3:]}')
        write_fasta('problems_SPIKE.fa',name,sequence)

    #SALVANDO AS SEQUENCIAS 
    write_fasta(output_file_fasta,name,orf)
    
    #ESCREVENDO PARAMETROS DE QUALIDADE
    write_quality(output_file_quality,name,gaps,nbase,lenght,orf[:3],orf[-3:],start_posix,end_posix)

# ORF 3A

In [43]:
#DECLARAÇÃO DE VARIAVEIS UNICAS PRA CADA ORF
#Arquivos
output_file_quality = './output/quality_ORF_3A.csv'
output_file_fasta = './output/ORF_3A.fasta'

#posições genomicas
start_codon = orfs['3A']['START_CODON']
start_posix = orfs['3A']['START_NUMBER'] - 1
end_codon = orfs['3A']['END_CODON']
end_posix = orfs['3A']['END_NUMBER']


#CRIANDO HEADER DO ARQUIVO CSV DE QUALIDADE
write_header(output_file_quality)

#LENDO O ARQUIVO DE ENTRADA FASTA, NECESSÁRIO CHAMAR CADA VEZ QUE FOR ITERAR SOBRE AS SEQUENCIAS 
fasta_sequences = SeqIO.parse(open(input_fasta),'fasta')

#OLHANDO CADAS SEQUENCIA UNITARIAMENTE
for fasta in fasta_sequences:
    
    #PEGANDO NOME E SEQUENCIA DAS AMOSTRAS 
    name, sequence = fasta.id, str(fasta.seq)
    
    #ORF
    orf = sequence[start_posix : end_posix]
    
    #ANALISE DE PARAMETROS DE QUALIDADE
    gaps = orf.count('-')
    nbase = orf.count('N')
    lenght = len(orf)
    
    #TESTA SE O START CODON E O END CODON SÃO OS ESPERADOS
    if not (orf[:3] == start_codon and orf[-3:] == end_codon):
        print(f'Sample:{name} com inicio ou final divergente: inicio:{orf[:5]}\tfinal:{orf[-3:]}')
        write_fasta('problems_3A.fa',name,sequence)

    #SALVANDO AS SEQUENCIAS 
    write_fasta(output_file_fasta,name,orf)
    
    #ESCREVENDO PARAMETROS DE QUALIDADE
    write_quality(output_file_quality,name,gaps,nbase,lenght,orf[:3],orf[-3:],start_posix,end_posix)

Sample:hCoV-19/Brazil/GO-HLAGYN-1608920/2021 com inicio ou final divergente: inicio:A--GA	final:TAA


# ORF 4

In [44]:
#DECLARAÇÃO DE VARIAVEIS UNICAS PRA CADA ORF
#Arquivos
output_file_quality = './output/quality_ORF_4.csv'
output_file_fasta = './output/ORF_4.fasta'

#posições genomicas
start_codon = orfs['4']['START_CODON']
start_posix = orfs['4']['START_NUMBER'] - 1
end_codon = orfs['4']['END_CODON']
end_posix = orfs['4']['END_NUMBER']


#CRIANDO HEADER DO ARQUIVO CSV DE QUALIDADE
write_header(output_file_quality)

#LENDO O ARQUIVO DE ENTRADA FASTA, NECESSÁRIO CHAMAR CADA VEZ QUE FOR ITERAR SOBRE AS SEQUENCIAS 
fasta_sequences = SeqIO.parse(open(input_fasta),'fasta')

#OLHANDO CADAS SEQUENCIA UNITARIAMENTE
for fasta in fasta_sequences:
    
    #PEGANDO NOME E SEQUENCIA DAS AMOSTRAS 
    name, sequence = fasta.id, str(fasta.seq)
    
    #ORF
    orf = sequence[start_posix : end_posix]
    
    #ANALISE DE PARAMETROS DE QUALIDADE
    gaps = orf.count('-')
    nbase = orf.count('N')
    lenght = len(orf)
    
    #TESTA SE O START CODON E O END CODON SÃO OS ESPERADOS
    if not (orf[:3] == start_codon and orf[-3:] == end_codon):
        print(f'Sample:{name} com inicio ou final divergente: inicio:{orf[:5]}\tfinal:{orf[-3:]}')
        write_fasta('problems_4.fa',name,sequence)

    #SALVANDO AS SEQUENCIAS 
    write_fasta(output_file_fasta,name,orf)
    
    #ESCREVENDO PARAMETROS DE QUALIDADE
    write_quality(output_file_quality,name,gaps,nbase,lenght,orf[:3],orf[-3:],start_posix,end_posix)

# ORF 5

In [45]:
#DECLARAÇÃO DE VARIAVEIS UNICAS PRA CADA ORF
#Arquivos
output_file_quality = './output/quality_ORF_5.csv'
output_file_fasta = './output/ORF_5.fasta'

#posições genomicas
start_codon = orfs['5']['START_CODON']
start_posix = orfs['5']['START_NUMBER'] - 1
end_codon = orfs['5']['END_CODON']
end_posix = orfs['5']['END_NUMBER']


#CRIANDO HEADER DO ARQUIVO CSV DE QUALIDADE
write_header(output_file_quality)

#LENDO O ARQUIVO DE ENTRADA FASTA, NECESSÁRIO CHAMAR CADA VEZ QUE FOR ITERAR SOBRE AS SEQUENCIAS 
fasta_sequences = SeqIO.parse(open(input_fasta),'fasta')

#OLHANDO CADAS SEQUENCIA UNITARIAMENTE
for fasta in fasta_sequences:
    
    #PEGANDO NOME E SEQUENCIA DAS AMOSTRAS 
    name, sequence = fasta.id, str(fasta.seq)
    
    #ORF
    orf = sequence[start_posix : end_posix]
    
    #ANALISE DE PARAMETROS DE QUALIDADE
    gaps = orf.count('-')
    nbase = orf.count('N')
    lenght = len(orf)
    
    #TESTA SE O START CODON E O END CODON SÃO OS ESPERADOS
    if not (orf[:3] == start_codon and orf[-3:] == end_codon):
        print(f'Sample:{name} com inicio ou final divergente: inicio:{orf[:5]}\tfinal:{orf[-3:]}')
        write_fasta('problems_5.fa',name,sequence)

    #SALVANDO AS SEQUENCIAS 
    write_fasta(output_file_fasta,name,orf)
    
    #ESCREVENDO PARAMETROS DE QUALIDADE
    write_quality(output_file_quality,name,gaps,nbase,lenght,orf[:3],orf[-3:],start_posix,end_posix)

# ORF 6

In [46]:
#DECLARAÇÃO DE VARIAVEIS UNICAS PRA CADA ORF
#Arquivos
output_file_quality = './output/quality_ORF_6.csv'
output_file_fasta = './output/ORF_6.fasta'

#posições genomicas
start_codon = orfs['6']['START_CODON']
start_posix = orfs['6']['START_NUMBER'] - 1
end_codon = orfs['6']['END_CODON']
end_posix = orfs['6']['END_NUMBER']


#CRIANDO HEADER DO ARQUIVO CSV DE QUALIDADE
write_header(output_file_quality)

#LENDO O ARQUIVO DE ENTRADA FASTA, NECESSÁRIO CHAMAR CADA VEZ QUE FOR ITERAR SOBRE AS SEQUENCIAS 
fasta_sequences = SeqIO.parse(open(input_fasta),'fasta')

#OLHANDO CADAS SEQUENCIA UNITARIAMENTE
for fasta in fasta_sequences:
    
    #PEGANDO NOME E SEQUENCIA DAS AMOSTRAS 
    name, sequence = fasta.id, str(fasta.seq)
    
    #ORF
    orf = sequence[start_posix : end_posix]
    
    #ANALISE DE PARAMETROS DE QUALIDADE
    gaps = orf.count('-')
    nbase = orf.count('N')
    lenght = len(orf)
    
    #TESTA SE O START CODON E O END CODON SÃO OS ESPERADOS
    if not (orf[:3] == start_codon and orf[-3:] == end_codon):
        print(f'Sample:{name} com inicio ou final divergente: inicio:{orf[:5]}\tfinal:{orf[-3:]}')
        write_fasta('problems_6.fa',name,sequence)

    #SALVANDO AS SEQUENCIAS 
    write_fasta(output_file_fasta,name,orf)
    
    #ESCREVENDO PARAMETROS DE QUALIDADE
    write_quality(output_file_quality,name,gaps,nbase,lenght,orf[:3],orf[-3:],start_posix,end_posix)

Sample:hCoV-19/Brazil/SP-844218/2021 com inicio ou final divergente: inicio:ATGTT	final:NNN
Sample:hCoV-19/Brazil/GO-HLAGYN-1521607/2021 com inicio ou final divergente: inicio:ATTTT	final:TAA


# ORF 7A

In [47]:
#DECLARAÇÃO DE VARIAVEIS UNICAS PRA CADA ORF
#Arquivos
output_file_quality = './output/quality_ORF_7A.csv'
output_file_fasta = './output/ORF_7A.fasta'

#posições genomicas
start_codon = orfs['7A']['START_CODON']
start_posix = orfs['7A']['START_NUMBER'] - 1
end_codon = orfs['7A']['END_CODON']
end_posix = orfs['7A']['END_NUMBER']


#CRIANDO HEADER DO ARQUIVO CSV DE QUALIDADE
write_header(output_file_quality)

#LENDO O ARQUIVO DE ENTRADA FASTA, NECESSÁRIO CHAMAR CADA VEZ QUE FOR ITERAR SOBRE AS SEQUENCIAS 
fasta_sequences = SeqIO.parse(open(input_fasta),'fasta')

#OLHANDO CADAS SEQUENCIA UNITARIAMENTE
for fasta in fasta_sequences:
    
    #PEGANDO NOME E SEQUENCIA DAS AMOSTRAS 
    name, sequence = fasta.id, str(fasta.seq)
    
    #ORF
    orf = sequence[start_posix : end_posix]
    
    #ANALISE DE PARAMETROS DE QUALIDADE
    gaps = orf.count('-')
    nbase = orf.count('N')
    lenght = len(orf)
    
    #TESTA SE O START CODON E O END CODON SÃO OS ESPERADOS
    if not (orf[:3] == start_codon and orf[-3:] == end_codon):
        print(f'Sample:{name} com inicio ou final divergente: inicio:{orf[:5]}\tfinal:{orf[-3:]}')
        write_fasta('problems_7A.fa',name,sequence)

    #SALVANDO AS SEQUENCIAS 
    write_fasta(output_file_fasta,name,orf)
    
    #ESCREVENDO PARAMETROS DE QUALIDADE
    write_quality(output_file_quality,name,gaps,nbase,lenght,orf[:3],orf[-3:],start_posix,end_posix)

Sample:hCoV-19/Brazil/SP-IB_100744/2021 com inicio ou final divergente: inicio:ATGAA	final:TTA
Sample:hCoV-19/Brazil/SP-IB_100746/2021 com inicio ou final divergente: inicio:ATGAA	final:NNN
Sample:hCoV-19/Brazil/SP-IB_100840/2021 com inicio ou final divergente: inicio:ATGAA	final:TGT
Sample:hCoV-19/Brazil/SP-IB_100842/2021 com inicio ou final divergente: inicio:ATGAA	final:TGT
Sample:hCoV-19/Brazil/SP-IB_101223/2021 com inicio ou final divergente: inicio:ATGAA	final:NNN
Sample:hCoV-19/Brazil/SP-IB_101283/2021 com inicio ou final divergente: inicio:ATGAA	final:NNN
Sample:hCoV-19/Brazil/SP-IB_101284/2021 com inicio ou final divergente: inicio:ATGAA	final:NNN
Sample:hCoV-19/Brazil/SP-IB_101346/2021 com inicio ou final divergente: inicio:ATGAA	final:NNN
Sample:hCoV-19/Brazil/SP-IB_101360/2021 com inicio ou final divergente: inicio:ATGAA	final:NNN
Sample:hCoV-19/Brazil/SP-IB_101382/2021 com inicio ou final divergente: inicio:ATGAA	final:NNN
Sample:hCoV-19/Brazil/RJ-LNN00439/2021 com inicio 

## ORF 7B

In [48]:
#DECLARAÇÃO DE VARIAVEIS UNICAS PRA CADA ORF
#Arquivos
output_file_quality = './output/quality_ORF_7B.csv'
output_file_fasta = './output/ORF_7B.fasta'

#posições genomicas
start_codon = orfs['7B']['START_CODON']
start_posix = orfs['7B']['START_NUMBER'] - 1
end_codon = orfs['7B']['END_CODON']
end_posix = orfs['7B']['END_NUMBER']


#CRIANDO HEADER DO ARQUIVO CSV DE QUALIDADE
write_header(output_file_quality)

#LENDO O ARQUIVO DE ENTRADA FASTA, NECESSÁRIO CHAMAR CADA VEZ QUE FOR ITERAR SOBRE AS SEQUENCIAS 
fasta_sequences = SeqIO.parse(open(input_fasta),'fasta')

#OLHANDO CADAS SEQUENCIA UNITARIAMENTE
for fasta in fasta_sequences:
    
    #PEGANDO NOME E SEQUENCIA DAS AMOSTRAS 
    name, sequence = fasta.id, str(fasta.seq)
    
    #ORF
    orf = sequence[start_posix : end_posix]
    
    #ANALISE DE PARAMETROS DE QUALIDADE
    gaps = orf.count('-')
    nbase = orf.count('N')
    lenght = len(orf)
    
    #TESTA SE O START CODON E O END CODON SÃO OS ESPERADOS
    if not (orf[:3] == start_codon and orf[-3:] == end_codon):
        print(f'Sample:{name} com inicio ou final divergente: inicio:{orf[:5]}\tfinal:{orf[-3:]}')
        write_fasta('problems_7B.fa',name,sequence)

    #SALVANDO AS SEQUENCIAS 
    write_fasta(output_file_fasta,name,orf)
    
    #ESCREVENDO PARAMETROS DE QUALIDADE
    write_quality(output_file_quality,name,gaps,nbase,lenght,orf[:3],orf[-3:],start_posix,end_posix)

Sample:hCoV-19/Brazil/SP-IB_100744/2021 com inicio ou final divergente: inicio:ATTAT	final:TAA
Sample:hCoV-19/Brazil/SP-IB_100746/2021 com inicio ou final divergente: inicio:NNNNN	final:TAA
Sample:hCoV-19/Brazil/SP-IB_101223/2021 com inicio ou final divergente: inicio:NNNNN	final:TAA
Sample:hCoV-19/Brazil/SP-IB_101283/2021 com inicio ou final divergente: inicio:NNNNN	final:TAA
Sample:hCoV-19/Brazil/SP-IB_101284/2021 com inicio ou final divergente: inicio:NNNNN	final:TAA
Sample:hCoV-19/Brazil/SP-IB_101346/2021 com inicio ou final divergente: inicio:NNNNN	final:TAA
Sample:hCoV-19/Brazil/SP-IB_101360/2021 com inicio ou final divergente: inicio:NNNNN	final:TAA
Sample:hCoV-19/Brazil/SP-IB_101382/2021 com inicio ou final divergente: inicio:NNNNN	final:TAA
Sample:hCoV-19/Brazil/SP-IB_101401/2021 com inicio ou final divergente: inicio:ATGAT	final:NNN
Sample:hCoV-19/Brazil/RJ-LNN00412/2021 com inicio ou final divergente: inicio:ATGAT	final:NNN
Sample:hCoV-19/Brazil/RJ-LNN00439/2021 com inicio o

# ORF 8

In [49]:
#DECLARAÇÃO DE VARIAVEIS UNICAS PRA CADA ORF
#Arquivos
output_file_quality = './output/quality_ORF_8.csv'
output_file_fasta = './output/ORF_8.fasta'

#posições genomicas
start_codon = orfs['8']['START_CODON']
start_posix = orfs['8']['START_NUMBER'] - 1
end_codon = orfs['8']['END_CODON']
end_posix = orfs['8']['END_NUMBER']


#CRIANDO HEADER DO ARQUIVO CSV DE QUALIDADE
write_header(output_file_quality)

#LENDO O ARQUIVO DE ENTRADA FASTA, NECESSÁRIO CHAMAR CADA VEZ QUE FOR ITERAR SOBRE AS SEQUENCIAS 
fasta_sequences = SeqIO.parse(open(input_fasta),'fasta')

#OLHANDO CADAS SEQUENCIA UNITARIAMENTE
for fasta in fasta_sequences:
    
    #PEGANDO NOME E SEQUENCIA DAS AMOSTRAS 
    name, sequence = fasta.id, str(fasta.seq)
    
    #ORF
    orf = sequence[start_posix : end_posix]
    
    #ANALISE DE PARAMETROS DE QUALIDADE
    gaps = orf.count('-')
    nbase = orf.count('N')
    lenght = len(orf)
    
    #TESTA SE O START CODON E O END CODON SÃO OS ESPERADOS
    if not (orf[:3] == start_codon and orf[-3:] == end_codon):
        print(f'Sample:{name} com inicio ou final divergente: inicio:{orf[:5]}\tfinal:{orf[-3:]}')
        write_fasta('problems_8.fa',name,sequence)

    #SALVANDO AS SEQUENCIAS 
    write_fasta(output_file_fasta,name,orf)
    
    #ESCREVENDO PARAMETROS DE QUALIDADE
    write_quality(output_file_quality,name,gaps,nbase,lenght,orf[:3],orf[-3:],start_posix,end_posix)

Sample:hCoV-19/Brazil/SP-IB_101401/2021 com inicio ou final divergente: inicio:NNNNN	final:TAA
Sample:hCoV-19/Brazil/RJ-LNN00412/2021 com inicio ou final divergente: inicio:NNNNN	final:TAA
Sample:hCoV-19/Brazil/MA-FIOCRUZ-21553/2021 com inicio ou final divergente: inicio:ATGAA	final:NNA
Sample:hCoV-19/Brazil/SP-IB_102933/2021 com inicio ou final divergente: inicio:ATGAA	final:GAA
Sample:hCoV-19/Brazil/SP-49932-21/2021 com inicio ou final divergente: inicio:ATGAA	final:NNA
Sample:hCoV-19/Brazil/RJ-LNN00564/2021 com inicio ou final divergente: inicio:NNNNN	final:TAA
Sample:hCoV-19/Brazil/SP-IB_100365/2021 com inicio ou final divergente: inicio:ATGAA	final:GAA
Sample:hCoV-19/Brazil/GO-HLAGYN-1600291/2021 com inicio ou final divergente: inicio:NNNNN	final:TAA


# ORF 9

In [50]:
#DECLARAÇÃO DE VARIAVEIS UNICAS PRA CADA ORF
#Arquivos
output_file_quality = './output/quality_ORF_9.csv'
output_file_fasta = './output/ORF_9.fasta'

#posições genomicas
start_codon = orfs['9']['START_CODON']
start_posix = orfs['9']['START_NUMBER'] - 1
end_codon = orfs['9']['END_CODON']
end_posix = orfs['9']['END_NUMBER']


#CRIANDO HEADER DO ARQUIVO CSV DE QUALIDADE
write_header(output_file_quality)

#LENDO O ARQUIVO DE ENTRADA FASTA, NECESSÁRIO CHAMAR CADA VEZ QUE FOR ITERAR SOBRE AS SEQUENCIAS 
fasta_sequences = SeqIO.parse(open(input_fasta),'fasta')

#OLHANDO CADAS SEQUENCIA UNITARIAMENTE
for fasta in fasta_sequences:
    
    #PEGANDO NOME E SEQUENCIA DAS AMOSTRAS 
    name, sequence = fasta.id, str(fasta.seq)
    
    #ORF
    orf = sequence[start_posix : end_posix]
    
    #ANALISE DE PARAMETROS DE QUALIDADE
    gaps = orf.count('-')
    nbase = orf.count('N')
    lenght = len(orf)
    
    #TESTA SE O START CODON E O END CODON SÃO OS ESPERADOS
    if not (orf[:3] == start_codon and orf[-3:] == end_codon):
        print(f'Sample:{name} com inicio ou final divergente: inicio:{orf[:5]}\tfinal:{orf[-3:]}')
        write_fasta('problems_9.fa',name,sequence)

    #SALVANDO AS SEQUENCIAS 
    write_fasta(output_file_fasta,name,orf)
    
    #ESCREVENDO PARAMETROS DE QUALIDADE
    write_quality(output_file_quality,name,gaps,nbase,lenght,orf[:3],orf[-3:],start_posix,end_posix)

# ORF 10

In [51]:
#DECLARAÇÃO DE VARIAVEIS UNICAS PRA CADA ORF
#Arquivos
output_file_quality = './output/quality_ORF_10.csv'
output_file_fasta = './output/ORF_10.fasta'

#posições genomicas
start_codon = orfs['10']['START_CODON']
start_posix = orfs['10']['START_NUMBER'] - 1
end_codon = orfs['10']['END_CODON']
end_posix = orfs['10']['END_NUMBER']


#CRIANDO HEADER DO ARQUIVO CSV DE QUALIDADE
write_header(output_file_quality)

#LENDO O ARQUIVO DE ENTRADA FASTA, NECESSÁRIO CHAMAR CADA VEZ QUE FOR ITERAR SOBRE AS SEQUENCIAS 
fasta_sequences = SeqIO.parse(open(input_fasta),'fasta')

#OLHANDO CADAS SEQUENCIA UNITARIAMENTE
for fasta in fasta_sequences:
    
    #PEGANDO NOME E SEQUENCIA DAS AMOSTRAS 
    name, sequence = fasta.id, str(fasta.seq)
    
    #ORF
    orf = sequence[start_posix : end_posix]
    
    #ANALISE DE PARAMETROS DE QUALIDADE
    gaps = orf.count('-')
    nbase = orf.count('N')
    lenght = len(orf)
    
    #TESTA SE O START CODON E O END CODON SÃO OS ESPERADOS
    if not (orf[:3] == start_codon and orf[-3:] == end_codon):
        print(f'Sample:{name} com inicio ou final divergente: inicio:{orf[:5]}\tfinal:{orf[-3:]}')
        write_fasta('problems_10.fa',name,sequence)

    #SALVANDO AS SEQUENCIAS 
    write_fasta(output_file_fasta,name,orf)
    
    #ESCREVENDO PARAMETROS DE QUALIDADE
    write_quality(output_file_quality,name,gaps,nbase,lenght,orf[:3],orf[-3:],start_posix,end_posix)

Sample:hCoV-19/Brazil/AM-FIOCRUZ-20143088ER/2020 com inicio ou final divergente: inicio:ATGGG	final:---
Sample:hCoV-19/Brazil/SP-IB_100745/2021 com inicio ou final divergente: inicio:ATGGG	final:TA-
Sample:hCoV-19/Brazil/SP-SJRP309/2021 com inicio ou final divergente: inicio:ATTGG	final:TAG
Sample:hCoV-19/Brazil/SP-SJRP49644/2021 com inicio ou final divergente: inicio:ATGGG	final:---
Sample:hCoV-19/Brazil/SP-SJRP49645/2021 com inicio ou final divergente: inicio:ATGGG	final:---
Sample:hCoV-19/Brazil/SP-SJRP49646/2021 com inicio ou final divergente: inicio:ATGGG	final:---
Sample:hCoV-19/Brazil/SP-SJRP49647/2021 com inicio ou final divergente: inicio:ATGGG	final:TA-
Sample:hCoV-19/Brazil/SP-SJRP49653/2021 com inicio ou final divergente: inicio:ATGGG	final:---
Sample:hCoV-19/Brazil/SP-SJRP49662/2021 com inicio ou final divergente: inicio:ATGGG	final:---
Sample:hCoV-19/Brazil/SC-FIOCRUZ-9767/2021 com inicio ou final divergente: inicio:ATGGG	final:---
Sample:hCoV-19/Brazil/SC-FIOCRUZ-9766/20