<h1 style = "text-align: center; color: green; font-size: 32px"> <b> PreProt </b> </h1>
<p style = "text-align: center; color: cyan; font-size: 18px"> Modelo de Machine Learning para predição de proteínas da <i> E. Coli </i> </p>
<p style = "text-align: center; font-size: 12px"> Projeto de conclusão para o curso de Data Science & analytics pela USP/ESALQ </p>
<p style = "text-align: center; font-size: 10px"> Desenvolvido por Fernando Falat, orientado por Miriam Martin </p>
<b style = "font-size: 16px" > • O que é o PreProt? </b>
<p style = "font-size: 14px"> PreProt é um projeto de implementação de Machine Learning, mais especificamente Naive Bayes, para avaliar a eficácia e acurácia do modelo dentro do campo da bioinformática, através de testes de eficácia como o F test e outros parâmetros. Mais informações do projeto podem ser encontradas na <a href = "readme.txt"> documentação </a> e na <a href = "https://docs.google.com/document/d/1evF9-wIk1tZ6xFhq2hgq4nII7toi9ARP/edit)"> monografia </a>. </p>

<h3 style = "font-size: 24px"> <b> Formato de arquivos </b> </h3>
<p style = "font-size: 14px"> Na bioinformática, sequências de DNA e proteínas são os tipos de dados mais comuns e por padrão são armazenadas em um formato de arquivo "FASTA" (fast-all), "FAST-P" (proteínas) ou "FAST-N" (nucleotídeos).
DNA: A,T,C,G
PROTEÍNAS: Acrônimos de letras, ex: A para alanina </p>
<p style = "font-size: 14px"> Para abrir arquivos nesse formato, utiliza-se o SeqIO da biblioteca BioPython. Essa classe possibilta uma interface para trabalhar com esses tipos de dados </p>

In [1]:
# Importando biblioteca para leitura de arquivos FASTA
from Bio import SeqIO

# Abrindo o arquivo e apresentando algumas informações
sequences = [] # Criando uma lista vazia
for seq_record in SeqIO.parse("datasets/protein_sequences.fasta", "fasta"):
    # Adicionando o record na lista vazia
    sequences.append(str(seq_record.seq))
    # printando a sequência
    print(seq_record.seq)
    # printando o identificador da sequência
    print(seq_record.id)
    # printando o tamanho da sequência
    print(len(seq_record))

MSKQQIGVVGMAVMGRNLALNIESRGYTVSIFNRSREKTEEVIAENPGKKLVPYYTVKEFVESLETPRRILLMVKAGAGTDAAIDSLKPYLDKGDIIIDGGNTFFQDTIRRNRELSAEGFNFIGTGVSGGEEGALKGPSIMPGGQKEAYELVAPILTKIAAVAEDGEPCVTYIGADGAGHYVKMVHNGIEYGDMQLIAEAYSLLKGGLNLTNEELAQTFTEWNNGELSSYLIDITKDIFTKKDEDGNYLVDVILDEAANKGTGKWTSQSALDLGEPLSLITESVFARYISSLKDQRVAASKVLSGPQAQPAGDKAEFIEKVRRALYLGKIVSYAQGFSQLRAASEEYNWDLNYGEIAKIFRAGCIIRAQFLQKITDAYAENPQIANLLLAPYFKQIADDYQQALRDVVAYAVQNGIPVPTFSAAVAYYDSYRAAVLPANLIQAQRDYFGAHTYKRIDKEGVFHTEWLD
ecmdb_P00350
468
MQTFQADLAIVGAGGAGLRAAIAAAQANPNAKIALISKVYPMRSHTVAAEGGSAAVAQDHDSFEYHFHDTVAGGDWLCEQDVVDYFVHHCPTEMTQLELWGCPWSRRPDGSVNVRRFGGMKIERTWFAADKTGFHMLHTLFQTSLQFPQIQRFDEHFVLDILVDDGHVRGLVAMNMMEGTLVQIRANAVVMATGGAGRVYRYNTNGGIVTGDGMGMALSHGVPLRDMEFVQYHPTGLPGSGILMTEGCRGEGGILVNKNGYRYLQDYGMGPETPLGEPKNKYMELGPRDKVSQAFWHEWRKGNTISTPRGDVVYLDLRHLGEKKLHERLPFICELAKAYVGVDPVKEPIPVRPTAHYTMGGIETDQNCETRIKGLFAVGECSSVGLHGANRLGSNSLAELVVFGRLAGEQATERAATAGNGNEAAIEAQAAGVEQRLKDLVNQDGGENWAKIRDEMGLAMEEGCGIYRTPELMQKTIDKLAELQERFKRVRITDTSSVFNTDLLYTIELGHGLN

In [2]:
# Sequencia de proteínas da E. Coli
print(sequences)

['MSKQQIGVVGMAVMGRNLALNIESRGYTVSIFNRSREKTEEVIAENPGKKLVPYYTVKEFVESLETPRRILLMVKAGAGTDAAIDSLKPYLDKGDIIIDGGNTFFQDTIRRNRELSAEGFNFIGTGVSGGEEGALKGPSIMPGGQKEAYELVAPILTKIAAVAEDGEPCVTYIGADGAGHYVKMVHNGIEYGDMQLIAEAYSLLKGGLNLTNEELAQTFTEWNNGELSSYLIDITKDIFTKKDEDGNYLVDVILDEAANKGTGKWTSQSALDLGEPLSLITESVFARYISSLKDQRVAASKVLSGPQAQPAGDKAEFIEKVRRALYLGKIVSYAQGFSQLRAASEEYNWDLNYGEIAKIFRAGCIIRAQFLQKITDAYAENPQIANLLLAPYFKQIADDYQQALRDVVAYAVQNGIPVPTFSAAVAYYDSYRAAVLPANLIQAQRDYFGAHTYKRIDKEGVFHTEWLD', 'MQTFQADLAIVGAGGAGLRAAIAAAQANPNAKIALISKVYPMRSHTVAAEGGSAAVAQDHDSFEYHFHDTVAGGDWLCEQDVVDYFVHHCPTEMTQLELWGCPWSRRPDGSVNVRRFGGMKIERTWFAADKTGFHMLHTLFQTSLQFPQIQRFDEHFVLDILVDDGHVRGLVAMNMMEGTLVQIRANAVVMATGGAGRVYRYNTNGGIVTGDGMGMALSHGVPLRDMEFVQYHPTGLPGSGILMTEGCRGEGGILVNKNGYRYLQDYGMGPETPLGEPKNKYMELGPRDKVSQAFWHEWRKGNTISTPRGDVVYLDLRHLGEKKLHERLPFICELAKAYVGVDPVKEPIPVRPTAHYTMGGIETDQNCETRIKGLFAVGECSSVGLHGANRLGSNSLAELVVFGRLAGEQATERAATAGNGNEAAIEAQAAGVEQRLKDLVNQDGGENWAKIRDEMGLAMEEGCGIYRTPELMQKTIDKLAELQERFKRVRITDTSSVFNTDLLYTIELGHGLNVAECMAHSAMAR