<h1 style = "text-align: center; color: green; font-size: 32px"> <b> PreProt üß¨ </b> </h1>
<p style = "text-align: center; color: cyan; font-size: 18px"> Modelo de Machine Learning para predi√ß√£o de prote√≠nas da <i> E. Coli </i> </p>
<p style = "text-align: center; font-size: 12px"> Projeto de conclus√£o para o curso de Data Science & analytics pela USP/ESALQ </p>
<p style = "text-align: center; font-size: 10px"> Desenvolvido por Fernando Falat, orientado por Miriam Martin </p>
<b style = "font-size: 24px" > O que √© o PreProt? </b>
<p style = "font-size: 14px"> PreProt √© um projeto de implementa√ß√£o de Machine Learning, mais especificamente Naive Bayes, para avaliar a efic√°cia e acur√°cia do modelo dentro do campo da bioinform√°tica, atrav√©s de testes de efic√°cia como o F test e outros par√¢metros. Mais informa√ß√µes do projeto podem ser encontradas na <a href = "readme.txt"> documenta√ß√£o </a> e na <a href = "https://docs.google.com/document/d/1evF9-wIk1tZ6xFhq2hgq4nII7toi9ARP/edit)"> monografia </a>. </p>

<h3 style = "font-size: 24px"> <b> Formato de arquivos </b> </h3>
<p style = "font-size: 14px"> Na bioinform√°tica, sequ√™ncias de DNA e prote√≠nas s√£o os tipos de dados mais comuns e por padr√£o s√£o armazenadas em um formato de arquivo "FASTA" (fast-all), "FAST-P" (prote√≠nas) ou "FAST-N" (nucleot√≠deos).
<br></br>
<b> DNA: </b> A,T,C,G
<br></br>
<b> AMINO√ÅCIDOS: </b>Acr√¥nimos de letras, ex: A para alanina </p>
<p style = "font-size: 14px"> Para abrir arquivos nesse formato, utiliza-se o SeqIO da biblioteca BioPython. Essa classe possibilta uma interface para trabalhar com esses tipos de dados. </p>

In [None]:
# Importando biblioteca para leitura de arquivos FASTA
from Bio import SeqIO

# Abrindo o arquivo e apresentando algumas informa√ß√µes
sequences = [] # Criando uma lista vazia
for seq_record in SeqIO.parse("datasets/protein_sequences.fasta", "fasta"):
    # Adicionando o record na lista vazia
    sequences.append(str(seq_record.seq))
    # printando a sequ√™ncia
    print(seq_record.seq)
    # printando o identificador da sequ√™ncia (prote√≠na)
    print(seq_record.id)
    # printando o tamanho da sequ√™ncia (cadeia de amino√°cidos)
    print(len(seq_record))
print("N√∫mero de sequ√™ncias: ", len(sequences))

In [None]:
# Sequencia de amino√°cidos da E. Coli
print(sequences)

<style>
  p {
    text-align: justify;
    font-size: 14px !important;
  }
</style>

<h3 style = "font-size: 24px"> <b> Introdu√ß√£o </b> </h3>

<p style = "font-size: 14px"> O output fornecido acima representa a sequ√™ncia de amino√°cidos presentes no genoma da cepa de <i>E. Coli</i> em quest√£o. Podemos ver que cada sequ√™ncia de amino√°cidos representa uma prote√≠na com nome "ecmdb_XXXXXX".</p>
<div style = "font-size: 14px">
<p align = "justify" style = "font-size: 14px;"> A fim de que ocorra a forma√ß√£o de uma prote√≠na, √© necess√°rio percorrer um conjunto de etapas. Iniciando-se pelos √°cidos nucleicos, que constituem a base do DNA (ATCG):
<ol type = "1">
<li> <b> Transcri√ß√£o: </b> O DNA √© transicro em RNA mensageiro (mRNA) atrav√©s da RNA polimerase.</li> 
<br></br>
<li> <b> Tradu√ß√£o: </b> O mRNA √© lido pelos ribossomos, decodificando os c√≥dons (sequ√™ncia de 3 √°cidos nucleicos), ent√£o entram os tRNAs e transportam os amino√°cidos correspondentes para formar a cadeia polipept√≠dica. Um pept√≠deo √© composto por dois ou mais amino√°ciodos, sendo classificados em dipept√≠deos (2); tri; tetra; oligo e polipept√≠deos; quando a cadeia de amino√°cidos passa de 70, classifica-se em prote√≠na.</li> 
<br></br>
<li> <b>Desdobramento e p√≥s-tradu√ß√£o: </b> Ap√≥s a s√≠ntese da cadeia polipept√≠dica, a prote√≠na pode passar por um processo de dobramento ou enovelamento para adquirir sua estrutura tridimensional funcional. Ap√≥s o dobramento, a prote√≠na pode sofrer modifica√ß√µes p√≥s-traducionais, como a adi√ß√£o de grupos qu√≠micos ou a clivagem de segmentos adicionais. </li>
</ol>
</p>
<br></br>
<p style = "font-size: 14px"> A imagem abaixo exemplifica o processo da tradu√ß√£o da fita de mRNA at√© a leitura pela fita de tRNA: </p>
<p style="text-align:center;"> <img src = "https://upload.wikimedia.org/wikipedia/commons/thumb/7/70/Aminoacids_table.svg/609px-Aminoacids_table.svg.png?20210405175054" alt = "Tabela de convers√£o de amino√°cidos" width = "500" heigh = "500" align = center> </img> </p>
</div>



In [None]:
''' Fun√ß√µes de convers√£o '''

# Fun√ß√£o de DNA para mRNA
def dna_para_mRNA(sequencia_DNA):

    # Transcreve a sequ√™ncia de DNA para mRNA atrav√©s da substitui√ß√£o do T pelo U utilizando a fun√ß√£o replace.

    return sequencia_DNA.replace('T', 'U')

# Fun√ß√£o de mRNA para tRNA
def mRNA_para_tRNA(sequencia_mRNA):

    # Transcreve o mRNA para tRNA atrav√©s da troca de cada nucleot√≠deo com seu respectivo par pelas regras de pareamento c√≥don-antic√≥don
    
    dicionario_aux = {'A': 'U', 'U': 'A', 'C': 'G', 'G': 'C'}
    sequencia_tRNA = ""
    
    #Loop para itera√ß√£o na vari√°vel
    for nucleotideo in sequencia_mRNA:
        if nucleotideo in dicionario_aux:
            sequencia_tRNA += dicionario_aux[nucleotideo]
        else:
            sequencia_tRNA += nucleotideo
    
    return sequencia_tRNA

# Fun√ß√£o de mRNA e tRNA para amino√°cidos
def traducao(sequencia_mRNA):

    # Traduz uma sequ√™ncia de mRNA para a respectiva sequ√™ncia de amino√°cidos atrav√©s do mapeamento da trinca de nucleot√≠deos (c√≥dons)  

    tabela_codon = {
        'AUG': 'M', 'UUU': 'F', 'UUC': 'F', 'UUA': 'L', 'UUG': 'L',  # ... Adicionar mais c√≥dons e seus respectivos amino√°cidos
        'UCU': 'S', 'UCC': 'S', 'UCA': 'S', 'UCG': 'S', 'UAU': 'Y',
        'UAC': 'Y', 'UAA': '*', 'UAG': '*', 'UGU': 'C', 'UGC': 'C',
        'UGA': '*', 'UGG': 'W', 'CUU': 'L', 'CUC': 'L', 'CUA': 'L',
        'CUG': 'L', 'CCU': 'P', 'CCC': 'P', 'CCA': 'P', 'CCG': 'P',
        'CAU': 'H', 'CAC': 'H', 'CAA': 'Q', 'CAG': 'Q', 'CGU': 'R',
        'CGC': 'R', 'CGA': 'R', 'CGG': 'R', 'AUU': 'I', 'AUC': 'I',
        'AUA': 'I', 'AUC': 'I', 'ACU': 'T', 'ACC': 'T', 'ACA': 'T',
        'ACG': 'T', 'AAU': 'N', 'AAC': 'N', 'AAA': 'K', 'AAG': 'K',
        'AGU': 'S', 'AGC': 'S', 'AGA': 'R', 'AGG': 'R', 'GUU': 'V',
        'GUC': 'V', 'GUA': 'V', 'GUG': 'V', 'GCU': 'A', 'GCC': 'A',
        'GCA': 'A', 'GCG': 'A', 'GAU': 'D', 'GAC': 'D', 'GAA': 'E',
        'GAG': 'E', 'GGU': 'G', 'GGC': 'G', 'GGA': 'G', 'GGG': 'G'
    }
    
    sequencia_proteina = ""
    
    # Loop de itera√ß√£o da lista mRNA de input com a tabela de codons, for√ßando a leitura por codons
    for i in range(0, len(sequencia_mRNA), 3):
        codon = sequencia_mRNA[i:i+3]
        
        if codon in tabela_codon:
            amino_acido = tabela_codon[codon]
            if amino_acido == '*':  # Stop Codon encontrado
                break
            sequencia_proteina += amino_acido
    
    return sequencia_proteina

# confirma√ß√£o que as fun√ß√µes foram declaradas
print("Fun√ß√µes OK.")

In [None]:
# Simuala√ß√£o de uma replica√ß√£o

sequencia_DNA = "ATGCATCGTAA"
sequencia_mRNA = dna_para_mRNA(sequencia_DNA)
sequencia_tRNA = mRNA_para_tRNA(sequencia_mRNA)
sequencia_proteina = traducao(sequencia_mRNA) # sequ√™ncia de prote√≠nas >= 70 Amino√°cidos

print("Sequ√™ncia de DNA:", sequencia_DNA)
print("Sequ√™ncia de mRNA:", sequencia_mRNA)
print("Sequ√™ncia de tRNA:", sequencia_tRNA)
print("Sequ√™ncia de amino√°cidos:", sequencia_proteina) 

<style>
  p {
    text-align: justify !important;
    font-size: 14px !important;
  }

  h3 {
  font-size: 24px
  }
</style>

<h3> <b> Machine Learning </b> </h3>

<div style = "font-size: 14px">
<p> De acordo com a literatura cient√≠fica, uma prote√≠na √© composta por uma cadeia polipept√≠dica que pode conter mais de 70 amino√°cidos. Como existem 20 tipos diferentes de amino√°cidos que podem ser usados para construir uma prote√≠na, e esses amino√°cidos podem ser combinados em qualquer ordem, o n√∫mero de sequ√™ncias poss√≠veis √© virtualmente infinito. Portanto, as prote√≠nas possuem combina√ß√µes quase infinitas de amino√°cidos. </p>

<p> Logo mm algoritmo de machine learning pode aprender a partir de dados experimentais como o DNA √© transcrito em RNA e depois traduzido em prote√≠nas, quais s√£o os fatores que influenciam essa transforma√ß√£o e quais s√£o as consequ√™ncias de muta√ß√µes ou altera√ß√µes na express√£o g√™nica.</p>

<p> Com o objetivo de facilitar o processo de tradu√ß√£o de uma sequ√™ncia de DNA em uma prote√≠na, o PreProt treina um modelo de aprendizado de m√°quina, e analisa os resultados, com uma base de dados contendo o proteoma da <i>Escherichia coli</i> K-12 substr. MG1655, que √© a bact√©ria mais estudada na humanidade. </p>

</div>





In [None]:
''' Carregamento e Tratamento dos dados'''

# Importando e tratando o dataset contendo o proteoma da E. Coli K-12 MG1655 em formato FASTA
from Bio import SeqIO
import pandas as pd

# Fun√ß√£o para ler o arquivo FASTA e organizar os dados para criar um dataframe
def ler_fasta(file_path):
    sequences = [] # Criando uma lista vazia
    for record in SeqIO.parse(file_path, "fasta"): # iterando a base de dados na lista vazia
        sequences.append({"Sequencia_AA": str(record.seq), "ID_Proteina": record.id}) # criando um vetor bi-dimensional 

    return sequences

# Inputs
file_path = "datasets/Escherichia coli str. K-12 substr. MG1655/proteome.fasta"
sequencias = ler_fasta(file_path)

# Criando um Pandas Dataframe a partir do vetor sequences para posterior treinamento do modelo
df = pd.DataFrame(sequencias)
# Removendo a parte n√£o utilizada do ID da prote√≠na na coluna
df['ID_Proteina'] = df['ID_Proteina'].str.rsplit('|', n=1).str[-1]

print(df.head())
print(len(df.index)) #6463 prote√≠nas

In [None]:
# Analisando o proteoma da E. Coli K-12

# Importando biblioteca para leitura de arquivos FASTA
from Bio import SeqIO

# Abrindo o arquivo e apresentando algumas informa√ß√µes
sequences = [] # Criando uma lista vazia
for seq_record in SeqIO.parse("datasets/Escherichia coli str. K-12 substr. MG1655/proteome.fasta", "fasta"):
    # Adicionando o record na lista vazia
    sequences.append(str(seq_record.seq))
    # printando a sequ√™ncia
    print(seq_record.seq)
    # printando o identificador da sequ√™ncia (prote√≠na)
    print(seq_record.id)
    # printando o tamanho da sequ√™ncia (cadeia de amino√°cidos)
    print(len(seq_record))

print("Sequ√™ncias no arquivo:", len(sequences))

In [None]:
# C√≥digo para o modelo de aprendizado de maquina - Classificador de Naive Bayes
# Escolha do modelo por ser um classificador de categorias

from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB

# Dividindo o Dataset em subsets de treino e teste
X_train, X_test, y_train, y_test = train_test_split(df["Sequencia_AA"], df["ID_Proteina"], test_size=0.2, random_state=42)

In [None]:
# PRIMEIRA VERS√ÉO
# Extra√ß√£o de caracter√≠sticas 
vectorizer = CountVectorizer()
X_train_encoded = vectorizer.fit_transform(X_train)
X_test_encoded = vectorizer.transform(X_test)

In [None]:
# SEGUNDA VERS√ÉO
# Trocando o Encoding para melhorar acur√°cia: k-mer length
from sklearn.feature_extraction.text import CountVectorizer

# Step 2: Convert Protein Sequences to Numerical Features (k-mer frequency encoding)
k = 1  # Specify the length of k-mers

# Convert protein sequences to k-mer frequency representation
vectorizer = CountVectorizer(analyzer='char', ngram_range=(k, k))
X_train_encoded = vectorizer.fit_transform(X_train)
X_test_encoded = vectorizer.transform(X_test)

In [None]:
# TERCEIRA VERS√ÉO
# Multiple sequence alignment (MSA) - O m√©todo utilizado para o caso de sequ√™ncia de prote√≠nas em machine learning
# primeiramente realizando um PSI-BLAST https://blast.ncbi.nlm.nih.gov/Blast.cgi?PAGE_TYPE=BlastSearch&PROGRAM=blastp&BLAST_PROGRAMS=psiBlast com o proteoma como input
# O PSI-BLAST tem como objetivo encontrar prote√≠nas com sequ√™ncias e fun√ß√µes parecidas, gerando uma position-specific scoring matrices (PSSMs)
# Ent√£o essa PSSMs pode ser utilizada para treinar nosso algor√≠timo de classifica√ß√£o
# Para iterar o PSI-BLAST para cada prote√≠na do proteoma da E. Coli K-12 necessitaria de MUITO poder computacional, logo vou baixar uma vers√£o de PSSM do NCBI
# O uso desse modelo nos permite chegar a sequencia, estrutura e fun√ß√£o da prote√≠na!! https://www.ncbi.nlm.nih.gov/Structure/cdd/cdd.shtml
# Input do proteoma aqui https://www.ncbi.nlm.nih.gov/Structure/cdd/cdd_help.shtml#BatchRPSBInput
# Checar arquivo pssm.py

In [None]:
# Treinando o modelo
naive_bayes_model = MultinomialNB()
naive_bayes_model.fit(X_train_encoded, y_train)

In [None]:
# Aplicando m√©tricas de an√°lise do modelo
from sklearn.metrics import accuracy_score, precision_score, recall_score, f1_score

y_pred_train = naive_bayes_model.predict(X_train_encoded)
train_accuracy = accuracy_score(y_train, y_pred_train)
train_precision = precision_score(y_train, y_pred_train, average='weighted')
train_recall = recall_score(y_train, y_pred_train, average='weighted')
train_f1 = f1_score(y_train, y_pred_train, average='weighted')

print("Acur√°cia:", train_accuracy)
print("Precis√£o:", train_precision)
print("Recall:", train_recall)
print("F1-Score:", train_f1)

In [None]:
# Criando gr√°ficos e visualiza√ß√µes do modelo
import matplotlib.pyplot as plt
import numpy as np

metricas = ['Acur√°cia', 'Precis√£o', 'Recall', 'F1-Score']
valores = [train_accuracy, train_precision, train_recall, train_f1]
valores_percentuais = [value * 100 for value in values]

plt.figure(figsize=(8, 4))
plt.bar(metricas, valores_percentuais, color='steelblue')
plt.xlabel('M√©tricas')
plt.ylabel('Valores')
plt.title('Avalia√ß√£o do Modelo - M√©tricas')
plt.ylim([0, 1])

# Set y-axis tick positions and labels as percentages
plt.yticks(np.linspace(0, 100, 11), ['{}%'.format(int(valores_percentuais)) for valores_percentuais in np.linspace(0, 100, 11)])

plt.show()

In [None]:
# Predi√ß√µes
nova_sequencia = ["MFENITAAPADPILGLADLFRADERPGKINLGIGVYKDETGKTPVLTSVKKAEQYLLENETTKNYLGIDGIPEFGRCTQELLFGKGSALINDKRARTAQTPGGTGALRVAADFLAKNTSVKRVWVSNPSWPNHKSVFNSAGLEVREYAYYDAENHTLDFDALINSLNEAQAGDVVLFHGCCHNPTGIDPTLEQWQTLAQLSVEKGWLPLFDFAYQGFARGLEEDAEGLRAFAAMHKELIVASSYSKNFGLYNERVGACTLVAADSETVDRAFSQMKAAIRANYSNPPAHGASVVATILSNDALRAIWEQELTDMRQRIQRMRQLFVNTLQEKGANRDFSFIIKQNGMFSFSGLTKEQVLRLREEFGVYAVSGRVNVAGMTPDNMAPLCEAIVAVL"] # NOVO INPUT
# essa √© a sequ√™ncia de amino√°cidos da prote√≠na I

# INSA9_ECOLI
# MASVSISCPSCSATDGVVRNGKSTAGHQRYLCSHCRKTWQLQFTYTASQPGTHQKIIDMAMNGVGCRATARIMGVGLNTILRHLKNSGRSR

# AAT_ECOLI
# MFENITAAPADPILGLADLFRADERPGKINLGIGVYKDETGKTPVLTSVKKAEQYLLENETTKNYLGIDGIPEFGRCTQELLFGKGSALINDKRARTAQTPGGTGALRVAADFLAKNTSVKRVWVSNPSWPNHKSVFNSAGLEVREYAYYDAENHTLDFDALINSLNEAQAGDVVLFHGCCHNPTGIDPTLEQWQTLAQLSVEKGWLPLFDFAYQGFARGLEEDAEGLRAFAAMHKELIVASSYSKNFGLYNERVGACTLVAADSETVDRAFSQMKAAIRANYSNPPAHGASVVATILSNDALRAIWEQELTDMRQRIQRMRQLFVNTLQEKGANRDFSFIIKQNGMFSFSGLTKEQVLRLREEFGVYAVSGRVNVAGMTPDNMAPLCEAIVAVL

# Se for uma sequ√™ncia de DNA, usar as fun√ß√µes de tradu√ß√£o: fazer um if no algor√≠timo

sequencia_mRNA = dna_para_mRNA(sequencia_DNA)
sequencia_tRNA = mRNA_para_tRNA(sequencia_mRNA)
sequencia_proteina = traducao(sequencia_mRNA)

nova_sequencia_encoded = vectorizer.transform(nova_sequencia)
nome_proteina = naive_bayes_model.predict(nova_sequencia_encoded)
print("Nome da poss√≠vel prote√≠na:", nome_proteina)

In [7]:
# tratamento do xlsx chaperone interactors
import pandas as pd
df = pd.read_csv("datasets/MG1655_Chaperone_Interactors.csv")


Unnamed: 0,Accession_STEPdb_2.0,Protein_ID_STEPdb_2.0,1ary_Gene_Name,STEPdb_Universal_Name,Uniprot_Protein_Name,STEPdb_Sub-cellular_Location_Full Name,STEPdb_Sub-cellular_Location_Letter Code,sub-cellular_topology_group,SRP_interactome_Schibich2016,TF_interactome_Oh2011,...,TF_client_Martinez2009,TF_client_Butland2005,TF_client_Arifuzzaman2006,TF_client_Niwa2009,GroEL_client_Kerner2005,GroEL_client_Arifuzzaman2006,GroEL_client_Chapman2006,GroEL_client_Niwa2009,SecB_client_Stepdb1.0,SecB_client_additional_data
0,P0DPC5,YTID_ECOLI,ytiD,"cytoplasmic protein, YtiD",Protein YtiD,Cytoplasmic,A,Cytoplasmic,,,...,,,,,,,,,,
1,P0DPC4,YTIC_ECOLI,ytiC,"cytoplasmic protein, YtiC",Protein YtiC,Cytoplasmic,A,Cytoplasmic,,,...,,,,,,,,,,
2,P0DN74,YTIA_ECOLI,ytiA,"cytoplasmic protein, YtiA",Uncharacterized protein YtiA,Cytoplasmic,A,Cytoplasmic,,,...,,,,,,,,,,
3,V9HVX0,YPAA_ECOLI,ypaA,"cytoplasmic protein, YpaA",Uncharacterized protein YpaA,Cytoplasmic,A,Cytoplasmic,,,...,,,,,,,,,,
4,P0DPC9,YNFQ_ECOLI,ynfQ,"cytoplasmic protein, YnfQ",Protein YnfQ,Cytoplasmic,A,Cytoplasmic,,,...,,,,,,,,,,
