In [None]:
!pip install biopython
from Bio import SeqIO
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.feature_extraction.text import CountVectorizer
from sklearn.naive_bayes import MultinomialNB
from sklearn.metrics import classification_report



In [None]:
# Ler o arquivo de treino
train_sequences = list(SeqIO.parse("modified_perfect_transposons.fasta", "fasta"))
train_data = [str(seq.seq) for seq in train_sequences]
train_labels = [seq.id for seq in train_sequences]
# Verificar o tamanho dos dados lidos
print(f"Total de sequências de treino: {len(train_data)}, Total de rótulos: {len(train_labels)}")


Total de sequências de treino: 1769, Total de rótulos: 1769


In [None]:
# Vetorização das sequências
vectorizer = CountVectorizer(analyzer='char', ngram_range=(1, 3))
X_train = vectorizer.fit_transform(train_data)

In [15]:
# Ler o arquivo para classificação
test_sequences = list(SeqIO.parse("reduced.fa", "fasta"))
test_data = [str(seq.seq) for seq in test_sequences]
test_ids = [seq.id for seq in test_sequences]




In [16]:
# Dividir os dados de treino em treino e validação
X_train_split, X_val, y_train, y_val = train_test_split(X_train, train_labels, test_size=0.2, random_state=42)

# Treinar o modelo
model = MultinomialNB()
model.fit(X_train_split, y_train)

# Avaliar o modelo
y_pred = model.predict(X_val)
print(classification_report(y_val, y_pred))

                 precision    recall  f1-score   support

 DNA-transposon       0.60      0.76      0.67       172
Retrotransposon       0.70      0.53      0.60       182

       accuracy                           0.64       354
      macro avg       0.65      0.64      0.64       354
   weighted avg       0.65      0.64      0.64       354



In [17]:
# Prever as classes para o conjunto de teste
predictions = model.predict(X_test)

# Criar um dicionário com as previsões
results = dict(zip(test_ids, predictions))

# Exibir as previsões
for seq_id, prediction in results.items():
    print(f"ID: {seq_id}, Predição: {prediction}")

ID: ltr-1_family-1#LTR/Gypsy, Predição: DNA-transposon
ID: ltr-1_family-2#LTR/Gypsy, Predição: Retrotransposon
ID: ltr-1_family-11#LTR/Unknown, Predição: DNA-transposon
ID: ltr-1_family-12#LTR/Unknown, Predição: DNA-transposon
ID: ltr-1_family-13#LTR/Pao, Predição: DNA-transposon
ID: ltr-1_family-15#LTR/Unknown, Predição: DNA-transposon
ID: ltr-1_family-16#LTR/Gypsy, Predição: DNA-transposon
ID: ltr-1_family-17#LTR/Unknown, Predição: DNA-transposon
ID: ltr-1_family-18#LTR/Unknown, Predição: DNA-transposon
ID: ltr-1_family-19#LTR/Unknown, Predição: DNA-transposon
ID: ltr-1_family-20#LTR/Pao, Predição: DNA-transposon
ID: ltr-1_family-3#LTR/Unknown, Predição: DNA-transposon
ID: ltr-1_family-21#LTR/Unknown, Predição: DNA-transposon
ID: ltr-1_family-22#LTR/Gypsy, Predição: DNA-transposon
ID: ltr-1_family-23#LTR/Unknown, Predição: DNA-transposon
ID: ltr-1_family-24#LTR/Gypsy, Predição: DNA-transposon
ID: ltr-1_family-26#LTR/Gypsy, Predição: Retrotransposon
ID: ltr-1_family-27#LTR/Unknown, Pr

In [18]:
# Salvar as previsões em um arquivo
with open('predicoes.txt', 'w') as f:
    for seq_id, prediction in results.items():
        f.write(f"{seq_id}\t{prediction}\n")

# Baixar via navegador o arquivo de resultados
from google.colab import files
files.download('predicoes.txt')


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>