In [2]:
#Generación de archivos fasta para las 30 especies
import sys
sys.path.append('./libs')
import util_bd, util_fasta, util_caracteristicas
import os
import shutil
from sklearn.externals.joblib import Parallel, delayed, dump
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
import csv

#generación de bd diamond
#script = "~/anaconda3/bin/diamond makedb --in ./lncRNApred/data/uniprot_sprot.fasta -d ./lncRNApred/data/swissprot.dmnd"
#os.system(script)

def obtener_especies():
    query = "SELECT * FROM (SELECT CONVERT(@row_number:=@row_number + 1, UNSIGNED) AS orden, m.id_especie, m.especie FROM especies_seleccionadas s JOIN maestra_especies m ON s.especie = m.especie, (SELECT @row_number:=0) AS rn ORDER BY m.id_especie) a ORDER BY 1 LIMIT 1"
    return util_bd.resultados_query(query)
        
def generar_fasta_especie(row_especie):
    # lncRNA
    query = "SELECT cod_secuencia, secuencia FROM secuencias WHERE flg_pct = 0 AND flg_seleccionado = 1 AND id_especie = " + str(row_especie[1]) + " ORDER BY cod_secuencia"
    secuencias = util_bd.resultados_query(query)
    util_fasta.generar_fasta(secuencias, "./lncRNApred/data/lncRNA.fa")
    # PCT
    query = "SELECT cod_secuencia, secuencia FROM secuencias WHERE flg_pct = 1 AND flg_seleccionado = 1 AND id_especie = " + str(row_especie[1]) + " ORDER BY cod_secuencia"
    secuencias = util_bd.resultados_query(query)
    util_fasta.generar_fasta(secuencias, "./lncRNApred/data/PCT.fa")
    # lncRNA+PCT
    query = "SELECT cod_secuencia, secuencia FROM secuencias WHERE flg_seleccionado = 1 AND id_especie = " + str(row_especie[1]) + " ORDER BY flg_pct ASC, cod_secuencia"
    secuencias = util_bd.resultados_query(query)
    util_fasta.generar_fasta(secuencias, "./lncRNApred/data/transcritos.fa")

def ejecutar_scripts():
    #diamond
    script = "~/anaconda3/bin/diamond blastx -d ./lncRNApred/data/swissprot.dmnd -q ./lncRNApred/data/transcritos.fa -o ./lncRNApred/data/transcritos.dmnd -e 0.001 -k 5 --matrix BLOSUM62 --gapopen 11 --gapextend 1 --more-sensitive -f 6 qseqid pident length qframe qstart qend sstart send evalue bitscore"
    os.system(script)
    #cpat
    script = "~/anaconda3/bin/cpat.py -g ./lncRNApred/data/transcritos.fa -o ./lncRNApred/data/transcritos.cpat -x ./lncRNApred/crema/cpat_models/ath_hexamer.txt -d ./lncRNApred/crema/cpat_models/ath_logit.RData"
    os.system(script)
    #lncRNApred
    os.chdir('./lncRNApred/results/')
    script = "python3 ../crema/bin/predict.py -f ../data/transcritos.fa -c ../data/transcritos.cpat -d ../data/transcritos.dmnd"
    os.system(script)
    os.chdir('../../')

def obtener_resultados(num_especie):
    transcritos_lncRNA = {k.upper():"" for k,_ in util_fasta.leer_fasta("./lncRNApred/data/lncRNA.fa").items()}
    transcritos_PCT = {k.upper():"" for k,_ in util_fasta.leer_fasta("./lncRNApred/data/PCT.fa").items()}
    y_true = list()
    y_pred = list()
    with open("./lncRNApred/results/final_ensemble_predictions.csv", "r") as outfile:
        csv_reader = csv.reader(outfile, delimiter=(","))
        next(csv_reader, None) # skip header
        for row in csv_reader:
            if row[0].upper() in transcritos_lncRNA:
                y_true.append(1)
            if row[0].upper() in transcritos_PCT:
                y_true.append(0)
            y_pred.append(int(row[11]))
    print("ESPECIE " + str(num_especie) + ": " + str(accuracy_score(y_true, y_pred)))
    matriz_confusion = confusion_matrix(y_true, y_pred)
    print(classification_report(y_true, y_pred, target_names=["lncRNA", "PCT"]))
    tn, fp, fn, tp = matriz_confusion.ravel()
    print(matriz_confusion)
    print("tn:{}, fp:{}, fn:{}, tp:{}".format(tn, fp, fn, tp))
    
def resultados_especie(row_especie):
    generar_fasta_especie(row_especie)
    ejecutar_scripts()
    obtener_resultados(row_especie[0])
    
def preparar_data_maiz():
    shutil.copy("./lncRNApred/data/zea_mays_lncRNA.fa", "./lncRNApred/data/lncRNA.fa")
    shutil.copy("./lncRNApred/data/zea_mays_PCT2.fa", "./lncRNApred/data/PCT.fa")
    shutil.copy("./lncRNApred/data/zea_mays2.fa", "./lncRNApred/data/transcritos.fa")

#EJECUCION 30 ESPECIES
for row_especie in obtener_especies():
    resultados_especie(row_especie)

#EJECUCION MAIZ
preparar_data_maiz()
ejecutar_scripts()
obtener_resultados("ZEA MAYS")

print("Proceso finalizado")

ESPECIE 1: 0.36549429657794674
              precision    recall  f1-score   support

      lncRNA       0.42      0.73      0.53      4208
         PCT       0.01      0.00      0.01      4208

   micro avg       0.37      0.37      0.37      8416
   macro avg       0.22      0.37      0.27      8416
weighted avg       0.22      0.37      0.27      8416

[[3062 1146]
 [4194   14]]
tn:3062, fp:1146, fn:4194, tp:14
ESPECIE ZEA MAYS: 0.6370028663561448
              precision    recall  f1-score   support

      lncRNA       0.91      0.66      0.76     19796
         PCT       0.15      0.48      0.23      2532

   micro avg       0.64      0.64      0.64     22328
   macro avg       0.53      0.57      0.50     22328
weighted avg       0.82      0.64      0.70     22328

[[13001  6795]
 [ 1310  1222]]
tn:13001, fp:6795, fn:1310, tp:1222
Proceso finalizado
