In [1]:
import os
import shutil

if not os.path.isdir("./libs"):
    os.mkdir("./libs")
if os.path.isdir("./CPAT"):
    shutil.rmtree("./CPAT")
if os.path.isdir("./Diamond"):
    shutil.rmtree("./Diamond")
if os.path.isdir("./features"):
    shutil.rmtree("./features")

In [2]:
%%writefile ./libs/util_bd.py
import mysql.connector
import myloginpath
import pandas as pd

def resultados_query(query):
    conf = myloginpath.parse('tesis2')
    conn = mysql.connector.connect(**conf, db="tesis2")
    cursor = conn.cursor()
    cursor.execute(query)
    resultado = cursor.fetchall()
    conn.close()
    return resultado

def ejecutar_query(query):
    conf = myloginpath.parse('tesis2')
    conn = mysql.connector.connect(**conf, db="tesis2")
    cursor = conn.cursor()
    cursor.execute(query)
    conn.close()

def mostrar_resultado_query(query):
    conf = myloginpath.parse('tesis2')
    conn = mysql.connector.connect(**conf, db="tesis2")
    df = pd.read_sql_query(query, conn)
    display(df)
    conn.close()

Overwriting ./libs/util_bd.py


In [3]:
%%writefile ./libs/util_fasta.py
import os

def generar_fasta(secuencias, archivo, tamanio_por_linea=80):
    t_tamanio = tamanio_por_linea
    f = open(archivo ,"w+")
    for transcrito in secuencias:
        f.write(">%s\n" % (transcrito[0].strip().upper()))
        seq = transcrito[1]
        t_partes = [seq[i:i+t_tamanio] for i in range(0, len(seq), t_tamanio)]
        for t_parte in t_partes:
            f.write("%s\n" % (t_parte))
    f.close()

def leer_fasta(archivo):
    transcritos = {}
    cod_secuencia = ""
    secuencia = ""
    f = open(archivo, "r")
    for linea in f:
        if linea.startswith(">"):
            if secuencia != "":
                transcritos[cod_secuencia] = secuencia
                secuencia = ""
            cod_secuencia = linea.rstrip("\n").lstrip(">").strip().upper()
        else:
            secuencia += linea.rstrip("\n")
    if secuencia != "":
        transcritos[cod_secuencia] = secuencia
        secuencia = ""
    f.close()
    return transcritos

Overwriting ./libs/util_fasta.py


In [12]:
%%writefile ./libs/util_caracteristicas.py
import os
import util_bd, util_fasta
from Bio.SeqUtils import GC
import csv
from sklearn.externals.joblib import dump, load
import random
import string
import shutil

def generar_modelo_CPAT(identificador, codigos_lncRNA, codigos_PCT):
    archivos = _rutas_archivos(identificador)
    if os.path.isdir(archivos["cpat"]["directorio_base"]):
        return
    _generar_directorios_cpat(archivos)
    _generar_data_cpat(archivos, codigos_lncRNA, codigos_PCT)
    _generar_modelo_cpat(archivos)

def generar_caracteristicas(identificador, transcritos):
    archivos = _rutas_archivos(identificador)
    if not os.path.isdir(archivos["cpat"]["directorio_base"]):
        raise Exception("No se encontró la carpeta del modelo CPAT {}, probablemente aún no ha generado este modelo. Ruta buscada: {}".format(identificador, archivos["cpat"]["directorio_base"]))
    _generar_transcritos_fasta(archivos, transcritos)
    _generar_caracteristicas_cpat(archivos, archivos["transcritos_fasta"])
    _generar_caracteristicas_diamond(archivos, archivos["transcritos_fasta"])
    _generar_caracteristicas(archivos, transcritos)
    _limpiar_archivos_cpat(archivos)

def generar_caracteristicas_cpat(identificador, transcritos):
    archivos = _rutas_archivos(identificador)
    if not os.path.isdir(archivos["cpat"]["directorio_base"]):
        raise Exception("No se encontró la carpeta del modelo CPAT {}, probablemente aún no ha generado este modelo. Ruta buscada: {}".format(identificador, archivos["cpat"]["directorio_base"]))
    _generar_transcritos_fasta(archivos, transcritos)
    _generar_caracteristicas_cpat(archivos, archivos["transcritos_fasta"])
    _limpiar_archivos_cpat(archivos)
    
def existe_modelo_cpat(identificador):
    archivos = _rutas_archivos(identificador)
    return os.path.isdir(archivos["cpat"]["directorio_base"])
    
def _rutas_archivos(identificador):
    if not os.path.isdir("./CPAT"):
        os.mkdir("./CPAT")
    if not os.path.isdir("./Diamond"):
        os.mkdir("./Diamond")
    if not os.path.isdir("./features"):
        os.mkdir("./features")
    
    archivos = {}
    archivos["cpat"] = { "directorio_base" : "./CPAT/{}".format(identificador) }
    archivos["cpat"]["data"] = { "directorio" : "{}/data".format(archivos["cpat"]["directorio_base"]) }
    archivos["cpat"]["data"]["lncRNA"] = "{}/lncRNA.fasta".format(archivos["cpat"]["data"]["directorio"])
    archivos["cpat"]["data"]["PCT"] = "{}/PCT.fasta".format(archivos["cpat"]["data"]["directorio"])
    archivos["cpat"]["data"]["CDS"] = "{}/CDS.fasta".format(archivos["cpat"]["data"]["directorio"])
    archivos["cpat"]["modelo"] = { "directorio" : "{}/modelo".format(archivos["cpat"]["directorio_base"]) }
    archivos["cpat"]["modelo"]["hexamer"] = "{}/hexamer.tsv".format(archivos["cpat"]["modelo"]["directorio"])
    archivos["cpat"]["modelo"]["prefijo_logit"] = "{}/{}".format(archivos["cpat"]["modelo"]["directorio"], identificador)
    archivos["cpat"]["modelo"]["logit"] = "{}.logit.RData".format(archivos["cpat"]["modelo"]["prefijo_logit"])
    archivos["cpat"]["modelo"]["prefijo_cpat"] = "{}/{}".format(archivos["cpat"]["modelo"]["directorio"], identificador)
    archivos["cpat"]["salida"] = "{}.dat".format(archivos["cpat"]["modelo"]["prefijo_cpat"])
    archivos["cpat"]["scripts"] = {
        "script_hexamer" : "~/anaconda3/bin/make_hexamer_tab.py",
        "script_logit" : "~/anaconda3/bin/make_logitModel.py",
        "script_cpat" : "~/anaconda3/bin/cpat.py"
    }
    archivos["diamond"] = { "directorio_base" : "./Diamond" }
    archivos["diamond"]["bd"] = "{}_BD/uniprot-viridiplantae-reviewed.dmnd".format(archivos["diamond"]["directorio_base"])
    archivos["diamond"]["script"] = "~/anaconda3/bin/diamond"
    archivos["diamond"]["salida"] = "{}/{}.tsv".format(archivos["diamond"]["directorio_base"], identificador)
    archivos["transcritos_fasta"] = "./data/{}.fasta".format(identificador)
    archivos["features"] = { "directorio_base" : "./features"}
    archivos["features"]["salida"] = "{}/{}.feat".format(archivos["features"]["directorio_base"], identificador)
    return archivos
    
def _generar_directorios_cpat(archivos):
    os.mkdir(archivos["cpat"]["directorio_base"])
    os.mkdir(archivos["cpat"]["data"]["directorio"])
    os.mkdir(archivos["cpat"]["modelo"]["directorio"])

def _limpiar_archivos_cpat(archivos):
    pass #shutil.rmtree(archivos["cpat"]["data"])

def _generar_data_cpat(archivos, codigos_lncRNA, codigos_PCT):
    query = "SELECT cod_secuencia, secuencia FROM secuencias WHERE cod_secuencia IN ('{}')".format("', '".join(codigos_lncRNA))
    secuencias = util_bd.resultados_query(query)
    util_fasta.generar_fasta(secuencias, archivos["cpat"]["data"]["lncRNA"])
    query = "SELECT cod_secuencia, secuencia FROM secuencias WHERE cod_secuencia IN ('{}')".format("', '".join(codigos_PCT))
    secuencias = util_bd.resultados_query(query)
    util_fasta.generar_fasta(secuencias, archivos["cpat"]["data"]["PCT"])
    query = "SELECT cod_secuencia, coding FROM secuencias_CDS WHERE cod_secuencia IN ('{}')".format("', '".join(codigos_PCT))
    secuencias = util_bd.resultados_query(query)
    util_fasta.generar_fasta(secuencias, archivos["cpat"]["data"]["CDS"])

def _generar_modelo_cpat(archivos):
    _generar_hexamer_cpat(archivos)
    _generar_logit_cpat(archivos)
    
def _generar_hexamer_cpat(archivos):
    script = archivos["cpat"]["scripts"]["script_hexamer"]
    fasta_cds = "'" + archivos["cpat"]["data"]["CDS"] + "'" 
    fasta_lncRNA = "'" + archivos["cpat"]["data"]["lncRNA"] + "'"
    salida = "'" + archivos["cpat"]["modelo"]["hexamer"] + "'"
    comando = "{} -c {} -n {} > {}".format(script, fasta_cds, fasta_lncRNA, salida)
    os.system(comando)
    
def _generar_logit_cpat(archivos):
    script = archivos["cpat"]["scripts"]["script_logit"]
    hexamer = "'" + archivos["cpat"]["modelo"]["hexamer"] + "'"
    fasta_pct = "'" + archivos["cpat"]["data"]["PCT"] + "'" 
    fasta_lncRNA = "'" + archivos["cpat"]["data"]["lncRNA"] + "'"
    salida = "'" + archivos["cpat"]["modelo"]["prefijo_logit"] + "'"
    comando = "{} -x {} -c {} -n {} -o {}".format(script, hexamer, fasta_pct, fasta_lncRNA, salida)
    os.system(comando)

def _generar_transcritos_fasta(archivos, transcritos):
    transcritos_array = transcritos.items()
    util_fasta.generar_fasta(transcritos_array, archivos["transcritos_fasta"])
    
def _generar_caracteristicas_cpat(archivos, transcritos_fasta):
    script = archivos["cpat"]["scripts"]["script_cpat"]
    logit = "'" + archivos["cpat"]["modelo"]["logit"] + "'"
    hexamer = "'" + archivos["cpat"]["modelo"]["hexamer"] + "'"
    salida = "'" + archivos["cpat"]["modelo"]["prefijo_cpat"] + "'"
    comando = "{} -g {} -d {} -x {} -o {}".format(script, transcritos_fasta, logit, hexamer, salida)
    os.system(comando)

def _generar_caracteristicas_diamond(archivos, transcritos_fasta):
    script = archivos["diamond"]["script"]
    diamond_bd = "'" + archivos["diamond"]["bd"] + "'"
    salida = "'" + archivos["diamond"]["salida"] + "'"
    comando = "{} blastx -d {} -q {} -o {} -k 5 --gapopen 11 --gapextend 1 --more-sensitive -f 6 qseqid pident length qframe qstart qend sstart send evalue bitscore".format(script, diamond_bd, transcritos_fasta, salida)
    os.system(comando)

def _generar_caracteristicas(archivos, transcritos):
    transcript_dict = {}
    for k in transcritos.keys():
        transcript_dict[k.strip().upper()] = {
            "length" : len(transcritos[k]),
            "gc" : GC(transcritos[k]),
            "orf_length" : 0,
            "orf_coverage" : float(0),
            "hexamer_score" : float(0),
            "fickett_score" : float(0),
            "identity" : float(0),
            "align_length" : float(0),
            "align_perc_len" : float(0),
            "align_perc_orf" : float(0)
        }
    
    with open(archivos["cpat"]["salida"], "r") as f:
        cpat_reader = csv.reader(f, delimiter=("\t"))
        for row in cpat_reader:
            cod_secuencia = row[0]
            transcript_dict[cod_secuencia]["orf_length"] = float(row[2])
            transcript_dict[cod_secuencia]["orf_coverage"] = float(row[2])/float(transcript_dict[cod_secuencia]["length"])
            transcript_dict[cod_secuencia]["fickett_score"] = float(row[3])
            transcript_dict[cod_secuencia]["hexamer_score"] = float(row[4])
    
    #adaptado de https://github.com/gbgolding/crema/blob/master/bin/featuresetup_module.py
    with open(archivos["diamond"]["salida"], "r") as f:
        tab_reader = csv.reader(f, delimiter=("\t"))
        line_1 = next(tab_reader)
        first = line_1[0].upper()
        score = [float(line_1[9])]
        with_len = [[first, float(line_1[1]), float(line_1[2]), float(line_1[3]), float(line_1[9])]] # name identity length frame score
        for row in tab_reader:
            if row[0].upper() == first:
                score.append(float(row[9]))
                with_len.append([row[0].upper(), float(row[1]), float(row[2]), float(row[3]), float(row[9])])
            else:
                transcript_dict[first]["identity"] = float(0)
                transcript_dict[first]["align_length"] = float(0)
                max_value = max(score)
                max_index = score.index(max_value)
                max_len_ident = with_len[max_index]
                if max_len_ident[3] > 0:
                    transcript_dict[first]["identity"] = float(max_len_ident[1])
                    transcript_dict[first]["align_length"] = float(max_len_ident[2])
                    transcript_dict[first]["align_perc_len"] = float(transcript_dict[first]["align_length"]/transcript_dict[first]["length"])
                    transcript_dict[first]["align_perc_orf"] = (0 if transcript_dict[first]["orf_length"] == 0 else float(transcript_dict[first]["align_length"]/transcript_dict[first]["orf_length"]))
                score = [float(row[9])]
                first = row[0].upper()
                with_len = [[first, float(row[1]), float(row[2]), float(row[3]), float(row[9])]]
        transcript_dict[first]["identity"] = float(0)
        transcript_dict[first]["align_length"] = float(0)
        max_value = max(score)
        max_index = score.index(max_value)
        max_len_ident = with_len[max_index]
        if max_len_ident[3] > 0:
            transcript_dict[first]["identity"] = float(max_len_ident[1])
            transcript_dict[first]["align_length"] = float(max_len_ident[2])
    #fin de código adaptado de https://github.com/gbgolding/crema/blob/master/bin/featuresetup_module.py
    
    dump(transcript_dict, archivos["features"]["salida"])

def obtener_caracteristicas(identificador, id_cpat, transcritos):
    archivos = _rutas_archivos(identificador)
    archivos_cpat = _rutas_archivos(id_cpat)
    if not os.path.isfile(archivos["features"]["salida"]):
        raise Exception("Debe primero generar la base de datos de caracteristicas " + identificador)
    if not os.path.isfile(archivos_cpat["cpat"]["salida"]):
        raise Exception("Debe primero generar la base de datos de caracteristicas para CPAT " + id_cpat)
    
    features_globales = load(archivos["features"]["salida"])
    transcript_dict = {}
    for k in transcritos.keys():
        transcript_dict[k.strip().upper()] = {
            "length" : features_globales[k.strip().upper()]["length"],
            "gc" : features_globales[k.strip().upper()]["gc"],
            "orf_length" : features_globales[k.strip().upper()]["orf_length"],
            "orf_coverage" : features_globales[k.strip().upper()]["orf_coverage"],
            "hexamer_score" : float(0),
            "fickett_score" : float(0),
            "identity" : features_globales[k.strip().upper()]["identity"],
            "align_length" : features_globales[k.strip().upper()]["align_length"],
            "align_perc_len" : features_globales[k.strip().upper()]["align_perc_len"],
            "align_perc_orf" : features_globales[k.strip().upper()]["align_perc_orf"]
        }
    
    with open(archivos_cpat["cpat"]["salida"], "r") as f:
        cpat_reader = csv.reader(f, delimiter=("\t"))
        for row in cpat_reader:
            cod_secuencia = row[0].strip().upper()
            if cod_secuencia in transcript_dict:
                transcript_dict[cod_secuencia]["fickett_score"] = float(row[3])
                transcript_dict[cod_secuencia]["hexamer_score"] = float(row[4])
    
    return transcript_dict

Overwriting ./libs/util_caracteristicas.py


In [5]:
%%writefile ./libs/util_modelo_referencial.py
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report
from sklearn.svm import SVC
import util_caracteristicas, util_fasta
from sklearn.preprocessing import StandardScaler
from sklearn.externals.joblib import dump, load
from sklearn.utils import shuffle
import random

import numpy as np
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.pipeline import Pipeline
import string
import os
import hashlib

class GeneradorFeatures(BaseEstimator, TransformerMixin):
    def __init__(self, identificador=None, X_train=None,y_train=None):
        #generar todos los features
        self.identificador = identificador
        if X_train is None or y_train is None:
            return
        codigos_lncRNA = {}
        codigos_PCT = {}
        for i in range(len(X_train)):
            if y_train[i] == 0:
                codigos_PCT[X_train[i][0]] = X_train[i][1]
            else:
                codigos_lncRNA[X_train[i][0]] = X_train[i][1]
        util_caracteristicas.generar_modelo_CPAT(identificador, codigos_lncRNA, codigos_PCT)
        util_caracteristicas.generar_caracteristicas(identificador, {**codigos_lncRNA, **codigos_PCT})
        
    def fit(self, X, y=None):
        #ejecutar cpat para el conjunto de datos
        identificador = self.identificador
        self._id_cpat = identificador + "_fold_" + hashlib.sha224(''.join([x[0] for x in X]).encode()).hexdigest()#str(hash(frozenset({x[0]:1 for x in X})))
        id_cpat = self._id_cpat
        if util_caracteristicas.existe_modelo_cpat(id_cpat):
            return self
        codigos_lncRNA = {}
        codigos_PCT = {}
        for i in range(len(y)):
            if y[i] == 0:
                codigos_PCT[X[i][0]] = X[i][1]
            else:
                codigos_lncRNA[X[i][0]] = X[i][1]
        util_caracteristicas.generar_modelo_CPAT(id_cpat, codigos_lncRNA, codigos_PCT)
        util_caracteristicas.generar_caracteristicas_cpat(identificador, {**codigos_lncRNA, **codigos_PCT})
        return self
        
    def transform(self, X):
        #obtener caracteristicas
        identificador = self.identificador
        id_cpat = self._id_cpat
        codigos = {codigo[0]:codigo[1] for codigo in X}
        util_caracteristicas.generar_caracteristicas_cpat(id_cpat, codigos)
        dict_features = util_caracteristicas.obtener_caracteristicas(identificador, id_cpat, codigos)

        return [list(x.values()) for x in dict_features.values()]

def crear_modelo_referencial(identificador, tuned_parameters, scores, n_jobs, cv):
    if not os.path.isdir("./modelos_referenciales"):
        os.mkdir("./modelos_referenciales")
    
    codigos_lncRNA = util_fasta.leer_fasta("./data/" + identificador + ".lncRNA.fasta")
    codigos_PCT = util_fasta.leer_fasta("./data/" + identificador + ".PCT.fasta")
    
    X = list(codigos_lncRNA.items()) + list(codigos_PCT.items())
    y = ([1] * len(codigos_lncRNA)) + ([0] * len(codigos_PCT))
    X_train, y_train = X, y #shuffle(X, y, random_state=0)
    svm_pipeline = Pipeline(steps=[('features', GeneradorFeatures(identificador, X_train, y_train)), ('svc', SVC())])
    
    for score in scores:
        clf = GridSearchCV(svm_pipeline, tuned_parameters, cv=cv, scoring=score, n_jobs=n_jobs, refit="accuracy")
        clf.fit(X_train, y_train)
        resultado = {
            "accuracy" : clf.cv_results_['mean_test_accuracy'][clf.best_index_],
            "precision" : clf.cv_results_['mean_test_precision'][clf.best_index_],
            "recall" : clf.cv_results_['mean_test_recall'][clf.best_index_]
        }
        dump(resultado, './modelos_referenciales/resultado_{}.bin'.format(identificador))
        dump(clf.best_estimator_, './modelos_referenciales/modelo_{}.plk'.format(identificador), compress = 1)
        
        #means = clf.cv_results_['mean_test_accuracy']
        #stds = clf.cv_results_['std_test_accuracy']
        #for mean, std, params in zip(means, stds, clf.cv_results_['params']):
        #    print("%0.3f (+/-%0.03f) for %r"
        #          % (mean, std * 2, params))
        #print()

        #print("Detailed classification report:")
        #print()
        #print("The model is trained on the full development set.")
        #print("The scores are computed on the full evaluation set.")
        #print()
        #y_true, y_pred = y_test, clf.predict(X_test)
        #print(classification_report(y_true, y_pred))
        #print()

Overwriting ./libs/util_modelo_referencial.py


In [1]:
%%writefile ./libs/util_modelo_final.py
from sklearn import datasets
from sklearn.model_selection import train_test_split
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import classification_report
from sklearn.svm import SVC
import util_caracteristicas, util_fasta
from sklearn.preprocessing import StandardScaler
from sklearn.externals.joblib import dump, load
from sklearn.utils import shuffle
import random

import numpy as np
from sklearn.base import BaseEstimator, TransformerMixin
from sklearn.pipeline import Pipeline
import string
import os
import hashlib

from sklearn.externals.joblib import Parallel, delayed
from sklearn.model_selection import PredefinedSplit

def generar_features_generales(X_train, y_train):
    #generar todos los features
    identificador = "final"
    codigos_lncRNA = {}
    codigos_PCT = {}
    for i in range(len(X_train)):
        if y_train[i] == 0:
            codigos_PCT[X_train[i][0]] = X_train[i][1]
        else:
            codigos_lncRNA[X_train[i][0]] = X_train[i][1]
    util_caracteristicas.generar_modelo_CPAT(identificador, codigos_lncRNA, codigos_PCT)
    util_caracteristicas.generar_caracteristicas(identificador, {**codigos_lncRNA, **codigos_PCT})

def generar_fit(X, y):
    #ejecutar cpat para el conjunto de datos
    identificador = "final"
    id_cpat = identificador + "_fold_" + hashlib.sha224(''.join([x[0] for x in X]).encode()).hexdigest()
    codigos_lncRNA = {}
    codigos_PCT = {}
    for i in range(len(y)):
        if y[i] == 0:
            codigos_PCT[X[i][0]] = X[i][1]
        else:
            codigos_lncRNA[X[i][0]] = X[i][1]
    util_caracteristicas.generar_modelo_CPAT(id_cpat, codigos_lncRNA, codigos_PCT)
    util_caracteristicas.generar_caracteristicas_cpat(identificador, {**codigos_lncRNA, **codigos_PCT})
    
def obtener_folds(ps, X_train, y_train):
    for train_index, test_index in ps.split():
        yield [X_train[x] for x in train_index], [y_train[y] for y in train_index]

class GeneradorFeatures(BaseEstimator, TransformerMixin):
    def __init__(self, identificador=None, folds_completos=None):
        if identificador is None:
            return
        self.identificador = identificador
        self.folds_completos = folds_completos
        
    def fit(self, X, y=None):
        #ejecutar cpat para el conjunto de datos
        identificador = self.identificador
        self._id_cpat = identificador + "_fold_" + hashlib.sha224(''.join([x[0] for x in X]).encode()).hexdigest()
        if self._id_cpat == identificador + "_fold_" + self.folds_completos:
            self._id_cpat = identificador
        return self
        
    def transform(self, X):
        #obtener caracteristicas
        identificador = self.identificador
        id_cpat = self._id_cpat
        codigos = {codigo[0]:codigo[1] for codigo in X}
        util_caracteristicas.generar_caracteristicas_cpat(id_cpat, codigos)
        dict_features = util_caracteristicas.obtener_caracteristicas(identificador, id_cpat, codigos)
        return [list(x.values()) for x in dict_features.values()]

def generar_sub_modelos(especie, folds, modelo):
    X_train = folds[especie]["X_train"]
    y_train = folds[especie]["y_train"]
    modelo.fit(X_train, y_train)
    dump(modelo, './modelo_final/modelo_{}.plk'.format(especie))
    
def crear_modelo_final(especies, tuned_parameters, scores, n_jobs):
    print("Iniciando creación del modelo final")
    if not os.path.isdir("./modelo_final"):
        os.mkdir("./modelo_final")
    
    X = list()
    y = list()
    test_fold = list()
    indice_fold = 0
    folds = {}
    
    for especie in especies:
        folds[especie] = { "llaves" : list(), "X_train" : list(), "y_train" : list() }
        
    for especie in especies:
        identificador = especie
        codigos_lncRNA = util_fasta.leer_fasta("./data/" + identificador + ".lncRNA.fasta")
        codigos_PCT = util_fasta.leer_fasta("./data/" + identificador + ".PCT.fasta")
        
        _x = list(codigos_lncRNA.items()) + list(codigos_PCT.items())
        _y = ([1] * len(codigos_lncRNA)) + ([0] * len(codigos_PCT))
        X = X + _x
        y = y + _y
        test_fold = test_fold + ([indice_fold] * (len(codigos_lncRNA) + len(codigos_PCT)))
        
        folds[especie]["indice"] = indice_fold
        for especie_2 in especies:
            if especie != especie_2:
                folds[especie_2]["llaves"] = folds[especie_2]["llaves"] + [item[0] for item in _x]
                folds[especie_2]["X_train"] = folds[especie_2]["X_train"] + _x
                folds[especie_2]["y_train"] = folds[especie_2]["y_train"] + _y
        
        indice_fold = indice_fold + 1
        
    folds_especies = {}
    for especie in especies:
        folds[especie]["llave_hash"] = "final_fold_" + hashlib.sha224(''.join(folds[especie]["llaves"]).encode()).hexdigest()
        folds_especies[folds[especie]["llave_hash"]] = {
            "especie" : especie,
            "fold" : folds[especie]["indice"],
            "num_transcritos" : len(folds[especie]["llaves"]),
            "X_train" : folds[especie]["X_train"], 
            "y_train" : folds[especie]["y_train"]
        }
    dump(folds_especies, './modelo_final/folds_especies.bin')
        
    X_train, y_train = X, y #shuffle(X, y, random_state=0)
    identificador = "final"
    folds_completos = hashlib.sha224(''.join([x[0] for x in X_train]).encode()).hexdigest()
    svm_pipeline = Pipeline(steps=[('features', GeneradorFeatures(identificador, folds_completos)), ('svc', SVC())])
    ps = PredefinedSplit(test_fold)
    
    generar_features_generales(X_train, y_train)
    print("Prepocesamiento de transcritos previos al entrenamiento del modelo final")
    #Parallel(n_jobs=n_jobs, verbose=0)(delayed(generar_fit)(X, y) for X, y in obtener_folds(ps, X_train, y_train))
    for _X_train, _y_train in obtener_folds(ps, X_train, y_train):
        generar_fit(_X_train, _y_train)
    
    for score in scores:
        print("Entrenamiento del modelo con grid search")
        clf = GridSearchCV(svm_pipeline, tuned_parameters, cv=ps, scoring=score, n_jobs=n_jobs, refit="accuracy")
        clf.fit(X_train, y_train)
        resultado = {
            "accuracy" : clf.cv_results_['mean_test_accuracy'][clf.best_index_],
            "precision" : clf.cv_results_['mean_test_precision'][clf.best_index_],
            "recall" : clf.cv_results_['mean_test_recall'][clf.best_index_]
        }
        dump(resultado, './modelo_final/resultado_{}.bin'.format(identificador))
        dump(clf.best_params_, './modelo_final/params_{}.bin'.format(identificador))
        dump(clf.cv_results_, './modelo_final/cv_results_{}.bin'.format(identificador))
        dump(clf.best_estimator_, './modelo_final/modelo_{}.plk'.format(identificador))
        
        print("Generación de modelos finales dejando afuera una especie")
        Parallel(n_jobs=n_jobs, verbose=0)(delayed(generar_sub_modelos)(especie, folds, clf.best_estimator_) for especie in especies)
        
        #means = clf.cv_results_['mean_test_accuracy']
        #stds = clf.cv_results_['std_test_accuracy']
        #for mean, std, params in zip(means, stds, clf.cv_results_['params']):
        #    print("%0.3f (+/-%0.03f) for %r"
        #          % (mean, std * 2, params))
        #print()

        #print("Detailed classification report:")
        #print()
        #print("The model is trained on the full development set.")
        #print("The scores are computed on the full evaluation set.")
        #print()
        #y_true, y_pred = y_test, clf.predict(X_test)
        #print(classification_report(y_true, y_pred))
        #print()

Overwriting ./libs/util_modelo_final.py
