# PyMetaSeem
CAMISIM es un `Programa` para simular datos metagenomicos a partir de genomas, a grandes rasgos este programa toma uno o varios archivos de genomas, y por un proceso de corte aleatorio de secuencias crea un archivo de datos metagenomicos.

A continuación se muestran los pasos para hacer una recreaccion de este algoritmo, y explicando cada una de las funciones creadas.

In [1]:
import os
import math
import random
import numpy as np

from pathlib import Path
from random import seed
from random import randint

La primera funcion se encarga de leer uno o varios genomas en archivos, los cuales se convertiran en un diccionario para poder trabajar con ellos en `Python`, en donde las `llaves`son los identificadores de los genoma y los `valores` la secuencia de nucleotidos.

In [2]:
# funcion para lectura de archivos
# ingresa un archivo multifasta y arroja una lista con cada secuencia (contig)
dic = {}
def lectura_genoma(File):
    lista = []
    with open(File,'r') as f:
        lines=f.read() # lectura de cada linea del archivo
        lines=lines.split('>') # identificador de '>'
        lines=['>'+ x for x in lines[1:]] # lista con cada elemento que comienza con '>'
        for x in lines:
            x1 = x.replace(">","@")
            x2 = x1.replace("\n",",",1) # el primer '\n' se reemplazapor una coma
            x3 = x2.replace("\n","") # los siguientes se quitan
            lista.append(x3) # lista con un contig en cada elemento y su identificador

        
        
        # LONGITUDES ¿¿¿???
        # convertir la lista en un diccionario        
        for x in lista:
            x = x.split(',')
            dic[x[0]] = x[1] 
        return(dic)    

In [4]:
lectura_genoma('/home/csilva/GIT/Tesis_Maestria/Data/new-c-genomes(cortados)/Clavibacter_michiganensis_subsp_capsici_1101.fna-cortado.fna')

{'@NZ_CP048049.1': 'ATGTCCGACCGCTCCGACCCGACGCACGCGATCTGGCAGAAGGTGCTGTCCGCCCTGACCGCGGACGACCGCATCACGCCGCAGCTGCACGGCTTCATCAGCCTGGTCGAGCCGAAGGGCGTCATGACCGGCACCCTCTACCTCGAGGTGCCCAACGACCTCACCCGCGGGATGCTCGAGCAGCGCATCCGCGTGCCCCTCCTCAACGCCATCGGCTCGCTCGACGAGGCGGCCGGCGTGAGCAACTTCGCCATCGTCGTCAACCCGGAGATCGCGCAGGACGCCTTCGCGCAGCATCCCGAGCCGGCGGCGGAACAGCCCTACATCGAGACGCCGACCATCACCGCGCCGACCGACAACCCCGGCCTGCCTGCGTCACCGTCCCGCGGCGACTCCCGGCTCAACCCGAAGTACGGCTTCGACACCTTCGTCATCGGCGGATCCAACCGCTTCGCGCACGCGGCCGCCGTGGCCGTGGCGGAGGCGCCGGCCAAGGCGTACAACCCCCTCTTCATCTACGGCGACTCGGGGCTGGGCAAGACCCACCTGCTTCACGCGATCGGCCACTACGCCATCAGCCTGTACCCCGGGATCCGCGTGCGGTACGTGAGCTCCGAGGAGTTCACCAACGACTTCATCAACTCGATCGCGAACAACCGCTCCTCGCTGTTCCAGTCCCGCTACCGCGACAACGACATCCTGCTGATCGACGACATCCAGTTCCTCCAGGGCAAGGACTCCACCCAGGAGGCCTTCTTCCACACCTTCAACACGCTGCACGACCACAACAAGCAGGTGGTCATCACGAGCGACCTCCCGCCGAAGCACCTCACGGGCTTCGAGGACCGGATGCGCTCGCGCTTCGAGTGGGGCCTGATCACCGACGTGCAGGCCCCCGACCTGGAGACGCGCATCGCGATCCTCCGCAAGAAGGCGCAGAGCGAGAAGCTGCAGGTGCCGGACGACATCCTCGAGTACAT

Esta segunda funcion se encarga de cortar una secuencia de nucleotidos dada, a partir de una pocision y una longitud dada.

In [5]:
# funcion para cortar reads, dado una pocision de inicio y una longitud de corte
def cutout(read,i,n_length): #fordward
    cropped_read = read[i:i+n_length]
    return(cropped_read) 

In [6]:
cutout('ACTTGTA',0,3)

'ACT'

# reads reverse

In [8]:
def corta(read,i,n_length,inserto): #backward 
    # inserto = 400 (tamaño promedio del inserto)
    j = i + inserto
    # j = i+inserto (pocision de inicio de reversa)
    # n_length = 150 (tamaño del read "cortado")
    cropped2_read = read[j-n_length:inserto]  #(quiero comenzar en la pocision j e ir hacia atras)
    return cropped2_read

In [9]:
corta('ACTTGTA',0,3,7)   # una funcion de solo corte y otra de solo reverse

'GTA'

In [10]:
def reverso(read_cortado):
    temp_list = list(read_cortado)
    temp_list.reverse()
    return ''.join(temp_list)

In [11]:
reverso('GTA')  # funcion que reversa un read 

'ATG'

In [12]:
def complementario(read_cortadoR):
    comp = []
    for i in range(len(read_cortadoR)):
        if read_cortadoR[i] == "A":
            comp.append("T")
        elif read_cortadoR[i] == "T":
            comp.append("A")
        elif read_cortadoR[i] == "G":
            comp.append("C")
        elif read_cortadoR[1] == "C":
            comp.append("G") 
            
    return "".join(comp)

In [13]:
complementario('ATG')

'TAC'

In [14]:
def reverso_complementario(read,i,n_length,inserto):
    result = complementario(reverso(corta(read,i,n_length,inserto)))
    return (result)

In [15]:
reverso_complementario('ACTTGTA',0,3,7)
# si se pone este read de ejemplo, el reverso complementario deberia quedar 'TAC'

'TAC'

Esta función se depende de la funcion anterior para cortar reads, y se complementa haciendo esto para cada genoma dentro de diccionario creado.

In [16]:
# funcion para cortar los reads aleatoriamente
# Al ingresar un conjunto de genomas, este nos arroja un metagenoma con varios reads tomados de los genomas iniciales
# para esto se le entrega el numero de reads deseados por cada genoma y la longitud.
def reads(diccionario,longitud,num_reads):  # num_reads
    dic2 = {}
    contig = 0
    k = 0
    
    # LONGITUD Y NUM_READS DEPENDERA DE LAS LONGITUDES DE LOS CONTIG
    # LA LONGITUD 
    
    #LAS LONGITUDES DEPENDEN DE LA CALIDAD
    
    while k < num_reads:
        for key in diccionario:#range(len(diccionario.keys())):
            newkey = key + '_' + str(k) 
            contig = random.choice(list(diccionario.values())) # escoje un contig al azar 
            i = randint(1,(len(contig)-longitud)) # toma una pocision de inicio al azar
            dic2[newkey] = cutout(contig,i,longitud) # para el contig dado anteriormente, se corta desde la pocision i de lonjitud ln
            # se debe calcular cuantas veces va a escoger cada contig,dependiendo del tamaño del contig inicial      
        k += 1
    return(dic2)

La ultima función toma el diccionario de reads creado por la anterior funcion, y lo guarda en un archivo `.fastq` , creando una calidad para cada read.

In [17]:
# funcion de creacion archivo .fastq
    
def crea_fastq(diccionario,longitud,file_name):
    file = open(file_name,'wt')
    for key in diccionario: 
        file.write(str(key))
        file.write(str('\n'))
        file.write(str(diccionario[key]))
        file.write(str('\n'))
        file.write(str('+'))
        file.write(str('\n'))
        file.write(str('A'*longitud)) #calidad
        file.write(str('\n'))     
    file.close()


In [18]:
dicreads=reads(dic,10,3)
dicreads

{'@NZ_CP048049.1_0': 'CGCCCGCGGC',
 '@NZ_CP048050.1_0': 'GGCTCGCCCT',
 '@NZ_CP048049.1_1': 'GGTGCTCTCG',
 '@NZ_CP048050.1_1': 'GACTGCCTGT',
 '@NZ_CP048049.1_2': 'CCTCGTCTAC',
 '@NZ_CP048050.1_2': 'TGGATCGGAT'}

In [19]:
crea_fastq(dicreads,10,"prueba2.fastq")

A continuación se quiere agrupar todo dentro de una clase y poder realizar el proceso para varios archivos al mismo tiempo. Empezando con un solo archivo como prueba de la clase.

Esta clase se compone de cuatro funciones, las cuales:
 * Lee uno o varios archivos `.fasta` los cuales contienen genomas con uno o varios contigs.
 * Corta un read (secuencia genomica) de un tamaño dado y desde una posición aleatoria dada.
 * Crea un diccionario de reads metagenomicos de varios metagenomas dados.
 * Crea un archivo `.fastq` en donde guarda los datos metagenomicos añadiendo le la calidad.

In [36]:
class CAMISIM_CAMI:
    def __init__(self, File, longitud ,num_reads):
        self.File = File
        self.longitud = longitud
        self.dic = {}
        self.dicReads = {}
        
        #longitud   (ejem = 150 por defauld o agusto del usuario)
        #numero de reads
        
    # funcion para lectura de archivos
    # ingresa un archivo multifasta y arroja una lista con cada secuencia (contig)
    def lectura_genoma(self):
        lista = []
        #with open(File,'r') as f: # con esta funcion podemos abrir un archivo en especifico con ruta completa
        with open(ruta + '/' + self.File,'r') as f:  # con esta funcion podemos leer los nombres de los archivos de la lista 'genomes' y le agrega la ruta para la lectura 
            lines=f.read() # lectura decada linea del archivo
            lines=lines.split('>') # identificador de '>'
            lines=['>'+ x for x in lines[1:]] # lista con cada elemento que comienza con '>'
            for x in lines:
                x1 = x.replace(">","@")
                x2 = x1.replace("\n",",",1) # el primer '\n' se reemplazapor una coma
                x3 = x2.replace("\n","") # los siguientes se quitan
                
                #reemplazar '>' con '@'
                
                lista.append(x3) # lista con un contig en cada elemento y su identificador
            # convertir la lista en un diccionario        
            for x in lista:
                x = x.split(',')
                self.dic[x[0]] = x[1] 
        return(self.dic)  
    
    # funcion para cortar reads, dado una pocision de inicio y una longitud de corte
    def cutout(self,read,i): 
        cropped_read = read[i:i+n_length]
        return(cropped_read) 
    
    # funcion para cortar los reads aleatoriamente
    # Al ingresar un conjunto de genomas, este nos arroja un metagenoma con varios reads tomados de los genomas iniciales
    # para esto se le entrega el numero de reads deseados por cada genoma y la longitud.
    def reads(self,num_reads):  # num_reads
        contig = 0
        k = 0
        while k < num_reads:
            for key in self.dic:#range(len(diccionario.keys())):
                newkey = key + '_' + str(k) 
                contig = random.choice(list(self.dic.values())) # escoje un contig al azar 
                i = randint(1,(len(contig)-self.longitud)) # toma una pocision de inicio al azar
                self.dicReads[newkey] = cutout(contig,i,self.longitud) # para el contig dado anteriormente, se corta desde la pocision i de lonjitud ln
                # se debe calcular cuantas veces va a escoger cada contig,dependiendo del tamaño del contig inicial      
            k += 1
        return(self.dicReads)
    
    # funcion de creacion archivo .fastq, tomandoel diccionario de reads cortados y la calidad de los reads
    def crea_fastq(diccionario,longitud,file_name):
        file = open(file_name,'wt')
        for key in diccionario: 
            file.write(str(key))
            file.write(str('\n'))
            file.write(str(diccionario[key]))
            file.write(str('\n'))
            file.write(str('+'))
            file.write(str('\n'))
            file.write(str('A'*longitud)) #calidad
            file.write(str('\n'))     
        file.close()
    

In [34]:
A=CAMISIM_CAMI("Clavibacter_michiganensis_subsp_capsici_1101.fna-cortado.fna",5,10)

In [37]:
A.reads(4)

TypeError: reads() missing 1 required positional argument: 'num_reads'

In [38]:
dicreads = CAMISIM_CAMI.reads(dic,10) 

AttributeError: 'dict' object has no attribute 'dic'

In [32]:
CAMISIM_CAMI.crea_fastq(dicreads,10,"prueba2.fastq")

Y por ultimo realizandole unas pocas modificaciones a la clase, para poder realizar el proceso para varios archivos de genomas.

y aplicando lo visto en clase sobre lectura de arhivos, e iteracion sobre cada uno de ellos.

In [None]:
# 

In [26]:
# Funcion para la lectura de los nombres de los todos los archivos de genomas
# toma la ruta de la carpeta donde estan los genomas, y crea un listado de los nombres de los archivos
# para poder realizar la lectura de los mismos.
ruta = '/home/csilva/GIT/Tesis_Maestria/Data/all-c-genomes(cortados)'
contenido = os.listdir(ruta)
genomes = []
for i in contenido:
    if os.path.isfile(os.path.join(ruta,i)) and i.endswith('.fna'):
        genomes.append(i)
n = len(genomes) # número de genomas (número de archivos)
diccionario_reads_metagenoma = {}
    

In [31]:
genomes

['Clavibacter_michiganensis_subsp_nebraskensis_7580.fna-cortado.fna',
 'Clavibacter_michiganensis_subsp_insidiosus_LMG_3663.fna-cortado.fna',
 'Clavibacter_michiganensis_subsp_capsici_1207.fna-cortado.fna',
 'Clavibacter_michiganensis_subsp_nebraskensis_DOAB_397.fna-cortado.fna',
 'Clavibacter_michiganensis_subsp_insidiosus_ATCC_10253.fna-cortado.fna',
 'Clavibacter_michiganensis_subsp_insidiosus_R1-1.fna-cortado.fna',
 'Clavibacter_michiganensis_subsp_tessellarius_DOAB_609.fna-cortado.fna',
 'Clavibacter_michiganensis_subsp_nebraskensis_A6096.fna-cortado.fna',
 'Clavibacter_michiganensis_subsp_nebraskensis_SL1.fna-cortado.fna',
 'Clavibacter_michiganensis_subsp_nebraskensis_44.fna-cortado.fna',
 'Clavibacter_michiganensis_subsp_insidiosus_CFBP_2404.fna-cortado.fna',
 'Clavibacter_michiganensis_subsp_nebraskensis_HF4.fna-cortado.fna',
 'Clavibacter_michiganensis_subsp_tessellarius_ATCC_33566.fna-cortado.fna',
 'Clavibacter_michiganensis_subsp_sepedonicus_CFIA-Cs3N.fna-cortado.fna',
 'C

In [37]:
# Con esta funcion queremos llamar a las funciones de la clase,para todos los archivos en la lista 'genomes'

def todo(genomes,longitud,num_reads,file_name):

    for i,x in enumerate(genomes):
    
        CAMISIM_CAMI.lectura_genoma(x)                        #
        dicreads = CAMISIM_CAMI.reads(dic,longitud,num_reads) #funcion construcctora
        fasta = CAMISIM_CAMI.crea_fastq(dicreads,longitud,file_name)
#print(dic)
    
    

In [41]:
todo(genomes,150,5,'prueba_clase.fastq')

Para Shaday:
* 9 archivos  

1. (3 de un solo genoma)
    * 1.1
        1. Clavibacter_michiganensis_subsp_capsici_PF008.fna-cortado.fna

    * 1.2
        1. Clavibacter_michiganensis_subsp_nebraskensis_CIBA.fna-cortado.fna

    * 1.3
        1. Clavibacter_michiganensis_subsp_sepedonicus_CFIA-Cs3N.fna-cortado.fna
        
2. (3 de 2) 
    * 2.1
        1. Clavibacter_michiganensis_subsp_capsici_1106.fna-cortado.fna
        2. Clavibacter_michiganensis_subsp_nebraskensis_7580.fna-cortado.fna
        
    * 2.2
        1. Clavibacter_michiganensis_subsp_insidiosus_LMG_3663.fna-cortado.fna
        2. Clavibacter_michiganensis_subsp_tessellarius_ATCC_33566.fna-cortado.fna
        
    * 2.3
        1. Clavibacter_michiganensis_subsp_sepedonicus_ATCC33113.fna-cortado.fna
        2. Clavibacter_michiganensis_subsp_tessellarius_ATCC_33566.fna-cortado

3. (3 de 3)
    * 3.1
        1. Clavibacter_michiganensis_subsp_capsici_1101.fna-cortado.fna
        2. Clavibacter_michiganensis_subsp_nebraskensis_CFBP_7577.fna-cortado.fna
        3. Clavibacter_michiganensis_subsp_sepedonicus_CFIA-CsR14.fna-cortado.fna  
        
    * 3.2
        1. Clavibacter_michiganensis_subsp_insidiosus_CFBP_6488.fna-cortado.fna
        2. Clavibacter_michiganensis_subsp_sepedonicus_CFIA-CsR14.fna-cortado.fna   
        3. Clavibacter_michiganensis_subsp_tessellarius_ATCC33113.fna-cortado.fna
        
    * 3.3
        1. Clavibacter_michiganensis_subsp_insidiosus_CFBP_2404.fna-cortado.fna
        2. Clavibacter_michiganensis_subsp_tessellarius_ATCC_33566.fna-cortado.fna
        3. Clavibacter_michiganensis_subsp_sepedonicus_CFIA-CsR14.fna-cortado.fna  


In [2]:
# 3 listas con 1 genoma
genomes11 = ['Clavibacter_michiganensis_subsp_capsici_PF008.fna-cortado.fna']
genomes12 = ['Clavibacter_michiganensis_subsp_nebraskensis_CIBA.fna-cortado.fna']
genomes13 = ['Clavibacter_michiganensis_subsp_sepedonicus_CFIA-Cs3N.fna-cortado.fna']
# 3 listas con 2 genomas
genomes21 = ['Clavibacter_michiganensis_subsp_capsici_1106.fna-cortado.fna','Clavibacter_michiganensis_subsp_nebraskensis_7580.fna-cortado.fna']
genomes22 = ['Clavibacter_michiganensis_subsp_insidiosus_LMG_3663.fna-cortado.fna','Clavibacter_michiganensis_subsp_tessellarius_ATCC_33566.fna-cortado.fna']
genomes23 = ['Clavibacter_michiganensis_subsp_sepedonicus_ATCC33113.fna-cortado.fna','Clavibacter_michiganensis_subsp_tessellarius_ATCC_33566.fna-cortado']
# 3 listas con 3 genomas
genomes31 = ['Clavibacter_michiganensis_subsp_capsici_1101.fna-cortado.fna','Clavibacter_michiganensis_subsp_nebraskensis_CFBP_7577.fna-cortado.fna','Clavibacter_michiganensis_subsp_sepedonicus_CFIA-CsR14.fna-cortado.fna']
genomes32 = ['Clavibacter_michiganensis_subsp_insidiosus_CFBP_6488.fna-cortado.fna','Clavibacter_michiganensis_subsp_sepedonicus_CFIA-CsR14.fna-cortado.fna','Clavibacter_michiganensis_subsp_tessellarius_ATCC33113.fna-cortado.fna']
genomes33 = ['Clavibacter_michiganensis_subsp_insidiosus_CFBP_2404.fna-cortado.fna','Clavibacter_michiganensis_subsp_tessellarius_ATCC_33566.fna-cortado.fna','Clavibacter_michiganensis_subsp_sepedonicus_CFIA-CsR14.fna-cortado.fna'] 