In [21]:
import time
import psutil
import os

# Definimos una función que nos permita medir el uso de recursos (tiempo de ejecución, uso de CPU y memoria empleada) del código antes de comenzar
def comienzo_medicion():
    proceso = psutil.Process(os.getpid())
    estado_inicial = {
        'cpu_inicio' : proceso.cpu_percent(interval=None),
        'memoria_inicio' : proceso.memory_info().rss, 
        'tiempo_inicio' : time.time()
    }
    return estado_inicial

# Definimos una función que nos permita medir el uso de recursos (tiempo de ejecución, uso de CPU y memoria empleada) del código después de haber ejecutado el código
def final_medicion(estado_inicial):
    proceso = psutil.Process(os.getpid())
    tiempo_fin = time.time()
    fin_cpu = proceso.cpu_percent(interval=None)
    fin_memoria = proceso.memory_info().rss

    tiempo_ejecucion = tiempo_fin - estado_inicial['tiempo_inicio']
    cpu_usada = fin_cpu - estado_inicial['cpu_inicio']
    memoria_usada = (fin_memoria - estado_inicial['memoria_inicio'])

    print(f"El tiempo de ejecución de todo el código es de {tiempo_ejecucion:.2f} segundos.")
    print(f"La CPU empleada todo el código es de {cpu_usada:.2f} %.")
    print(f"La memoria utilizada en todo el código es de {memoria_usada:.2f} MB.")

estado_inicial = comienzo_medicion() # Empezamos con la medición de los recursos

In [22]:
import os 
import re

# Establecemos el directorio de trabajo
os.chdir("/home/mpnavarrete")

# Definimos el directorio en el que se ubican las secuencias de estudio
dir_sequences = "/home/mpnavarrete/sequences"

# Obtenemos la lista de archivos .fastq en el directorio
ficheros_fastq = [f for f in os.listdir(dir_sequences) if f.endswith('.fastq')]

# Definimos la secuencia de inserción (IS6110) y su longitud
is6110_inicio = "gagagtctccggactcaccggggcggttca"
longitud_target_inicio = len(is6110_inicio)

# Convertimos la secuencia de inserción a mayúsculas
is6110_inicio = is6110_inicio.upper()
#print(is6110_inicio)

In [23]:
from Bio import SeqIO
from Bio.SeqUtils import nt_search

# Definimos una función para buscar el patrón final en cada read
def buscar_patron_final(fichero):
    ruta_completa = os.path.join(dir_sequences, fichero) # Obtenemos la ruta completa del archivo de estudio
    registros = SeqIO.parse(ruta_completa, "fastq") # Vamos guardando los reads de cada archivo FASTQ
    resultados = {} # Almacenamos en un diccionario los resultados generados

    # Bucle para trabajar con cada read
    for idx, record in enumerate(registros, 1):
        fq_text = str(record.seq) # Convertimos cada read en un "string" de texto
        indicador_comienzo_is = fq_text.find(is6110_inicio) # Nos devuelve la posición en el que IS6110 empieza dentro del read. En caso de que no esté, devuelve -1

        if indicador_comienzo_is != -1: # Cuando IS6110 sí está (es diferente de -1)
            indicador_final_is = indicador_comienzo_is + longitud_target_inicio # Se calcula posición final de IS6110 dentro del read
            fastq_detectadas_final = fq_text # Guardamos el read completo en el que se ha encontrado la IS6110

            # Generamos un nuevo componente en el diccionario con la información anterior
            resultados[idx] = {
                'fastq_detectadas_final': fastq_detectadas_final,
                'posicion_secuencia_final_en_fastq': indicador_final_is
            }

    return resultados

# Procesamos cada archivo en ficheros_fastq
lista_data_frames = {} # Generamos un nuevo diccionario para poder almacenar los resultados obtenidos

# Recorremos todos los FASTQ que tenemos
for fichero in ficheros_fastq:
    nombre_archivo = os.path.basename(fichero) # Obtenemos el nombre del archivo FASTQ
    resultados = buscar_patron_final(fichero) # Con la función, buscamos la IS6110
    lista_data_frames[nombre_archivo] = resultados # Guardamos los resultados utilizando el nombre del FASTQ

# Ahora lista_data_frames contiene los resultados para cada archivo .fastq, con los nombres de archivo sin la ruta completa

In [24]:
# Comprobamos que la cantidad de archivos FASTQ encontrados es la misma del estudio
print(f"Archivos FASTQ encontrados: {len(ficheros_fastq)}")
print(ficheros_fastq)

Archivos FASTQ encontrados: 12
['20ID00942_S12_R1_001.fastq', '20ID00940_S10_R2_001.fastq', '20ID00940_S10_R1_001.fastq', '20ID00937_S7_R2_001.fastq', '20ID00942_S12_R2_001.fastq', '20ID00941_S11_R2_001.fastq', '20ID00938_S8_R1_001.fastq', '20ID00941_S11_R1_001.fastq', '20ID00937_S7_R1_001.fastq', '20ID00939_S9_R2_001.fastq', '20ID00939_S9_R1_001.fastq', '20ID00938_S8_R2_001.fastq']


In [25]:
import pickle

# Guardamos lista_data_frames en un archivo
with open("lista_data_frames_final.pkl", "wb") as f:
    pickle.dump(lista_data_frames, f)

In [26]:
import pickle
import pandas as pd

# Volvemos a definir la secuencia IS6110 y su longitud
is6110_final = "GAGAGTCTCCGGACTCACCGGGGCGGTTCA"
longitud_target_final = len(is6110_final)

# Cargamos lista_data_frames_final desde el archivo creado
with open('lista_data_frames_final.pkl', 'rb') as f:
    lista_data_frames = pickle.load(f)

# Creamos otro diccionario para almacenar resultados
lista_resultados = {}

# Procesamos caa elemento de la lista
for key, df in lista_data_frames.items():
    post_target_final = [] # Esta lista guardará la secuencia desde el inicio del IS6110 hasta el final de la propia secuencia
    post_6_nucleotidos = [] # Esta lista guardará los 6 nucleótidos posteriores al comienzo de la IS6110
    pre_target_final = [] # Esta lista guardará la parte de la secuencia anterior a la IS6110

    for indice_fastq, values in df.items():
        secuencia = values['fastq_detectadas_final']
        indicador_comienzo_is = secuencia.find(is6110_final) # Nos devuelve la posición en el que IS6110 empieza dentro del read. En caso de que no esté, devuelve -1
        longitud_secuencia = len(secuencia)

        if indicador_comienzo_is != -1: # Cuando IS6110 sí está (es diferente de -1)
            indicador_final_is = indicador_comienzo_is + longitud_target_final # Calculamos la última posición en la que se encuentra el último nucleótido de la IS6110

            post_target_final.append(str(secuencia[indicador_final_is:])) # Obtenemos la secuencia desde el principio de la IS6110 hasta el final

            # Extraemos los 6 nucleótidos justo después de la IS si hay suficientes nucleótidos (es decir, si hay mínimo 6 nucleótidos posteriores)
            if indicador_final_is + 6 <= longitud_secuencia:
                post_6_nucleotidos.append(str(secuencia[indicador_final_is:indicador_final_is + 6])) # Guardamos los fragmentos de 6 nucléotidos después de la IS6110

            pre_target_final.append(str(secuencia[:indicador_comienzo_is])) # Obtenemos la secuencia desde el principio hasta el comienzo de la IS6110

    # Generamos un nuevo componente en el diccionario con la información anterior
    lista_resultados[key] = {
        'post_target_final': post_target_final,
        'post_6_nucleotidos': post_6_nucleotidos,
        'pre_target_final': pre_target_final
    }

# Guardamos lista_resultados en un archivo
with open('lista_resultados_final.pkl', 'wb') as f:
    pickle.dump(lista_resultados, f)

In [27]:
# Nos aseguramos de que lista_resultados contiene todos los resultados
print(f"Archivos en lista_resultados: {len(lista_resultados)}")
print(lista_resultados.keys())

Archivos en lista_resultados: 12
dict_keys(['20ID00942_S12_R1_001.fastq', '20ID00940_S10_R2_001.fastq', '20ID00940_S10_R1_001.fastq', '20ID00937_S7_R2_001.fastq', '20ID00942_S12_R2_001.fastq', '20ID00941_S11_R2_001.fastq', '20ID00938_S8_R1_001.fastq', '20ID00941_S11_R1_001.fastq', '20ID00937_S7_R1_001.fastq', '20ID00939_S9_R2_001.fastq', '20ID00939_S9_R1_001.fastq', '20ID00938_S8_R2_001.fastq'])


In [28]:
# Contamos cuántas veces aparece cada cadena de 6 nucleótidos posterior a la IS6110 en nuestros reads
lista_post_6_nucleotidos = {}

for key, value in lista_resultados.items():
    # Verificamos si hay resultados en cada archivo
    if 'post_6_nucleotidos' in value and len(value['post_6_nucleotidos']) > 0: # Miramos si cada valor contiene datos sobre los 6 nucleótidos posteriores a IS6110
        data_frame_6_nucleotidos = pd.DataFrame(value['post_6_nucleotidos'], columns=['fragmento']) # Creamos un DataFrame con la lista de los fragmentos de 6 nucleótidos
        sorted_table = data_frame_6_nucleotidos['fragmento'].value_counts().reset_index().rename(columns={'index': 'fragmento', 'fragmento': 'count'}) # Contamos el número de veces que aparece cada fragmento
        lista_post_6_nucleotidos[key] = sorted_table
    else:
        print(f"Advertencia: No se encontraron nucleótidos posteriores a la IS en {key}")

# Verificamos el resultado final
print(f"Total de archivos procesados: {len(lista_post_6_nucleotidos)}")
lista_post_6_nucleotidos


Total de archivos procesados: 12


{'20ID00942_S12_R1_001.fastq':      count  count
 0   CGTCAG      8
 1   TGTCAA      8
 2   GGAAGT      8
 3   GATGAC      6
 4   GAGGCA      6
 5   GCCCTT      6
 6   GAAACT      6
 7   TCAGCC      6
 8   ACGTGA      5
 9   TACCGC      5
 10  GCGGGC      5
 11  CAAAGG      4
 12  CCTACA      3,
 '20ID00940_S10_R2_001.fastq':      count  count
 0   CGTCAG     11
 1   GCCCTT      9
 2   TACCGC      8
 3   CAAAGG      7
 4   GCGGGC      7
 5   ACGTGA      6
 6   GATGAC      6
 7   GAGGCA      5
 8   TCAGCC      5
 9   GAAACT      4
 10  TGTCAA      4
 11  CCTACA      1,
 '20ID00940_S10_R1_001.fastq':      count  count
 0   GAGGCA     13
 1   TGTCAA     10
 2   CAAAGG      9
 3   GCGGGC      7
 4   CCTACA      7
 5   CGTCAG      7
 6   ACGTGA      6
 7   GAAACT      5
 8   GCCCTT      5
 9   TACCGC      4
 10  TCAGCC      3
 11  GATGAC      2
 12  TAAGCC      1,
 '20ID00937_S7_R2_001.fastq':      count  count
 0   GAGGCA     11
 1   CCTACA      9
 2   GATGAC      6
 3   TACCGC      6
 4  

In [29]:
import pandas as pd

# Ordenamos la parte que hay desde la IS6110 hasta el final del read
lista_post_target_final = {} # Diccionario para almacenar los DataFrames ordenados y sin duplicados

for key, value in lista_resultados.items():
    if 'post_target_final' in value:
        data_frame_post_target = pd.DataFrame(value['post_target_final'], columns=['secuencia_post_target']) # Creamos un DataFrame a partir de 'post_target_final'
        
        data_frame_post_target = data_frame_post_target.drop_duplicates(subset=['secuencia_post_target']) # Eliminamos las filas duplicadas basándose en la columna 'secuencia_post_target'
        
        data_frame_post_target['longitud_cadena'] = data_frame_post_target['secuencia_post_target'].str.len() # Calculamos la longitud de cada cadena
        
        data_frame_post_target = data_frame_post_target.sort_values(by='longitud_cadena', ascending=False) # Ordenamos el DataFrame por la longitud de las cadenas en orden descendente
        
        data_frame_post_target = data_frame_post_target.drop(columns=['longitud_cadena']) # Eliminamos la columna de longitud antes de guardar el DataFrame
        
        lista_post_target_final[key] = data_frame_post_target # Guardamos el DataFrame ordenado y sin duplicados en el diccionario
    else:
        print(f"Advertencia: No se encontraron secuencias en post_target_final para {key}")

print(f"Total de archivos ordenados: {len(lista_post_target_final)}")
lista_post_target_final

Total de archivos ordenados: 12


{'20ID00942_S12_R1_001.fastq':                                 secuencia_post_target
 77  CGTCAGACCCAAGTCCGCGAGAGGGGACGGAAACCTGACGGCACGG...
 38  GAGGCAACCACCATGGTTGTTGTTGGAACCGATGCGCACAAGTACA...
 3   ACGTGATCCGCAACGTGTGGTCCAACGCGGTGATCTTCTGCGGCCA...
 52  TGTCAAGGATCAGCCGAACCAACTGTCAAGCATCAGCCGAAACATC...
 78  GATGACCACCGTGGATTTCCACTTTGACCCTTTGTGCCCGTTCGCC...
 ..                                                ...
 31                                              TCAGC
 9                                               GCGGG
 5                                                GATG
 63                                               ACGT
 32                                                  G
 
 [76 rows x 1 columns],
 '20ID00940_S10_R2_001.fastq':                                 secuencia_post_target
 4   CAAAGGCCAGATGGGTGTACTTCCTCACGCGCATGCGTAACCCCAC...
 5   CGTCAGACCCAAAACCCCGAGAGGGGACGGAAACCTGACGGCACGG...
 43  TCAGCCCGCCGCGACTGTAAGGCGAAATGACGAAGCAGGGCACGCG...
 50  CGTCAGACCCAAAACCCCGAGAGGGGACG

In [30]:
import pandas as pd

# Ordenamos la parte que hay anterior a IS6110 según su longitud
lista_pre_target_final = {} # Diccionario para almacenar los DataFrames ordenados y sin duplicados de pre_target

for key, value in lista_resultados.items():
    if 'pre_target_final' in value:
        data_frame_pre_target = pd.DataFrame(value['pre_target_final'], columns=['secuencia_pre_target']) # Creamos un DataFrame a partir de 'pre_target_final'
        
        data_frame_pre_target = data_frame_pre_target.drop_duplicates(subset=['secuencia_pre_target']) # Eliminamos las filas duplicadas basándose en la columna 'secuencia_pre_target'
        
        data_frame_pre_target['longitud_cadena'] = data_frame_pre_target['secuencia_pre_target'].str.len() # Calcularmos la longitud de cada cadena en función de 'secuencia_pre_target'
        
        data_frame_pre_target = data_frame_pre_target.sort_values(by='longitud_cadena', ascending=False) # Ordenamos el DataFrame por la longitud de las cadenas en orden descendente
        
        data_frame_pre_target = data_frame_pre_target.drop(columns=['longitud_cadena']) # Eliminamos la columna de longitud antes de guardar el DataFrame
        
        lista_pre_target_final[key] = data_frame_pre_target # Guardamos el DataFrame ordenado y sin duplicados en el diccionario
    else:
        print(f"Advertencia: No se encontraron secuencias en pre_target_final para {key}")

print(f"Total de archivos ordenados: {len(lista_pre_target_final)}")
lista_pre_target_final

Total de archivos ordenados: 12


{'20ID00942_S12_R1_001.fastq':                                  secuencia_pre_target
 32  CGACTGGTTCAACCATCGCCGCCTCTACCAGTACTGCGGCGACGTC...
 71  GGTTCAACCATCGCCGCCTCTACCAGTACTGCGGCGACGTCCCGCC...
 9   GGTTCAACCATCGCCGCCTCTACCAGTACTGCGGCGACGTCCCGCC...
 13  ATCGCCGCCTCTACCAGTACTGCGGCGACGTCCCGCCGGTCGAACT...
 73  TCGGCGCCTCTACCAGTACTGCGGCGACGTCCCGCCGGTCGAACTC...
 2   GCCTCTACCAGTACTGCGGCGACGTCCCGCCGGTCGAACTCGAGGC...
 58  TCTACCAGTACTGCGGCGACGTCCCGCCGGTCGAACTCGAGGCTGC...
 10  CTACCAGTACTGCGGCGACGTCCCGCCGGTCGAACTCGAGGCTGCC...
 1   TACCAGTACTGCGGCGACGTCCCGCCGGTCGAACTCGAGGCTGCCT...
 14  GTACTGCGGCGACGTCCCGCCGGTCGAACTCGAGGCTGCCTACTAC...
 28  GCGACGTCCCGCCGGTCGAACTCGAGGCTGCCTACTACGCTCAACG...
 42  GGTCGAACTCGAGGCTGCCTACTACGCTCAACGCCAGAGACCAGCC...
 72  ACTGGAGGCTGCCTACTAGGGTCAACGCCAGAGACCAGCCGCCGGC...
 27  GGCTGCCTACTACGCTCAACGCCAGAGACCAGCCGCCGGCTGAGGT...
 6   GCTGCCTACTACGCTCAACGCCAGAGACCAGCCGCCGGCTGAGGTC...
 7   GCCTACTACGCTCAACGCCAGAGACCAGCCGCCGGCTGAGGTCTCA...
 45  GCCTACTACGCTAAACGCCAGAGACCAGCC

In [31]:
# Creación de archivos Excel
# Creamos un diccionario para almacenar todos los DataFrames
data_frames = {
    "post_6_nucleotidos": lista_post_6_nucleotidos,
    "post_target_final": lista_post_target_final,
    "pre_target_final": lista_pre_target_final
}

# Definimos una función para guardar DataFrames en un archivo Excel
def guardar_dataframes_en_excel(nombre_archivo, data):
    with pd.ExcelWriter(nombre_archivo, engine='openpyxl') as writer:

        for documento, df in data.items():
            sheet_name = documento # Creamos un nombre para cada hoja
            df.to_excel(writer, sheet_name=sheet_name, index=False) # Escribimos el DataFrame en una hoja
    print(f"Archivo {nombre_archivo} creado exitosamente.")

# Guardamos cada conjunto de DataFrames en tres archivos Excel por separado
guardar_dataframes_en_excel('resultados_post_6_nucleotidos_final.xlsx', lista_post_6_nucleotidos)
guardar_dataframes_en_excel('resultados_post_target_final.xlsx', lista_post_target_final)
guardar_dataframes_en_excel('resultados_pre_target_final.xlsx', lista_pre_target_final)

Archivo resultados_post_6_nucleotidos_final.xlsx creado exitosamente.
Archivo resultados_post_target_final.xlsx creado exitosamente.
Archivo resultados_pre_target_final.xlsx creado exitosamente.


In [32]:
# Parte del código realmente no esencial, puramente informativa
lista_resultados_en_data_frame = {} # Creamos un nuevo DataFrame a partir de los resultados para juntar la información

for key, value in lista_resultados.items():
    df_pre = pd.DataFrame(value['pre_target_final'], columns=['Pre'])
    df_seis = pd.DataFrame(value['post_6_nucleotidos'], columns=['Seis.Nucleotidos'])
    df_post = pd.DataFrame(value['post_target_final'], columns=['Post'])
    
    length_pre = df_pre['Pre'].str.len()
    
    df_resultado_muestra = pd.DataFrame({
        'Pre': df_pre['Pre'],
        'Length': length_pre,
        'Seis.Nucleotidos': df_seis['Seis.Nucleotidos'],
        'Post': df_post['Post']
    })
    
    df_resultado_muestra = df_resultado_muestra.sort_values(by='Length', ascending=False)
    lista_resultados_en_data_frame[key] = df_resultado_muestra

print(lista_resultados_en_data_frame)


{'20ID00942_S12_R1_001.fastq':                                                   Pre  Length  \
32  CGACTGGTTCAACCATCGCCGCCTCTACCAGTACTGCGGCGACGTC...     118   
31  GGTTCAACCATCGCCGCCTCTACCAGTACTGCGGCGACGTCCCGCC...     113   
71  GGTTCAACCATCGCCGCCTCTACCAGTACTGCGGCGACGTCCCGCC...     113   
29  GGTTCAACCATCGCCGCCTCTACCAGTACTGCGGCGACGTCCCGCC...     113   
9   GGTTCAACCATCGCCGCCTCTACCAGTACTGCGGCGACGTCCCGCC...     113   
..                                                ...     ...   
77                                              GATCA       5   
52                                               ATCA       4   
3                                                ATCA       4   
55                                               ATCA       4   
15                                                TCA       3   

   Seis.Nucleotidos                                               Post  
32           GGAAGT                                                  G  
31           CGTCAG                       

In [33]:
import os

# Definimos una función para escribir un archivo FASTA ya que es el formato necesario para el BLASTn
def escribir_fasta(secuencias, nombre_archivo):
    with open(nombre_archivo, 'w') as f:
        for i, secuencia in enumerate(secuencias, 1):
            f.write(f">Secuencia_{i}\n")
            f.write(f"{secuencia}\n")

# Directorio de salida para los archivos FASTA
output_dir = "/home/mpnavarrete/fasta_para_blastn_reverse"
# Creamos el directorio de salida si no existe
if not os.path.exists(output_dir):
    os.makedirs(output_dir)

# Iteramos sobre los datos en lista_post_target_final y creamos los archivos FASTA a partir de esos datos
for key, df in lista_post_target_final.items():
    secuencias_post = df['secuencia_post_target'].dropna().tolist()
    nombre_archivo_post = os.path.join(output_dir, f"{key}_post_target_final.fasta")
    escribir_fasta(secuencias_post, nombre_archivo_post)

In [34]:
import os
import subprocess
import pandas as pd
from Bio import SeqIO

# Ruta al genoma de referencia de Mycobacterium tuberculosis H37Rv
genome_fasta = "/home/mpnavarrete/GCA_000195955.2_ASM19595v2_genomic.fna"
genome_gff = "/home/mpnavarrete/GCF_000195955.2_ASM19595v2_genomic.gff"

# Creamos la base de datos BLAST si no existe
blast_db = "/home/mpnavarrete/mtb_h37rv_db"
if not os.path.exists(blast_db + ".nhr"):
    subprocess.run(["makeblastdb", "-in", genome_fasta, "-dbtype", "nucl", "-out", blast_db])

# Directorio de salida para los resultados de BLAST
blast_output_dir = "/home/mpnavarrete/resultados_blastn_reverse"
# Creamos el directorio de salida si no existe
if not os.path.exists(blast_output_dir):
    os.makedirs(blast_output_dir)

# Directorio para los resultados anotados en formato .txt
annotated_output_dir = "/home/mpnavarrete/blastn_reverse_anotados"
# Creamos el directorio de salida si no existe
if not os.path.exists(annotated_output_dir):
    os.makedirs(annotated_output_dir)

# Nombres de las columnas para los resultados de BLASTn
blast_columns = [
    "Query", "Subject ID", "% Identity", "Alignment Length", "Mismatches",
    "Gap Opens", "Q. Start", "Q. End", "S. Start", "S. End", "E-value", "Bit Score"
]

# Definimos una función para leer el archivo GFF y almacenar la información relevante
def parse_gff(gff_file):
    gff_data = {}
    current_gene = None

    with open(gff_file, 'r') as gff:
        for line in gff:
            if line.startswith('#'):
                continue
            parts = line.strip().split('\t')
            if len(parts) != 9:
                continue
            seqname, source, feature, start, end, score, strand, frame, attributes = parts
            attr_dict = {kv_pair.split('=')[0]: kv_pair.split('=')[1] for kv_pair in attributes.split(';')}

            # Si estamos ante un gen, guardamos la información que nos interesa en función del ID del gen
            if feature == "gene":
                gene_id = attr_dict.get('ID', 'unknown')
                gff_data[gene_id] = {
                    'seqname': seqname,
                    'start': int(start),
                    'end': int(end),
                    'strand': strand,
                    'cds': []
                }
                current_gene = gene_id # Se establece el gen actual para añadirle CDS (región de codificación)

            # Si estamos ante un caso de una región codificante, se agrega también sus datos correspondientes
            elif feature == "CDS" and current_gene:
                product = attr_dict.get('product', 'No description')
                gff_data[current_gene]['cds'].append({
                    'seqname': seqname,
                    'start': int(start),
                    'end': int(end),
                    'strand': strand,
                    'description': product
                })

    return gff_data

gff_data = parse_gff(genome_gff) # Leemos y almacenamos la información del archivo GFF

# Definimos una función para obtener las secuencias del archivo FASTA
def get_sequences_from_fasta(fasta_file):
    sequences = {}
    for record in SeqIO.parse(fasta_file, "fasta"):
        sequences[record.id] = str(record.seq)
    return sequences

# Ejecutaremos BLASTn para cada archivo FASTA y anotaremos sus resultados
for key in lista_post_target_final.keys():
    fasta_file = os.path.join(output_dir, f"{key}_post_target_final.fasta") # Definimos la ruta en la que están guardados los archivos 
    blast_output_file = os.path.join(blast_output_dir, f"{key}_blastn_results.txt") # Definimos la ruta en la que se guardan los resultados de BLAST
    annotated_output_file = os.path.join(annotated_output_dir, f"{key}_blastn_results_annotated.txt") # Definimos la ruta en la que se guardan los resultados de BLAST anotados

    subprocess.run(["blastn", "-query", fasta_file, "-db", blast_db, "-out", blast_output_file, "-outfmt", "6"]) # Ejecutamos BLASTn para generar los archivos de salida

    blast_df = pd.read_csv(blast_output_file, sep='\t', header=None, names=blast_columns) # Leemos el archivo de resultados de BLASTn

    sequences = get_sequences_from_fasta(fasta_file) # Obtenemos las secuencias de los archivos FASTA

    blast_df['Query'] = blast_df['Query'].apply(lambda x: sequences.get(x, 'Unknown')) # Reemplazamos "Query ID" con la secuencia correspondiente para que sea más informativo para la persona que lo vaya a mirar

    # Definimos una función para buscar la anotación basada en la posición en el GFF
    def find_annotation(row, gff_data):
        for gene_id, gene_info in gff_data.items():
            if (gene_info['seqname'] == row['Subject ID'] and
                gene_info['start'] <= row['S. Start'] <= gene_info['end']):
                for cds in gene_info['cds']:
                    if cds['start'] <= row['S. Start'] <= cds['end']:
                        return gene_id, cds['description']
        return "No annotation", "No description"

    blast_df[['Gene', 'Description']] = blast_df.apply(lambda row: pd.Series(find_annotation(row, gff_data)), axis=1) # Añadimos dos nuevas columnas con la anotación y la descripción

    print(blast_df.head()) # Verificamos si las anotaciones y descripciones se están añadiendo correctamente

    blast_df.to_csv(annotated_output_file, sep='\t', index=False) # Guardamos los resultados anotados en un nuevo archivo .txt

print("Proceso de anotación y guardado en formato .txt completado.")


                                               Query  Subject ID  % Identity  \
0  CGTCAGACCCAAGTCCGCGAGAGGGGACGGAAACCTGACGGCACGG...  AL123456.3      96.460   
1  CGTCAGACCCAAGTCCGCGAGAGGGGACGGAAACCTGACGGCACGG...  AL123456.3      83.186   
2  CGTCAGACCCAAGTCCGCGAGAGGGGACGGAAACCTGACGGCACGG...  AL123456.3      82.727   
3  CGTCAGACCCAAGTCCGCGAGAGGGGACGGAAACCTGACGGCACGG...  AL123456.3      82.883   
4  CGTCAGACCCAAGTCCGCGAGAGGGGACGGAAACCTGACGGCACGG...  AL123456.3      81.651   

   Alignment Length  Mismatches  Gap Opens  Q. Start  Q. End  S. Start  \
0               113           4          0         1     113   3119660   
1               113          12          6         1     108   3120466   
2               110          13          4         1     106   3123135   
3               111           8          8         3     107   3122406   
4               109          15          5         1     105   3123062   

    S. End       E-value  Bit Score           Gene     Description  
0  31



                                               Query  Subject ID  % Identity  \
0  GCCCTTTGCGTCTCAGTGTCAGTGTTGTGTGTGCCGCGAGGTGGGT...  AL123456.3      97.345   
1  GCGGGCCTCGGCGTCCTCGTTTGATGCGGTGATCGCCGGGTTGGCG...  AL123456.3     100.000   
2  TACCGCTGCGCCAGACGTCGCGGTCGAGGACATGAGTTCATCATCG...  AL123456.3     100.000   
3  TACCGCTGCGCCAGACGTCGCGGTCGAGGACATGAGTTCATCATCG...  AL123456.3     100.000   
4  GCCCTTTGCGTCTCAGTGTCAGTGTTGTGTGTGCCGCGAGGTGGGT...  AL123456.3      97.273   

   Alignment Length  Mismatches  Gap Opens  Q. Start  Q. End  S. Start  \
0               113           3          0         3     115    888756   
1               114           0          0         1     114   2633979   
2               114           0          0         1     114   1998483   
3               114           0          0         1     114   2263040   
4               110           3          0         3     112    888756   

    S. End       E-value  Bit Score           Gene  \
0   888868  2.960000



                                               Query  Subject ID  % Identity  \
0  GAGGCAACCACCATGGTTGTTGTTGGAACCGATGCGCACAAGTACA...  AL123456.3     100.000   
1  GAGGCAACCACCATGGTTGTTGTTGGAACCGATGCGCACAAGTACA...  AL123456.3     100.000   
2  CGTCAGACCCAAAACCCCGAGAGGGGACGGAAACCTGACGGCACGG...  AL123456.3     100.000   
3  CGTCAGACCCAAAACCCCGAGAGGGGACGGAAACCTGACGGCACGG...  AL123456.3      84.956   
4  CGTCAGACCCAAAACCCCGAGAGGGGACGGAAACCTGACGGCACGG...  AL123456.3      84.545   

   Alignment Length  Mismatches  Gap Opens  Q. Start  Q. End  S. Start  \
0               115           0          0         1     115    890376   
1               115           0          0         1     115   3711737   
2               114           0          0         1     114   3119660   
3               113          10          6         1     108   3120466   
4               110          11          4         1     106   3123135   

    S. End       E-value  Bit Score           Gene     Description  
0   8

In [35]:
import os
import pandas as pd

# Directorio para los resultados anotados en formato .txt
annotated_output_dir = "/home/mpnavarrete/blastn_reverse_anotados"

txt_files = [f for f in os.listdir(annotated_output_dir) if f.endswith('_blastn_results_annotated.txt')] # Obtenemos la lista de los archivos .txt en el directorio anotado

# Vamos a convertir cada archivo .txt a un archivo .xlsx
for txt_file in txt_files:
    txt_file_path = os.path.join(annotated_output_dir, txt_file)
    excel_file_path = os.path.join(annotated_output_dir, txt_file.replace('.txt', '.xlsx'))
    
    df = pd.read_csv(txt_file_path, sep='\t') # Leemos el archivo .txt

    df.to_excel(excel_file_path, index=False) # Guardamos ese archivo .txt como archivo .xlsx
    
    print(f"Convertido {txt_file} a {excel_file_path}")

print("Conversión de archivos completada.")

Convertido 20ID00940_S10_R1_001.fastq_blastn_results_annotated.txt a /home/mpnavarrete/blastn_reverse_anotados/20ID00940_S10_R1_001.fastq_blastn_results_annotated.xlsx
Convertido 20ID00942_S12_R2_001.fastq_blastn_results_annotated.txt a /home/mpnavarrete/blastn_reverse_anotados/20ID00942_S12_R2_001.fastq_blastn_results_annotated.xlsx
Convertido 20ID00937_S7_R1_001.fastq_blastn_results_annotated.txt a /home/mpnavarrete/blastn_reverse_anotados/20ID00937_S7_R1_001.fastq_blastn_results_annotated.xlsx
Convertido 20ID00941_S11_R2_001.fastq_blastn_results_annotated.txt a /home/mpnavarrete/blastn_reverse_anotados/20ID00941_S11_R2_001.fastq_blastn_results_annotated.xlsx
Convertido 20ID00940_S10_R2_001.fastq_blastn_results_annotated.txt a /home/mpnavarrete/blastn_reverse_anotados/20ID00940_S10_R2_001.fastq_blastn_results_annotated.xlsx
Convertido 20ID00938_S8_R2_001.fastq_blastn_results_annotated.txt a /home/mpnavarrete/blastn_reverse_anotados/20ID00938_S8_R2_001.fastq_blastn_results_annotated.x

In [36]:
import os
import pandas as pd

# Directorio para los resultados anotados en formato .xlsx
annotated_output_dir = "/home/mpnavarrete/blastn_reverse_anotados"

# Directorio de salida para el archivo combinado
combined_output_dir = "/home/mpnavarrete"
# Creamos el directorio de salida si no existe
if not os.path.exists(combined_output_dir):
    os.makedirs(combined_output_dir)

xlsx_files = [f for f in os.listdir(annotated_output_dir) if f.endswith('.xlsx')] # Obtenemos la lista de archivos .xlsx en el directorio anotado

# Ruta del archivo combinado en el nuevo directorio
combined_excel_path = os.path.join(combined_output_dir, 'resultados_blastn_reverse_anotados_combined.xlsx')

# Definimos una función para verificar si un archivo es un archivo .xlsx válido
def is_valid_excel_file(filepath):
    try:
        pd.read_excel(filepath, engine='openpyxl')
        return True
    except Exception as e:
        print(f"Error leyendo el archivo {filepath}: {e}")
        return False
    
# Creamos un archivo Excel con múltiples pestañas (combinacion de varios Excel)
with pd.ExcelWriter(combined_excel_path, engine='openpyxl') as writer:
    for xlsx_file in xlsx_files:
        xlsx_file_path = os.path.join(annotated_output_dir, xlsx_file)
        if is_valid_excel_file(xlsx_file_path):
            sheet_name = os.path.splitext(xlsx_file)[0][:31]  # Nombre de la pestaña truncado a 31 caracteres (de otra forma da error)
            df = pd.read_excel(xlsx_file_path, engine='openpyxl')
            df.to_excel(writer, sheet_name=sheet_name, index=False)
            print(f"Añadido {xlsx_file} como pestaña {sheet_name}")
        else:
            print(f"El archivo {xlsx_file_path} no es un archivo .xlsx válido y será omitido.")

print("Combinación de archivos .xlsx completada.")

Añadido 20ID00941_S11_R2_001.fastq_blastn_results_annotated.xlsx como pestaña 20ID00941_S11_R2_001.fastq_blas
Añadido 20ID00937_S7_R1_001.fastq_blastn_results_annotated.xlsx como pestaña 20ID00937_S7_R1_001.fastq_blast
Añadido 20ID00937_S7_R2_001.fastq_blastn_results_annotated.xlsx como pestaña 20ID00937_S7_R2_001.fastq_blast
Añadido 20ID00940_S10_R2_001.fastq_blastn_results_annotated.xlsx como pestaña 20ID00940_S10_R2_001.fastq_blas
Añadido 20ID00942_S12_R1_001.fastq_blastn_results_annotated.xlsx como pestaña 20ID00942_S12_R1_001.fastq_blas
Añadido 20ID00939_S9_R2_001.fastq_blastn_results_annotated.xlsx como pestaña 20ID00939_S9_R2_001.fastq_blast
Añadido 20ID00942_S12_R2_001.fastq_blastn_results_annotated.xlsx como pestaña 20ID00942_S12_R2_001.fastq_blas
Añadido 20ID00938_S8_R2_001.fastq_blastn_results_annotated.xlsx como pestaña 20ID00938_S8_R2_001.fastq_blast
Añadido 20ID00941_S11_R1_001.fastq_blastn_results_annotated.xlsx como pestaña 20ID00941_S11_R1_001.fastq_blas
Añadido 20ID00

In [37]:
final_medicion(estado_inicial)

El tiempo de ejecución de todo el código es de 75.19 segundos.
La CPU empleada todo el código es de 0.00 %.
La memoria utilizada en todo el código es de 5120000.00 MB.
