## **Tratamiento de secuencias de las proteínas MIKC**.

 1. Se importan los módulos necesarios para trabajar con las secuencias. A continuación, se presenta un breve resumen de la funcionalidad de cada uno:
 - **os:** sirve para acceder a funciones que permiten interactuar con el Sistema Operativo.<sup>1</sup>
 - **re:** se utiliza para trabajar con expresiones regulares, permitiendo la búsqueda, manipulación y coincidencia de patrones de texto en cadenas.<sup>2</sup>
 - **Bio.SeqIO:** permite leer y escribir secuencias en varios formatos entre ellos *FASTA*, un formato que se ha usado en este trabajo.<sup>3</sup>
 
 

In [3]:
import re
import os
from Bio import SeqIO

In [4]:
#Para establece el directorio de trabajo.
os.chdir("/home/alumno25/TFM/github/Datos")

2. La siguiente función sirve para contar el número de secuencias que tenemos en cada archivo. A continuación, se procede a contar las secuencias que se han descargado de la bases de datos iTAK,GenBank (NCBI) ,PlanTFDB y TAIR. 

In [24]:
def contar_seq(archivo):
    #Se abre el archivo en modo lectura ('r')
    with open(archivo, 'r') as archv:
        contenido = archv.read()
        #Para contar los símbolos > 
        return contenido.count(">")


archivo_Amb = "Amborella_trichopoda_MIKC.fasta"
archivo_Viti="Vitis_vinifera_MIKC.fasta"
archivo_Map="Marchantia_polimorpha_MIKC.fasta"
archivo_Ara="Arabidopsis_thaliana_MIKC.fasta"
veces_Amb = contar_seq(archivo_Amb)
veces_Viti = contar_seq(archivo_Viti)
veces_Map = contar_seq(archivo_Map)
veces_Ara = contar_seq(archivo_Ara)
print(f"El archivo  {archivo_Amb}, tiene {veces_Amb} secuencias.")
print(f"El archivo {archivo_Viti}, tiene {veces_Viti} secuencias.")
print(f"El archivo {archivo_Map}, tiene {veces_Map} secuencia.")
print(f"El archivo {archivo_Ara}, tiene {veces_Ara} secuencias.")

El archivo  Amborella_trichopoda_MIKC.fasta, tiene 36 secuencias.
El archivo Vitis_vinifera_MIKC.fasta, tiene 87 secuencias.
El archivo Marchantia_polimorpha_MIKC.fasta, tiene 1 secuencia.
El archivo Arabidopsis_thaliana_MIKC.fasta, tiene 39 secuencias.


### Procesado de las secuencias de *Amborella trichopoda* y *Vitis vinifera*.

1. Los archivos con la secuencias de *Amborella trichopoda* y *Vitis vinifera*, que se han sometido al primer filtro (realizado en la plataforma iTAK), se denominan "Amborella_trichopoda_filt1.fasta" y "Vitis_vinifera_MIKC.fasta" ( se ha mantenido el nombre porque no se ha detectado secuencias ajenas al grupo de estudio ni duplicados). Con la siguiente función se procede a filtrar el encabezado para quedarnos con los identificadores alfanuméricos de las secuencias.

In [8]:
def filt_cab(archv_1, archv_2):
    
    #Se abre el primer archivo en modo lectura ('r') y el segundo en modo escritura ('w').
    with open(archv_1, 'r') as in_archv, open(archv_2, 'w') as out_archv:
        #Para recorrer las líneas del archivo de entrada.
        for l in in_archv:
            if l.startswith('>'):
                #Este patrón sirve para buscar cadenas de caracteres no espaciales que 
                #se encuentran a continuación del símbolo '>'. De esta manera nos quedamos solo con el 
                #identificador de la secuencia.
                match = re.search(r'>\s*(\S+)', l)
                if match:
                    # Escribe la palabra encontrada en el archivo de salida.
                    out_archv.write('>' + match.group(1) + '\n')
            else:
                # Escribe las líneas sin modificar en el archivo de salida.
                out_archv.write(l)

In [37]:
filt_cab("Amborella_trichopoda_filt1.fasta","Amborella_trichopoda_filt2.fasta")
filt_cab("Vitis_vinifera_MIKC.fasta","Vitis_vinifera_filt2.fasta")

2. Con la siguiente función, se procede a escribir en un nuevo archivo las secuencias unicas de *Amborella trichopoda* y *Vitis vinifera*.

In [9]:
def select_seq_unic(archv_1, archv_2, prefix):
    
    #Leer el archivo de entrada 
    with open(archv_1, 'r') as archv:
        data = archv.read() 
    lineas = data.split("\n")
    
    #Se inicializan 3 diccionarios, los dos primeros diccionarios sirven para almacenar la cabecera
    #de cada secuencia, pero la diferencia radica en que el segundo almacena todos los encabezados relacionados
    #con la secuencia mientras que, el primero si hay varias cabeceras para la misma secuencia, solo almacena
    #el último que comienza con el valor de la variable prefix. El último diccionario sirve para llevar un conteo 
    #de cuántas veces se ha encontrado cada secuencia.
    seq_cab = {}
    seq_cab_all = {}
    seq_count = {}
    #Se inicializan dos cadenas vacias para almacenar la secuencia y la cabecera actual.
    seq = ""
    cab = ""

    for l in lineas:
        #Para cada línea, verifica si la línea comienza con '>', lo que indica una nueva cabacera de secuencia.
        if l.startswith(">"):
            #Si la variable seq no esta vacia
            if seq:
                #El diccionario seq_count, se actualiza con el número de veces que la secuencia ha sido encontrada.
                seq_count[seq] = seq_count.get(seq, 0) + 1
                
                #Se si seq es una clave en el diccionario seq_cab.
                if seq in seq_cab:
                    #El diccionario seq_cab_all,almacena todas las cabeceras que se han
                    #encontrado para la secuencia en particular en una lista.
                    seq_cab_all[seq].append(cab)
                    # Si la cabecera actual empieza por el valor de la variable prefix,se establece esta cabecera 
                    #como princpal de esta secuencia en el diccionario seq_cab.
                    if cab.startswith(prefix):
                        seq_cab[seq] = cab
                # Si la secuencia no se ha encontrado antes, se establece la cabecera actual 
                #como la cabecera de la secuencia tanto en seq_cab como en seq_cab_all
                else:
                    seq_cab[seq] = cab
                    seq_cab_all[seq] = [cab]

            #Se reinicializa la variable seq y se establece la línea actual como cabecera para procesar
            # la siguiente secuencia.
            seq = ""
            cab = l
        #Si la línea no comienza con '>', entonces es parte de una secuencia y se añade a la variable seq.
        else:
            seq += l.strip()

    #Después de procesar todas las líneas del archivo, si todavía hay una secuencia que se está procesando
    #(es decir, si seq no está vacia), repite los mismos pasos que se describieron anteriormente
    #para actualizar los conteos de las secuencias y los diccionarios de cabeceras.
    if seq:
        seq_count[seq] = seq_count.get(seq, 0) + 1
        if seq in seq_cab:
            seq_cab_all[seq].append(cab)
            if cab.startswith(prefix):
                seq_cab[seq] = cab
        else:
            seq_cab[seq] = cab
            seq_cab_all[seq] = [cab]
            
    #Una vez que todas las líneas del archivo se han procesado, imprime las secuencias que se encuentran más 
    #de una vez, junto con su recuento y las cabeceras asociadas.
    print("\nSecuencias repetidas:")
    for seq, count in seq_count.items():
        if count > 1:
            print(f"{seq}: {count} veces")
            print(f"Cabeceras asociados: {', '.join(seq_cab_all[seq])}")
            
    #Abre el archivo de salida  y, para cada secuencia en seq_cab, se escribe su cabecera y 
    #la secuencia en el archivo de salida. 
    with open(archv_2, 'w') as outarchv:
        for seq, cab in seq_cab.items():
            outarchv.write(cab + "\n")
            outarchv.write(seq + "\n")


In [39]:
select_seq_unic("Amborella_trichopoda_filt2.fasta","Amborella_trichopoda_filt3.fasta",">evm")


Secuencias repetidas:
MGRGRVELKRIENKINRQVTFAKRRNGLLKKAYELSVLCDAEVALIIFSNRGKLYEFCSTSSMVKTLERYQKCNYGALETNVPTRETQSSYQEYLKLKARVESLQRSQRNLLGEDLGPLSSKELEQLEQQLEMSLKQIRSTKTQCMFDQLADLRRRELALQETNKALKRKLEGASASNPPQLAWENNGQNIHYNRQPAHTEGFFHPLECDSTLQIGYHPSCPDQMPVAAPVQNVNAFLPGWLV: 2 veces
Cabeceras asociados: >NP_001292758.1, >evm_27.model.AmTr_v1.0_scaffold00047.121
MGRGRVELKRIENKINRQVTFAKRRNGLLKKAYELSVLCDAEVALIIFSNRGKQYEFCSSSSMLKTLERYQKCNYGTQETTVSTKETQSSQQEYLRLKAHFEALQRSQRNLLGEDLGPLSGKELEQLEQQLDMSLKQIRSIKTQYMIDQLADLQRKEQALSESNNALKRKLEAAGGWDSTGHQMEYNRQPAQAQADNFFHPLECDPTLQIGYPSGYPNPITVAAPGPSVTNFMPWMAGIEG: 2 veces
Cabeceras asociados: >NP_001292763.1, >evm_27.model.AmTr_v1.0_scaffold00013.53
MGRGKIEIKRIENPTNRQVTYSKRRGGIIKKAKELTVLCDAEVSLIMFSSTGKFSEYCSPSTSTKKIYDRYQQVSETNLWDTHYEENGFFLVLQKMQRDLGNLKEESNRLRKLIRQKMGEDINELKYKELRDLEQNLEEWVKRIRDKKNHLVTNQTETCKKRIKNLEEQNKMMRHMMEEDEAERGLEDDGDYESQLALGVRNTHLFAYRMRPAEGNIHDRGYGLNDLRLG: 2 veces
Cabeceras asociados: >XP_006828932.1, >evm_27.model.AmTr_v1.0_scaffold0000

In [40]:
select_seq_unic("Vitis_vinifera_filt2.fasta","Vitis_vinifera_filt3.fasta",">GSVIVT")


Secuencias repetidas:
MKASQLQIQKVKNMRGPLVLNKPFPFSATLLCRTIPKNRVNSTRGEKKKEKIVVSTLVYLLLLSFLTSSFQLSTTEFPNQASEGSSQRKMGRGKIEIKRIENTTNRQVTFCKRRNGLLKKAYELSVLCDAEVALIVFSSRGRLYEYANNSVRTTIERYKKVCSDSSNTGSVSEANAQFYQQEASKLRRQIRDIQNLNRHILGEALSSLNFKELKNLETRLEKGISRIRSKKNELLFAEIEYMQKREIELQNSNLFLRAQIAENERAQQQMNLMPGSQYESVPQQPYDSQNLLPVNLLDPNHHYSRHDQTALQLVTICLLYLYLKTYFSSILKINKLMKYHFIVALSYNGLVRSGAVFVGLFVE: 2 veces
Cabeceras asociados: >GSVIVT01000802001, >CBI31767.3
MGRGKIEIKKIENANSRQVTFSKRRVGLLKKASELAILCDAQVGVIIFSNTGKLFEFSSTSMKRIISRYNKLDSSEGALVEYKAEQEPKEVDILKDEIRKLQTRQLQLLGKDLSGLSLKELQNLEQQLNESLLSVKERKEQVLMEQLEQSRVQEQRAVLENETLRRQVEELRGLVPSSDRLVPPFLEYHPLERKDSITKSVVISPDVCDFAVEREESDTTLQLGLPTEISRKRKAPAKMETRSNNSGS: 2 veces
Cabeceras asociados: >GSVIVT01001437001, >CBI28594.3
MPRQKIQIKKIDNTAARQVTFSKRRRGLFKKALELSTLCDAEIELIVFSAAGKLFEYSSSSVNQVIERHSQHPQTPEKPEPPSLELQLENRTCAALSKEIAQQTQRLRQMRGEELQGLKIEELIELEKLLEAGLCSVVEEKAERIQTEISDLQRKGDLLRGENERLRKWMENISEAQPLLQQGHSSESITNNICSLSDPNQGHHNSDTSLKLGLPFSN: 2 veces
Cabeceras as

In [6]:
archv_Amb_filt3="Amborella_trichopoda_filt3.fasta"
archv_Viti_filt3="Vitis_vinifera_filt3.fasta"
veces_Amb_filt3=contar_seq(archv_Amb_filt3)
veces_Viti_filt3=contar_seq(archv_Viti_filt3)
print(f"El archivo {archv_Amb_filt3}, tiene {veces_Amb_filt3} secuencias.")
print(f"El archivo {archv_Viti_filt3}, tiene {veces_Viti_filt3} secuencias.")

El archivo Amborella_trichopoda_filt3.fasta, tiene 22 secuencias.
El archivo Vitis_vinifera_filt3.fasta, tiene 55 secuencias.


### Procesado de las secuencias de *Arabidopsis thaliana*.

1. Las secuencias de las proteinas de *Arabidopsis thaliana*, obtenidas de la base de datos TAIR, se somete a un filtro para eliminar los símbolos "*" y posteriormente se filtran sus cabeceras.

In [6]:
def elim_simb(archivo):
    # Leer el archivo FASTA
    with open(archivo, 'r') as archv:
        contenido = archv.read()
        #Para reemplazar los símbolos "*" con una cadena vacía.
        contenido_modificado = contenido.replace("*", '')
        
    # Escribir el nuevo archivo FASTA
    with open(archivo, 'w') as archv:
        archv.write(contenido_modificado)


In [7]:
elim_simb(archivo_Ara)
print(f"Se eliminaron todos los símbolos del archivo '{archivo_Ara}'.")

Se eliminaron todos los símbolos del archivo 'Arabidopsis_thaliana_MIKC.fasta'.


In [9]:
filt_cab(archivo_Ara,"Arabidopsis_thaliana_filt.fasta")

In [10]:
veces_Ara=contar_seq(archivo_Ara)
print(f"El archivo contenido en el directorio '{archivo_Ara}', tiene {veces_Ara} secuencias.")

El archivo contenido en el directorio 'Arabidopsis_thaliana_MIKC.fasta', tiene 39 secuencias.


### Procesado de las secuencias de *Marchantia polimorpha*.

1. La secuencia de la especie *Marchantia polimorpha*, obtenida de la base de datos PlanTFDB, pasa por los mismos filtros que la especie *Arabidopsis thaliana*.

In [11]:
elim_simb(archivo_Map)
print(f"Se eliminaron todos los símbolos del archivo '{archivo_Map}'.")

Se eliminaron todos los símbolos del archivo 'Marchantia_polimorpha_MIKC.fasta'.


In [12]:
filt_cab(archivo_Map,"Marchantia_polimorpha_filt.fasta")

### Combinación de los 4 ficheros.

1. Se procede a combinar los 4 ficheros para mayor comodidad y facilidad de manejo.

In [19]:
def comb_archv(archvs, out_nomb_archv):
    # Escribir el nuevo archivo FASTA
    with open(out_nomb_archv, 'w') as outnachrv:
        for Anomb in archvs:
            with open(Anomb) as inarchv:
                for l in inarchv:
                    outnachrv.write(l)


In [51]:
archvs = ["Amborella_trichopoda_filt3.fasta", "Marchantia_polimorpha_filt.fasta", "Arabidopsis_thaliana_filt.fasta", "Vitis_vinifera_filt3.fasta"]
out_nomb_archv = "Seq_MIKC.fasta"
comb_archv(archvs, out_nomb_archv)

In [52]:
seqs=contar_seq(out_nomb_archv)
print(f"El archivo 'Seq_MIKC.fasta' tienen {seqs} secuencias")

El archivo 'Seq_MIKC.fasta' tienen 117 secuencias


### Procesado de todas las secuencias.

1. Se procede a eliminar las secuencias **XP_002262889.2 y CAN60992.1** del fichero denominado "Seq_MIKC.fasta".

In [25]:
def prots_elim(archv_1,archv_2,ids_prots):
    
    # Leer el archivo FASTA
    with open(archv_1, 'r') as archv:
        lineas = archv.readlines()

    #Se inicializa una lista vacía para almacenar las líneas que se quieren mantener.
    select_lines = []
    
    ##Se inicializa una variable booleana skip con el valor False, para saber si se deben de omitir las lineas
    #de una secuencia que se dea eliminar.
    skip = False
    for l in lineas:
        if l.startswith(">"):
            # Comprueba si la cabecera coincide con alguno de los identificadores
            if any(l.strip() == ">" + ident for ident in ids_prots):
                skip = True
            else:
                skip = False
        if not skip:
            select_lines.append(l)

    # Escribir el nuevo archivo FASTA
    with open(archv_2, 'w') as out_archv:
        out_archv.writelines(select_lines)

In [53]:
prots = ["XP_002262889.2", "CAN60992.1"]
archv_1 = "Seq_MIKC.fasta"
archv_2 = "Seq_MIKC_filt.fasta"
prots_elim(archv_1, archv_2, prots)

2. Comparación de las secuencias, obtenidas de las distintas bases de datos que se encuentran en el fichero "Seq_MIKC_filt.fasta", con las secuencias obtenidas en UniProt ("Seq_prot.fasta"), que es la base de datos a la cual AlphaFold enlaza para la información de secuencias. 

In [46]:
def comp_seq_prot(archv_1, archv_2):
    
    #Se crean dos iteradores para guardar información sobre el identificador y la secuencia.
    fasta1 = SeqIO.parse(open(archv_1),'fasta')
    fasta2 = SeqIO.parse(open(archv_2),'fasta')

    for seq_record1, seq_record2 in zip(fasta1, fasta2):
        print(f"Comparando secuencia {seq_record1.id} con {seq_record2.id}")
        
        #Se extraen las secuencias y se convierten en cadenas de texto.
        #Esto se hace debido a que el objeto seq que se ha generado al leer el archivo FASTA 
        #no es una cadena de texto.
        seq1 = str(seq_record1.seq)
        seq2 = str(seq_record2.seq)
        
        #Para calcular la longitud de las secuencias.
        long1, long2 = len(seq1), len(seq2)
        print(f"Longitud de la secuencia de la base de datos iTAK {seq_record1.id}: {long1}")
        print(f"Longitud de la secuencia de la base de datos Uniprot {seq_record2.id}: {long2}")

    
        #Se calcula la longitud mínima para comparar las secuencias hasta el final de la secuencia más corta.
        min_long = min(long1, long2)
        
        diferencias= False
        for i in range(min_long):
            
            ##Si los aminoácidos en las dos secuencias son diferentes en una posición determinada, se imprime un mensaje que indica la posición y las letras.
            if seq1[i] != seq2[i]:
                print(f"Diferencias en la posiciones {i+1}:Aminoácido {seq1[i]} en {seq_record1.id} vs Aminoácido {seq2[i]} en {seq_record2.id}")
                diferencias=True
                
        #Si las secuencias tienen longitudes diferentes, se imprime un mensaje que indica que la comparación se ha realizado hasta la longitud de la secuencia más corta
        if long1 != long2:
            print(f"La comparación de las secuencias se ha realizado hasta la posición {min_long} debido a que tienen diferentes longitudes.")
            diferencias=True
            
        if not diferencias:
            print("No se han encontrado diferencias entre las secuencias.")


In [54]:
comp_seq_prot('Seq_MIKC_filt.fasta', 'Seq_prot.fasta')

Comparando secuencia AAR06677.1 con tr|I6LAR5|I6LAR5_AMBTC
Longitud de la secuencia de la base de datos iTAK AAR06677.1: 196
Longitud de la secuencia de la base de datos Uniprot tr|I6LAR5|I6LAR5_AMBTC: 196
No se han encontrado diferencias entre las secuencias.
Comparando secuencia AAR06678.1 con tr|I6LAR6|I6LAR6_AMBTC
Longitud de la secuencia de la base de datos iTAK AAR06678.1: 144
Longitud de la secuencia de la base de datos Uniprot tr|I6LAR6|I6LAR6_AMBTC: 144
No se han encontrado diferencias entre las secuencias.
Comparando secuencia AAY25577.1 con tr|Q2TDX5|Q2TDX5_AMBTC
Longitud de la secuencia de la base de datos iTAK AAY25577.1: 223
Longitud de la secuencia de la base de datos Uniprot tr|Q2TDX5|Q2TDX5_AMBTC: 223
No se han encontrado diferencias entre las secuencias.
Comparando secuencia AAY25580.1 con tr|Q2TDX2|Q2TDX2_AMBTC
Longitud de la secuencia de la base de datos iTAK AAY25580.1: 241
Longitud de la secuencia de la base de datos Uniprot tr|Q2TDX2|Q2TDX2_AMBTC: 241
No se han e

3. A partir del fichero denominado "Posicion_Dominios.txt" , que contiene la posición inicial y final de los dominios M, K y la posición del aminoácido final, obtenidas de la base de datos InterPro, se calcula las posiciones para los dominios restantes (I y C) y se guardan en el fichero "Posicion_dom_final.txt".

In [5]:
# Abre el archivo de entrada para lectura y el archivo de salida para escritura
with open("Posicion_Dominios.txt", "r") as archv_1, open("Posicion_dom_final.txt", "w") as archv_2:
    
    # Itera sobre cada línea en el archivo de entrada
    for linea in archv_1:
        # Separa la línea por espacios
        secciones = linea.split()
        
        # Se obtienen las partes de la zona M y la zona K
        M = secciones[1].split("-")
        K = secciones[2].split("-")
        
        # Calcula la zona I y la primera posición de la zona C.
        dom_I_inicio = int(M[1]) + 1
        dom_I_fin = int(K[0]) - 1
        dom_C_inicio = int(K[1]) + 1
        
        # Escribe el resultado al archivo de salida
        archv_2.write(f"{secciones[0]}\t{secciones[1]}\t{dom_I_inicio}-{dom_I_fin}\t{secciones[2]}\t{dom_C_inicio}-{secciones[3]}\n")


### **Referencias:**

    1. os — Interfaces misceláneas del sistema operativo — documentación de Python - 3.10.11. https://docs.python.org/es/3.10/library/os.html.
    2. re — Operaciones con expresiones regulares. Python documentation https://docs.python.org/3/library/re.html.
    3.Welcome to Biopython’s API documentation! — Biopython 1.76 documentation. https://biopython.org/docs/1.76/api/index.html.
   
   

