# TFG sobre Herramienta para la Medicina de Precisión

### Ejercicios tipo para agilizar el manejo de Python

####  Leer y procesar secuencias de aminoácidos

In [1]:
#1. Leer secuencia desde un archivo
 
with open("secuencia.txt", "r") as archivo: # r para modo lectura
    secuencia = archivo.read().strip() #read() obtener sec como texto y strip() elimina espacios en blanco


longitud = len(secuencia)

print(f"La secuencia es: {secuencia}") # f"....{}..."  --> tener en cuenta para dar los resultados de forma clara y visual
print(f"Número de aminoácidos: {longitud}")


La secuencia es: ACDEFGHIKLMNPQRSTVWY
Número de aminoácidos: 20


In [3]:
#2.  Contar cuántas veces aparece un aminoácido específico
aminoacido = "L"

contar = secuencia.count(aminoacido)

print(contar)

1


In [14]:
#3. Paso de letras a nombres de aminoacidos

# IMPORTANTE EL SIGUIENTE DICCIONARIO, LE PODRE UTILIZAR EN EL FUTURO
# CONTIENE TODOS LOS AMINOACIDOS

nombres_aminoacidos = {
    "A": "Alanina", "C": "Cisteína", "D": "Ácido aspártico", 
    "E": "Ácido glutámico", "F": "Fenilalanina", "G": "Glicina", 
    "H": "Histidina", "I": "Isoleucina", "K": "Lisina", 
    "L": "Leucina", "M": "Metionina", "N": "Asparagina", 
    "P": "Prolina", "Q": "Glutamina", "R": "Arginina", 
    "S": "Serina", "T": "Treonina", "V": "Valina", 
    "W": "Triptófano", "Y": "Tirosina"}

seq = "ACDEFG"

traducir = [nombres_aminoacidos[i] for i in seq] #los corchestes que engloban sirben para agrupar el resultado en una lista
print(traducir)

['Alanina', 'Cisteína', 'Ácido aspártico', 'Ácido glutámico', 'Fenilalanina', 'Glicina']


In [22]:
#4. Obtener los aminoacidos validos a partir del diccionario anterior
aa_validos = set(nombres_aminoacidos.keys()) # Con set() lo que hacemos es crear un conjunto, que se caracteriza por no tener un orden y no tener duplicados, mejor que list
print(aa_validos)

#aa_validos LO PODRÉ UTILIZAR EN POSTERIORMENTE PARA HACER MÁS CONSULTAS, YA QUE CONTIENE TODOS LOS AA 

{'Q', 'A', 'G', 'D', 'R', 'V', 'I', 'K', 'F', 'T', 'W', 'C', 'M', 'Y', 'L', 'P', 'H', 'N', 'S', 'E'}


In [31]:
# Secuencia de ejemplo
secuencia = ""

# Conjunto de aminoácidos válidos
aminoacidos_validos = set("ACDEFGHIKLMNPQRSTVWY")

# Validar la secuencia
es_valida = all(aa in aminoacidos_validos for aa in secuencia)

if es_valida:
    print("La secuencia es válida.")
else:
    print("La secuencia contiene caracteres no válidos.")


La secuencia es válida.


In [36]:
#5. Comprobar si una secuencia contiene solo aminoácidos válidos
seq = "ACDGXHT" # x no es un aa

# Validar la secuencia
es_valida = all(aa in aa_validos for aa in seq) #all() para verificar que cada caracter esta en el conjunto
#El bucle recorre que cada aa de seq este dentro de aa_validos. Si es así all() delvuelve  es_valida = True
if es_valida:
    print("La secuencia es válida.")
else:
    print("La secuencia contiene caracteres no válidos.")

La secuencia contiene caracteres no válidos.


In [43]:
#6. Comparar entre dos secuencias cuantos aa son diferentes (mutación)
seq_ok = "ACDGHTELHSAD"
seq_mal = "ACDGHTEGHSGG"

mutacion = sum(1 for aa1, aa2 in zip(seq_ok, seq_mal) if aa1 != aa2)
# Con zip() emparejamos los amonoazidos de las dos secuencias 
print(mutacion)

3


In [48]:
#7.  Encontrar subsecuencias
# Secuencia de ejemplo
secuencia = "ACDEFGHIKLMNPQRSTVWYACD"

subsecuencia = "ACD"

posiciones = []
contador_subsecuencias = 0

for i in range(len(secuencia) - len(subsecuencia) + 1):
    if secuencia[i:i + len(subsecuencia)] == subsecuencia:
        posiciones.append(i)  # Agregamos la posición a la lista desde donde parte la subsec
        contador_subsecuencias += 1 

if contador_subsecuencias > 0:
    print(f"El patrón '{subsecuencia}' aparece {contador_subsecuencias} veces en las posiciones: {posiciones}")
else:
    print(f"El patrón '{subsecuencia}' no se encuentra en la secuencia.")

El patrón 'ACD' aparece 2 veces en las posiciones: [0, 20]


In [62]:
# Secuencia correcta (referencia)
secuencia_correcta = "ACDEFGHIKLMNPQRSTVWY"

# Función para cargar secuencias desde un archivo
def cargar_secuencias(archivo):
    with open(archivo, 'r') as file:
        return [line.strip() for line in file.readlines()]

# Función para analizar las secuencias
def analizar_secuencias(secuencia_correcta, secuencias):
    for idx, secuencia in enumerate(secuencias):
        print(f"\nSecuencia {idx + 1}: {secuencia}")

        # Caso 1: Comparación completa
        if secuencia == secuencia_correcta:
            print("→ Coincide completamente con la secuencia correcta.")
            continue

        # Caso 2: Buscar fragmentos que coincidan
        # Inicializar la variable para el fragmento más largo
        fragmento_mas_largo = ""

        # Buscar fragmentos válidos en la secuencia
        for i in range(len(secuencia)):
            for j in range(i + 1, len(secuencia) + 1):
                fragmento = secuencia[i:j]
                # Si el fragmento está en la secuencia correcta y es más largo que el actual
                if fragmento in secuencia_correcta and len(fragmento) > len(fragmento_mas_largo):
                    fragmento_mas_largo = fragmento

        # Mostrar resultados
        if fragmento_mas_largo:
            print(f"→ No coincide completamente, pero contiene el siguiente fragmento válido:")
            print(f"   - Fragmento '{fragmento_mas_largo}'")
            print(f"→ Número de patrones encontrados: 1")
        else:
            print("→ No tiene fragmentos válidos.")

# Llamar a la función para analizar las secuencias
analizar_secuencias(secuencia_correcta, secuencias)



Secuencia 1: ACDEFGHIKLMNPQ
→ No coincide completamente, pero contiene el siguiente fragmento válido:
   - Fragmento 'ACDEFGHIKLMNPQ'
→ Número de patrones encontrados: 1

Secuencia 2: ACDEFXXIKLMNPQRSTVWY
→ No coincide completamente, pero contiene el siguiente fragmento válido:
   - Fragmento 'IKLMNPQRSTVWY'
→ Número de patrones encontrados: 1

Secuencia 3: FGHIKLMN
→ No coincide completamente, pero contiene el siguiente fragmento válido:
   - Fragmento 'FGHIKLMN'
→ Número de patrones encontrados: 1

Secuencia 4: XXACDEFGHIKLMNPQRSTVWY
→ No coincide completamente, pero contiene el siguiente fragmento válido:
   - Fragmento 'ACDEFGHIKLMNPQRSTVWY'
→ Número de patrones encontrados: 1

Secuencia 5: ACDEFGHIKLMNPQRSTVWYY
→ No coincide completamente, pero contiene el siguiente fragmento válido:
   - Fragmento 'ACDEFGHIKLMNPQRSTVWY'
→ Número de patrones encontrados: 1
