# Ejercicio 1

In [5]:
from Bio.Blast import NCBIWWW, NCBIXML
from Bio import SeqIO

#Secuencias cortas (alrededor de 20-30 nucleótidos) podrían arrojar resultados, 
#especialmente si contienen regiones o motivos altamente conservados.
#Secuencias más largas (de varios cientos de nucleótidos o más) suelen proporcionar 
#resultados más significativos y confiables, ya que tienen más información para la comparación.

# Función para validar la secuencia de proteínas
def valida_sequenza(sequenza):
    # Patrón para verificar la secuencia de proteínas
    patron = re.compile(r'^[ACGT]+$')
    return bool(patron.match(sequenza))

# Obtener la secuencia de proteína del usuario con validación
while True:
    sequence = input("Introduce la secuencia de proteína: ")
    if valida_sequenza(sequence):
        break
    else:
        print("La secuencia de proteína ingresada no es válida. Ingresa solo letras correspondientes a los aminoácidos (ACDEFGHIKLMNPQRSTVWY).")

print('Sequence: ',sequence)

# Realizar la búsqueda BLAST en la base de datos de nucleótidos de NCBI
result_handle = NCBIWWW.qblast("blastn", "nt", sequence)


blast_records = NCBIXML.parse(result_handle)

num_results = 0
best_e_value = float('inf')
best_hit_description = ''

for record in blast_records:
    for alignment in record.alignments:
        num_results += 1
        for hsp in alignment.hsps:
            if hsp.expect < best_e_value:
                best_e_value = hsp.expect
                best_hit_description = alignment.title

print("Número de resultados obtenidos:", num_results)
print("El mejor E-value obtenido:", best_e_value)
print("Descripción de la secuencia más similar:", best_hit_description)


Introduce la secuencia de ADN:  ACGTAGCTAGCATCGACTAGCATGCTACGATCGACTCGACAAAAA


Sequence:  ACGTAGCTAGCATCGACTAGCATGCTACGATCGACTCGACAAAAA
Número de resultados obtenidos: 4
El mejor E-value obtenido: 0.547003
Descripción de la secuencia más similar: gi|2510679329|emb|OX637586.1| Comarum palustre genome assembly, chromosome: 15


# Ejercicio 2

In [6]:
from Bio.Blast import NCBIWWW, NCBIXML
import re

# Función para validar la secuencia de proteínas
def valida_sequenza_proteina(sequenza):
    # Patrón para verificar la secuencia de proteínas
    patron = re.compile(r'^[ACDEFGHIKLMNPQRSTVWYacdefghiklmnpqrstvwy]+$')
    return bool(patron.match(sequenza))

# Obtener la secuencia de proteína del usuario con validación
while True:
    protein_sequence = input("Introduce la secuencia de proteína: ")
    if valida_sequenza_proteina(protein_sequence):
        break
    else:
        print("La secuencia de proteína ingresada no es válida. Ingresa solo letras correspondientes a los aminoácidos (ACDEFGHIKLMNPQRSTVWY).")

# Realizar la búsqueda BLAST en la base de datos de proteínas de NCBI
result_handle = NCBIWWW.qblast("blastp", "nr", protein_sequence)

# Analizar los resultados obtenidos
blast_records = NCBIXML.parse(result_handle)

# Crear un archivo para guardar los resultados con E-value < 0.001
with open("resultados_blast.txt", "w") as file_output:
    file_output.write("Identificador\tLongitud\tE-value\t% Identidad\n")
    
    for record in blast_records:
        for alignment in record.alignments:
            for hsp in alignment.hsps:
                # Guardar resultados con E-value < 0.001 en el archivo
                if hsp.expect < 0.001:
                    identificador = alignment.title.split()[1]  # Obtener el identificador del título
                    longitud = alignment.length
                    e_value = hsp.expect
                    porcentaje_identidad = hsp.identities / hsp.align_length * 100
                    
                    # Escribir los datos en el archivo
                    file_output.write(f"{identificador}\t{longitud}\t{e_value}\t{porcentaje_identidad:.2f}%\n")

print("Los resultados con E-value < 0.001 han sido guardados en 'resultados_blast.txt'.")


Introduce la secuencia de proteína:  abfgtsimvd


La secuencia de proteína ingresada no es válida. Ingresa solo letras correspondientes a los aminoácidos (ACDEFGHIKLMNPQRSTVWY).


Introduce la secuencia de proteína:  AFGTSKFJUSG


La secuencia de proteína ingresada no es válida. Ingresa solo letras correspondientes a los aminoácidos (ACDEFGHIKLMNPQRSTVWY).


Introduce la secuencia de proteína:  ACDAFGHIMNACGTUV


La secuencia de proteína ingresada no es válida. Ingresa solo letras correspondientes a los aminoácidos (ACDEFGHIKLMNPQRSTVWY).


Introduce la secuencia de proteína:  ACGTACGATCATGACA


KeyboardInterrupt: 