In [1]:
from Bio import Entrez
from Bio import SeqIO

# Configura tu email (NCBI lo requiere)
Entrez.email = "anabelplata1@upb.edu"  

# Buscar el ID de acceso del circovirus (ej: "Porcine circovirus 2")
term = "Porcine circovirus 2[Organism] AND complete genome[Title]"
handle = Entrez.esearch(db="nucleotide", term=term, retmax=1)
record = Entrez.read(handle)
handle.close()

if record["IdList"]:
    # Descargar la secuencia en formato FASTA
    id_acc = record["IdList"][0]  # Tomamos el primer resultado
    handle = Entrez.efetch(db="nucleotide", id=id_acc, rettype="fasta", retmode="text")
    fasta_data = handle.read()
    handle.close()
    
    # Guardar en un archivo
    with open("circovirus.fasta", "w") as f:
        f.write(fasta_data)
    print("¡Secuencia descargada y guardada como 'circovirus.fasta'!")
else:
    print("No se encontraron secuencias.")

¡Secuencia descargada y guardada como 'circovirus.fasta'!


In [4]:
from Bio import Entrez
from Bio import SeqIO
import time

Entrez.email = "tu_email@ejemplo.com"  # ¡Requerido por NCBI!

# 1. Buscar virus de la familia Circoviridae (excluyendo el que ya tienes)
query = "Circoviridae[Organism] NOT Porcine circovirus 2[Organism] AND 500:3000[SLEN]"  # Secuencias de 500-3000 pb
handle = Entrez.esearch(db="nucleotide", term=query, retmax=10)  # Solo 10 resultados
record = Entrez.read(handle)
id_list = record["IdList"]
handle.close()

# 2. Descargar cada secuencia en formato FASTA
for i, id_acc in enumerate(id_list, 1):
    try:
        handle = Entrez.efetch(db="nucleotide", id=id_acc, rettype="fasta", retmode="text")
        seq_record = SeqIO.read(handle, "fasta")
        handle.close()
        
        # Guardar en un archivo
        filename = f"virus_{i}_{seq_record.id}.fasta"
        with open(filename, "w") as f:
            SeqIO.write(seq_record, f, "fasta")
        print(f"Secuencia {i}: {seq_record.description[:50]}... guardada en {filename}")
        
        time.sleep(1)  # Evitar bloqueo de NCBI
    except Exception as e:
        print(f"Error con {id_acc}: {str(e)}")

Secuencia 1: PP795594.1 Cat associated circovirus 1 strain POR/... guardada en virus_1_PP795594.1.fasta
Secuencia 2: PP795593.1 Cat associated circovirus 1 strain POR/... guardada en virus_2_PP795593.1.fasta
Secuencia 3: PP795592.1 Cat associated circovirus 1 strain POR/... guardada en virus_3_PP795592.1.fasta
Secuencia 4: PP795591.1 Cat associated circovirus 1 strain ROU/... guardada en virus_4_PP795591.1.fasta
Secuencia 5: PP795590.1 Cat associated circovirus 1 strain GRC/... guardada en virus_5_PP795590.1.fasta
Secuencia 6: PP795589.1 Cat associated circovirus 1 strain GRC/... guardada en virus_6_PP795589.1.fasta
Secuencia 7: PP795588.1 Cat associated circovirus 1 strain GRC/... guardada en virus_7_PP795588.1.fasta
Secuencia 8: PP795587.1 Cat associated circovirus 1 strain GRC/... guardada en virus_8_PP795587.1.fasta
Secuencia 9: PP781943.1 Canine circovirus isolate Canine-202312... guardada en virus_9_PP781943.1.fasta
Secuencia 10: PP781942.1 Canine circovirus isolate Canine-202312

In [5]:
from Bio import Entrez
from Bio import SeqIO
import time

# Configuración de NCBI (¡requiere email!)
Entrez.email = "tu_email@ejemplo.com"  

# 1. Búsqueda de virus en Circoviridae (excluyendo el virus conocido)
search_term = 'Circoviridae[Organism] AND 500:3000[SLEN] NOT "Porcine circovirus 2"[Organism]'  # Filtros clave
handle = Entrez.esearch(db="nucleotide", term=search_term, retmax=10)  # Solo 10 resultados
record = Entrez.read(handle)
handle.close()

id_list = record["IdList"]
print(f"IDs encontrados: {id_list}")  # Verificar los IDs

# 2. Descargar cada secuencia en FASTA (evitando duplicados)
for i, id_acc in enumerate(id_list, 1):
    try:
        # Descargar la secuencia
        handle = Entrez.efetch(db="nucleotide", id=id_acc, rettype="fasta", retmode="text")
        seq_record = SeqIO.read(handle, "fasta")
        handle.close()
        
        # Guardar en un archivo único
        filename = f"circovirus_{i}_{seq_record.id.split('.')[0]}.fasta"  # Ej: "circovirus_1_NC_12345.fasta"
        with open(filename, "w") as f:
            SeqIO.write(seq_record, f, "fasta")
        
        print(f"Secuencia {i}: {seq_record.description[:60]}... guardada como {filename}")
        time.sleep(1)  # Esperar 1 segundo entre descargas (¡importante para NCBI!)
    
    except Exception as e:
        print(f"Error al descargar {id_acc}: {str(e)}")

IDs encontrados: ['2967148417', '2967148414', '2967148411', '2967148408', '2967148405', '2967148402', '2967148399', '2967148396', '2967148331', '2967148328']
Secuencia 1: PP795594.1 Cat associated circovirus 1 strain POR/2015/cat/4... guardada como circovirus_1_PP795594.fasta
Secuencia 2: PP795593.1 Cat associated circovirus 1 strain POR/2023/cat/2... guardada como circovirus_2_PP795593.fasta
Secuencia 3: PP795592.1 Cat associated circovirus 1 strain POR/2023/cat/5... guardada como circovirus_3_PP795592.fasta
Secuencia 4: PP795591.1 Cat associated circovirus 1 strain ROU/2021/cat/4... guardada como circovirus_4_PP795591.fasta
Secuencia 5: PP795590.1 Cat associated circovirus 1 strain GRC/2022/cat/2... guardada como circovirus_5_PP795590.fasta
Secuencia 6: PP795589.1 Cat associated circovirus 1 strain GRC/2022/cat/2... guardada como circovirus_6_PP795589.fasta
Secuencia 7: PP795588.1 Cat associated circovirus 1 strain GRC/2022/cat/2... guardada como circovirus_7_PP795588.fasta
Secuencia

In [6]:
from Bio import Entrez
from Bio import SeqIO
import time

# Configuración de NCBI (¡requiere email!)
Entrez.email = "tu_email@ejemplo.com"  # Reemplaza con tu email real

# 1. Búsqueda de virus en Circoviridae (genomas completos, excluyendo el virus conocido)
search_term = 'Circoviridae[Organism] AND complete genome[Title] NOT "Porcine circovirus 2"[Organism]'  # Filtro clave
handle = Entrez.esearch(db="nucleotide", term=search_term, retmax=10)  # 10 resultados únicos
record = Entrez.read(handle)
handle.close()

id_list = record["IdList"]
print(f"IDs de secuencias encontradas: {id_list}")  # Verificación

# 2. Descargar cada secuencia en formato FASTA
for i, id_acc in enumerate(id_list, 1):
    try:
        # Descargar la secuencia
        handle = Entrez.efetch(db="nucleotide", id=id_acc, rettype="fasta", retmode="text")
        seq_record = SeqIO.read(handle, "fasta")
        handle.close()
        
        # Guardar en un archivo con nombre único
        filename = f"circovirus_{i}_{seq_record.id.split('.')[0]}.fasta"  # Ej: circovirus_1_NC_12345.fasta
        with open(filename, "w") as f:
            SeqIO.write(seq_record, f, "fasta")
        
        print(f"Secuencia {i} descargada: {filename}")
        print(f"Descripción: {seq_record.description}\n")
        time.sleep(1)  # Evitar bloqueo de NCBI
    
    except Exception as e:
        print(f"Error al descargar {id_acc}: {str(e)}")

IDs de secuencias encontradas: ['2967148417', '2967148414', '2967148411', '2967148408', '2967148405', '2967148402', '2967148399', '2967148396', '2967148331', '2967148328']
Secuencia 1 descargada: circovirus_1_PP795594.fasta
Descripción: PP795594.1 Cat associated circovirus 1 strain POR/2015/cat/47, complete genome

Secuencia 2 descargada: circovirus_2_PP795593.fasta
Descripción: PP795593.1 Cat associated circovirus 1 strain POR/2023/cat/22, complete genome

Secuencia 3 descargada: circovirus_3_PP795592.fasta
Descripción: PP795592.1 Cat associated circovirus 1 strain POR/2023/cat/5, complete genome

Secuencia 4 descargada: circovirus_4_PP795591.fasta
Descripción: PP795591.1 Cat associated circovirus 1 strain ROU/2021/cat/4, complete genome

Secuencia 5 descargada: circovirus_5_PP795590.fasta
Descripción: PP795590.1 Cat associated circovirus 1 strain GRC/2022/cat/2.32, complete genome

Secuencia 6 descargada: circovirus_6_PP795589.fasta
Descripción: PP795589.1 Cat associated circovirus 1

In [None]:
virus1 = "ATGTCGGGGAAGCGGGGGCATGCGGCTTACAGATGGTGTTTTACTCTCAACAACTGGACAGAAGAGGAATATGGCTTGATCGCGTCTATGTCCAAAGATTGTGTGAAGTACCTTATTATCGGCAAAGAAGTTGGAAGAAACGGTACCCCGCACTTGCAAGGATTCGTGAATTTCAAGAAGAAGAGAAGATTAGGAGAAGTCAAGAAATTACCCGGCTTTATGCGTGCCCATGTAGAGTGTGCGAGGGGGTCGGATGTGGAGAATCAGAAGTATTGTCAGAAGGAGAATCAGTACCTGGAGATTGGCTGTCCCTCGCGCCAGGGGAAGAGCTCAGATTTGAGTGATGCGGTGGCGGTCCTTCGGAGCAGCGGCGGGAATTTGAAGCAGGTGGCAGCGGATTATCCGGAGGTGTTTGTCCGGCATGGGCGTGGTTTAAAGGACTATGTTTGTGTTGCTGGCTTGGTGCCCCCGCGAAGTTGGAAGACTGTTGTGACTGTGTTGGTTGGCCCTCCAGGGGTGGGGAAGACTCGTTATGTTAATGATGTTTGTGTTGGCAAGTCTGTGTATTGGAAACCGCGCGGGCCTTGGTGGGACGGTTATGGCGGGGAGGAGGTGGTTGTGTTTGATGACTTTTATGGCTGGGTTACCTTTGATGAACTCTTGAGGGTTTGTGATAGGTATCCCCTGAAGGTTCCTATTAAGGGCGCTTTTGTGGAATTTGTTGCGAAAGAATTGTTTATTACAAGTAATGAGGCTCCGGAGGGATGGTATAATACAGAAAATATACGTGGTGATATTAGGGCTTTATTTAGACGTATTAATGTGTATTGGGTGGCGGCGGAGGGTTAGAGGAGGGGGGGAGTAATGGCAGGGGTCGGGGCCCCCCTGGGGGGGTTGGGGGGGTTAGCGGCAGCCGAGCGGCTGTGTTGTAGTTATATATGCTGTCTCCATCTCACCCAGCAAGTCTTTAACTGAGAGAAACGGTAAGTCACAGAAGAGGGAGTGTGGACCCACCACTTGATGCCCAGATGTTGGGTGGTCATGTTGGCAGCATTGAACCACCGTGTGAAGTTGGAGGTGTGGAATTCACGACTCTGGGCAGAGACTGTGGTGGTCCAGGCTTTAGGCCTTAGACCTCTTGTAGTTCCATACCTGGCCTGAAAGGCTCTCCTGCTGGAGTTGTTGGGGTAGGGGTTATTTTGTAGGTCTTCTGTTTTGTCATCATCAAAGTCAATGATGCTTCCCCCTAGACCCCAGTATTGCCACGTGTTGGTGGGGGTGGCAGGTTTGATAGCCCATGCTGCGAAGGTCATTTGGAAGTAGTCAAAGGAAGCAGCTGTCACGAAATCTTGTAATCTGAAGGAGACTACGTTGACCTTGTAGTTAGAAGTGCTAGAAACGCTGATATCATCAATACGCTGGAGACGCTGATAATAATAACTGCCAGTACGAGGGCGGCGTATCCAGTATCTCCGGGGGCGTCTTCTTCTGTATAGGCGCCTGCGCATTCGACGAGAACGGTACCGCCGTCTGCTATATCTCCGCCTGTACCGCATTCTGGCTCCACAGTATTACCTGAAAGTTTGGAGCCAGGAGCCATGAGCAACCACTGTAGGAGGCATAAGCAGATGGTATGCGTGTATGAGCACTCTTATTTTTGTGAGTGTGAGGAAGCTGATGATATATGGTGGTTTGCTAGAGGGGGCCAAGGAGTGAGGCATTTTGATACGTATAGCGCCTCGAAGT"
virusBase ="ACCAGCGCACTTCGGCAGCGGCAGCACCTCGGCAGCACCTCAGCAGCAACATGCCCAGCAAGAAGAATGGAGAAGCGGACCCCAACCACATAAAAGGTGGGTGTTCACGCTGAATAATCCTTCCGAAGACGAGCGCAAGAAAATACGCGAGCTCCCAATCTCCCTATTTGATTATTTTATTGTTGGCGAGGAGGGTAATGAGGAGGGAAGAACACCTCACCTCCAGGGGTTCGCTAATTTTGTGAAGAAGCAAACTTTTAATAAAGTGAAGTGGTATTTTGGTGCCCCCTGCCACATCGAGAAAGCGAAAGGAACTGATCAGCAGAATAAAGAATATTGCAGTAAAGAAGGCAACTTACTTATTGAATGTGGAGCTCCTAAATCTCAAGGACAGCGGAGTGACTTGTCTACTGCTGTGAGTACCTTGTTGGAGAGCGGGAGTCTGGTGACCGTTGCAGAGCAGCACCCTGTAACGTTTGTCAGAAATTTCCACGGGCTGGCTGAACTTTTGAAAGTGAGCGGGAAAATGCAGAAGCGTGATTGGAAGACCAATGTACACGTCATTGTGGGGCCACCTGGGTGTGGTAAAAGCAAATGGGCTGCTAATTTTGCAGATCCGGAAACCACATACTGGAAACCACCTAGAAATAAGTGGTGGGATGGTTACCATGGTGAAGAAGTGGTTGTTATTGATGACTTTTATGGCTGGCTGCCGTGGGATGATCTACTGAGACTGTGTGATCGGTATCCATTGACTGTAGAGACTAAAGGTGGAACTGTACCTTTTTTGGCCCGCAGTATTCTGATTACCAGCAATCAGACCCCGTTGGAATGGTACTCCTCAACTGCTGTCCCAGCTGTAGAAGCTCTCTATCGGAGGATTACTTCCTTGGTATTTTGGAAGAATGCTACAGAACAGTCCACGGAGGAAGGGGGCCAGTTCGTCACCCTTTCCCCCCCATGCCCTGAATTTCCATATGAAATAAATTACTGAGTCTTTTTTATCACTTCGTAATAGTTTTTATTATTCATTTAGGGTTGAAGTGGGGGGTCTTTAAGATTAAATTCTCCGAATTGTACATACATGGTTACACGGATATAGTAGTCCTGGTCGTATATACTGTTTTCGAACGGAGTTCCGAGGCCTACGTGGTCTACATTTTTACTGGTTTGAATTCTCATCCACAGCTTATTGCTTTTGTTATTTGGTTGGAAGTAATCAATGGTGGAATCAAGGACAGGTTTGGGGGTAAAGTACCGGGAGTGGTAGGAGAAGGGCTGGGGTATGGTGTGGCGGGAGGGGTAGTTTACGTAGGGGTCGTAGGTTAGGGCTGTGGACCTTGTGAAAAAGTTATCATCTAGAATAACAGCACCGGATCCAACTCCCCTGTCACCCTGGGTGATTGGGGAGCAGGGCCAGAATTCAACCTTAACCTTTCTTATTCTGTAGTATTCAAAAGGTATAGAGATTTTGTTGGTCCCCCCTCCCGGGGGAAGAAAGTCGTCAATATTAAATCTCAGCATGTCCACCGCCCAGGAGGGCGTTGTGACTGTGGTAGCCTTGACAGTATATCCGAAGGTGCGGGAGAGGCGGCTGTTGAAAATGCCCTTTTTCCTTCTCCAGCGGTAACGGTGGCGCGGGTGGACGAGCCAGGGGCGGCGGCGGAGGATATGGCCAAGATGGCTGCGGGGCCGGTGTCTGCTTCTCCGGTAACGCCTCCTTGGATACGTCATATCTGAAAACGAGAGAAGTGCCCTGTAAGTATT"

if virus1 == virusBase:
    print("Las secuencias son iguales")
else:
    print("Las secuencias son diferentes")

Las secuencias son diferentes


In [16]:
######COMPARAR ABRIENDO 
# Nombre de los archivos a comparar
virusBase = "C:\Tareas002\circovirus.fasta"  # ARCHIVO BAASE 
virus1 = "C:\Tareas002\circovirus_1_PP795594.fasta"  # VIRUS 1

def leer_fasta(archivo):
    with open(archivo, 'r') as f:
        return "".join([linea.strip() for linea in f if not linea.startswith('>')]) ###### SALTAR ENCABEZADO 

# Leer y comparar
if leer_fasta("circovirus.fasta") == leer_fasta("circovirus_1_PP795594.fasta"):
    print("Las secuencias son iguales")
else:
    print("Las secuencias son diferentes")



Las secuencias son diferentes


  virusBase = "C:\Tareas002\circovirus.fasta"  # ARCHIVO BAASE
  virus1 = "C:\Tareas002\circovirus_1_PP795594.fasta"  # VIRUS 1


In [15]:
from Bio import SeqIO
from Bio.Align import PairwiseAligner
import re
import os

# --- Configuración inicial ---
ruta_original = r"C:\Tareas002\VIRUS\todas_las_secuencias.fasta"
ruta_limpia = r"C:\Tareas002\VIRUS\secuencias_limpias.fasta"
archivo_resultados = "comparacion_final.txt"

# --- 1. Limpieza del archivo FASTA ---
def limpiar_secuencias(ruta_entrada, ruta_salida):
    """Elimina caracteres no nucleotídicos y normaliza el formato"""
    print("\nLimpiando archivo FASTA...")
    with open(ruta_salida, "w") as output:
        for record in SeqIO.parse(ruta_entrada, "fasta"):
            secuencia_limpia = re.sub(r"[^ATCGN]", "", str(record.seq).upper())
            if len(secuencia_limpia) > 0:
                output.write(f">{record.id}\n{secuencia_limpia}\n")
    print("✅ Limpieza completada")

limpiar_secuencias(ruta_original, ruta_limpia)

# --- 2. Carga y verificación ---
print("\n🔍 Verificando secuencias...")
secuencias = list(SeqIO.parse(ruta_limpia, "fasta"))
if not secuencias:
    print(" Error: No se encontraron secuencias válidas")
    exit()

print(f"\nEstadísticas:")
print(f"- Secuencias cargadas: {len(secuencias)}")
print(f"- Longitud referencia: {len(secuencias[0].seq)} bases")

# --- 3. Configuración del alineador ---
aligner = PairwiseAligner()
aligner.mode = 'global'
aligner.match_score = 2
aligner.mismatch_score = -1
aligner.open_gap_score = -0.5
aligner.extend_gap_score = -0.1

# --- 4. Función para calcular identidad (CORRECCIÓN PRINCIPAL) ---
def calcular_identidad(alignment, ref_len, target_len):
    """Calcula porcentaje de identidad para el mejor alineamiento"""
    aligned = alignment.aligned
    matches = sum(end - start for (start, end) in aligned[0])
    alignment_length = max(ref_len, target_len)
    return (matches / alignment_length) * 100

# --- 5. Proceso de comparación ---
ref_seq = secuencias[0]
print(f"\n{'='*80}")
print(f"SECUENCIA REFERENCIA: {ref_seq.id}")
print(f"Longitud: {len(ref_seq.seq)} bases")
print(f"{'='*80}\n")

with open(archivo_resultados, "w") as f:
    f.write("REPORTE DE COMPARACIÓN DE SECUENCIAS VIRALES\n")
    f.write("="*60 + "\n")
    f.write(f"Referencia: {ref_seq.id} ({len(ref_seq.seq)} bases)\n\n")
    
    for target_seq in secuencias[1:]:
        try:
            # Alineamiento
            alignments = aligner.align(ref_seq.seq, target_seq.seq)
            best_alignment = alignments[0]
            
            # Cálculo de identidad (usando la nueva función)
            identidad = calcular_identidad(best_alignment, len(ref_seq.seq), len(target_seq.seq))
            
            # Resultados en consola
            print(f"Comparando con: {target_seq.id}")
            print(f"Longitud: {len(target_seq.seq)} bases")
            print(f"Porcentaje de identidad: {identidad:.2f}%")
            print("-"*60)
            
            # Resultados en archivo
            f.write(f"SECUENCIA: {target_seq.id}\n")
            f.write(f"Longitud: {len(target_seq.seq)} bases\n")
            f.write(f"Identidad global: {identidad:.2f}%\n")
            f.write("-"*50 + "\n")
            
        except Exception as e:
            error_msg = f"Error al comparar {target_seq.id}: {str(e)}"
            print(f"   ❗ {error_msg}")
            f.write(f"ERROR: {error_msg}\n")

print(f"\n{'='*80}")
print(f"Análisis completado")
print(f"Reporte guardado en: {os.path.abspath(archivo_resultados)}")
print(f"{'='*80}")


Limpiando archivo FASTA...
✅ Limpieza completada

🔍 Verificando secuencias...

Estadísticas:
- Secuencias cargadas: 11
- Longitud referencia: 1768 bases

SECUENCIA REFERENCIA: PV087262.1
Longitud: 1768 bases

Comparando con: PP781942.1
Longitud: 2063 bases
Porcentaje de identidad: 62.53%
------------------------------------------------------------
Comparando con: PP795594.1
Longitud: 1746 bases
Porcentaje de identidad: 64.65%
------------------------------------------------------------
Comparando con: PP795593.1
Longitud: 1746 bases
Porcentaje de identidad: 64.93%
------------------------------------------------------------
Comparando con: PP795592.1
Longitud: 1746 bases
Porcentaje de identidad: 64.65%
------------------------------------------------------------
Comparando con: PP795591.1
Longitud: 1746 bases
Porcentaje de identidad: 64.93%
------------------------------------------------------------
Comparando con: PP795590.1
Longitud: 1746 bases
Porcentaje de identidad: 65.05%
-----