In [1]:
from Bio import Entrez
from Bio import SeqIO

# Configura tu email (NCBI lo requiere)
Entrez.email = "avrilcandiazarco@gmail.com"  

# Buscar y descargar el genoma de PCV1 en formato FASTA
with Entrez.efetch(db="nucleotide", id="NC_001792.1", rettype="fasta", retmode="text") as handle:
    seq_record = SeqIO.read(handle, "fasta")

# Guardar en un archivo
with open("Circovirus.fasta", "w") as output_file:
    SeqIO.write(seq_record, output_file, "fasta")

print("¡Archivo descargado como Circovirus.fasta!")

¡Archivo descargado como Circovirus.fasta!


In [2]:
from Bio import Entrez, SeqIO
import time

# Configura tu email (requerido por NCBI)
Entrez.email = "avrilcandiazarco@gmail.com"  

# IDs de acceso de 5 virus similares a PCV1 (circovirus y otros pequeños virus de ADN)
virus_ids = {
    "PCV1": "NC_001792.1",               # Circovirus Porcino 1
    "PCV2": "NC_005148.1",               # Circovirus Porcino 2
    "CAV": "NC_001427.1",                # Circovirus Aviar
    "BeAnV": "NC_004768.1",              # Virus del Beak and Feather (Circovirus psitácido)
    "TTV": "NC_002076.1",                # Torque Teno Virus (similar a circovirus, infecta humanos)
}

# Descargar cada uno en formato FASTA
for nombre, id_acceso in virus_ids.items():
    print(f"Descargando {nombre} ({id_acceso})...")
    
    try:
        # Descargar la secuencia
        with Entrez.efetch(db="nucleotide", id=id_acceso, rettype="fasta", retmode="text") as handle:
            seq_record = SeqIO.read(handle, "fasta")
        
        # Guardar en un archivo FASTA
        filename = f"{nombre}_{id_acceso}.fasta"
        with open(filename, "w") as output_file:
            SeqIO.write(seq_record, output_file, "fasta")
        
        print(f"✅ {nombre} guardado como {filename}")
    
    except Exception as e:
        print(f"❌ Error al descargar {nombre}: {e}")
    
    time.sleep(1)  # Esperar 1 segundo para evitar sobrecargar NCBI

print("¡Descarga completada!")

Descargando PCV1 (NC_001792.1)...
✅ PCV1 guardado como PCV1_NC_001792.1.fasta
Descargando PCV2 (NC_005148.1)...
✅ PCV2 guardado como PCV2_NC_005148.1.fasta
Descargando CAV (NC_001427.1)...
✅ CAV guardado como CAV_NC_001427.1.fasta
Descargando BeAnV (NC_004768.1)...
✅ BeAnV guardado como BeAnV_NC_004768.1.fasta
Descargando TTV (NC_002076.1)...
✅ TTV guardado como TTV_NC_002076.1.fasta
¡Descarga completada!


In [4]:
from Bio import Entrez, SeqIO

# Configurar email (requerido por NCBI)
Entrez.email = "mailfalso@gmail.com"

# 1. Buscar virus en la familia Circoviridae con genoma completo
search_term = "Circoviridae[Organism] AND complete genome[Title]"
handle = Entrez.esearch(db="nucleotide", term=search_term, retmax=6)
record = Entrez.read(handle)
handle.close()

ids = record["IdList"]
print(f"Se encontraron {len(ids)} genomas completos de Circoviridae")

# 2. Descargar y guardar las secuencias en FASTA
with open("circoviridae_database.fasta", "w") as output_handle:
    for id in ids:
        try:
            # Descargar en formato FASTA
            fetch_handle = Entrez.efetch(db="nucleotide", id=id, rettype="fasta", retmode="text")
            seq = fetch_handle.read()
            fetch_handle.close()
            
            # Escribir en el archivo de salida
            output_handle.write(seq)
            print(f"Secuencia {id} añadida")
            
        except Exception as e:
            print(f"Error al descargar {id}: {str(e)}")
        
        # Pausa para no saturar NCBI
        time.sleep(1)

print("Base de datos FASTA creada: 'circoviridae_database.fasta'")

Se encontraron 6 genomas completos de Circoviridae
Secuencia 2967148417 añadida
Secuencia 2967148414 añadida
Secuencia 2967148411 añadida
Secuencia 2967148408 añadida
Secuencia 2967148405 añadida
Secuencia 2967148402 añadida
Base de datos FASTA creada: 'circoviridae_database.fasta'


In [5]:
from Bio import Entrez, SeqIO
import time

# Configurar email (requerido por NCBI)
Entrez.email = "dreckellnierdita@gmail.com"

# 1. Buscar virus en la familia Circoviridae con genoma completo
search_term = "Circoviridae[Organism] AND complete genome[Title]"
print("Buscando genomas completos de Circoviridae...")
handle = Entrez.esearch(db="nucleotide", term=search_term, retmax=5)  # Solo 5 para ejemplo
record = Entrez.read(handle)
handle.close()

ids = record["IdList"]
print(f"\nSe encontraron {len(ids)} genomas. Descargando...\n")

# 2. Descargar cada secuencia en archivos individuales
for i, virus_id in enumerate(ids, start=1):
    try:
        # Obtener metadatos para el nombre del archivo
        summary = Entrez.read(Entrez.esummary(db="nucleotide", id=virus_id))
        virus_name = summary[0]["Title"].split("(")[0].strip().replace(" ", "_")
        
        # Descargar la secuencia
        fetch_handle = Entrez.efetch(db="nucleotide", id=virus_id, rettype="fasta", retmode="text")
        seq_record = SeqIO.read(fetch_handle, "fasta")
        fetch_handle.close()
        
        # Crear nombre de archivo único
        filename = f"virus_{i}_{virus_name[:30]}.fasta"
        
        # Guardar en archivo individual
        with open(filename, "w") as output_file:
            SeqIO.write(seq_record, output_file, "fasta")
        
        print(f"✅ {i}. {virus_name} guardado como '{filename}'")
    
    except Exception as e:
        print(f"❌ Error con ID {virus_id}: {str(e)}")
    
    time.sleep(1)  # Pausa para cumplir normas de NCBI

print("\n¡Descarga completada! Archivos guardados individualmente.")

Buscando genomas completos de Circoviridae...

Se encontraron 5 genomas. Descargando...

✅ 1. Cat_associated_circovirus_1_strain_POR/2015/cat/47,_complete_genome guardado como 'virus_1_Cat_associated_circovirus_1_st.fasta'
✅ 2. Cat_associated_circovirus_1_strain_POR/2023/cat/22,_complete_genome guardado como 'virus_2_Cat_associated_circovirus_1_st.fasta'
✅ 3. Cat_associated_circovirus_1_strain_POR/2023/cat/5,_complete_genome guardado como 'virus_3_Cat_associated_circovirus_1_st.fasta'
✅ 4. Cat_associated_circovirus_1_strain_ROU/2021/cat/4,_complete_genome guardado como 'virus_4_Cat_associated_circovirus_1_st.fasta'
✅ 5. Cat_associated_circovirus_1_strain_GRC/2022/cat/2.32,_complete_genome guardado como 'virus_5_Cat_associated_circovirus_1_st.fasta'

¡Descarga completada! Archivos guardados individualmente.


In [None]:
print("------------------------------")
print("Comparar cadenas de adn")
print("------------------------------")

def leer_fasta(archivo):
    with open(archivo, 'r') as f:
        return [linea.strip() for linea in f]

virusoriginal = "Circovirus.fasta"
virus1 = "virus_1_Cat_associated_circovirus_1_st.fasta"

lineas1 = leer_fasta(virusoriginal)
lineas2 = leer_fasta(virus1)

if lineas1 == lineas2:
    print("Los archivos fasta son iguales en todas las líneas")
else:
    print("Son diferentes")

------------------------------
Comparar cadenas de adn
------------------------------
Son diferentes


In [None]:
lineas1[]

'TGTACACGTCATAGTGGGCCCGCCCGGTTGTGGGAAGAGCCAGTGGGCCCGTAATTTTGC'

In [13]:
lineas2[10]

'GATGTTTGTGTTGGCAAGTCTGTTTATTGGAAACCGCGCGGGCCTTGGTGGGACGGTTAT'

In [14]:
if lineas1 == lineas1:
    print("Los archivos fasta son iguales en todas las líneas")
else:
    print("Son diferentes")

Los archivos fasta son iguales en todas las líneas


In [1]:
from Bio import SeqIO
from Bio import pairwise2
from Bio.pairwise2 import format_alignment

# 1. Cargar la secuencia de referencia (Circovirus.fasta)
ref_seq = next(SeqIO.parse("Circovirus.fasta", "fasta"))
print(f"\n🔬 Referencia: {ref_seq.id} ({len(ref_seq)} nt)\n")

# 2. Cargar las secuencias descargadas (virus_*.fasta)
import glob
target_files = glob.glob("virus_*.fasta")

for i, file in enumerate(target_files, start=1):
    target_seq = next(SeqIO.parse(file, "fasta"))
    
    # 3. Alineamiento global (método XX: match=+1, mismatch=0)
    alignments = pairwise2.align.globalxx(ref_seq.seq, target_seq.seq)
    
    # 4. Calcular identidad (%)
    best_alignment = alignments[0]  # Tomar el mejor alineamiento
    score = best_alignment.score
    length = max(len(ref_seq), len(target_seq))
    identity = (score / length) * 100
    
    # 5. Resultados
    print(f"🦠 {i}. {target_seq.id}")
    print(f"   • Identidad con {ref_seq.id}: {identity:.2f}%")
    print(f"   • Longitud: {len(target_seq)} nt")
    print("   • Mejor alineamiento:")
    print(format_alignment(*best_alignment, full_sequences=True).split("\n")[0] + "...\n")




🔬 Referencia: NC_001792.1 (1759 nt)

🦠 1. PP795594.1
   • Identidad con NC_001792.1: 64.64%
   • Longitud: 1746 nt
   • Mejor alineamiento:
ACCAGCGCACTTCGG-CAGCGGCAGCACCTCGGCAGCGTCAGTGAAAATGCCAAGCAAGAAAA-GCGGCCCGCAACCCCAT-A-AGAGGTGGGTGTTC--ACCCT-T-AAT-AATCCTTCCGAGGAGG-AGAAAAACA-A--AATAC-GG---GA--GCT-TCCA-ATC-TCCCT-----TT-T-TGATTAT-T---TTG-TT-TGCGG-AGAG-GAAGGTTTGGAAGAGGGTAGAAC--T-CCTCAC-CT-C---CAGG-GGT-TTGCG--AATTTTGCTAAGAAGCA-GACTTTT-AAC-A--AGGT-GAAGTG---GTATT--TT----GG-T----GCCCGCTGCCACATCG-AGAAAG----CGAAAGGAACCGAC---C--A-GC---AGAATAA-AGAA-TACT-G-CAGTAAAGAAG-GCCACATACTTA-T-C--G-AG-TGTGGA-GCTCCGC--G-GAACCAGGGGAAGCGCAGC---GACCTGTCT-AC-TGC-TG---TG-AG-TACCCTTTT-GGAG-A-CGG-GGTCT---TTGGTGA--CT-G-TAGC-CGAGCAG--TTC--CCTGTAACGTATGTGA-GAAATTT--CCG-C--GGGC-TGGCTG-AA----CT-T-TTGAAA-GTGA--GC-GG---GAAGATGCAGCAGC--GT-GA--TTGGAAGACA-GCT-GTAC-ACGTCA-TAGT-GG--GC-CCGC-CC-GGTTG-TGGG-AAGAGCCAGTGGGCCCGTA-AT-TT--TGC-TGA---GCCTAG--GGACAC---CT----ACT-GGAA---GC-CTAGTAGAAATAAG--T-GGTGGGAT-GGATATCATGGA-GAAG--A-

In [2]:
from Bio import SeqIO
from Bio import pairwise2
from Bio.pairwise2 import format_alignment
import glob

# 1. Cargar la secuencia de referencia
ref_seq = next(SeqIO.parse("Circovirus.fasta", "fasta"))
print(f"\n🔍 Referencia: {ref_seq.id} ({len(ref_seq.seq)} nucleótidos)\n")

# 2. Listar todos los archivos de virus felinos
virus_files = sorted(glob.glob("virus_*_Cat_associated_circovirus_*_st.fasta"))

# 3. Comparar cada virus con la referencia
for i, virus_file in enumerate(virus_files, 1):
    try:
        # Cargar el virus actual
        virus_seq = next(SeqIO.parse(virus_file, "fasta"))
        
        # Extraer nombre descriptivo
        virus_name = f"Virus {i} ({virus_seq.id})"
        
        # Realizar alineamiento global
        alignments = pairwise2.align.globalxx(ref_seq.seq, virus_seq.seq)
        best_alignment = alignments[0]
        
        # Calcular porcentaje de identidad
        score = best_alignment.score
        length = max(len(ref_seq.seq), len(virus_seq.seq))
        identity = (score / length) * 100
        
        # Mostrar resultados
        print(f"🐱 {virus_name}")
        print(f"   • Archivo: {virus_file}")
        print(f"   • Identidad con referencia: {identity:.2f}%")
        print(f"   • Longitud: {len(virus_seq.seq)} nt")
        print("   • Fragmento alineado:")
        print("      " + format_alignment(*best_alignment).split("\n")[0][:50] + "...")
        print("-"*60)
        
    except Exception as e:
        print(f"⚠️ Error procesando {virus_file}: {str(e)}")
        print("-"*60)

print("\n✅ Comparación completada")


🔍 Referencia: NC_001792.1 (1759 nucleótidos)

🐱 Virus 1 (PP795594.1)
   • Archivo: virus_1_Cat_associated_circovirus_1_st.fasta
   • Identidad con referencia: 64.64%
   • Longitud: 1746 nt
   • Fragmento alineado:
      ACCAGCGCACTTCGG-CAGCGGCAGCACCTCGGCAGCGTCAGTGAAAATG...
------------------------------------------------------------
🐱 Virus 2 (PP795593.1)
   • Archivo: virus_2_Cat_associated_circovirus_1_st.fasta
   • Identidad con referencia: 64.41%
   • Longitud: 1746 nt
   • Fragmento alineado:
      ACCAGCGCACTTCGG-CAGCGGCAGCACCTCGGCAGCGTCAGTGAAAATG...
------------------------------------------------------------
🐱 Virus 3 (PP795592.1)
   • Archivo: virus_3_Cat_associated_circovirus_1_st.fasta
   • Identidad con referencia: 64.47%
   • Longitud: 1746 nt
   • Fragmento alineado:
      ACCAGCGCACTTCGG-CAGCGGCAGCACCTCGGCAGCGTCAGTGAAAATG...
------------------------------------------------------------
🐱 Virus 4 (PP795591.1)
   • Archivo: virus_4_Cat_associated_circovirus_1_st.fasta
   •

In [3]:
import glob
import os

# Lista de archivos FASTA (virus_1, virus_2, ..., Circovirus.fasta)
archivos_virus = glob.glob("virus_*_Cat_associated_circovirus_1_st.fasta")
archivos_virus.append("Circovirus.fasta")  # Añadir el archivo principal

# Archivo de salida combinado
archivo_combinado = "todos_los_circovirus.fasta"

# Combinar todos los archivos FASTA
with open(archivo_combinado, "w") as outfile:
    for fasta in archivos_virus:
        with open(fasta) as infile:
            outfile.write(infile.read())

print(f"Se combinaron {len(archivos_virus)} archivos en {archivo_combinado}")

Se combinaron 6 archivos en todos_los_circovirus.fasta


In [4]:
from subprocess import run

# Crear DB BLAST
run([
    "makeblastdb",
    "-in", archivo_combinado,  # Archivo combinado
    "-dbtype", "nucl",         # Tipo: nucl (ADN) o prot (proteínas)
    "-out", "db_circovirus",   # Nombre de la DB
    "-parse_seqids"            # Permite usar IDs de secuencia
])

print("¡Base de datos BLAST creada!")

¡Base de datos BLAST creada!


In [5]:
# Ejemplo: Buscar virus_1 contra la DB
run([
    "blastn",
    "-query", "virus_1_Cat_associated_circovirus_1_st.fasta",  # Secuencia a buscar
    "-db", "db_circovirus",      # Base de datos creada
    "-out", "resultados_blast.txt",  # Resultados
    "-outfmt", "6",              # Formato tabular (simple)
    "-evalue", "1e-10"          # Umbral de significancia
])

print("¡Búsqueda BLAST completada! Ver resultados_blast.txt")

¡Búsqueda BLAST completada! Ver resultados_blast.txt


In [6]:
import os

# Nombre de tu base de datos (sin extensión)
db_name = "db_circovirus"

# Verificar archivos generados
archivos_db = [f for f in os.listdir() if f.startswith(db_name)]
print("Archivos de la base de datos:")
for archivo in archivos_db:
    print(f"- {archivo} (Tamaño: {os.path.getsize(archivo)} bytes)")

Archivos de la base de datos:
- db_circovirus.ndb (Tamaño: 500000 bytes)
- db_circovirus.nhr (Tamaño: 719 bytes)
- db_circovirus.nin (Tamaño: 192 bytes)
- db_circovirus.nog (Tamaño: 56 bytes)
- db_circovirus.nos (Tamaño: 123 bytes)
- db_circovirus.not (Tamaño: 80 bytes)
- db_circovirus.nsq (Tamaño: 2626 bytes)
- db_circovirus.ntf (Tamaño: 500000 bytes)
- db_circovirus.nto (Tamaño: 28 bytes)


In [1]:
import subprocess
import os
import pandas as pd

#from taom import toda

def crear_blast_db(path_fna):
    db_name=path_fna
    if not os.path.exists(path_fna+".nin"):
        subprocess.run(["C:\\Program Files\\NCBI\\blast-2.16.6+\\bin\\makeblastdb", "-in", path_fna, "-dbtype", "nucl", "-out", path_fna])