<a href="https://colab.research.google.com/github/JohanImbolBioDev/Descargar-secuencias-FASTA/blob/main/Busqueda_de_secuencias.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# Descargar secuencias con python

Este código permite descargar de manera automatizada secuencias en formato fasta de un gen específico. Lo que realiza el código es descargar el primer resultado en GenBank de buscar: organismo AND gen.

Para realizar la búsqueda, debe ejecutar todas las celdas hasta ejemplo, donde podrá editar el código para añadir las especies y genes que quiera descargar.

Cualquier inquietud o sugerencia, escribir a johan.imbol@correounivalle.edu.co

¡¡Saludos y buena suerte!!



> Nota: Cambia tu dirección de correo por la de ejemplo.



In [1]:
!pip install biopython

Collecting biopython
  Downloading biopython-1.86-cp312-cp312-manylinux2014_x86_64.manylinux_2_17_x86_64.manylinux_2_28_x86_64.whl.metadata (13 kB)
Downloading biopython-1.86-cp312-cp312-manylinux2014_x86_64.manylinux_2_17_x86_64.manylinux_2_28_x86_64.whl (3.2 MB)
[2K   [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m3.2/3.2 MB[0m [31m36.4 MB/s[0m eta [36m0:00:00[0m
[?25hInstalling collected packages: biopython
Successfully installed biopython-1.86


In [7]:
Entrez.email = 'johan.imbol@correounivalle.edu.co'

In [12]:
from Bio import Entrez
from Bio import SeqIO

def BuscarIds(organismo, gen, nbusquedas=1):
  handle = Entrez.esearch(db="nucleotide", retmax=nbusquedas, term=f"{organismo}[Organism] AND {gen}[all fields]", idtype="acc")
  busqueda = Entrez.read(handle)
  if busqueda['Count'] == '0':
    print(f"No se encontraron secuencias para {organismo} {gen}")
  handle.close()
  return busqueda

def descargarSecuenciasIDS(busqueda, carpeta=''):
  handle = Entrez.efetch(db="nucleotide", id=busqueda['IdList'], rettype="fasta", retmode="text")
  records = SeqIO.parse(handle, "fasta")

  for registro in records:
    with open(f"./{carpeta + '/'}{registro.id}.fasta", "w") as f:
      f.write(registro.format("fasta"))
  handle.close()

#Ejemplo 1

En el siguiente ejemplo descargo la secuencia de dos genes de tres especies de escarabajos estiercoleros y los guarda cada uno en una carpeta.

Para editar solo debes modificar o anadir especies o genes.

In [13]:
import os

Especies = ['Deltochilum', 'uroxys', 'Onthophagus']
genes = ['COI', '18s']

for gene in genes:
  if not os.path.exists(gene):
    os.mkdir(gene)
  for especie in Especies:
    busqueda = BuscarIds(especie, gene)
    descargarSecuenciasIDS(busqueda, gene)


Si quiero descargar las carpetas en mi pc ejecuto la siguiente celda.

In [4]:
from google.colab import files

for dir in genes:
  !zip -r {dir}.zip {dir}
  files.download(f'{dir}.zip')

  adding: COI/ (stored 0%)
  adding: COI/AY131886.1.fasta (deflated 57%)
  adding: COI/MW200844.1.fasta (deflated 53%)
  adding: COI/MW337296.1.fasta (deflated 50%)


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

  adding: 18s/ (stored 0%)
  adding: 18s/KX512461.1.fasta (deflated 54%)
  adding: 18s/KX512514.1.fasta (deflated 54%)
  adding: 18s/KX512470.1.fasta (deflated 54%)


<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

# Ejemplo para descargar desde un archivo csv



También puedes descargar las secuencias usando una lista de Excel o un CSV. Para esto, tu archivo debe tener una columna llamada ScientificName que contenga los nombres de las especies en cada fila.

In [9]:
import pandas as pd

#Subir el csv y reemplazar la ubicacion
df = pd.read_csv('https://raw.githubusercontent.com/JohanImbolBioDev/Descargar-secuencias-FASTA/main/Especies.csv')

genes = ['COI', '18s']
df.head()

Unnamed: 0,ScientificName
0,Deltochilum
1,Cryptocanthon
2,Canthon
3,Ateuchus


In [14]:
for gene in genes:
  if not os.path.exists(gene):
    os.mkdir(gene)
  for especie in df.ScientificName:
    busqueda = BuscarIds(especie, gene)
    descargarSecuenciasIDS(busqueda, gene)

No se encontraron secuencias para Cryptocanthon COI



Nowadays, the FASTA file format is usually understood not to have any such comments, and most software packages do not allow them. Therefore, the use of comments at the beginning of a FASTA file is now deprecated in Biopython.


(1) Modify your FASTA file to remove such comments at the beginning of the file.

(2) Use SeqIO.parse with the 'fasta-pearson' format instead of 'fasta'. This format is consistent with the FASTA format defined by William Pearson's FASTA aligner software. This format allows for comments before the first sequence; lines starting with the ';' character anywhere in the file are also regarded as comment lines and are ignored.

(3) Use the 'fasta-blast' format. This format regards any lines starting with '!', '#', or ';' as comment lines. The 'fasta-blast' format may be safer than the 'fasta-pearson' format, as it explicitly indicates which lines are comments. 
