# Bioproject y bases de datos relacionadas

Hay un conjunto de bases de datos que almacenan información sobre proyectos de secuenciación masiva de ácidos nucleicos. Que incluyen entre otros:

- Genómica
- Transcriptómica
- GWAS
- Análisis de variantes
- Metagenómica

Cada una de estas bases de datos se concentran en un aspecto diferente de los datos.

- **BioProject**:
  - Descripción
  - Enfoque
  - Objetivo

- **BioSample**:
  - Datos de las muestras biológicas que se utilizan en el proyecto.
  - Organismo
  - Tratamiento experimental
  - Réplica

- **SRA (Sequence Read Archive)**:
  - Plataforma de secuenciación
  - Datos de secuencias


![SRA](https://github.com/javieriserte/bases-de-datos-unq-unnoba/raw/main/images/sra.svg)

## GEO Datasets (GSE)

- Contienen experimentos completos de expresión génica, como microarrays o RNA-seq.
- Cada dataset se identifica con un ID tipo GSEXXXX.
- Incluye varias muestras (cada una con un GSM), información de diseño experimental, y a menudo está enlazado con un BioProject.

## GEO Profiles

- Son perfiles individuales de expresión de un gen extraídos de los GEO Datasets.
- Cada perfil (GDSXXXX) representa cómo se expresa un gen a lo largo de las muestras de un dataset.
- Es decir, 1 GSE (dataset) ➝ muchos GEO Profiles (uno por gen)

## Métodos de descargas

Los datos de secuenciación masiva ocupan una gran cantidad de espacio de almacenamiento.
Por ello, hay metodologías especiales para descargarlos.

### RUN selector

El **RUN selector** del NCBI es una herramienta que permite explorar y
seleccionar datos de secuenciación asociados a un proyecto o estudio específico.
Proporciona una interfaz interactiva donde se pueden filtrar y visualizar los
datos disponibles, como las plataformas de secuenciación utilizadas, el número
de lecturas generadas, y el tamaño total de los datos.

Funciona de la siguiente manera:

1. **Búsqueda**: Se ingresa un identificador de proyecto (por ejemplo, un
   BioProject o BioSample) o palabras clave relacionadas.
2. **Visualización**: Muestra una tabla con los datos de secuenciación
   disponibles, incluyendo información como el ID del RUN (SRRXXXXXXX), la
   plataforma de secuenciación, y el tamaño de los datos.
3. **Selección**: Permite seleccionar los RUNs de interés para su descarga o
   análisis.
4. **Exportación**: Se pueden exportar los IDs seleccionados para utilizarlos
   con herramientas como el SRA Toolkit.

[Bioproject](https://www.ncbi.nlm.nih.gov/bioproject/)

### SRA Toolkit

El **SRA Toolkit** es un conjunto de herramientas:
- Descargar, procesar y convertir datos almacenados en el Sequence Read Archive (SRA).
- Estas herramientas permiten trabajar con grandes volúmenes de datos de secuenciación de manera eficiente.

#### Funcionalidades principales:
- **Descarga de datos**: Permite descargar archivos SRA directamente desde el repositorio.
- **Conversión de formatos**: Convierte archivos SRA a formatos más comunes como FASTQ para su análisis.
- **Gestión de datos**: Facilita la extracción y manipulación de datos específicos dentro de un archivo SRA.

#### Herramientas incluidas:
- `prefetch`: Descarga archivos SRA desde el repositorio.
- `fasterq-dump`: Convierte archivos SRA en archivos FASTQ de manera rápida y eficiente.
- `sam-dump`: Extrae datos en formato SAM para análisis de alineación.

Más información y descarga: [SRA Toolkit](https://github.com/ncbi/sra-tools/wiki/01.-Downloading-SRA-Toolkit)


### Comandos más relevantes:

  ```bash
  # Descargar el archivo SRA.
  > prefetch SRR0000001 -O /path/to/folder/
  # Convierte el archivo SRA en archivos fastq.
  > fasterq-dump /path/to/folder/SRR0000001.sra
  ```