# Módulo 7: Anotación de genomas

## Descripción general

La anotación del genoma es el proceso de identificar y etiquetar todas las características relevantes en una secuencia del genoma. Como mínimo, esto debería incluir las coordenadas de las regiones codificantes predichas y sus productos putativos, pero es deseable ir más allá de esto a los ARN no codificantes, péptidos señal, etc.

*Lectura adicional*: https://academic.oup.com/bioinformatics/article/30/14/2068/2390517

### Instalar condacolab

In [None]:
!pip install -q condacolab
import condacolab
condacolab.install()

### Instalar programas

In [None]:
# Instalar Prokka
!conda install -c conda-forge -c bioconda -c defaults prokka

In [None]:
# Compruebe si se Prokka se instaló correctamente
!prokka --version

[IGV (Integrative Genomics Viewer)](https://igv.org/doc/desktop/#), es un software desarrollada para la exploración visual de datos genómicos. Este programa tiene una versión de escritorio y otra virtual. En este tutorial utilizaremos la versión de escritorio, disponible para cualquier sistema operativo, y puede ser descargada [aquí](https://igv.org/doc/desktop/#DownloadPage/). 

Para más información del software, [aquí](https://igv.org/doc/desktop/#TutorialVideos/) podrá encontrar videos tutoriales que le serán de ayuda. 

### Descargar datos

In [None]:
!wget https://zenodo.org/records/13750987/files/Module_7.tar.gz

### Extraer el archivo .tar.gz

In [None]:
!tar xvf Module_7.tar.gz

## Anotación

Usaremos una herramienta de software llamada [Prokka](https://github.com/tseemann/prokka) para anotar el borrador de la secuencia del genoma producido después de ejecutar SPAdes. Prokka es un "wrapper"; reúne varias piezas de software (de varios autores), y así evita "reinventar la rueda".

[Prokka](https://github.com/tseemann/prokka) encuentra y anota características (tanto regiones codificantes de proteínas como genes de ARN, es decir, ARNt, ARNr) presentes en una secuencia. Tenga en cuenta que Prokka utiliza un proceso de dos pasos para la anotación de regiones codificantes de proteínas: primero, las regiones codificantes de proteínas en el genoma se identifican utilizando Prodigal; en segundo lugar, la función de la proteína codificada se predice por la similitud con las proteínas en una de las muchas bases de datos de proteínas o dominios de proteínas. Prokka es una herramienta de software que se puede utilizar para anotar genomas bacterianos, de arqueas y virales rápidamente, generando archivos de salida estándar en formatos GenBank, EMBL y gff.

Ejecute el comando en la terminal para ejecutar Prokka:

In [None]:
%cd Module_7/spades_assembly/

In [None]:
# Correr Prokka
!prokka contigs.fasta

Una explicación de este comando es la siguiente:

`prokka`: es la herramienta

`contigs.fa`: archivo de entrada (este archivo es la salida de SPAdes)

Una vez que Prokka haya terminado, aparecerá una nueva carpeta que contiene la salida de Prokka en su directorio de trabajo. Examine cada uno de sus archivos de salida.

- Los archivos GFF y GBK contienen toda la información sobre las características anotadas (en diferentes formatos).
- El archivo .txt contiene un resumen de la cantidad de entidades anotadas.
- El archivo .faa contiene las secuencias de proteínas de los genes anotados.
- El archivo .ffn contiene las secuencias de nucleótidos de los genes anotados.


## Ver la anotación del genoma en IGV

Necesitará los siguientes archivos para ver la anotación del genoma en IGV:

1. Genoma de referencia que será la salida fna de Prokka. Esta secuencia será la referencia contra la cual se mostrarán las anotaciones.
2. Archivo gff que es una salida de Prokka

Para descargar los archivos necesarios en su ordenador, dirijase a la parte izquierda de Colab, ubique el archivo, click derecho y click a "Descargar". 

Aquí encuentra un ejemplo:

![igv](images/igv.png)

Inicie IGV Desktop.

Cargue la secuencia de referencia: en la barra de herramientas, haga clic en Genoma > Cargar genoma desde archivo > Buscar y seleccione PROKKA_08082024.fna (como ejemplo)

Cargue el archivo gff: Vaya a Archivo > Cargar desde archivo > PROKKA_08082024.gff (como ejemplo)

*Adaptado de:*

- Advanced Bioinformatics Course developed for the GPS and JUNO projects - Wellcome Sanger Insitute
    
*Modificado por Luisa Sacristán (Universidad de los Andes-CABANA)*