# Módulo 6: Identificación de linajes y  variantes

¡Bienvenido al curso! Hay algunas instrucciones muy importantes que debe seguir si desea guardar una copia de este módulo en su cuenta de Google Drive:

1.) Haga clic en "Archivo" en la esquina superior izquierda y seleccione "Guardar una copia en Drive"


2.) Haga clic en el nombre del notebook en la esquina superior izquierda y reemplace por el nombre que desee.

**Sus cambios no se guardarán si no realiza este paso.**

Antes de iniciar este módulo le recomendamos ver los videos de esta playlist: https://www.youtube.com/watch?v=9Hwx_TLQyOw

___

## Configuración

## Instalar Conda
Conda es una herramienta de gestión de software versátil. Conda es un sistema de código abierto para gestionar herramientas y bibliotecas. Más información sobre la biblioteca utilizada para instalar Conda en Google Colab está en este [website](https://inside-machinelearning.com/en/how-to-install-use-conda-on-google-colab/)

> Nota: el entorno de ejecución se actualizará y volverá a conectar después de ejecutar esto. Puede que aparezca un mensaje de "entorno de ejecución fallido", esto es normal, espere a que la sesión se vuelva a conectar después de esto.


Puede revisar este repositorio para ver cómo funciona esta herramienta:
https://github.com/conda-incubator/condacolab 

In [None]:
!pip install -q condacolab
import condacolab
condacolab.install()

## Pruebe la instalación de conda

Después de instalar con éxito condacolab, debe asegurarse de que puede llamar a Conda desde su shell e instalar software y también ejecutarlos.
El comando `--help` es una manera fácil de probar que está instalado correctamente ya que mostrará las opciones de ayuda utilizadas para ejecutar la herramienta.

In [None]:
#Puede verificar la instalación de conda iniciando el comando help
!conda --help

## Verifique los paquetes de conda preinstalados
Conda viene con algunos paquetes y software que se instalan junto con el software. Para generar una lista de estos paquetes, simplemente ejecute el código a continuación:

In [None]:
!conda list

## Descargue y navegue hasta el directorio que contiene los genomas
Hay algunos conjuntos de genomas de SARS-CoV-2 de prueba obtenidos de GISAID, guardados en el archivo `ensamblados_gisaid.zip`. Descargue y descomprima el archivo, que creará una carpeta llamada `assemblies_gisaid`. Luego use el comando `cd` para cambiar a ese directorio:

In [None]:
!wget https://zenodo.org/records/10888461/files/module_3.tar

In [None]:
!tar -xvf module_3_P1.tar

In [None]:
%cd module_3_P1/
!pwd

Los datos que se analizarán en este módulo provienen del artículo "[Overview of the SARS-CoV-2 genotypes circulating in Latin America during 2021]( https://doi.org/10.3389/fpubh.2023.1095202 )" publicado por Molina-Mora et al. 2023, como parte de un proyecto de CABANA.
A continuación encontrará el Accession ID de la plataforma GISAID y el país del cual proviene la muestra:

#### Lista de los genomas 

| Country     | Accession ID   |
|-------------|----------------|
| Argentina   | EPI_ISL_14434222 |
| Argentina   | EPI_ISL_14434402 |
| Argentina   | EPI_ISL_14434358 |
| Bolivia     | EPI_ISL_8800564  |
| Bolivia     | EPI_ISL_8800607  |
| Bolivia     | EPI_ISL_8800591  |
| Costa Rica  | EPI_ISL_7711628  |
| Costa Rica  | EPI_ISL_7711763  |
| Costa Rica  | EPI_ISL_7711812  |
| Colombia    | EPI_ISL_10072006 |
| Colombia    | EPI_ISL_10072040 |
| Colombia    | EPI_ISL_10080397 |
| Mexico      | EPI_ISL_7812926  |
| Mexico      | EPI_ISL_7812869  |
| Mexico      | EPI_ISL_7813015  |
| Peru        | EPI_ISL_7961355  |
| Peru        | EPI_ISL_7961418  |
| Peru        | EPI_ISL_7961482  |
| Brazil      | EPI_ISL_3369834  |
| Brazil      | EPI_ISL_3369992  |
| Brazil      | EPI_ISL_3373439  |

# Pangolin

PANGOLIN es un acrónimo de la asignación filogenética de linajes de brotes globales asignados (Phylogenetic Assignment of Named Global Outbreak Lineages). Es un software que asigna su genoma SARS-CoV-2 al linaje SARS-CoV-2 más cercano en el contexto global basado en las mutaciones en la secuencia de consulta. Se puede acceder a Pangolin en su aplicación web que le permite cargar sus archivos FASTA aquí: https://pangolin.cog-uk.io/. 

### Instalación de Pangolín para la detección de variantes
Pangolin se puede instalar dentro de conda ejecutando el código a continuación:

In [None]:
!conda install -c bioconda -c conda-forge -c defaults pangolin

Para verificar que Pangolin instalado correctamente, ejecute el siguiente comando:

In [None]:
!pangolin -h

### Ejecutar Pangolin en el archivo multifasta

Ahora ha instalado con éxito Pangolin y ha mostrado las opciones de ayuda que le muestran los comandos y opciones que puede ajustar para ejecutar su análisis con el software.

Ahora intentaremos identificar las variantes de los genomas en el archivo FASTA concatenado usando Pangolin con la configuración predeterminada y dirigir nuestra salida a la carpeta `results`. De manera predeterminada, el archivo de salida se llamará `lineage_report.csv`.

In [None]:
!pangolin --outdir results gisaid_hcov-19_2024_03_27_02.fasta

**Nota**: Descargue el archivo `linaje_report.csv` en su computadora y ábralo en un programa de hojas de cálculo como Hojas de cálculo de Google o Excel 

# Nextclade

NextClade es otro software fantástico que puede identificar variantes en sus genomas como Pangolin. Sin embargo, tiene características adicionales en su informe, como el número de mutaciones en todo el genoma y donde se encuentran.S e puede acceder a NextClade en la aplicación web: https://clades.nextstrain.org/.

### Instalar Nextclade

Instale NextClade con conda usando el siguiente comando y luego pruebe la instalación mostrando la página de ayuda.

In [None]:
!conda install -c bioconda nextclade

In [None]:
# Para verificar si NextClade fue instalado correctamente
!nextclade --help

### Ejecutando NextClade

Antes de ejecutar NextClade en los genomas ensamblados, primero descargue el último conjunto de datos NextClade disponible para SARS-CoV-2.

In [None]:
# Descargue la carpeta de datos de SARS-Cov-2 de NextClade
!nextclade dataset get --name sars-cov-2 --output-dir sars-cov-2-dataset

Luego identifique los clados de los genomas en el archivo multi-FASTA.

In [None]:
# Ejecute NextClade en su FASTA concatenados para generar un archivo de salida TSV
!nextclade run --output-tsv nextclade_report.tsv --input-dataset sars-cov-2-dataset gisaid_hcov-19_2024_03_27_02.fasta

**Nota**: Descargue el archivo "nextClade_report.tsv" en su computadora y ábralo en un programa de hojas de cálculo como Hojas de cálculo de Google o Excel

## Tarea

1. De sus resultados de NextClade, ¿Cuál es el clado más persistente en las muestras?

2. También de sus resultados de NextClade, ¿cuántas sustituciones de aminoácidos tiene el genoma EPI_ISL_7711812?

3. ¿Cuál es el genoma con mayor cantidad de "missings o faltantes?


*Adaptado de:*

- SARS-CoV-2 Bioinformatics for Beginners Course - Wellcome Connecting Science
- Viral Genomics and Bioinformatics Asia 2022 - Wellcome Connecting Science


*Modificado por Luisa Sacristán (Universidad de los Andes-CABANA)*