# Modulo 03 Tipificación - Nextclade
###Nota 1: Los comandos de bash empiezan con  "!"
###Nota 2: El las casillad de código los comentarios empiezan con "#"
###Nota 3: Durante la instalación de conda y los ambientes conda es posible que se reinicie la conexión al servidor. Esto es normal y puede continuar trabajando.

En este Notebook se realizarán los pasos para realizar la tipificación de SARS-CoV-2 utilizando las herramientas de Nextclade.

## ✔ Resultados esperados
*   Instalar Nextclade
*   Descargar el set de datos para SARS-CoV-2
*   Ejecutar la caracterización en Nextclade
*   Explorar el informe utilizando Pandas
*   Obtener el archivo para visualizar los resultados en Auspice
*   Analizar los resultados







## [0] Instalación de Conda/Mamba
#### Conda/Mamba es una herramienta que permite manejar paquetes y ambientes.
#### Los ambientes son espacios aislados donde podrá instalar y ejecutar herramientas específicas para un projecto
#### Los programas que vamos a usar se encuentran disponibles como ambientes de Conda

In [None]:
#verificar la versión de Python
#para la mayoría de programas, usar la opción --version nos devolverá la versión del programa
!python --version

In [None]:
#Usando instalador de bibliotecas de Python (pip) para instalar conda/mamba.

  #whoami es un comando de bash que nos dice qué usuario está activo
!whoami
  #pip es el instalador de bibliotecas de python
!pip install -q condacolab

#Código en Python
  #importando la libreria de herramientas de condacolab
import condacolab
  #instalar conda
condacolab.install()

#Verificación versión conda
!conda --version

## [1] Descarga de datos
### Descargue los archivos de secuencia en formato fasta desde el repositorio usando el comando wget

In [None]:
#Los datos de sequenciación en formato fasta se encuentran depositados en el repositorio:
  #wget ws un programa que recupera archivos desde servidores web
!wget https://github.com/diseasesdetectives/Curso_Bioinformatica_para_profesionales_de_la_salud_publica/raw/master/data_curso/Modulo_3/secuenciasSARS.fas

  #ls es el comando que nos devuelve la lista de archivos del directorio actual
!ls

## [2] Instalación de Nextclade y configuración
#### Vamos a usar Nextclade para caracterizar las secuencias de SARS-CoV-2
####Nextclade está disponible como ambiente de conda

Instalando paquete de conda para caracterizar genomas usando Nextclade

In [None]:
#Crear ambiente de conda con las herramientas de
  #intalación de Nextclade como ambiente de conda

  #comando de conda para ver los ambientes disponibles
!conda env list
  #instalación del programa Nextclade dentro del ambiente "base"
  # la opción -c se usa para indicar el repositorio de paquetes y programas. Nextclade está en el repositorio bioconda
!conda install -c bioconda nextclade --quiet

#Reiniciando el shell con las herramientas instaladas
print("Reiniciando el kernel...")
get_ipython().kernel.do_shutdown(True)


#### Para verificar la descarga podemos usar el comando con la opción --version y ver que esté funcionando y la versión que instalamos

In [None]:
#Ver versión del programa Nextclade
print("La versión de Nextade es: ")
!nextclade --version

#### Antes de continuar veamos la forma en que se escriben los comandos del programa Nextclade llamando la opción de ayuda -h
#### De esta manera podemos conocer qué opciones de ejecución tiene, qué archivos se necesitan, cuáles son los parámetros necesarios, y qué opciones hay disponibles

In [None]:
#llama la ayuda de nextclade para ver las opciones de ejecución
!nextclade -h

#### La ayuda nos ha mostrado hay varios comando disponibles dentro del programa, entre esos los comandos para correr el análisis (nextclade run), y los comandos para ver y descargar sets de datos (nextclade dataset)
#### Para cada uno de estos comandos también podemos invocar la opción -h para ver la ayuda y conocer su sintaxis y opciones

## [3] Descarga de sets de datos para configurar y realizar análisis

###Nextclade tiene sets de datos para analizar distintos virus, entre ellos SARS-CoV-2, RSV, y algunos tipos de Influenza. Vamos a usarlo para tipificar SARS-CoV-2.

### Primero revisemos la lista de virus que podemos analizar con Nextclade
### Para eso usamos el comando: nextclade dataset list

In [None]:
#Ver la ayuda del comando nextclade datasets para conocer sus opciones de ejecución
!nextclade dataset -h

#### Viendo la ayuda del comando 'nextclade dataset' vemos que tiene dentro los comandos 'list' para ver la lista de sets de datos, y el comando 'get' para descargarlos.
#### para estos comandos también podemos invocar ayuda usando la opción -h

In [None]:
#ver la ayuda del comando 'nextclade dataset list'
!nextclade dataset list -h

#### El comando 'nextclade dataset list' se puede usar solo, pero también tiene opciones para limitar la búsqueda. Por ahora queremos una lista de todos los sets de datos disponibles

In [None]:
#Listar los datasets disponibles en nextclade
#dataset list genera la lista de datasets disponibles
  #usar los comandos de nextclade para ver la lista de sets de datos disponibles para realizar análisis
  #con la señal ">" vamos a guardar esta lista en un documento de extensión .csv que podemos revisar después
!nextclade dataset list > nextclade_dataset_list.csv

print("Se ha guardado la lista de datasets en: nextclade_dataset_list.csv")
#Ver contenido del directorio actual
print("")
print("Contenido directorio actual: ")
!ls

#### Con la herramienta cat podemos ver el contenido del archivo que creamos

#### Explore esta lista para ver los sets de datos disponibles y los organismos que puede analizar con nextclade

#### Podemos encontrar los nombres de los sets de datos en la columna 'name', su versión corta marcada como "shortcuts", o en la columna "attributes". Esta información se necesita para descargarlos

In [None]:
 # el comando cat nos muestra el contenido del archivo donde guardamos la lista de sets de datos
!cat nextclade_dataset_list.csv

### El dataset que queremos es el primero de la lista, el nombre en la columna de atributos es "sars-cov-2"
#### ❓Hay más sets de datos para este virus. ¿Escriba debajo para qué cree que nos pueden servir estos sets de datos alternos?


###Descarguemos el set de datos 'sars-cov-2' usando el comando 'nextclade dataset get'. Primero podemos ver la forma de ejecutar el comando con la opción de ayuda -h

In [None]:
#ver ayuda del comando 'nextclade dataset get'
!nextclade dataset get -h

#### El comando 'nextclade dataset get' requiere el nombre del set de datos (--name) y el nombre de la salida, ya sea en un directorio (--output-dir) o una carpeta comprimida (--output-zip)
#### Procedamos a descargar el set de datos para SARS-CoV-2

In [None]:
  #dataset get descarga los archivos del dataset de nombre --name en el directorio --out
!nextclade dataset get --name sars-cov-2 --output-dir sars-cov-2
print("Se ha descargado el set de datos")
  #ls . nos muestra la lista de archivos y directorios dentro de nuestra ubicación actual (.)
  #debe poder ver el directorio que descargamos con el set de datos
print("")
print("Contenido directorio actual: ")
!ls .


El dataset de nextclade contiene información del genoma de referencia y los genes codificantes del virus con el fin de realizar una anotación completa, tipificación y caracterización de mutaciones de nt y aa

Use los comandos aprendidos para ver el contenido de estas carpetas

In [None]:
#complete este comando para ver la lista de archivos dentro del directorio sars-cov-2
print("contenido directorio 'sars-cov-2'")
!ls

## [4] Ejecutemos Nextclade
#### Como habiamos visto, el comando para realizar análisis con el programa Nextclade se llama 'nextclade run'
#### Primero podemos revisar la sintaxis y opciones de ejecución con la opción de ayuda -h

In [None]:
#ver la ayuda del comando 'nextclade run'
!nextclade run -h

#### 'nextclade run' requiere que especifiquemos opciones del set de datos de análisis (--input-dataset), y que proveemos un archivo con las secuencias en formato fasta (siempre como último parámetro). También podemos especificar qué archivos de salida queremos (--output-all) y en con qué nombre guardarlos (--output-basename)

In [None]:
#Ejecutar Nextclade con el set de datos de SARS-CoV-2 para tipificar y caracterizar nuestras secuencias
#El símbolo \ indica al servidor que el comando continua en la siguiente línea
#Nuestro archivo se llama secuenciasSARS.fasta
#el directorio de salida se llamará nextclade_out
!nextclade run\
--output-all=nextclade_out \
--input-dataset=./sars-cov-2 \
--output-basename=nextclade_sars \
secuenciasSARS.fas

print("Se ha ejecutado Nextclade para SARS-CoV-2")
print("Estos son los archivos de salida dentro del directorio nextclade_out: ")
print("")
#listar el contenido del directorio de
!ls nextclade_out

#### Obtenemos:

*   Un alineamiento de las secuencias frente a la referencia (.aligned.fasta)
*   Traducciones de los genes en formato fasta
*   Tablas con información de las características genómicas de las secuencias (.csv; .tsv; & .json)
*   Un árbol en formato newick con la ubicación de las muestras (.nwk)
*   Un archivo auspice.json con la visualización de la filogenia anotada con las características y mutaciones (.auspice.json)



## [5] Explorar los resultados usando Pandas
#### Excelente trabajo. Hasta este punto logramos obtener los archivos con la caracterización de nuestras secuencias del virus. Podemos descargar los archivos y explorarlos visualmente. Los siguientes pasos noss llevan más allá, y manipularemos los archivos desde la lína de comandos.


#### Para explorar las tablas obtenidas vamos a usar el programa Pandas. Pandas es una librería de Python especializada en el manejo de estructuras de datos.
####Con pandas podemos convertir los archivos en dataframes, y explorar las tablas programáticamente

####Pandas es una librería de python ya instalada pero primero la debemos cargar

In [None]:
#carga la librería de pandas con el nombre pd (solamente para tener que escribir menos letras)
import pandas as pd

#Cargar la tabla en formato csv como un dataframe de pandas llamdo df
df = pd.read_csv('/content/nextclade_out/nextclade_sars.csv', sep=";")

#Ver el dataframe en pantalla
df

####Ver encabezados de las columnas
#### La tabla de resultados tiene más de 70 columnas!

Podemos hacer una lista de los encabezados de las columnas para ver qué tipo de información contiene usando el comando list()

In [None]:
# lista los encabezados de las columnas
list(df.columns)

#### Podemos hacer una tabla con solo las columnas que queremos ver, por ejemplo solo el nombre de la muestra (Columna 'seqName') y el porcentaje de cobertura
#### El notebook de colab nos da sugerencias de figuras que podemos gráficar con esta información 📊. Haga clic en la opción de distribución para agregar una celda de código para generar esta gráfica.

In [None]:
# hacer un dataframe solo con las columnas seqName y coverage
cobertura_df=df[['seqName','coverage']]

#ver el dataframe creado en pantalla
cobertura_df

#### También podemos exportar las tablas que creamos en dataframes como tablas en archivos de formato csv.

In [None]:
#con las herramientas .to_csv() podemos guardar el dataframe e indicar el separador de columnas y el decimal.
cobertura_df.to_csv('coberturas.csv', sep=';', decimal=',', index=False)
print("Se ha guardado el dataframe con el nombre cobertura.csv")

#ver contenido del directorio actual
print("")
print("Contenido del directorio actual: ")
!ls

## [6] Ejercicio 1 - Pandas📚

#### Usando los ejemplos anteriores, construya un dataframe con las columnas que tienen: nombre de la muestra (seqName), linaje y clado, deleciones, inserciones, y mutaciones en aminoácidos

####Para esto debe completar el código debajo

In [None]:
# hacer un dataframe solo con las columnas linaje y clado, deleciones, inserciones, y mutaciones en aminoácidos
linajes_df=

#ver el dataframe creado en pantalla
linajes_df

#### Ahora que tenemos dos dataframes, podemos utilizar la herramienta de pandas .merge() para juntarlos.
#### Para esto se requiere que los dos dataframes tengan una columna en común para poder cruzar los datos

In [None]:
#junta los dos dataframes basado en la columna 'seqName'
juntos_df=pd.merge(cobertura_df, linajes_df, on="seqName")

#### ❓En el cuadro debajo escriba una línea de código para guardar el nuevo dataframe (juntos_df) como un archivo csv.

In [None]:
##Complete este cuadro con una línea de código para guardar el dataframe como un archivo .csv


## [7] Explorar la visualización de Auspice
#### Entre los archivos de resultado de nextclade encontramos una filogenia anotada con las mutaciones. Para visualizar el archivo de filogenia anotada primero debemos descargar el archivo

####En la parte izquierda de esta pantalla hay un ícono de de carpeta.
####Descargue el archivo que termina en **.auspice.json**

#### Ingrese a [auspice.us](https://auspice.us) donde podrá cargar el archivo con la visualización

####Ahora podemos explorar las mutaciones en un contexto evolutivo


#### [8] Cargar información adicional a la visualización de Auspice

#### En nuestra visualización de [auspice.us](https://auspice.us) podemos agregar información de nuestras muestras, incluyendo columnas para categorías como procedencia, desenlace clínico, intensidad de la enfermedad, e incluso las coordenadas geográficas

#### Para esto solo debemos construir un archivo de excel con la columna 'strain' indicando los nombres de nuestras muestras tal como aparecen en el archivo .auspice.json, y las columnas con nuestros datos (para coordenadas las columnas son 'latitude' y 'longitude')
#### Primero descarguemos y exploremos el archivo de metadatos

In [None]:
#Descarga el archivo de metadatosSARS.xlsx desde el repositorio con el comando curl
!wget https://github.com/diseasesdetectives/Curso_Bioinformatica_para_profesionales_de_la_salud_publica/raw/master/data_curso/Modulo_3/metadatosSARS.xlsx


#### Ahora veamos el contenido del archivo de metadatos
#### En la primera columna está el nombre de las secuencias, que debe coincidir con los encabezados del fasta

In [None]:
#carga la librería de pandas con el nombre pd (solamente para tener que escribir menos letras)
import pandas as pd

#carga el archivo de excel como un dataframe de pandas
df_datos = pd.read_excel('/content/metadatosSARS.xlsx',sheet_name='Hoja1')
df_datos

#### Descargue el archivo [metadatosSARS.xlsx](https://github.com/diseasesdetectives/Curso_Bioinformatica_para_profesionales_de_la_salud_publica/raw/master/data_curso/Modulo_3/metadatosSARS.xlsx) a su computador desde colab o desde el repositorio y arrastrelo a la pantalla de Auspice con la filogenia previamente cargada

## [9] Ejercicio Auspice
#### ❓¿Existen mutaciones de aminoácidos es Spike comunes entre las muestras estudiadas?
#### Explore las mutaciones de interés en Spike S:L455F, S:L455S, y S:F456L. Describa sus observaciones
#### ¿De qué linajes o que características tienen las secuencias que corresponden a pacientes fallecidos?