# 📚 Tarea Modulo 03 Tipificación - **Ejercicio Nextclade**

**En este notebook deberá completar el código basandose en la clase de SARS-Cov-2. Los pasos de instalación se encuentran completos. Completar desde el paso [3]**

###Nota: Los comandos de bash empiezan con  "!"
###Nota: El las casillad de código los comentarios empiezan con "#"

En este Notebook se realizarán los pasos para realizar la tipificación de Virus Sincitial Respiratorio utilizando las herramientas de Nextclade

##Resultados esperados
*   Completar el código para caracterizar RSV-B en Nextclade
*   Descargar el set de datos para RSV-B
*   Ejecutar la caracterización de las secuencias de RSV-B
*   Obtener el informe en Pandas y juntarlo con información de las muestras
*   Descargar el archivo .auspice.json y explorarlo en auspice.us






## [0] Instalación de Conda/Mamba
#### Conda/Mamba es una herramienta que permite manejar paquetes y ambientes.
#### Los ambientes son espacios aislados donde podrá instalar y ejecutar herramientas específicas para un projecto
#### Los programas que vamos a usar se encuentran disponibles como ambientes de Conda

In [None]:
#verificar la versión de Python
#para la mayoría de programas, usar la opción --version nos devolverá la versión del programa
!python --version

Python 3.10.12


In [None]:
#Usando instalador de bibliotecas de Python (pip) para instalar conda/mamba.

  #whoami es un comando de bash que nos dice qué usuario está activo
!whoami
  #pip es el instalador de bibliotecas de python
!pip install -q condacolab

#Código en Python
  #importando la libreria de herramientas de condacolab
import condacolab
  #instalar conda
condacolab.install()

print("Restarting of kernel...")
get_ipython().kernel.do_shutdown(True)

#Verificación versión conda
!conda --version

## [1] Descarga de datos
### Descargue los archivos de secuencia en formato fasta desde el repositorio usando el comando wget

In [None]:
#Los datos de sequenciación en formato fasta se encuentran depositados en el repositorio:
  #wget ws un programa que recupera archivos desde servidores web
!wget https://github.com/

  #ls es el comando que nos devuelve la lista de archivos del directorio actual
!ls

In [None]:
#Código en Python para cargar archivos

  #esta línea carga las herramientas de "files" que están disponibles en la librería "google.colab"
from google.colab import files

  #
uploaded = files.upload()
!ls

## [2] Instalación de Nextclade y configuración
#### Vamos a usar Nextclade para caracterizar las secuencias de RSV-B
####Nextclade está disponible como ambiente de conda

Creando ambiente para caracterizar genomas usando Nextclade

In [None]:
#Crear ambiente de conda con las herramientas de
  #intalación de Nextclade como ambiente de conda
  #comando de conda para ver los ambientes disponibles
!conda env list
  #instalación del programa Nextclade dentro del ambiente "base"
  # la opción -c se usa para indicar el repositorio de paquetes y programas. Nextclade está en el repositorio bioconda
!conda install -c bioconda nextclade --quiet

#Reiniciando el shell con las herramientas instaladas
print("Reiniciando el kernel...")
get_ipython().kernel.do_shutdown(True)

print("Se ha instalado Nextclade")

### Ver lista de ambientes disponible

In [None]:
!mamba env list

# conda environments:
#
base                     /usr/local
nextclade                /usr/local/envs/nextclade



## [3] Descarga de sets de datos para configurar y realizar análisis

###Ahora usaremos Nextclade para caracterizar RSV-B

### Primero revisemos la lista de virus que podemos analizar con Nextclade y descargar el set de datos adecuado

In [None]:
#Listar los datasets disponibles en nextclade
#dataset list genera la lista de datasets disponibles
  #usar los comandos de nextclade para ver la lista de sets de datos disponibles para realizar análisis
  #con la señal ">" vamos a guardar esta lista en un documento de extensión .csv que podemos revisar después
!nextclade dataset list > nextclade_dataset_list.csv


#### Con la herramienta cat podemos ver el contenido del archivo que creamos

#### Explore esta lista para ver los sets de datos disponibles y los organismos que puede analizar con nextclade

#### En la columna "attributes" se encuentran los nombres de cada set de datos. Esta información se necesita para descargarlos

In [None]:
 # el comando cat nos muestra el contenido del archivo donde guardamos la lista de sets de datos
!cat nextclade_dataset_list.csv

### ❓¿Cuál es el set de datos que debemos descargar?
###Descarguemos este set de datos

In [None]:
  #dataset get descarga los archivos del dataset de nombre --name en el directorio --out
  #COMPLETE EL CÓDIGO DEBAJO
!nextclade

  #ls . nos muestra la lista de archivos y directorios dentro de nuestra ubicación actual (.)
  #debe poder ver el directorio que descargamos con el set de datos
!ls .


condacolab_install.log	nextclade_dataset_list.csv  sample_data  secuenciasSARS.fas
index.html		rsv_b			    sars-cov-2


El dataset de nextclade contiene información del genoma de referencia y los genes codificantes del virus con el fin de realizar una anotación completa, tipificación y caracterización de mutaciones de nt y aa

Use los comandos aprendidos para ver el contenido de estas carpetas

In [None]:
#complete este comando para ver la lista de archivos dentro del directorio del set de datos de rsv-b
!ls

## ❓[4] Ejecutemos Nextclade

In [None]:
#Ejecutar Nextclade con el set de datos de RSV-B para tipificar y caracterizar nuestras secuencias
#El símbolo \ indica al servidor que el comando continua en la siguiente línea
#el directorio de salida se llamará nextclade_out

#COMPLETE EL CÓDIGO DEBAJO

!nextclade run\
--output-all=nextclade_out \
--input-dataset= \
--output-basename= \
--verbosity="error" \


print("Se ha ejecutado Nextclade para RSV-B")
print("estos son los archivos de salida dentro del directorio nextclade_out")
#listar el contenido del directorio de
!ls nextclade_out

#### Obtenemos:

*   Un alineamiento de las secuencias frente a la referencia
*   Traducciones de los genes
*   Tablas con información de las características genómicas de las secuencias
*   Un archivo auspice.json con la visualización de la filogenia anotada con las características



## ❓[5] Explorar los resultados usando Pandas
#### Para explorar las tablas obtenidas vamos a usar el programa Pandas.
Con pandas podemos convertir los archivos en dataframes, y explorar las tablas programáticamente

Pandas es una librería de python ya instalada pero primero la debemos cargar

In [None]:
import pandas as pd

#Cargar la tabla en formato csv como un dataframe de pandas llamdo df
#COMPLETE EL CÓDIGO DEBAJO
df =

#Ver el dataframe en pantalla
df

####Ver encabezados de las columnas

Podemos hacer una lista de los encabezados de las columnas para ver qué tipo de información contiene usando el comando list()

❓PREGUNTA: ¿Cuántas columnas tiene el archivo .csv del output de nextclade?

In [None]:
# lista los encabezados de las columnas
# COMPLETE EL CÓDIGO DEBAJO


#### Podemos hacer una tabla con solo las columnas que queremos ver.
####❓Haga una tabla solo con seqName, la cobertura, linaje, clado y mutaciones de aminoácidos

In [None]:
# hacer un dataframe solo con las columnas seqName y coverage
#COMPLETE EL CODIGO
caracteristicas_df=

#ver el dataframe creado en pantalla
características_df

####Vamos a subir a nuestro notebook un archivo con metadatos de las muestras de RVB. Los nombres de las muestras en este archivo debe coincidir con el seqName para poder juntarlos con pandas


In [None]:
#Código en Python para cargar archivos al notebook de colab

from google.colab import files

uploaded = files.upload()
!ls

####❓Cargue este archivo .csv como un dataframe de pandas llamado datos_df y júntelo en una sola tabla

In [None]:

 import pandas as pd

#Cargar la tabla en formato csv como un dataframe de pandas llamdo datos_df
#COMPLETE EL CODIGO DEBAJO
datos_df = pd.read_csv()

#junta los dos dataframes basado en la columna 'seqName'
#COMPLETE EL CODIGO DEBAJO
juntos_df=

#Ver en pantalla el dataframe juntos_df
juntos_df

#### ❓Exporte la tabla creada juntos_df como archivo en formato csv

In [None]:
#con las herramientas .to_csv() podemos guardar el dataframe e indicar el separador de columnas y el decimal.
#COMPLETE EL CODIGO DEBAJO


## ❓Explorar la visualización de Auspice
#### Entre los archivos de resultado de nextclade encontramos una filogenia anotada con las mutaciones. Para visualizar el archivo de filogenia anotada primero debemos descargar el archivo

####En la parte izquierda de esta pantalla hay un ícono de de carpeta.
####Descargue el archivo que termina en **.auspice.json**

#### Ingrese a [auspice.us](https://auspice.us) donde podrá cargar el archivo con la visualización

####Ahora podemos explorar las mutaciones en un contexto evolutivo


#### Cargar información adicional a la visualización de Auspice

#### En nuestra visualización de [auspice.us](https://auspice.us) podemos agregar información de nuestras muestras, incluyendo columnas para categorías como procedencia, desenlace clínico, intensidad de la enfermedad, e incluso las coordenadas geográficas

#### Para esto solo debemos construir un archivo de excel con la columna 'strain' indicando los nombres de nuestras muestras tal como aparecen en el archivo .auspice.json, y las columnas con nuestros datos (para coordenadas las columnas son 'latitude' y 'longitude')

#### ❓¿Existen mutaciones de aminoácidos es Spike comunes entre las muestras estudiadas? ¿Cuáles?