# ü¶† An√°lisis de datos de secuenciaci√≥n de amplicones con QIIME 2

### üîó Links Importantes
- [Course Github](https://github.com/Gibbons-Lab/isb_course_2024): Repositorio de Github para el MSHA 2025
    
- [QIIME 2 view](http://view.qiime2.org): Una interfaz basada en navegador para ver artefactos y visualizaciones de QIIME (tablas y gr√°ficos)
- [QIIME 2 plugins](https://docs.qiime2.org/2024.5/plugins/): M√°s informaci√≥n sobre los complementos QIIME 2 que utilizamos hoy

### üõë STOP! Antes de ejecutar cualquier cosa...

1. Guarda una copia local de este cuaderno en `File > Save a copy in Drive`. En alg√∫n momento, es posible que se te solicite que conf√≠es en el cuaderno. Te garantizamos que es seguro. ü§û

2. Ten en cuenta que **el c√≥digo de este cuaderno debe ejecutarse EN ORDEN** si te pierdes o encuentras errores. Favor de revisarlo con los miembros del staff del curso.

**Descargo de responsabilidad:** El entorno de notebook de Google Colab interpretar√° cualquier comando como c√≥digo Python por defecto. Si queremos ejecutar comandos bash, tendremos que anteponerles `!`. Por lo tanto, cualquier comando que vea con `!` inicial es un comando bash y, si quisiera ejecutarlo en su terminal, omitir√≠a el `!`. Por ejemplo, si en el notebook de Colab ejecuta `!wget`, simplemente ejecutar√≠a `wget` en su terminal.

---
# Setup

QIIME 2 suele instalarse siguiendo las [instrucciones oficiales de instalaci√≥n](https://docs.qiime2.org/2024.5/install/). Sin embargo, dado que usamos Google Colab y el uso de conda tiene algunas limitaciones, tendremos que modificar un poco la instalaci√≥n. Pero no se preocupen, a continuaci√≥n encontrar√°n un script de instalaci√≥n que realiza todo el trabajo por nosotros üòå


Comencemos descargando una copia local del repositorio del proyecto desde GitHub. Este repositorio, llamado `materials`, contiene todos los datos relevantes y otros recursos que necesitaremos para este taller.

In [1]:
!git clone https://github.com/diegoibt/microbiome_16S materials

Cloning into 'materials'...
remote: Enumerating objects: 90, done.[K
remote: Counting objects: 100% (15/15), done.[K
remote: Compressing objects: 100% (12/12), done.[K
remote: Total 90 (delta 4), reused 11 (delta 3), pack-reused 75 (from 1)[K
Receiving objects: 100% (90/90), 86.44 MiB | 35.56 MiB/s, done.
Resolving deltas: 100% (19/19), done.


Para ver el directorio, haga clic en el icono de carpeta üìÅ a la izquierda. Para ejecutar c√≥digo desde este directorio, acceda a √©l mediante la l√≠nea de comandos:

In [3]:
%cd materials

/content/materials


Observe que aqu√≠ usamos ```%``` en lugar de ```!``` para ejecutar nuestra funci√≥n de l√≠nea de comandos. Esto hace que la ruta a nuestro directorio sea permanente. El operador ```!``` solo cambia el int√©rprete para que espere indicaciones de l√≠nea de comandos temporalmente.



Ahora que tenemos todos los materiales, estamos casi listos para empezar, aunque a√∫n no del todo. ¬øRecuerdan QIIME? Necesitamos instalarlo antes de comenzar el an√°lisis. No se preocupen, esto solo se configurar√° en el notebook de Colab, no en su equipo local.

**Ejecutemos la siguiente celda para instalar y configurar QIIME2**

In [None]:
%run installqiime2_prueba.py

‚¨ÜÔ∏è Esto llevar√° un tiempo (normalmente de 10 a 15 minutos), as√≠ que volveremos a la **presentaci√≥n** mientras esperamos.

Si quieres saber m√°s sobre QIIME2, te recomendamos consultar la [documentaci√≥n](https://docs.qiime2.org/). Tambi√©n te explicar√° c√≥mo instalar QIIME2 en tu equipo local. üñ•

---
# Importaci√≥n de datos

¬°QIIME2 puede llevarnos desde secuencias sin procesar al conocimiento ecol√≥gico!
![our workflow](https://github.com/Gibbons-Lab/isb_course_2024/raw/main/docs/16S/assets/steps.png)
Pero primero necesitamos transferir nuestros datos sin procesar a QIIME2. Para ello, necesitaremos:
1. **Archivos de secuenciaci√≥n sin procesar** (.fastq): Los archivos FASTQ contienen puntuaciones de secuencia y calidad, a diferencia de los archivos FASTA, que solo contienen la secuencia. Necesitamos estas puntuaciones de calidad para poder recortar o descartar lecturas de baja calidad.

2. **Archivo de metadatos** (.tsv): Este archivo contiene el ID de la muestra, junto con todos los datos no secuenciales de cada muestra. Aqu√≠, nuestros metadatos incluyen el estado de la enfermedad, la edad, el sexo, el IMC, la ubicaci√≥n geogr√°fica y el uso de medicamentos recetados, as√≠ como informaci√≥n sobre la dieta y los s√≠ntomas gastrointestinales.

3. **Archivo de manifiesto** (.tsv): Este archivo contiene el ID de la muestra y la ruta a su archivo de secuenciaci√≥n. As√≠ es como QIIME asocia una secuencia con sus metadatos correctos. üìù

Comencemos analizando nuestros datos. En la carpeta de `data`, encontrar√° 10 archivos FASTQ, un manifiesto de archivo y un archivo de metadatos.

Si leemos `manifest.tsv`, veremos que es una tabla que contiene el nombre y la ruta de archivo de todas nuestras muestras.

In [5]:
import pandas as pd
manifest = pd.read_csv('data/manifest.tsv', sep = '\t')
manifest

Unnamed: 0,sample-id,absolute-filepath
0,ERR1513701,$PWD/data/ERR1513701.fastq.gz
1,ERR1513870,$PWD/data/ERR1513870.fastq.gz
2,ERR1513889,$PWD/data/ERR1513889.fastq.gz
3,ERR1513684,$PWD/data/ERR1513684.fastq.gz
4,ERR1513703,$PWD/data/ERR1513703.fastq.gz
5,ERR1514003,$PWD/data/ERR1514003.fastq.gz
6,ERR1513961,$PWD/data/ERR1513961.fastq.gz
7,ERR1513983,$PWD/data/ERR1513983.fastq.gz
8,ERR1513964,$PWD/data/ERR1513964.fastq.gz
9,ERR1513777,$PWD/data/ERR1513777.fastq.gz


Tambi√©n podemos consultar `metadata.tsv`, que nos dar√° m√°s contexto sobre nuestras muestras üî¨

In [None]:
metadata = pd.read_csv('data/metadata.tsv', sep='\t')
metadata

Todo bien, los 10 archivos FASTQ est√°n contabilizados: cinco sanos y cinco con enfermedad de Parkinson. Podemos usar el archivo de manifiesto para importar nuestros archivos a QIIME.

## FASTQ a Artefacto

Para usar datos de secuenciaci√≥n en QIIME, primero debemos convertir los archivos FASTQ que contienen nuestros datos en artefactos QIIME. Usando el manifiesto que acabamos de consultar, ejecutemos nuestro primer comando:

-- Como recordatorio, a√±adir ```!``` antes del comando indica al notebook que se trata de un comando de **bash**, no de Python.

In [None]:
!qiime tools import \
  --type 'SampleData[SequencesWithQuality]' \
  --input-path data/manifest.tsv \
  --output-path sequences.qza \
  --input-format SingleEndFastqManifestPhred33V2

Analicemos el comando QIIME. Los comandos QIIME tienen el siguiente formato:

```
qiime plugin action --i-argument1 ... --o-argument2 ...
```
En el comando anterior, llamamos al complemento ```tools``` de QIIME2 para importar nuestros datos. Los siguientes argumentos indican d√≥nde se encuentra el manifiesto y d√≥nde se debe guardar la salida. Tambi√©n le indicamos a QIIME qu√© tipo de entrada esperar.

Los tipos de argumentos suelen comenzar con una letra que indica su significado:

- `--i-...` = archivos de entrada
- `--o-...` = archivos de salida
- `--p-...` = par√°metros
- `--m-...` = metadatos



## Artefacto para la visualizaci√≥n üîé

Antes de continuar, usemos QIIME para visualizar nuestros datos de secuenciaci√≥n.

In [None]:
!qiime demux summarize \
--i-data sequences.qza \
--o-visualization qualities.qzv

Los archivos .qzv como el que acabamos de producir son de visualizaci√≥n. Puede ver el gr√°fico **descargando el archivo y abri√©ndolo en http://view.qiime2.org**. Para descargarlo, haga clic en el s√≠mbolo de carpeta a la izquierda, abra la carpeta `materials` y seleccione `download` en el men√∫ desplegable junto al archivo `quality.qzv`.

---
# Filtrado de calidad: de la secuencia al ASV

Antes de poder usar nuestros datos de secuenciaci√≥n, necesitamos eliminar el ruido. Para ello, usaremos un complemento llamado ```DADA2```. Esto implica lo siguiente:

1. Filtrar y recortar las lecturas
2. Encontrar el conjunto m√°s probable de secuencias √∫nicas en la muestra (ASV)
3. Eliminar quimeras
4. Contar la abundancia de cada ASV

Este comando tardar√° un poco; ejecut√©moslo y volvamos a la presentaci√≥n para analizar lo que est√° sucediendo.

In [None]:
!qiime dada2 denoise-single \
    --i-demultiplexed-seqs sequences.qza \
    --p-trunc-len 150 \
    --p-n-threads 2 \
    --output-dir dada --verbose

Si abrimos la carpeta `dada` üìÅ, veremos varios resultados.
- `representative_sequences.qza` es nuestra *tabla de abundancia ASV* üß¨
- `denoising-stats.qza` contiene las *estad√≠sticas de reducci√≥n de ruido* üìä

Queremos revisar las estad√≠sticas de reducci√≥n de ruido para asegurarnos de que la eliminaci√≥n de ruido se realiz√≥ correctamente. Es normal perder entre un 5 y un 25 % de las lecturas debido a quimeras, pero una p√©rdida importante podr√≠a deberse a ejecutar demasiados ciclos de PCR.

Como se mencion√≥ anteriormente, no podemos ver los *artefactos* de QIIME directamente, pero podemos convertirlos en *visualizaciones* mediante la acci√≥n `tabulate` del complemento `metadata`.

In [None]:
!qiime metadata tabulate \
    --m-input-file dada/denoising_stats.qza \
    --o-visualization dada/denoising-stats.qzv

Como antes, podemos descargar el archivo .qzv y visualizar los resultados con el [QIIME2 Viewer](https://view.qiime2.org/).

Es importante comprender qu√© nos indica este resultado. Por ejemplo, ¬øqu√© porcentaje de lecturas de nuestros datos supera el paso de filtrado? ¬øQu√© porcentaje de lecturas no fueron quim√©ricas? Las diferencias en estas m√©tricas entre muestras pueden afectar las m√©tricas de diversidad.



Para obtener m√°s informaci√≥n sobre el filtrado de calidad pair-end **consulta**:

Dacey, Daniel P., and Fr√©d√©ric JJ Chain. "Concatenation of paired-end reads improves taxonomic classification of amplicons for profiling microbial communities." BMC bioinformatics 22 (2021): 1-25.




---
# Filogen√©tica

Ahora que tenemos una tabla ASV, ¬°podemos calcular m√©tricas de diversidad! Pero primero, regresen a la **presentaci√≥n**

Nota: Estamos abordando an√°lisis que algunos prefieren realizar en RStudio o Jupyter Notebooks, sin usar el framework QIIME. Por ejemplo, los an√°lisis de diversidad se pueden realizar usando `scikit-bio` en Python o `vegan` en R. De hecho, QIIME2 utiliza `scikit-bio` y `vegan` internamente para sus c√°lculos de diversidad.

### De ASV a √°rboles filogen√©ticos con QIIME2 `phylogeny`

Algunas *m√©tricas de diversidad* se calculan mediante la distancia filogen√©tica, as√≠ que comencemos construyendo un √°rbol filogen√©tico para nuestras secuencias con el siguiente comando. En esta ocasi√≥n, llamamos al complemento `phylogeny` en QIIME2.

In [None]:
!qiime phylogeny align-to-tree-mafft-fasttree \
    --i-sequences dada/representative_sequences.qza \
    --output-dir tree

Podemos crear una visualizaci√≥n para el √°rbol usando el complemento QIIME 2 `empress`. Consulte la [documentaci√≥n](https://github.com/biocore/empress) para obtener m√°s detalles.

In [None]:
!qiime empress tree-plot \
    --i-tree tree/rooted_tree.qza \
    --o-visualization tree/empress.qzv

---
# Diversidad

## Parte 1: Los b√°sicos

El complemento `diversity` de QIIME2 incluye una acci√≥n llamada `core-metrics-phylogenetic`, que calcula _varias_ m√©tricas de diversidad filogen√©ticas y no filogen√©ticas.

Podemos usar nuestra tabla y √°rbol para calcular varias m√©tricas de diversidad. Para tener en cuenta las variaciones en la **profundidad de muestreo**, proporcionaremos a QIIME2 un valor de corte en el que **rarificaremos** todas nuestras muestras. La rarefacci√≥n selecciona secuencias **aleatoriamente**, por lo que sus resultados podr√≠an diferir ligeramente de los m√≠os. Tambi√©n pasaremos nuestro archivo de metadatos para poder rastrear qu√© muestras provienen de cada grupo.

In [None]:
!qiime diversity core-metrics-phylogenetic \
    --i-table dada/table.qza \
    --i-phylogeny tree/rooted_tree.qza \
    --p-sampling-depth 5000 \
    --m-metadata-file data/metadata.tsv \
    --output-dir diversity

Si abres la carpeta "diversidad", ver√°s que calculamos todas las m√©tricas de diversidad que acabo de mencionar. Para m√°s informaci√≥n sobre c√≥mo se calculan e interpretan estas m√©tricas de diversidad, consulta esta publicaci√≥n del foro de QIIME (https://forum.qiime2.org/t/alpha-and-beta-diversity-explanations-and-commands/2282).

Pero lo que realmente nos interesa es si la diversidad difiere *significativamente* entre muestras de pacientes con enfermedad y de pacientes sanos, o si existen otras covariables. Por lo tanto, necesitaremos realizar pruebas estad√≠sticas.

Vuelve a la presentaci√≥n para ver algunos tipos de pruebas estad√≠sticas y cu√°ndo usarlas.

### Diversidad alfa: riqueza y uniformidad _dentro_ de una muestra

Obtenemos varios resultados del comando anterior: medidas de diversidad alfa y beta. Para empezar, usemos el vector de Shannon del directorio de salida para crear una visualizaci√≥n de la diversidad alfa en las muestras. Generalmente, las personas sanas y longevas tienen microbiomas diversos y equilibrados. Sin embargo, esto no es necesariamente un indicador directo de salud o enfermedad. Veamos c√≥mo se ve en nuestras muestras.

In [None]:
!qiime diversity alpha-group-significance \
    --i-alpha-diversity diversity/shannon_vector.qza \
    --m-metadata-file data/metadata.tsv \
    --o-visualization diversity/alpha_groups.qzv

Al igual que antes, podemos descargar la visualizaci√≥n y abrirla con el [visor QIIME2](http://view.qiime2.org).

### Diversidad beta: distancia entre muestras

Visualicemos la diversidad beta y veamos c√≥mo se separan. Para ello, analizaremos el UniFrac ponderado. En esta ocasi√≥n, tendremos que descargar el archivo ‚¨ÖÔ∏è

Podemos comprobar si hay una separaci√≥n significativa entre muestras usando PERMANOVA. Podemos hacerlo con el complemento de diversidad de QIIME2.

In [None]:
!qiime diversity adonis \
    --i-distance-matrix diversity/weighted_unifrac_distance_matrix.qza \
    --m-metadata-file data/metadata.tsv \
    --p-formula "parkinson_disease" \
    --p-n-jobs 2 \
    --o-visualization diversity/permanova.qzv

Ya ejecutamos un PCoAs para cada m√©trica de distancia y podemos verlos si abrimos `weighted_unifrac_emperor.qzv`, `unweighted_unifrac_emperor.qzv`, `bray_curtis_emperor.qzv` o `jaccard_emperor.qzv` en el [visor QIIME2](http://view.qiime2.org).

### ¬øSon informativos estos resultados? Un an√°lisis del tama√±o de la muestra, el tama√±o del efecto y los factores de confusi√≥n.

Estos resultados no son muy informativos y, en algunos casos, contradicen la intuici√≥n. Esto puede deberse a varias razones:

1. **Tama√±o muestral peque√±o:** Utilizamos un tama√±o muestral muy peque√±o (n = 10). Incluso si pudi√©ramos observar tendencias, no esperar√≠amos significaci√≥n estad√≠stica.

2. **La diversidad alfa es una m√©trica de grano grueso:** El √≠ndice de Shannon intenta resumir la diversidad del microbioma (muy compleja) en una sola cifra.

3. **Factores de confusi√≥n importantes:** Estos datos provienen de un estudio observacional, donde no se controlaron los factores de confusi√≥n. Se sabe que algunos factores de confusi√≥n (como la dieta y la exposici√≥n a f√°rmacos) tienen fuertes efectos sobre la diversidad, lo que puede ocultar relaciones m√°s peque√±as entre el microbioma y una variable de inter√©s (como el estado de la enfermedad).

En los estudios observacionales, es com√∫n **estratificar** los factores de confusi√≥n o incluirlos como **covariables** en las regresiones. Sin embargo, con un tama√±o muestral de n = 10, realmente solo podemos evaluar una variable sin romper los supuestos. **¬øPero qu√© pasar√≠a si tuvi√©ramos una muestra m√°s grande?** Esto abrir√≠a la puerta a m√°s tipos de an√°lisis. No pudimos procesar todo el conjunto de datos en Colab debido a la capacidad computacional limitada, pero por suerte, **¬°preprocesamos todo el conjunto de datos para ti!**

## Parte 2: C√≥mo lidiar con los factores de confusi√≥n

### Diversidad Alfa: conjunto de datos completo

Los archivos completos del conjunto de datos Hill-Burns 2017 se encuentran en la carpeta MATERIALES. Ahora, cargu√©moslos en QIIME2.

Mantendremos este an√°lisis en la carpeta `complete_study` para no confundir los archivos anteriores.


Ahora tenemos muchos m√°s metadatos que antes. Echemos un vistazo.

In [6]:
complete_metadata = pd.read_csv('complete_study/complete_metadata.tsv', sep='\t')
print(complete_metadata.shape)
complete_metadata.head()

(330, 39)


Unnamed: 0,id,parkinson_disease,sex,age,bmi,location,anticholinergic,antibiotics_bool,anti_inflammatory_bool,comt_inhibitor,...,crohns_disease,yogurt_live_culture,nuts,grains,fruits_or_vegetables,meats,tobacco,marijuana,alcohol_bool,coffee_bool
0,ERR1513669,No,female,79.0,28.34,"Atlanta, GA",N,No,Yes,N,...,No,,Few times a week,Few times a week,Few times a week,Few times a week,False,False,True,True
1,ERR1513670,No,female,70.0,33.12,"Atlanta, GA",N,No,Yes,N,...,No,,Few times a month,At least once a day,At least once a day,At least once a day,False,False,False,True
2,ERR1513671,No,female,79.0,32.28,"Atlanta, GA",N,No,No,N,...,No,Yes,At least once a day,At least once a day,At least once a day,At least once a day,False,False,False,False
3,ERR1513672,No,female,70.0,24.44,"Atlanta, GA",N,No,No,N,...,No,No,Few times a week,At least once a day,Few times a week,At least once a day,False,False,True,False
4,ERR1513673,No,male,76.0,25.06,"Atlanta, GA",N,No,Yes,N,...,No,,At least once a day,Few times a week,At least once a day,Few times a week,False,False,True,True


En el art√≠culo original, los autores hallaron que los medicamentos anticolin√©rgicos, los inhibidores de la catecol-O-metiltransferasa (COMT), la ubicaci√≥n, el sexo, la edad y la EP ten√≠an se√±ales significativas e independientes sobre la composici√≥n del microbioma. ¬øC√≥mo var√≠a la diversidad alfa en funci√≥n de estas variables?

In [None]:
!qiime diversity alpha-group-significance \
    --i-alpha-diversity complete_study/diversity/shannon_vector.qza \
    --m-metadata-file complete_study/complete_metadata.tsv \
    --o-visualization complete_study/diversity/alpha_groups.qzv

Nuevamente, visualice en el [visor QIIME2](http://view.qiime2.org).

Observe que `alpha-group-significance` realiza una prueba de Kruskal-Wallis _separada_ para cada variable y genera un valor p _sin ajustar_. Si queremos analizar _m√∫ltiples_ relaciones entre la diversidad alfa y las covariables (es decir, realizar m√∫ltiples pruebas), necesitamos _controlar la tasa de falsos descubrimientos (FDR false discovery rate) corrigiendo nuestros valores p_. Hablaremos de esto m√°s adelante.

### PCoA + PERMANOVA para diversidad beta

Como ahora tenemos n = 300+, podemos incluir m√°s variables en nuestra PERMANOVA.

Primero, ejecutemos PERMANOVA solo para el estado de la enfermedad para que podamos ver realmente qu√© hace la adici√≥n de covariables en nuestros resultados.

In [None]:
!qiime diversity adonis \
    --i-distance-matrix complete_study/diversity/weighted_unifrac_distance_matrix.qza \
    --m-metadata-file complete_study/complete_metadata.tsv \
    --p-formula "parkinson_disease" \
    --p-n-jobs 2 \
    --o-visualization complete_study/diversity/permanova_PD.qzv

Si observa la tabla en el [visor QIIME2](http://view.qiime2.org), notar√° que, dado que el tama√±o de nuestra muestra aument√≥, el efecto de PD en la diversidad beta de UniFrac (aunque muy peque√±o en R cuadrado = 0,01) ahora es significativo (al menos antes de las correcciones FDR).

Tambi√©n podemos usar PERMANOVA para identificar factores de confusi√≥n. PERMANOVA nos indica cu√°nta varianza en la composici√≥n de la comunidad explica cada variable. Los factores de confusi√≥n comunes incluyen el sexo, la edad, el IMC, la dieta y el uso de antibi√≥ticos. En el estudio original, los autores identificaron que los medicamentos para la enfermedad de Parkinson se asociaban con diferentes composiciones del microbioma. Analicemos estas variables.

Let's look at the metadata file to see which variables have NaN values.

Pero espere: `adonis` requiere que las variables de la f√≥rmula no tengan valores NaN ni valores faltantes. Si intent√°ramos ejecutar `adonis` con todas estas variables, generar√≠a un error. Por lo tanto, tendremos que **filtrar** las muestras con valores NA para las variables que queramos probar.

Revisemos el archivo de metadatos para ver qu√© variables tienen valores NaN.

In [None]:
metadata_perm = complete_metadata[['parkinson_disease', 'sex', 'age', 'bmi', 'comt_inhibitor', 'carbidopa_levodopa', 'anticholinergic', 'location']].copy()
metadata_perm

In [None]:
# ¬øQu√© variables tienen valores N/A para la PERMANOVA que queremos ejecutar?
col_na_num = metadata_perm.isna().sum()
col_na = col_na_num[col_na_num > 0]
col_na

Parece que un subconjunto de personas no respondi√≥ estas preguntas. ¬øCu√°ntas muestras tendremos si las descartamos?

In [None]:
metadata_perm.dropna(axis=0, subset=['bmi', 'comt_inhibitor', 'carbidopa_levodopa', 'anticholinergic'], how='any')

Esta vez podemos usar la acci√≥n QIIME `filter-distance-matrix`

In [None]:
# filter QIIME table
!qiime diversity filter-distance-matrix \
    --i-distance-matrix complete_study/diversity/weighted_unifrac_distance_matrix.qza \
    --m-metadata-file complete_study/complete_metadata.tsv \
    --p-where "[bmi] IS NOT NULL AND [comt_inhibitor] IS NOT NULL AND [carbidopa_levodopa] IS NOT NULL AND [anticholinergic] IS NOT NULL" \
    --o-filtered-distance-matrix complete_study/diversity/weighted_unifrac_distance_matrix_no_NA.qza

In [None]:
!qiime diversity adonis \
    --i-distance-matrix complete_study/diversity/weighted_unifrac_distance_matrix_no_NA.qza \
    --m-metadata-file complete_study/complete_metadata.tsv \
    --p-formula "parkinson_disease + sex + age + bmi + location + comt_inhibitor + carbidopa_levodopa + anticholinergic" \
    --p-n-jobs 2 \
    --o-visualization complete_study/diversity/permanova_with_confounders.qzv

Anteriormente, no observ√°bamos un valor p significativo para el efecto de la enfermedad de Parkinson en la diversidad beta. Sin embargo, al a√±adir ciertas covariables, podr√≠amos descubrir que confund√≠an una relaci√≥n.

Sin embargo, la mayor parte de nuestra varianza permanece sin explicar. La composici√≥n del microbioma se ve afectada por muchos factores, y este es un estudio de cohorte no controlado, por lo que no esperar√≠amos que una sola variable explicara la mayor parte de la varianza.

#### Reducci√≥n de dimensionalidad

Si queremos mostrar visualmente esta separaci√≥n entre muestras, no podemos simplemente graficar la matriz de distancias UniFrac completa, ya que tiene m√°s de 100 dimensiones. En su lugar, podemos usar la **reducci√≥n de dimensionalidad** para comprimir nuestros datos en unas pocas dimensiones que expliquen la mayor parte de la varianza. Existen varios tipos de reducci√≥n de dimensionalidad (como UMAP y tSNE), pero el m√©todo preferido para las comunidades de microbiomas es el An√°lisis de Coordenadas Principales (PCoA). Esto se debe a que el PCoA es lineal y, por lo tanto, preserva la estructura global de los datos y es reproducible.

Ya ejecutamos un PCoAs para cada m√©trica de distancia y podemos verlos si los descargamos. `weighted_unifrac_emperor.qzv`, `unweighted_unifrac_emperor.qzv`, `bray_curtis_emperor.qzv`, or `jaccard_emperor.qzv`

---
# Clasificaci√≥n taxon√≥mica

### De ASV a tabla de recuento taxon√≥mico

Podemos aprender mucho de las m√©tricas de diversidad, alfa y beta. Pero para analizar a fondo los datos, necesitamos saber qu√© microbios hay en cada muestra ü¶†. Para ello, clasificaremos las lecturas en QIIME2 utilizando un clasificador bayesiano preentrenado. Varios clasificadores de este tipo est√°n disponibles en https://docs.qiime2.org/2024.5/data-resources/

Desde el plugin `feature-classifier` de QIIME2, usaremos la acci√≥n `classifiy-sklearn`, que toma como entrada los ASV y un clasificador scikit-learn preentrenado. Utilizamos un clasificador bayesiano ingenuo espec√≠fico para la regi√≥n 16S V4 (515f-806r) porque es la regi√≥n que secuenciamos.

In [None]:
# run a classifier on our 10-sample mini dataset
!qiime feature-classifier classify-sklearn \
    --i-reads dada/representative_sequences.qza \
    --i-classifier ncbi-refseq-16S-v4-classifier.qza \
    --p-n-jobs 2 \
    --o-classification taxa.qza

Ahora que hemos clasificado las lecturas, podemos visualizar el desglose taxon√≥mico de nuestras muestras.

In [None]:
!qiime taxa barplot \
    --i-table dada/table.qza \
    --i-taxonomy taxa.qza \
    --m-metadata-file data/metadata.tsv \
    --o-visualization taxa_barplot.qzv

Ahora, podemos usar ```table.qza```, que contiene nuestras lecturas, y ```taxa.qza```, que contiene clasificaciones taxon√≥micas para las lecturas, y colapsar los datos al nivel de g√©nero.

In [None]:
!qiime taxa collapse \
    --i-table dada/table.qza \
    --i-taxonomy taxa.qza \
    --p-level 6 \
    --o-collapsed-table genus.qza

### Exportando su tabla de taxones

Las tablas de caracter√≠sticas taxon√≥micas en QIIME2 se pueden exportar como archivos .biom, que luego se pueden convertir a archivos .tsv si se desea. Esto es importante, ya que algunos m√©todos de an√°lisis no disponibles en QIIME2 podr√≠an requerir los formatos .biom o .tsv.

In [None]:
#instalar biom-format
!pip install biom-format pandas

In [None]:
!qiime tools export \
    --input-path genus.qza \
    --output-path exported

!biom convert -i exported/feature-table.biom -o genus.tsv --to-tsv

Echemos un vistazo a los resultados. üî≠

In [None]:
abundances = pd.read_table("genus.tsv", skiprows=1, index_col=0)
abundances

Esto es m√°s f√°cil de interpretar visualizando los resultados. Podemos usar el archivo que acabamos de exportar de QIIME2 para crear una visualizaci√≥n con cualquier herramienta que prefiramos, como seaborn o plotnine.

A continuaci√≥n, se muestra un ejemplo de creaci√≥n de una visualizaci√≥n (un mapa de calor) en seaborn:

In [None]:
import numpy as np
import seaborn as sns

In [None]:
abund_to_plot = abundances.copy()
abund_to_plot.index = abund_to_plot.index.str.split(";").str[5]          # Utilice √∫nicamente el nombre del g√©nero
abund_to_plot = abund_to_plot[~abund_to_plot.index.isin(["g__", "__"])]  # eliminar g√©neros no clasificados
abund_to_plot = abund_to_plot.sample(50, axis=0)                         # utilizar 50 g√©neros aleatorios (filas)

# Hagamos una transformaci√≥n logar√≠tmica centrada: log x_i - log mean(x)
transformed = abund_to_plot.apply(
    lambda xs: np.log(xs + 0.5) - np.log(xs.mean() + 0.5),
    axis=0)

sns.clustermap(transformed.T, cmap="magma", xticklabels=True, figsize=(16, 6))

Ahora, nuestros datos empiezan a ser interpretables. Cada fila representa una muestra y cada columna un g√©nero bacteriano. Los valores de la tabla son "conteos", o el n√∫mero de veces que se detect√≥ un g√©nero en una muestra determinada. Podemos usar datos de abundancia relativa para comprobar hip√≥tesis, pero requiere m√©todos estad√≠sticos especiales porque es ___composicional___.

Analicemos qu√© podemos hacer al respecto en la **presentaci√≥n**

---
# An√°lisis de abundancia diferencial

Veamos las abundancias en el conjunto de datos _completo_, para que pueda ver las distribuciones de abundancia.

Vamos a cambiar a Python para mostrarte estas transformaciones, por lo que necesitaremos algunos paquetes m√°s. üì¶

In [None]:
import scipy.stats as stats
import matplotlib.pyplot as plt

### Conteos de abundancia relativa:

Antes de realizar cualquier prueba, debemos dividir el n√∫mero de g√©neros entre el n√∫mero total de muestras. Esto nos da la _abundancia relativa_.

In [None]:
complete_abundances = pd.read_table('complete_study/genus.tsv', skiprows=1, index_col=0)
complete_abundances

In [None]:
rel_abund = complete_abundances.divide(complete_abundances.sum(axis=0), axis=1)     # divide all values in a row by the sum of the row
rel_abund

### Preprocesamiento

¬øExisten filas que tengan todo cero?

In [None]:
rows_with_zeros = rel_abund.eq(0).all(axis=1)
count_row_zeros = rows_with_zeros.sum()
count_row_zeros

¬øCu√°ntas filas (g√©neros) no est√°n presentes en la mayor√≠a de las muestras (cero en >80% de las muestras)?

In [None]:
# identificar filas dispersas
num_zeros_row = rel_abund.eq(0).sum(axis=1)
num_cols = rel_abund.shape[1]
sparse_rows = num_zeros_row > (0.8 * num_cols)
print(sparse_rows.sum())

# eliminar filas dispersas
abund_filt = rel_abund[~sparse_rows]

# transponer para hacer filas de muestras en lugar de g√©neros (que coincida con el formato de nuestros metadatos)
abund_filt = abund_filt.T
abund_filt

Guarde los nombres de las columnas de g√©neros en una lista y luego fusione las tablas de abundancia y metadatos.

In [None]:
genus_columns = abund_filt.columns                                                            # obtener una lista de nombres de columnas de abundancia
complete_metadata.set_index('id', inplace=True)                                               # cambiar el √≠ndice (nombres de filas) de los metadatos a la columna 'id'
merged_rel_abund = complete_metadata.merge(abund_filt, left_index=True, right_index=True)     # fusionar los dos marcos de datos por su √≠ndice (nombres de fila)

In [None]:
# Hacer un histograma de Faecalibacterium dividido por estado de PD

sns.displot(data=merged_rel_abund,
            x='k__Bacteria;p__Firmicutes;c__Clostridia;o__Eubacteriales;f__Oscillospiraceae;g__Faecalibacterium',
            hue='parkinson_disease')

plt.xlabel('Faecalibacterium relative abundance')
plt.ylabel('Number of samples')
plt.show()

### 1. Pruebas no param√©tricas

Si quisi√©ramos comprobar si _Faecalibacterium_ espec√≠ficamente era diferencialmente abundante en PD, podr√≠amos hacer esto:

In [None]:
# Dividir la variable de inter√©s en 2 listas por estado de PD
faecali_pd = merged_rel_abund[merged_rel_abund['parkinson_disease'] == 'Yes']['k__Bacteria;p__Firmicutes;c__Clostridia;o__Eubacteriales;f__Oscillospiraceae;g__Faecalibacterium']
faecali_hc = merged_rel_abund[merged_rel_abund['parkinson_disease'] == 'No']['k__Bacteria;p__Firmicutes;c__Clostridia;o__Eubacteriales;f__Oscillospiraceae;g__Faecalibacterium']

u_stat, p_value = stats.mannwhitneyu(faecali_pd, faecali_hc, alternative='two-sided')

print(f"U-statistic: {u_stat}")
print(f"p-value: {p_value}")

Ver√≠amos que s√≠, si solo realizamos una prueba, parece que la abundancia relativa media de _Faecalibacterium_ es significativamente diferente entre PD y controles sanos (con p < 0.05)

### 2. Normalizaci√≥n + pruebas param√©tricas:

Antes de que podamos realizar una transformaci√≥n CLR, tenemos que agregar un pseudocount, porque log(0) no existe.

In [None]:
# realizar un seguimiento de qu√© valores son distintos de cero
abund_nonzero = abund_filt > 0

# a√±adir un pseudoconteo
abund_filt_pseudo = abund_filt + 0.0000001
abund_filt_pseudo

Ahora que tenemos pseudoconteos, podemos realizar la transformaci√≥n CLR. Aqu√≠, usamos la funci√≥n gmean de scipy.stats.mstats y calculamos el CLR manualmente.

La transformaci√≥n de raz√≥n logar√≠tmica centrada (clr) divide cada parte de la composici√≥n entre la media geom√©trica de todas las partes.

In [None]:
# crear una nueva columna para la media geometrica
abund_clr = abund_filt_pseudo.copy()
abund_clr['gmean'] = abund_clr.apply(stats.mstats.gmean, axis=1, nan_policy='omit')

# actual CLR
abund_clr = np.log(abund_clr.divide(abund_clr['gmean'], axis=0))

# Verifique gmean para asegurarse de que CLR se realiz√≥ correctamente
# gmean debe ser todo ceros (because log(x)/log(x) = log(x/x) = log(1) = 0)
abund_clr

In [None]:
# drop gmean
abund_clr.drop(columns='gmean', inplace=True)

Ahora, veamos c√≥mo afect√≥ la transformaci√≥n a nuestros datos. Podemos crear el mismo gr√°fico que antes.

In [None]:
sns.displot(data=abund_clr,
            x='k__Bacteria;p__Firmicutes;c__Clostridia;o__Eubacteriales;f__Oscillospiraceae;g__Faecalibacterium')
plt.xlabel('Faecalibacterium CLR')
plt.ylabel('Number of samples')
plt.show()

Ahora, tenemos una distribuci√≥n bimodal debido a la presencia de ceros. En este punto, la opci√≥n m√°s conservadora es eliminar estos valores, ya que no podemos estar seguros de si son ceros verdaderos.

In [None]:
# descartar las muestras que fueron cero (hacer NA para que no se grafiquen)
abund_clr_nonzero = abund_clr[abund_nonzero]

In [None]:
# Ahora intenta trazar de nuevo
sns.displot(data=abund_clr_nonzero,
            x='k__Bacteria;p__Firmicutes;c__Clostridia;o__Eubacteriales;f__Oscillospiraceae;g__Faecalibacterium')
plt.xlabel('Faecalibacterium CLR')
plt.ylabel('Number of samples')
plt.show()

Ahora nuestros datos son _bastante normales_ (aunque a√∫n un poco distorsionados), pero probablemente seguros para usar con pruebas param√©tricas. Esto significa que estamos listos para fusionarlos de nuevo con los metadatos.

In [None]:
merged_clr = complete_metadata.merge(abund_clr_nonzero, left_index=True, right_index=True)     # fusionar los dos marcos de datos por su √≠ndice (nombres de fila)
merged_clr

El c√≥digo para realizar una prueba t es muy similar al de una prueba U de Mann-Whitney, pero tambi√©n necesitamos eliminar los NA.

Podemos lograr esto a√±adiendo `dropna()` al final de nuestra asignaci√≥n de grupo.

In [None]:
# C√≥mo har√≠amos una prueba t
faecali_clr_pd = merged_clr[merged_clr['parkinson_disease'] == 'Yes']['k__Bacteria;p__Firmicutes;c__Clostridia;o__Eubacteriales;f__Oscillospiraceae;g__Faecalibacterium'].dropna()
faecali_clr_hc = merged_clr[merged_clr['parkinson_disease'] == 'No']['k__Bacteria;p__Firmicutes;c__Clostridia;o__Eubacteriales;f__Oscillospiraceae;g__Faecalibacterium'].dropna()

t_stat, p_val = stats.ttest_ind(faecali_clr_pd, faecali_clr_hc, equal_var=False)

print(f"T-stat: {t_stat}")
print(f"p-value: {p_val}")

En personas con cantidades _medibles_ de Faecalibacterium, las personas con EP tienen niveles significativamente menores de Faecalibacterium que las personas sin EP.

Observe c√≥mo, al recortar nuestros datos, ahora estamos evaluando una pregunta diferente.

### Pruebas m√∫ltiples y correcci√≥n FDR:

Con tantos datos interesantes, ser√≠a bastante tedioso probar las variables una por una. Por eso creamos anteriormente la lista `genus_column`.

In [None]:
# Crea una lista vac√≠a para almacenar los resultados de las pruebas
t_test_results = []

# Recorra cada columna de g√©nero y realice la prueba t
for genus in genus_columns:
    # Separar los datos de los grupos ‚ÄúS√≠‚Äù y ‚ÄúNo‚Äù de la enfermedad de Parkinson
    pd_group = merged_clr[merged_clr['parkinson_disease'] == 'Yes'][genus].dropna()
    hc_group = merged_clr[merged_clr['parkinson_disease'] == 'No'][genus].dropna()

    # Realizar la prueba t
    if len(pd_group) > 0 and len(hc_group) > 0:  # Realice la prueba solo si hay valores en ambos grupos
        t_stat, p_val = stats.ttest_ind(pd_group, hc_group, equal_var=False)

        # Almacenar los resultados
        t_test_results.append({
            'genus': genus,
            't_stat': t_stat,
            'p_val': p_val,
            'n_pd': len(pd_group),
            'n_hc': len(hc_group)
        })

# Convertir los resultados en un DataFrame
ttest_results_df = pd.DataFrame(t_test_results)

In [None]:
# Eche un vistazo a nuestro marco de datos de resultados
ttest_results_df

¬øC√≥mo se ve nuestra distribuci√≥n de valor p?

In [None]:
sns.histplot(data=ttest_results_df, x='p_val', bins=13)
plt.xlabel('p-value')
plt.ylabel('number of t-tests')
plt.show()

¬øSe ve bien? Esperamos una desviaci√≥n hacia la izquierda, dados tanto los verdaderos como los falsos positivos.

Cuando disponemos de una lista de valores p, podemos aplicar f√°cilmente la correcci√≥n FDR. Utilizaremos la correcci√≥n de Benjamini-Hochberg (BH), que es menos conservadora que la de Bonferroni. El valor p corregido por BH, q, se calcula en funci√≥n de la lista completa de valores q.

In [None]:
from statsmodels.stats.multitest import multipletests

In [None]:
# realizar la correcci√≥n FDR (esto devuelve los valores q en el orden en que fueron proporcionados)
qvals = multipletests(ttest_results_df['p_val'], method='fdr_bh')[1]

# a√±adir valores q al dataframe
ttest_results_df['q_val'] = qvals

# mostrar el nuevo dataframe, pero ordenar por valor q
ttest_results_df.sort_values(by='q_val')

¬°Genial! Separemos solo los resultados significativos y creamos una columna con nombres taxon√≥micos m√°s f√°ciles de representar.

In [None]:
ttest_signif = ttest_results_df[ttest_results_df['q_val'] < 0.1]
ttest_signif.loc[:, 'genus_plot'] = ttest_signif['genus'].str.split(';').apply(lambda x: ';'.join(x[-2:])) # tomar s√≥lo los 2 √∫ltimos niveles taxon√≥micos
ttest_signif

¬øC√≥mo podemos visualizar esta informaci√≥n? Aqu√≠, he trazado el estad√≠stico T para cada impacto significativo, coloreado por el valor q.

In [None]:
# Ordenar por estad√≠stica t absoluta para una mejor visualizaci√≥n
ttest_signif = ttest_signif.sort_values(by='t_stat', key=abs, ascending=False)

# Crea una paleta de colores personalizada que vaya de claro a oscuro seg√∫n los valores q.
norm = plt.Normalize(0.0, 0.1)
cmap = plt.cm.Blues_r  # color map
bar_colors = cmap(norm(ttest_signif['q_val'])).tolist()

# Plot
fig, ax = plt.subplots(figsize=(10, 6))
sns.barplot(data=ttest_signif, x='t_stat', y='genus_plot', palette=bar_colors, hue='genus_plot', ax=ax, legend=False)

# Hacer etiquetas
ax.set_title('Differentially Abundant Genera in PD patients')
ax.set_xlabel('T-Statistic')
ax.set_ylabel('Genus')

# crear una clave para los valores q
sm = plt.cm.ScalarMappable(cmap=cmap, norm=norm)  # crear objeto ScalarMappable
sm.set_array([])  # Matriz vac√≠a para ScalarMappable
cbar = plt.colorbar(sm, ax=ax)
cbar.set_label('q-value')

# Mostrar la figura
plt.tight_layout()
plt.show()

---
# Ejercicio: Plantar un √°rbol

Una visualizaci√≥n a la que no dedicamos mucho tiempo fue el √°rbol filogen√©tico de nuestros ASV. ¬°Vamos a cambiarlo! En el paso anterior, vimos que hay g√©neros que aparecen en m√∫ltiples poblaciones. Pero, ¬øson los organismos de ese g√©nero realmente los mismos?

Anotemos el √°rbol con nuestras clasificaciones taxon√≥micas y abundancias. Usaremos de nuevo el complemento empress, pero esta vez con la opci√≥n `community-plot`. Les prepar√© una plantilla del comando. ¬øPueden indicar qu√© debe ir en los espacios vac√≠os?

**PREGUNTAS:**

1) ¬øSon algunas ramas del √°rbol m√°s largas de lo esperado? ¬øObservas algo interesante o sospechoso en la identidad taxon√≥mica de estas ramas?

2) ¬øPuedes encontrar ejemplos de filos polifil√©ticos (es decir, grupos de ASV del mismo filo que se encuentran en diferentes lugares del √°rbol, mostrando diferentes ancestros comunes)? ¬øQu√© ocurre con los taxones polifil√©ticos en niveles taxon√≥micos inferiores, como a nivel de familia o g√©nero? ¬øPor qu√© crees que existen estos patrones?

Nota: Es necesario entregar las respuestas de las preguntas, y el nuevo arbol anotado para poder acreditar el curso. Todo deber√° estar en un archivo pdf y se deber√° enviar por correo a microbiomas.salud2025@gmail.com **Asunto Taller 16S**

In [None]:
# Esto no se ejecutar√° hasta que completes los espacios [VAC√çOS] con los archivos correctos ;)

!qiime empress community-plot \
    --i-tree [EMPTY] \
    --i-feature-table dada/table.qza \
    --m-sample-metadata-file [EMPTY] \
    --m-feature-metadata-file taxa.qza \
    --o-visualization community-tree-viz.qzv