
<img src="https://github.com/alldominguez/isee_young_rennes_ws1/blob/main/figures/logo_isse_young_rennes.PNG?raw=1" alt="ISGlobal logo" width="1000"/>  

# **Workshop 1: Statistical methods for studying mixtures and the exposome"**  


<img src="https://github.com/alldominguez/ISGlobal.sesion4.Exposoma/blob/main/figures/exposoma.png?raw=1" alt="ISGlobal logo" width="500"/>

- **Charline Warembourg**, Researcher at the French Institute of Health and Medical Research (INSERM).  
- **Maximilien Genard-Walton**, Postdoctoral Researcher at the French Institute of Health and Medical Research (INSERM).  
- **Augusto Anguita-Ruiz**, Postdoctoral Researcher at the Barcelona Institute for Global Health (ISGlobal).  
- **Alan Domínguez**, Predoctoral Researcher at the Barcelona Institute for Global Health (ISGlobal).  

The exposome, described as 'the totality of human environmental exposures from conception onwards,' acknowledges that individuals are simultaneously exposed to multiple different environmental factors, adopting a holistic approach to discovering etiological factors of disease. The main advantage of the exposome approach over more traditional 'one exposure, one disease or health outcome' models is that it provides a framework for studying multiple environmental risks (urban, chemical, lifestyle, social, etc.) and their combined effects.


This workshop therefore aims at summarizing and presenting the main models used for studying mixtures and the exposome, and discussing the pros and cons of each method in relation to a specific study objectives.






## **Introduction to the NoteBook**

Within this **NoteBook**, you will be guided step by step from loading a dataset to running some mixture and exposome analysis.

The [Jupyter notebook](https://github.com/jupyter/notebook/tree/main) is an interactive computing environment that allows users to author notebook documents. Notebooks consist of **linear sequence of cells** that combines **code cells (input and output of live code that is run)**, and **markdown cells (narative text)**.

The components of the notebook are:

- **notebook web application:** an interactive web application for writing and running code interectively.
- **kernels**: separate processes started by the notebook application that run users' code in an specific language (Python, R, Julia, Ruby, Scala, etc).
- **notebook documents:** documents that contain a representation of all content visibile in the notebook web application.

## **Step-by-step**

The order of the instructions is **essential**, so each cell in this notebook must be executed **sequentially**. If you omit any, you could have an error in your notebook, so you should start running cells from the beginning.

It is **very very important** that at the beginning you select **"*Open in test mode*" (draft mode)**, at the top left. Otherwise, it will not allow any block of code to be executed, for security reasons. When the first block is executed, the following message will appear: "*Warning: This notebook was not created by Google.*". Don't worry, you will have to trust the contents of the notebook (*NoteBook*) and click "Run anyway".

Click the "play" button on the left side of each code cell. Lines of code that begin with a hashtag (#) are comments and do not affect the execution of the program.

You can also click on each cell and do *ctrl+enter* (*cmd+enter* on Mac).

Every time you run a block, you will see the output right below it. The information is usually always that related to the last instruction, along with all the `print()` that are in the code.


## **ÍNDICE**
1. [Instalación del entorno R y sus bibliotecas para el análisis de exposoma](#instalacion-librerias)    
2. [Cargar los datos](#cargar-datos)
3. [Análisis descriptivo del Exposoma](#descriptivo)   
4. [Análisis de asociación del Exposoma](#asociacion)
  

## **1. Installation of the R environment and libraries for analysis** <a name="instalacion-librerias"></a>

* **Install R environment**

Installing R in our Google Colab environment will be done in the following code block. Remember that all library installations that we perform in the Google Colab environment will only remain active for a few hours, after which the installed libraries are deleted. Therefore, you will need to rerun the library installation codes in this section when you need to run notebook again after this time.


In [None]:
# primero chequeamos la version de R que tenemos
#R.Version()

* **Install/load libraries for the session**

We will install/load the necessary libraries for the practical session, for this we will use the `pacman` package, this package is an administration tool that combines functionalities of the `install.packages` + `library` functions.

In the context of exposome analysis, R libraries offer us a much more convenient way to process, manipulate and analyze data. Some of these libraries: `tidyverse`, `skimr`, `rexposome`, `bkmr`, `gWQS`.








In [None]:
# Execution time: 3 sec.
install.packages("pacman")

Instalaremos `BiocManager` y `rexposome` (estos dos paquetes son fundamentales para el análsis del exposoma), utilizando el siguiente código ya que algunas veces suele tener problemas de compatibilidad con la versión de R (el proceso tarda alrededor de **20 minutos**, por lo que se recomienda instalarla durante la sesión teórica.

In [None]:
# Tiempo estimado de ejecución: 23 minutos aprox.

if (!requireNamespace("BiocManager", quietly=TRUE))
    install.packages("BiocManager")

packages = c('Biobase', 'mice', 'MultiDataSet', 'lsr', 'FactoMineR',
	'stringr', 'circlize', 'corrplot', 'ggplot2', 'reshape2', 'pryr',
	'scales', 'imputeLCMD', 'scatterplot3d', 'glmnet', 'gridExtra',
	'grid', 'Hmisc', 'gplots', 'gtools', 'S4Vectors'
)
for( pkg in packages ) {
  if( !pkg %in% rownames( installed.packages() ) ) {
    message( "Installing ", pkg )
    BiocManager::install( pkg )
  }
}

In [None]:
# Tiempo estimado de ejecución: 2 minutos aprox.
# instalamos rexposome (la instalación de rexposome tarda un poco dependiendo de nuestra conexón)
install.packages("devtools")
devtools::install_github("isglobal-brge/rexposome")

In [None]:
#para aquellos que tienen una version antigua de R (en el caso de usar Rstudio desktop)
#devtools::install_github("isglobal-brge/rexposome", ref="R-3.0")

In [None]:
# Tiempo estimado de ejecución: 8 minutos aprox.
# Añadimos todas las librerias que necesitemos utilizar (si el paquete ya esta instalado, automaticamente cargara el paquete si esta en la funcion pacman::p_load())
pacman::p_load(tidyverse, corrplot, RColorBrewer, skimr, bkmr, gWQS, ggridges, rexposome,
 MASS, caret, glmnet, partDSA)

In [None]:
#if (!require("BiocManager", quietly = TRUE))
#  install.packages("BiocManager")
#BiocManager::install("rexposome", force = TRUE)


## **2. Load the data** <a name="cargar-datos"></a>

Below are the **lines of code** required to **load** the Exposoma data set into the R environment. For this hands-on session we will use data from the HELIX exposome study. The HELIX study is a collaborative project between six population-based longitudinal birth cohort studies from six European countries (France, Greece, Lithuania, Norway, Spain and the United Kingdom).

<img src="https://github.com/alldominguez/isee_young_rennes_ws1/blob/main/figures/HELIX.png?raw=1" alt="HELIX logo" width="600"/>

**Note:** The data provided in this introductory course were simulated using data from the HELIX subcohort. Details of the HELIX project and the origin of the data collected can be consulted in the following publication: https://bmjopen.bmj.com/content/8/9/e021311 and website: https://www.projecthelix.eu/es .

* The **exposome data (n = 1301)** that we will use is contained in an Rdata file, the file contains the following files:

1. `phenotype` (outcomes)
2. `exposome`
3. `covariates` (covariates)


The `exposome` database contains more than **200 exposures**.

<img src="https://github.com/alldominguez/isee_young_rennes_ws1/blob/main/figures/HELIX_exposures.png?raw=1" alt="HELIX exposures" width="700"/>

The description of each variable (name, structure, variable type, transformation, ...) is detailed in the [codebook](https://github.com/alldominguez/isee_young_rennes/blob/main/data/codebook.csv).




**1.-** Cargamos los datos necesarios para la sesión

In [None]:
# Opción 1 (cargamos las bases de datos como archivos csv)
phenotype <- read.csv2(url("https://raw.githubusercontent.com/alldominguez/ISGlobal.sesion4.Exposoma/main/data/phenotype.csv"),  header = TRUE) # outcomes
exposome <- read.csv2(url("https://raw.githubusercontent.com/alldominguez/ISGlobal.sesion4.Exposoma/main/data/exposome.csv"), header = TRUE) # exposiciones
covariates <- read.csv2(url("https://raw.githubusercontent.com/alldominguez/ISGlobal.sesion4.Exposoma/main/data/covariates.csv"), header = TRUE) # covariables
codebook <- read.csv2(url("https://raw.githubusercontent.com/alldominguez/ISGlobal.sesion4.Exposoma/main/data/codebook.csv")) # codebook

In [None]:
# Opción 2 (cargamos un archivo RData, este archivo contiene los 3 dataset + el codebook)
load(url("https://raw.githubusercontent.com/alldominguez/ISGlobal.sesion4.Exposoma/main/data/exposome.RData")) #con esta línea cargamos todo

In [None]:
phenotype
exposome
covariates
codebook

**2.-** Revisamos la estructura y dimensión de los datos

In [None]:
dplyr::glimpse(phenotype) # 1301 observaciones

In [None]:
dplyr::glimpse(exposome) # 1301 observaciones

In [None]:
dplyr::glimpse(covariates) # 1301 observaciones

In [None]:
dplyr::glimpse(codebook) # este archivo contiene el codebook con la descripción de cada variable

* Si cargamos los archivos csv tenemos que hacer un paso adicional

In [None]:
#rownames(codebook) <- codebook[, 2]
#codebook <- codebook[, -1]

In [None]:
dplyr::glimpse(codebook)

**3.-** Hacemos un resumen rápido de nuestros datos, para revisar si estos se cargaron correctamente.

In [None]:
skimr::skim(phenotype)

In [None]:
skimr::skim(exposome)

In [None]:
skimr::skim(covariates)

*   Vamos a utilizar la función `rexposome::loadExposome` para crear un solo dataset (`ExposomeSet`) a traves de los `data.frames` que cargamos inicialmente. Primero ordenaremos los datos en el formato adecuado para nuestro análisis.




In [None]:
levels(codebook$family)

In [None]:
# Hacemos un subset de las variables para fines ilustrativos (puedes probar con otras familias)
#xpo.list <- as.character(codebook$variable_name[(codebook$family == "Organochlorines" |
                                                 #codebook$family == "Metals" |
                                                 #codebook$family == "Chemicals" |
                                                 #codebook$family == "Air Pollution" |
                                                 #codebook$family == "Indoor air" |
                                                 #codebook$family == "Built environment") &
                                                 #codebook$period == "Postnatal"]) cambiar por "Pregnancy"
#expo.list

In [None]:
# podemos probar con otro subset
expo.list <- as.character(codebook$variable_name[(codebook$family == "Organochlorines" |
                                                  codebook$family == "Metals" |
                                                  codebook$family == "Built environment") &
                                                  codebook$period == "Postnatal"])
expo.list

In [None]:
# podemos excluir algunas variables de exposición en las que no tenemos interes
expo.list <- expo.list[-which(expo.list == "hs_tl_cdich_None")]
expo.list <- expo.list[-which(expo.list == "hs_sumPCBs5_cadj_Log2")]

In [None]:
# seleccionamos columnas(variables) específicas provenientes de las familias que seleccionamos en el paso anterior y añadimos la variable ID
expo2 <- exposome[ ,c("ID", expo.list)]

In [None]:
# escalamos las variables continuas utilizando
index.cont <- c(3:9,11:ncol(expo2))
for (i in index.cont) {
  expo2[,i] <- expo2[,i]/IQR(expo2[,i],na.rm=T)
}

In [None]:
# revisamos las variables seleccionadas
dplyr::glimpse(expo2)

In [None]:
# listado de variables de exposición
codebook[expo.list,]$labels

* Combinamos datos de los ficheros `phenotype` y `covariates`

In [None]:
dat <- cbind(hs_zbmi_who = phenotype[ ,4],  # seleccionamos la 4 columna del dataframe phenotype y la llamamos hs_zbmi_who
             covariates[ ,2:13])  # seleccionamos de las columnas 2 a la 13 del dataframe covariates

# luego combinamos
data <- data.frame(expo2, dat)

In [None]:
# revisamos la base de datos generadas
dplyr::glimpse(codebook)

In [None]:
str(data)

Ahora crearemos nuestro objecto `ExposomeSet` combinando nuestros tres archivos que trabajamos en las líneas anteriores. Este dataset esta compuesto por:

* **3 familias de exposiciones** (built environment, metals, orgaanochlorines), son **32 exposiciones en total**. [variables continuas]
* **1 outcome** (z-score for BMI) [variable continua]
* **1 ventana de exposición** [periodo postnatal]



In [None]:
exp <- rexposome::loadExposome(
  exposures = expo2[expo.list],
  description = codebook[expo.list,],
  phenotype = dat,
  description.famCol = "family"
  )

In [None]:
dplyr::glimpse(exp)

Tambien podemos unir nuestras bases de datos usando la función `dplyr::inner_join`, este objecto llamado `exp_all` sera un `data.frame` y no un objecto `ExposomeSet` por lo que no podremos utilizar todas las funcionalidades del paquete `rexposome`

In [None]:
# con esta línea podemos unir todas las bases de datos utilizando ID como la key variable
exp_all <- phenotype %>%
           dplyr::inner_join(exposome, by = "ID") %>%
           dplyr::inner_join(covariates, by = "ID")

In [None]:
dplyr::glimpse(exp_all) # 1,301 observaciones y 242 variables

## **3.- Análisis descriptivo del Exposoma** <a name="descriptivo"></a>

Para el análsis descriptivo del exposoma vamos a utilizar la libreria `rexposome`. Esta libreria contiene diferentes funciones diseñadas para explorar y describir datos de exposoma (missing data, distribución, correlación). Algunas de sus funciones son: `normalityTest` ,`plotMissing`, `plotHistogram`, `plotFamily`, `correlation`, `plotCorrelation`.

In [None]:
# revisamos la base de datos que utilizaremos (es necesario que sea un ExposomeSet object)
str(exp)

Utilizaremos la función `rexposome::normaltyTest` para evaluar las variables del exposoma que siguen una distribución normal.

In [None]:
nm <- rexposome::normalityTest(exp)
table(nm$normality)

In [None]:
# revisamos todas las variables que no tienen una distribución normal
nm$exposure[!nm$normality]

### **3.1.- Visualización de la distribución y concentración de variables del Exposoma**

In [None]:
str(exp)

* **Histogramas**  

Utilizando la función `plotHistogram` revisamos la distribución de las variables categoricas y continuas de nuestra base de datos. En los histogramas podemos ver una exposción de cada familia



In [None]:
rexposome::plotHistogram(exp, select = "hs_pb_c_Log2") + ggtitle("Distribución exposición a Plomo")  # Histograma pb
rexposome::plotHistogram(exp, select = "hs_pcb180_cadj_Log2") + ggtitle("Distribución exposición a Bifenilos Policlorados (PCB's)") # Histograma pcb180
rexposome::plotHistogram(exp, select = "hs_popdens_h_Sqrt") + ggtitle("Distribución Densidad poblacional") # Histograma densidad poblacional

* **Boxplots**

Utilizando la función `plotFamily` podemos describir una exposición por familia y estratificar por grupo. A continuación vamos a ver algunos ejemplos (pueden probar con otras familias

In [None]:
# Contaminantes Organoclorados estratificado por Sexo
rexposome::plotFamily(exp, family = "Organochlorines", group = "e3_sex_None") +
   xlab('Contaminante') +
   ylab('Concentracion')

In [None]:
# Contaminantes Organoclorados** estratificado por Cohorte
rexposome::plotFamily(exp, family = "Organochlorines", group = "h_cohort") +
                      xlab('Contaminante') +
                      ylab('Concentracion')

In [None]:
# Contaminación del aire interior estratificado por Cohorte
#rexposome::plotFamily(exp, family = "Indoor air", group = "h_cohort")

In [None]:
# Metales estratificados por Cohorte
rexposome::plotFamily(exp, family = "Metals", group = "h_cohort")

### **3.2.- Correlación entre exposiciones**

La correlación entre variables es algo importante a tener en consideración cuando queremos hacer análisis en exposoma. Para mirar la correlación intrafamiliar e interfamiliar de las diferentes exposicioens, utilizaremos la funcion `rexposome::correlation`.

In [None]:
exp_cor <- rexposome::correlation(exp, use = "pairwise.complete.obs", method.cor = "spearman") # podemos usar pearson como método de correlación

In [None]:
extract(exp_cor)[1:4, 1:4]

Podemos visualizar la correlación de todas las exposiciones del exposoma (de nuestro set de datos) utilizando dos tipos de gráficos con la función `rexposome::plotCorrelation`. Cambiando el argumento type por `circos` o `matrix` obtenemos un gráfico diferente.

In [None]:
options(repr.plot.width=10, repr.plot.height=10)
rexposome::plotCorrelation(exp_cor, type = "circos")

In [None]:
options(repr.plot.width=8, repr.plot.height=8)
rexposome::plotCorrelation(exp_cor, type = "matrix")


### **3.3.- Análisis de Componentes Principales (PCA)**

El PCA es un algoritmo de machine learning no supervisado utilizado para análisis exploratorios y de reducción de dimensiones. Para aplicar este análisis es necesario que las exposiciones sean estandarizadas, para esto el paquete `rexposome` cuenta con la función `rexposome::standardize` que prepara nuestros datos para aplicar posteriormente el PCA utilizando la funcion `rexposome::pca`. Luego de aplicar el PCA podemos visualizar nuestro análisis utilizando la función `rexposome::plotPCA`

In [None]:
dplyr::glimpse(exp)

In [None]:
# Estandraizamos las variables de exposición de nuestro objeto exp
exp_std <- rexposome::standardize(exp, method = "normal")
exp_std

In [None]:
# Aplicamos el PCA a nuestro nuevo objeto estandarizado exp_std
exp_pca <- rexposome::pca(exp_std)
exp_pca

In [None]:
# Visualizamos los resultados del PCA
rexposome::plotPCA(exp_pca, set = "all")

***Interpretación PCA***

* **Exposures Space:** Este gráfico representa la variabilidad entre las diferentes exposiciones (es decir, las características o variables de entrada). Cada punto en este espacio corresponde a una exposición especifica. La posición de cada punto en las coordenadas PC1 y PC2 indica cuánta varibilidad de esa característica se captura en esas dos componentes principales.

* **Samples Space:** Este gráfico representa la variabilidad entre las diferentes muestras o sujetos. Cada punto representa una observación (individuos en nuestro ejemplo), y su posición en las coordenadas PC1 y PC2 indica cuánto de la varibilidad total de esa muestra se describe por esas dos componentes principales.

* **Explained Variance:** Este gráfico de barras muestra el porcentaje de varianza total del conjunto de datos que es explicado por cada componente principal individual. El primer componente (PC1) suele explicar la mayor parte de la variabilidad, seguido por el segundo (PC2), y así sucesivamente. La altura de cada barra indica cuánta varianza explica cada componente.

* **Accum. Explained Variance:** Este gráfico indica cuánta variabilidad total se ha capturado después de sumar cada componente principal sucesivo. Por ejemplo, la varianza explicada por PC1 + PC2 juntos, luego PC1 + PC2 + PC3, y así sucesivamente.

En **resumen** podemos concluir de nuestro análisis **PCA**:

**1.** PC1 explica el 18,76% de la varianza total, mientras que PC2 explica el 13,39%.  
**2.** Las exposiciones (caracteristicas del exposoma) se agrupan en regiones específicas en el espacio de exposiciones, lo que indica que algunas características son similares entre sí.   
**3.** Los individuos en el espacio de muestras se agrupan densamente en torno a un área central, con algunos grupos de puntos dispersos, lo que podría indicar posibles patrones dentro de los datos (clusters).  







In [None]:
rexposome::plotPCA(exp_pca, set = "samples", phenotype = "h_cohort")

**Interpretación PCA - cohorte**

En el gráfico podemos ver que las observaciones de las diferentes cohortes se superponen en gran medida, pero también hay áreas en las que ciertas observaciones tienden a agruparse más densamente. A pesar de que vemos cierta clusterización o agrupación de observaciones, existe una superposición significativa entre los puntos, **lo que podría indicar que las diferencias entre cohortes no son las principales fuentes de variación en este conjunto de datos**. Este tipo de gráfico es útil para visualizar cómo se relacionan las muestras entre sí en función de su variabilidad y cómo se distribuyen en función de una categoría de interés, en este caso la variable cohorte.



## **4.- Análisis de asociación del Exposoma** <a name="asociacion"></a>
Una vez exploradas y descritas las variables del exposoma que queremos estudiar, podemos mirar la asociación entre algún desenlace de salud y las diferentes exposiciones mediante diferentes aproximaciones como las mencionadas en la parte teórica.


### **4.1.- Exposome-Wide association analysis (ExWAS)**

El método ExWAS es una aproximación que nos permite lidiar con high-dimensionality data. Este método testea la asociación de cada una de las exposiciones con el desenlace de salud de interés, ajustando por variables confusoras (pero no por co-exposiciones), adicionalmente nos permite controlar por testeos múltiples. Este método puede ser aplicado a través de la función `rexposome::exwas`.

In [None]:
exwas <- rexposome::exwas(exp, formula = hs_zbmi_who ~ h_cohort + e3_sex_None + e3_yearbir_None, family = "gaussian")
exwas

In [None]:
# Obtenemos el threshold para el número efectivo de testeo (multiple testing): corrected p-value
rexposome::tef(exwas)

In [None]:
rexposome::extract(exwas)

In [None]:
exwas_result <- round(as.data.frame(extract(exwas)),6)
View(exwas_result)

In [None]:
# Seleccionamos las exposiciones que tienen un p-valor inferior al tef
exwas_result[exwas_result$pvalue<tef(exwas),]

Utilizando la función `rexposome::plotExwas` podemos visualizar los resultados del exwas usando un Manhattan plot. Este tipo de gráfico es particularmente útil ya que nos permite visualizar la asociación estadistica a traves del p-valor agrupado por las diferentes familias de exposición. Es importante mencionar que el Manhattan plot solo nos enseña los p-valores, pero ninguna metrica de el efecto de las exposiones es enseñado.

In [None]:
clr <- rainbow(length(familyNames(exp)))
names(clr) <- familyNames(exp)

rexposome::plotExwas(exwas, color = clr, show.effective = TRUE,
          exp.order=expo.list) +
  ggtitle("Exposome-Wide Association para BMI")

*   **Pregunta 1:** <font color='green'> **¿El análisis ExWas es controlado por multiple testing?** </font>




*   **Pregunta 2:** <font color='green'> **¿Si algún participante esta expuesto a PCB153, podemos decir que si también esta expuesto a PCB118 se reducirá su BMI?** </font>


Utilizando la función `rexposome::plotEffect` podemos ver el efecto estimado para un módelo determinado, en este caso el efecto de las exposiciones postnatales de las familias seleccionadas (Built environment, Metals, Organochlorines) en el BMI.

In [None]:
rexposome::plotEffect(exwas) + ggtitle("Forest plot para la asociación de variables del exposoma y BMI")

Otra forma de visualizar los resultados del ExWAS es mediante un volcano-plot, este tipo de gráfico es más ilustrativo ya que combina las tecnicas de visualización enseñadas anteriormente. Este tipo de gráfico enseña el p-valor y el tamaño del efecto de las diferentes exposiciones con el desenlace de salud estudiado (BMI). El volcano-plot puede ser generado mediante la función `rexposome::volcanoPlot`

In [None]:
rexposome::plotVolcano(exwas)

### **3.2.- Métodos para selección de variables**
Las técnicas para la selección de variables generalmente son realizadas automáticamente por algoritmos (utilizadas ampliamente en problemas de alta dimensionalidad). En principio estas técnicas nos permiten discriminar aquellas variables o exposiciones que no estan asociadas con un desenlace de salud. Estos métodos de seleción de variables estan implementadas en otras librerias, algunas de ellas son: `Mass`, `Caret`, `DSA`




* **Stepwise selection:** Esta técnica de selección utiliza una secuencia de pasos para permitir que las variables predictoras entren o salgan de un modelo de regresión una por una (genera múltiples modelos). A menudo, este procedimiento converge en un subconjunto de variables. Los criterios de entrada y salida se basan comúnmente en la significancia del p-valor. La importancia de las características se clasifica según su capacidad individual para explicar la variación en el resultado.





In [None]:
set.seed(234) #definimos una semilla
full.model <- lm(hs_zbmi_who ~ h_cohort + e3_sex_None + e3_yearbir_None +
                   hs_accesslines300_h_dic0 + hs_accesspoints300_h_Log +
                   hs_builtdens300_h_Sqrt + hs_connind300_h_Log +
                   hs_fdensity300_h_Log + hs_landuseshan300_h_None +
                   hs_popdens_h_Sqrt + hs_walkability_mean_h_None +
                   hs_accesslines300_s_dic0 + hs_accesspoints300_s_Log +
                   hs_builtdens300_s_Sqrt + hs_connind300_s_Log +
                   hs_fdensity300_s_Log + hs_landuseshan300_s_None +
                   hs_popdens_s_Sqrt + hs_as_c_Log2 +
                   hs_cd_c_Log2 + hs_co_c_Log2 + hs_cs_c_Log2 +
                   hs_cu_c_Log2 + hs_hg_c_Log2 + hs_mn_c_Log2 +
                   hs_mo_c_Log2 + hs_pb_c_Log2 + hs_dde_cadj_Log2 +
                   hs_ddt_cadj_Log2 + hs_hcb_cadj_Log2+
                   hs_pcb118_cadj_Log2 + hs_pcb138_cadj_Log2+
                   hs_pcb153_cadj_Log2 + hs_pcb170_cadj_Log2 +
                   hs_pcb180_cadj_Log2,
                 data = data)

In [None]:
step.model <- stepAIC(full.model, direction = "both",
                      trace = FALSE,
                      scope = list(lower = ~ h_cohort + e3_sex_None + e3_yearbir_None))

In [None]:
# revisamos los resultados al aplicar el modelo de stepwise
summary(step.model)

* **Elastic net:** Esta técnica se basa en la combinación de la penalización de LASSO y Ridge, con el objetivo de superar alguna de sus limitaciones. Debido a que en presencia de variables correlacionadas LASSO tiende a seleccionar una variable de un grupo e ignorar el resto y Ridge selecciona algunas variables con magnitudes similares, se logra un buen compromiso al utilizar Elastic net. Los parametros de penalización se optimizan mediante el procedimiento de cross-validation (lo que puede generar problemas de inestabilidad en los resultados)


In [None]:
# Definimos las variables predictoras del modelo (basicamente todas las exposiciones y covariables)
x <- model.matrix(hs_zbmi_who ~ h_cohort + e3_sex_None + e3_yearbir_None +
                    hs_accesslines300_h_dic0 + hs_accesspoints300_h_Log +
                    hs_builtdens300_h_Sqrt + hs_connind300_h_Log +
                    hs_fdensity300_h_Log + hs_landuseshan300_h_None +
                    hs_popdens_h_Sqrt + hs_walkability_mean_h_None +
                    hs_accesslines300_s_dic0 + hs_accesspoints300_s_Log +
                    hs_builtdens300_s_Sqrt + hs_connind300_s_Log +
                    hs_fdensity300_s_Log + hs_landuseshan300_s_None +
                    hs_popdens_s_Sqrt + hs_as_c_Log2 +
                    hs_cd_c_Log2 + hs_co_c_Log2 + hs_cs_c_Log2 +
                    hs_cu_c_Log2 + hs_hg_c_Log2 + hs_mn_c_Log2 +
                    hs_mo_c_Log2 + hs_pb_c_Log2 + hs_dde_cadj_Log2 +
                    hs_ddt_cadj_Log2 + hs_hcb_cadj_Log2+
                    hs_pcb118_cadj_Log2 + hs_pcb138_cadj_Log2+
                    hs_pcb153_cadj_Log2 + hs_pcb170_cadj_Log2 +
                    hs_pcb180_cadj_Log2, data)[,-1]


In [None]:
pen.fac <- c(rep(0,12),rep(1,ncol(x)-12))

In [None]:
set.seed(123)
model <- train(x=x, y=data$hs_zbmi_who,
  method = "glmnet",
  trControl = trainControl("cv", number = 10),
  tuneLength = 10, penalty.factor=pen.fac
)


In [None]:
# Best tuning parameter
model$bestTune

# Coefficient of the final model. You need
# to specify the best lambda
coef(model$finalModel, model$bestTune$lambda)

Las variables que tienen un **punto (.)** en lugar de un coeficiente han sido excluidas por el método; estos coeficientes se han reducido a cero y no forman parte del modelo final. Esto indica que, según el modelo, no aportan información que mejore significativamente la capacidad de predicción del modelo dadas las actuales parámetros de regularización y la información contenida en las otras variables.

* **Deletion Substitution Addition (DSA):** Es una técnica basada en multiples iteraciones mediante el uso de cross-validation, en donde se elimina, sustituye o agrega una variable en el modelo. Al igual que la técnica anterior esta sujeta a resultados inestables.

In [None]:
# instalamos/cargamos el DSA
pacman::p_load(partDSA)

In [None]:
control <- DSA.control(vfold=1)  # definimos que no vamos a hacer cross-validation

In [None]:
# Tiempo estimado de ejecución: 20 segundos aprox.

model_dsa <- partDSA(x, data$hs_zbmi_who, control = control)

In [None]:
print(model_dsa)

In [None]:
summary(model_dsa)

In [None]:
model_dsa$var.importance

**Variables seleccionadas por el algoritmo:**

hs_popdens_h_Sqrt  
hs_builtdens300_s_Sqrt  
hs_landuseshan300_s_None    
hs_dde_cadj_Log2    
hs_hcb_cadj_Log2    
hs_pcb170_cadj_Log2   

*   **Pregunta 3:** <font color='green'> **¿Cúal de los análisis es más confiable?** </font>

1. ExWas
2. Stepwise
3. Elastic net
4. DSA

*   **Pregunta 4:** <font color='green'> **¿Algunas de las variables fueron seleccionadas por los métodos de selección, seleccionarias estas seis variables para tú modelo de regressión?** </font>


### **3.3.- Clustering** ###

La identificación de patrones de exposición es de particular interes en estudios de exposoma. Utilizando técnicas de clustering en estudios de exposoma intentamos identificar grupos o grupos de sujetos que comparten perfiles de exposiciones similiares y verificamos si estas exposiciones están asociadas con un desenlace de salud.


In [None]:
# Tiempo estimado de ejecución: 48 segundos aprox.

pacman::p_load(cluster, factoextra)

In [None]:
# Centramos las exposiciones por cohorte
expo3 <- expo2
for (i in 2:length(expo2)) {
  mean_y <- with(expo3, {mean_y = ave(expo2[,i],data$h_cohort,FUN=mean)} )
  expo3[,i] <- expo3[,i] - mean_y
}

En técnicas de clustering como K-means, los centros de los clústeres se calculan como el promedio de los puntos que pertenecen a cada clúster. Si los datos no están centrados, las diferencias de media entre cohortes pueden sesgar estos centros y, por lo tanto, la asignación de los puntos a los clústeres. Centrar los datos ayuda a evitar este sesgo.

In [None]:
fviz_nbclust(expo3[,-1], kmeans, method = "gap_stat")

El número óptimo de clusters esta en el punto donde el estadístico Gap alcanza su valor máximo antes de empezar a disminuir.

*   **Pregunta 5:** <font color='green'> **¿Qué número de clusters seleccionarias basado en el Gap statistic?** </font>


In [None]:
set.seed(111)
km.res <- kmeans(expo3[,-1], centers = 5, nstart = 25)
clus.means <- aggregate(expo3[,-1], by=list(cluster=km.res$cluster), mean)

In [None]:
clus.means

Adicionalmente podemos ver por cuantos sujetos esta compuesto cada uno de los clusters o tambien por alguna otra variable.

In [None]:
table(km.res$cluster)

In [None]:
table(km.res$cluster, data$h_cohort) # miramos el cluster y la cohorte a la que pertenecen

Podemos visualizar los patrones del exposoma en los diferentes clusters identificados previamente.

* **Cluster 1 (N = 239):** Viven en áreas pobladas, densas y transitables; expuestos al Mo y al DDT.

In [None]:
options(repr.plot.width=10, repr.plot.height=4) # definimos el tamaño del gráfico en colab
par(mar = c(8, 4, 4, 2) + 0.1)  # c(bottom, left, top, right) ajustamos los margenes
barplot(as.numeric(clus.means[1,2:ncol(clus.means)]),
        col=c(rep("red",15),rep("green",9),rep("blue",8)),
        names.arg=names(clus.means)[-1],
        cex.names=.7,
        las=2,
        srt=90)

* **Cluster 2 (N = 425):** Alta exposición a DDT pero baja exposición a otros organoclorados; Baja densidad de población (posible medio rural).

In [None]:
options(repr.plot.width=10, repr.plot.height=4) # definimos el tamaño del gráfico en colab
par(mar = c(8, 4, 4, 2) + 0.1)  # c(bottom, left, top, right) ajustamos los margenes
barplot(as.numeric(clus.means[2,2:ncol(clus.means)]), col=c(rep("red",15),rep("green",9),rep("blue",8)),
        names.arg=names(clus.means)[-1],
        cex.names=.6,
        las=2,
        srt=90)

* **Cluster 3 (N = 113):** Exposición más baja a PCB170.

In [None]:
options(repr.plot.width=10, repr.plot.height=3) # definimos el tamaño del gráfico en colab
par(mar = c(8, 4, 4, 2) + 0.1)  # c(bottom, left, top, right) ajustamos los margenes
barplot(as.numeric(clus.means[3,2:ncol(clus.means)]), col=c(rep("red",15),rep("green",9),rep("blue",8)),
        names.arg=names(clus.means)[-1],
        cex.names=.6, las=2, srt=90)

* **Cluster 4 (N = 312):** Altamente expuestos a todos los organoclorados

In [None]:
options(repr.plot.width=10, repr.plot.height=3) # definimos el tamaño del gráfico en colab
par(mar = c(8, 4, 4, 2) + 0.1)  # c(bottom, left, top, right) ajustamos los margenes
barplot(as.numeric(clus.means[4,2:ncol(clus.means)]), col=c(rep("red",15),rep("green",9),rep("blue",8)),
names.arg=names(clus.means)[-1],
        cex.names=.6, las=2, srt=90)

* **Cluster 5 (N = 212):** La menor exposición a DDT

In [None]:
options(repr.plot.width=10, repr.plot.height=3) # definimos el tamaño del gráfico en colab
par(mar = c(8, 4, 4, 2) + 0.1)  # c(bottom, left, top, right) ajustamos los margenes
barplot(as.numeric(clus.means[5,2:ncol(clus.means)]), col=c(rep("red",15),rep("green",9),rep("blue",8)),
names.arg=names(clus.means)[-1],
        cex.names=.6, las=2, srt=90)

Finalmente podemos mirar la asociación de cada uno de los cluster con el desenlace de interes de salud ajustando por algunas covariales de interes.

In [None]:
mod_cluster <- lm(hs_zbmi_who ~ as.factor(km.res$cluster) + h_cohort + e3_sex_None + e3_yearbir_None, data = data) # ajustamos por cohorte, sexo y año de nacimiento
summary(mod_cluster)

In [None]:
# Tiempo estimado de ejecución: 60 segundos aprox.
pacman::p_load(dotwhisker)

In [None]:
options(repr.plot.width=10, repr.plot.height=5) # definimos el tamaño del gráfico en collab
# envolvemos nuestra función para quitar los warnings en colab
suppressWarnings(dotwhisker::dwplot(mod_cluster, vline = geom_vline(
           xintercept = 0,
           colour = "black",
           linetype = 2)) + theme_classic())

En los resultados de la regresión podemos ver que pertenecer al **cluster 2**, **cluster3** y **cluster 4** esta asociado con un incremento en BMI, esto va a depender al cluster que seleccionemos cómo referencia.   

### **3.3.- Análisis de Mezclas**

La idea principal en análisis de mezcla o mixtures, es que niveles bajos de exposición a un determinado contaminante pueden no producir efectos en salud (o efectos demasiado pequeños para ser detectados), pero la exposición combinada a múltiples contaminantes puede generar un efecto.

Los enfoques comúnmente utilizados en epidemiologia ambiental fallan en capturar la complejidad al evaluar el efecto combinado de múltiples exposiciones debido a algunas limitaciones:

* No evalúan el efecto conjunto de múltiples exposiciones.
* No consideran la interacción entre diferentes exposiciones.
* Se enfrentan a una alta correlación entre exposiciones.

Por lo tanto se necesitan métodos más sofisticados para investigar los efectos en salud de mezclas o múltiples exposiciones. En los últimos años diversos métodos han sido propuestos para estimar los efectos independientes y conjuntos de múltiples exposiciones.

La **selección** del **método correcto** en **análisis de mezclas** debe estar guiado por la **pregunta de investigación** que queremos responder.

<img src="https://github.com/alldominguez/ISGlobal.sesion4.Exposoma/blob/main/figures/PRIME.png?raw=1" alt="ISGlobal logo" width="500"/>  


En esta sección revisaremos dos métodos para el análisis de mezclas.

**1. Weighted Quantile Sum Regression (WQS)**  
**2. Bayesian Kernel Machine Regression (BKMR)**   

**Nota:** Los análisis de mezclas consumen mucho tiempo. Es por esto, que en esta sección se enseñaran el código necesario para realizar los análsis y la interpretación de los resultados, sin correr las celdas.  



Con la siguiente línea instalamos los paquetes necesarios para realizar el análisis de mezcla.

In [None]:
# Instalamos/cargamos los paquetes necesarios para realizar el análisis
pacman::p_load(gWQS, bkmr, MASS)

Para **facilitar la interpretación** de los resultados utilizaremos solo la familia de organoclorados para el análisis de mezcla.

In [None]:
codebook$family

In [None]:
# Hacemos un subset de la expolist utilizando solo los compuestos organoclorados
expo.list <- as.character(codebook$variable_name[(codebook$family == "Organochlorines") &
                                                  codebook$period == "Postnatal"]) # aquí cambiamos el periodo de exposicion a la etapa Prenatal
expo.list

In [None]:
expo2 <- exposome[ ,c("ID", expo.list)]

In [None]:
dat <- cbind(hs_zbmi_who = phenotype[ ,4],  # seleccionamos la 4 columna del dataframe phenotype y la llamamos hs_zbmi_who
             covariates[ ,2:13])  # seleccionamos de las columnas 2 a la 13 del dataframe covariates

# luego combinamos
data <- data.frame(expo2, dat)

* **Weighted Quantile Sum Regression (WQS)**

Es una método que opera en un marco de aprendizaje supervisado,  creando una puntuación única (la suma cuantil ponderada) que resume la exposición general a la mezcla e incluyendo esta puntuación en un modelo de regresión. Tiene como objetivo evaluar el efecto general de la mezcla sobre el resultado de interés. La puntuación se calcula como una suma ponderada (de modo que las exposiciones con efectos más débiles en el resultado tengan menor peso en el índice) de todas las exposiciones categorizadas en cuartiles, o más grupos, de modo que los valores extremos tengan menos impacto en la estimación del peso.

In [None]:
mod_wqs <- gwqs(hs_zbmi_who ~ wqs + h_cohort + e3_sex_None + e3_yearbir_None, mix_name = expo.list, data = data,
                q = 10, validation = 0.6, b = 100, b1_pos = FALSE,
                b1_constr = FALSE, family = "gaussian", seed = 2016)

In [None]:
options(repr.plot.width=10, repr.plot.height=5) # definimos el tamaño del gráfico en colab
gwqs_barplot(mod_wqs)

In [None]:
summary(mod_wqs)

In [None]:
options(repr.plot.width=10, repr.plot.height=5) # definimos el tamaño del gráfico en colab
gwqs_scatterplot(mod_wqs)

Los participantes que se encuentran el los deciles superiores de las exposiciones seleccionadas son los que estan asociadas con un menor BMI.

*   **Pregunta 6:** <font color='green'> **¿El modelo tiene en consideración posibles interacciones?** </font>

* **Bayesian Kernel Machine Regression (BKMR)**  

Es un método diseñado para abordar de una manera flexible y no-paramétrica, varios objetivos como; **1. Detección y estimación del efecto general de la mezcla** ; **2. Identificación del contaminante o grupo de contaminantes responsables de los efectos observados de la mezcla** ; **3. Visualización de la función exposición-respuesta** ; **4. Detección de interacciones entre contaminantes individuales**.







In [None]:
expo.list

In [None]:
# Definimos un dataframe nuevo utilizando los datos del objeto data, anteriormente utilizado en los análisis
X = data.frame(cohort2=as.numeric(data$h_cohort==2), cohort3=as.numeric(data$h_cohort==3),cohort4=as.numeric(data$h_cohort==4),
               cohort5=as.numeric(data$h_cohort==5), cohort6=as.numeric(data$h_cohort==6), female=as.numeric(data$e3_sex_None=="female"),
               year2004=as.numeric(data$e3_yearbir_None==2004), year2005=as.numeric(data$e3_yearbir_None==2005),
               year2006=as.numeric(data$e3_yearbir_None==2006), year2007=as.numeric(data$e3_yearbir_None==2007),
               year2008=as.numeric(data$e3_yearbir_None==2008), year2009=as.numeric(data$e3_yearbir_None==2009))

In [None]:
# Tarda aproximadamente 50 minutos
set.seed(111)
fitkm <- kmbayes(y = data$hs_zbmi_who, Z = data[,expo.list], X = X,
                 iter = 10000, verbose = FALSE, varsel = TRUE)

In [None]:
# Objeto que contiene
fitkm

Al utilizar varias iteraciones, es importante evaluar la convergencia de los parámetros. Observando los gráficos de convergiancia podemos verificar esto (esperamos un comportamiento aleatorio alrededor de la línea recta). Lo que generalmente observamos es una fase inicial de "burning", que deberíamos eliminar del análisis.

In [None]:
bkmr::TracePlot(fit = fitkm, par = "beta")

Adicionalmente podemos mirar la probabilidad de inclusion posterior usando `bkmr::ExtractPIPs`

In [None]:
bkmr::ExtractPIPs(fitkm)

Para obtener  la función exposición-respuesta para cada predictor/exposición utilizamos `bkmr::PredictorResponseUnivar`

In [None]:
pred.resp.univar <- bkmr::PredictorResponseUnivar(fit = fitkm)

In [None]:
for (i in 1:length(expo.list)) {
  z <- pred.resp.univar$z[pred.resp.univar$variable==expo.list[i]]
  est <- pred.resp.univar$est[pred.resp.univar$variable==expo.list[i]]
  lower <- pred.resp.univar$est[pred.resp.univar$variable==expo.list[i]]-1.96*pred.resp.univar$se[pred.resp.univar$variable==expo.list[i]]
  upper <- pred.resp.univar$est[pred.resp.univar$variable==expo.list[i]]+1.96*pred.resp.univar$se[pred.resp.univar$variable==expo.list[i]]
  plot(z,est,type="l", col="blue",lwd=4,
     xlab=expo.list[i],ylab="hs_zbmi_who", ylim=c(min(lower),max(upper)),cex.lab=1.5)
  lines(z,lower,lty=2, col="blue",lwd=2)
  lines(z,upper,lty=2, col="blue",lwd=2)
}

In [None]:
# Tambien podemos usar ggplot para mirar los graficos
options(repr.plot.width = 10, repr.plot.height = 10) # definimos el tamaño del gráfico en colab
ggplot(pred.resp.univar, aes(z, est, ymin = est - 1.96*se,
                             ymax = est + 1.96*se)) +
  geom_smooth(stat = "identity") + ylab("h(z)") +
  facet_wrap(~ variable) +
  theme_bw()

Adicionalmente podemos obtener el efecto conjunto de la mezcla utilizando la fúncion `bkmr::OverallRiskSummaries`

In [None]:
risks.overall <- bkmr::OverallRiskSummaries(fit=fitkm, qs=seq(0.25, 0.75, by=0.05),
                                      q.fixed = 0.5, method = "approx")

In [None]:
options(repr.plot.width = 8, repr.plot.height = 8) # definimos el tamaño del gráfico en colab
ggplot(risks.overall, aes(quantile, est, ymin = est - 1.96*sd,
                          ymax = est + 1.96*sd)) +
  geom_hline(yintercept=00, linetype="dashed", color="gray") +
  geom_pointrange() + scale_y_continuous(name="estimate")

Si queremos conocer la contribución de un predictor individual en el desenlace de salud analizado utilizamos la función `bkmr::SingVarRiskSummaries`.


In [None]:
risks.singvar <- SingVarRiskSummaries(fit= fitkm, qs.diff = c(0.25, 0.75),
                                      q.fixed = c(0.25, 0.50, 0.75),
                                      method = "approx")

In [None]:
options(repr.plot.width = 8, repr.plot.height = 8) # definimos el tamaño del gráfico en colab
ggplot(risks.singvar, aes(variable, est, ymin = est - 1.96*sd,
                          ymax = est + 1.96*sd, col = q.fixed)) +
       geom_hline(aes(yintercept=0), linetype="dashed", color="gray") +
       geom_pointrange(position = position_dodge(width = 0.75)) +
       coord_flip() + theme(legend.position="none")+scale_x_discrete(name="") +
       scale_y_continuous(name="estimate")