<a href="https://colab.research.google.com/github/alldominguez/ISGlobal.sesion4.Exposoma/blob/main/curso_exposoma_modulo_4.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Introducción al concepto del Exposoma y sus metodologías. Sesión 4 - "Estrategias para el análisis de datos de Exposoma."**  

<img src="https://github.com/alldominguez/ISGlobal.sesion4.Exposoma/blob/main/figures/isglobal.png?raw=1" alt="ISGlobal logo" width="300"/>  

<img src="https://github.com/alldominguez/ISGlobal.sesion4.Exposoma/blob/main/figures/exposoma.png?raw=1" alt="ISGlobal logo" width="500"/>

**Alan Domínguez**, Investigador Predoctoral del Instituto de Salud Global de Barcelona - ISGlobal.  
**Augusto Anguita-Ruiz**, Investigador Postdoctoral del Instituto de Salud Global de Barcelona - ISGlobal.  

El exposoma, descrito como "la totalidad de las exposiciones ambientales humanas desde la concepción en adelante", reconoce que los individuos estamos expuestos simultaneamente a multiples factores ambientales diferentes adoptando un efoque holístico para el descubrimento de factores etiológicos de la enfermedad. La ventaja prinicipal del enfoque del exposoma sobre otros más tradicionales "una exposición, una enfermedad o desenlace de salud" es que proporciona un framework para el estudio de múltiples riesgos ambientales (urbanos, químicos, estilo de vida, sociales, etc...) y sus efectos combinados.

El **objetivo** de esta sesión es ofrecer una **introducción a los distintos abordajes estadístico**s necesarios para responder a las principales cuestiones de investigación en exposoma, por lo que esta sesión se :

**1.- Análisis descriptivo:**  En una primera parte de la sesión se trabajará sobre el concepto de análisis descriptivo en exposómica, mediante el cual se extraen las primeras conclusiones sobre los datos. Entre otros objetivos, el análisis descriptivo persigue identificar posibles valores anómalos, factores de confusión o variables que requieran de transformaciones previas al análisis. A su vez, el análisis descriptivo permite comparar preliminarmente los grupos experimentales objeto de estudio, estudiar los patrones de correlación existentes entre factores de exposición, e identificar fenómenos de agrupación en los datos (tanto a nivel de individuos como de características). Todos ellos, pasos imprescindibles para elegir el abordaje estadístico posterior más adecuado.

**2.- Análisis de asociación:** El análisis de asociación persigue la identificación de los posibles factores de exposición ambiental asociados con distintos parámetros de salud. En este bloque de la sesión se presentarán por lo tanto distintos abordajes analíticos holísticos centrados en el estudio de los efectos de múltiples factores de exposición y sus mezclas sobre la salud. Esto incluye principalmente modelos como el ExWAS (Exposome-Wide Association Analysis), u otros para el estudio de interacciones, o fenómenos de no linealidad (e.g., Bayesian Kernel Machine Regression). También se presentará una introducción a los métodos de clustering o mezclas de exposición (e.g., Weighted Quantile Sum Regression). Durante su estudio, se introducirán conceptos de gran importancia en el análisis del exposoma como son la selección de características o la corrección de testeo múltiple.


# **Recordatorio: Introducción a NoteBook**

Dentro de este cuaderno (*NoteBook*), se le guiará paso a paso desde la carga de un conjunto de datos hasta el análisis descriptivo de su contenido.

El cuaderno de *Jupyter* (Python) es un enfoque que combina bloques de texto (como éste) junto con bloques o celdas de código. La gran ventaja de este tipo de celdas, es su interactividad, ya que pueden ser ejecutadas para comprobar los resultados directamente sobre las mismas. *Muy importante*: **el orden las instrucciones es fundamental**, por lo que cada celda de este cuaderno debe ser ejecutada secuencialmente. En caso de omitir alguna, puede que el programa lance un error, así que se deberá comenzar desde el principio en caso de duda.

Antes de nada:

Es **muy muy importante** que al comienzo se seleccione **"*Abrir en modo de ensayo*" (draft mode)**, arriba a la izquierda. En caso contrario, no permitirá ejecutar ningún bloque de código, por cuestiones de seguridad. Cuando se ejecute el primero de los bloques, aparecerá el siguiente mensaje: "*Advertencia: Este cuaderno no lo ha creado Google.*". No se preocupe, deberá confiar en el contenido del cuaderno (*NoteBook*) y pulsar en "Ejecutar de todos modos".

¡Ánimo!

Haga clic en el botón "play" en la parte izquierda de cada celda de código. Las líneas de código que comienzan con un hashtag (#) son comentarios y no afectan a la ejecución del programa.

También puede pinchar sobre cada celda y hacer "*ctrl+enter*" (*cmd+enter* en Mac).

Cada vez que ejecute un bloque, verá la salida justo debajo del mismo. La información suele ser siempre la relativa a la última instrucción, junto con todos los `print()` (orden para imprimir) que haya en el código.

## **ÍNDICE**

En este *notebook*:
1. Aprenderemos ....
2. Plantearemos sus ....
    
Contenidos:
1. [Instalación del entorno R y sus bibliotecas para el análisis de exposoma](#instalacion-librerias)    
2. [Cargar los datos](#cargar-datos)
4. [Análisis descriptivo del Exposoma](#descriptivo)   
5. [Visualización](#etiquetaD)
6. [ExWAS...](#etiquetaE)  
7. [Mixtures....](#etiquetaF)   
8. [Bibliografía](#etiquetaG)

## **1. Instalación del entorno R y librerias para el análisis del exposoma** <a name="instalacion-librerias"></a>

A continuación, instalamos/cargamos las librerias necesarias para esta sesión. En el contexto de análisis de exposoma, las bibliotecas de R nos ofrecen una manera mucho más cómoda de procesar, manipular y analizar los datos. Algunas de estas bibliotecas: `tidyverse`, `rexposome`, `bkmr`, `gWQS`, `RColorBrewer`.   
  
La instalación de R en nuestro entorno de Google Colab se realizará en el siguiente bloque de código. Hay que recordar que todas las instalaciones de bibliotecas que realicemos en el entorno de Google Colab solo permanecerán activas unas pocas horas, después de las cuales las bibliotecas instaladas se eliminan. Por lo tanto, será necesario que vuelvas a ejecutar los códigos de instalación de bibliotecas de esta sección cuando necesites ejecutar de nuevo notebook pasado este tiempo.

Por último, recordemos que cuando una celda utiliza código de R esto se indica mediante la simbología %%R en los notebooks de Python. Quitándo dicha línea, que sirve para indicar que lo que sigue en el notebook está escrito en R, podríamos ejecutar las mismas instrucciones en cualquier entorno de R distinto al notebook sin problemas. Por ejemplo, en nuestra propia máquina Windows, Linux, MacOS utilizando nuestra instalación local de R y RStudio.

El siguiente trozo de código, correspondiente a la instalación de R, es exclusivo al uso de los notebooks de Colab y sería equivalente a instalar R y RStudio en nuestras máquinas:

*  **Instalación de R directo desde las consola**

In [7]:
# Tiempo estimado de ejecución: 8 segundos aprox.

### Instalación de R en notebooks de Google Colab ###
!apt-get update
!apt-get install r-base
!pip install rpy2==3.5.1
%load_ext rpy2.ipython
print ("Instalación de R en Google Colab terminada")

ERROR: ignored

* **Instalar/cargar librerias para la sesión**

Instalaremos/cargaremos las librerias necesarias para la sesión práctica, para esto utilizaremos el paquete pacman, este paquete es una herramienta de administracion que combina funcionalidades de las funciones install.packages + library







In [3]:
install.packages("pacman") # nos permite instalar/cargar paquetes de manera simultanea

Installing package into ‘/usr/local/lib/R/site-library’
(as ‘lib’ is unspecified)



En el caso de algun problema para instalar las librerias `BiocManager` y `rexposome`(Warning message: , utilizaremos el siguiente código para instalarlas.

In [None]:
# Algunas librerias es necesario cargarlas directamente
# BiocManager para la instalación de bibliotecas de análisis bioinformático
# rexposome para la implementación de análisis descriptivos y secundarios en exposoma
# Paquetes fundamentalES para el análisis del exposoma (tarda aproximadamente 12 minutos en instalarse)
if (!require("BiocManager", quietly = TRUE))
    install.packages("BiocManager")
BiocManager::install("rexposome")

In [None]:
# Añadimos todas las librerias que necesitemos utilizar (si el paquete ya esta instalado, automaticamente cargara el paquete si esta en la funcion pacman::p_load())
pacman::p_load(tidyverse, corrplot, RColorBrewer, skimr, BiocManager, rexposome)

## **2. Cargar los datos** <a name="cargar-datos"></a>

A continuación, se muestran las **líneas de código** necesarias para **cargar** en el entorno de R el conjunto de datos de Exposoma. Para esta sesión práctica utilizaremos datos del estudio de exposoma HELIX. El estudio HELIX es un projecto colaborativo entre seis estudios longitudinales de cohortes de nacimiento basados en la población de seis paises Europeos (Francia, Grecia, Lituania, Noruega, Españana y Reino Unido).

<img src="https://github.com/alldominguez/ISGlobal.sesion4.Exposoma/blob/main/figures/HELIX.png?raw=1" alt="HELIX logo" width="500"/>

**Nota:** Los datos proporcionados en este curso introductorio fueron simulados a partir de los datos de la subcohorte HELIX. Detalles del projecto HELIX y el origen de los datos colectados pueden ser consultados en la siguiente publicación: https://bmjopen.bmj.com/content/8/9/e021311 y website: https://www.projecthelix.eu/es.

* Los **datos de exposoma (n = 1301)** que utilizaremos estan contenidos en un archivo Rdata, el archivo contiene los siguientes ficheros:

1. `phenotype` (outcomes)
2. `exposome` (exposiciones)
3. `covariates` (covariables)

La descripción de cada variable (nombre, estructura, tipo de variable, transformacion, ...) esta detallada en el [codebook](https://github.com/alldominguez/ISGlobal.sesion4.Exposoma/blob/main/data/codebook.csv).


La primera línea de cada fichero de datos (cabecera de la tabla) incluye los nombres de todas las variables separadas por comas, correspondiendo cada nombre con cada una de las columnas anteriormente mencionadas. Igualmente, para los archivos de fenotipos, covariables y exposoma, el resto de líneas del fichero (filas de la tabla) incluyen valores numéricos separados por comas (siendo de vital importancia que dicha información numérica vaya en formato inglés, porque los algoritmos que utilizaremos usan dicho formato y podrían confundir la coma de separación de datos con lo que sería la coma decimal en Español). A partir de la segunda línea del fichero, cada línea (fila de la tabla) contiene la información relativa a un niño. El tipo de fichero ideal para tal fin es el **CSV**, ya que puede ser fácilmente generado o editado desde *Microsoft Excel* u *OpenOffice Calc*. En nuestro caso, dado que han sido guardados Excel en español, debemos leerlos con la funcion read.csv2 (de tal forma que las comas sean codificadas de forma adecuada para su análisis posterior).

Los datos se encuentran disponibles vía *Google Drive*. No obstante, si estuviésemos en local con *RStudio* y/o con otro fichero de datos, sólo tendríamos que cambiar *url("https://drive.google...")* por *\"\<Unidad\>:\\\<Ruta\>\\\<fichero\>\"* (Ej: *\"C:\\Datos\\phenotype.csv\"* en el caso de un sistema operativo *Windows*).

In [75]:
remove(phenotype)

In [76]:
remove(exposome)

In [77]:
remove(covariates)

**1.-** Cargamos los datos necesarios para la sesión

In [57]:
# Opción 1 (cargamos las bases de datos como archivos csv)
phenotype <- read.csv2(url("https://raw.githubusercontent.com/alldominguez/ISGlobal.sesion4.Exposoma/main/data/phenotype.csv")) # outcomes
exposome <- read.csv2(url("https://raw.githubusercontent.com/alldominguez/ISGlobal.sesion4.Exposoma/main/data/exposome.csv")) # exposiciones
covariates <- read.csv2(url("https://raw.githubusercontent.com/alldominguez/ISGlobal.sesion4.Exposoma/main/data/covariates.csv")) # covariables
codebook <- read.csv2(url("https://raw.githubusercontent.com/alldominguez/ISGlobal.sesion4.Exposoma/main/data/codebook.csv")) # codebook

In [85]:
# Opción 2 (cargamos un archivo RData, este archivo contiene los 3 dataset y los carga de manera automatica)
load(url("https://raw.githubusercontent.com/alldominguez/ISGlobal.sesion4.Exposoma/main/data/exposome.RData"))
codebook <- read.csv2(url("https://raw.githubusercontent.com/alldominguez/ISGlobal.sesion4.Exposoma/main/data/codebook.csv")) # codebook

In [None]:
phenotype
exposome
covariates
codebook

**2.-** Revisamos la estructura y dimensión de los datos

In [None]:
str(phenotype) # 1301 observaciones

In [None]:
str(exposome) # 1301 observaciones

In [None]:
str(covariates) # 1301 observaciones

In [None]:
str(codebook) # este archivo contiene el codebook con la descripción de cada variable

**3.-** Hacemos un resumen rápido de nuestros datos, para revisar si estos se cargaron correctamente.

In [None]:
skimr::skim(phenotype)

In [None]:
skimr::skim(exposome)

In [None]:
skimr::skim(covariates)

Vamos a utilizar la función `rexposome::loadExposome` para crear un solo dataset (`ExposomeSet`) a traves de los `data-frames` que cargamos inicialmente. Es necesario ordenar los datos para estos cumplan lso requerimientos.


Ahora crearemos nuestro objecto `ExposomeSet` combinando nuestros tres archivos que trabajamos en las líneas anteriores.

## **3.- Análisis descriptivo del Exposoma** <a name="descriptivo"></a>

Vamos a utilizar la función `rexposome::loadExposome` para crear un solo dataset (ExposomeSet) a traves de los 3 ficheros que cargamos inicialmente