<a href="https://colab.research.google.com/github/alldominguez/ISGlobal.sesion4.Exposoma/blob/main/curso_exposoma_modulo4_v2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# **Introducción al concepto del Exposoma y sus metodologías. Sesión 4 - "Estrategias para el análisis de datos de Exposoma."**  

<img src="https://github.com/alldominguez/ISGlobal.sesion4.Exposoma/blob/main/figures/isglobal.png?raw=1" alt="ISGlobal logo" width="300"/>  

<img src="https://github.com/alldominguez/ISGlobal.sesion4.Exposoma/blob/main/figures/exposoma.png?raw=1" alt="ISGlobal logo" width="500"/>

**Alan Domínguez**, Investigador Predoctoral del Instituto de Salud Global de Barcelona - ISGlobal.  
**Augusto Anguita-Ruiz**, Investigador Postdoctoral del Instituto de Salud Global de Barcelona - ISGlobal.  

El exposoma, descrito como "la totalidad de las exposiciones ambientales humanas desde la concepción en adelante", reconoce que los individuos estamos expuestos simultaneamente a multiples factores ambientales diferentes adoptando un efoque holístico para el descubrimento de factores etiológicos de la enfermedad. La ventaja prinicipal del enfoque del exposoma sobre otros más tradicionales "una exposición, una enfermedad o desenlace de salud" es que proporciona un framework para el estudio de múltiples riesgos ambientales (urbanos, químicos, estilo de vida, sociales, etc...) y sus efectos combinados.

El **objetivo** de esta sesión es ofrecer una **introducción a los distintos abordajes estadísticos** necesarios para responder a las principales cuestiones de **investigación en exposoma**, por lo que esta sesión se :

**1.- Análisis descriptivo:**  En una primera parte de la sesión se trabajará sobre el concepto de análisis descriptivo en exposómica, mediante el cual se extraen las primeras conclusiones sobre los datos. Entre otros objetivos, el análisis descriptivo persigue identificar posibles valores anómalos, factores de confusión o variables que requieran de transformaciones previas al análisis. A su vez, el análisis descriptivo permite comparar preliminarmente los grupos experimentales objeto de estudio, estudiar los patrones de correlación existentes entre factores de exposición, e identificar fenómenos de agrupación en los datos (tanto a nivel de individuos como de características). Todos ellos, pasos imprescindibles para elegir el abordaje estadístico posterior más adecuado.

Alguno de los contenidos que revisaremos en esta sección:
* **Visualización de la distribución y concentración de variables del exposoma.**
* **Correlación entre exposiciones**
* **Análsis de Componentes Principales (PCA) aplicado a variables del exposoma.**

**2.- Análisis de asociación:** El análisis de asociación persigue la identificación de los posibles factores de exposición ambiental asociados con distintos parámetros de salud. En este bloque de la sesión se presentarán por lo tanto distintos abordajes analíticos holísticos centrados en el estudio de los efectos de múltiples factores de exposición y sus mezclas sobre la salud. Esto incluye principalmente modelos como el ExWAS (Exposome-Wide Association Analysis), u otros para el estudio de interacciones, o fenómenos de no linealidad (e.g., Bayesian Kernel Machine Regression). También se presentará una introducción a los métodos de clustering o mezclas de exposición (e.g., Weighted Quantile Sum Regression). Durante su estudio, se introducirán conceptos de gran importancia en el análisis del exposoma como son la selección de características o la corrección de testeo múltiple.

Alguno de los contenidos que revisaremos en esta sección:
* **Exposure Wide Association Analysis (ExWas)**
* **Métodos para la selección de variables (Stepwise, Elastic net, DSA)**
* **Weighted quantile sum regression**
* **Clustering**
* **Bayesian Kernel Machine Regression**

# **Recordatorio: Introducción a NoteBook**

Dentro de este cuaderno (NoteBook), se le guiará paso a paso desde la carga de un conjunto de datos hasta el análisis descriptivo de su contenido.
El cuaderno de Jupyter (Python) es un enfoque que combina bloques de texto (como éste) junto con bloques o celdas de código. La gran ventaja de este tipo de celdas, es su interactividad, ya que pueden ser ejecutadas para comprobar los resultados directamente sobre las mismas. Muy importante: el orden las instrucciones es fundamental, por lo que cada celda de este cuaderno debe ser ejecutada secuencialmente. En caso de omitir alguna, puede que el programa lance un error, así que se deberá comenzar desde el principio en caso de duda.
Antes de nada:
Es muy muy importante que al comienzo se seleccione "Abrir en modo de ensayo" (draft mode), arriba a la izquierda. En caso contrario, no permitirá ejecutar ningún bloque de código, por cuestiones de seguridad. Cuando se ejecute el primero de los bloques, aparecerá el siguiente mensaje: "Advertencia: Este cuaderno no lo ha creado Google.". No se preocupe, deberá confiar en el contenido del cuaderno (NoteBook) y pulsar en "Ejecutar de todos modos".
¡Ánimo!
Haga clic en el botón "play" en la parte izquierda de cada celda de código. Las líneas de código que comienzan con un hashtag (#) son comentarios y no afectan a la ejecución del programa.
También puede pinchar sobre cada celda y hacer "ctrl+enter" (cmd+enter en Mac).
Cada vez que ejecute un bloque, verá la salida justo debajo del mismo. La información suele ser siempre la relativa a la última instrucción, junto con todos los print() (orden para imprimir) que haya en el código.

## **ÍNDICE**
1. [Instalación del entorno R y sus bibliotecas para el análisis de exposoma](#instalacion-librerias)    
2. [Cargar los datos](#cargar-datos)
3. [Análisis descriptivo del Exposoma](#descriptivo)   
4. [Análisis de asociación del Exposoma](#asociacion)
  
8. [Bibliografía](#etiquetaG)

## **1. Instalación del entorno R y librerias para el análisis del exposoma** <a name="instalacion-librerias"></a>

A continuación, instalamos/cargamos las librerias necesarias para esta sesión. En el contexto de análisis de exposoma, las bibliotecas de R nos ofrecen una manera mucho más cómoda de procesar, manipular y analizar los datos. Algunas de estas bibliotecas: `tidyverse`, `skimr`, `rexposome`, `bkmr`,  `gWQS`.   
  
La instalación de R en nuestro entorno de Google Colab se realizará en el siguiente bloque de código. Hay que recordar que todas las instalaciones de bibliotecas que realicemos en el entorno de Google Colab solo permanecerán activas unas pocas horas, después de las cuales las bibliotecas instaladas se eliminan. Por lo tanto, será necesario que vuelvas a ejecutar los códigos de instalación de bibliotecas de esta sección cuando necesites ejecutar de nuevo notebook pasado este tiempo.

**Nota:** Recomendamos instalar las librerias **30 minutos** antes del comienzo de la sesión❗❗❗


* **Instalar/cargar librerias para la sesión**

Instalaremos/cargaremos las librerias necesarias para la sesión práctica, para esto utilizaremos el paquete `pacman`, este paquete es una herramienta de administración que combina funcionalidades de las funciones `install.packages` + `library`.


In [None]:
install.packages("pacman") # nos permite instalar/cargar paquetes de manera simultanea