![imagen](./img/ejercicios.png)

# INFORMACIÓN DEL PROYECTO

### TÍTULO

**Correlation analysis of biological data during aging**

### TEMA

#### Objetivo del estudio:

Estoy desarrollando una startup que se basa en el uso de un dispositivo capaz de analizar biomarcadores sanguíneos con solo unas gotas de sangre. Después de obtener los resultados del análisis sanguíneo, nuestro objetivo es utilizar un algoritmo para descifrar el rango de edad del usuario y proporcionar una estimación del estado de salud.

Para construir eficazmente el algoritmo, necesitamos datos que correlacionen diversos factores, como la edad, marcadores sanguíneos, historial de enfermedades, hábito de fumar, patologías genéticas, consumo de fármacos, entre otros. La idea principal es realizar un análisis exhaustivo de todos los documentos proporcionados por la base de datos y establecer correlaciones entre la edad, el estado de salud y los biomarcadores sanguíneos, entre otros que nos puedan servir para la posterior construcción de un algoritmo predictivo.

#### Dataset: 

El conjunto de datos ha sido recopilado a través de la base de datos del portal Health and Retirement Study (https://hrsdata.isr.umich.edu) y (https://hrsdata.isr.umich.edu/data-products/special-access-downloads). Este portal alberga un estudio longitudinal que ha encuestado a una muestra representativa de aproximadamente 20.000 personas en Estados Unidos. Este estudio cuenta con el respaldo del Instituto Nacional sobre el Envejecimiento (NIA U01AG009740) y la Administración de la Seguridad Social de EEUU. La encuesta incluye datos detallados, como análisis sanguíneo completo, diversos biomarcadores, estudios sobre diabetes, historial de medicamentos, entre otros.

Para acceder a los datos, se requiere completar un documento denominado "Restricted Data Agreement". Las claves de acceso (usuario y contraseña) pueden proporcionarse a los profesores si es necesario; sin embargo, solo he compartido algunas listas de la base de datos debido a las regulaciones éticas y de privacidad aplicables a la recopilación y gestión de datos de salud de los pacientes.

Utilizaré datos de encuentas de 2016, 2018 y 2020, y las cruzaré con análisis de biomarcadores sanguineos (biomarker_2012, biomarker_2014 y biomarker_2016), análisis de sangre en vena de 2016 (VBS / VBS_subs / VBS_2), análisis de celulas sanguineas de 2016 (cells_2016) y un estudio cognitivo (cognitive_2016).

He añadido una carpeta /data_description, con la información adquirida en cada uno de los datasets.
La descripción de los títulos de las columnas (ahora con código), no las he subido por regulación de privacidad.


### HIPÓTESIS

Define aquí lo que será la hipótesis de tu proyecto.
Deberás tener más de una, pero tu proyecto lo harás teniendo una principal hipótesis.

**Hipótesis inicial #1**

Utilizando los datos de biomarcadores sanguíneos, esperamos encontrar que algunos de los siguientes cambien con la edad, para asi poder predecir un rango de edad del inidividuo tan solo sabiendo el nivel de los mismos:

- Total cholesterol (TC) an indicator of lipid levels
- High Density Lipoprotein cholesterol (HDL), an indicator of lipid levels
- Glycosylated hemoglobin (HbA1c) – an indicator of glycemic control over the past 2-3 months
- C-reactive protein (CRP), a general marker of systemic inflammation
- Cystatin C, an indicator of kidney functioning



**Hipótesis inicial #2**

Utilizando los datos de celulas sanguineas, esperamos encontrar que algunos de los siguientes factores cambien con la edad, para asi poder predecir un rango de edad del inidividuo tan solo sabiendo el nivel de los mismos:

- T cells
- B cells
- Natural Killer cells
- Monocytes
- Dendritic cells


## OBTENCIÓN DE LOS DATOS

### DATASETS Y FUENTES ALTERNATIVAS DE DATOS

Incluye aquí una vista del dataset o datasets de los que partirás para poder evaluar tu hipótesis. <br>


También incluye el origen de estos datos y su fuente (**esto ya lo he mencionado arriba**).

In [4]:
import pandas as pd

#Ojo, de estos tres enseño solo una muestra porque son enormes y tarda mucho en cargar:
survey_2016 = pd.read_excel("./datasets/survey_cut_2016.xlsx")
survey_2018 = pd.read_excel("./datasets/survey_cut_2018.xlsx")
survey_2020 = pd.read_excel("./datasets/survey_cut_2020.xlsx")

biomarker_2012 = pd.read_excel("./datasets/biomarker_2012.xlsx")
biomarker_2014 = pd.read_excel("./datasets/biomarker_2014.xlsx")
biomarker_2016 = pd.read_excel("./datasets/biomarker_2016.xlsx")
cognitive_2016 = pd.read_excel("./datasets/cognitive_2016.xlsx")
vbs_2016 = pd.read_excel("./datasets/vbs_2016.xlsx")
vbs_2_2016 = pd.read_excel("./datasets/vbs_2_2016.xlsx")
vbs_sub_2016 = pd.read_excel("./datasets/vbs_sub_2016.xlsx")

Muestra mediante un head() los principales datasets con los que vas a trabajar

In [2]:
survey_2016.head()

Unnamed: 0,HHIDPN,HHID,PN,PSUBHH,PCSR,PFAMR,PFINR,HHIDN,PSUBHHN,PHHIDN,...,PQR066R,PQP066R,PQR076R,PQP076R,PQR085M,PQR085R,PQR085A,PQP085M,PQP085R,PQP085A
0,10001010,10001,10,0,1,1,1,10001,0,100010,...,,,,,12.0,900.0,10800.0,,,
1,10003030,10003,30,0,1,1,1,10003,0,100030,...,,,,,12.0,800.0,9600.0,,,
2,10004040,10004,40,0,1,1,1,10004,0,100040,...,,,,,12.0,1800.0,21600.0,,,
3,10013040,10013,40,1,1,1,1,10013,1,100131,...,,,,,12.0,1100.0,13200.0,,,
4,10038010,10038,10,0,5,5,1,10038,0,100380,...,,,,,12.0,2000.0,24000.0,12.0,1500.0,18000.0


In [5]:
survey_2018.head()

Unnamed: 0,HHIDPN,RAHHIDPN,HHID,PN,QSUBHH,QCSR,QFAMR,QFINR,HHIDN,QSUBHHN,...,QQR066R,QQP066R,QQR076R,QQP076R,QQR085M,QQR085R,QQR085A,QQP085M,QQP085R,QQP085A
0,10003030,10003030,10003,30,0,1,1,1,10003,0,...,,,,,12.0,700.0,8400.0,,,
1,10004040,10004040,10004,40,0,1,1,1,10004,0,...,,,,,12.0,1500.0,18000.0,,,
2,10013040,10013040,10013,40,1,1,1,1,10013,1,...,,,,,12.0,1100.0,13200.0,,,
3,10038010,10038010,10038,10,0,5,5,1,10038,0,...,,,,,12.0,2000.0,24000.0,12.0,2000.0,24000.0
4,10038040,10038040,10038,40,0,1,1,5,10038,0,...,,,,,12.0,2000.0,24000.0,12.0,2000.0,24000.0


In [10]:
survey_2020.head()

Unnamed: 0,HHIDPN,RAHHIDPN,HHID,PN,RSUBHH,RCSR,RFAMR,RFINR,HHIDN,RSUBHHN,...,RQR066R,RQP066R,RQR076R,RQP076R,RQR085M,RQR085R,RQR085A,RQP085M,RQP085R,RQP085A
0,10003030,10003030,10003,30,0,1,1,1,10003,0,...,,,,,12.0,1120.0,13440.0,,,
1,10004040,10004040,10004,40,1,1,1,1,10004,1,...,,,,,12.0,1800.0,21600.0,,,
2,10013040,10013040,10013,40,1,1,1,1,10013,1,...,,,,,12.0,1200.0,14400.0,,,
3,10038010,10038010,10038,10,0,1,5,1,10038,0,...,,,,,12.0,2226.0,26712.0,12.0,1723.0,20676.0
4,10038040,10038040,10038,40,0,5,1,5,10038,0,...,,,,,12.0,1723.0,20676.0,12.0,2226.0,26712.0


In [6]:
biomarker_2012.head()

Unnamed: 0,HHID,PN,NA1CUW,NA1C_ADJ,NHDLUW,NHDL_ADJ,NTCUW,NTC_ADJ,NCRPUW,NCRP_ADJ,NCYSCUW,NCYSC_ADJ,NBLVERSION,NBIOWGTR
0,10063,10,,,73.0,45.87,232.0,151.81,1.93,1.67,0.91,1.63,1,4646.0
1,10083,20,5.2,5.3,61.0,37.31,305.0,198.98,22.9,19.01,0.74,1.35,1,4756.0
2,10097,40,4.2,3.77,69.0,43.02,179.0,117.55,0.99,0.89,0.28,0.58,1,15531.0
3,10106,10,,,70.0,43.73,366.0,238.41,1.15,1.03,0.57,1.06,1,12684.0
4,10106,20,6.7,7.59,93.0,60.15,469.0,304.97,34.42,28.54,0.55,1.03,1,13618.0


In [7]:
biomarker_2014.head()

Unnamed: 0,HHID,PN,OA1CUW,OA1C_ADJ,OHDLUW,OHDL_ADJ,OTCUW,OTC_ADJ,OCRPUW,OCRP_ADJ,OCYSCUW,OCYSC_ADJ,OBIOWGTR,OBLVERSION
0,3,20,4.1,3.75376,58.476,47.317576,161.0,115.499714,1.22,0.685549,1.2,1.600017,12903,1
1,10003,30,5.5,5.870134,90.777,73.592153,223.0,159.436666,17.74,19.965716,1.59,2.109239,13704,1
2,10004,40,5.2,5.416625,63.458,51.37008,371.0,264.31842,1.16,0.64336,0.41,0.568516,13618,1
3,10013,40,5.5,5.870134,66.129,53.54275,264.0,188.491746,1.6,0.964614,0.96,1.286649,12471,1
4,10038,10,5.6,6.021304,72.311,58.571369,227.0,162.271308,0.89,0.460819,0.82,1.103852,14709,1


In [8]:
biomarker_2016.head()

Unnamed: 0,HHID,PN,PA1CUW,PA1C_ADJ,PHDLUW,PHDL_ADJ,PTCUW,PTC_ADJ,PCRPUW,PCRP_ADJ,PCYSCUW,PCYSC_ADJ,PBLVERSION
0,10075,20,,,68.0,61.46783,231.0,164.223628,4.42,4.278528,1.541,1.381702,1
1,10097,40,5.1,5.110263,67.0,60.526771,356.0,241.020878,0.68,0.680743,0.87,0.680781,1
2,10099,10,5.7,6.021532,36.0,31.353955,274.0,190.641882,4.17,4.040753,1.377,1.210389,1
3,10106,10,5.7,6.021532,88.0,80.289002,354.0,239.792122,,,,,1
4,10106,20,6.4,7.084678,51.0,45.469834,267.0,186.341236,16.95,16.01607,1.262,1.090261,1


In [9]:
cognitive_2016.head()

Unnamed: 0,HHID,PN,HCAP16WGTR,R1RAGE,R1VOLSTMT,R1RECORDEDIW,R1LANGUAGE_IW,R1IFLAG,R1IWMONTH,R1IWYEAR,...,R1SMELL_RED5,R1SMELL_RED6,R1SMELL_BLACK1,R1SMELL_BLACK2,R1SMELL_BLACK3,R1SMELL_BLACK4,R1SMELL_BLACK5,R1SMELL_SMOKE,R1SMELL_COLD,R1SMELL_ALLERGY
0,10004,40,17148,70.0,1,1,1.0,1,1.0,2017.0,...,4.0,3.0,3.0,3.0,1.0,2.0,2.0,5.0,5.0,5.0
1,10038,10,16431,79.0,1,1,1.0,1,7.0,2016.0,...,1.0,3.0,1.0,2.0,1.0,2.0,2.0,5.0,5.0,5.0
2,10059,20,18512,81.0,1,1,1.0,1,1.0,2017.0,...,1.0,3.0,1.0,1.0,1.0,2.0,3.0,1.0,5.0,5.0
3,10075,20,9209,80.0,1,1,2.0,1,5.0,2017.0,...,1.0,3.0,1.0,3.0,1.0,2.0,2.0,5.0,5.0,5.0
4,10106,10,10982,85.0,1,1,1.0,1,10.0,2016.0,...,,,,,,,,,,


In [17]:
vbs_2016.head()

Unnamed: 0,HHID,PN,PABAS,PAEOS,PALB,PALKP2,PALT,PALYM,PAMON,PANEU,...,PRDW,PTGF,PTP,PWBC,PVBSWGTR,PVBSWHY0WGT,PVBS_N_DAYS,PCMVGINT,PFASTYN,VERSION
0,10013,40,0.1,0.3,4.1,50.0,15.0,3.9,1.0,6.7,...,16.3,95.0,7.2,11.9,21019.066406,1,46,3.0,1.0,1
1,10038,10,0.0,0.1,4.0,48.0,16.0,1.5,0.5,3.9,...,12.8,91.0,6.8,6.0,9353.600586,1,38,2.0,1.0,1
2,10038,40,0.0,0.2,4.1,89.0,21.0,1.1,0.4,3.6,...,14.9,89.0,7.3,5.4,9941.90918,1,36,2.0,5.0,1
3,10075,20,0.0,0.2,4.3,77.0,27.0,3.0,0.5,3.7,...,14.8,191.0,7.5,7.3,5188.094238,1,121,3.0,5.0,1
4,10147,10,0.0,0.1,3.6,64.0,12.0,1.6,0.3,1.9,...,13.5,96.0,6.6,4.0,12060.642578,1,34,3.0,5.0,1


In [18]:
vbs_2_2016.head() 

Unnamed: 0,HHID,PN,PVD2,PVD3,PVD3_EPIMER,PTGF_BETA,PIL10,PIL1RA,PIL6,PTNFR1,PIGF1,VERSION
0,10013,40,0.29,41.52,1.72,28298.32,3.72,337.68,2.02,1800.65,125.0,1
1,10038,10,0.5,26.67,1.32,31650.09,4.18,476.46,3.22,1235.61,127.0,1
2,10038,40,0.58,33.97,1.74,46258.52,3.98,489.26,0.71,1519.17,115.0,1
3,10075,20,0.71,51.27,3.27,50627.77,2.93,602.78,6.05,1884.16,60.0,1
4,10147,10,29.89,5.65,1.08,33868.92,6.53,401.06,4.83,2354.28,103.0,1


In [19]:
vbs_sub_2016.head()

Unnamed: 0,HHID,PN,PMTDNACN,PHCY,PBDNF,PCLUSTERIN,VERSION
0,10038,10,0.7929,11.0,48204.59,168.54523,1
1,10075,20,0.64669,19.0,37899.17,469.0593,1
2,10325,20,0.94084,9.0,33051.09,191.45128,1
3,10451,10,1.53996,13.0,47041.69,199.83541,1
4,10458,20,1.19968,17.0,,,1
