# TRABAJO FINAL DE GRADO - PEC 2
###### Autor: Claudia Reina Fajardo
###### Octubre 2021

## Preparación y limpieza del dataset

In [1]:
# imports
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

In [2]:
# cargamos todas las tablas del dataset
dm = pd.read_csv('anaconda3/data/demographic.csv')
diet = pd.read_csv('anaconda3/data/diet.csv')
exm = pd.read_csv('anaconda3/data/examination.csv')
lab = pd.read_csv('anaconda3/data/labs.csv')
med = pd.read_csv('anaconda3/data/medications.csv', encoding= 'unicode_escape')
qst = pd.read_csv('anaconda3/data/questionnaire.csv')

### Demographic

In [3]:
# ejemplo de cabecera de una de la tabla Demographic
dm.head()

Unnamed: 0,SEQN,SDDSRVYR,RIDSTATR,RIAGENDR,RIDAGEYR,RIDAGEMN,RIDRETH1,RIDRETH3,RIDEXMON,RIDEXAGM,...,DMDHREDU,DMDHRMAR,DMDHSEDU,WTINT2YR,WTMEC2YR,SDMVPSU,SDMVSTRA,INDHHIN2,INDFMIN2,INDFMPIR
0,73557,8,2,1,69,,4,4,1.0,,...,3.0,4.0,,13281.237386,13481.042095,1,112,4.0,4.0,0.84
1,73558,8,2,1,54,,3,3,1.0,,...,3.0,1.0,1.0,23682.057386,24471.769625,1,108,7.0,7.0,1.78
2,73559,8,2,1,72,,3,3,2.0,,...,4.0,1.0,3.0,57214.803319,57193.285376,1,109,10.0,10.0,4.51
3,73560,8,2,1,9,,3,3,1.0,119.0,...,3.0,1.0,4.0,55201.178592,55766.512438,2,109,9.0,9.0,2.52
4,73561,8,2,2,73,,3,3,1.0,,...,5.0,1.0,5.0,63709.667069,65541.871229,2,116,15.0,15.0,5.0


El proceso de limpieza y preparación de estos datos está estrechamente relacionado con el significado de cada una de las columnas y la relevancia que estas pueden tener para nuestro estudio.

Por ello, pasaremos a detallar el contenido de cada una de las tablas:

**Demographic:**
https://wwwn.cdc.gov/Nchs/Nhanes/2013-2014/DEMO_H.htm#Codebook
* SEQN - Respondent sequence number: _código del participante de la encuesta_
* SDDSRVYR - Data release cycle: _código del estudio_
* RIDSTATR - Interview/Examination status: _indica si ha sido sólo entrevistado o entrevistado y examinado_
* RIAGENDR - Gender: _género_
* RIDAGEYR - Age in years at screening: _edad en años_
* RIDAGEMN - Age in months at screening - 0 to 24 mos: _edad en meses (para infantes hasta 2 años)_
* RIDRETH1 - Race/Hispanic origin: _raza sin opción asiática_
* RIDRETH3 - Race/Hispanic origin w/ NH Asian: _raza con opción asiática_
* RIDEXMON - Six month time period: _semestre en que se realizó la encuesta_
* RIDEXAGM - Age in months at exam - 0 to 19 years: _edad en meses (hasta 19 años)_
* DMQMILIZ - Served active duty in US Armed Forces: _referente a haber realizado un servicio activo para las fuerzas armadas de los EEUU_
* DMQADFC - Served in a foreign country: _referente a haber servido en un país extranjero durante un conflicto o en ayuda humanitaria:
* DMDBORN4 - Country of birth: _país de nacimiento_
* DMDCITZN - Citizenship status: _estado de la ciudadanía de EEUU_
* DMDYRSUS - Length of time in US: _tiempo que el participante lleva en EEUU_
* DMDEDUC3 - Education level - Children/Youth 6-19: _nivel educación niños_
* DMDEDUC2 - Education level - Adults 20+: _nivel educación adultos_
* DMDMARTL - Marital status: _estado civil_
* RIDEXPRG - Pregnancy status at exam: _estado de embarazo en mujeres de entre 20 y 44 años_
* SIALANG - Language of SP Interview: _lengua de la entrevista_
* SIAPROXY - Proxy used in SP Interview?: _uso de delegado para entrevista_
* SIAINTRP - Interpreter used in SP Interview?: _uso de intérprete para la entrevista_
* FIALANG - Language of Family Interview: _lengua de la entrevista familiar_
* FIAPROXY - Proxy used in Family Interview? _uso de delegado para entrevista familiar_
* FIAINTRP - Interpreter used in Family Interview?: _uso de intérprete para entrevista familiar_
* MIALANG - Language of MEC Interview: _lengua de la entrevista MEC_
* MIAPROXY - Proxy used in MEC Interview?: _uso de delegado para entrevista MEC_
* MIAINTRP - Interpreter used in MEC Interview?: _uso de interprete para entrevista MEC_
* AIALANGA - Language of ACASI Interview: _lengua de la entrevista ACASI_
* DMDHHSIZ - Total number of people in the Household: _total de personas en el hogar_
* DMDFMSIZ - Total number of people in the Family: _total de personas en la familia_
* DMDHHSZA - # of children 5 years or younger in HH: _número de niños hasta 5 años en el hogar_
* DMDHHSZB - # of children 6-17 years old in HH: _número de niños de 6 a 17 años en el hogar_
* DMDHHSZE - # of adults 60 years or older in HH: _número de personas a partir de 60 años en el hogar_
* DMDHRGND - HH ref person's gender: _género de la persona referente del hogar_
* DMDHRAGE - HH ref person's age in years: _edad de la persona referente del hogar_
* DMDHRBR4 - HH ref person's country of birth: _país de origen de la persona referente del hogar_
* DMDHREDU - HH ref person's education level: _nivel educativo de la persona referente del hogar_
* DMDHRMAR - HH ref person's marital status: _estado civil de la persona referente del hogar_
* DMDHSEDU - HH ref person's spouse's education level: _nivel educativo de la pareja de la persona referente del hogar_
* WTINT2YR - Full sample 2 year interview weight: _muestra completa de peso de la entrevista de 2 años_
* WTMEC2YR - Full sample 2 year MEC exam weight: _muestra completa de peso del examen MEC de 2 años_
* SDMVPSU - Masked variance pseudo-PSU: _pseudo-PSU de la unidad de variación enmascarada para la estimación de la varianza_
* SDMVSTRA - Masked variance pseudo-stratum: _pseudo-estrato variable de la unidad de varianza enmascarada para la estimación de la varianza_
* INDHHIN2 - Annual household income: _ingresos anuales del hogar_
* INDFMIN2 - Annual family income: _ingresos anuales de la familia_
* INDFMPIR - Ratio of family income to poverty: _relación entre la renta familiar y las pautas de pobreza_

De esta primera tabla ya podemos ver que tenemos distintas variables repetidas o que aportan datos únicamente sobre la encuesta y no sobre el encuestado.

Así, por ejemplo, la raza sin opción asiática, la edad en meses hasta los 19 años, el semestre en el que se realizó la encuesta y el código de la misma, la lengua de la entrevista y las distintas opciones de representante e intérprete, como también los datos relativos a la persona referente del hogar y el desdoblamiento hogar/familia, se pueden eliminar y reunificar, que es la tarea que realizaremos a continuación:


In [4]:
# borramos el código del estudio, puesto que no usaremos estudios de otros años
dm=dm.drop(['SDDSRVYR'], axis=1)

# borramos la edad en meses para menores de 2 años, ya que es un dato innecesario
dm=dm.drop(['RIDAGEMN'], axis=1)

# borramos la raza que no da opción de elegir origen asiático, ya que tenemos la otra variable más completa
dm=dm.drop(['RIDRETH1'], axis=1)

# borramos el periodo en el que se realizó la encuesta, ya que no tiene relevancia para nuestro estudio
dm=dm.drop(['RIDEXMON'], axis=1)

# borramos la edad en meses de los menores de 19 años, ya que no aporta información útil
dm=dm.drop(['RIDEXAGM'], axis=1)

# borramos el tiempo que lleva el encuestado en EEUU ya que muchas veces no se informa y ya tenemos la información sobre el estado de la ciudadanía
dm=dm.drop(['DMDYRSUS'], axis=1)

# borramos todos los datos relativos al lenguaje usado en las entrevistas así como el uso de representantes e intérpretes
dm=dm.drop(['SIALANG'], axis=1)
dm=dm.drop(['SIAPROXY'], axis=1)
dm=dm.drop(['SIAINTRP'], axis=1)
dm=dm.drop(['FIALANG'], axis=1)
dm=dm.drop(['FIAPROXY'], axis=1)
dm=dm.drop(['FIAINTRP'], axis=1)
dm=dm.drop(['MIALANG'], axis=1)
dm=dm.drop(['MIAPROXY'], axis=1)
dm=dm.drop(['MIAINTRP'], axis=1)
dm=dm.drop(['AIALANGA'], axis=1)

# nos decantaremos por reflejar los datos del hogar y no de la familia, puesto que muchas veces son equivalentes y en otras, la realidad del encuestado es la de su hogar actual.
dm=dm.drop(['DMDFMSIZ'], axis=1)

# eliminaremos también los datos de las personas referentes del hogar ya que nos queremos centrar en el paciente
dm=dm.drop(['DMDHRGND'], axis=1)
dm=dm.drop(['DMDHRAGE'], axis=1)
dm=dm.drop(['DMDHRBR4'], axis=1)
dm=dm.drop(['DMDHREDU'], axis=1)
dm=dm.drop(['DMDHRMAR'], axis=1)
dm=dm.drop(['DMDHSEDU'], axis=1)

# eliminaremos los datos sobre el peso de la encuesta y su varianza
dm=dm.drop(['WTINT2YR'], axis=1)
dm=dm.drop(['WTMEC2YR'], axis=1)
dm=dm.drop(['SDMVPSU'], axis=1)
dm=dm.drop(['SDMVSTRA'], axis=1)

# finalmente, eliminaremos los ingresos y nos quedaremos con el ratio de pobreza, ya que este nos resulta un mejor indicativo de la situación económica del encuestado
dm=dm.drop(['INDHHIN2'], axis=1)
dm=dm.drop(['INDFMIN2'], axis=1)

# visualización de la cabecera con los cambios
dm.head()

Unnamed: 0,SEQN,RIDSTATR,RIAGENDR,RIDAGEYR,RIDRETH3,DMQMILIZ,DMQADFC,DMDBORN4,DMDCITZN,DMDEDUC3,DMDEDUC2,DMDMARTL,RIDEXPRG,DMDHHSIZ,DMDHHSZA,DMDHHSZB,DMDHHSZE,INDFMPIR
0,73557,2,1,69,4,1.0,1.0,1,1.0,,3.0,4.0,,3,0,0,2,0.84
1,73558,2,1,54,3,2.0,,1,1.0,,3.0,1.0,,4,0,2,0,1.78
2,73559,2,1,72,3,1.0,1.0,1,1.0,,4.0,1.0,,2,0,0,2,4.51
3,73560,2,1,9,3,,,1,1.0,3.0,,,,4,0,2,0,2.52
4,73561,2,2,73,3,2.0,,1,1.0,,5.0,1.0,,2,0,0,2,5.0


Nos quedamos con las siguientes 18 columnas que renombraremos con los términos que aparecen en negrita:

* SEQN - **SEQN**: _código del participante de la encuesta_
* RIDSTATR - **exam**: _indica si ha sido sólo entrevistado o entrevistado y examinado_
* RIAGENDR - **gender**: _género_
* RIDAGEYR - **age**: _edad en años_
* RIDRETH3 - **race**: _raza con opción asiática_
* DMQMILIZ - **armed**: _referente a haber realizado un servicio activo para las fuerzas armadas de los EEUU_
* DMQADFC - **foreign**: _referente a haber servido en un país extranjero durante un conflicto o en ayuda humanitaria_
* DMDBORN4 - **country**: _país de nacimiento_
* DMDCITZN - **citizenship**: _estado de la ciudadanía de EEUU_
* DMDEDUC3 - **educationKids**: _nivel educación niños_
* DMDEDUC2 - **educationAdults**: _nivel educación adultos_
* DMDMARTL - **mStatus**: _estado civil_
* RIDEXPRG - **pregnancy**: _estado de embarazo en mujeres de entre 20 y 44 años_
* DMDHHSIZ - **numPeopleHouse**: _total de personas en el hogar_
* DMDHHSZA - **numToddler**: _número de niños hasta 5 años en el hogar_
* DMDHHSZB - **numChildren**: _número de niños de 6 a 17 años en el hogar_
* DMDHHSZE - **numOlder**: _número de personas a partir de 60 años en el hogar_
* INDFMPIR - **poverty**: _relación entre la renta familiar y las pautas de pobreza_

In [5]:
# renombrado de columnas
dm.columns=['SEQN','exam','gender','age','race','armed','foreign','country',
            'citizenship','educationKids','educationAdults','mStatus','pregnancy',
            'numPeopleHouse','numToddler','numChildren','numOlder','poverty']
dm.head()

Unnamed: 0,SEQN,exam,gender,age,race,armed,foreign,country,citizenship,educationKids,educationAdults,mStatus,pregnancy,numPeopleHouse,numToddler,numChildren,numOlder,poverty
0,73557,2,1,69,4,1.0,1.0,1,1.0,,3.0,4.0,,3,0,0,2,0.84
1,73558,2,1,54,3,2.0,,1,1.0,,3.0,1.0,,4,0,2,0,1.78
2,73559,2,1,72,3,1.0,1.0,1,1.0,,4.0,1.0,,2,0,0,2,4.51
3,73560,2,1,9,3,,,1,1.0,3.0,,,,4,0,2,0,2.52
4,73561,2,2,73,3,2.0,,1,1.0,,5.0,1.0,,2,0,0,2,5.0


### Diet

In [6]:
# ejemplo de cabecera de la tabla Diet
diet.head()

Unnamed: 0,SEQN,WTDRD1,WTDR2D,DR1DRSTZ,DR1EXMER,DRABF,DRDINT,DR1DBIH,DR1DAY,DR1LANG,...,DRD370QQ,DRD370R,DRD370RQ,DRD370S,DRD370SQ,DRD370T,DRD370TQ,DRD370U,DRD370UQ,DRD370V
0,73557,16888.327864,12930.890649,1,49.0,2.0,2.0,6.0,2.0,1.0,...,,,,,,,,,,
1,73558,17932.143865,12684.148869,1,59.0,2.0,2.0,4.0,1.0,1.0,...,,2.0,,2.0,,2.0,,2.0,,2.0
2,73559,59641.81293,39394.236709,1,49.0,2.0,2.0,18.0,6.0,1.0,...,,,,,,,,,,
3,73560,142203.069917,125966.366442,1,54.0,2.0,2.0,21.0,3.0,1.0,...,,,,,,,,,,
4,73561,59052.357033,39004.892993,1,63.0,2.0,2.0,18.0,1.0,1.0,...,,2.0,,2.0,,2.0,,2.0,,2.0


**Diet:**
https://wwwn.cdc.gov/nchs/nhanes/search/datapage.aspx?Component=Dietary&Cycle=2013-2014

Esta tabla está formada por 14 tablas distintas y un total de 168 columnas.

En ella se recogen datos desde la ingesta detallada de cada uno de los nutrientes durante dos días distintos, al tipo de alimento, información sobre los ingredientes, y finalmente, el uso de suplementos tanto durante 24h como en el periodo de un mes.

Podrían ser útiles los datos sobre determinada suplementación como los antiácidos o algunas vitaminas que puedan tener una relación con estados mentales como el estrés y la depresión, aunque para llegar a ese tipo de conclusión habría que hacer un análisis detallado del tipo de dieta para descartar estas causas.

Por lo tanto, descartaremos esta base de datos por excederse del alcance de este estudio, aunque en función de los resultados obtenidos podría ser interesante recordar que se posee dicha información.

### Examination

In [7]:
# ejemplo de cabecera de la tabla Examination
exm.head()

Unnamed: 0,SEQN,PEASCST1,PEASCTM1,PEASCCT1,BPXCHR,BPAARM,BPACSZ,BPXPLS,BPXPULS,BPXPTY,...,CSXLEAOD,CSXSOAOD,CSXGRAOD,CSXONOD,CSXNGSOD,CSXSLTRT,CSXSLTRG,CSXNART,CSXNARG,CSAEFFRT
0,73557,1,620.0,,,1.0,4.0,86.0,1.0,1.0,...,2.0,1.0,1.0,1.0,4.0,62.0,1.0,,,1.0
1,73558,1,766.0,,,1.0,4.0,74.0,1.0,1.0,...,3.0,1.0,2.0,3.0,4.0,28.0,1.0,,,1.0
2,73559,1,665.0,,,1.0,4.0,68.0,1.0,1.0,...,2.0,1.0,2.0,3.0,4.0,49.0,1.0,,,3.0
3,73560,1,803.0,,,1.0,2.0,64.0,1.0,1.0,...,,,,,,,,,,
4,73561,1,949.0,,,1.0,3.0,92.0,1.0,1.0,...,3.0,1.0,4.0,3.0,4.0,,,,,1.0


**Examination:**
https://wwwn.cdc.gov/nchs/nhanes/search/datapage.aspx?Component=Examination&Cycle=2013-2014

Esta tabla está formada por 31 tablas y un total de 224 columnas.

A continuación, resumiremos qué información encontramos en cada una de las tablas:

* Blood Pressure: _encontramos una serie de datos como la duración, distintas tomas de valores, el brazo elegido, el instrumental etc_ 
* Body Measures: _está formada por el peso, la altura, la circunferencia del cráneo, el BMI y medidas de distintas partes del cuerpo_
* Distintas tablas de datos de absorciometrías de rayos X: _que miden las densidades oseas de distintos huesos de cuerpo_
* Fluorosis: _que mide el grado de fluorosis de cada uno de los dientes del participante_
* Muscle Strength - Grip Test: _recoge una serie de datos mediante dinamómetro de empuñadura de la fuerza del participante_
* Oral Health: _consta de tres tablas que incluyen información sobre el estado de la dentición y la definición de cada uno de los dientes del participante, estado periodontal y recomendaciones de salud dental_
* Physical Activity Monitor: _son 4 tablas donde se recoge el detalle de los monitores de actividad física_
* Taste & Smell: _se centra en pruebas de gusto y olfato para valorar el grado de prevalencia de estos y la identificación de olores característicos_

Para nuestro estudio necesitaremos básicamente algunas medidas corporales y podremos descartar el resto de datos.


In [8]:
# borramos todo excepto los datos de medidas
exm=exm.drop(exm.columns.difference(['SEQN','BMXWT','BMXHT','BMXBMI']), axis=1)
exm.head()

Unnamed: 0,SEQN,BMXWT,BMXHT,BMXBMI
0,73557,78.3,171.3,26.7
1,73558,89.5,176.8,28.6
2,73559,88.9,175.3,28.9
3,73560,32.2,137.3,17.1
4,73561,52.0,162.4,19.7


Nos quedamos con las siguientes columnas que renombraremos en negrita:

* SEQN - **SEQN**: _código del participante de la encuesta_
* BMXWT - **weight**: _peso en kilogramos_
* BMXHT - **height**: _altura en centímetros_
* BMXBMI - **BMI**: _índice de masa corporal_

In [9]:
# renombrado de columnas
exm.columns=['SEQN','weight','height','BMI']
exm.head()

Unnamed: 0,SEQN,weight,height,BMI
0,73557,78.3,171.3,26.7
1,73558,89.5,176.8,28.6
2,73559,88.9,175.3,28.9
3,73560,32.2,137.3,17.1
4,73561,52.0,162.4,19.7


### Laboratory

In [10]:
# ejemplo de cabecera de la tabla Labs
lab.head()

Unnamed: 0,SEQN,URXUMA,URXUMS,URXUCR.x,URXCRS,URDACT,WTSAF2YR.x,LBXAPB,LBDAPBSI,LBXSAL,...,URXUTL,URDUTLLC,URXUTU,URDUTULC,URXUUR,URDUURLC,URXPREG,URXUAS,LBDB12,LBDB12SI
0,73557,4.3,4.3,39.0,3447.6,11.03,,,,4.1,...,,,,,,,,,524.0,386.7
1,73558,153.0,153.0,50.0,4420.0,306.0,,,,4.7,...,,,,,,,,,507.0,374.2
2,73559,11.9,11.9,113.0,9989.2,10.53,142196.890197,57.0,0.57,3.7,...,,,,,,,,,732.0,540.2
3,73560,16.0,16.0,76.0,6718.4,21.05,,,,,...,0.062,0.0,0.238,0.0,0.0071,0.0,,3.83,,
4,73561,255.0,255.0,147.0,12994.8,173.47,142266.006548,92.0,0.92,4.3,...,,,,,,,,,225.0,166.1


**Laboratory Data:**
https://wwwn.cdc.gov/nchs/nhanes/search/datapage.aspx?Component=Laboratory&Cycle=2013-2014

Está formado por más de 90 tablas y 424 columnas.

En ellas se recogen los resultados de laboratorio para distintas sustancias cancerígenas y nocivas, así como enfermedades, test de embarazo y datos sobre colesterol, insulina y metales entre otros.

Por ahora no existe ningún motivo que nos haga pensar que puedan ser útiles para el estudio, aunque se pueden dejar en retén por si hiciera falta refinar los resultados más adelante.

### Medications

In [11]:
# ejemplo de cabecera de la tabla Medications
med.head()

Unnamed: 0,SEQN,RXDUSE,RXDDRUG,RXDDRGID,RXQSEEN,RXDDAYS,RXDRSC1,RXDRSC2,RXDRSC3,RXDRSD1,RXDRSD2,RXDRSD3,RXDCOUNT
0,73557,1,99999,,,,,,,,,,2.0
1,73557,1,INSULIN,d00262,2.0,1460.0,E11,,,Type 2 diabetes mellitus,,,2.0
2,73558,1,GABAPENTIN,d03182,1.0,243.0,G25.81,,,Restless legs syndrome,,,4.0
3,73558,1,INSULIN GLARGINE,d04538,1.0,365.0,E11,,,Type 2 diabetes mellitus,,,4.0
4,73558,1,OLMESARTAN,d04801,1.0,14.0,E11.2,,,Type 2 diabetes mellitus with kidney complicat...,,,4.0


**Prescription Medications:**
https://wwwn.cdc.gov/Nchs/Nhanes/2013-2014/RXQ_RX_H.htm

* SEQN - Respondent sequence number: _código del participante de la encuesta_
* RXDUSE - Taken prescription medicine, past month: _toma de medicamentos con prescripción_
* RXDDRUG - Generic drug name: _nombre genérico del medicamento_
* RXDDRGID - Generic drug code: _código genérico del medicamento_
* RXQSEEN - Medicine container seen by interviewer: _indica si el entrevistador vio la caja del medicamento_
* RXDDAYS - Number of days taken medicine: _número de días tomando la medicina_
* RXDRSC1 - ICD-10-CM code 1: _código de enfermedad_
* RXDRSC2 - ICD-10-CM code 2: _código de enfermedad_ 
* RXDRSC3 - ICD-10-CM code 3: _código de enfermedad_
* RXDRSD1 - ICD-10-CM code 1 description: _descripción de enfermedad_
* RXDRSD2 - ICD-10-CM code 2 description: _descripción de enfermedad_
* RXDRSD3 - ICD-10-CM code 3 description: _descripción de enfermedad_
* RXDCOUNT - The number of prescription medicines reported: _cantidad de medicinas prescritas_

In [12]:
# borramos el código del medicamento, puesto que ya tenemos el nombre
med=med.drop(['RXDDRGID'], axis=1)

# borramos si el entrevistador vio la caja de medicamento
med=med.drop(['RXQSEEN'], axis=1)

# borramos los distintos códigos de enfermedades, ya que nos quedaremos con los nombres
med=med.drop(['RXDRSC1'], axis=1)
med=med.drop(['RXDRSC2'], axis=1)
med=med.drop(['RXDRSC3'], axis=1)


Dejamos este dataset preparado por si más adelante hiciera falta. Por ahora creemos que tenemos suficiente información en el resto de variables de los otros datasets.

### Questionnaire

In [13]:
# ejemplo de cabecera de la tabla Questionnaire
qst.head()

Unnamed: 0,SEQN,ACD011A,ACD011B,ACD011C,ACD040,ACD110,ALQ101,ALQ110,ALQ120Q,ALQ120U,...,WHD080U,WHD080L,WHD110,WHD120,WHD130,WHD140,WHQ150,WHQ030M,WHQ500,WHQ520
0,73557,1.0,,,,,1.0,,1.0,3.0,...,,40.0,270.0,200.0,69.0,270.0,62.0,,,
1,73558,1.0,,,,,1.0,,7.0,1.0,...,,,240.0,250.0,72.0,250.0,25.0,,,
2,73559,1.0,,,,,1.0,,0.0,,...,,,180.0,190.0,70.0,228.0,35.0,,,
3,73560,1.0,,,,,,,,,...,,,,,,,,3.0,3.0,3.0
4,73561,1.0,,,,,1.0,,0.0,,...,,,150.0,135.0,67.0,170.0,60.0,,,


**Questionnaire Data:**
https://wwwn.cdc.gov/nchs/nhanes/search/datapage.aspx?Component=Questionnaire&Cycle=2013-2014

Esta tabla está formada a partir de más de 40 tablas con distintas temáticas. En total, encontramos 953 columnas.

Estas recogen multiple información de hábitos, consumo, comportamiento y salud. Cabe prestar especial atención a cada una de estas tablas para seleccionar la información pertinente, puesto que de esta se pueden sacar algunos de los indicadores de salud mental que buscamos.

Revisaremos, pues, una por una para determinar qué variables nos pueden interesar:

* Acculturation: sobre el uso del lenguaje en el hogar. No es útil para el estudio.
* Alcohol Use: sobre el consumo de alcohol. En este caso puede ser interesante y nos quedaremos con ALQ130 que da la media de bebidas alcoholicas consumidas por día.
* Blood Pressure & Cholesterol: sobre la hipertensión y la hipercolesteronemia. Nos quedaremos con BPQ020 y BPQ080 que son las que recogen si alguna vez se les ha comunicado que padecen alguna de estas dos enfermedades.
* Cardiovascular Health: hace una serie de preguntas sobre dolores, disconfort y fatiga, por lo que no  lo incluiremos en el estudio por no ser determinantes sobre problemas cardiovasculares.
* Cognitive Functioning: esta tabla se centra en mayores de 60 años, por lo que la descartaremos también.
* Consumer Behavior: recoge el dinero gastado en comer fuera, delivery, supermercado e ítems que no son comida. No se incluirá por no aportar información relevante para el estudio (por lo menos no como un dato estático, ya que variaciones en estos gastos sí que podrían ser interesantes de analizar).
* Creatine Kinase: ofrece datos sobre la encima involucrada en la energía metabólica a nivel celular. No lo incluiremos en el estudio puesto que está sujeto a si el participante realizó ejercicio y si padeció dolor tras realizarlo.
* Current Health Status: sobre el estado de salud general. No añadiremos nada, puesto que más adelante tenemos otra tabla más al detalle que aporta la misma información sobre el estado general de salud.
* Dermatology: que recoge hábitos sobre protección solar, por lo que los descartaremos.
* Diabetes: aunque es un estudio muy completo al respecto, nos quedaremos con DIQ010 que nos da el indicador de si es o no diabético (o está en el borde del diagnóstico).
* Diet Behavior & Nutrition: la mayoría de preguntas giran alrededor de la lactancia y el consumo de leche, por lo que nos quedaremos con las siguientes columnas que nos pueden resultar más útiles, DBQ700 que valora en qué grado es saludable la dieta, DBD900 que da el número de comidas en una semana hechas en un fast food.
* Disability: esta tabla recoge si el participante tiene serias dificultades para ver, escuchar, caminar, concentrarse, asearse o hacer encargos. Todas las variables pueden resultar muy útiles, por lo que las aprovecharemos (DLQ010, DLQ020, DLQ040, DLQ050, DLQ060, DLQ080)
* Drug use: esta tabla también es interesante y muy completa, describiendo la cantidad de veces que se usa cada droga, la última vez que se usó, la edad en la que empezó a usarse... Para nuestro estudio nos quedaremos con la pregunta de uso de drogas blandas y el de drogas duras (DUQ200, DUQ240)
* Early Childhood: se centra sólo en los niños, por lo que descartaremos esta tabla.
* Food Security: se centra en si el encuestado no puede comer lo suficiente por no poder permitirselo y si recibe ayudas en este sentido. Aunque es interesante, descartaremos esta tabla puesto que hemos incluido la ratio de pobreza, que nos permite hacernos una idea de esta situación con un solo dato.
* Health Insurance: este dataset recoge los tipos de seguro a los que están suscritos (o no) los participantes. Como en EEUU no hay sanidad pública recogeremos la pregunta de si tienen seguro médico o no, ya que puede ser interesante examinar si esto tiene algún impacto en la salud mental (HIQ011)
* Hepatitis: recogeremos si el encuestado tiene Hepatitis B (HEQ010) o Hepatitis C (HEQ030)
* Hospital Utilization & Access to Care: de esta tabla puede ser útil saber el estado general de salud (HUQ010) y su estado comparado con el año anterior (HUQ020). Por último, añadiremos si el participante ha visitado a profesionales de la salud mental (HUQ090)
* Housing Characteristics: recoge el número de habitaciones del hogar. Irrelevante.
* Immunization: sobre vacunación. Irrelevante.
* Income: ya recogimos variables sobre la renta en el hogar. Repetido.
* Medical Conditions: en esta tabla nos quedaremos con todas aquellas variables que informan sobre las patologías que se padecen. Asma (MCQ010), Anemia (MCQ053), Psoriasis (MCQ070), Sobrepeso (MCQ080), Celiaquía (MCQ082), Artritis (MCQ160a), Gota (MCQ160n), Insuficiencia cardíaca (MCQ160b), Enfermedad coronaria (MCQ160c), Angina de pecho (MCQ160d), Ataque al corazón (MCQ160e), Ictus (MCQ160f), Emfisema (MCQ160g), Enfermedad tiroidea (MCQ160m), Bronquitis crónica (MCQ160k), Enfermedad del hígado (MCQ160l), Enfermedad crónica pulmonar obstructiva (MCQ160o), Ictericia (MCQ203), Cáncer (MCQ220). Recogeremos también aquellas variables de hábitos de salud como que el participante esté controlando el peso (MCQ370a) y realizando más ejercicio (MCQ370b).
* Mental Health - Depression Screener: esta tabla nos aporta información sobre estado de ánimo, descanso, apetito, autoimagen, concentración y pensamientos suicidas. Nos quedamos con todas las variables debido a su relevancia (DPQ010 a DPQ100)
* Occupation: nos quedaremos con la variable OCD150 que nos dice en qué estado de empleo estaban la última semana y OCQ180 que da el número de horas trabajadas.
* Oral Health: descartamos esta tabla por centrarse solo en los hábitos de visita al dentista.
* Osteoporosis: nos quedaremos sólo con la variable que recoge el diagnóstico (OSQ060).
* Pesticide Use: uso de insecticida (PUQ100) y uso de pesticida (PUQ110)
* Physical Activity: ya tenemos alguna variable de actividad, por lo que nos quedaremos con las de sedentarismo como horas frente al televisor (PAQ710) y horas frente al ordenador (PAQ715)
* Physical Functioning: descartamos por tener ya distintas variables representativas.
* Preventive Aspirin Use: descartamos por estar relacionada con problemas cardiovasculares, ya recogidos.
* Reproductive Health: se tomarán distintas variables puesto que pueden ser relevantes para la salud de las participantes femeninas. Regularidad en los periodos (RHQ031), Número de embarazos (RHQ160), Diabetes gestacional (RHQ162), Partos con bebés vivos (RHQ171), Histerectomía (RHD280), Extracción de ambos ovarios (RHQ305), Uso de píldora anticonceptiva (RHQ420), Uso de hormona femenina (RHQ540).
* Sexual Behavior: descartaremos las prácticas sexuales concretas por resultar irrelevantes, tomaremos la orientación sexual para investigar si puede tener alguna repercusión SXQ292 (hombres) y SXQ294 (mujeres)
* Sleep Disorders: descartamos por haber recogido ya la variable de problemas al dormir.
* Smoking - Cigarette Use: recogeremos si se han fumado más de 100 cigarrillos como indicador de si es o no fumador (SMQ020), descartamos el resto de tablas sobre tabaco porque en principio no necesitamos afinar tanto en este punto.
* Smoking - Household Smokers: descartamos
* Smoking - Recent Tobacco Use: descartamos
* Smoking - Secondhand Smoke Exposure: descartamos
* Taste & Smell: descartamos puesto que ya tuvimos alguna variable anterior y no aportaba demasiado a la investigación.
* Volatile Toxicant: esta tabla está enfocada a investigar los lugares en los que ha estado el participante y relacionar con exposición a algunos tóxicos. Descartamos por no ser la finalidad del estudio.
* Weight History: recogeremos el deseo que cambiar el peso (WHQ040), si han consumido menos alimentos para bajar de peso (WHD080A), hecho ejercicio (WHD080D), saltado comidas (WHD080E), tomado laxantes o vomitado (WHD080K).
* Weight History - Youth: el deseo de cambiar de peso (WHQ500), los intentos de perder peso (WHQ520).

In [14]:
# borramos todo excepto los datos descritos
qst=qst.drop(qst.columns.difference(['SEQN','ALQ130','BPQ020','BPQ080','DIQ010','DBQ700',
                                     'DBD900','DLQ010','DLQ020','DLQ040','DLQ050','DLQ060','DLQ080',
                                     'DUQ200','DUQ240','HIQ011','HEQ010','HEQ030','HUQ010','HUQ020',
                                     'HUQ090','MCQ010','MCQ053','MCQ070','MCQ080','MCQ082','MCQ160A',
                                     'MCQ160N','MCQ160B','MCQ160C','MCQ160D','MCQ160E','MCQ160F','MCQ160G',
                                     'MCQ160M','MCQ160K','MCQ160L','MCQ160O','MCQ203','MCQ220','MCQ370A',
                                     'MCQ370B','DPQ010','DPQ020','DPQ030','DPQ040','DPQ050','DPQ060','DPQ070',
                                     'DPQ080','DPQ090','DPQ100','OCD150','OCQ180','OSQ060','PUQ100','PUQ110','PAQ710',
                                     'PAQ715','RHQ031','RHQ160','RHQ162','RHQ171','RHD280','RHQ305','RHQ420','RHQ540',
                                     'SXQ292','SXQ294','SMQ020','WHQ040','WHD080A','WHD080D','WHD080E','WHD080K',
                                     'WHQ500','WHQ520']), axis=1)
qst.head()

Unnamed: 0,SEQN,ALQ130,BPQ020,BPQ080,DIQ010,DBQ700,DBD900,DLQ010,DLQ020,DLQ040,...,SMQ020,SXQ292,SXQ294,WHQ040,WHD080A,WHD080D,WHD080E,WHD080K,WHQ500,WHQ520
0,73557,1.0,1.0,1.0,1.0,2.0,8.0,2.0,2.0,2.0,...,1.0,,,3.0,,,,,,
1,73558,4.0,1.0,1.0,1.0,3.0,,2.0,2.0,2.0,...,1.0,1.0,,3.0,,,,,,
2,73559,,1.0,1.0,1.0,3.0,0.0,1.0,2.0,2.0,...,1.0,,,2.0,,,,,,
3,73560,,,,2.0,,,2.0,2.0,2.0,...,,,,,,,,,3.0,3.0
4,73561,,1.0,2.0,2.0,2.0,,2.0,2.0,2.0,...,2.0,,,1.0,,,,,,


A continuación y como hemos hecho con los otros datasets, renombraremos las variables para hacerlas más autoexplicativas e identificarlas más fácilmente.

Las referencias son:

* SEQN: **SEQN**
* ALQ130: **alcoholPerDay**
* BPQ020: **hypertension**
* BPQ080: **hypercholesteronemy**
* DIQ010: **diabetes**
* DBQ700: **healthyDiet**
* DBD900: **numFastFood**
* DLQ010: **hearing**
* DLQ020: **seeing**
* DLQ040: **concentrating**
* DLQ050: **walking**
* DLQ060: **bathing**
* DLQ080: **errands**
* DUQ200: **softDrugs**
* DUQ240: **hardDrugs**
* HIQ011: **insurance**
* HEQ010: **hepatitisB**
* HEQ030: **hepatitisC**
* HUQ010: **healthState**
* HUQ020: **compHealthState**
* HUQ090: **profMental**
* MCQ010: **asthma**
* MCQ053: **anemia**
* MCQ070: **psoriasis**
* MCQ080: **overweight**
* MCQ082: **celiac**
* MCQ160a: **arthritis**
* MCQ160n: **gout**
* MCQ160b: **heartFailure**
* MCQ160c: **coronaryHD** 
* MCQ160d: **anginaPectoris**
* MCQ160e: **heartAttack**
* MCQ160f: **stroke**
* MCQ160g: **emphysema**
* MCQ160m: **thyroid**
* MCQ160k: **bronchitis**
* MCQ160l: **liver**
* MCQ160o: **obstructPulmon**
* MCQ203: **jaundice**
* MCQ220: **cancer**
* MCQ370a: **weightCntrl**
* MCQ370b: **incExercice**
* DPQ010: **uninterested**
* DPQ020: **depressed**
* DPQ030: **sleep**
* DPQ040: **tired**
* DPQ050: **appetite**
* DPQ060: **yourself**
* DPQ070: **concentrateThings**
* DPQ080: **slowlyFast**
* DPQ090: **dead**
* DPQ100: **problems**
* OCD150: **employed**
* OCQ180: **hours**
* OSQ060: **osteoporosis**
* PUQ100: **insecticide**
* PUQ110: **pesticide**
* PAQ710: **tvHours**
* PAQ715: **pcHours**
* RHQ031: **period**
* RHQ160: **numPregnancy**
* RHQ162: **gestDiabet**
* RHQ171: **childbirth**
* RHD280: **hysterectomy**
* RHQ305: **ooferectomy**
* RHQ420: **contraceptive**
* RHQ540: **hormone**
* SXQ292: **sexMen**
* SXQ294: **sexWomen**
* SMQ020: **smoke**
* WHQ040: **wChange**
* WHD080A: **reduction**
* WHD080D: **exercice**
* WHD080E: **fasting**
* WHD080K: **bulimia**
* WHQ500: **wChangeK**
* WHQ520: **dietK**

In [15]:
# renombrado de columnas
qst.columns=['SEQN', 'alcoholPerDay', 'hypertension', 'hypercholesteronemy', 'diabetes', 'healthyDiet', 'numFastFood',
       'hearing', 'seeing', 'concentrating', 'walking', 'bathing', 'errands', 'uninterested',
       'depressed', 'sleep', 'tired', 'appetite', 'yourself', 'concentrateThings', 'slowlyFast',
       'dead', 'problems', 'softDrugs', 'hardDrugs', 'hepatitisB', 'hepatitisC', 'insurance',
       'healthState', 'compHealthState', 'profMental', 'asthma', 'anemia', 'psoriasis', 'overweight',
       'celiac', 'arthritis', 'gout', 'heartFailure', 'coronaryHD', 'anginaPectoris',
       'heartAttack', 'stroke', 'emphysema', 'thyroid', 'bronchitis', 'liver',
       'obstructPulmon', 'jaundice', 'cancer', 'weightCntrl', 'incExercice', 'employed', 'hours',
       'osteoporosis', 'tvHours', 'pcHours', 'insecticide', 'pesticide', 'period', 'numPregnancy',
       'gestDiabet', 'childbirth', 'hysterectomy', 'ooferectomy', 'contraceptive', 'hormone', 'smoke',
       'sexMen', 'sexWomen', 'wChange', 'reduction', 'exercice', 'fasting',
       'bulimia', 'wChangeK', 'dietK']
qst.head()

Unnamed: 0,SEQN,alcoholPerDay,hypertension,hypercholesteronemy,diabetes,healthyDiet,numFastFood,hearing,seeing,concentrating,...,smoke,sexMen,sexWomen,wChange,reduction,exercice,fasting,bulimia,wChangeK,dietK
0,73557,1.0,1.0,1.0,1.0,2.0,8.0,2.0,2.0,2.0,...,1.0,,,3.0,,,,,,
1,73558,4.0,1.0,1.0,1.0,3.0,,2.0,2.0,2.0,...,1.0,1.0,,3.0,,,,,,
2,73559,,1.0,1.0,1.0,3.0,0.0,1.0,2.0,2.0,...,1.0,,,2.0,,,,,,
3,73560,,,,2.0,,,2.0,2.0,2.0,...,,,,,,,,,3.0,3.0
4,73561,,1.0,2.0,2.0,2.0,,2.0,2.0,2.0,...,2.0,,,1.0,,,,,,


## Creación del dataset definitivo

Una vez seleccinadas todas las variables con las que trabajaremos, uniremos las tablas para tener en una sola linea toda la información de cada participante.

In [16]:
# mezclamos las tablas de datos médicos, examen y encuesta a partir del número de entrevistado
data=pd.merge(dm, exm, on='SEQN')
data=pd.merge(data, qst, on='SEQN')
data.head()

Unnamed: 0,SEQN,exam,gender,age,race,armed,foreign,country,citizenship,educationKids,...,smoke,sexMen,sexWomen,wChange,reduction,exercice,fasting,bulimia,wChangeK,dietK
0,73557,2,1,69,4,1.0,1.0,1,1.0,,...,1.0,,,3.0,,,,,,
1,73558,2,1,54,3,2.0,,1,1.0,,...,1.0,1.0,,3.0,,,,,,
2,73559,2,1,72,3,1.0,1.0,1,1.0,,...,1.0,,,2.0,,,,,,
3,73560,2,1,9,3,,,1,1.0,3.0,...,,,,,,,,,3.0,3.0
4,73561,2,2,73,3,2.0,,1,1.0,,...,2.0,,,1.0,,,,,,


Para poder realizar modelos de aprendizaje hemos de tener todos los datos informados. Por lo tanto, eliminaremos aquellas variables con mayores nulos haciendo prevalecer aquellas que nos dan datos sobre la salud mental de los pacientes.

In [17]:
data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 9813 entries, 0 to 9812
Data columns (total 97 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   SEQN                 9813 non-null   int64  
 1   exam                 9813 non-null   int64  
 2   gender               9813 non-null   int64  
 3   age                  9813 non-null   int64  
 4   race                 9813 non-null   int64  
 5   armed                6066 non-null   float64
 6   foreign              523 non-null    float64
 7   country              9813 non-null   int64  
 8   citizenship          9809 non-null   float64
 9   educationKids        2703 non-null   float64
 10  educationAdults      5588 non-null   float64
 11  mStatus              5588 non-null   float64
 12  pregnancy            1262 non-null   float64
 13  numPeopleHouse       9813 non-null   int64  
 14  numToddler           9813 non-null   int64  
 15  numChildren          9813 non-null   i

En el estudio hay 9813 participantes. 

Como queremos ver la relación con dolencias mentales, hemos de ver cuántos de estos participantes han respondido a los tests relacionados con salud mental.

Así vemos que:

* depressed: tiene 5396 respuestas
* sleep: tiene 5395 respuestas
* yourself: tiene 5394 respuestas
* concentrateThings: tiene 5394 respuestas
* dead: tiene 5393 respuestas
* profmental: tiene 8704 respuestas

Estos 6 indicadores nos muestran depresión, insomnio, autoestima, concentración, pensamientos de suicidio y haber tenido que recibir tratamiento profesional mental (por lo tanto, indefinido), este último será interesante de cruzarlo con los otros 4 problemas con el fin de detectar problemas mentales en el caso de no responder la encuesta, si vemos que coincide o que el número no es significativo, lo desecharemos como factor a tener en cuenta.

Por ahora, eliminaremos todas aquellas observaciones de estas variables que se presenten como nulos.

In [18]:
# Borrado de aquellas filas que no tengan completadas las siguientes variables
data.dropna(subset = ["depressed"], inplace=True)
data.dropna(subset = ["sleep"], inplace=True)
data.dropna(subset = ["yourself"], inplace=True)
data.dropna(subset = ["dead"], inplace=True)
data.dropna(subset = ["poverty"], inplace=True)

Partiendo de aquí eliminaremos aquellas columnas con muchos nulos, las que tengan menos pero no nos aporten nada y estudiaremos si vale la pena conservar alguna que tenga pocos nulos eliminando las filas que los contengan.

In [19]:
# eliminamos foreing por su gran cantidad de nulos
data=data.drop(['foreign'], axis=1)

# eliminamos citizenship ya que aunque aporta pocos nulos no nos da mucho valor al estudio
data=data.drop(['citizenship'], axis=1)

# en un primer lugar nos planteamos poder mirar factores que afecten sólo a las mujeres, pero esto nos 
# merma mucho el modelo en cuanto a cantidad de observaciones, por este motivo deberemos deshechar esos indicadores
data=data.drop(['pregnancy'], axis=1)
data=data.drop(['period'], axis=1)
data=data.drop(['numPregnancy'], axis=1)
data=data.drop(['gestDiabet'], axis=1)
data=data.drop(['childbirth'], axis=1)
data=data.drop(['hysterectomy'], axis=1)
data=data.drop(['ooferectomy'], axis=1)
data=data.drop(['contraceptive'], axis=1)
data=data.drop(['hormone'], axis=1)

# prescindiremos de peso, altura y masa muscular, ya que tenemos el indicador de problemas de peso
data=data.drop(['weight'], axis=1)
data=data.drop(['height'], axis=1)
data=data.drop(['BMI'], axis=1)

# eliminamos alcoholPerDay, numFastFood, problems, softDrugs y hardDrugs ya que tienen muchos nulos
data=data.drop(['alcoholPerDay'], axis=1)
data=data.drop(['numFastFood'], axis=1)
data=data.drop(['problems'], axis=1)
data=data.drop(['softDrugs'], axis=1)
data=data.drop(['hardDrugs'], axis=1)

# eliminamos también hours, osteoporosis, sexMen y sexWomen por el mismo motivo
data=data.drop(['hours'], axis=1)
data=data.drop(['osteoporosis'], axis=1)
data=data.drop(['sexMen'], axis=1)
data=data.drop(['sexWomen'], axis=1)

A continuación, hay algunas variables que se pueden rellenar aprovechando las categorías existentes.

In [20]:
# consultamos qué valores contiene educationKids
data.educationKids.unique()

array([nan, 15.,  9., 10., 13., 11., 12., 14., 66.])

 El nivel educativo está separado entre menores y mayores de edad. Podemos usar la siguiente correspondencia entre categorías:
* kids: 9-10-11-12 --> adults: 2.0
* kids: 13-14 --> adults: 3.0
* kids: 15 --> adults: 4.0
* kids: 66 --> adults: 1.0

In [21]:
# Creamos los índices
ind2 = data[data['educationKids']<=12].index.tolist()
ind3 = data[(data['educationKids']==13) | (data['educationKids']==14)].index.tolist()
ind4 = data[data['educationKids']==15].index.tolist()
ind1 = data[data['educationKids']==66].index.tolist()

# Rellenamos las correspondencias
for i in ind1:
    data.loc[i,"educationAdults"]=1.0
for i in ind2:
    data.loc[i,"educationAdults"]=2.0
for i in ind3:
    data.loc[i,"educationAdults"]=3.0
for i in ind4:
    data.loc[i,"educationAdults"]=4.0
   
# Creamos una nueva columna de educación
data['education']=data['educationAdults']

# Borramos antiguas columnas
data=data.drop(['educationKids'], axis=1)
data=data.drop(['educationAdults'], axis=1)

Finalmente rellenaremos nulos.

In [22]:
# Para el estado marital sabemos que los que no están informados son menores de edad, por lo que cambiaremos a soltero 
data.mStatus=data.mStatus.fillna(5.0)


# Reemplazamos el resto de nulos del dataset por 9.0 que es don't know
data=data.fillna(9.0)

data.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 5000 entries, 0 to 9805
Data columns (total 73 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   SEQN                 5000 non-null   int64  
 1   exam                 5000 non-null   int64  
 2   gender               5000 non-null   int64  
 3   age                  5000 non-null   int64  
 4   race                 5000 non-null   int64  
 5   armed                5000 non-null   float64
 6   country              5000 non-null   int64  
 7   mStatus              5000 non-null   float64
 8   numPeopleHouse       5000 non-null   int64  
 9   numToddler           5000 non-null   int64  
 10  numChildren          5000 non-null   int64  
 11  numOlder             5000 non-null   int64  
 12  poverty              5000 non-null   float64
 13  hypertension         5000 non-null   float64
 14  hypercholesteronemy  5000 non-null   float64
 15  diabetes             5000 non-null   f

Como vemos, hemos obtenido 66 columnas y 5000 observaciones.

A continuación, cambiaremos aquellas variables que están definidas por rangos (esto afecta especialmente a las variables que queremos estudiar):

Todas tienen el siguiente patrón:

* 0.0 --> not_at_all
* 1.0 --> several
* 2.0 --> more_half
* 3.0 --> every_day
* 7.0 --> refused
* 9.0 --> dk (don't know)

Por lo que 0 es un claro no (que representaremos como 0) y las categorías 1, 2 y 3 sería un sí con distintos grados (que representaremos como 1).

In [23]:
# cambios en variables a unificar rangos
variables = ['depressed', 'sleep', 'yourself', 'dead', 'uninterested', 'tired', 'appetite', 'concentrateThings', 
             'slowlyFast']

for variable in variables:
    data[variable] = data[variable].replace(2.0, 1.0)
    data[variable] = data[variable].replace(3.0, 1.0)


También nos encontramos con que la mayoría de variables codifican el "no" como 2, cuando a nivel programático un "no" suele ser un 0. Lo mismo ocurre en género, ya que masculino se suele representar con el 0 y female con el 1.

Por lo tanto, realizaremos, también, este cambio:

In [24]:
# cambios en gender
data['gender'] = data['gender'].replace(1, 0)
data['gender'] = data['gender'].replace(2, 1)

# cambios en employed
data['employed'] = data['employed'].replace(4.0, 0.0)

# dejamos los números para tvHours relativos a las horas que representan y cambiamos el 8 por 0, ya que significa nunca. 
# Por otro lado eliminamos 77 y 99 para no alterar los datos
data['tvHours'] = data['tvHours'].replace(8.0, 0.0)
data['tvHours'] = data['tvHours'].replace(77.0, np.nan)
data['tvHours'] = data['tvHours'].replace(99.0, np.nan)

# dejamos los números para pcHours relativos a las horas que representan y cambiamos el 8 por 0, ya que significa nunca. 
# Por otro lado eliminamos 77 y 99 para no alterar los datos
data['pcHours'] = data['pcHours'].replace(8.0, 0.0)
data['pcHours'] = data['pcHours'].replace(77.0, np.nan)
data['pcHours'] = data['pcHours'].replace(99.0, np.nan)

# cambios en reduction
data['reduction'] = data['reduction'].replace(10.0, 1.0)

# cambios en exercice
data['exercice'] = data['exercice'].replace(13.0, 1.0)

# cambios en fasting
data['fasting'] = data['fasting'].replace(14.0, 1.0)

# cambios en bulimia
data['bulimia'] = data['bulimia'].replace(33.0, 1.0)

# cambios en todas las variables que siguen el mismo patrón de 2 para no
variables = ['armed', 'hypertension', 'hypercholesteronemy', 'diabetes', 'hearing', 'seeing', 'concentrating', 'walking',
             'bathing', 'errands', 'hepatitisB', 'hepatitisC', 'insurance', 'profMental', 'asthma', 'anemia', 'psoriasis', 
             'overweight', 'celiac', 'arthritis', 'gout', 'heartFailure', 'coronaryHD', 'anginaPectoris', 'heartAttack', 
             'stroke', 'emphysema', 'thyroid', 'bronchitis', 'liver', 'obstructPulmon', 'jaundice', 'cancer', 'weightCntrl',
             'incExercice', 'insecticide', 'pesticide', 'smoke']

for variable in variables:
    data[variable] = data[variable].replace(2.0, 0.0)


Ya tenemos, pues, el dataset con el que trabajaremos a lo largo de este trabajo. Lo guardaremos en formato csv para trabajar con él de ahora en adelante.

In [25]:
data.head()

Unnamed: 0,SEQN,exam,gender,age,race,armed,country,mStatus,numPeopleHouse,numToddler,...,pesticide,smoke,wChange,reduction,exercice,fasting,bulimia,wChangeK,dietK,education
0,73557,2,0,69,4,1.0,1,4.0,3,0,...,0.0,1.0,3.0,9.0,9.0,9.0,9.0,9.0,9.0,3.0
1,73558,2,0,54,3,0.0,1,1.0,4,0,...,0.0,1.0,3.0,9.0,9.0,9.0,9.0,9.0,9.0,3.0
2,73559,2,0,72,3,1.0,1,1.0,2,0,...,0.0,1.0,2.0,9.0,9.0,9.0,9.0,9.0,9.0,4.0
4,73561,2,1,73,3,0.0,1,1.0,2,0,...,0.0,0.0,1.0,9.0,9.0,9.0,9.0,9.0,9.0,5.0
5,73562,2,0,56,1,1.0,1,3.0,1,0,...,0.0,1.0,2.0,1.0,9.0,9.0,9.0,9.0,9.0,4.0


In [26]:
data.to_csv('data.csv', index=False)

## Categorización de las variables

Este dataset está compuesto de variables en su mayoría categorizadas (excepto la edad que es una variable continua). 

Los datos nos vienen por defecto con codificación numérica, por lo que traduciremos esta codificación para que a la hora de analizar sea más autoexplicativo.

In [27]:
# cargamos dataset
df = pd.read_csv('data.csv')

In [28]:
# reemplazamos género
df['gender'] = df['gender'].replace(0, 'male')
df['gender'] = df['gender'].replace(1, 'female')
df['gender'].unique()

array(['male', 'female'], dtype=object)

In [29]:
# reemplazamos raza
df['race'] = df['race'].replace(1, 'mexican')
df['race'] = df['race'].replace(2, 'hispanic')
df['race'] = df['race'].replace(3, 'white')
df['race'] = df['race'].replace(4, 'black')
df['race'] = df['race'].replace(6, 'asian')
df['race'] = df['race'].replace(7, 'other')
df['race'].unique()

array(['black', 'white', 'mexican', 'asian', 'hispanic', 'other'],
      dtype=object)

In [30]:
# reemplazamos todas las variable con un mismo patrón 0 para no 1 para sí
variables = ['armed', 'hypertension', 'hypercholesteronemy', 'diabetes', 'hearing', 'seeing', 'concentrating', 'walking',
             'bathing', 'errands', 'hepatitisB', 'hepatitisC', 'insurance', 'profMental', 'asthma', 'anemia', 'psoriasis', 
             'overweight', 'celiac', 'arthritis', 'gout', 'heartFailure', 'coronaryHD', 'anginaPectoris', 'heartAttack', 
             'stroke', 'emphysema', 'thyroid', 'bronchitis', 'liver', 'obstructPulmon', 'jaundice', 'cancer', 'weightCntrl',
             'incExercice', 'insecticide', 'pesticide', 'smoke', 'depressed', 'sleep', 'yourself', 'dead', 'uninterested', 
             'tired', 'appetite', 'concentrateThings', 'slowlyFast']

for variable in variables:
    df[variable] = df[variable].replace(1.0, 'yes')
    df[variable] = df[variable].replace(0.0, 'no')
    df[variable] = df[variable].replace(7.0, 'refused')
    df[variable] = df[variable].replace(9.0, 'dk')
    print ('Variable: '+str(variable)+' contenido: '+str(df[variable].unique()))

Variable: armed contenido: ['yes' 'no' 'refused']
Variable: hypertension contenido: ['yes' 'no' 'dk']
Variable: hypercholesteronemy contenido: ['yes' 'no' 'dk']
Variable: diabetes contenido: ['yes' 'no' 3.0 'dk']
Variable: hearing contenido: ['no' 'yes' 'dk']
Variable: seeing contenido: ['no' 'yes' 'dk']
Variable: concentrating contenido: ['no' 'yes' 'dk']
Variable: walking contenido: ['no' 'yes' 'dk']
Variable: bathing contenido: ['no' 'yes']
Variable: errands contenido: ['no' 'yes' 'dk']
Variable: hepatitisB contenido: ['no' 'yes' 'dk']
Variable: hepatitisC contenido: ['no' 'yes' 'dk']
Variable: insurance contenido: ['yes' 'no' 'dk']
Variable: profMental contenido: ['no' 'yes' 'dk']
Variable: asthma contenido: ['no' 'yes' 'dk']
Variable: anemia contenido: ['no' 'yes' 'dk']
Variable: psoriasis contenido: ['no' 'yes' 'dk']
Variable: overweight contenido: ['yes' 'no']
Variable: celiac contenido: ['no' 'yes' 'dk']
Variable: arthritis contenido: ['yes' 'no' 'dk']
Variable: gout contenido:

In [31]:
# reemplazamos country
df['country'] = df['country'].replace(1.0, 'usa')
df['country'] = df['country'].replace(2.0, 'other')
df['country'] = df['country'].replace(77.0, 'refused')
df['country'] = df['country'].replace(99.0, 'dk')
df['country'].unique()

array(['usa', 'other', 'refused'], dtype=object)

In [32]:
# reemplazamos education
df['education'] = df['education'].replace(1.0, 'less9th')
df['education'] = df['education'].replace(2.0, '9th_11th')
df['education'] = df['education'].replace(3.0, 'HSG_GED')
df['education'] = df['education'].replace(4.0, 'college_AA')
df['education'] = df['education'].replace(5.0, 'college_above')
df['education'] = df['education'].replace(7.0, 'refused')
df['education'] = df['education'].replace(9.0, 'dk')
df['education'].unique()

array(['HSG_GED', 'college_AA', 'college_above', '9th_11th', 'less9th',
       'dk'], dtype=object)

In [33]:
# reemplazamos mStatus
df['mStatus'] = df['mStatus'].replace(1.0, 'married')
df['mStatus'] = df['mStatus'].replace(2.0, 'widowed')
df['mStatus'] = df['mStatus'].replace(3.0, 'divorced')
df['mStatus'] = df['mStatus'].replace(4.0, 'separated')
df['mStatus'] = df['mStatus'].replace(5.0, 'single')
df['mStatus'] = df['mStatus'].replace(6.0, 'partner')
df['mStatus'] = df['mStatus'].replace(77.0, 'refused')
df['mStatus'] = df['mStatus'].replace(99.0, 'dk')
df['mStatus'].unique()

array(['separated', 'married', 'divorced', 'widowed', 'single', 'partner',
       'refused'], dtype=object)

In [34]:
# reemplazamos healthyDiet
df['healthyDiet'] = df['healthyDiet'].replace(1.0, 'excellent')
df['healthyDiet'] = df['healthyDiet'].replace(2.0, 'verygood')
df['healthyDiet'] = df['healthyDiet'].replace(3.0, 'good')
df['healthyDiet'] = df['healthyDiet'].replace(4.0, 'fair')
df['healthyDiet'] = df['healthyDiet'].replace(5.0, 'poor')
df['healthyDiet'] = df['healthyDiet'].replace(7.0, 'refused')
df['healthyDiet'] = df['healthyDiet'].replace(9.0, 'dk')
df['healthyDiet'].unique()

array(['verygood', 'good', 'poor', 'fair', 'excellent', 'dk'],
      dtype=object)

In [35]:
# reemplazamos healthState
df['healthState'] = df['healthState'].replace(1.0, 'excellent')
df['healthState'] = df['healthState'].replace(2.0, 'verygood')
df['healthState'] = df['healthState'].replace(3.0, 'good')
df['healthState'] = df['healthState'].replace(4.0, 'fair')
df['healthState'] = df['healthState'].replace(5.0, 'poor')
df['healthState'] = df['healthState'].replace(7.0, 'refused')
df['healthState'] = df['healthState'].replace(9.0, 'dk')
df['healthState'].unique()

array(['verygood', 'fair', 'good', 'poor', 'excellent', 'dk', 'refused'],
      dtype=object)

In [36]:
# reemplazamos compHealthState
df['compHealthState'] = df['compHealthState'].replace(1.0, 'better')
df['compHealthState'] = df['compHealthState'].replace(2.0, 'worse')
df['compHealthState'] = df['compHealthState'].replace(3.0, 'same')
df['compHealthState'] = df['compHealthState'].replace(7.0, 'refused')
df['compHealthState'] = df['compHealthState'].replace(9.0, 'dk')
df['compHealthState'].unique()

array(['better', 'worse', 'same', 'dk'], dtype=object)

In [37]:
# reemplazamos employed
df['employed'] = df['employed'].replace(1.0, 'working')
df['employed'] = df['employed'].replace(2.0, 'business')
df['employed'] = df['employed'].replace(3.0, 'searching')
df['employed'] = df['employed'].replace(0.0, 'no')
df['employed'] = df['employed'].replace(7.0, 'refused')
df['employed'] = df['employed'].replace(9.0, 'dk')
df['employed'].unique()

array(['no', 'working', 'business', 'searching', 'dk'], dtype=object)

In [38]:
# reemplazamos wChange
df['wChange'] = df['wChange'].replace(1.0, 'more')
df['wChange'] = df['wChange'].replace(2.0, 'less')
df['wChange'] = df['wChange'].replace(3.0, 'same')
df['wChange'] = df['wChange'].replace(7.0, 'refused')
df['wChange'] = df['wChange'].replace(9.0, 'dk')
df['wChange'].unique()

array(['same', 'less', 'more', 'refused', 'dk'], dtype=object)

In [39]:
# reemplazamos reduction
df['reduction'] = df['reduction'].replace(1.0, 'yes')
df['reduction'] = df['reduction'].replace(77.0, 'refused')
df['reduction'] = df['reduction'].replace(9.0, 'dk')
df['reduction'].unique()

array(['dk', 'yes'], dtype=object)

In [40]:
# reemplazamos exercice
df['exercice'] = df['exercice'].replace(1.0, 'yes')
df['exercice'] = df['exercice'].replace(9.0, 'dk')
df['exercice'].unique()

array(['dk', 'yes'], dtype=object)

In [41]:
# reemplazamos fasting
df['fasting'] = df['fasting'].replace(1.0, 'yes')
df['fasting'] = df['fasting'].replace(9.0, 'dk')
df['fasting'].unique()

array(['dk', 'yes'], dtype=object)

In [42]:
# reemplazamos bulimia
df['bulimia'] = df['bulimia'].replace(1.0, 'yes')
df['bulimia'] = df['bulimia'].replace(9.0, 'dk')
df['bulimia'].unique()

array(['dk', 'yes'], dtype=object)

In [43]:
# reemplazamos wChangeK
df['wChangeK'] = df['wChangeK'].replace(1.0, 'lose')
df['wChangeK'] = df['wChangeK'].replace(2.0, 'gain')
df['wChangeK'] = df['wChangeK'].replace(3.0, 'same')
df['wChangeK'] = df['wChangeK'].replace(4.0, 'nothing')
df['wChangeK'] = df['wChangeK'].replace(7.0, 'refused')
df['wChangeK'] = df['wChangeK'].replace(9.0, 'dk')
df['wChangeK'].unique()

array(['dk'], dtype=object)

In [44]:
# reemplazamos dietK
df['dietK'] = df['dietK'].replace(1.0, 'never')
df['dietK'] = df['dietK'].replace(2.0, 'sometimes')
df['dietK'] = df['dietK'].replace(3.0, 'alot')
df['dietK'] = df['dietK'].replace(7.0, 'refused')
df['dietK'] = df['dietK'].replace(9.0, 'dk')
df['dietK'].unique()

array(['dk'], dtype=object)

Vemos que estas dos últimas variables no aportan nada, por lo que las eliminaremos, tanto de la visualización como del dataset original.

In [45]:
df=df.drop(['wChangeK'], axis=1)
df=df.drop(['dietK'], axis=1)

In [46]:
# Visualizamos cabecera del dataset
df.head()

Unnamed: 0,SEQN,exam,gender,age,race,armed,country,mStatus,numPeopleHouse,numToddler,...,pcHours,insecticide,pesticide,smoke,wChange,reduction,exercice,fasting,bulimia,education
0,73557,2,male,69,black,yes,usa,separated,3,0,...,0.0,no,no,yes,same,dk,dk,dk,dk,HSG_GED
1,73558,2,male,54,white,no,usa,married,4,0,...,0.0,no,no,yes,same,dk,dk,dk,dk,HSG_GED
2,73559,2,male,72,white,yes,usa,married,2,0,...,0.0,yes,no,yes,less,dk,dk,dk,dk,college_AA
3,73561,2,female,73,white,no,usa,married,2,0,...,1.0,no,no,no,more,dk,dk,dk,dk,college_above
4,73562,2,male,56,mexican,yes,usa,divorced,1,0,...,0.0,yes,no,yes,less,yes,dk,dk,dk,college_AA


In [47]:
# guardamos tabla para visualización
df.to_csv('dataVis.csv', index=False)

In [48]:
# cargamos dataset
data = pd.read_csv('data.csv')

# borramos variables
data=data.drop(['wChangeK'], axis=1)
data=data.drop(['dietK'], axis=1)

# guardamos el el dataset definitivo
data.to_csv('data.csv', index=False)