# IMPORTS

In [2]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time
import os 

# TRAIN DATA

### Demographic data

In [3]:

file_mapping = {
    "2021": ["DEMO_L.xpt"],
    "2017": ["P_DEMO.xpt", "DEMO_J.xpt"],
    "2015": ["DEMO_I.xpt"],
    "2013": ["DEMO_H.xpt"],
    "2011": ["DEMO_G.xpt"],
    "2009": ["DEMO_F.xpt"],
    "2007": ["DEMO_E.xpt"],
    "2005": ["DEMO_D.xpt"],
    "2003": ["DEMO_C.xpt"],
    "2001": ["DEMO_B.xpt"],
    "1999": ["DEMO.xpt"]
}

# Carpeta de salida
output_folder = "../data/raw_data/DEMO/"
os.makedirs(output_folder, exist_ok=True)

# Headers para la solicitud
headers = {"User-Agent": "Mozilla/5.0"}

# Bucle por año y archivos
for year, file_list in file_mapping.items():
    # Asegura que file_list sea una lista
    if isinstance(file_list, str):
        file_list = [file_list]
    
    for filename_xpt in file_list:
        url = f"https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/{year}/DataFiles/{filename_xpt}"

        print(f"Descargando: {url}")
        response = requests.get(url, headers=headers)

        if response.status_code == 200:
            xpt_path = os.path.join(output_folder, filename_xpt)
            with open(xpt_path, "wb") as f:
                f.write(response.content)
            print(f"Archivo guardado: {xpt_path}")

            # Convertir a CSV
            try:
                df = pd.read_sas(xpt_path, format="xport")
                csv_name = filename_xpt.replace(".xpt", f"_{year}.csv")
                csv_path = os.path.join(output_folder, csv_name)
                df.to_csv(csv_path, index=False)
                os.remove(xpt_path)
                print(f"Convertido a CSV: {csv_path}")
            except Exception as e:
                print(f"Error al convertir {filename_xpt}: {e}")
        else:
            print(f"❌ Error {response.status_code} al descargar {url}")


Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2021/DataFiles/DEMO_L.xpt
Archivo guardado: ../data/raw_data/DEMO/DEMO_L.xpt
Convertido a CSV: ../data/raw_data/DEMO/DEMO_L_2021.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2017/DataFiles/P_DEMO.xpt
Archivo guardado: ../data/raw_data/DEMO/P_DEMO.xpt
Convertido a CSV: ../data/raw_data/DEMO/P_DEMO_2017.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2017/DataFiles/DEMO_J.xpt
Archivo guardado: ../data/raw_data/DEMO/DEMO_J.xpt
Convertido a CSV: ../data/raw_data/DEMO/DEMO_J_2017.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2015/DataFiles/DEMO_I.xpt
Archivo guardado: ../data/raw_data/DEMO/DEMO_I.xpt
Convertido a CSV: ../data/raw_data/DEMO/DEMO_I_2015.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2013/DataFiles/DEMO_H.xpt
Archivo guardado: ../data/raw_data/DEMO/DEMO_H.xpt
Convertido a CSV: ../data/raw_data/DEMO/DEMO_H_2013.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/N

### HDL

In [4]:
# Diccionario con nombres de archivo específicos por año
file_mapping = {
    "2021": ["HDL_L.xpt"],
    "2017": ["P_HDL.xpt", "HDL_J.xpt"],
    "2015": ["HDL_I.xpt"],
    "2013": ["HDL_H.xpt"],
    "2011": ["HDL_G.xpt"],
    "2009": ["HDL_F.xpt"],
    "2007": ["HDL_E.xpt"],
    "2005": ["HDL_D.xpt"],
    "2003": ["L13_C.xpt"],
    "2001": ["L13_B.xpt"],
    "1999": ["LAB13.xpt"]
}

# Carpeta de salida
output_folder = "../data/raw_data/HDL/"
os.makedirs(output_folder, exist_ok=True)

# Headers para la solicitud
headers = {"User-Agent": "Mozilla/5.0"}

# Bucle por año y archivos
for year, file_list in file_mapping.items():
    # Asegura que file_list sea una lista
    if isinstance(file_list, str):
        file_list = [file_list]
    
    for filename_xpt in file_list:
        url = f"https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/{year}/DataFiles/{filename_xpt}"

        print(f"Descargando: {url}")
        response = requests.get(url, headers=headers)

        if response.status_code == 200:
            xpt_path = os.path.join(output_folder, filename_xpt)
            with open(xpt_path, "wb") as f:
                f.write(response.content)
            print(f"Archivo guardado: {xpt_path}")

            # Convertir a CSV
            try:
                df = pd.read_sas(xpt_path, format="xport")
                csv_name = filename_xpt.replace(".xpt", f"_{year}.csv")
                csv_path = os.path.join(output_folder, csv_name)
                df.to_csv(csv_path, index=False)
                os.remove(xpt_path)
                print(f"Convertido a CSV: {csv_path}")
            except Exception as e:
                print(f"Error al convertir {filename_xpt}: {e}")
        else:
            print(f"❌ Error {response.status_code} al descargar {url}")


Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2021/DataFiles/HDL_L.xpt
Archivo guardado: ../data/raw_data/HDL/HDL_L.xpt
Convertido a CSV: ../data/raw_data/HDL/HDL_L_2021.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2017/DataFiles/P_HDL.xpt
Archivo guardado: ../data/raw_data/HDL/P_HDL.xpt
Convertido a CSV: ../data/raw_data/HDL/P_HDL_2017.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2017/DataFiles/HDL_J.xpt
Archivo guardado: ../data/raw_data/HDL/HDL_J.xpt
Convertido a CSV: ../data/raw_data/HDL/HDL_J_2017.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2015/DataFiles/HDL_I.xpt
Archivo guardado: ../data/raw_data/HDL/HDL_I.xpt
Convertido a CSV: ../data/raw_data/HDL/HDL_I_2015.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2013/DataFiles/HDL_H.xpt
Archivo guardado: ../data/raw_data/HDL/HDL_H.xpt
Convertido a CSV: ../data/raw_data/HDL/HDL_H_2013.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2011/DataFil

In [None]:

# Diccionario con nombres de archivo específicos por año (sin 1999, 2001, 2003)

file_mapping = {
    "2021": ["TCHOL_L.xpt"],
    "2017": ["P_TCHOL.xpt", "TCHOL_J.xpt"],
    "2015": ["TCHOL_I.xpt"],
    "2013": ["TCHOL_H.xpt"],
    "2011": ["TCHOL_G.xpt"],
    "2009": ["TCHOL_F.xpt"],
    "2007": ["TCHOL_E.xpt"],
    "2005": ["TCHOL_D.xpt"],
}


# Carpeta de salida
output_folder = "../data/raw_data/chol_total/"
os.makedirs(output_folder, exist_ok=True)

# Headers para la solicitud
headers = {"User-Agent": "Mozilla/5.0"}

# Bucle por año y archivos
for year, file_list in file_mapping.items():
    # Asegura que file_list sea una lista
    if isinstance(file_list, str):
        file_list = [file_list]
    
    for filename_xpt in file_list:
        url = f"https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/{year}/DataFiles/{filename_xpt}"

        print(f"Descargando: {url}")
        response = requests.get(url, headers=headers)

        if response.status_code == 200:
            xpt_path = os.path.join(output_folder, filename_xpt)
            with open(xpt_path, "wb") as f:
                f.write(response.content)
            print(f"Archivo guardado: {xpt_path}")

            # Convertir a CSV
            try:
                df = pd.read_sas(xpt_path, format="xport")
                csv_name = filename_xpt.replace(".xpt", f"_{year}.csv")
                csv_path = os.path.join(output_folder, csv_name)
                df.to_csv(csv_path, index=False)
                os.remove(xpt_path)
                print(f"Convertido a CSV: {csv_path}")
            except Exception as e:
                print(f"Error al convertir {filename_xpt}: {e}")
        else:
            print(f"❌ Error {response.status_code} al descargar {url}")




Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2021/DataFiles/TCHOL_L.xpt
Archivo guardado: ../data/raw_data/chol_total/TCHOL_L.xpt
Convertido a CSV: ../data/raw_data/chol_total/TCHOL_L_2021.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2017/DataFiles/P_TCHOL.xpt
Archivo guardado: ../data/raw_data/chol_total/P_TCHOL.xpt
Convertido a CSV: ../data/raw_data/chol_total/P_TCHOL_2017.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2017/DataFiles/TCHOL_J.xpt
Archivo guardado: ../data/raw_data/chol_total/TCHOL_J.xpt
Convertido a CSV: ../data/raw_data/chol_total/TCHOL_J_2017.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2015/DataFiles/TCHOL_I.xpt
Archivo guardado: ../data/raw_data/chol_total/TCHOL_I.xpt
Convertido a CSV: ../data/raw_data/chol_total/TCHOL_I_2015.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2013/DataFiles/TCHOL_H.xpt
Archivo guardado: ../data/raw_data/chol_total/TCHOL_H.xpt
Convertido a CSV: ../data/raw_dat

### Glycohemoglobin (GHB) 

In [7]:
# Diccionario con nombres de archivo específicos por año


file_mapping = {
    "2021": ["GHB_L.xpt"],
    "2017": ["P_GHB.xpt", "GHB_J.xpt"],
    "2015": ["GHB_I.xpt"],
    "2013": ["GHB_H.xpt"],
    "2011": ["GHB_G.xpt"],
    "2009": ["GHB_F.xpt"],
    "2007": ["GHB_E.xpt"],
    "2005": ["GHB_D.xpt"],
    "2003": ["L10_C.xpt"],
    "2001": ["L10_B.xpt"],
    "1999": ["LAB10.xpt"]
}
# Carpeta de salida
output_folder = "../data/raw_data/GHB/"
os.makedirs(output_folder, exist_ok=True)

# Headers para la solicitud
headers = {"User-Agent": "Mozilla/5.0"}

# Bucle por año y archivos
for year, file_list in file_mapping.items():
    # Asegura que file_list sea una lista
    if isinstance(file_list, str):
        file_list = [file_list]
    
    for filename_xpt in file_list:
        url = f"https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/{year}/DataFiles/{filename_xpt}"

        print(f"Descargando: {url}")
        response = requests.get(url, headers=headers)

        if response.status_code == 200:
            xpt_path = os.path.join(output_folder, filename_xpt)
            with open(xpt_path, "wb") as f:
                f.write(response.content)
            print(f"Archivo guardado: {xpt_path}")

            # Convertir a CSV
            try:
                df = pd.read_sas(xpt_path, format="xport")
                csv_name = filename_xpt.replace(".xpt", f"_{year}.csv")
                csv_path = os.path.join(output_folder, csv_name)
                df.to_csv(csv_path, index=False)
                os.remove(xpt_path)
                print(f"Convertido a CSV: {csv_path}")
            except Exception as e:
                print(f"Error al convertir {filename_xpt}: {e}")
        else:
            print(f"❌ Error {response.status_code} al descargar {url}")


Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2021/DataFiles/GHB_L.xpt
Archivo guardado: ../data/raw_data/GHB/GHB_L.xpt
Convertido a CSV: ../data/raw_data/GHB/GHB_L_2021.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2017/DataFiles/P_GHB.xpt
Archivo guardado: ../data/raw_data/GHB/P_GHB.xpt
Convertido a CSV: ../data/raw_data/GHB/P_GHB_2017.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2017/DataFiles/GHB_J.xpt
Archivo guardado: ../data/raw_data/GHB/GHB_J.xpt
Convertido a CSV: ../data/raw_data/GHB/GHB_J_2017.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2015/DataFiles/GHB_I.xpt
Archivo guardado: ../data/raw_data/GHB/GHB_I.xpt
Convertido a CSV: ../data/raw_data/GHB/GHB_I_2015.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2013/DataFiles/GHB_H.xpt
Archivo guardado: ../data/raw_data/GHB/GHB_H.xpt
Convertido a CSV: ../data/raw_data/GHB/GHB_H_2013.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2011/DataFil

### Insulin

In [8]:
# Diccionario con nombres de archivo específicos por año
file_mapping = {
    "2021": ["INS_L.xpt"],
    "2017": ["P_INS.xpt", "INS_J.xpt"],
    "2015": ["INS_I.xpt"],
    "2013": ["INS_H.xpt"],
    "2011": ["INS_G.xpt"],
    "2009": ["INS_F.xpt"],
    "2007": ["INS_E.xpt"],
    "2005": ["INS_D.xpt"],
    "2003": ["L10AM_C.xpt"],
    "2001": ["L10_2_B.xpt"],
    "1999": ["LAB10AM.xpt"]
}

# Carpeta de salida
output_folder = "../data/raw_data/INS/"
os.makedirs(output_folder, exist_ok=True)

# Headers para la solicitud
headers = {"User-Agent": "Mozilla/5.0"}


# Bucle por año y archivos
for year, file_list in file_mapping.items():
    # Asegura que file_list sea una lista
    if isinstance(file_list, str):
        file_list = [file_list]
    
    for filename_xpt in file_list:
        url = f"https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/{year}/DataFiles/{filename_xpt}"

        print(f"Descargando: {url}")
        response = requests.get(url, headers=headers)

        if response.status_code == 200:
            xpt_path = os.path.join(output_folder, filename_xpt)
            with open(xpt_path, "wb") as f:
                f.write(response.content)
            print(f"Archivo guardado: {xpt_path}")

            # Convertir a CSV
            try:
                df = pd.read_sas(xpt_path, format="xport")
                csv_name = filename_xpt.replace(".xpt", f"_{year}.csv")
                csv_path = os.path.join(output_folder, csv_name)
                df.to_csv(csv_path, index=False)
                os.remove(xpt_path)
                print(f"Convertido a CSV: {csv_path}")
            except Exception as e:
                print(f"Error al convertir {filename_xpt}: {e}")
        else:
            print(f"❌ Error {response.status_code} al descargar {url}")

Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2021/DataFiles/INS_L.xpt
Archivo guardado: ../data/raw_data/INS/INS_L.xpt
Convertido a CSV: ../data/raw_data/INS/INS_L_2021.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2017/DataFiles/P_INS.xpt
Archivo guardado: ../data/raw_data/INS/P_INS.xpt
Convertido a CSV: ../data/raw_data/INS/P_INS_2017.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2017/DataFiles/INS_J.xpt
Archivo guardado: ../data/raw_data/INS/INS_J.xpt
Convertido a CSV: ../data/raw_data/INS/INS_J_2017.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2015/DataFiles/INS_I.xpt
Archivo guardado: ../data/raw_data/INS/INS_I.xpt
Convertido a CSV: ../data/raw_data/INS/INS_I_2015.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2013/DataFiles/INS_H.xpt
Archivo guardado: ../data/raw_data/INS/INS_H.xpt
Convertido a CSV: ../data/raw_data/INS/INS_H_2013.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2011/DataFil


### Fasting Glucose and more Insulin data

In [9]:

# Diccionario con nombres de archivo específicos por año (sin 1999, 2001, 2003)
file_mapping = {
    "2017": ["GLU_J.xpt"],
    "2015": ["GLU_I.xpt"],
    "2013": ["GLU_H.xpt"],
    "2011": ["GLU_G.xpt"],
    "2009": ["GLU_F.xpt"],
    "2007": ["GLU_E.xpt"],
    "2005": ["GLU_D.xpt"]
}

# Carpeta de salida
output_folder = "../data/raw_data/GLU/"
os.makedirs(output_folder, exist_ok=True)

# Headers para la solicitud
headers = {"User-Agent": "Mozilla/5.0"}

# Bucle por año y archivos
for year, file_list in file_mapping.items():
    # Asegura que file_list sea una lista
    if isinstance(file_list, str):
        file_list = [file_list]
    
    for filename_xpt in file_list:
        url = f"https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/{year}/DataFiles/{filename_xpt}"

        print(f"Descargando: {url}")
        response = requests.get(url, headers=headers)

        if response.status_code == 200:
            xpt_path = os.path.join(output_folder, filename_xpt)
            with open(xpt_path, "wb") as f:
                f.write(response.content)
            print(f"Archivo guardado: {xpt_path}")

            # Convertir a CSV
            try:
                df = pd.read_sas(xpt_path, format="xport")
                csv_name = filename_xpt.replace(".xpt", f"_{year}.csv")
                csv_path = os.path.join(output_folder, csv_name)
                df.to_csv(csv_path, index=False)
                os.remove(xpt_path)
                print(f"Convertido a CSV: {csv_path}")
            except Exception as e:
                print(f"Error al convertir {filename_xpt}: {e}")
        else:
            print(f"❌ Error {response.status_code} al descargar {url}")


Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2017/DataFiles/GLU_J.xpt
Archivo guardado: ../data/raw_data/GLU/GLU_J.xpt
Convertido a CSV: ../data/raw_data/GLU/GLU_J_2017.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2015/DataFiles/GLU_I.xpt
Archivo guardado: ../data/raw_data/GLU/GLU_I.xpt
Convertido a CSV: ../data/raw_data/GLU/GLU_I_2015.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2013/DataFiles/GLU_H.xpt
Archivo guardado: ../data/raw_data/GLU/GLU_H.xpt
Convertido a CSV: ../data/raw_data/GLU/GLU_H_2013.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2011/DataFiles/GLU_G.xpt
Archivo guardado: ../data/raw_data/GLU/GLU_G.xpt
Convertido a CSV: ../data/raw_data/GLU/GLU_G_2011.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2009/DataFiles/GLU_F.xpt
Archivo guardado: ../data/raw_data/GLU/GLU_F.xpt
Convertido a CSV: ../data/raw_data/GLU/GLU_F_2009.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2007/DataFil

### Standard Biochemistry Profile

In [10]:
# Diccionario con nombres de archivo específicos por año
file_mapping = {
    "2021": ["BIOPRO_L.xpt"],
    "2017": ["P_BIOPRO.xpt", "BIOPRO_J.xpt"],
    "2015": ["BIOPRO_I.xpt"],
    "2013": ["BIOPRO_H.xpt"],
    "2011": ["BIOPRO_G.xpt"],
    "2009": ["BIOPRO_F.xpt"],
    "2007": ["BIOPRO_E.xpt"],
    "2005": ["BIOPRO_D.xpt"],
    "2003": ["L40_C.xpt"],
    "2001": ["L40_B.xpt"],
    "1999": ["LAB18.xpt"]
}


# Carpeta de salida
output_folder = "../data/raw_data/BIOPRO/"
os.makedirs(output_folder, exist_ok=True)

# Headers para la solicitud
headers = {"User-Agent": "Mozilla/5.0"}

# Bucle por año y archivos
for year, file_list in file_mapping.items():
    # Asegura que file_list sea una lista
    if isinstance(file_list, str):
        file_list = [file_list]
    
    for filename_xpt in file_list:
        url = f"https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/{year}/DataFiles/{filename_xpt}"

        print(f"Descargando: {url}")
        response = requests.get(url, headers=headers)

        if response.status_code == 200:
            xpt_path = os.path.join(output_folder, filename_xpt)
            with open(xpt_path, "wb") as f:
                f.write(response.content)
            print(f"Archivo guardado: {xpt_path}")

            # Convertir a CSV
            try:
                df = pd.read_sas(xpt_path, format="xport")
                csv_name = filename_xpt.replace(".xpt", f"_{year}.csv")
                csv_path = os.path.join(output_folder, csv_name)
                df.to_csv(csv_path, index=False)
                os.remove(xpt_path)
                print(f"Convertido a CSV: {csv_path}")
            except Exception as e:
                print(f"Error al convertir {filename_xpt}: {e}")
        else:
            print(f"❌ Error {response.status_code} al descargar {url}")


Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2021/DataFiles/BIOPRO_L.xpt
❌ Error 404 al descargar https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2021/DataFiles/BIOPRO_L.xpt
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2017/DataFiles/P_BIOPRO.xpt
Archivo guardado: ../data/raw_data/BIOPRO/P_BIOPRO.xpt
Convertido a CSV: ../data/raw_data/BIOPRO/P_BIOPRO_2017.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2017/DataFiles/BIOPRO_J.xpt
Archivo guardado: ../data/raw_data/BIOPRO/BIOPRO_J.xpt
Convertido a CSV: ../data/raw_data/BIOPRO/BIOPRO_J_2017.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2015/DataFiles/BIOPRO_I.xpt
Archivo guardado: ../data/raw_data/BIOPRO/BIOPRO_I.xpt
Convertido a CSV: ../data/raw_data/BIOPRO/BIOPRO_I_2015.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2013/DataFiles/BIOPRO_H.xpt
Archivo guardado: ../data/raw_data/BIOPRO/BIOPRO_H.xpt
Convertido a CSV: ../data/raw_data/BIOPRO/BIOPRO_H_2013.csv
Descargando:

### Weight and Heigth data

In [11]:
# Diccionario con nombres de archivo específicos por año

file_mapping = {
    "2021": ["WHQ_L.xpt"],
    "2017": ["P_WHQ.xpt", "WHQ_J.xpt"],
    "2015": ["WHQ_I.xpt"],
    "2013": ["WHQ_H.xpt"],
    "2011": ["WHQ_G.xpt"],
    "2009": ["WHQ_F.xpt"],
    "2007": ["WHQ_E.xpt"],
    "2005": ["WHQ_D.xpt"],
    "2003": ["WHQ_C.xpt"],
    "2001": ["WHQ_B.xpt"],
    "1999": ["WHQ.xpt"]
}


# Carpeta de salida
output_folder = "../data/raw_data/weight/"
os.makedirs(output_folder, exist_ok=True)

# Headers para la solicitud
headers = {"User-Agent": "Mozilla/5.0"}

# Bucle por año y archivos
for year, file_list in file_mapping.items():
    # Asegura que file_list sea una lista
    if isinstance(file_list, str):
        file_list = [file_list]
    
    for filename_xpt in file_list:
        url = f"https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/{year}/DataFiles/{filename_xpt}"

        print(f"Descargando: {url}")
        response = requests.get(url, headers=headers)

        if response.status_code == 200:
            xpt_path = os.path.join(output_folder, filename_xpt)
            with open(xpt_path, "wb") as f:
                f.write(response.content)
            print(f"Archivo guardado: {xpt_path}")

            # Convertir a CSV
            try:
                df = pd.read_sas(xpt_path, format="xport")
                csv_name = filename_xpt.replace(".xpt", f"_{year}.csv")
                csv_path = os.path.join(output_folder, csv_name)
                df.to_csv(csv_path, index=False)
                os.remove(xpt_path)
                print(f"Convertido a CSV: {csv_path}")
            except Exception as e:
                print(f"Error al convertir {filename_xpt}: {e}")
        else:
            print(f"❌ Error {response.status_code} al descargar {url}")


Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2021/DataFiles/WHQ_L.xpt
Archivo guardado: ../data/raw_data/weight/WHQ_L.xpt
Convertido a CSV: ../data/raw_data/weight/WHQ_L_2021.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2017/DataFiles/P_WHQ.xpt
Archivo guardado: ../data/raw_data/weight/P_WHQ.xpt
Convertido a CSV: ../data/raw_data/weight/P_WHQ_2017.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2017/DataFiles/WHQ_J.xpt
Archivo guardado: ../data/raw_data/weight/WHQ_J.xpt
Convertido a CSV: ../data/raw_data/weight/WHQ_J_2017.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2015/DataFiles/WHQ_I.xpt
Archivo guardado: ../data/raw_data/weight/WHQ_I.xpt
Convertido a CSV: ../data/raw_data/weight/WHQ_I_2015.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2013/DataFiles/WHQ_H.xpt
Archivo guardado: ../data/raw_data/weight/WHQ_H.xpt
Convertido a CSV: ../data/raw_data/weight/WHQ_H_2013.csv
Descargando: https://wwwn.cdc.gov/Nchs/D

### Diabetes train data

In [12]:
# Diccionario con nombres de archivo específicos por año

file_mapping = {
    "2021": ["DIQ_L.xpt"],
    "2017": ["P_DIQ.xpt", "DIQ_J.xpt"],
    "2015": ["DIQ_I.xpt"],
    "2013": ["DIQ_H.xpt"],
    "2011": ["DIQ_G.xpt"],
    "2009": ["DIQ_F.xpt"],
    "2007": ["DIQ_E.xpt"],
    "2005": ["DIQ_D.xpt"],
    "2003": ["DIQ_C.xpt"],
    "2001": ["DIQ_B.xpt"],
    "1999": ["DIQ.xpt"]
}

# Carpeta de salida
output_folder = "../data/raw_data/diabetes/"
os.makedirs(output_folder, exist_ok=True)

# Headers para la solicitud
headers = {"User-Agent": "Mozilla/5.0"}

# Bucle por año y archivos
for year, file_list in file_mapping.items():
    # Asegura que file_list sea una lista
    if isinstance(file_list, str):
        file_list = [file_list]
    
    for filename_xpt in file_list:
        url = f"https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/{year}/DataFiles/{filename_xpt}"

        print(f"Descargando: {url}")
        response = requests.get(url, headers=headers)

        if response.status_code == 200:
            xpt_path = os.path.join(output_folder, filename_xpt)
            with open(xpt_path, "wb") as f:
                f.write(response.content)
            print(f"Archivo guardado: {xpt_path}")

            # Convertir a CSV
            try:
                df = pd.read_sas(xpt_path, format="xport")
                csv_name = filename_xpt.replace(".xpt", f"_{year}.csv")
                csv_path = os.path.join(output_folder, csv_name)
                df.to_csv(csv_path, index=False)
                os.remove(xpt_path)
                print(f"Convertido a CSV: {csv_path}")
            except Exception as e:
                print(f"Error al convertir {filename_xpt}: {e}")
        else:
            print(f"❌ Error {response.status_code} al descargar {url}")

Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2021/DataFiles/DIQ_L.xpt
Archivo guardado: ../data/raw_data/diabetes/DIQ_L.xpt
Convertido a CSV: ../data/raw_data/diabetes/DIQ_L_2021.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2017/DataFiles/P_DIQ.xpt
Archivo guardado: ../data/raw_data/diabetes/P_DIQ.xpt
Convertido a CSV: ../data/raw_data/diabetes/P_DIQ_2017.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2017/DataFiles/DIQ_J.xpt
Archivo guardado: ../data/raw_data/diabetes/DIQ_J.xpt
Convertido a CSV: ../data/raw_data/diabetes/DIQ_J_2017.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2015/DataFiles/DIQ_I.xpt
Archivo guardado: ../data/raw_data/diabetes/DIQ_I.xpt
Convertido a CSV: ../data/raw_data/diabetes/DIQ_I_2015.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2013/DataFiles/DIQ_H.xpt
Archivo guardado: ../data/raw_data/diabetes/DIQ_H.xpt
Convertido a CSV: ../data/raw_data/diabetes/DIQ_H_2013.csv
Descargando: https:/

### Blood pressure

In [14]:

file_mapping = {
    "2021": ["BPQ_L.xpt"],
    "2017": ["P_BPQ.xpt", "BPQ_J.xpt"],
    "2015": ["BPQ_I.xpt"],
    "2013": ["BPQ_H.xpt"],
    "2011": ["BPQ_G.xpt"],
    "2009": ["BPQ_F.xpt"],
    "2007": ["BPQ_E.xpt"],
    "2005": ["BPQ_D.xpt"],
    "2003": ["BPQ_C.xpt"],
    "2001": ["BPQ_B.xpt"],
    "1999": ["BPQ.xpt"]
}

# Carpeta de salida
output_folder = "../data/raw_data/BPQ/"
os.makedirs(output_folder, exist_ok=True)

# Headers para la solicitud
headers = {"User-Agent": "Mozilla/5.0"}

# Bucle por año y archivos
for year, file_list in file_mapping.items():
    # Asegura que file_list sea una lista
    if isinstance(file_list, str):
        file_list = [file_list]
    
    for filename_xpt in file_list:
        url = f"https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/{year}/DataFiles/{filename_xpt}"

        print(f"Descargando: {url}")
        response = requests.get(url, headers=headers)

        if response.status_code == 200:
            xpt_path = os.path.join(output_folder, filename_xpt)
            with open(xpt_path, "wb") as f:
                f.write(response.content)
            print(f"Archivo guardado: {xpt_path}")

            # Convertir a CSV
            try:
                df = pd.read_sas(xpt_path, format="xport")
                csv_name = filename_xpt.replace(".xpt", f"_{year}.csv")
                csv_path = os.path.join(output_folder, csv_name)
                df.to_csv(csv_path, index=False)
                os.remove(xpt_path)
                print(f"Convertido a CSV: {csv_path}")
            except Exception as e:
                print(f"Error al convertir {filename_xpt}: {e}")
        else:
            print(f"❌ Error {response.status_code} al descargar {url}")

Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2021/DataFiles/BPQ_L.xpt
Archivo guardado: ../data/raw_data/BPQ/BPQ_L.xpt
Convertido a CSV: ../data/raw_data/BPQ/BPQ_L_2021.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2017/DataFiles/P_BPQ.xpt
Archivo guardado: ../data/raw_data/BPQ/P_BPQ.xpt
Convertido a CSV: ../data/raw_data/BPQ/P_BPQ_2017.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2017/DataFiles/BPQ_J.xpt
Archivo guardado: ../data/raw_data/BPQ/BPQ_J.xpt
Convertido a CSV: ../data/raw_data/BPQ/BPQ_J_2017.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2015/DataFiles/BPQ_I.xpt
Archivo guardado: ../data/raw_data/BPQ/BPQ_I.xpt
Convertido a CSV: ../data/raw_data/BPQ/BPQ_I_2015.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2013/DataFiles/BPQ_H.xpt
Archivo guardado: ../data/raw_data/BPQ/BPQ_H.xpt
Convertido a CSV: ../data/raw_data/BPQ/BPQ_H_2013.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2011/DataFil

### Smoking use

In [15]:

file_mapping = {
    "2021": ["SMQ_L.xpt"],
    "2017": ["P_SMQ.xpt", "SMQ_J.xpt"],
    "2015": ["SMQ_I.xpt"],
    "2013": ["SMQ_H.xpt"],
    "2011": ["SMQ_G.xpt"],
    "2009": ["SMQ_F.xpt"],
    "2007": ["SMQ_E.xpt"],
    "2005": ["SMQ_D.xpt"],
    "2003": ["SMQ_C.xpt"],
    "2001": ["SMQ_B.xpt"],
    "1999": ["SMQ.xpt"]
}

# Carpeta de salida
output_folder = "../data/raw_data/SMQ/"
os.makedirs(output_folder, exist_ok=True)

# Headers para la solicitud
headers = {"User-Agent": "Mozilla/5.0"}

# Bucle por año y archivos
for year, file_list in file_mapping.items():
    # Asegura que file_list sea una lista
    if isinstance(file_list, str):
        file_list = [file_list]
    
    for filename_xpt in file_list:
        url = f"https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/{year}/DataFiles/{filename_xpt}"

        print(f"Descargando: {url}")
        response = requests.get(url, headers=headers)

        if response.status_code == 200:
            xpt_path = os.path.join(output_folder, filename_xpt)
            with open(xpt_path, "wb") as f:
                f.write(response.content)
            print(f"Archivo guardado: {xpt_path}")

            # Convertir a CSV
            try:
                df = pd.read_sas(xpt_path, format="xport")
                csv_name = filename_xpt.replace(".xpt", f"_{year}.csv")
                csv_path = os.path.join(output_folder, csv_name)
                df.to_csv(csv_path, index=False)
                os.remove(xpt_path)
                print(f"Convertido a CSV: {csv_path}")
            except Exception as e:
                print(f"Error al convertir {filename_xpt}: {e}")
        else:
            print(f"❌ Error {response.status_code} al descargar {url}")

Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2021/DataFiles/SMQ_L.xpt
Archivo guardado: ../data/raw_data/SMQ/SMQ_L.xpt
Convertido a CSV: ../data/raw_data/SMQ/SMQ_L_2021.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2017/DataFiles/P_SMQ.xpt
Archivo guardado: ../data/raw_data/SMQ/P_SMQ.xpt
Convertido a CSV: ../data/raw_data/SMQ/P_SMQ_2017.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2017/DataFiles/SMQ_J.xpt
Archivo guardado: ../data/raw_data/SMQ/SMQ_J.xpt
Convertido a CSV: ../data/raw_data/SMQ/SMQ_J_2017.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2015/DataFiles/SMQ_I.xpt
Archivo guardado: ../data/raw_data/SMQ/SMQ_I.xpt
Convertido a CSV: ../data/raw_data/SMQ/SMQ_I_2015.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2013/DataFiles/SMQ_H.xpt
Archivo guardado: ../data/raw_data/SMQ/SMQ_H.xpt
Convertido a CSV: ../data/raw_data/SMQ/SMQ_H_2013.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2011/DataFil

### Alcohol use

In [16]:

file_mapping = {
    "2021": ["ALQ_L.xpt"],
    "2017": ["P_ALQ.xpt", "ALQ_J.xpt"],
    "2015": ["ALQ_I.xpt"],
    "2013": ["ALQ_H.xpt"],
    "2011": ["ALQ_G.xpt"],
    "2009": ["ALQ_F.xpt"],
    "2007": ["ALQ_E.xpt"],
    "2005": ["ALQ_D.xpt"],
    "2003": ["ALQ_C.xpt"],
    "2001": ["ALQ_B.xpt"],
    "1999": ["ALQ.xpt"]
}

# Carpeta de salida
output_folder = "../data/raw_data/ALQ/"
os.makedirs(output_folder, exist_ok=True)

# Headers para la solicitud
headers = {"User-Agent": "Mozilla/5.0"}

# Bucle por año y archivos
for year, file_list in file_mapping.items():
    # Asegura que file_list sea una lista
    if isinstance(file_list, str):
        file_list = [file_list]
    
    for filename_xpt in file_list:
        url = f"https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/{year}/DataFiles/{filename_xpt}"

        print(f"Descargando: {url}")
        response = requests.get(url, headers=headers)

        if response.status_code == 200:
            xpt_path = os.path.join(output_folder, filename_xpt)
            with open(xpt_path, "wb") as f:
                f.write(response.content)
            print(f"Archivo guardado: {xpt_path}")

            # Convertir a CSV
            try:
                df = pd.read_sas(xpt_path, format="xport")
                csv_name = filename_xpt.replace(".xpt", f"_{year}.csv")
                csv_path = os.path.join(output_folder, csv_name)
                df.to_csv(csv_path, index=False)
                os.remove(xpt_path)
                print(f"Convertido a CSV: {csv_path}")
            except Exception as e:
                print(f"Error al convertir {filename_xpt}: {e}")
        else:
            print(f"❌ Error {response.status_code} al descargar {url}")

Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2021/DataFiles/ALQ_L.xpt
Archivo guardado: ../data/raw_data/ALQ/ALQ_L.xpt
Convertido a CSV: ../data/raw_data/ALQ/ALQ_L_2021.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2017/DataFiles/P_ALQ.xpt
Archivo guardado: ../data/raw_data/ALQ/P_ALQ.xpt
Convertido a CSV: ../data/raw_data/ALQ/P_ALQ_2017.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2017/DataFiles/ALQ_J.xpt
Archivo guardado: ../data/raw_data/ALQ/ALQ_J.xpt
Convertido a CSV: ../data/raw_data/ALQ/ALQ_J_2017.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2015/DataFiles/ALQ_I.xpt
Archivo guardado: ../data/raw_data/ALQ/ALQ_I.xpt
Convertido a CSV: ../data/raw_data/ALQ/ALQ_I_2015.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2013/DataFiles/ALQ_H.xpt
Archivo guardado: ../data/raw_data/ALQ/ALQ_H.xpt
Convertido a CSV: ../data/raw_data/ALQ/ALQ_H_2013.csv
Descargando: https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2011/DataFil