In [2]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import time 

# LAB DATA

 ### Tabla general de nombre de variables y de los archivos de los datos

In [75]:
# URL de ejemplo
url = "https://wwwn.cdc.gov/nchs/nhanes/search/datapage.aspx?Component=Laboratory&Cycle=2021-2023"

# Obtener el contenido HTML de la página
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")

table = soup.find("table", id="GridView1")  # Buscar por ID

# Extraer encabezados (th)
headers = [header.text.strip() for header in table.find_all("th")]

# Extraer filas de datos (td)
rows = []
for row in table.find_all("tr"):
    cols = row.find_all("td")
    cols = [ele.text.strip() for ele in cols]
    if cols:  # Ignorar filas vacías
        rows.append(cols)

# Crear un DataFrame con los encabezados y las filas
df_samplename = pd.DataFrame(rows, columns=headers)

# Mostrar o guardar el DataFrame
df_samplename.to_csv("./data/Scrapping/Datasheet.csv", index=False)
df_samplename

Unnamed: 0,Data File Name,Doc File,Data File,Date Published
0,alpha-1-Acid Glycoprotein,AGP_L Doc,AGP_L Data [XPT - 61.3 KB],September 2024
1,Cholesterol – High-Density Lipoprotein,HDL_L Doc,HDL_L Data [XPT - 253.4 KB],September 2024
2,Cholesterol - Total,TCHOL_L Doc,TCHOL_L Data [XPT - 253.4 KB],September 2024
3,Complete Blood Count with 5-Part Differential ...,CBC_L Doc,CBC_L Data [XPT - 1.5 MB],September 2024
4,Fasting Questionnaire,FASTQX_L Doc,FASTQX_L Data [XPT - 1.3 MB],September 2024
5,Ferritin,FERTIN_L Doc,FERTIN_L Data [XPT - 81.4 KB],September 2024
6,Folate - RBC,FOLATE_L Doc,FOLATE_L Data [XPT - 274 KB],September 2024
7,Glycohemoglobin,GHB_L Doc,GHB_L Data [XPT - 169.9 KB],September 2024
8,Hepatitis A,HEPA_L Doc,HEPA_L Data [XPT - 203 KB],September 2024
9,Hepatitis B Surface Antibody,HEPB_S_L Doc,HEPB_S_L Data [XPT - 203 KB],September 2024


In [76]:
temp = []
variable_names_cleaned = []
variable_names = df_samplename["Doc File"].to_list()
for var in variable_names:
    clean_var = var.strip()[:-3]
    temp.append(clean_var)
    
for var in temp:
    x = var.replace(" ","")
    variable_names_cleaned.append(x)

variable_names_cleaned

['AGP_L',
 'HDL_L',
 'TCHOL_L',
 'CBC_L',
 'FASTQX_L',
 'FERTIN_L',
 'FOLATE_L',
 'GHB_L',
 'HEPA_L',
 'HEPB_S_L',
 'HSCRP_L',
 'INS_L',
 'PBCD_L',
 'IHGEM_L',
 'GLU_L',
 'FOLFMS_L',
 'TST_L',
 'TFR_L',
 'UCPREG_L',
 'VID_L']

### Sacar tabla con el nombre de las variables

In [91]:
all_data = []

# URL de ejemplo
for x in variable_names_cleaned:
    try:
        url = f"https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2021/DataFiles/{x}.htm"
        # Obtener el contenido HTML de la página
        response = requests.get(url, headers={"User-Agent":"Mozilla/5.0"})
        soup = BeautifulSoup(response.content, "html.parser")

        # Buscar la tabla en el HTML
        table = soup.find_all("dl")
        data = []

        # Buscar todas las listas <dl>
        dl_blocks = soup.find_all("dl")
        data = []

        # Iterar sobre cada bloque <dl>
        for dl in dl_blocks:
            block_data = {}
            # Extraer pares <dt> y <dd>
            dt_tags = dl.find_all("dt")
            dd_tags = dl.find_all("dd")
            
            # Emparejar <dt> (clave) con <dd> (valor)
            for dt, dd in zip(dt_tags, dd_tags):
                key = dt.text.strip().replace(":", "")  # Limpiar el texto de <dt>
                value = dd.text.strip()  # Limpiar el texto de <dd>
                block_data[key] = value  # Crear un diccionario
            
            # Agregar el diccionario a la lista
            data.append(block_data)

        # Añadir los datos obtenidos de esta página a la lista total
        all_data.extend(data)
        
        # Dormir por un tiempo para evitar hacer demasiadas peticiones rápidamente
        time.sleep(3)  # Pausa de 2 segundos entre cada solicitud

    except Exception as e:
        print(f"Error al acceder a {url}: {e}")

# Convertir la lista de diccionarios en un DataFrame
df_descriptions = pd.DataFrame(all_data)

# Limpiar la columna 'Target' para remover espacios adicionales
df_descriptions['Target'] = df_descriptions['Target'].str.replace(r'\s+', ' ', regex=True).str.strip()

# Guardar como archivo CSV
df_descriptions.to_csv("./data/Scrapping/variables_descriptions.csv", index=False)

# Mostrar el DataFrame
print(df_descriptions)

    Variable Name                        SAS Label  \
0            SEQN       Respondent sequence number   
1         WTPH2YR         Phlebotomy 2 Year Weight   
2          LBXAGP  alpha-1-acid glycoprotein (g/L)   
3            SEQN       Respondent Sequence Number   
4         WTPH2YR         Phlebotomy 2 Year Weight   
..            ...                              ...   
172      LBDVD2LC              25OHD2 comment code   
173      LBXVD3MS                  25OHD3 (nmol/L)   
174      LBDVD3LC              25OHD3 comment code   
175      LBXVE3MS              epi-25OHD3 (nmol/L)   
176      LBDVE3LC          epi-25OHD3 comment code   

                              English Text  \
0              Respondent sequence number.   
1                 Phlebotomy 2 Year Weight   
2          alpha-1-acid glycoprotein (g/L)   
3               Respondent Sequence Number   
4                 Phlebotomy 2 Year Weight   
..                                     ...   
172      25-hydroxyvitamin D2

### Sacar tablas con los valores y datos de las variables

In [5]:
# Diccionario para almacenar los DataFrames
dataframes = {}

# Recorrer todas las páginas de variable_names_cleaned
for x in variable_names_cleaned:
    try:
        # Construir la URL usando el valor de la variable
        url = f"https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2021/DataFiles/{x}.htm"

        # Obtener el contenido HTML de la página
        response = requests.get(url, headers={"User-Agent": "Mozilla/5.0"})
        soup = BeautifulSoup(response.content, "html.parser")

        # Buscar todos los bloques <div class="pagebreak">
        pagebreaks = soup.find_all("div", class_="pagebreak")
        
        # Inicializar un diccionario para almacenar las tablas por nombre
        table_dataframes = {}

        # Iterar sobre los bloques de cada página
        for block in pagebreaks:
            # Extraer el título dentro de <h3 id="ID"> (este es el nombre de la tabla)
            title_tag = block.find("h3", class_="vartitle")
            if title_tag:
                table_name = title_tag.get("id")  # El id será el nombre de la tabla

                # Buscar las tablas dentro de cada bloque
                tables = block.find_all("table", class_="values")
                
                # Inicializar una lista para almacenar los datos de esta tabla
                for idx, table in enumerate(tables):
                    # Extraer encabezados (th) y filas (tr)
                    headers = [th.text.strip() for th in table.find_all("th")]
                    rows = table.find_all("tr")

                    # Lista para almacenar los datos de esta tabla
                    all_data = []

                    for row in rows:
                        cols = row.find_all("td")
                        cols = [ele.text.strip() for ele in cols]
                        if cols:  # Evitar agregar filas vacías
                            all_data.append(cols)

                    # Solo agregar la tabla si tiene datos
                    if all_data:
                        df = pd.DataFrame(all_data, columns=headers)
                        
                        # Guardar el DataFrame en el diccionario con el nombre extraído
                        table_dataframes[table_name] = df

        # Guardar las tablas del DataFrame en el diccionario de dataframes
        dataframes[x] = table_dataframes

        # Dormir por un tiempo para evitar hacer demasiadas peticiones rápidamente
        time.sleep(3)  # Pausa de 3 segundos entre cada solicitud

    except Exception as e:
        print(f"Error al acceder a {url}: {e}")

# Mostrar los DataFrames guardados
for variable_name, tables in dataframes.items():
    print(f"Datos para {variable_name}:")
    for table_name, df in tables.items():
        print(f"\nTabla: {table_name}")
        print(df.head())  # Mostrar las primeras filas de cada tabla

# Si lo deseas, guardar cada DataFrame de cada tabla en un archivo CSV
for variable_name, tables in dataframes.items():
    for table_name, df in tables.items():
        df.to_csv(f"./data/Scrapping/{variable_name}_{table_name}_data.csv", index=False)

NameError: name 'variable_names_cleaned' is not defined

### Obtener la descripcion de variables de Demografia

In [17]:
url = "https://wwwn.cdc.gov/Nchs/Data/Nhanes/Public/2021/DataFiles/DEMO_L.htm"
response = requests.get(url, headers={"User-Agent": "Mozilla/5.0"})
soup = BeautifulSoup(response.content, "html.parser")

# Buscar todos los bloques <div class="pagebreak">
pagebreaks = soup.find_all("div", class_="pagebreak")

table_dataframes = {}

for block in pagebreaks:
    try:
        # Extraer el título dentro de <h3 id="ID"> (este es el nombre de la tabla)
        title_tag = block.find("h3", class_="vartitle")
        if title_tag:
            table_name = title_tag.get("id")  # El id será el nombre de la tabla

            # Buscar las tablas dentro de cada bloque
            tables = block.find_all("table", class_="values")
            
            # Procesar cada tabla
            for idx, table in enumerate(tables):
                # Extraer encabezados (th) y filas (tr)
                headers = [th.text.strip() for th in table.find_all("th")]
                rows = table.find_all("tr")

                # Lista para almacenar los datos de esta tabla
                all_data = []

                for row in rows:
                    cols = row.find_all("td")  # Sin la clase "values"
                    cols = [ele.text.strip() for ele in cols]
                    if cols:  # Evitar agregar filas vacías
                        all_data.append(cols)

                # Solo agregar la tabla si tiene datos
                if all_data:
                    df = pd.DataFrame(all_data, columns=headers)
                    
                    # Guardar la tabla en el diccionario con un nombre único
                    table_dataframes[table_name + f"_{idx}"] = df

    except Exception as e:
        print(f"Error procesando el bloque: {e}")

# Guardar los DataFrames en CSV
for table_name, df in table_dataframes.items():
    df.to_csv(f"./Demographics/{table_name}_data.csv", index=False)

# QUESTIONNAIRE DATA

In [20]:
# URL de ejemplo
url = "https://wwwn.cdc.gov/Nchs/Nhanes/Search/DataPage.aspx?Component=Questionnaire&Cycle=2021-2023"

# Obtener el contenido HTML de la página
response = requests.get(url)
soup = BeautifulSoup(response.content, "html.parser")

table = soup.find("table", id="GridView1")  # Buscar por ID

# Extraer encabezados (th)
headers = [header.text.strip() for header in table.find_all("th")]

# Extraer filas de datos (td)
rows = []
for row in table.find_all("tr"):
    cols = row.find_all("td")
    cols = [ele.text.strip() for ele in cols]
    if cols:  # Ignorar filas vacías
        rows.append(cols)

# Crear un DataFrame con los encabezados y las filas
df_samplename = pd.DataFrame(rows, columns=headers)

# Mostrar o guardar el DataFrame
df_samplename.to_csv("./data/Questions/Datasheet.csv", index=False)
df_samplename

Unnamed: 0,Data File Name,Doc File,Data File,Date Published
0,Audiometry,AUQ_L Doc,AUQ_L Data [XPT - 1.3 MB],September 2024
1,Acculturation,ACQ_L Doc,ACQ_L Data [XPT - 445.6 KB],September 2024
2,Alcohol Use,ALQ_L Doc,ALQ_L Data [XPT - 447.6 KB],September 2024
3,Balance,BAQ_L Doc,BAQ_L Data [XPT - 714.1 KB],October 2024
4,Blood Pressure & Cholesterol,BPQ_L Doc,BPQ_L Data [XPT - 400.1 KB],September 2024
5,Current Health Status,HSQ_L Doc,HSQ_L Data [XPT - 104.4 KB],September 2024
6,Dermatology,DEQ_L Doc,DEQ_L Data [XPT - 135.8 KB],September 2024
7,Diabetes,DIQ_L Doc,DIQ_L Data [XPT - 827.7 KB],September 2024
8,Diet Behavior & Nutrition,DBQ_L Doc,DBQ_L Data [XPT - 2.5 MB],September 2024
9,Early Childhood,ECQ_L Doc,ECQ_L Data [XPT - 189.5 KB],September 2024


In [21]:
temp = []
variable_names_cleaned = []
variable_names = df_samplename["Doc File"].to_list()
for var in variable_names:
    clean_var = var.strip()[:-3]
    temp.append(clean_var)
    
for var in temp:
    x = var.replace(" ","")
    variable_names_cleaned.append(x)

variable_names_cleaned

['AUQ_L',
 'ACQ_L',
 'ALQ_L',
 'BAQ_L',
 'BPQ_L',
 'HSQ_L',
 'DEQ_L',
 'DIQ_L',
 'DBQ_L',
 'ECQ_L',
 'FNQ_L',
 'HIQ_L',
 'HEQ_L',
 'HUQ_L',
 'HOQ_L',
 'IMQ_L',
 'INQ_L',
 'KIQ_U_L',
 'MCQ_L',
 'DPQ_L',
 'OCQ_L',
 'OHQ_L',
 'PUQMEC_L',
 'PAQ_L',
 'PAQY_L',
 'RXQ_RX_L',
 'RXQASA_L',
 'RHQ_L',
 'SLQ_L',
 'SMQ_L',
 'SMQFAM_L',
 'SMQRTU_L',
 'WHQ_L']