OPCION 1: Descargar todas las tablas de la página

In [None]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

# URL de la página
url = "https://developers.google.com/analytics/devguides/reporting/data/v1/api-schema?hl=es-419"

# Realizar la solicitud GET
response = requests.get(url)
response.raise_for_status()  # Verificar que la solicitud se realizó correctamente

# Analizar el contenido HTML de la página
soup = BeautifulSoup(response.text, 'html.parser')

# Encuentra todas las tablas en la página
tables = soup.find_all('table')

# Iterar sobre cada tabla y guardarla en un archivo CSV separado
for i, table in enumerate(tables):
    # Extraer los encabezados de la tabla
    headers = [th.text.strip() for th in table.find('thead').find_all('th')]

    # Extraer las filas de la tabla
    rows = []
    for tr in table.find('tbody').find_all('tr'):
        cells = [td.text.strip() for td in tr.find_all('td')]
        rows.append(cells)

    # Crear un DataFrame
    df = pd.DataFrame(rows, columns=headers)

    # Guardar el DataFrame en un archivo CSV
    csv_file = f'table_{i+1}.csv'
    df.to_csv(csv_file, index=False, encoding='utf-8-sig')

    print(f'Tabla {i+1} guardada en {csv_file}')


Tabla 1 guardada en table_1.csv
Tabla 2 guardada en table_2.csv
Tabla 3 guardada en table_3.csv
Tabla 4 guardada en table_4.csv
Tabla 5 guardada en table_5.csv
Tabla 6 guardada en table_6.csv
Tabla 7 guardada en table_7.csv


Opción 2: Descargar solo tablas de Métricas y Dimensiones

In [13]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
import re

# URL de la página
url = "https://developers.google.com/analytics/devguides/reporting/data/v1/api-schema?hl=es-419"

# Realizar la solicitud GET
response = requests.get(url)
response.raise_for_status()  # Verificar que la solicitud se realizó correctamente

# Analizar el contenido HTML de la página
soup = BeautifulSoup(response.text, 'html.parser')

# Encuentra todos los elementos h2 y las tablas en la página
elements = soup.find_all(['h2', 'table'])

# Iterar sobre los elementos para mapear cada tabla con su h2 inmediato anterior
table_counter = 0
current_h2 = None
for i, element in enumerate(elements):
    if element.name == 'h2':
        current_h2 = element.text.strip()
    elif element.name == 'table' and current_h2:
        # Verificar si el elemento anterior es un h2
        if elements[i - 1].name == 'h2':
            table_counter += 1
            table = element

            # Extraer los encabezados de la tabla
            table_headers = [th.text.strip() for th in table.find('thead').find_all('th')]

            # Extraer las filas de la tabla
            rows = []
            for tr in table.find('tbody').find_all('tr'):
                cells = [td.text.strip() for td in tr.find_all('td')]
                rows.append(cells)

            # Crear un DataFrame
            df = pd.DataFrame(rows, columns=table_headers)

            # Formatear el nombre del archivo CSV
            csv_file_name = re.sub(r'\W+', '_', current_h2)  # Reemplazar caracteres no alfanuméricos por guiones bajos
            csv_file = f'{csv_file_name}.csv'

            # Guardar el DataFrame en un archivo CSV
            df.to_csv(csv_file, index=False, encoding='utf-8-sig')

            print(f'Tabla {table_counter} guardada en {csv_file}')




Tabla 1 guardada en Dimensiones.csv
Tabla 2 guardada en Métricas.csv
