### Obtención de datos desde JSON de web scraping a data frame

In [1]:
# Obtener dataframe de todos los archivos JSON
import pandas as pd
import json
import numpy as np

# Cargar las rutas de los archivos JSON
urls = np.load('urls.npy')

# Lista para almacenar los dataframes
dataframes = []
# Cargar los archivos JSON en dataframes
colmuns = [
        "Enlace",
        "Marca",
        "Nombre",
        "Badge Promocional",
        "Descripción del Producto",
        "Precio Anterior",
        "Precio Actual",
]

# Hacer lo mismo comentado pero llenando los datos faltantes con NaN
for ruta in urls:
    # Carga el archivo JSON
    nombre_archivo = ruta.replace('/', '_').strip('_') + '.json'
    with open(f"data/{nombre_archivo}", 'r', encoding='utf-8') as json_file:
        datos_articulos = json.load(json_file)

    # Crea un dataframe con los datos
    df = pd.DataFrame(datos_articulos)
    
    # Agrega la columnas que faltan
    for col in colmuns:
        if col not in df.columns:
            df[col] = ''
    
    # Reordena las columnas
    df = df[colmuns]

    # Agrega la ruta 1 2 y 3, son el nombre del archivo separado por _
    df['Categoria 1'] = ruta.split('/')[1] if len(ruta.split('/')) > 1 else ''
    df['Categoria 2'] = ruta.split('/')[2] if len(ruta.split('/')) > 2 else ''
    df['Categoria 3'] = ruta.split('/')[3] if len(ruta.split('/')) > 3 else ''

    # Agrega el dataframe a la lista
    dataframes.append(df)

In [2]:
# Unir todos los dataframes
df = pd.concat(dataframes, ignore_index=True)

# Borrar filas con precio NaN
df = df[df['Precio Actual'].notna()]
df = df[df['Precio Anterior'] != '']

# Quitar caracteres raros
df['Precio Actual'] = df['Precio Actual'].str.replace(r'[^\d.]', '', regex=True)
df['Precio Anterior'] = df['Precio Anterior'].str.replace(r'[^\d.]', '', regex=True)

df.tail()

Unnamed: 0,Enlace,Marca,Nombre,Badge Promocional,Descripción del Producto,Precio Anterior,Precio Actual,Categoria 1,Categoria 2,Categoria 3
33448,https://www.elpalaciodehierro.com/home-creativ...,Home Creative,Figura navideña Hongo Cabaña,Solo en El Palacio,"Figura navideña Home Creative, de la colección...",159.0,127.2,temporada,navidad,decoracion-navidena
33449,https://www.elpalaciodehierro.com/home-creativ...,Home Creative,Caja decorativa navideña Frozen,Solo en El Palacio,"Caja decorativa navideña Home Creative, de la ...",519.0,415.2,temporada,navidad,decoracion-navidena
33450,https://www.elpalaciodehierro.com/home-creativ...,Home Creative,Figura navideña Bellota Cabaña,Solo en El Palacio,"Figura navideña Home Creative, de la colección...",179.0,143.2,temporada,navidad,decoracion-navidena
33457,https://www.elpalaciodehierro.com/urban-republ...,Urban Republic Life Styles,Figura decorativa Frozen Ornamento Campana Bor...,Solo en El Palacio,Figura decorativa Urban Republic Life Styles F...,259.0,194.25,temporada,navidad,decoracion-navidena
33458,https://www.elpalaciodehierro.com/urban-republ...,Urban Republic Life Styles,Figura navideña artesanal Kitsch Santa Claus e...,Solo en El Palacio,"Figura navideña Urban Republic Life Styles, de...",319.0,239.25,temporada,navidad,decoracion-navidena


In [None]:
# df.to_excel('data.xlsx', index=False, engine='xlsxwriter')

In [None]:
# Abrir el archivo xlsx
df = pd.read_excel('data.xlsx', engine='openpyxl')
df.isna().sum()