# Transform Raw to Bronze

- Aquest Notebook guarda la informació per passar de la capa raw a bronze i temporal.
- convertir json a csv.
- guarda el fitxer amb data del dia d'avui.
- Aquest script s'executaría directament després de fer la ingesta de web a raw. 

In [1]:
from datetime import datetime
import os
import json
import pandas as pd
import re
from tqdm.notebook import tqdm

In [2]:
directori_execucio = os.getcwd()

# Ruta de la carpeta amb les dates
ruta_carpeta_dates = os.path.join(directori_execucio, '0-Raw')

ruta_carpeta_dates

'/home/jaume/tiquets/generador-tiquets/dades/productes/dataset_propi/DataLake/0-Raw'

In [3]:
def is_date(data, format):
    try:
        datetime.strptime(data, format)
        return True
    except ValueError:
        return False

is_date("16-04-2024", "%d-%m-%Y")

True

In [4]:
dies_ingestats = [item for item in os.listdir(ruta_carpeta_dates) if os.path.isdir(os.path.join(ruta_carpeta_dates, item)) and is_date(item, "%d-%m-%Y")]
dies_ingestats

['09-05-2024', '19-04-2024', '16-04-2024', '20-04-2024', '17-04-2024']

- Dins de cada carpeta amb la data de la ingesta, anar a la carpeta categories i llegir totes les que tenim.

In [5]:
def is_category(string):
    patron = r'^\d+#\s*\w+(\s+\w+)*$'
    return re.match(patron, string) is not None

def is_category_file(string):
    patron = r'^\d+#\s*\w+(\s+\w+)*\.json$'
    return re.match(patron, string) is not None

In [6]:
# Llegim els que ja tenim ingestats:
ruta_carpeta_bronze = os.path.join(directori_execucio, '1-Bronze')

dies_tractats = [item for item in os.listdir(ruta_carpeta_bronze) if os.path.isfile(os.path.join(ruta_carpeta_bronze, item))]

dies_tractats

[]

In [7]:
# ETL: extract, transform, load
# Llegim les dades (extract)
for dia in dies_ingestats:

    if dia in dies_tractats: continue

    ruta_carpeta_categories = os.path.join(directori_execucio, '0-Raw', dia, 'categories')

    categories = [item for item in os.listdir(ruta_carpeta_categories) if os.path.isdir(os.path.join(ruta_carpeta_categories, item))]

    # Per cada categoria, entrem al subdirectori: subcategories i llegim tots els fitxers,
    # Per cada fitxer, creem un pandas amb tota la info, li afegim la categoria del pare.

    df_productes = pd.DataFrame()
    for categoria in tqdm(categories, desc='Procesando categories del dia'):
        ruta_carpeta_categoria = os.path.join(ruta_carpeta_categories, categoria, 'subcategories')
        
        category_files = [item for item in os.listdir(ruta_carpeta_categoria) if os.path.isfile(os.path.join(ruta_carpeta_categoria, item))]

        # Llegim cada fitxer:
        for category_file in category_files:
            ruta_carpeta_categoria_json = os.path.join(ruta_carpeta_categoria, category_file)

            # Llegir cada fitxer .json i passar-lo a dataframe
            with open(ruta_carpeta_categoria_json, "r", encoding="utf-8") as f:
                data = json.load(f)

            # Convertir el JSON a un DataFrame de Pandas granulat
            # Iterem per totes les sub categories que tingui aquesta sub categoria
            # Per cada una, iterem per cada producte i creem un nou dataframe amb els productes i la informació dels pares
            # Anem concatenant tots els productes
            # guardem el csv de tots els productes amb el nom de la data de la carpeta pare.

            # Per cada producte tenim 3 ids (categoria, subcategoria i sub-sub-categoria).
            # Només en guardem el nom i id i serà (categoria_1, categoria_1_name, categoria_2, categoria_2_name, categoria_3, categoria_3_name)
            categoria_1 = categoria.split('#')[0]
            categoria_1_name = categoria.split('#')[1]
            categoria_2 = category_file.split('#')[0]
            categoria_2_name = category_file.split('#')[1].rsplit(".json", 1)[0]

            for category in data['categories']:
                categoria_3 = category['id']
                categoria_3_name = category['name']
                
                df = pd.DataFrame(category['products'])
                df['categoria_1'] = categoria_1
                df['categoria_1_name'] = categoria_1_name
                df['categoria_2'] = categoria_2
                df['categoria_2_name'] = categoria_2_name
                df['categoria_3'] = categoria_3
                df['categoria_3_name'] = categoria_3_name
                df['ingested_day'] = dia

                # Reinicia el índice
                df.reset_index(drop=True, inplace=True)

                # Concatena el DataFrame al DataFrame principal
                df_productes = pd.concat([df_productes, df], ignore_index=True)

    # Transformació de dades (Transform)
    df_productes = pd.concat([df_productes, df_productes['badges'].apply(pd.Series)], axis=1)
    df_productes = pd.concat([df_productes, df_productes['price_instructions'].apply(pd.Series)], axis=1)
    df_productes.drop(columns=['badges'], inplace=True)
    df_productes.drop(columns=['price_instructions'], inplace=True)


    # Guardar dades (Load)
    ruta_capa_bronze = os.path.join(directori_execucio, '1-Bronze')
    path_csv = os.path.join(ruta_capa_bronze, f'{dia}.csv')
    df_productes.to_csv(path_csv, index=False)

Procesando categories del dia:   0%|          | 0/26 [00:00<?, ?it/s]

Procesando categories del dia:   0%|          | 0/26 [00:00<?, ?it/s]

Procesando categories del dia:   0%|          | 0/26 [00:00<?, ?it/s]

Procesando categories del dia:   0%|          | 0/26 [00:00<?, ?it/s]

Procesando categories del dia:   0%|          | 0/26 [00:00<?, ?it/s]

In [8]:
df = pd.read_csv(path_csv)

In [9]:
df.head()

Unnamed: 0,id,limit,packaging,thumbnail,display_name,bunch_selector,categoria_1,categoria_1_name,categoria_2,categoria_2_name,...,size_format,total_units,unit_selector,bunch_selector.1,drained_weight,price_decreased,reference_price,min_bunch_amount,reference_format,increment_bunch_amount
0,3318.0,1000,Safata,https://prod-mercadona.imgix.net/20190521/18/3...,Raïm negre sense llavors,False,1,Fruita i verdura,27,Fruita,...,kg,,True,False,,False,4.79,1.0,kg,1.0
1,3320.0,1000,Granel,https://prod-mercadona.imgix.net/20190521/20/3...,Raïm negre amb llavors,True,1,Fruita i verdura,27,Fruita,...,kg,,False,True,,False,3.49,0.5,kg,0.5
2,3752.0,1000,Terrina,https://prod-mercadona.imgix.net/20190521/52/3...,Salsa de mango,False,1,Fruita i verdura,27,Fruita,...,kg,,True,False,,False,7.95,1.0,kg,1.0
3,5508.0,1000,Safata,https://prod-mercadona.imgix.net/20190521/08/5...,Gerds,False,1,Fruita i verdura,27,Fruita,...,kg,,True,False,,False,13.47,1.0,kg,1.0
4,3832.0,1000,Safata,https://prod-mercadona.imgix.net/20190521/32/3...,Kiwi verd,False,1,Fruita i verdura,27,Fruita,...,kg,,True,False,,False,2.69,1.0,kg,1.0
