In [15]:
import os
import sys
import json
from pathlib import Path

import pandas as pd
import matplotlib.pyplot as plt

src_path = os.path.abspath(os.path.join("..", "src"))
sys.path.append(src_path)

pd.set_option("display.max_colwidth", None)

In [24]:
def jsons_to_parquet(folder_path: str, save_filename: str) -> pd.DataFrame:
    """Decode and combine all json files in a directory, then save as a parquet file."""
    dataframes = []
    json_files = [file for file in os.listdir(folder_path) if file.endswith(".json") and "broken" not in file]

    for file in json_files:
        with open(Path(folder_path, file), "r", encoding="utf-8") as f:
            data = json.load(f)
            df = pd.DataFrame.from_dict(data, orient="index")
            dataframes.append(df)

    all_data = pd.concat(dataframes, ignore_index=True)
    all_data.to_parquet(f"{Path('..', 'data', save_filename)}.parquet", engine="pyarrow")

    return all_data

data = jsons_to_parquet("../data/raw_data", "concat_data")
data.head()

Unnamed: 0,url,ingridients,title,price,description,capacity
0,"https://www.rossmann.pl/Produkt/Szampony-w-plynie/Neboa-Hydration-Smoothness-szampon-do-wlosow-naturalny-wlosy-suche-i-puszace-sie-300-ml,368466,13177\n","Aqua, Sodium Coco-Sulfate, Coco-Betaine, Coco-Glucoside, Sodium Hyaluronate, Melia Azadirachta Leaf Extract, Oryza Sativa Seed Protein, Oryza Sativa Extract, Guar Hydroxypropyltrimonium Chloride, Parfum, Phytic Acid, Dehydroacetic Acid, Benzyl Alcohol, Polysorbate 20, Sodium Chloride, Citric Acid, Potassium Sorbate, Sodium Benzoate, Gluconolactone, Calcium Gluconate, Glycerin.","NEBOA Hydration & Smoothness szampon do włosów, naturalny, włosy suche i puszące się",29.99,"Jak działa szampon Neboa?- Skutecznie oczyszcza skórę głowy i włosy, dzięki zawartości naturalnych substancji myjących, które nie wysuszają i nie podrażniają-",300 ml
1,"https://www.rossmann.pl/Produkt/Szampony-w-plynie/LOreal-Paris-Elseve-Glycolic-Gloss-szampon-do-wlosow-200-ml,2076197,13177\n",Aqua / Water • Cetearyl Alcohol • Cocamidopropyl Betaine • Behentrimonium Chloride • Propylene Glycol • Amodimethicone • Ci 17200 / Red 33 • Ci 19140 / Yellow 5 • Cocos Nucifera Oil / Coconut Oil • Sodium Chloride • Hydroxypropyl Guar • Hydroxycitronellal • Phenoxyethanol • Ppg-1 Trideceth-6 • Ethanolamine • Trideceth-6 • Polyquaternium-37 • Limonene • Linalool • Isopropyl Alcohol • Propylene Glycol Dicaprylate/dicaprate • Caprylyl Glycol • Acrylates/stearyl Methacrylate Copolymer • Sorbitan Oleate • Cetrimonium Chloride • Citric Acid • Edta • Hexyl Cinnamal • Glycolic Acid • Parfum / Fragrance (f.i.l. Z70038579/2).,L'ORÉAL PARIS ELSEVE Glycolic Gloss szampon do włosów,37.99,"L'Oréal Paris Elseve Glycolic Gloss to innowacyjny szampon, stworzony z myślą o intensywnej pielęgnacji i wygładzeniu włókien włosów. Dzięki formule wzbogaconej",200 ml
2,"https://www.rossmann.pl/Produkt/Szampony-w-plynie/LOreal-Paris-Elseve-Hyaluron-Plump-szampon-do-wlosow-wypelniajacy-nawilzeniem-72H-Kwas-Hialurono,390609,13177\n",1239839 C - INGREDIENTS: AQUA / WATER • SODIUM LAURETH SULFATE • GLYCOL DISTEARATE • SODIUM CHLORIDE • COCAMIDOPROPYL BETAINE • DIMETHICONE • CI 60730 / EXT. VIOLET 2 • GUAR HYDROXYPROPYLTRIMONIUM CHLORIDE • COCAMIDE MEA • COCO-BETAINE • SODIUM BENZOATE • SODIUM HYDROXIDE • SODIUM HYALURONATE • PHENOXYETHANOL • STEARETH-6 • ACETIC ACID • PEG-100 STEARATE • TRIDECETH-10 • TRIDECETH-3 • SALICYLIC ACID • FUMARIC ACID • AMODIMETHICONE • CARBOMER • CITRIC ACID • HEXYLENE GLYCOL • PARFUM / FRAGRANCE. (F.I.L. Z283407/1).,"L'ORÉAL PARIS ELSEVE Hyaluron Plump szampon do włosów, wypełniający nawilżeniem, 72H, Kwas Hialuronowy, włosy odwodnione",17.99,"Czy Twoje włosy są odwodnione? To oznaka utraty nawilżenia. Poznaj nasz szampon Hyaluron Plump Wypełniający Nawilżeniem, który natychmiastowo okrywa łuski",400 ml
3,"https://www.rossmann.pl/Produkt/Oleje-i-olejki-do-wlosow/Isana-olejek-do-wlosow-2w1-intensywny-100-ml,236997,13188\n","Cyclopentasiloxane, Dimethiconol, Simmondsia Chinensis Seed Oil, Parfum, Cyclohexasiloxane, Trisiloxane, Phenyl Trimethicone, Alpha-Isomethyl Ionone, Benzyl Salicylate, Hexyl Cinnamal, Citronellol, Linalool, Geraniol.","ISANA olejek do włosów, 2w1, intensywny",18.99,Olejek do włosów.\n\n \n\nDo włosów dłuższych oraz zmęczonych.\n\nChroni włosy przed wysoką temperaturą (do 230 °C) podczas suszenia i jednocześnie intensywnie,100 ml
4,"https://www.rossmann.pl/Produkt/Odzywki-do-wlosow/OnlyBio-Hair-in-Balance-odzywka-do-wlosow-emolientowa-200-ml,354506,13183\n","Aqua, Cetearyl Alcohol, Butyrospermum Parkii (Shea) Butter, Behentrimonium Chloride, Linum Usitatissimum (Linseed) Seed Oil, Persea Gratissima (Avocado) Oil, Rubus Chamaemorus Fruit Extract, Tocopherol, Helianthus Annuus (Sunflower) Seed Oil, Guar Hydroxypropyltrimonium Chloride, Citric Acid, Cetrimonium Chloride, Benzyl Alcohol, Benzoic Acid, Dehydroacetic Acid, Parfum, Citronellol, Geraniol.","ONLYBIO Hair in Balance odżywka do włosów, emolientowa",22.99,"Odżywka emolientowa z linii Hair Balance to nasze rozwiązanie dla szorstkich, puszących oraz plączących się włosów.Idealna do pielęgnacji włosów metodą „OMO”.",200 ml


In [25]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 19223 entries, 0 to 19222
Data columns (total 6 columns):
 #   Column       Non-Null Count  Dtype 
---  ------       --------------  ----- 
 0   url          19223 non-null  object
 1   ingridients  19069 non-null  object
 2   title        19223 non-null  object
 3   price        19217 non-null  object
 4   description  19215 non-null  object
 5   capacity     19217 non-null  object
dtypes: object(6)
memory usage: 901.2+ KB
