In [23]:
import pandas as pd
import re
import os
import nltk
from sklearn.model_selection import train_test_split
from nltk.tokenize import word_tokenize
from nltk.corpus import stopwords
import json
nltk.download('punk_tab')
nltk.download('punkt')
nltk.download('stopwords')

[nltk_data] Error loading punk_tab: Package 'punk_tab' not found in
[nltk_data]     index
[nltk_data] Downloading package punkt to C:\Users\aysel/nltk_data...
[nltk_data]   Package punkt is already up-to-date!
[nltk_data] Downloading package stopwords to
[nltk_data]     C:\Users\aysel/nltk_data...
[nltk_data]   Package stopwords is already up-to-date!


True

In [24]:
turkish_stopwords = set(stopwords.words('turkish'))

In [25]:
# preprocessing text
def preprocess_text(text):
    # lowercasing
    text = text.lower()

    # removing punctuation, and emoji, keep Turkish characters
    text = re.sub(r'[^\w\sğüşıöç]', '', text)  

    # tokenization 
    tokens = word_tokenize(text, language='turkish')

    # remove Turkish stopwords
    tokens = [token for token in tokens if token not in turkish_stopwords]

    return tokens


In [26]:
df = pd.read_json("urunler-yorumlar.json")

In [27]:
print(df.head())

                                                name  \
0                              Microfer Şurup 250 ml   
1  Valorvita D3k2, C. Vit. Çinko, Bakır, Selenyum...   
2                         Biotin 2000 Mcg 100 Tablet   
3                         V-effer C 1000mg 20 Tablet   
4                 Demir Takviye Edici Gıda 90 Kapsül   

                      brand  \
0                     Ocean   
1  Tabder İlaç ve Kimya San   
2                   Dynavit   
3                   Velavit   
4                  Venatura   

                                              rating  id  \
0  {'averageRating': 4.521739130434782, 'totalCou...   1   
1  {'averageRating': 4.69620253164557, 'totalCoun...   3   
2  {'averageRating': 4.4640522875816995, 'totalCo...   5   
3  {'averageRating': 4.760135135135135, 'totalCou...   7   
4  {'averageRating': 4.726190476190476, 'totalCou...  11   

                                             reviews  
0  [{'review_id': 0, 'star': 5, 'review': 'Bittik...  
1  [{

In [29]:
keywords = ["Tablet", "Şurup", "Kapsül", "Vitamin", "Damla", "Sprey", "Saşe", "Lolipop","Toz", "Çiğneme Tableti"]

In [30]:
def clean_and_extract_type(name):
    # lowercasing
    name = name.lower()
    
    # check keyword
    for keyword in keywords:
        if keyword.lower() in name:
            return keyword.capitalize()
    
    return "Unknown"

In [31]:
df["Category"] = df["name"].apply(clean_and_extract_type)

In [32]:
print(df[["name", "Category"]])

                                                   name Category
0                                 Microfer Şurup 250 ml    Şurup
1     Valorvita D3k2, C. Vit. Çinko, Bakır, Selenyum...  Vitamin
2                            Biotin 2000 Mcg 100 Tablet   Tablet
3                            V-effer C 1000mg 20 Tablet   Tablet
4                    Demir Takviye Edici Gıda 90 Kapsül   Kapsül
...                                                 ...      ...
1045     Plus 30 Kapsül 3 Adet(bağışıklık Güçlendirici)   Kapsül
1046            Multi Ener-g Multivitamin 2 X 30 Tablet   Tablet
1047                        Nbt Life Folidays 30 Kaspül  Unknown
1048               Vitamin C Plus Nutrıway™ (60 Tablet)   Tablet
1049                           D3k2 Vitamin Mixup 20 Ml  Vitamin

[1050 rows x 2 columns]


In [33]:
grouped = df.groupby("Category")

In [34]:
for category, group in grouped:
    print(f"Category: {category}")
    print(group[["name", "brand"]])

Category: Damla
                                                   name               brand
85                      Ocean Microfer Oral Damla 30 ml               Orzax
110      Bee O Up Propolis Suda Çözünü Damla 3 Al 2 Öde                Beeo
132                                    D3k2 Damla 10 ml        Natural Nest
201                    Çinko Bakır Ve D3 K2 20 Ml Damla            Venatura
332                                     Iyot Damla 25ml            Venatura
362                Lugol's Solution Iyot %5 Damla 20 Ml        Raw Material
379                                         Damla 30 ml             Sidefer
436       Lugol's Solution Iyot Damla 30 ml %2'lik Iyot        Raw Material
444                         Microfer Damla 30 Ml 2 Adet               Ocean
455                              D3k2 Mixup 20 ml Damla           Smartcaps
475                         Lipozomal D3 K2 Damla 60 ml            Lipozone
480   Iyot Damlası %5 Lik | 30 ml | Damlalıklı Şişe ...              Aro

In [17]:
print(df[["name", "Category"]])

                                                   name Category
0                                 Microfer Şurup 250 ml    Şurup
1     Valorvita D3k2, C. Vit. Çinko, Bakır, Selenyum...  Vitamin
2                            Biotin 2000 Mcg 100 Tablet   Tablet
3                            V-effer C 1000mg 20 Tablet   Tablet
4                    Demir Takviye Edici Gıda 90 Kapsül   Kapsül
...                                                 ...      ...
1045     Plus 30 Kapsül 3 Adet(bağışıklık Güçlendirici)   Kapsül
1046            Multi Ener-g Multivitamin 2 X 30 Tablet   Tablet
1047                        Nbt Life Folidays 30 Kaspül  Unknown
1048               Vitamin C Plus Nutrıway™ (60 Tablet)   Tablet
1049                           D3k2 Vitamin Mixup 20 Ml  Vitamin

[1050 rows x 2 columns]


In [35]:
print(df[["name", "Category","brand"]])
print(f"Train Data: {len(train_data)}, Test Data: {len(test_data)}")

                                                   name Category  \
0                                 Microfer Şurup 250 ml    Şurup   
1     Valorvita D3k2, C. Vit. Çinko, Bakır, Selenyum...  Vitamin   
2                            Biotin 2000 Mcg 100 Tablet   Tablet   
3                            V-effer C 1000mg 20 Tablet   Tablet   
4                    Demir Takviye Edici Gıda 90 Kapsül   Kapsül   
...                                                 ...      ...   
1045     Plus 30 Kapsül 3 Adet(bağışıklık Güçlendirici)   Kapsül   
1046            Multi Ener-g Multivitamin 2 X 30 Tablet   Tablet   
1047                        Nbt Life Folidays 30 Kaspül  Unknown   
1048               Vitamin C Plus Nutrıway™ (60 Tablet)   Tablet   
1049                           D3k2 Vitamin Mixup 20 Ml  Vitamin   

                         brand  
0                        Ocean  
1     Tabder İlaç ve Kimya San  
2                      Dynavit  
3                      Velavit  
4                 

In [36]:
df = df[df["Category"] != "Unknown"]


In [37]:
valid_df = df[(df["Category"] != "Unknown")]
filtered_products = []

# filter valid products
for _, row in valid_df.iterrows():
    # product properties
    product_data = {
        "name": row["name"],
        "brand": row.get("brand", "Unknown"),  
        "rating": row.get("rating", {"averageRating": "N/A", "totalCount": "N/A"}),  
        "id": row["id"],  
        "reviews": [] 
    }
    
    # preprocess reviews
    for review_idx, review in enumerate(row["reviews"]):
        tokens = preprocess_text(review["review"])  # tokenization
        review_data = {
            "review_id": review.get("review_id", review_idx + 1),  # if id is null, add according to order
            "star": review.get("star", "N/A"), 
            "review": review["review"],  
            "tokens": tokens  
        }
        # add review list 
        product_data["reviews"].append(review_data)

    # add product to "filtered_products" list
    filtered_products.append(product_data)


In [38]:
print("Tokenized Reviews:")
for item in filtered_products[:30]:  # print top 5
    print(item)

Tokenized Reviews:
{'name': 'Microfer Şurup 250 ml', 'brand': 'Ocean', 'rating': {'averageRating': 4.521739130434782, 'totalCount': 69}, 'id': 1, 'reviews': [{'review_id': 0, 'star': 5, 'review': 'Bittikçe alıyorum harika bişey kızım tadını da seviyor', 'tokens': ['bittikçe', 'alıyorum', 'harika', 'bişey', 'kızım', 'tadını', 'seviyor']}, {'review_id': 1, 'star': 5, 'review': 'minik hediyeleriniz için teşekkürler... ürün güzel paketlenmiş hızlı teslimat 👍', 'tokens': ['minik', 'hediyeleriniz', 'teşekkürler', 'ürün', 'güzel', 'paketlenmiş', 'hızlı', 'teslimat']}, {'review_id': 2, 'star': 5, 'review': 'Ben kendim için aldım ama çocuklara içirmek zor olur gibi geldi, demir tadı ağza yayılıyor kötü hissettiriyor. Belki portakal suyuna karıştırılarak kullanılabilir. Yetişkinlerde 2,5 ml günlük ihtiyacı tam karşılamıyor bu arada.', 'tokens': ['ben', 'kendim', 'aldım', 'çocuklara', 'içirmek', 'zor', 'olur', 'geldi', 'demir', 'tadı', 'ağza', 'yayılıyor', 'kötü', 'hissettiriyor', 'portakal', 'su

In [39]:
with open("filtered_products.json", "w", encoding="utf-8") as file:
   json.dump(filtered_products, file, indent=2, ensure_ascii=False)

print("Valid products saved in 'filtered_products.json'.")

Valid products saved in 'filtered_products.json'.
