# DigiKrawl: DigiKala Comment Crawler

## Prerequisites

The following code snippet import required third-party libraries:
+ `requests` for sending HTTP requests to DigiKala server
+ `bs4` for parsing and crawling HTTP responses
+ `pandas` for data manipulation
+ `datetime` for using time series data
+ `unicode` for decode Farsi characters
+ `jdatetime` for work with Jalali dates

In [3]:
import requests
from bs4 import BeautifulSoup
import pandas as pd
from datetime import datetime
from unidecode import unidecode
import jdatetime 

DigiKala comments different features. One important one is the date of comment, its format is `'yyyy month_name dd'` so it is necessary to convert them into a proper shape. Following function will do this for you.

In [4]:
def change_date(date):
    """
    date: Jalali date in format '%YYYY %MonthName %dd' string
    return the corresponding Gregorian date
    """
    # Specify number of each month
    months = {"فروردین" : 1,
              "اردیبهشت" : 2,
              "خرداد" : 3,
              "تیر" : 4,
              "مرداد" : 5,
              "شهریور" : 6,
              "مهر" : 7,
              "آبان" : 8,
              "آذر" : 9,
              "دی" : 10,
              "بهمن" : 11,
              "اسفند" : 12,}
    # Extract day
    day = int(unidecode(u'{}'.format(date.split()[0])))
    
    # Extract month
    month = months[date.split()[1]]
    
    # Extract year
    year = int(unidecode(u'{}'.format(date.split()[2])))
    
    # Transform calendar format of the date
    date = jdatetime.date(year,month,day).togregorian()
        
    return date

Then we need to find the data in product's page. For this purpose, we will create next function.

In [5]:
def crawl_digikala_comments(url, pages = 1, mode = 1):
    """
    url: The product of DigiKala that must be crawled
    page: Number of pages of comments, by default it will crawl only first page
    mode: mode = 1 is for newest comment in webpage, mode = 2 is for most liked comments
    returns pandas.DataFrame containing all comments
    """
    # Configure mode of comments
    if (mode == 1):
        mode_str = 'newest_comment'
    elif (mode == 2):
        mode_str = 'most_liked'
    
    # Send request to the specified url
    response = requests.get(url)
    soup = BeautifulSoup(response.content, 'html.parser')
    
    # Find product_id and product_title from url and http response respectively
    product_id = url.split('/')[4][4:]
    product_title = soup.find('h1', {'class':'c-product__title'}).text.strip()
    
    # Initialize DataFrame for comments consists of 13 main features
    data = pd.DataFrame(columns = {'Product_id', 'Product_title', 'Title', 'Date', 'Username', 'Badge', 'Status', 'Content',
                                           'Advantages', 'Disadvantages', 'Color', 'Seller', 'Likes'})
    
    # Iterate each page of comments
    for page in range(pages):
        # Modify url for comments and send request
        comment_url = 'https://www.digikala.com/ajax/product/comments/list/{0}/?mode={1}&page={2}'.format(product_id, mode_str, page+1)
        response = requests.get(comment_url)
        soup = BeautifulSoup(response.content, 'html.parser')
        
        # Find each comment for further process
        comment_section = soup.find('div', {'class' : 'c-comments__list'})
        comments = comment_section.findChildren('div', {'class' : 'c-comments__item c-comments__item--pdp'})
        
        # Iterate each comment in the page
        for comment in comments:
            # Find title of the commnet
            title = comment.find('span', {'class' : 'c-comments__title'}).text.strip()
            
            # Find string of date of the comment
            date = comment.find_all('span', {'class' : 'c-comments__detail'})[0].text
            # Transform string date into datetime.date instance
            date = change_date(date)
            
            # Find username of the comment's writer
            username = comment.find_all('span', {'class' : 'c-comments__detail'})[1].text.strip()
            
            # Find user badge if exists
            badge = comment.find('div', {'class' : 'c-comments__buyer-badge'})
            if badge is not None:
                badge = badge.text
                
            # Find status of the comment if exists
            status = comment.find('div', {'class' : 'c-comments__status'})
            if status is not None:
                status = status.text
                
            # Find content of the comment
            content = comment.find('div', {'class' : 'c-comments__content'}).text
            
            # Find mentioned advantages in the comment 
            advantages = comment.find_all('div', {'class' : 'c-comments__modal-evaluation-item--positive'})            
            advantages = [advantage.text for advantage in advantages]
                        
            # Find mentioned disadvantages in the comment
            disadvantages = comment.find_all('div', {'class' : 'c-comments__modal-evaluation-item--negative'})
            disadvantages = [disadvantage.text.strip() for disadvantage in disadvantages]
            
            # Find color of the products if exists
            color = comment.find('div', {'class' : 'c-comments__color'})
            if color is not None:
                color = color.text.strip()
                
            # Find the seller's name if exists
            seller = comment.find('a', {'class' : 'c-comments__seller'})
            if seller is not None:
                seller = seller.text.strip()
            
            # Find the number of likes and convert into English digits 
            likes = unidecode(u'{}'.format(comment.find('div', {'class' : 'c-comments__helpful-yes js-comment-like'}).text))
                        
            # Append new commnet into DataFrame
            data = data.append({'Product_id':product_id, 'Product_title': product_title, 'Title': title,
                                'Date': date, 'Username': username, 'Badge': badge, 'Status': status,
                                'Content': content, 'Advantages': advantages, 'Disadvantages': disadvantages,
                                'Color': color, 'Seller': seller, 'Likes':likes}, ignore_index = True)

            
    return data

Let's look at a little example.

In [6]:
url = "https://www.digikala.com/product/dkp-186008/%DA%A9%D8%AA%D8%A7%D8%A8-%D9%BE%D8%A7%D8%B3%D8%AA%DB%8C%D9%84-%D9%87%D8%A7%DB%8C-%D8%A8%D9%86%D9%81%D8%B4-%D8%A7%D8%AB%D8%B1-%DA%A9%D8%A7%D8%AA%D8%B1%DB%8C%D9%86-%D8%A7%D9%BE%D9%84%DA%AF%DB%8C%D8%AA"
data_digikala = crawl_digikala_comments(url,2,2)
data_digikala.head()

Unnamed: 0,Color,Seller,Username,Product_title,Content,Badge,Date,Title,Disadvantages,Advantages,Status,Likes,Product_id
0,,,کاربر دیجی‌کالا,کتاب پاستیل های بنفش اثر کاترین اپلگیت,خیلی داستان زیبایی داره خیلی دوسش دارم جذابیت ...,خریدار,2020-12-01,پاستیل های بنفش,[],[],خرید این محصول را توصیه می‌کنم,\n 124\n ...,186008
1,,,سید محمد موسوی,کتاب پاستیل های بنفش اثر کاترین اپلگیت,از محتواش اطلاعی ندارم چون برای خواهرم خریدم.\...,خریدار,2020-04-26,,[],[],در مورد خرید این محصول مطمئن نیستم,\n 64\n ...,186008
2,,,محمد حاجی رسولیها,کتاب پاستیل های بنفش اثر کاترین اپلگیت,این کتاب درباره ی پسر بچه ای به نام جکسون است ...,,2018-02-12,کتاب پاستیل های بنفش,[ندارد],[\n با کیفیت\n ...,,\n 61\n ...,186008
3,,,مهدیه تاجیک,کتاب پاستیل های بنفش اثر کاترین اپلگیت,اول از جلدش بگم که خیلی قشنگ تر از چیزی بود که...,خریدار,2020-09-30,پاستیل های بنفش,[],[\n داستان مناس...,خرید این محصول را توصیه می‌کنم,\n 54\n ...,186008
4,,,نگین سبحانی,کتاب پاستیل های بنفش اثر کاترین اپلگیت,خیلی عالیه,خریدار,2020-08-13,,[],[],خرید این محصول را توصیه می‌کنم,\n 53\n ...,186008


So for so good! But we don't want to manually call this funciton for each product so it is useful to extract list of all products in the same category and automatically call it for them.

In [7]:
def crawl_digikala_list(base_url, pages=1, sort=4):
    """
    url: The list of DigiKala that must be crawled
    pages: Number of pages of products, by default it will crawl only first page
    mode: mode = 4 is for most viewed, mode = 7 is for most purchased
    returns pandas.DataFrame containing all comments
    """
    
    data = pd.DataFrame(columns = {'Product_title', 'url'})
    
    for page in range(1, pages+1):
        url = ('{0}?pageno={1}&sortby={2}').format(base_url, page, sort)
        response = requests.get(url).json()['data']['products'].encode('utf-8').decode('utf-8')

        soup = BeautifulSoup(response)

        products = soup.find_all('div', {'class': 'c-product-box__content'})

        for product in products:
            url_holder = product.find('a', href=True)
            link = 'https://www.digikala.com' + url_holder['href']
            title = url_holder.text
            
            data = data.append({'Product_title': title, 'url':link}, ignore_index=True)
    
    return data
            


And the result would be like this:

In [8]:
url = 'https://www.digikala.com/ajax/search/category-book/'
products_list = crawl_digikala_list(url, 1)
products_list.head()

Unnamed: 0,Product_title,url
0,کتاب اثر مرکب اثر دارن هاردی انتشارات نگین ایران,https://www.digikala.com/product/dkp-5079161/ک...
1,کتاب چهار اثر از فلورانس اسکاول شین اثر فلوران...,https://www.digikala.com/product/dkp-2623047/ک...
2,کتاب باشگاه پنج صبحی ها اثر رابین شارما نشر آز...,https://www.digikala.com/product/dkp-3963589/ک...
3,کتاب پاستیل های بنفش اثر کاترین اپلگیت,https://www.digikala.com/product/dkp-186008/کت...
4,کتاب معجزه شکرگزاری اثر راندا برن انتشارات نگی...,https://www.digikala.com/product/dkp-5547149/ک...


Putting these function together, we can easily extract the comments on products on the same category. For ease of running, it will just crawl and save two first prodcuts, but feel free to change it to your desired number.

Note that it would be nice if you add `time.sleep(1000)` between the requests to avoid to apply any pressure on DigiKala servers.

In [14]:
result = pd.DataFrame()

for url in products_list['url'][:2]:
    data = crawl_digikala_comments(url,1,2)
    result = result.append(data)

# Uncomment for saving file
# result.to_csv('DigiKalaComments.csv', index = False, encoding='utf-8-sig')
result.head()

Unnamed: 0,Color,Seller,Username,Product_title,Content,Badge,Date,Title,Disadvantages,Advantages,Status,Likes,Product_id
0,,انتشارات نگین ایران,کاربر دیجی‌کالا,کتاب اثر مرکب اثر دارن هاردی انتشارات نگین ایران,ترجمه به شدت ضعیفی داره \r\nواقعا نمیدونم فردی...,خریدار,2021-08-26,ترجمه,[],[],خرید این محصول را توصیه نمی‌کنم,\n 24\n ...,5079161
1,,انتشارات نگین ایران,اعظم مختاریان,کتاب اثر مرکب اثر دارن هاردی انتشارات نگین ایران,صد صفحه کتاب کمه ..تخفیف بی مورد نبوده...متاسف...,خریدار,2021-09-08,,[],[],خرید این محصول را توصیه نمی‌کنم,\n 16\n ...,5079161
2,,انتشارات نگین ایران,کاربر دیجی‌کالا,کتاب اثر مرکب اثر دارن هاردی انتشارات نگین ایران,کتاب بسیار مفید و عالی، طراحی جلد عالی بود,خریدار,2021-07-17,,[],[],خرید این محصول را توصیه می‌کنم,\n 10\n ...,5079161
3,,انتشارات نگین ایران,کاربر دیجی‌کالا,کتاب اثر مرکب اثر دارن هاردی انتشارات نگین ایران,از خریدم راضی ام.کتاب جذابیه.,خریدار,2021-05-14,با توجه به قطر کتاب توی عکس،انتظار داشتم کتابی...,[],[],خرید این محصول را توصیه می‌کنم,\n 8\n ...,5079161
4,,انتشارات نگین ایران,کاربر دیجی‌کالا,کتاب اثر مرکب اثر دارن هاردی انتشارات نگین ایران,کتاب خیلی خوبه حتما با ذهنیت آزاد و مثبت بخونی...,خریدار,2021-06-14,,[],[],خرید این محصول را توصیه می‌کنم,\n 7\n ...,5079161
