# Data Cleaning: Preprocces for DigKala Data

## Prerequisites

The following code snippet import required third-party libraries:
+ `pandas` for data manipulation
+ `unicode` for decode Farsi characters

In [201]:
import pandas as pd
from unidecode import unidecode

Let's take a look at data:

In [202]:
df = pd.read_csv('DigiKalaProducts.csv')
df.head(20)

Unnamed: 0,نام,قیمت,امتیاز,تعداد نظرات,وزن,نویسنده,قطع,نوع جلد,نوع کاغذ,ناشر,مترجم,تعداد صفحه,موضوع,رده‌بندی کتاب,شابک
0,کتاب اثر مرکب اثر دارن هاردی انتشارات نگین ایران,"۱۸,۸۰۰",۳.۸,۲۸۴۱,220 گرم,دارن هاردی,رقعی,شومیز,تحریر,انتشارات نگین ایران,ناهید محمدی,173,,روان‌شناسی (فلسفه و روان‌شناسی),9786227195132
1,کتاب چهار اثر از فلورانس اسکاول شین اثر فلوران...,"۳۸,۰۰۰",۳.۶,۴۸۱۰,400 گرم,فلورانس اسکاول شین,رقعی,شومیز,تحریر,نگین ایران,فرشاد قدیری,400,روانشناسی,,9786006230887
2,کتاب معجزه شکرگزاری اثر راندا برن انتشارات نگی...,"۲۳,۰۰۰",۴.۱,۶۰۴,270 گرم,راندا برن,رقعی,شومیز,تحریر,نگین ایران,عباس فتاح الجنان,238,,روان‌شناسی (فلسفه و روان‌شناسی),9786227195316
3,کتاب باشگاه پنج صبحی ها اثر رابین شارما نشر آز...,"۳۶,۹۰۰",۳.۶,۲۰۳۱,500 گرم,رابین شارما,رقعی,شومیز,تحریر,آزرمیدخت,,416,,انگیزش و موفقیت (فلسفه و روان‌شناسی),9786226242226
4,کتاب معجزه شکرگزاری اثر راندا برن انتشارات نیک...,"۲۱,۰۰۰",۳.۹,۲۰۹۴,250 گرم,راندا برن,رقعی,شومیز,,نیک ورزان,علی اصغری,155,,,9786226532150
5,کتاب تختخوابت را مرتب کن اثر ژنرال ویلیام اچ. ...,"۱۳,۵۰۰",۳.۳,۹۶۱۵,130 گرم,ژنرال ویلیام اچ. مک ریون,رقعی,شومیز,,کوله پشتی,حسین گازر,104,روانشناسی وتربیت,,9786004610537
6,کتاب خودت را به فنا نده اثر گری جان بیشاپ,"۱۵,۵۰۰",۳.۱,۸۲۲۰,150 گرم,گری جان بیشاپ,رقعی,شومیز,,نشر کتاب کوله پشتی,حسین گازر,133,مکالمه با خود,,978-600-461-166-4
7,کتاب کیمیاگر اثر پائولو کوئیلو انتشارات پرثوآ,"۱۴,۵۰۰",۳.۹,۶۸۳,180 گرم,پائولو کوئیلو,رقعی,شومیز,,پرثوآ,,112,,ادبیات دیگر زبان‌ها (شعر و ادبیات),9786226771481
8,کتاب شازده کوچولو اثر آنتوان دوسنت اگزوپری انت...,"۱۴,۰۰۰",۳.۴,۵۲۵۷,150 گرم,آنتوان دوسنت اگزوپری,رقعی,شومیز,تحریر,نگین ایران,شیوا جبل عاملی,104,رمان,,9786227195125
9,کتاب کتابخانه نیمه شب اثر مت هیگ انتشارات کتاب...,"۵۰,۹۰۰",۴,۶۲۴,330 گرم,مت هیگ,رقعی,شومیز,,انتشارات کتاب کوله پشتی,محمدصالح نورانی زاده,352,,ادبیات انگلیس (شعر و ادبیات),۹۷۸۶۰۰۴۶۱۴۶۱۰


First, it is better to work with English column names, so we will change them.

In [203]:
cols_english = {
    'نام': 'tite',
    'قیمت': 'price',
    'امتیاز': 'rating',
    'تعداد نظرات': 'comment_count',
    'وزن': 'weight',
    'نویسنده': 'author',
    'قطع': 'size',
    'نوع جلد': 'cover',
    'نوع کاغذ': 'paper',
    'ناشر': 'publisher',
    'مترجم': 'translator',
    'تعداد صفحه': 'page_count',
    'موضوع': 'topic',
    'رده\u200cبندی کتاب': 'category',
    'شابک': 'isbn',
}

df_en = df.rename(columns=cols_english)
df_en.head(2)

Unnamed: 0,tite,price,rating,comment_count,weight,author,size,cover,paper,publisher,translator,page_count,topic,category,isbn
0,کتاب اثر مرکب اثر دارن هاردی انتشارات نگین ایران,"۱۸,۸۰۰",۳.۸,۲۸۴۱,220 گرم,دارن هاردی,رقعی,شومیز,تحریر,انتشارات نگین ایران,ناهید محمدی,173,,روان‌شناسی (فلسفه و روان‌شناسی),9786227195132
1,کتاب چهار اثر از فلورانس اسکاول شین اثر فلوران...,"۳۸,۰۰۰",۳.۶,۴۸۱۰,400 گرم,فلورانس اسکاول شین,رقعی,شومیز,تحریر,نگین ایران,فرشاد قدیری,400,روانشناسی,,9786006230887


Then we can see for some columns, the digits are Farsi, so we need to map them to English digits to convert their `dtypes` to numerical ones.

In [204]:
def convert_digits(s):
    s = str(s)
    s = s.replace(',', '').replace('-','')
    result = unidecode(u'{}'.format(s))
    return result

In [205]:
cols = ['price', 'rating', 'comment_count', 'weight', 'page_count', 'isbn']
for col in cols:
    df_en[col] = df_en[col].apply(convert_digits)
    
df_en.head(2)

Unnamed: 0,tite,price,rating,comment_count,weight,author,size,cover,paper,publisher,translator,page_count,topic,category,isbn
0,کتاب اثر مرکب اثر دارن هاردی انتشارات نگین ایران,18800,3.8,2841,220 grm,دارن هاردی,رقعی,شومیز,تحریر,انتشارات نگین ایران,ناهید محمدی,173,,روان‌شناسی (فلسفه و روان‌شناسی),9786227195132
1,کتاب چهار اثر از فلورانس اسکاول شین اثر فلوران...,38000,3.6,4810,400 grm,فلورانس اسکاول شین,رقعی,شومیز,تحریر,نگین ایران,فرشاد قدیری,400,روانشناسی,,9786006230887


Now, all of our numbers are in English and we can covert them into `int64`. Before that, let us adjust `weight` feature.

In [223]:
df_en['weight'] = df_en['weight'].apply(lambda x: x.split()[0].strip())
df_en.head(2)

Unnamed: 0,tite,price,rating,comment_count,weight,author,size,cover,paper,publisher,translator,page_count,topic,category,isbn
0,کتاب اثر مرکب اثر دارن هاردی انتشارات نگین ایران,18800,3.8,2841,220,دارن هاردی,رقعی,شومیز,تحریر,انتشارات نگین ایران,ناهید محمدی,173,,روان‌شناسی (فلسفه و روان‌شناسی),9786227195132
1,کتاب چهار اثر از فلورانس اسکاول شین اثر فلوران...,38000,3.6,4810,400,فلورانس اسکاول شین,رقعی,شومیز,تحریر,نگین ایران,فرشاد قدیری,400,روانشناسی,,9786006230887


So we just need to convert numerical data into `int64` dtype to have a clean data.

In [235]:
cols = ['price', 'comment_count', 'weight', 'page_count']

df_en_numerical = df_en.copy()
for col in cols:
    df_en_numerical[col] = pd.to_numeric(df_en[col], errors='coerce')

df_en_numerical

Unnamed: 0,tite,price,rating,comment_count,weight,author,size,cover,paper,publisher,translator,page_count,topic,category,isbn
0,کتاب اثر مرکب اثر دارن هاردی انتشارات نگین ایران,18800.0,3.8,2841.0,220.0,دارن هاردی,رقعی,شومیز,تحریر,انتشارات نگین ایران,ناهید محمدی,173.0,,روان‌شناسی (فلسفه و روان‌شناسی),9786227195132
1,کتاب چهار اثر از فلورانس اسکاول شین اثر فلوران...,38000.0,3.6,4810.0,400.0,فلورانس اسکاول شین,رقعی,شومیز,تحریر,نگین ایران,فرشاد قدیری,400.0,روانشناسی,,9786006230887
2,کتاب معجزه شکرگزاری اثر راندا برن انتشارات نگی...,23000.0,4.1,604.0,270.0,راندا برن,رقعی,شومیز,تحریر,نگین ایران,عباس فتاح الجنان,238.0,,روان‌شناسی (فلسفه و روان‌شناسی),9786227195316
3,کتاب باشگاه پنج صبحی ها اثر رابین شارما نشر آز...,36900.0,3.6,2031.0,500.0,رابین شارما,رقعی,شومیز,تحریر,آزرمیدخت,,416.0,,انگیزش و موفقیت (فلسفه و روان‌شناسی),9786226242226
4,کتاب معجزه شکرگزاری اثر راندا برن انتشارات نیک...,21000.0,3.9,2094.0,250.0,راندا برن,رقعی,شومیز,,نیک ورزان,علی اصغری,155.0,,,9786226532150
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
9967,کتاب چگونه فیلمنامه بنویسیم 2 اثر سید فیلد,37900.0,3.4,15.0,290.0,سید فیلد,رقعی,شومیز,,تابان خرد,مسعود مدنی,248.0,سینما و تئاتر,,9786009438068
9968,کتاب فوتبالیست ها آماده نبرد اثر علیرضا شریفی ...,49000.0,3.7,57.0,222.0,علیرضا شریفی راد,رحلی,گالینگور,تحریر,دلهام,علیرضا شریفی راد,70.0,داستانی,ادبیات فارسی (شعر و ادبیات),9789648568631
9969,کتاب پوشک دیگه بسه اثر فانی جولی,21300.0,3,6.0,178.0,فانی جولی، رز کپدویلا,خشتی,شومیز,,با فرزندان,نسرین گلدار,45.0,کودک و نوجوان,,9789647369572
9970,کتاب نهضت شعوبیه اثر حسینعلی ممتحن نشر علمی فر...,17000.0,3.4,7.0,400.0,حسینعلی ممتحن,رقعی,شومیز,,علمی فرهنگی,,390.0,,,9789644455667


In [237]:
df_en_numerical.dtypes

tite              object
price            float64
rating            object
comment_count    float64
weight           float64
author            object
size              object
cover             object
paper             object
publisher         object
translator        object
page_count       float64
topic             object
category          object
isbn              object
dtype: object