# pre processing

output:
    books_train_csv and books_test_csv
    
        [
            {
                "title": name of book (normalized),
                "description": description of book (tokenized & normalized& remove Word that do not contain letters),
                "categories" : categories of book (normalized)
            },
            .
            .
            .,
            {...}
        ]

In [1]:
import csv
from hazm import Normalizer, sent_tokenize, word_tokenize

### importing csv

In [2]:
books_train_csv = list()

with open("books_train.csv") as file:
    reader = csv.DictReader(file)
    books_train_csv = [i for i in reader]

In [3]:
books_test_csv = list()

with open("books_test.csv") as file:
    reader = csv.DictReader(file)
    books_test_csv = [i for i in reader]

In [4]:
books_train_csv
books_test_csv

[{'title': 'کآشوب',
  'description': '«کآشوب (بیست و سه روایت از روضه\u200cهایی که زندگی می\u200cکنیم)» به همت نفیسه مرشدزاده جمع\u200cآوری شده است. کآشوب روایت\u200cهای واقعی و مستند از نسبت نسل\u200cهای متفاوت امروز با واقعه\u200cی سال ۶۱ هجری (شهادت مظلومانه امام حسین علیه\u200cالسلام) است. این نویسندگان که شغل و گرایش\u200cهای مختلف دارند، قرار بوده با لحن توصیفی، نسبتِ شخصی و زیسته\u200cی خودشان با مجالس گذشته و امروز را گزارش کنند که البته، همه، دل از دست داده\u200cاند و این\u200cجا و آن\u200cجا، شیفتگی از متن\u200cها بیرون زده است. این مجموعه ذره\u200cای از یک جریان مداوم است. هر اثری که در حوزه\u200cی عاشورا و محرم تولید می\u200cشود به محضِ تولد یکی از هزارانی می\u200cشود که پیش\u200cتر در هر دوره\u200cای به ساحتِ این واقعه\u200cی تمام\u200cنشدنی پیشکش شده\u200cاست.\nروایت هفتم؛ بر فراز تپه (علی غبیشاوی):\nشانزده یا هفده ساله بودم. سه ماه تابستان و تعطیلات سال نو که در قم کاری نداشتیم، می\u200cرفتیم خوزستان، روستای پدری، پیش حاج\u200cبابا. اولین بار بود که محرم افتاده بود میان 

### Normalizing

In [5]:
normalizer = Normalizer()
books_train_csv = [{j : normalizer.normalize(i[j]).replace("\u200c", " ") for j in i.keys()} for i in books_train_csv]
books_test_csv = [{j : normalizer.normalize(i[j]).replace("\u200c", " ") for j in i.keys()} for i in books_test_csv]

In [6]:
books_train_csv
books_test_csv

[{'title': 'کآشوب',
  'description': '«کآشوب (بیست و سه روایت از روضه هایی که زندگی می کنیم)» به همت نفیسه مرشدزاده جمع آوری شده است. کآشوب روایت های واقعی و مستند از نسبت نسل های متفاوت امروز با واقعه ی سال ۶۱ هجری (شهادت مظلومانه امام حسین علیه السلام) است. این نویسندگان که شغل و گرایش های مختلف دارند، قرار بوده با لحن توصیفی، نسبت شخصی و زیسته ی خودشان با مجالس گذشته و امروز را گزارش کنند که البته، همه، دل از دست داده اند و این جا و آن جا، شیفتگی از متن ها بیرون زده است. این مجموعه ذره ای از یک جریان مداوم است. هر اثری که در حوزه ی عاشورا و محرم تولید می شود به محض تولد یکی از هزارانی می شود که پیش تر در هر دوره ای به ساحت این واقعه ی تمام نشدنی پیشکش شده است. \nروایت هفتم؛ بر فراز تپه (علی غبیشاوی): \nشانزده یا هفده ساله بودم. سه ماه تابستان و تعطیلات سال نو که در قم کاری نداشتیم، می رفتیم خوزستان، روستای پدری، پیش حاج بابا. اولین بار بود که محرم افتاده بود میان تعطیلات. اولین بار بود که محرم قم نبودیم. \nآن روز وقتی داشتم اتصالی سیم باندهای حیاط را پیدا می کردم و وصله می زدم، وقتی

### tokenize

In [7]:
def has_farsi_letters(text : str) -> bool:
    for char in text:
            if char.isalpha() and ord(char) >= 0x0600 and ord(char) <= 0x06FF:
                   return True
    return False

In [8]:
def is_valid_word(word : str) -> bool:
    if has_farsi_letters(word):
        return True
    return False

In [9]:
def tokenize_str(txt : str) -> list(str()):
    token = list()
    for sent in sent_tokenize(txt):
        for word in word_tokenize(sent):
            if is_valid_word(word):
                token.append(word)
    return token

In [10]:
for i in range(len(books_train_csv)):
    for j in {"description"}:
        books_train_csv[i][j] = tokenize_str(books_train_csv[i][j])

for i in range(len(books_test_csv)):
    for j in {"description"}:
        books_test_csv[i][j] = tokenize_str(books_test_csv[i][j])

In [11]:
books_train_csv
books_test_csv

[{'title': 'کآشوب',
  'description': ['کآشوب',
   'بیست',
   'و',
   'سه',
   'روایت',
   'از',
   'روضه',
   'هایی',
   'که',
   'زندگی',
   'می',
   'کنیم',
   'به',
   'همت',
   'نفیسه',
   'مرشدزاده',
   'جمع',
   'آوری',
   'شده_است',
   'کآشوب',
   'روایت',
   'های',
   'واقعی',
   'و',
   'مستند',
   'از',
   'نسبت',
   'نسل',
   'های',
   'متفاوت',
   'امروز',
   'با',
   'واقعه',
   'ی',
   'سال',
   'هجری',
   'شهادت',
   'مظلومانه',
   'امام',
   'حسین',
   'علیه',
   'السلام',
   'است',
   'این',
   'نویسندگان',
   'که',
   'شغل',
   'و',
   'گرایش',
   'های',
   'مختلف',
   'دارند',
   'قرار',
   'بوده',
   'با',
   'لحن',
   'توصیفی',
   'نسبت',
   'شخصی',
   'و',
   'زیسته',
   'ی',
   'خودشان',
   'با',
   'مجالس',
   'گذشته',
   'و',
   'امروز',
   'را',
   'گزارش',
   'کنند',
   'که',
   'البته',
   'همه',
   'دل',
   'از',
   'دست',
   'داده_اند',
   'و',
   'این',
   'جا',
   'و',
   'آن',
   'جا',
   'شیفتگی',
   'از',
   'متن',
   'ها',
   'بیرون',
   'زده_است',
 

# processing

In [12]:
from math import log10

### count words per category

In [13]:
all_words = list()
for i in books_train_csv:
    all_words.extend(i["description"])

In [14]:
categories_data = {"total" : {"total" : 0 , **{word : 0 for word in all_words}}}
for book in books_train_csv:
    if book["categories"] not in categories_data.keys():
        categories_data[book["categories"]] = {"total" : 0, **{word : 0 for word in all_words}}
    for word in book["description"]:
        categories_data[book["categories"]][word] += 1
        categories_data[book["categories"]]["total"] += 1
        categories_data["total"][word] += 1
        categories_data["total"]["total"] += 1

In [15]:
categories_data

{'total': {'total': 496563,
  'ساختار': 50,
  'نظریه': 172,
  'های': 6139,
  'جامعه': 648,
  'شناسی': 378,
  'ایران': 359,
  'نوشته': 936,
  'ابوالفضل': 8,
  'رمضانی': 7,
  'دربردارنده': 49,
  'درباره': 837,
  'از': 12430,
  'منظر': 76,
  'اندیشمندانی': 2,
  'همچون': 140,
  'جواد': 8,
  'طباطبایی': 14,
  'همایون': 13,
  'کاتوزیان': 1,
  'احمد': 80,
  'اشرف': 12,
  'پرویز': 7,
  'پیران': 3,
  'حسین': 138,
  'بشیریه': 1,
  'و': 26459,
  'است': 7181,
  'در': 14150,
  'بخشی': 549,
  'کتاب': 4068,
  'می': 13917,
  'خوانیم': 477,
  'تحلیل': 188,
  'تاکید': 36,
  'بیشتر': 363,
  'بر': 1489,
  'خلاصه': 66,
  'سازی': 127,
  'دقیق': 76,
  'ها': 3776,
  'با': 5571,
  'شکافتن': 1,
  'اجزا': 4,
  'عناصر': 38,
  'آنها': 725,
  'تلاش': 214,
  'شود': 1554,
  'تا': 1784,
  'جایی': 135,
  'که': 11073,
  'امکان': 89,
  'دارد': 1226,
  'کمترین': 26,
  'چیزی': 321,
  'قلم': 306,
  'نیفتد': 2,
  'هدف': 205,
  'این': 7594,
  'برای': 2931,
  'تجزیه': 29,
  'شناختی': 103,
  'موجود': 111,
  'به': 14071,
  'اصلی

### Create bag of word

In [16]:
import pandas as pd

In [17]:
df = pd.DataFrame(categories_data)
df = df.transpose()

In [18]:
df

Unnamed: 0,total,ساختار,نظریه,های,جامعه,شناسی,ایران,نوشته,ابوالفضل,رمضانی,...,بزک,جودانه,کتابفروش,کماندوهای,قدرش,بهروان,ستمگر,خواهی_هود,بنوشند,اهلش
total,496563,50,172,6139,648,378,359,936,8,7,...,1,1,1,1,1,1,1,1,1,1
جامعه شناسی,93900,33,130,1517,453,292,190,156,3,1,...,0,0,0,0,0,0,0,0,0,0
کلیات اسلام,65265,2,17,612,72,44,34,110,2,0,...,0,0,0,0,0,0,0,0,1,1
داستان کودک و نوجوانان,40765,0,1,595,4,0,21,155,2,6,...,0,0,0,0,0,1,1,1,0,0
داستان کوتاه,91437,3,1,1072,33,5,51,171,1,0,...,1,1,1,1,1,0,0,0,0,0
مدیریت و کسب و کار,82417,7,20,1192,35,31,23,174,0,0,...,0,0,0,0,0,0,0,0,0,0
رمان,122779,5,3,1151,51,6,40,170,0,0,...,0,0,0,0,0,0,0,0,0,0


### calculate p(c)

In [19]:
sum_book = {"total" : 0}
for book in books_train_csv:
    if book["categories"] not in sum_book.keys():
        sum_book[book["categories"]] = 0
    sum_book[book["categories"]] += 1
    sum_book["total"] += 1

In [20]:
log_p_c = dict()
for category in sum_book.keys():
    log_p_c[category] = log10(sum_book[category] / sum_book["total"])

In [21]:
log_p_c

{'total': 0.0,
 'جامعه شناسی': -0.7781512503836436,
 'کلیات اسلام': -0.7781512503836436,
 'داستان کودک و نوجوانان': -0.7781512503836436,
 'داستان کوتاه': -0.7781512503836436,
 'مدیریت و کسب و کار': -0.7781512503836436,
 'رمان': -0.7781512503836436}

### calculate p(x)

In [22]:
p_x_word = dict()

for word in categories_data["total"].keys():
    p_x_word[word] = categories_data["total"][word] / categories_data["total"]["total"]

In [23]:
log_p_x = dict()
a = 0.4

for book in books_test_csv:
    log_p_x[book["title"]] = 0
    for word in book["description"]:
        if word in p_x_word.keys():
            log_p_x[book["title"]] += log10(p_x_word[word])
        else:
            log_p_x[book["title"]] += log10(a / categories_data["total"]["total"])

In [24]:
log_p_x

{'کآشوب': -1298.8166484950777,
 'داستان های برق آسا': -1234.9905258858514,
 'بحثی درباره مرجعیت و روحانیت': -506.7398991698416,
 'قلعه ی حیوانات': -1085.281490013241,
 'قصه ما مثل شد (۱)': -228.56210565916385,
 'اسلام و چالش اقتصادی': -914.0579843126051,
 'مواعظ (جلد ۳)': -108.09511774859301,
 'ماندن (مجموعه  داستان پیوسته)': -1266.4937256961036,
 'چرا اقتصاد فرو می ریزد؟: به سوی نظریه ای عمومی درباره علت افول اقتصادی کشورها': -363.61858713706164,
 'تطهیر با جاری قرآن؛ تفسیر جلد سی ام (جلد اول)': -185.78887032905038,
 'Management Skills': -56.307587160638604,
 'مدیریت تغییر (راهکارهایی جهت ایجاد تغییرات مناسب در وضعیت های بحرانی)': -710.9276761564197,
 'زندانی قلعه ی قهقهه': -597.3381655250208,
 'دری در دیوار': -1063.4798959674795,
 'مطلقا تقریبا': -1071.055169355562,
 'ذهن دیوارها': -1388.7381153869046,
 'موش و گربه': -79.65982816987875,
 'تصمیم گیری': -829.0006783824253,
 'چرا بازاریابی شبکه ای؟': -567.1526252350567,
 'فروش موفق': -727.3731842736984,
 'فاطمه علی است': -891.4151082051

### calculate p(x|c)

In [25]:
p_x_c_word = dict()

for category in categories_data.keys():
    p_x_c_word[category] = dict()
    for word in categories_data[category].keys():
        p_x_c_word[category][word] = categories_data[category][word] / categories_data[category]["total"]

In [26]:
p_x_c_word

{'total': {'total': 1.0,
  'ساختار': 0.00010069215789335895,
  'نظریه': 0.0003463810231531548,
  'های': 0.012362983146146611,
  'جامعه': 0.001304970366297932,
  'شناسی': 0.0007612327136737937,
  'ایران': 0.0007229696936743173,
  'نوشته': 0.0018849571957636796,
  'ابوالفضل': 1.6110745262937432e-05,
  'رمضانی': 1.4096902105070254e-05,
  'دربردارنده': 9.867831473549177e-05,
  'درباره': 0.001685586723134829,
  'از': 0.025032070452289036,
  'منظر': 0.0001530520799979056,
  'اندیشمندانی': 4.027686315734358e-06,
  'همچون': 0.00028193804210140507,
  'جواد': 1.6110745262937432e-05,
  'طباطبایی': 2.8193804210140507e-05,
  'همایون': 2.6179961052273327e-05,
  'کاتوزیان': 2.013843157867179e-06,
  'احمد': 0.00016110745262937432,
  'اشرف': 2.4166117894406147e-05,
  'پرویز': 1.4096902105070254e-05,
  'پیران': 6.041529473601537e-06,
  'حسین': 0.0002779103557856707,
  'بشیریه': 2.013843157867179e-06,
  'و': 0.05328427611400769,
  'است': 0.014461407716644212,
  'در': 0.02849588068382058,
  'بخشی': 0.0011

In [27]:
log_p_x_c = dict()

for book in books_test_csv:
    log_p_x_c[book["title"]] = dict()
    for category in categories_data.keys():
        log_p_x_c[book["title"]][category] = 0
        for word in book["description"]:
            if word in p_x_c_word[category].keys() and p_x_c_word[category][word] != 0:
                log_p_x_c[book["title"]][category] += log10(p_x_c_word[category][word])
            else:
                # if we dont want to use Additive Smoothing comment next line
                log_p_x_c[book["title"]][category] += log10(a / categories_data[category]["total"])
                pass

In [28]:
log_p_x_c

{'کآشوب': {'total': -1298.8166484950777,
  'جامعه شناسی': -1338.7137265212618,
  'کلیات اسلام': -1321.8727096459384,
  'داستان کودک و نوجوانان': -1302.8837700222566,
  'داستان کوتاه': -1299.1553785496012,
  'مدیریت و کسب و کار': -1363.0890049270276,
  'رمان': -1300.3498539851116},
 'داستان های برق آسا': {'total': -1234.9905258858514,
  'جامعه شناسی': -1295.5021452435885,
  'کلیات اسلام': -1304.721983530072,
  'داستان کودک و نوجوانان': -1220.9513773222136,
  'داستان کوتاه': -1207.9597447194553,
  'مدیریت و کسب و کار': -1295.188433858112,
  'رمان': -1226.3822604162579},
 'بحثی درباره مرجعیت و روحانیت': {'total': -506.7398991698416,
  'جامعه شناسی': -502.599517415858,
  'کلیات اسلام': -473.10054405753806,
  'داستان کودک و نوجوانان': -507.65358887851943,
  'داستان کوتاه': -529.973895083976,
  'مدیریت و کسب و کار': -528.0220334245512,
  'رمان': -530.4675937256247},
 'قلعه ی حیوانات': {'total': -1085.281490013241,
  'جامعه شناسی': -1097.7154692373283,
  'کلیات اسلام': -1143.99782324391,
  'د

### calculate p(c|x)

In [29]:
log_p_c_x = dict()

for book in books_test_csv:
    log_p_c_x[book["title"]] = dict()
    for category in categories_data.keys():
        log_p_c_x[book["title"]][category] = log_p_x_c[book["title"]][category] + log_p_c[category] - log_p_x[book["title"]]

In [30]:
log_p_c_x

{'کآشوب': {'total': 0.0,
  'جامعه شناسی': -40.675229276567734,
  'کلیات اسلام': -23.834212401244258,
  'داستان کودک و نوجوانان': -4.8452727775625135,
  'داستان کوتاه': -1.1168813049071105,
  'مدیریت و کسب و کار': -65.05050768233355,
  'رمان': -2.311356740417523},
 'داستان های برق آسا': {'total': 0.0,
  'جامعه شناسی': -61.28977060812076,
  'کلیات اسلام': -70.5096088946043,
  'داستان کودک و نوجوانان': 13.260997313254165,
  'داستان کوتاه': 26.252629916012438,
  'مدیریت و کسب و کار': -60.97605922264415,
  'رمان': 7.830114219209918},
 'بحثی درباره مرجعیت و روحانیت': {'total': 0.0,
  'جامعه شناسی': 3.3622305035999602,
  'کلیات اسلام': 32.861203861919876,
  'داستان کودک و نوجوانان': -1.6918409590614942,
  'داستان کوتاه': -24.01214716451807,
  'مدیریت و کسب و کار': -22.060285505093248,
  'رمان': -24.505845806166803},
 'قلعه ی حیوانات': {'total': 0.0,
  'جامعه شناسی': -13.212130474470996,
  'کلیات اسلام': -59.49448448105272,
  'داستان کودک و نوجوانان': -15.502704248801138,
  'داستان کوتاه': -35

# analysis of the result

In [31]:
result = {
    i: {
        "guess": max((value, key) for key, value in log_p_c_x[i].items() if key != 'total')[1],
        "real category": next(j["categories"]
                              for j in books_test_csv if j["title"] == i)
    } for i in log_p_c_x.keys()
}

In [32]:
correct_amount = 0
for i in result.keys():
    if result[i]["guess"] == result[i]["real category"]:
        result[i]["is true"] = True
        correct_amount += 1
    else:
        result[i]["is true"] = False

correct_amount *= 100 / len(result)
correct_amount

81.06904231625836

In [33]:
df = pd.DataFrame(result)
df = df.transpose()
df

Unnamed: 0,guess,real category,is true
کآشوب,داستان کوتاه,داستان کوتاه,True
داستان های برق آسا,داستان کوتاه,داستان کوتاه,True
بحثی درباره مرجعیت و روحانیت,کلیات اسلام,کلیات اسلام,True
قلعه ی حیوانات,رمان,رمان,True
قصه ما مثل شد (۱),داستان کودک و نوجوانان,داستان کودک و نوجوانان,True
...,...,...,...
سیره اقتصادی امام علی (ع),کلیات اسلام,کلیات اسلام,True
تفنگ پدر بر بام های تهران,داستان کودک و نوجوانان,رمان,False
اصالت من,جامعه شناسی,جامعه شناسی,True
تأمین مالی آموزش و پرورش در ایران,جامعه شناسی,جامعه شناسی,True
