# Import relevant Libraries

In [1]:
import pandas as pd
import numpy as np

# Import Data

In [2]:
df = pd.read_csv('../../../data/book_reviews.csv')
df.drop(columns=['Unnamed: 0'], axis=1, inplace=True)
df

Unnamed: 0,review
0,من أمتع ما قرأت من روايات بلا شك. وحول الشك ت...
1,رواية تتخذ من التاريخ ،جوًا لها اختار المؤلف ...
2,إني أقدّر هذه الرواية كثيرا، لسبب مختلف عن أس...
3,الكاهن الذي أطلق على نفسه اسم هيبا تيمنا بالع...
4,"""عزازيل"" هو اسم رواية يوسف زيدان الثانية و ال..."
...,...
63251,اجمل مسرحية ألفت في تاريخ الادب الانجليزي
63252,بصراحة، لم تكن هذه الرواية على قدر توقعاتي. ا...
63253,هي الرواية الأولى التي قرأتها لأيميلي نصر الل...
63254,تَدْخل بيوت الناس، تدخل قلوبهم، تمدّ يدك تصاف...


In [3]:
egyptian_books = ['فردقان', 'أولاد حارتنا', 'لوكاندة بير الوطاويط', 'عزازيل', 'ورثة آل الشيخ', 'قصر الشوق', 'اعتقال الشيخ الرئيس', 'حروب الرحماء: القتلة الأوائل', 
                 'تراب الماس', 'موسم صيد الغزلان', 'ما ﻻ نبوح به', 'شآبيب', 'أفراح المقبرة', 'حدث في برلين', 'موسم الهجرة إلى الشمال', 
                 'حكايات يوسف تادرس', 'حرب الكلب الثانية', 'ما وراء الطبيعة', 'أولاد الناس', 'سفينة نيرودا', ]

In [4]:
egyptian_authors = ['نجيب محفوظ', 'أحمد القرملاوي', 'يوسف زيدان', 'أحمد مراد', 'إبراهيم عيسى', 'ساندرا سراج', 'أحمد خالد توفيق', 'هشام الخشن', 'الطيب صالح', 
                   'عادل عصمت', 'إبراهيم نصر الله', 'ريم بسيوني', 'إيزابيل الليندي', 'محمد المنسي قنديل', ]

# Filter data to Egyptian Book reviews

In [5]:
df = df[df.apply(
    lambda row : any(word in row['review'] for word in egyptian_books) 
    or any(word in row['review'] for word in egyptian_authors), axis=1)]
df

Unnamed: 0,review
0,من أمتع ما قرأت من روايات بلا شك. وحول الشك ت...
2,إني أقدّر هذه الرواية كثيرا، لسبب مختلف عن أس...
4,"""عزازيل"" هو اسم رواية يوسف زيدان الثانية و ال..."
5,لم استوعب بداية أنها رواية حتى وصلت إلى المنت...
7,مقتطفات من رواية عزازيل للكاتب يوسف زيدان ---...
...,...
62391,كتاب مُسلّي جداً . أسلوب أحمد خالد توفيق لذيذ...
62393,"الأفكار معظمها مكرر من ما وراء الطبيعة أو ""36..."
62984,بعد أن تجاوزت فترة الولع بألغاز المغامرين الخ...
63017,الجنقو مسامير الأرض،.رواية ممتعة. هي مزيج من ...


## Drop Duplicates

In [None]:
df.drop_duplicates(inplace=True)
df

In [7]:
df = df.reset_index(drop=True)
df

Unnamed: 0,review
0,من أمتع ما قرأت من روايات بلا شك. وحول الشك ت...
1,إني أقدّر هذه الرواية كثيرا، لسبب مختلف عن أس...
2,"""عزازيل"" هو اسم رواية يوسف زيدان الثانية و ال..."
3,لم استوعب بداية أنها رواية حتى وصلت إلى المنت...
4,مقتطفات من رواية عزازيل للكاتب يوسف زيدان ---...
...,...
3098,كتاب مُسلّي جداً . أسلوب أحمد خالد توفيق لذيذ...
3099,"الأفكار معظمها مكرر من ما وراء الطبيعة أو ""36..."
3100,بعد أن تجاوزت فترة الولع بألغاز المغامرين الخ...
3101,الجنقو مسامير الأرض،.رواية ممتعة. هي مزيج من ...


# Sentiment Analysis

In [8]:
from mazajak_api import predict

sentiments = []
for review in df['review']:
    pred = predict(review)
    sentiments.append(pred)

negative
positive
['negative', 'positive']


In [9]:
df['sentiment'] = sentiments

In [10]:
df

Unnamed: 0,review,sentiment
0,من أمتع ما قرأت من روايات بلا شك. وحول الشك ت...,negative
1,إني أقدّر هذه الرواية كثيرا، لسبب مختلف عن أس...,positive
2,"""عزازيل"" هو اسم رواية يوسف زيدان الثانية و ال...",neutral
3,لم استوعب بداية أنها رواية حتى وصلت إلى المنت...,negative
4,مقتطفات من رواية عزازيل للكاتب يوسف زيدان ---...,neutral
...,...,...
3098,كتاب مُسلّي جداً . أسلوب أحمد خالد توفيق لذيذ...,positive
3099,"الأفكار معظمها مكرر من ما وراء الطبيعة أو ""36...",negative
3100,بعد أن تجاوزت فترة الولع بألغاز المغامرين الخ...,negative
3101,الجنقو مسامير الأرض،.رواية ممتعة. هي مزيج من ...,positive


In [11]:
df.to_csv('book_reviews_sentiment_analysis.csv')