**Read Data From File and print it**

In [None]:
import numpy as np
import pandas as pd

filename = "bal-clean-reviews.tsv.txt"
output_filename = "data.csv"
# Specify the data types for the columns
dtype = {
    "rating": str,
    "review_id": str,
    "user_id": str,
    "book_id": str,
    "review": str
}

# Read the TSV file into a pandas DataFrame
data = pd.read_csv(filename, sep='\t', header=None, names=["rating", "review_id", "user_id", "book_id", "review"], dtype=dtype)

# Exclude the header row
data = data.iloc[1:]
data

Unnamed: 0,rating,review_id,user_id,book_id,review
1,2,1665743403,21435637,13637412,قرأتها من فترة طويلة و لا يحضرني فيها الا اعجا...
2,2,1664872313,20015365,13637412,كان نفسي احب الرواية دي، أغلب اصدقائي اللي قرأ...
3,2,1659286461,56517018,13637412,عملوا منها مسلسل. اجوف المسلسل ولا اقرى الرواي...
4,2,1657686339,22103652,13637412,لطيفه :). كأنك بتتفرج ع مسلسل بس نوعا ما لطيف
5,2,1657401919,56445490,13637412,الرواية جميلة تحمل معاني ورسالات كثيرة اراد ال...
...,...,...,...,...,...
156502,4,1669006546,13011445,11159979,من الكتب الرائده والأولى في مجال العلاقات الإن...
156503,4,1598566934,4906067,698911,كتاب التاو تي تشينغ _ إنجيل الحكمة التاوية في ...
156504,5,1676964118,21361576,9686838,عجبنى التفاصيل، تفاصيل كتير جدا ودى اكتر حاجة ...
156505,5,1679128750,40708424,86940,رغم مشاهدة سلسلة الأفلام، إلا أنه للرواية طعم ...


**clean data**

In [None]:
import re

# Function to remove punctuation, numbers, links, underscores, and parentheses
def clean_data(text):
    text = re.sub(r'[^\w\s]|_', '', text)  # Remove punctuation, numbers, links, and underscores
    text = re.sub(r'\d', '', text)  # Remove numbers
    text = re.sub(r'http\S+|www\S+|\S+\.com\S+', '', text)  # Remove links
    text = re.sub(r'\([^)]*\)', '', text)  # Remove parentheses and their contents
    return text

data['clear_review'] = data['review'].apply(lambda x: clean_data(x))

data


Unnamed: 0,rating,review_id,user_id,book_id,review,clear_review
1,2,1665743403,21435637,13637412,قرأتها من فترة طويلة و لا يحضرني فيها الا اعجا...,قرأتها من فترة طويلة و لا يحضرني فيها الا اعجا...
2,2,1664872313,20015365,13637412,كان نفسي احب الرواية دي، أغلب اصدقائي اللي قرأ...,كان نفسي احب الرواية دي أغلب اصدقائي اللي قرأو...
3,2,1659286461,56517018,13637412,عملوا منها مسلسل. اجوف المسلسل ولا اقرى الرواي...,عملوا منها مسلسل اجوف المسلسل ولا اقرى الرواية...
4,2,1657686339,22103652,13637412,لطيفه :). كأنك بتتفرج ع مسلسل بس نوعا ما لطيف,لطيفه كأنك بتتفرج ع مسلسل بس نوعا ما لطيف
5,2,1657401919,56445490,13637412,الرواية جميلة تحمل معاني ورسالات كثيرة اراد ال...,الرواية جميلة تحمل معاني ورسالات كثيرة اراد ال...
...,...,...,...,...,...,...
156502,4,1669006546,13011445,11159979,من الكتب الرائده والأولى في مجال العلاقات الإن...,من الكتب الرائده والأولى في مجال العلاقات الإن...
156503,4,1598566934,4906067,698911,كتاب التاو تي تشينغ _ إنجيل الحكمة التاوية في ...,كتاب التاو تي تشينغ إنجيل الحكمة التاوية في ا...
156504,5,1676964118,21361576,9686838,عجبنى التفاصيل، تفاصيل كتير جدا ودى اكتر حاجة ...,عجبنى التفاصيل تفاصيل كتير جدا ودى اكتر حاجة خ...
156505,5,1679128750,40708424,86940,رغم مشاهدة سلسلة الأفلام، إلا أنه للرواية طعم ...,رغم مشاهدة سلسلة الأفلام إلا أنه للرواية طعم ت...


**Find the length of reviews (in words)**

In [None]:
# Function to calculate the number of words in a review
def count_words(text):
    return len(text.split())

data['words_count'] = data['clear_review'].apply(lambda x: count_words(x))
data

Unnamed: 0,rating,review_id,user_id,book_id,review,clear_review,words_count
1,2,1665743403,21435637,13637412,قرأتها من فترة طويلة و لا يحضرني فيها الا اعجا...,قرأتها من فترة طويلة و لا يحضرني فيها الا اعجا...,29
2,2,1664872313,20015365,13637412,كان نفسي احب الرواية دي، أغلب اصدقائي اللي قرأ...,كان نفسي احب الرواية دي أغلب اصدقائي اللي قرأو...,394
3,2,1659286461,56517018,13637412,عملوا منها مسلسل. اجوف المسلسل ولا اقرى الرواي...,عملوا منها مسلسل اجوف المسلسل ولا اقرى الرواية...,9
4,2,1657686339,22103652,13637412,لطيفه :). كأنك بتتفرج ع مسلسل بس نوعا ما لطيف,لطيفه كأنك بتتفرج ع مسلسل بس نوعا ما لطيف,9
5,2,1657401919,56445490,13637412,الرواية جميلة تحمل معاني ورسالات كثيرة اراد ال...,الرواية جميلة تحمل معاني ورسالات كثيرة اراد ال...,50
...,...,...,...,...,...,...,...
156502,4,1669006546,13011445,11159979,من الكتب الرائده والأولى في مجال العلاقات الإن...,من الكتب الرائده والأولى في مجال العلاقات الإن...,65
156503,4,1598566934,4906067,698911,كتاب التاو تي تشينغ _ إنجيل الحكمة التاوية في ...,كتاب التاو تي تشينغ إنجيل الحكمة التاوية في ا...,695
156504,5,1676964118,21361576,9686838,عجبنى التفاصيل، تفاصيل كتير جدا ودى اكتر حاجة ...,عجبنى التفاصيل تفاصيل كتير جدا ودى اكتر حاجة خ...,55
156505,5,1679128750,40708424,86940,رغم مشاهدة سلسلة الأفلام، إلا أنه للرواية طعم ...,رغم مشاهدة سلسلة الأفلام إلا أنه للرواية طعم ت...,17


**Filter the reivews less than 20 word**

In [None]:
data = data[(data['words_count'] >= 20) & (data['words_count'] <= 50)]
print(data['words_count'].mean())
data

33.033237400731394


Unnamed: 0,rating,review_id,user_id,book_id,review,clear_review,words_count
1,2,1665743403,21435637,13637412,قرأتها من فترة طويلة و لا يحضرني فيها الا اعجا...,قرأتها من فترة طويلة و لا يحضرني فيها الا اعجا...,29
5,2,1657401919,56445490,13637412,الرواية جميلة تحمل معاني ورسالات كثيرة اراد ال...,الرواية جميلة تحمل معاني ورسالات كثيرة اراد ال...,50
6,2,1656249882,50139854,13637412,توقعت شي أفضل على السمعه وعلى كميه المبيعات ما...,توقعت شي أفضل على السمعه وعلى كميه المبيعات ما...,24
10,1,1602143529,36344385,13637412,طيب انا لسا مخلصها من فتره قريبه . وحشه جدا . ...,طيب انا لسا مخلصها من فتره قريبه وحشه جدا مع...,32
23,2,1429385487,48432707,13637412,سيرة ذاتية تقليدية للغاية وإن لم تخل من لحظات ...,سيرة ذاتية تقليدية للغاية وإن لم تخل من لحظات ...,20
...,...,...,...,...,...,...,...
156491,5,996585952,24620394,13506605,كل مره اقرأ عمل لمحمد عبد القوي نصيلحي،اتأكد م...,كل مره اقرأ عمل لمحمد عبد القوي نصيلحياتأكد من...,46
156492,4,290884931,3294866,13506605,مرحبًا بكاتب شاب مُتمكن من لغته وأفكاره . يجيد...,مرحبا بكاتب شاب متمكن من لغته وأفكاره يجيد ال...,21
156496,5,1657383663,56445490,8133699,الرواية جميلة طبعا هدا من عادة اجاثا كريستي ال...,الرواية جميلة طبعا هدا من عادة اجاثا كريستي ال...,34
156497,5,1577625574,29373786,8133699,لأنى هركيول بوارو . ^^. أجاثا خلقت مجتمعات و ش...,لأنى هركيول بوارو أجاثا خلقت مجتمعات و شخصيا...,24


**Group the users and print the number of reviews for each user**

In [None]:
# Group the DataFrame by user_id and count the number of occurrences
data['reviews_count'] = data.groupby('user_id')['user_id'].transform('count')

# Filter the DataFrame to include user IDs repeated more than 20 times
filtered_df = data[(data['reviews_count'] >= 20) & (data['reviews_count'] <= 40)]
#filtered_df = data[(data['reviews_count'] <= 2)]

# Sort the filtered DataFrame by user_id
filtered_df = filtered_df.sort_values('user_id')

# Create a new DataFrame with each user ID group and its reviews count
grouped_df = filtered_df.groupby('user_id')['reviews_count'].first().reset_index()
grouped_df.columns = ['user_id', 'reviews_count']

# Print the new DataFrame
grouped_df

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['reviews_count'] = data.groupby('user_id')['user_id'].transform('count')


Unnamed: 0,user_id,reviews_count
0,11773394,21
1,12788176,20
2,13059337,21
3,13067288,30
4,13351487,32
5,13356004,21
6,14029208,23
7,15035925,24
8,15564789,21
9,15682104,25


**Find the Sum of Reviews on the filtered Dataset**

In [None]:
sum = grouped_df['reviews_count'].sum()
print(sum)

971


Select 15 user randomly

In [None]:

import pandas as pd
import random

# Assuming 'grouped_df' contains (user_id, reviews_count) and 'df1' contains (rating, review_id, book_id, clear_review, words_count)

# Get a random sample of 20 users
random_users = random.sample(list(grouped_df['user_id']), k=1)

# Filter 'grouped_df' for the random users
random_grouped_df = grouped_df[grouped_df['user_id'].isin(random_users)]

# Merge 'random_grouped_df' with 'df1' based on 'user_id'
merged_df = pd.merge(random_grouped_df, data, on='user_id')

# Reset the index of the merged DataFrame
merged_df.reset_index(drop=True, inplace=True)

merged_df = merged_df.drop('reviews_count_y', axis=1)
merged_df

Unnamed: 0,user_id,reviews_count_x,rating,review_id,book_id,review,clear_review,words_count
0,5407057,22,1,752289859,18387597,الرواية ( تجاوزًا دعنا نقول عنها رواية ) سيئة ...,الرواية تجاوزا دعنا نقول عنها رواية سيئة للغ...,48
1,5407057,22,2,587316220,16170625,لا أستطيع أن أعتبره شعرًا ،، ولا حتى كتابًا. ص...,لا أستطيع أن أعتبره شعرا ولا حتى كتابا صحيح أ...,45
2,5407057,22,2,176617147,6666155,لأنها مجموعة قصصية، فتقييمها صعب جدًا. لعل الق...,لأنها مجموعة قصصية فتقييمها صعب جدا لعل القصة ...,43
3,5407057,22,2,807072260,18041331,ثلاث حكايات عن الغضب ، وعن الثورة. للفتيان وال...,ثلاث حكايات عن الغضب وعن الثورة للفتيان والفت...,47
4,5407057,22,1,365042262,3768771,لولا أن مؤلف هذه ( الرواية هو إبراهيم أصلان ) ...,لولا أن مؤلف هذه الرواية هو إبراهيم أصلان لأ...,30
5,5407057,22,2,800342385,3657569,رغم أنه كُتب من أكثر من عشر سنوات ، إلا أنني أ...,رغم أنه كتب من أكثر من عشر سنوات إلا أنني أشع...,44
6,5407057,22,2,800338846,13448364,تستفيد من هذا الكتاب ثلاثة أشياء :. - أن شعر ت...,تستفيد من هذا الكتاب ثلاثة أشياء أن شعر تميم...,44
7,5407057,22,2,650974068,5996780,- يا أم إسماعيل ،، خسرتها لأنني عرفت قيمتها ال...,يا أم إسماعيل خسرتها لأنني عرفت قيمتها الحقي...,42
8,5407057,22,2,483606292,7360515,هذه القصيدة هي أفضل ما كتب درويش ،، أو لنقل هي...,هذه القصيدة هي أفضل ما كتب درويش أو لنقل هي م...,21
9,5407057,22,2,350644126,5998593,وهذا يضعنا أمام تساؤل هام . منذ متى و مصدر ثقا...,وهذا يضعنا أمام تساؤل هام منذ متى و مصدر ثقاف...,37


In [None]:
print(merged_df['words_count'].sum())

825


In [None]:
pip install transformers

Looking in indexes: https://pypi.org/simple, https://us-python.pkg.dev/colab-wheels/public/simple/


Sentiment analyses

In [None]:
from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

# Create a new column for sentiment scores
merged_df['sentiment_score'] = 0.0

# Load the AraBERT model
model_name = "aubmindlab/bert-base-arabert"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

# Iterate over each row and calculate the sentiment score
for index, row in merged_df.iterrows():
    review = row['clear_review']
    inputs = tokenizer.encode_plus(
        review,
        add_special_tokens=True,
        return_tensors="pt",
        truncation=True,
        padding="max_length",
        max_length=128
    )

    with torch.no_grad():
        outputs = model(**inputs)

    logits = outputs.logits
    probabilities = torch.softmax(logits, dim=1).squeeze().tolist()

    sentiment_score = probabilities[1] - probabilities[0]  # positive class - negative class

    merged_df.at[index, 'sentiment_score'] = sentiment_score


merged_df

Some weights of the model checkpoint at aubmindlab/bert-base-arabert were not used when initializing BertForSequenceClassification: ['cls.predictions.transform.LayerNorm.bias', 'cls.predictions.transform.LayerNorm.weight', 'cls.seq_relationship.bias', 'cls.predictions.transform.dense.weight', 'cls.predictions.bias', 'cls.predictions.transform.dense.bias', 'cls.seq_relationship.weight']
- This IS expected if you are initializing BertForSequenceClassification from the checkpoint of a model trained on another task or with another architecture (e.g. initializing a BertForSequenceClassification model from a BertForPreTraining model).
- This IS NOT expected if you are initializing BertForSequenceClassification from the checkpoint of a model that you expect to be exactly identical (initializing a BertForSequenceClassification model from a BertForSequenceClassification model).
Some weights of BertForSequenceClassification were not initialized from the model checkpoint at aubmindlab/bert-base-a

Unnamed: 0,user_id,reviews_count_x,rating,review_id,book_id,review,clear_review,words_count,sentiment_score
0,5407057,22,1,752289859,18387597,الرواية ( تجاوزًا دعنا نقول عنها رواية ) سيئة ...,الرواية تجاوزا دعنا نقول عنها رواية سيئة للغ...,48,0.102451
1,5407057,22,2,587316220,16170625,لا أستطيع أن أعتبره شعرًا ،، ولا حتى كتابًا. ص...,لا أستطيع أن أعتبره شعرا ولا حتى كتابا صحيح أ...,45,0.226289
2,5407057,22,2,176617147,6666155,لأنها مجموعة قصصية، فتقييمها صعب جدًا. لعل الق...,لأنها مجموعة قصصية فتقييمها صعب جدا لعل القصة ...,43,0.232634
3,5407057,22,2,807072260,18041331,ثلاث حكايات عن الغضب ، وعن الثورة. للفتيان وال...,ثلاث حكايات عن الغضب وعن الثورة للفتيان والفت...,47,0.214336
4,5407057,22,1,365042262,3768771,لولا أن مؤلف هذه ( الرواية هو إبراهيم أصلان ) ...,لولا أن مؤلف هذه الرواية هو إبراهيم أصلان لأ...,30,0.228014
5,5407057,22,2,800342385,3657569,رغم أنه كُتب من أكثر من عشر سنوات ، إلا أنني أ...,رغم أنه كتب من أكثر من عشر سنوات إلا أنني أشع...,44,0.251827
6,5407057,22,2,800338846,13448364,تستفيد من هذا الكتاب ثلاثة أشياء :. - أن شعر ت...,تستفيد من هذا الكتاب ثلاثة أشياء أن شعر تميم...,44,0.292088
7,5407057,22,2,650974068,5996780,- يا أم إسماعيل ،، خسرتها لأنني عرفت قيمتها ال...,يا أم إسماعيل خسرتها لأنني عرفت قيمتها الحقي...,42,0.176574
8,5407057,22,2,483606292,7360515,هذه القصيدة هي أفضل ما كتب درويش ،، أو لنقل هي...,هذه القصيدة هي أفضل ما كتب درويش أو لنقل هي م...,21,0.218109
9,5407057,22,2,350644126,5998593,وهذا يضعنا أمام تساؤل هام . منذ متى و مصدر ثقا...,وهذا يضعنا أمام تساؤل هام منذ متى و مصدر ثقاف...,37,0.21132


Save data to file

In [None]:
import pandas as pd

# Save the DataFrame to a CSV file
merged_df.to_csv('data.csv', index=False)

Read filtered data

In [None]:
import pandas as pd

# Read the CSV file and create a DataFrame
data = pd.read_csv('data.csv')

data


FileNotFoundError: ignored

Extract nouns and adjectevs

In [None]:
from farasa.pos import FarasaPOSTagger
from farasa.stemmer import FarasaStemmer
import pandas as pd
import re
from google.colab import files

#source: https://r12a.github.io/scripts/tutorial/summaries/arabic

# Create an instance of the FarasaPOSTagger
pos_tagger = FarasaPOSTagger()
stemmer = FarasaStemmer()


# Function to extract nouns and adjectives from POS tag string
def extract_pos_tags(tag_string):

    # Remove the starting 'S/S' and ending 'E/E' tags
    tag_string = re.sub(r'^S/S | E/E$', '', tag_string)

    # Remove one space before or after '+'
    tag_string = re.sub(r'\s?\+\s?', '+', tag_string)

    # Split on space
    word_tag_pairs = tag_string.split()

    # Extract words and tags from word-tag pairs
    words = []
    tags = []
    for word_tag in word_tag_pairs:
        # Split on '/' to separate word and tag
        word, tag = word_tag.split('/', maxsplit=1)

        # Remove '+' from the word if it exists
        word = word.replace('+', '')

        # Combine word parts
        word_parts = word.split()
        word_combined = ''.join(word_parts)

        stemmed = stemmer.stem(word_combined)
        words.append(stemmed)
        tags.append(tag)

    # Filter words based on tags (select only nouns and adjectives)
    noun_adj_words = [word for word, tag in zip(words, tags) if 'NOUN' in tag or 'ADJ' in tag]

    return noun_adj_words

# Apply POS tagging on the review column and select nouns and adjectives
merged_df['POS_Tag'] = merged_df['clear_review'].apply(lambda x: extract_pos_tags(pos_tagger.tag(x)))
merged_df.to_csv('user5407057.csv', index=False)
files.download("user5407057.csv")

# Print the updated DataFrame
merged_df

<IPython.core.display.Javascript object>

<IPython.core.display.Javascript object>

Unnamed: 0,user_id,reviews_count_x,rating,review_id,book_id,review,clear_review,words_count,sentiment_score,POS_Tag
0,5407057,22,1,752289859,18387597,الرواية ( تجاوزًا دعنا نقول عنها رواية ) سيئة ...,الرواية تجاوزا دعنا نقول عنها رواية سيئة للغ...,48,0.102451,"[رواية, تجاوز, رواية, سيئ, غاية, حدث, فيلم, عر..."
1,5407057,22,2,587316220,16170625,لا أستطيع أن أعتبره شعرًا ،، ولا حتى كتابًا. ص...,لا أستطيع أن أعتبره شعرا ولا حتى كتابا صحيح أ...,45,0.226289,"[شعر, كتاب, صحيح, أكثر, جملة, مستني, شكل, خاص,..."
2,5407057,22,2,176617147,6666155,لأنها مجموعة قصصية، فتقييمها صعب جدًا. لعل الق...,لأنها مجموعة قصصية فتقييمها صعب جدا لعل القصة ...,43,0.232634,"[مجموعة, قصصي, تقييم, صعب, جد, قصة, شهر, قنديل..."
3,5407057,22,2,807072260,18041331,ثلاث حكايات عن الغضب ، وعن الثورة. للفتيان وال...,ثلاث حكايات عن الغضب وعن الثورة للفتيان والفت...,47,0.214336,"[حكاية, غضب, ثورة, فتى, فتاة, أكثر, قصة, مطبع,..."
4,5407057,22,1,365042262,3768771,لولا أن مؤلف هذه ( الرواية هو إبراهيم أصلان ) ...,لولا أن مؤلف هذه الرواية هو إبراهيم أصلان لأ...,30,0.228014,"[مؤلف, رواية, إبراهيم, أصل, زبالة, مجلة, ميكي,..."
5,5407057,22,2,800342385,3657569,رغم أنه كُتب من أكثر من عشر سنوات ، إلا أنني أ...,رغم أنه كتب من أكثر من عشر سنوات إلا أنني أشع...,44,0.251827,"[رغم, أكثر, عشر, سنة, يوم, ذات, طبع, قصيدة, قص..."
6,5407057,22,2,800338846,13448364,تستفيد من هذا الكتاب ثلاثة أشياء :. - أن شعر ت...,تستفيد من هذا الكتاب ثلاثة أشياء أن شعر تميم...,44,0.292088,"[كتاب, شيء, تميم, فصيح, أروع, أجمل, مئة, مرة, ..."
7,5407057,22,2,650974068,5996780,- يا أم إسماعيل ،، خسرتها لأنني عرفت قيمتها ال...,يا أم إسماعيل خسرتها لأنني عرفت قيمتها الحقي...,42,0.176574,"[أم, إسماعيل, أن, قيم, حقيقي, قصة, قصير, جد, ج..."
8,5407057,22,2,483606292,7360515,هذه القصيدة هي أفضل ما كتب درويش ،، أو لنقل هي...,هذه القصيدة هي أفضل ما كتب درويش أو لنقل هي م...,21,0.218109,"[قصيدة, أفضل, درويش, نقل, قصيدة, قليل, رأي, شعر]"
9,5407057,22,2,350644126,5998593,وهذا يضعنا أمام تساؤل هام . منذ متى و مصدر ثقا...,وهذا يضعنا أمام تساؤل هام منذ متى و مصدر ثقاف...,37,0.21132,"[أمام, تساؤل, هام, متى, مصدر, ثقافة, وحيد, سين..."


Make inverted index

In [None]:
# Assuming 'merged_df' contains (user_id, reviews_count_x, rating, review_id, book_id, clear_review, words_count, sentiment_score)

# Create an empty dictionary for the inverted index
inverted_index = {}

# Iterate over each row in the DataFrame
for index, row in merged_df.iterrows():
    user_id = row['user_id']
    review_data = {
        'reviews_count': row['reviews_count_x'],
        'rating': row['rating'],
        'review_id': row['review_id'],
        'book_id': row['book_id'],
        'review': row['review'],
        'clear_review': row['clear_review'],
        'words_count': row['words_count'],
        'sentiment_score': row['sentiment_score']
    }

    # Add the review data to the inverted index for the user
    if user_id not in inverted_index:
        inverted_index[user_id] = []
    inverted_index[user_id].append(review_data)
inverted_index

{'10931210': [{'reviews_count': 25,
   'rating': '2',
   'review_id': '626803726',
   'book_id': '9730311',
   'review': 'للاسف الكاتب لا ينتبه انه بكثرة الاحداث تسقط الروايه درجه. القسم الاول عندما قراته اعطيته 5 نجوم. الى ان رايت ان هناك الكثير من الكلام مغالطه على الدين الاسلامي. فسقطت مني نجمه. الى ان وصلت الى نهايه القسم الاول الا هو عندما توفيت سليمه. كانت طريقه الوفاة واسبابها لا تصح بامراة متعلمه مثلها. فسقطت مني نجمه. اختصارها لاحداث مهمه واسترسالها باحداث غير مهمه. او لا تصح. وانجذابي الى الروايه لم يعد موجودا. فايضا سقطت مني نجمه اخرى. للاسف كنت منبهرة بالاول لكن عند النهايه لم اشعر الا بحزن على الطريقه سرد الروايه. رفعتني قيمه الروايه والكاتبه الى اعلى. ثم هبطت قيمه هذه الروايه. بالنسبه للامور التاريخيه فهي اكثر ما احببت بالروايه. من اضهاد المسلمين والاسلام. لكن الاكثر انه التاريخ يعيد نفسه كثيرا. سقوط الدوله العثمانيه كانت بيد الاشراف بعد زيارة الانجليز اليهم وادعائهم بمئازرتهم. ثم قيام الحرب العالميه الاولى. وسقوط دول المسلمين بيد الانجليز واوربا. ومنع اللغه العربيه. والص

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
from sklearn.feature_extraction.text import TfidfVectorizer

# Define the TF-IDF vectorizer
vectorizer = TfidfVectorizer()

# Create a dictionary to store user profiles
user_profiles = {}

# Iterate over each user in the inverted index
for user_id, reviews in inverted_index.items():
    # Combine all the clear_reviews for the user
    clear_reviews = [review['clear_review'] for review in reviews]
    combined_reviews = ' '.join(clear_reviews)

    # Calculate the TF-IDF scores
    tfidf_scores = vectorizer.fit_transform([combined_reviews])
    feature_names = vectorizer.get_feature_names_out()
    tfidf_scores = tfidf_scores.toarray()[0]

    # Calculate the user engagement (reviews_count)
     #user_engagement = sum(review['reviews_count'] for review in reviews)

    # Initialize the user profile
    user_profile = {}

    # Iterate over each word and calculate the weight
    for word, score in zip(feature_names, tfidf_scores):
        # Calculate the weight using the equation: Weight = (TF-IDF Score) * (User Rating) * (Sentiment Score) * (User Engagement)
        weight = score #* user_rating * sentiment_score * user_engagement
        user_profile[word] = weight

    # Add the user profile to the dictionary
    user_profiles[user_id] = user_profile
user_profiles


{'10931210': {'اباح': 0.01426825363838374,
  'ابد': 0.01426825363838374,
  'ابراهيم': 0.01426825363838374,
  'ابعد': 0.01426825363838374,
  'ابن': 0.02853650727676748,
  'اتى': 0.01426825363838374,
  'اثار': 0.01426825363838374,
  'اثب': 0.04280476091515122,
  'اثن': 0.02853650727676748,
  'اجاب': 0.01426825363838374,
  'اجتماع': 0.01426825363838374,
  'اجتماعيه': 0.01426825363838374,
  'اجرام': 0.01426825363838374,
  'اجيال': 0.01426825363838374,
  'اح': 0.02853650727676748,
  'احاديث': 0.01426825363838374,
  'احب': 0.02853650727676748,
  'احبب': 0.02853650727676748,
  'احتاج': 0.02853650727676748,
  'احتفل': 0.01426825363838374,
  'احتل': 0.01426825363838374,
  'احتياج': 0.01426825363838374,
  'احد': 0.04280476091515122,
  'احداث': 0.1854872972989886,
  'احدى': 0.04280476091515122,
  'احسس': 0.01426825363838374,
  'احفظ': 0.01426825363838374,
  'احمد': 0.02853650727676748,
  'اخت': 0.01426825363838374,
  'اختار': 0.02853650727676748,
  'اختصار': 0.01426825363838374,
  'اختيار': 0.014

In [None]:
# Get the user_id of the first user
first_user_id = list(user_profiles.keys())[0]

# Access the user profile for the first user
first_user_profile = user_profiles[first_user_id]

# Print the user profile
print("User Profile for User ID:", first_user_id)
for word, weight in first_user_profile.items():
    print(word, ":", weight)

User Profile for User ID: 10931210
اباح : 0.01426825363838374
ابد : 0.01426825363838374
ابراهيم : 0.01426825363838374
ابعد : 0.01426825363838374
ابن : 0.02853650727676748
اتى : 0.01426825363838374
اثار : 0.01426825363838374
اثب : 0.04280476091515122
اثن : 0.02853650727676748
اجاب : 0.01426825363838374
اجتماع : 0.01426825363838374
اجتماعيه : 0.01426825363838374
اجرام : 0.01426825363838374
اجيال : 0.01426825363838374
اح : 0.02853650727676748
احاديث : 0.01426825363838374
احب : 0.02853650727676748
احبب : 0.02853650727676748
احتاج : 0.02853650727676748
احتفل : 0.01426825363838374
احتل : 0.01426825363838374
احتياج : 0.01426825363838374
احد : 0.04280476091515122
احداث : 0.1854872972989886
احدى : 0.04280476091515122
احسس : 0.01426825363838374
احفظ : 0.01426825363838374
احمد : 0.02853650727676748
اخت : 0.01426825363838374
اختار : 0.02853650727676748
اختصار : 0.01426825363838374
اختيار : 0.01426825363838374
اخذ : 0.01426825363838374
اخر : 0.04280476091515122
اخرى : 0.02853650727676748
اخطاء : 0.

In [None]:
pip  install -U farasapy


Collecting farasapy
  Downloading farasapy-0.0.14-py3-none-any.whl (11 kB)
Installing collected packages: farasapy
Successfully installed farasapy-0.0.14


In [None]:
from farasa.pos import FarasaPOSTagger
from farasa.ner import FarasaNamedEntityRecognizer
from farasa.diacratizer import FarasaDiacritizer
from farasa.segmenter import FarasaSegmenter
from farasa.stemmer import FarasaStemmer

#source: https://r12a.github.io/scripts/tutorial/summaries/arabic

sample="لطيفه كأنك بتتفرج ع مسلسل بس نوعا ما لطيف"

print("original sample:",sample)

segmenter = FarasaSegmenter()
segmented = segmenter.segment(sample)
print("sample segmented:",segmented)


stemmer = FarasaStemmer()

stemmed = stemmer.stem(sample)
print("sample stemmed:",stemmed)


pos_tagger = FarasaPOSTagger()
pos_tagged = pos_tagger.tag(sample)


print("sample POS Tagged",pos_tagged)


original sample: لطيفه كأنك بتتفرج ع مسلسل بس نوعا ما لطيف




100%|██████████| 241M/241M [00:27<00:00, 8.63MiB/s]
sample segmented: لطيف+ه كأن+ك ب+تتفرج ع مسلسل بس نوع+ا ما لطيف
sample stemmed: لطيف كأن تفرج ع مسلسل بس نوع ما لطيف
sample POS Tagged S/S لطيف/NOUN-MS +ه/PRON كأن/PART +ك/PRON ب+/PREP تتفرج/V ع/ABBREV مسلسل/NOUN-MS بس/ADV نوع/NOUN-MS +ا/CASE ما/PART لطيف/ADJ-MS E/E


In [None]:
from farasa.pos import FarasaPOSTagger
from farasa.segmenter import FarasaSegmenter

sample = "لطيفه كأنك بتتفرج ع مسلسل بس نوعا ما لطيف"

print("original sample:", sample)

segmenter = FarasaSegmenter()
segmented = segmenter.segment(sample)
print("sample segmented:", segmented)

pos_tagger = FarasaPOSTagger()
pos_tagged = pos_tagger.tag(sample)
print("sample POS Tagged:", pos_tagged)

# Filter and print only 'NOUN' and 'ADJ' tags
for token in pos_tagged:
    if len(token) == 2:
        word, tag = token
        if tag in ['NOUN', 'ADJ']:
            print(word, tag)


original sample: لطيفه كأنك بتتفرج ع مسلسل بس نوعا ما لطيف
sample segmented: لطيف+ه كأن+ك ب+تتفرج ع مسلسل بس نوع+ا ما لطيف
sample POS Tagged: S/S لطيف/NOUN-MS +ه/PRON كأن/PART +ك/PRON ب+/PREP تتفرج/V ع/ABBREV مسلسل/NOUN-MS بس/ADV نوع/NOUN-MS +ا/CASE ما/PART لطيف/ADJ-MS E/E


In [None]:
# from farasa.pos import FarasaPOSTagger
# import pandas as pd
# import re
# #source: https://r12a.github.io/scripts/tutorial/summaries/arabic



# Create a sample DataFrame
data = {'rating': [4],
        'review_id': [1],
        'user_id': [100],
        'book_id': [123],
        'review': ['المرء']}

dfr = pd.DataFrame(data)
stemmer = FarasaStemmer()

# Create an instance of the FarasaPOSTagger
pos_tagger = FarasaPOSTagger()

# Function to extract nouns and adjectives from POS tag string
def extract_pos_tags(tag_string):
    # Remove the starting 'S/S' and ending 'E/E' tags
    tag_string = re.sub(r'^S/S | E/E$', '', tag_string)

    # Remove one space before or after '+'
    tag_string = re.sub(r'\s?\+\s?', '+', tag_string)

    # Split on space
    word_tag_pairs = tag_string.split()
    print(word_tag_pairs)
    # Extract words and tags from word-tag pairs
    words = []
    tags = []
    for word_tag in word_tag_pairs:
        # Split on '/' to separate word and tag
        word, tag = word_tag.split('/', maxsplit=1)

        # Remove '+' from the word if it exists
        word = word.replace('+', '')

        # Combine word parts
        word_parts = word.split()
        word_combined = ''.join(word_parts)

        stemmed = stemmer.stem(word_combined)
        words.append(stemmed)
        tags.append(tag)

    # Filter words based on tags (select only nouns and adjectives)
    noun_adj_words = [word for word, tag in zip(words, tags) if 'NOUN' in tag or 'ADJ' in tag]

    return noun_adj_words

# Apply POS tagging on the review column and select nouns and adjectives
dfr['POS_Tag'] = dfr['review'].apply(lambda x: extract_pos_tags(pos_tagger.tag(x)))

# Print the updated DataFrame
print(dfr)















['ال+مرء/DET+NOUN-MS']
   rating  review_id  user_id  book_id review POS_Tag
0       4          1      100      123  المرء   [مرء]
