In [None]:
import pandas as pd
import ast


labeled_path = r"ABSA-Sentiment-Analyzer\data\processed\llm_labeled_reviews.csv"

df = pd.read_csv(labeled_path)
df.head()

Unnamed: 0,review_date,rating,review_text,cleaned_review_text,llm_labels
0,2024-04-02 21:07:46,5,ممتاز جدااااا,ممتاز جدااااا,"[{'aspect_term': 'التطبيق', 'polarity': 'posit..."
1,2023-09-23 14:18:14,4,برنامج متميز للغاية بس يا ريت تضيفو بنوك اكتر ...,برنامج متميز للغاية بس يا ريت تضيفو بنوك اكتر ...,"[{'aspect_term': 'أداء التطبيق', 'polarity': '..."
2,2023-07-27 14:40:04,5,Good,Good,[]
3,2025-08-26 20:50:30,1,اخذ منى ما يقرب من 100 جنيه وكل مره يقولى لم ي...,اخذ منى ما يقرب من 100 جنيه وكل مره يقولى لم ي...,"[{'aspect_term': 'الرسوم', 'polarity': 'negati..."
4,2025-02-07 08:53:59,1,سي للغيه وفاشل,سي للغيه وفاشل,"[{'aspect_term': 'التطبيق', 'polarity': 'negat..."


In [4]:
def safe_literal_eval(s):
    try:
        return ast.literal_eval(s)
    except (ValueError, SyntaxError, TypeError):
        return []

df['labels_list'] = df['llm_labels'].apply(safe_literal_eval)
df_exploded = df.explode('labels_list').reset_index(drop=True)


In [6]:
df_exploded.head()

Unnamed: 0,review_date,rating,review_text,cleaned_review_text,llm_labels,labels_list
0,2024-04-02 21:07:46,5,ممتاز جدااااا,ممتاز جدااااا,"[{'aspect_term': 'التطبيق', 'polarity': 'posit...","{'aspect_term': 'التطبيق', 'polarity': 'positi..."
1,2023-09-23 14:18:14,4,برنامج متميز للغاية بس يا ريت تضيفو بنوك اكتر ...,برنامج متميز للغاية بس يا ريت تضيفو بنوك اكتر ...,"[{'aspect_term': 'أداء التطبيق', 'polarity': '...","{'aspect_term': 'أداء التطبيق', 'polarity': 'p..."
2,2023-09-23 14:18:14,4,برنامج متميز للغاية بس يا ريت تضيفو بنوك اكتر ...,برنامج متميز للغاية بس يا ريت تضيفو بنوك اكتر ...,"[{'aspect_term': 'أداء التطبيق', 'polarity': '...","{'aspect_term': 'بنوك متاحة', 'polarity': 'neg..."
3,2023-09-23 14:18:14,4,برنامج متميز للغاية بس يا ريت تضيفو بنوك اكتر ...,برنامج متميز للغاية بس يا ريت تضيفو بنوك اكتر ...,"[{'aspect_term': 'أداء التطبيق', 'polarity': '...",{'aspect_term': 'الخدمات الإلكترونية للبنك الز...
4,2023-07-27 14:40:04,5,Good,Good,[],


In [7]:
df_exploded['aspect_term'] = df_exploded['labels_list'].apply(lambda x: x.get('aspect_term') if isinstance(x, dict) else None)
df_exploded['polarity'] = df_exploded['labels_list'].apply(lambda x: x.get('polarity') if isinstance(x, dict) else None)


In [8]:
df_exploded.head()

Unnamed: 0,review_date,rating,review_text,cleaned_review_text,llm_labels,labels_list,aspect_term,polarity
0,2024-04-02 21:07:46,5,ممتاز جدااااا,ممتاز جدااااا,"[{'aspect_term': 'التطبيق', 'polarity': 'posit...","{'aspect_term': 'التطبيق', 'polarity': 'positi...",التطبيق,positive
1,2023-09-23 14:18:14,4,برنامج متميز للغاية بس يا ريت تضيفو بنوك اكتر ...,برنامج متميز للغاية بس يا ريت تضيفو بنوك اكتر ...,"[{'aspect_term': 'أداء التطبيق', 'polarity': '...","{'aspect_term': 'أداء التطبيق', 'polarity': 'p...",أداء التطبيق,positive
2,2023-09-23 14:18:14,4,برنامج متميز للغاية بس يا ريت تضيفو بنوك اكتر ...,برنامج متميز للغاية بس يا ريت تضيفو بنوك اكتر ...,"[{'aspect_term': 'أداء التطبيق', 'polarity': '...","{'aspect_term': 'بنوك متاحة', 'polarity': 'neg...",بنوك متاحة,negative
3,2023-09-23 14:18:14,4,برنامج متميز للغاية بس يا ريت تضيفو بنوك اكتر ...,برنامج متميز للغاية بس يا ريت تضيفو بنوك اكتر ...,"[{'aspect_term': 'أداء التطبيق', 'polarity': '...",{'aspect_term': 'الخدمات الإلكترونية للبنك الز...,الخدمات الإلكترونية للبنك الزراعي المصري,negative
4,2023-07-27 14:40:04,5,Good,Good,[],,,


In [9]:
df_exploded.isna().sum()

review_date             0
rating                  0
review_text             0
cleaned_review_text     0
llm_labels              0
labels_list            84
aspect_term            84
polarity               84
dtype: int64

In [10]:
len(df_exploded)

905

In [11]:
df_final = df_exploded.dropna(subset=['aspect_term', 'polarity'])
df_final = df_final[['review_text', 'aspect_term', 'polarity']]

In [12]:
df_final.head()

Unnamed: 0,review_text,aspect_term,polarity
0,ممتاز جدااااا,التطبيق,positive
1,برنامج متميز للغاية بس يا ريت تضيفو بنوك اكتر ...,أداء التطبيق,positive
2,برنامج متميز للغاية بس يا ريت تضيفو بنوك اكتر ...,بنوك متاحة,negative
3,برنامج متميز للغاية بس يا ريت تضيفو بنوك اكتر ...,الخدمات الإلكترونية للبنك الزراعي المصري,negative
5,اخذ منى ما يقرب من 100 جنيه وكل مره يقولى لم ي...,الرسوم,negative


In [13]:
df_final.isna().sum()

review_text    0
aspect_term    0
polarity       0
dtype: int64

In [14]:
len(df_final)

821