In [1]:
!pip install -U scikit-learn

Requirement already up-to-date: scikit-learn in /home/python_user/.pyenv/versions/3.7.2/lib/python3.7/site-packages (0.23.2)


In [40]:
import json
from sklearn.model_selection import train_test_split
import random

#### Loading Data

In [41]:
with open('food.jsonl', 'r') as file:
    lines = file.readlines()

raw_dataset = []

for line in lines:
    data = json.loads(line.replace('\'', '\"'))
    raw_dataset.append(data)

In [42]:
raw_dataset_size = len(raw_dataset)
print(f'dataset size is {raw_dataset_size}')

dataset size is 1437


#### Giving reviews/ extracting aspects

In [43]:
aspects_set = set()

In [44]:
for i, example in enumerate(raw_dataset):
    example['review_id'] = i+1
    aspects = list(example['aspects'].keys())
    aspects_set.update(aspects)

In [45]:
aspects_set

{'ارزش خرید', 'ارزش غذایی', 'ارسال', 'بسته بندی', 'طعم', 'کیفیت'}

In [46]:
raw_dataset[0]

{'review': 'طعم خیلی خوبی داره و توضیحات کالا کاملا با خود محصول مطابقت داشت',
 'sentiment': 2,
 'aspects': {'طعم': 2},
 'review_id': 1}

#### Defining Questions for aspects

In [47]:
aspects_questions = {}

In [48]:
for aspect in list(aspects_set):
    aspects_questions[aspect] = f'نظر شما در مورد {aspect} محصول چیست؟'

In [49]:
general_aspect_label = 'کلی'
aspects_questions[general_aspect_label] = 'نظر شما به صورت کلی در مورد محصول چیست؟'

In [50]:
aspects_questions

{'کیفیت': 'نظر شما در مورد کیفیت محصول چیست؟',
 'ارسال': 'نظر شما در مورد ارسال محصول چیست؟',
 'بسته بندی': 'نظر شما در مورد بسته بندی محصول چیست؟',
 'ارزش خرید': 'نظر شما در مورد ارزش خرید محصول چیست؟',
 'ارزش غذایی': 'نظر شما در مورد ارزش غذایی محصول چیست؟',
 'طعم': 'نظر شما در مورد طعم محصول چیست؟',
 'کلی': 'نظر شما به صورت کلی در مورد محصول چیست؟'}

#### Spliting Data

In [51]:
# CONSTANTS:
split_portions = {'train':0.8,'dev':0.1,'test':0.1}
assert(sum(split_portions.values())==1)
NONE_LABEL = -3

In [52]:
raw_dataset_size = len(raw_dataset)

split_indices = dict()
split_indices['train'] = (0,round(split_portions['train']*raw_dataset_size))

split_indices['dev'] = (
    round(split_portions['train']*raw_dataset_size),
    round((split_portions['train']+split_portions['dev'])*raw_dataset_size)
)

split_indices['test'] = (
    round((split_portions['train']+split_portions['dev'])*raw_dataset_size),raw_dataset_size
)

In [53]:
raw_dataset_dic = {
    'train': raw_dataset[split_indices['train'][0]:split_indices['train'][1]],
    'dev': raw_dataset[split_indices['dev'][0]:split_indices['dev'][1]],
    'test': raw_dataset[split_indices['test'][0]:split_indices['test'][1]]
}

In [54]:
assert sum([len(dataset) for dataset in raw_dataset_dic.values()]) == raw_dataset_size

#### Creating new QA-ABSA dataset

In [55]:
dataset_ABSA = {'train':list(),'dev':list(),'test':list()}
for dataset_name, dataset in raw_dataset_dic.items():

    for example in dataset:
        
        product_aspects = example['aspects'].keys()

        #aspect sentiments
        for aspect in aspects_set:
            entry = {'review': example['review'],
                     'review_id': str(example['review_id']),
                     'question': aspects_questions[aspect],
                     'aspect': aspect,
                     'label': str(example['aspects'][aspect] if aspect in product_aspects else NONE_LABEL)
                    }
            
            dataset_ABSA[dataset_name].append(entry)

        # overal sentiment
        entry = {'review': example['review'],
                 'review_id': str(example['review_id']),
                 'question': aspects_questions[general_aspect_label],
                 'aspect': general_aspect_label,
                 'label': str(example['sentiment'])
                }
        
        dataset_ABSA[dataset_name].append(entry)

#### Adding ID labeles

In [56]:
for dataset_name, dataset in dataset_ABSA.items():
    for i, example in enumerate(dataset):
        example['example_id'] = str(int(i+1))
        example['guid'] = f'{dataset_name}-r{example["review_id"]}-e{example["example_id"]}'

#### Saving Data

In [57]:
for dataset_name, dataset in dataset_ABSA.items():
    
    with open(f'food_{dataset_name}.jsonl', 'w') as f:
        
        for example in dataset:
            
#             f.write("%s\n" % annotation)
            f.write(f'{example}\n')
print('DONE')

DONE
