In [1]:
import pandas as pd

from module.load_json import *
from module.transform import *
from module.utils import show_rows, count_tags
from module.maps import entity_property_pair

# Load Raw Data

In [2]:
train_json = './dataset/nikluge-sa-2022-train.jsonl'
absa2021_path = 'dataset/uncleaned_v23/absa2021.json'
dev_json = './dataset/nikluge-sa-2022-dev.jsonl'
test_json = './dataset/nikluge-sa-2022-test.jsonl'

train = pd.DataFrame(jsonlload(train_json))
absa2021 = pd.DataFrame(jsonload(absa2021_path))
dev = pd.DataFrame(jsonlload(dev_json))
test = pd.DataFrame(jsonlload(test_json))

train = train.drop(2319)
dev = dev.drop(1692)
len(train), len(dev)

(3000, 2793)

In [3]:
train = pd.concat([train, absa2021]).reset_index(drop=True)

In [4]:
count_tags(train, entity_property_pair)

tags found:  4449
tag set of df:  22
tag set of offered:  25
difference:  {'패키지/구성품#가격', '제품 전체#다양성', '브랜드#디자인'}
본품#품질		1374
제품 전체#일반		1137
본품#일반		404
제품 전체#품질		345
제품 전체#디자인	233
본품#편의성		153
제품 전체#편의성	150
제품 전체#인지도	124
브랜드#일반		101
패키지/구성품#디자인	97
제품 전체#가격		82
패키지/구성품#편의성	71
패키지/구성품#일반	49
본품#다양성		40
본품#디자인		24
브랜드#품질		20
패키지/구성품#품질	18
브랜드#인지도		16
브랜드#가격		6
패키지/구성품#다양성	2
본품#가격		2
본품#인지도		1


# Reformat

In [5]:
len(entity_property_pair)

25

In [6]:
ep_train, p_train = train_reformat_raw_to_acd_b_asc_m(train)
ep_dev, p_dev = dev_reformat_raw_to_acd_b_asc_m(dev)

ep_train = pd.DataFrame(ep_train, columns=['id', 'form', 'pair', 'labels'])
ep_dev = pd.DataFrame(ep_dev, columns=['id', 'form', 'pair', 'labels'])

p_train = pd.DataFrame(p_train, columns=['id', 'form', 'pair', 'labels'])
p_dev = pd.DataFrame(p_dev, columns=['id', 'form', 'pair', 'labels'])

len(ep_train), len(ep_dev), len(p_train), len(p_dev)

(90600, 69825, 4391, 3002)

In [7]:
p_binary_train = train_reformat_asc_m_to_asc_b(p_train)
p_binary_train = pd.DataFrame(p_binary_train, columns=['id', 'form', 'pair', 'labels'])

p_binary_dev = dev_reformat_asc_m_to_asc_b(p_dev)
p_binary_dev = pd.DataFrame(p_binary_dev, columns=['id', 'form', 'pair', 'labels'])

len(ep_train), len(ep_dev), len(p_binary_train), len(p_binary_dev)

(90600, 69825, 13173, 9006)

## Counting

In [8]:
print('absa_multi:', len(ep_train), len(ep_dev), len(p_train), len(p_dev))
print('absa_binary:', len(ep_train), len(ep_dev), len(p_binary_train), len(p_binary_dev))
ep_train = ep_train.drop_duplicates()
ep_dev = ep_dev.drop_duplicates()
p_train = p_train.drop_duplicates()
p_dev = p_dev.drop_duplicates()
p_binary_train = p_binary_train.drop_duplicates()
p_binary_dev = p_binary_dev.drop_duplicates()
print('\nafter drop_duplicates\n')
print('absa_multi:', len(ep_train), len(ep_dev), len(p_train), len(p_dev))
print('absa_binary:', len(ep_train), len(ep_dev), len(p_binary_train), len(p_binary_dev))

absa_multi: 90600 69825 4391 3002
absa_binary: 90600 69825 13173 9006

after drop_duplicates

absa_multi: 90600 69825 4391 3002
absa_binary: 90600 69825 13173 9006


## Check

In [9]:
row_iterator = ep_train.iterrows()

In [10]:
show_rows(row_iterator, 25)

0 둘쨋날은 미친듯이 밟아봤더니 기어가 헛돌면서 틱틱 소리가 나서 경악. 본품#가격 1
1 둘쨋날은 미친듯이 밟아봤더니 기어가 헛돌면서 틱틱 소리가 나서 경악. 본품#다양성 1
2 둘쨋날은 미친듯이 밟아봤더니 기어가 헛돌면서 틱틱 소리가 나서 경악. 본품#디자인 1
3 둘쨋날은 미친듯이 밟아봤더니 기어가 헛돌면서 틱틱 소리가 나서 경악. 본품#인지도 1
4 둘쨋날은 미친듯이 밟아봤더니 기어가 헛돌면서 틱틱 소리가 나서 경악. 본품#일반 1
5 둘쨋날은 미친듯이 밟아봤더니 기어가 헛돌면서 틱틱 소리가 나서 경악. 본품#편의성 1
6 둘쨋날은 미친듯이 밟아봤더니 기어가 헛돌면서 틱틱 소리가 나서 경악. 본품#품질 0
7 둘쨋날은 미친듯이 밟아봤더니 기어가 헛돌면서 틱틱 소리가 나서 경악. 브랜드#가격 1
8 둘쨋날은 미친듯이 밟아봤더니 기어가 헛돌면서 틱틱 소리가 나서 경악. 브랜드#디자인 1
9 둘쨋날은 미친듯이 밟아봤더니 기어가 헛돌면서 틱틱 소리가 나서 경악. 브랜드#인지도 1
10 둘쨋날은 미친듯이 밟아봤더니 기어가 헛돌면서 틱틱 소리가 나서 경악. 브랜드#일반 1
11 둘쨋날은 미친듯이 밟아봤더니 기어가 헛돌면서 틱틱 소리가 나서 경악. 브랜드#품질 1
12 둘쨋날은 미친듯이 밟아봤더니 기어가 헛돌면서 틱틱 소리가 나서 경악. 제품 전체#가격 1
13 둘쨋날은 미친듯이 밟아봤더니 기어가 헛돌면서 틱틱 소리가 나서 경악. 제품 전체#다양성 1
14 둘쨋날은 미친듯이 밟아봤더니 기어가 헛돌면서 틱틱 소리가 나서 경악. 제품 전체#디자인 1
15 둘쨋날은 미친듯이 밟아봤더니 기어가 헛돌면서 틱틱 소리가 나서 경악. 제품 전체#인지도 1
16 둘쨋날은 미친듯이 밟아봤더니 기어가 헛돌면서 틱틱 소리가 나서 경악. 제품 전체#일반 1
17 둘쨋날은 미친듯이 밟아봤더니 기어가 헛돌면서 틱틱 소리가 나서 경악. 제품 전체#편의성 1
18 둘쨋날은 미친듯이 밟아봤더니 기어가 헛돌면서 틱틱 소리가 나서 경악. 제품 전체#품질 1
19 둘쨋날은 미친듯이 밟아봤더니 기어가 헛

# Save

In [11]:
DATA_V = 'uncleaned_v23'
save_path = f'./dataset/{DATA_V}'
print(save_path)

./dataset/uncleaned_v23


In [12]:
ep_train

Unnamed: 0,id,form,pair,labels
0,nikluge-sa-2022-train-00001,둘쨋날은 미친듯이 밟아봤더니 기어가 헛돌면서 틱틱 소리가 나서 경악.,본품#가격,1
1,nikluge-sa-2022-train-00001,둘쨋날은 미친듯이 밟아봤더니 기어가 헛돌면서 틱틱 소리가 나서 경악.,본품#다양성,1
2,nikluge-sa-2022-train-00001,둘쨋날은 미친듯이 밟아봤더니 기어가 헛돌면서 틱틱 소리가 나서 경악.,본품#디자인,1
3,nikluge-sa-2022-train-00001,둘쨋날은 미친듯이 밟아봤더니 기어가 헛돌면서 틱틱 소리가 나서 경악.,본품#인지도,1
4,nikluge-sa-2022-train-00001,둘쨋날은 미친듯이 밟아봤더니 기어가 헛돌면서 틱틱 소리가 나서 경악.,본품#일반,1
...,...,...,...,...
90595,775,지난 주말 오사카를 다녀와꼬 여행 사진이 넘쳐나지만 쇼핑 후기부터 써 보려고 한닷....,패키지/구성품#다양성,1
90596,775,지난 주말 오사카를 다녀와꼬 여행 사진이 넘쳐나지만 쇼핑 후기부터 써 보려고 한닷....,패키지/구성품#디자인,1
90597,775,지난 주말 오사카를 다녀와꼬 여행 사진이 넘쳐나지만 쇼핑 후기부터 써 보려고 한닷....,패키지/구성품#일반,1
90598,775,지난 주말 오사카를 다녀와꼬 여행 사진이 넘쳐나지만 쇼핑 후기부터 써 보려고 한닷....,패키지/구성품#편의성,1


In [13]:
!mkdir -p {save_path}

train.to_csv(f'{save_path}/raw_train.csv', index=False, encoding='utf-8-sig')
dev.to_csv(f'{save_path}/raw_dev.csv', index=False, encoding='utf-8-sig')
test.to_csv(f'{save_path}/raw_test.csv', index=False, encoding='utf-8-sig')

ep_train.to_csv(f'{save_path}/ce_train.csv', index=False, encoding='utf-8-sig')
ep_dev.to_csv(f'{save_path}/ce_dev.csv', index=False, encoding='utf-8-sig')

p_train.to_csv(f'{save_path}/pc_train.csv', index=False, encoding='utf-8-sig')
p_dev.to_csv(f'{save_path}/pc_dev.csv', index=False, encoding='utf-8-sig')

p_binary_train.to_csv(f'{save_path}/pc_binary_train.csv', index=False, encoding='utf-8-sig')
p_binary_dev.to_csv(f'{save_path}/pc_binary_dev.csv', index=False, encoding='utf-8-sig')