In [3]:
import pandas as pd
import numpy as np
from vabsa.ml.preprocess import text_preprocess
from vabsa.ml.utils import parse_labels, load_data

In [17]:
# Read and preprocess the data
reviews = load_data("datasets\orig\VLSP2018-SA-Restaurant-dev.txt") # repeat for sets

aspect = set()
polarity = set()
records = []
for review in reviews:
    _, sentence, labels = review.split("\n")
    sentence = text_preprocess(sentence)
    labels = parse_labels(labels) # [[aspect, polarity],...]
    records.append({"content": sentence, "label": labels})
    for label in labels:
        aspect.add(label[0])
        polarity.add(label[1])

records[0]

{'content': 'giácon tu hài to siêu béo siêu ngon nướng mỡ hành thơm phức béo ngậy đĩa tu hài đem ra nóng hổi gắp miếng vào miệng kích thích vi giác kinh khủng con to đến mức họ phải cắt ra làm đôi ăn nửa con đầy ý miệng luôn ý mà giá đó cho con tu hài ngon như vậy là quá rẻ',
 'label': [['FOOD#PRICES', 'positive'], ['FOOD#QUALITY', 'positive']]}

In [18]:
# Convert to CSV
aspect = list(aspect)
polarity_map = {name: i+1 for i, name in enumerate(list(polarity))}
df = pd.DataFrame(columns=["content"] + aspect)
for record in records:
    item = []
    item.append(record["content"])
    item_labels = {name: 0 for name in aspect}
    for label in record["label"]:
        item_labels[label[0]] = polarity_map[label[1]]
    item = item + list(item_labels.values())
    df.loc[len(df.index)] = item
df.head()

Unnamed: 0,content,RESTAURANT#PRICES,FOOD#STYLE&OPTIONS,DRINKS#PRICES,RESTAURANT#MISCELLANEOUS,RESTAURANT#GENERAL,SERVICE#GENERAL,FOOD#QUALITY,AMBIENCE#GENERAL,DRINKS#QUALITY,DRINKS#STYLE&OPTIONS,LOCATION#GENERAL,FOOD#PRICES
0,giácon tu hài to siêu béo siêu ngon nướng mỡ h...,0,0,0,0,0,0,2,0,0,0,0,2
1,ăn hai người no căng nhiều đồ ăn kèm như phồng...,0,2,0,0,2,0,0,0,0,0,0,2
2,ấn tượng đầu là quán siêu to siêu thoáng lại c...,0,2,0,0,0,2,2,2,0,0,0,2
3,bánh ăn thơm và vừa miệng giòn rụm ngọt nhưng ...,0,0,0,0,2,0,2,0,0,0,0,0
4,bánh siêu ngon siêu mềm tự tay anh chủ người đ...,0,0,0,0,0,0,2,0,0,0,0,0


In [19]:
# Save the preprocessed data
df.to_csv("datasets\\preprocessed\\dev.csv")