In [10]:
import os
import pandas as pd
import numpy as np
from random import shuffle

In [11]:
class Dataset:
    def __init__(self, dataset=None, batch_size=1, repeat=1):
        if dataset is None:
            self.data = [] # generator
        else:
            self.data = dataset.data
        self.__batch_size = batch_size
        self.__repeat = repeat
        self.__iterator = None
        
    def map(self, foo):
        new_dataset = Dataset(None, self.__batch_size, self.__repeat)
        data = [foo(data_point) for data_point in self.data]
        return new_dataset
    
    def batch(self, batch_size):
        return Dataset(self, batch_size, self.__repeat)
    
    def repeat(self, count):
        return Dataset(self, self.__batch_size, count)
    
    def padded_batch(self, batch_size, length, padded_value):
        self.data = [item[:length] + [padded_value]*(length - len(item)) for item in data]
        new_dataset = Dataset(None, batch_size, self.__repeat)
        new_dataset.data = self.data
        return new_dataset
    
    def get_iterator(self):
        data_length = len(self.data)
        shuffle(self.data)
        for i in range(self.__repeat):
            for j in range(0, data_length-self.__batch_size+1, self.__batch_size):
                start = j
                end = j+self.__batch_size
                yield self.data[j: j+self.__batch_size]

    @staticmethod    
    def fromCsv(filename, columns=None):
        df = pd.read_csv(filename)
        if isinstance(columns, list):
            datas = [list(df[col]) for col in columns]
        else:
            datas = [list(df[col]) for col in df.columns]
        new_dataset = Dataset()
        new_dataset.data = list(zip(*datas))
        return new_dataset
    
    @staticmethod
    def from_tensor_slices(tensors):
        assert isinstance(tensors, tuple)
        new_dataset = Dataset()
        new_dataset.data = list(zip(*tensors))
        return new_dataset

In [23]:
ENTROPY_PATH = os.path.join('/dataset', 'entropy_2018')
TRAINING_PATH = os.path.join(ENTROPY_PATH, 'training_set.csv')
TEST_PATH = os.path.join(ENTROPY_PATH, 'test_set.csv')

dataset = Dataset.fromCsv(TRAINING_PATH)

In [24]:
# dataset = Dataset.from_tensor_slices((data,))
# dataset = Dataset.fromCsv(TRAINING_PATH, ['sentiment', 'sentence'])
# dataset = dataset.padded_batch(2, 2, -1)
dataset = dataset.batch(5)
# dataset = dataset.repeat(2)

In [25]:
iterator = dataset.get_iterator()

In [27]:
next(iterator)

[('Quá tệ! Lỗi liên tục.', 'negative'),
 ('Thương chú Đại Nghĩa ghê hông nè...?? Các bạn trong tập 8 xuất sắc quá nên chú Đại Nghĩa phải đau đầu luôn rồi. :D :D ------ Người Hùng Tí Hon tập 8 phát sóng vào lúc 19h, ngày 10/09 trên HTV7. ------- Người Hùng Tí Hon mùa 2 cám ơn sự đồng hành của Chuyên gia selfie - OPPO Camera Phone F1s Timeline Photos',
  'neutral'),
 ('Quá đẹp luôn anh Lê Hữu Thuận :)', 'positive'),
 ('Chào bạn Ngọc Hân Phạm. Bộ sưu tập của bạn đã hợp lệ. Bạn vui lòng gửi thẻ về cho chương trình theo hướng dẫn sau. Người tham dự cần gửi 05 thẻ Doraemon này về địa chỉ văn phòng đại diện nhãn hàng Ovaltine - Công ty TNHH Tiếp Thị Ứng Dụng Thông Thái tại 242 Cống Quỳnh - (lầu 3) Tòa nhà SCB, Phường Phạm Ngũ Lão, Quận 1, TP. Hồ Chí Minh trước ngày 10/02/2017. Bên trong bì thư ghi rõ thông tin chi tiết gồm: Họ và tên, Số điện thoại, Địa chỉ. Người chơi sử dụng mã 70C-0217-049SG (*) hoặc OVALTINE-049SG (**) để được gửi miễn phí thông qua hệ thống Bưu điện Việt Nam.',
  'neutr

In [9]:
dataset.data[0]

('Anh Phi nhìn chảy nc miếng', 'neutral')

In [None]:
columns = ['sentiment', 'sentence']
df = pd.read_csv(TRAINING_PATH)
if isinstance(columns, list):
    datas = [list(df[col] for col in columns]
else:
    datas = [df[col] for col in df.columns]

In [None]:
list(zip(['a', 'b'], [1,2]))

In [28]:
!ls

dataset.ipynb  main.ipynb	 start-tensorboard.sh  text2vec.p
doc2vec.ipynb  start-jupyter.sh  summary
