# Introduction

- Load datasets with pandas and create headers for them.
- Convert pandas dataframe to parquet

In [41]:
import pandas as pd

In [42]:
pos_file = '../data/clean/tweets_positive.txt'
neg_file = '../data/clean/tweets_negative.txt'

In [43]:
pos_df = pd.read_csv(pos_file, sep='\t', header=None)
neg_df = pd.read_csv(neg_file, sep='\t', header=None)

In [44]:
print(pos_df[:5])

                                                   0
0  业主合法维权遭遇不明人员人身攻击，并被强制夺取手机。shenglong又一城业主遭遇第三次延...
1  《关于黑心蓝山企业骗取业主辛苦钱导致蓝山青年城楼房无水电业主无家可归！》首先跪求感谢大家帮忙...
2  位于延安原纸箱厂家属区的丰足家园小区开发商勾结置业公司，欺诈老百姓血汗钱。丰足家园所有的业主...
3  升龙今日再陷维权门多个项目遭业主围堵凤凰房产郑州讯11月3日下午2时许，在郑州高新区管委会门...
4            #合肥身边事#又堵路了！！望江路改造取消了合巢路路口附近居民不满于是堵路抗议​


In [45]:
# Add text header
pos_df.columns = ['text']
neg_df.columns = ['text']

# Add labels
pos_df['label'] = 1
neg_df['label'] = 0

In [46]:
print(neg_df[:5])

                                                text  label
0                                         不愧为美食达人有气势      0
1  可能因为我上班没看直播的缘故输了比赛既不生气也不伤心反而还很轻松地去吐槽但看到他们发出道歉的...      0
2  好好休息啊太辛苦了妈呀第一次看到眼袋这么明显的宝宝大哭大哭大哭看看你家演员累的卧蚕下面都出眼...      0
3        历史米轨两国对岸湄公河岸边灯光江水与美食陪伴可惜这些吃的不对我胃口红河哈尼族彝族自治州      0
4                       摩尔街肆年过往店内不仅饮料好喝榴莲班戟和榴莲千层也很棒啊      0


In [52]:
df_combined = pd.concat([pos_df, neg_df], ignore_index=True)
df_shuffled = df_combined.sample(frac=1).reset_index(drop=True)
df_shuffled['idx'] = range(len(df_shuffled))

In [53]:
print(df_shuffled[:20])

                                                 text  label  idx
0   四川省凉山州金阳县人民政府官员枉顾法律，贪污人民拆迁款，强制拆迁，导致人民无生活保障，于七月...      1    0
1                                            生日开心开心生日      0    1
2                      回复今天已经在微信上看到了没办法都是宜宾上游冲下来的又是南溪      0    2
3                                       大白鲨台湾台东超级私家景点      0    3
4      jej独角兽预约详情已出元红紫双色月到货这里定金预约和出货尾款都不加点实时汇率的哦链接见评论      0    4
5   【广州天河岑村村民聚集,反对强制征地现场(图)】“还我田地”！广州村民聚集今天上午10:30...      1    5
6   #西安身边事##直播西安#微友@西安料理来稿“六一”儿童节，我们的学校在哪里？5月29日华润...      1    6
7                        妈妈爱你好可爱呀好可爱心都化咯哎呀呀真的是妈妈的心肝宝贝      0    7
8   呼和浩特永泰城现质量问题，众业主维权艰难，百强企业寐良心，侵吞业主血汗钱。http://t....      1    8
9   【产妇死亡家属围堵医生25小时撕其衣逼默哀】10月1日，一名产妇在桂林市妇女儿童医院生产后突...      1    9
10                        国庆早上空腹坐广州地铁真是超难受低血糖又缺氧分分钟倒下      0   10
11  【警察也怕黑社会？】9月19日，广东韶关乳源县一家派出所门口，干警拉横幅控诉黑社会砍死警察，...      1   11
12                                        好激动鼓掌考虑加入嘻嘻      0   12
13                                    好活动支持年前送的法压壶很好用      0   13
14        

In [54]:
from datasets import Dataset

dataset = Dataset.from_pandas(df_shuffled)

In [55]:
print(dataset)

Dataset({
    features: ['text', 'label', 'idx'],
    num_rows: 227541
})


In [58]:
train_dev_test = dataset.train_test_split(train_size=0.8)
train = train_dev_test['train']

dev_test = train_dev_test['test'].train_test_split(train_size=0.5)
dev = dev_test['train']
test = dev_test['test']

In [60]:
print(train, dev, test)

Dataset({
    features: ['text', 'label', 'idx'],
    num_rows: 182032
}) Dataset({
    features: ['text', 'label', 'idx'],
    num_rows: 22754
}) Dataset({
    features: ['text', 'label', 'idx'],
    num_rows: 22755
})


In [61]:
train.to_parquet('../data/clean/train.parquet', compression='snappy')
dev.to_parquet('../data/clean/dev.parquet', compression='snappy')
test.to_parquet('../data/clean/test.parquet', compression='snappy')

Creating parquet from Arrow format:   0%|          | 0/183 [00:00<?, ?ba/s]

Creating parquet from Arrow format:   0%|          | 0/23 [00:00<?, ?ba/s]

Creating parquet from Arrow format:   0%|          | 0/23 [00:00<?, ?ba/s]

4507804