In [1]:
import re
import pandas as pd
import numpy as np
import jieba

In [2]:
def removeRetweet(text):
    result = text.split("//@",1)[0]
    if(result == ''):
        return np.nan
    return result

def textPreprocess(text):
    result = re.sub(r'[^/]@[^ ]+ ', ' ', text) # remove "@username" (at the middle)
    result = re.sub(r'//@[^ |:]+:', '', result) # remove "//@username:" from retweet
    result = re.sub(r'@[^ ]+ ', ' ', result) # remove "@username" (at the beginning)
    result = re.sub(r'@[^ ]+', ' ', result) # remove "@username" (at the end) or "@username1@username2..."
    result = re.sub(r'(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]', 
                   ' ', result) # remove website links, idea from stack overflow
    return result

def cutWordJieba(text):
    result = list(jieba.cut(text))
    return " ".join(result)

In [3]:
raw_data = pd.read_csv("weibo_10k.txt", sep = "\t")
display(raw_data)

Unnamed: 0,uid,label,text
0,4231265311393455,1,{%#静下心来听音乐#%} “书中自有黄金屋，书中自有颜如玉”。沿着岁月的长河跋涉，或是风光...
1,4231265307198472,0,这是英超被黑的最惨的一次[二哈][二哈]十几年来，中国只有孙继海，董方卓，郑智，李铁登陆过英...
2,4231265303587877,1,【俞曾港：专业聚焦和产业链延伸是企业“走出去”根本要义】中国远洋海运集团副总经理俞曾港4月2...
3,4231265303003094,1,看《流星花园》其实也还好啦，现在的观念以及时尚眼光都不一样了，或许十几年之后的人看我们的现在...
4,4231265290813194,1,汉武帝的罪己诏的真实性尽管存在着争议，然而“轮台罪己诏”作为中国历史上第一份皇帝自我批评的文...
...,...,...,...
9995,4234961114403222,0,火车上碰见这种占别人位置还理直气壮的王八蛋真的心累，报了乘警半天不见人，只好祝病魔早日战胜之...
9996,4234960615356814,0,倒霉催的，坐上晚点一个多小时的汽车🚗，在高速上司机叔叔说他没听清我说话，so我一路超想上厕所...
9997,4234960451562301,0,急诊第一天上班，说不上的心累，这漫长的两个月如何过啊[悲伤][悲伤][悲伤] ​
9998,4234960371996125,0,我每个月供着爱奇艺，网易云，快连，芒果TV，包图网，这些都是大企业啊，我也是心累😂😂😂😱😱😱 ​


In [4]:
raw_data["processed_noWordCut"] = raw_data["text"].apply(textPreprocess)
raw_data["processed_wordCut"] = raw_data["processed_noWordCut"].apply(cutWordJieba)

display(raw_data)

processed_data_noWordCut = pd.DataFrame()
processed_data_wordCut = pd.DataFrame()

processed_data_noWordCut["text"] = raw_data["processed_noWordCut"]
processed_data_noWordCut["label"] = raw_data["label"]

processed_data_wordCut["text"] = raw_data["processed_wordCut"]
processed_data_wordCut["label"] = raw_data["label"]

processed_data_noWordCut.to_csv("train_data_noWordCut.csv", index = False)
processed_data_wordCut.to_csv("train_data_wordCut.csv", index = False)

Building prefix dict from the default dictionary ...
Loading model from cache /tmp/jieba.cache
Loading model cost 1.498 seconds.
Prefix dict has been built successfully.


Unnamed: 0,uid,label,text,processed_noWordCut,processed_wordCut
0,4231265311393455,1,{%#静下心来听音乐#%} “书中自有黄金屋，书中自有颜如玉”。沿着岁月的长河跋涉，或是风光...,{%#静下心来听音乐#%} “书中自有黄金屋，书中自有颜如玉”。沿着岁月的长河跋涉，或是风光...,{ %# 静下心来 听 音乐 #% } “ 书中 自有 黄金屋 ， 书中 自有 颜如玉 ...
1,4231265307198472,0,这是英超被黑的最惨的一次[二哈][二哈]十几年来，中国只有孙继海，董方卓，郑智，李铁登陆过英...,这是英超被黑的最惨的一次[二哈][二哈]十几年来，中国只有孙继海，董方卓，郑智，李铁登陆过英...,这是 英超 被 黑 的 最惨 的 一次 [ 二哈 ] [ 二哈 ] 十几年来 ， 中国 只有...
2,4231265303587877,1,【俞曾港：专业聚焦和产业链延伸是企业“走出去”根本要义】中国远洋海运集团副总经理俞曾港4月2...,【俞曾港：专业聚焦和产业链延伸是企业“走出去”根本要义】中国远洋海运集团副总经理俞曾港4月2...,【 俞曾 港 ： 专业 聚焦 和 产业链 延伸 是 企业 “ 走 出去 ” 根本 要义 】 ...
3,4231265303003094,1,看《流星花园》其实也还好啦，现在的观念以及时尚眼光都不一样了，或许十几年之后的人看我们的现在...,看《流星花园》其实也还好啦，现在的观念以及时尚眼光都不一样了，或许十几年之后的人看我们的现在...,看 《 流星花园 》 其实 也 还好 啦 ， 现在 的 观念 以及 时尚 眼光 都 不 一样...
4,4231265290813194,1,汉武帝的罪己诏的真实性尽管存在着争议，然而“轮台罪己诏”作为中国历史上第一份皇帝自我批评的文...,汉武帝的罪己诏的真实性尽管存在着争议，然而“轮台罪己诏”作为中国历史上第一份皇帝自我批评的文...,汉武帝 的 罪己 诏 的 真实性 尽管 存在 着 争议 ， 然而 “ 轮台 罪己 诏 ” 作...
...,...,...,...,...,...
9995,4234961114403222,0,火车上碰见这种占别人位置还理直气壮的王八蛋真的心累，报了乘警半天不见人，只好祝病魔早日战胜之...,火车上碰见这种占别人位置还理直气壮的王八蛋真的心累，报了乘警半天不见人，只好祝病魔早日战胜之...,火车 上 碰见 这种 占 别人 位置 还 理直气壮 的 王八蛋 真的 心累 ， 报 了 乘警...
9996,4234960615356814,0,倒霉催的，坐上晚点一个多小时的汽车🚗，在高速上司机叔叔说他没听清我说话，so我一路超想上厕所...,倒霉催的，坐上晚点一个多小时的汽车🚗，在高速上司机叔叔说他没听清我说话，so我一路超想上厕所...,倒霉 催 的 ， 坐 上 晚点 一个多 小时 的 汽车 🚗 ， 在 高速 上 司机 叔叔 说...
9997,4234960451562301,0,急诊第一天上班，说不上的心累，这漫长的两个月如何过啊[悲伤][悲伤][悲伤] ​,急诊第一天上班，说不上的心累，这漫长的两个月如何过啊[悲伤][悲伤][悲伤] ​,急诊 第一天 上班 ， 说不上 的 心累 ， 这 漫长 的 两个 月 如何 过 啊 [ 悲伤...
9998,4234960371996125,0,我每个月供着爱奇艺，网易云，快连，芒果TV，包图网，这些都是大企业啊，我也是心累😂😂😂😱😱😱 ​,我每个月供着爱奇艺，网易云，快连，芒果TV，包图网，这些都是大企业啊，我也是心累😂😂😂😱😱😱 ​,我 每个 月 供 着 爱奇艺 ， 网易 云 ， 快 连 ， 芒果 TV ， 包图 网 ， 这...


In [5]:
# Check whether the data are the same in essence
print(processed_data_noWordCut.shape[0] == processed_data_wordCut.shape[0])

True


In [6]:
display(processed_data_noWordCut)

Unnamed: 0,text,label
0,{%#静下心来听音乐#%} “书中自有黄金屋，书中自有颜如玉”。沿着岁月的长河跋涉，或是风光...,1
1,这是英超被黑的最惨的一次[二哈][二哈]十几年来，中国只有孙继海，董方卓，郑智，李铁登陆过英...,0
2,【俞曾港：专业聚焦和产业链延伸是企业“走出去”根本要义】中国远洋海运集团副总经理俞曾港4月2...,1
3,看《流星花园》其实也还好啦，现在的观念以及时尚眼光都不一样了，或许十几年之后的人看我们的现在...,1
4,汉武帝的罪己诏的真实性尽管存在着争议，然而“轮台罪己诏”作为中国历史上第一份皇帝自我批评的文...,1
...,...,...
9995,火车上碰见这种占别人位置还理直气壮的王八蛋真的心累，报了乘警半天不见人，只好祝病魔早日战胜之...,0
9996,倒霉催的，坐上晚点一个多小时的汽车🚗，在高速上司机叔叔说他没听清我说话，so我一路超想上厕所...,0
9997,急诊第一天上班，说不上的心累，这漫长的两个月如何过啊[悲伤][悲伤][悲伤] ​,0
9998,我每个月供着爱奇艺，网易云，快连，芒果TV，包图网，这些都是大企业啊，我也是心累😂😂😂😱😱😱 ​,0


In [7]:
display(processed_data_wordCut)

Unnamed: 0,text,label
0,{ %# 静下心来 听 音乐 #% } “ 书中 自有 黄金屋 ， 书中 自有 颜如玉 ...,1
1,这是 英超 被 黑 的 最惨 的 一次 [ 二哈 ] [ 二哈 ] 十几年来 ， 中国 只有...,0
2,【 俞曾 港 ： 专业 聚焦 和 产业链 延伸 是 企业 “ 走 出去 ” 根本 要义 】 ...,1
3,看 《 流星花园 》 其实 也 还好 啦 ， 现在 的 观念 以及 时尚 眼光 都 不 一样...,1
4,汉武帝 的 罪己 诏 的 真实性 尽管 存在 着 争议 ， 然而 “ 轮台 罪己 诏 ” 作...,1
...,...,...
9995,火车 上 碰见 这种 占 别人 位置 还 理直气壮 的 王八蛋 真的 心累 ， 报 了 乘警...,0
9996,倒霉 催 的 ， 坐 上 晚点 一个多 小时 的 汽车 🚗 ， 在 高速 上 司机 叔叔 说...,0
9997,急诊 第一天 上班 ， 说不上 的 心累 ， 这 漫长 的 两个 月 如何 过 啊 [ 悲伤...,0
9998,我 每个 月 供 着 爱奇艺 ， 网易 云 ， 快 连 ， 芒果 TV ， 包图 网 ， 这...,0
