In [9]:
import re
import pandas as pd
import numpy as np
import jieba

In [10]:
def removeRetweet(text):
    result = text.split("//@",1)[0]
    if(result == ''):
        return np.nan
    return result

def textPreprocess(text):
    result = re.sub(r'[^/]@[^ ]+ ', ' ', text) # remove "@username" (at the middle)
    result = re.sub(r'//@[^ |:]+:', '', result) # remove "//@username:" from retweet
    result = re.sub(r'@[^ ]+ ', ' ', result) # remove "@username" (at the beginning)
    result = re.sub(r'@[^ ]+', ' ', result) # remove "@username" (at the end) or "@username1@username2..."
    result = re.sub(r'(https?|ftp|file)://[-A-Za-z0-9+&@#/%?=~_|!:,.;]+[-A-Za-z0-9+&@#/%=~_|]', 
                   ' ', result) # remove website links, idea from stack overflow
    return result

def cutWordJieba(text):
    result = list(jieba.cut(text))
    return " ".join(result)

In [11]:
raw_data = pd.read_csv("test.csv")
print("Before Drop NA:",raw_data.shape[0])
raw_data.dropna(inplace=True)
print("After Drop NA:",raw_data.shape[0])

Before Drop NA: 3739385
After Drop NA: 3725617


In [12]:
raw_data["removed_retweet"] = raw_data["content"].apply(removeRetweet)
raw_data.dropna(inplace=True)
print("Available Data:",raw_data.shape[0])

Available Data: 3112108


In [13]:
raw_data["processed_noWordCut"] = raw_data["removed_retweet"].apply(textPreprocess)
raw_data["processed_wordCut"] = raw_data["processed_noWordCut"].apply(cutWordJieba) # takes nearly 25 minutes to process

display(raw_data)

Unnamed: 0,content,timestamp,removed_retweet,processed_noWordCut,processed_wordCut
0,哈哈哈哈哈哈哈确实是，我们有宝藏他们没有！//@47821890237:我们有钟院士 你们没...,2020-03-12 01:41:00,哈哈哈哈哈哈哈确实是，我们有宝藏他们没有！,哈哈哈哈哈哈哈确实是，我们有宝藏他们没有！,哈哈哈哈 哈哈哈 确实 是 ， 我们 有 宝藏 他们 没有 ！
1,（二）真诚的认为遇上你是我的缘,2020-03-12 01:41:00,（二）真诚的认为遇上你是我的缘,（二）真诚的认为遇上你是我的缘,（ 二 ） 真诚 的 认为 遇上 你 是 我 的 缘
2,#欧洲求助钟南山#人都是思变的动物，天仙美眷女人也留不住完整一世的爱!,2020-03-12 01:41:00,#欧洲求助钟南山#人都是思变的动物，天仙美眷女人也留不住完整一世的爱!,#欧洲求助钟南山#人都是思变的动物，天仙美眷女人也留不住完整一世的爱!,# 欧洲 求助 钟南山 # 人 都 是 思变 的 动物 ， 天仙 美眷 女人 也 留不住 完...
3,钟老，您就是夜空中最亮的星,2020-03-12 01:41:00,钟老，您就是夜空中最亮的星,钟老，您就是夜空中最亮的星,钟老 ， 您 就是 夜空 中 最亮 的 星
4,两人目光呆滞，钟南山全程英语分享中国经验走路脚跟离地，九叔一眼就看出不对劲！电影推荐电影 t...,2020-03-12 01:40:00,两人目光呆滞，钟南山全程英语分享中国经验走路脚跟离地，九叔一眼就看出不对劲！电影推荐电影 t...,两人目光呆滞，钟南山全程英语分享中国经验走路脚跟离地，九叔一眼就看出不对劲！电影推荐电影 t...,两人 目光 呆滞 ， 钟南山 全程 英语 分享 中国 经验 走路 脚跟 离 地 ， 九叔 一...
5,钟老与欧盟呼吸协会候任主席分享中国经验…,2020-03-12 01:40:00,钟老与欧盟呼吸协会候任主席分享中国经验…,钟老与欧盟呼吸协会候任主席分享中国经验…,钟老 与 欧盟 呼吸 协会 候任 主席 分享 中国 经验 …
6,爷爷病了 我好难过 在我心里 爷爷就像钟南山院士一样 受人爱戴，爷爷86岁了，但是...,2020-03-12 01:40:00,爷爷病了 我好难过 在我心里 爷爷就像钟南山院士一样 受人爱戴，爷爷86岁了，但是...,爷爷病了 我好难过 在我心里 爷爷就像钟南山院士一样 受人爱戴，爷爷86岁了，但是...,爷爷 病 了 我 好 难过 在 我 心里 爷爷 就 像 钟南山 ...
8,#钟南山全程英语分享中国经验#我记得袁隆平先生的英语也超级棒，国士无双，唯有致敬,2020-03-12 00:58:00,#钟南山全程英语分享中国经验#我记得袁隆平先生的英语也超级棒，国士无双，唯有致敬,#钟南山全程英语分享中国经验#我记得袁隆平先生的英语也超级棒，国士无双，唯有致敬,# 钟南山 全程 英语 分享 中国 经验 # 我 记得 袁隆平 先生 的 英语 也 超级 棒...
10,我去老爷子为什么这么屌,2020-03-12 00:58:00,我去老爷子为什么这么屌,我去老爷子为什么这么屌,我 去 老爷子 为什么 这么 屌
11,忧国忧民之人，每次都出来为了人民鞠躬尽瘁,2020-03-12 00:58:00,忧国忧民之人，每次都出来为了人民鞠躬尽瘁,忧国忧民之人，每次都出来为了人民鞠躬尽瘁,忧国忧民 之 人 ， 每次 都 出来 为了 人民 鞠躬尽瘁


In [6]:
processed_data_noWordCut = pd.DataFrame()
processed_data_wordCut = pd.DataFrame()

processed_data_noWordCut["text"] = raw_data["processed_noWordCut"]
processed_data_noWordCut["timestamp"] = raw_data["timestamp"]

processed_data_wordCut["text"] = raw_data["processed_wordCut"]
processed_data_wordCut["timestamp"] = raw_data["timestamp"]

processed_data_noWordCut.dropna(inplace = True)
processed_data_WordCut.dropna(inplace = True)
# a column 1303013 is droped, as it become NaN after wordcut

processed_data_noWordCut.to_csv("test_data_noWordCut.csv", index = False)
processed_data_wordCut.to_csv("test_data_wordCut.csv", index = False)

In [7]:
# preview the exported data
processed_data_wordCut.head(10)

Unnamed: 0,text,timestamp
0,哈哈哈哈 哈哈哈 确实 是 ， 我们 有 宝藏 他们 没有 ！,2020-03-12 01:41:00
1,（ 二 ） 真诚 的 认为 遇上 你 是 我 的 缘,2020-03-12 01:41:00
2,# 欧洲 求助 钟南山 # 人 都 是 思变 的 动物 ， 天仙 美眷 女人 也 留不住 完...,2020-03-12 01:41:00
3,钟老 ， 您 就是 夜空 中 最亮 的 星,2020-03-12 01:41:00
4,两人 目光 呆滞 ， 钟南山 全程 英语 分享 中国 经验 走路 脚跟 离 地 ， 九叔 一...,2020-03-12 01:40:00
5,钟老 与 欧盟 呼吸 协会 候任 主席 分享 中国 经验 …,2020-03-12 01:40:00
6,爷爷 病 了 我 好 难过 在 我 心里 爷爷 就 像 钟南山 ...,2020-03-12 01:40:00
8,# 钟南山 全程 英语 分享 中国 经验 # 我 记得 袁隆平 先生 的 英语 也 超级 棒...,2020-03-12 00:58:00
10,我 去 老爷子 为什么 这么 屌,2020-03-12 00:58:00
11,忧国忧民 之 人 ， 每次 都 出来 为了 人民 鞠躬尽瘁,2020-03-12 00:58:00


In [8]:
processed_data_noWordCut.head(10)

Unnamed: 0,text,timestamp
0,哈哈哈哈哈哈哈确实是，我们有宝藏他们没有！,2020-03-12 01:41:00
1,（二）真诚的认为遇上你是我的缘,2020-03-12 01:41:00
2,#欧洲求助钟南山#人都是思变的动物，天仙美眷女人也留不住完整一世的爱!,2020-03-12 01:41:00
3,钟老，您就是夜空中最亮的星,2020-03-12 01:41:00
4,两人目光呆滞，钟南山全程英语分享中国经验走路脚跟离地，九叔一眼就看出不对劲！电影推荐电影 t...,2020-03-12 01:40:00
5,钟老与欧盟呼吸协会候任主席分享中国经验…,2020-03-12 01:40:00
6,爷爷病了 我好难过 在我心里 爷爷就像钟南山院士一样 受人爱戴，爷爷86岁了，但是...,2020-03-12 01:40:00
8,#钟南山全程英语分享中国经验#我记得袁隆平先生的英语也超级棒，国士无双，唯有致敬,2020-03-12 00:58:00
10,我去老爷子为什么这么屌,2020-03-12 00:58:00
11,忧国忧民之人，每次都出来为了人民鞠躬尽瘁,2020-03-12 00:58:00
