In [1]:
import re
from tqdm import tqdm

import pandas as pd

import jieba
import jieba.posseg as posseg
import jieba.analyse as analyse

pd.set_option('display.max_columns',None)
tqdm.pandas(desc='')

### 读取文件，提取月份

In [2]:
df = pd.read_csv('./data/Covid_19_Weibo/Weibo.csv')
df['month'] = df['created_at'].progress_apply(lambda x: x.split(' ')[0][:7])
df['day'] = df['created_at'].progress_apply(lambda x: x.split(' ')[0].split('-')[-1])
df = df[['month', 'day', 'content']]
df.to_csv('./data/Weibo_src.csv', index=False)
df.head()

100%|██████████████████████████████| 651280/651280 [00:00<00:00, 1796712.71it/s]
100%|██████████████████████████████| 651280/651280 [00:00<00:00, 1669597.16it/s]


Unnamed: 0,month,day,content
0,2020-01,24,#全国确诊830例新型肺炎病例#跑什么跑 自己多带口罩 注意消毒 瞎恐慌什么 你们以为是生化危机么
1,2020-01,26,庄医生@靳东 顾医生@X玖少年团肖战DAYTOY 《壮志在我胸》，“我要认真面对我的人生”，...
2,2020-01,23,#武汉24小时捐赠电话#【转扩！#武汉开通24小时电话接收爱心捐赠#】#武汉新型肺炎防控指挥...
3,2020-01,21,支持请转，#口罩售卖商家不要坐地起价#！请相关部门加强监管，打击不良商家哄抬物价！让我们共同...
4,2020-01,23,【#武汉重症隔离病房救治现场# 致敬奋战在一线的医护人员！】1月22日，红星新闻记者进入武汉...


### 筛选中文

In [3]:
def format_str(content):
    content = re.sub(r'[^\u4e00-\u9fa5]', ' ', content)
    content = ' '.join(content.split(' '))
    return content.lower()

df['content_format'] = df['content'].progress_apply(lambda x: format_str(x))
df.to_csv('./data/Weibo_src.csv', index=False)
df.head()

100%|███████████████████████████████| 651280/651280 [00:05<00:00, 108555.64it/s]


Unnamed: 0,month,day,content,content_format
0,2020-01,24,#全国确诊830例新型肺炎病例#跑什么跑 自己多带口罩 注意消毒 瞎恐慌什么 你们以为是生化危机么,全国确诊 例新型肺炎病例 跑什么跑 自己多带口罩 注意消毒 瞎恐慌什么 你们以为是生化危机么
1,2020-01,26,庄医生@靳东 顾医生@X玖少年团肖战DAYTOY 《壮志在我胸》，“我要认真面对我的人生”，...,庄医生 靳东 顾医生 玖少年团肖战 壮志在我胸 我要认真面对我的人生 ...
2,2020-01,23,#武汉24小时捐赠电话#【转扩！#武汉开通24小时电话接收爱心捐赠#】#武汉新型肺炎防控指挥...,武汉 小时捐赠电话 转扩 武汉开通 小时电话接收爱心捐赠 武汉新型肺炎防控指挥...
3,2020-01,21,支持请转，#口罩售卖商家不要坐地起价#！请相关部门加强监管，打击不良商家哄抬物价！让我们共同...,支持请转 口罩售卖商家不要坐地起价 请相关部门加强监管 打击不良商家哄抬物价 让我们共同...
4,2020-01,23,【#武汉重症隔离病房救治现场# 致敬奋战在一线的医护人员！】1月22日，红星新闻记者进入武汉...,武汉重症隔离病房救治现场 致敬奋战在一线的医护人员 月 日 红星新闻记者进入武汉...


### 简单分词

In [4]:
def sent2word_all(content):
    segList = jieba.cut(content, cut_all=False)
    return ' '.join(segList)

df['content_cut_all'] = df['content_format'].progress_apply(lambda x: sent2word_all(x))
df.to_csv('./data/Weibo_src.csv', index=False)
df.head()

  0%|                                                | 0/651280 [00:00<?, ?it/s]Building prefix dict from the default dictionary ...
Loading model from cache /var/folders/ll/hyz4dyd515l7k0bw5j80wjl40000gn/T/jieba.cache
Loading model cost 0.287 seconds.
Prefix dict has been built successfully.
100%|█████████████████████████████████| 651280/651280 [03:36<00:00, 3009.61it/s]


Unnamed: 0,month,day,content,content_format,content_cut_all
0,2020-01,24,#全国确诊830例新型肺炎病例#跑什么跑 自己多带口罩 注意消毒 瞎恐慌什么 你们以为是生化危机么,全国确诊 例新型肺炎病例 跑什么跑 自己多带口罩 注意消毒 瞎恐慌什么 你们以为是生化危机么,全国 确诊 例 新型 肺炎 病例 跑 什么 跑 自己 多带 口罩 ...
1,2020-01,26,庄医生@靳东 顾医生@X玖少年团肖战DAYTOY 《壮志在我胸》，“我要认真面对我的人生”，...,庄医生 靳东 顾医生 玖少年团肖战 壮志在我胸 我要认真面对我的人生 ...,庄 医生 靳东 顾 医生 玖 少年 团肖战 ...
2,2020-01,23,#武汉24小时捐赠电话#【转扩！#武汉开通24小时电话接收爱心捐赠#】#武汉新型肺炎防控指挥...,武汉 小时捐赠电话 转扩 武汉开通 小时电话接收爱心捐赠 武汉新型肺炎防控指挥...,武汉 小时 捐赠电话 转扩 武汉 开通 小时 电话 接收...
3,2020-01,21,支持请转，#口罩售卖商家不要坐地起价#！请相关部门加强监管，打击不良商家哄抬物价！让我们共同...,支持请转 口罩售卖商家不要坐地起价 请相关部门加强监管 打击不良商家哄抬物价 让我们共同...,支持 请 转 口罩 售卖 商家 不要 坐地 起价 请 相关 部门 加强 监管...
4,2020-01,23,【#武汉重症隔离病房救治现场# 致敬奋战在一线的医护人员！】1月22日，红星新闻记者进入武汉...,武汉重症隔离病房救治现场 致敬奋战在一线的医护人员 月 日 红星新闻记者进入武汉...,武汉 重症 隔离病房 救治 现场 致敬 奋战 在 一线 的 医护人员 ...


### 筛选名词

In [5]:
def sent2word_flag(content):
    flaglist = ['n', 'nr', 'nr1', 'nr2', 'nrj', 'nrf', 'ns', 'nsf', 'nt', 'nz', 'nl', 'ng']
    segList = posseg.lcut(content)
    
    string = ''
    for seg in segList:
        if seg.flag in flaglist:
            string += ' '+seg.word
    return string

df['content_cut_flag'] = df['content_format'].progress_apply(lambda x: sent2word_flag(x))
df.to_csv('./data/Weibo_src.csv', index=False)
df.head()

100%|██████████████████████████████████| 651280/651280 [43:09<00:00, 251.49it/s]


Unnamed: 0,month,day,content,content_format,content_cut_all,content_cut_flag
0,2020-01,24,#全国确诊830例新型肺炎病例#跑什么跑 自己多带口罩 注意消毒 瞎恐慌什么 你们以为是生化危机么,全国确诊 例新型肺炎病例 跑什么跑 自己多带口罩 注意消毒 瞎恐慌什么 你们以为是生化危机么,全国 确诊 例 新型 肺炎 病例 跑 什么 跑 自己 多带 口罩 ...,全国 肺炎 病例 口罩
1,2020-01,26,庄医生@靳东 顾医生@X玖少年团肖战DAYTOY 《壮志在我胸》，“我要认真面对我的人生”，...,庄医生 靳东 顾医生 玖少年团肖战 壮志在我胸 我要认真面对我的人生 ...,庄 医生 靳东 顾 医生 玖 少年 团肖战 ...,庄 医生 靳东 医生 团肖 战 壮志 胸 人生 医护人员 人 个人 卫生防护 家人 疫情 ...
2,2020-01,23,#武汉24小时捐赠电话#【转扩！#武汉开通24小时电话接收爱心捐赠#】#武汉新型肺炎防控指挥...,武汉 小时捐赠电话 转扩 武汉开通 小时电话接收爱心捐赠 武汉新型肺炎防控指挥...,武汉 小时 捐赠电话 转扩 武汉 开通 小时 电话 接收...,武汉 小时 捐赠电话 武汉 小时 电话 爱心 武汉 肺炎 指挥部 通告 武汉市 疫情 医用...
3,2020-01,21,支持请转，#口罩售卖商家不要坐地起价#！请相关部门加强监管，打击不良商家哄抬物价！让我们共同...,支持请转 口罩售卖商家不要坐地起价 请相关部门加强监管 打击不良商家哄抬物价 让我们共同...,支持 请 转 口罩 售卖 商家 不要 坐地 起价 请 相关 部门 加强 监管...,口罩 商家 坐地 部门 商家 肺炎 理由 博
4,2020-01,23,【#武汉重症隔离病房救治现场# 致敬奋战在一线的医护人员！】1月22日，红星新闻记者进入武汉...,武汉重症隔离病房救治现场 致敬奋战在一线的医护人员 月 日 红星新闻记者进入武汉...,武汉 重症 隔离病房 救治 现场 致敬 奋战 在 一线 的 医护人员 ...,武汉 重症 隔离病房 现场 医护人员 红星 新闻记者 武汉大学 中南 医院 重症 隔离病房...


### 写入停用词

In [6]:
stop_words=['愿君', '谢谢', '医护人员', '原型', '汇报', '新浪', '通告', '小区', '小心', '出面', 
            '某明', '信息', '助力', '情况', '允悲', '之谜', '手写', '大家', '病毒', '评论', 
            '话题', '啊啊啊', '热点话题', '全国', '症状', '视频', '日报', '时候', '故事', '发布会', 
            '弘扬', '片花', '着数', '感觉', '单元', '医用', '内微博', '网友', '协商', '红区', '风险', 
            '问题', '新冠', '部分', '理由', '新闻', '金银', '患者', '官方', '粉丝', '现场', '医生', 
            '平台', '千玺', '阴性', '时间', '意义', '我司', '福利', '辖区', '报告', '抽奖', '文案', 
            '人人', '肺炎', '院方', '时辰', '高风险', '小时', '记者', '人民', '团肖', '先生', '剪辑', 
            '联系', '朝花', '心系', '工作人员', '人数', '无法', '个人', '通报', '拼西', '行者', '样本', 
            '人员', '医学观察', '私信', '记录', '天通', '发地', '本土', '国家', '地区', '新人', '结果', 
            '社区', '同事', '李子', '阳性', '疫情', '正值', '病例', '疑似病例', '医护', '数据', '小姐', 
            '全文','细节', '时刻','工作者','千玺']

stop_words = list(set(stop_words))

with open('./data/StopWords_CH.txt', 'w') as file:
    for stop_word in stop_words:   
        file.write(stop_word+'\n')

### 读取停用词表

In [7]:
with open('./data/StopWords_CH.txt',encoding='utf-8') as file:
    stop_words = list(set(file.read().split('\n')))

### 去除停用词

In [8]:
def delStopWord(content, stop_words):  
    segList = content.split(' ')
    string = ''
    for seg in segList:
        if seg in stop_words:
            continue
        elif seg == '湖北省':
            string += ' '+'湖北'
        elif seg == '武汉市':
            string += ' '+'武汉'
        elif seg == '喀什地区':
            string += ' '+'喀什'
        elif seg == '北京市':
            string += ' '+'北京'
        else:
            string += ' '+seg
    return string

df['content_cut_stop'] = df['content_cut_flag'].progress_apply(lambda x: delStopWord(x, stop_words))
df.to_csv('./data/Weibo_src.csv', index=False)
df.head()

100%|████████████████████████████████| 651280/651280 [00:18<00:00, 34790.50it/s]


Unnamed: 0,month,day,content,content_format,content_cut_all,content_cut_flag,content_cut_stop
0,2020-01,24,#全国确诊830例新型肺炎病例#跑什么跑 自己多带口罩 注意消毒 瞎恐慌什么 你们以为是生化危机么,全国确诊 例新型肺炎病例 跑什么跑 自己多带口罩 注意消毒 瞎恐慌什么 你们以为是生化危机么,全国 确诊 例 新型 肺炎 病例 跑 什么 跑 自己 多带 口罩 ...,全国 肺炎 病例 口罩,口罩
1,2020-01,26,庄医生@靳东 顾医生@X玖少年团肖战DAYTOY 《壮志在我胸》，“我要认真面对我的人生”，...,庄医生 靳东 顾医生 玖少年团肖战 壮志在我胸 我要认真面对我的人生 ...,庄 医生 靳东 顾 医生 玖 少年 团肖战 ...,庄 医生 靳东 医生 团肖 战 壮志 胸 人生 医护人员 人 个人 卫生防护 家人 疫情 ...,庄 靳东 战 壮志 胸 人生 人 卫生防护 家人 心 靳东肖 战 壮志 胸
2,2020-01,23,#武汉24小时捐赠电话#【转扩！#武汉开通24小时电话接收爱心捐赠#】#武汉新型肺炎防控指挥...,武汉 小时捐赠电话 转扩 武汉开通 小时电话接收爱心捐赠 武汉新型肺炎防控指挥...,武汉 小时 捐赠电话 转扩 武汉 开通 小时 电话 接收...,武汉 小时 捐赠电话 武汉 小时 电话 爱心 武汉 肺炎 指挥部 通告 武汉市 疫情 医用...,武汉 捐赠电话 武汉 电话 爱心 武汉 指挥部 武汉 耗材 防护用品 物资 电话 爱心 武...
3,2020-01,21,支持请转，#口罩售卖商家不要坐地起价#！请相关部门加强监管，打击不良商家哄抬物价！让我们共同...,支持请转 口罩售卖商家不要坐地起价 请相关部门加强监管 打击不良商家哄抬物价 让我们共同...,支持 请 转 口罩 售卖 商家 不要 坐地 起价 请 相关 部门 加强 监管...,口罩 商家 坐地 部门 商家 肺炎 理由 博,口罩 商家 坐地 部门 商家 博
4,2020-01,23,【#武汉重症隔离病房救治现场# 致敬奋战在一线的医护人员！】1月22日，红星新闻记者进入武汉...,武汉重症隔离病房救治现场 致敬奋战在一线的医护人员 月 日 红星新闻记者进入武汉...,武汉 重症 隔离病房 救治 现场 致敬 奋战 在 一线 的 医护人员 ...,武汉 重症 隔离病房 现场 医护人员 红星 新闻记者 武汉大学 中南 医院 重症 隔离病房...,武汉 重症 隔离病房 红星 新闻记者 武汉大学 中南 医院 重症 隔离病房 病房 内 心肺...


### 保存文件

In [9]:
df = pd.read_csv('./data/Weibo_src.csv')
df = df[['month', 'day', 'content_cut_stop']]
df.rename(columns={'content_cut_stop': 'content'}, inplace=True)
df.sort_values('month', inplace=True)
df.dropna(subset=['content'], inplace=True)
df.to_csv('./data/Weibo.csv', index=False)