In [4]:
import pandas as pd
import numpy as np
import re
from jieba import cut_for_search

In [11]:
# 读取进行数据预处理后的HTML文档全部信息
data = pd.read_csv("../spider/nku_allinfo.csv")
data1 = pd.read_csv("../spider/tju_allinfo.csv")

In [6]:
# 禁用标点符号以及一些特殊字符
punctuations = '＂＃＄/■★─◎◆●▲％＆＇（）)(-①②③④⑤⑥＊＋，－／：；＜＝＞＠［＼］＾＿｀｛｜｝～｟｠｢｣､\u3000、〃〈〉《》「」『』【】〔〕〖〗〘〙〚〛〜〝〞〟〰〾〿–—‘’‛“”„‟…‧﹏﹑﹔·！？｡。'

In [7]:
def cut_html(data=data):
    # 用于存储分词后的结果
    cutted = []
    # 一次处理一行，对标题、描述、正文进行分词
    for i in range(len(data)):
        info = data.iloc[i]
        title = list(cut_for_search(info.title))
        description,content = str(info.description),str(info.content)
        if description is not None:
            description = list(cut_for_search(description))
        if content is not None:
            content = list(cut_for_search(content))
        # 接下来把分词后的列表以字符串方式存储，并忽略无意义的标点符号
        title = (re.sub(rf"[{punctuations}]", '', '#'.join(title)).replace('-', '')).split('#')
        # 然后把新的分词结果按空格分割组合成新的字符串
        title = ' '.join([word for word in title if (word != '' and word != ' ')])
        # 描述以及文档正文处理同理
        if description is not None:
            description = re.sub(rf"[{punctuations}]", '', '#'.join(description)).split('#')
            description = ' '.join([word for word in description if (word != '' and word != ' ')])
        if content is not None and content != np.nan:
            content = re.sub(rf"[{punctuations}]", '', '#'.join(content)).split('#')
            content = ' '.join([word for word in content if (word != '' and word != ' ')])
        ls = [info.url,title,description,info.date,content,info.editor]
        cutted.append(ls)
    return cutted


In [14]:
# 假设你已经加载了你的 data DataFrame
cutted = cut_html(data)  # 执行分词操作，返回处理后的列表

# 将处理后的数据转换为 DataFrame
df_cutted = pd.DataFrame(cutted, columns=['url', 'title', 'description', 'date', 'content', 'editor'])

# 保存为 CSV 文件
df_cutted.to_csv('cutted_news_nku.csv', index=False, encoding='utf-8')

# 打印输出结果的一部分进行调试
print(df_cutted.head())

                                          url                        title  \
0       http://news.nankai.edu.cn/index.shtml  南开 开大 大学 南开大学 南开 开大 大学 南开大学   
1  http://news.nankai.edu.cn/gynk/index.shtml                        光影 南开   
2  http://news.nankai.edu.cn/mtnk/index.shtml                        媒体 南开   
3                   https://xs.nankai.edu.cn/           南开 开大 大学 南开大学 校史 网   
4  http://news.nankai.edu.cn/ywsd/index.shtml                        南开 要闻   

  description          date content  \
0                       NaN           
1              1.727798e+09           
2              1.730477e+09           
3                       NaN           
4              1.730477e+09           

                                              editor  
0                                                NaN  
1                                                NaN  
2                                                NaN  
3  Copyright © 2020 南开大学 津教备0061号   津ICP备12003308号-1  
4                    

In [13]:
# 假设你已经加载了你的 data DataFrame
cutted = cut_html(data1)  # 执行分词操作，返回处理后的列表

# 将处理后的数据转换为 DataFrame
df_cutted = pd.DataFrame(cutted, columns=['url', 'title', 'description', 'date', 'content', 'editor'])

# 保存为 CSV 文件
df_cutted.to_csv('cutted_news_tju.csv', index=False, encoding='utf-8')

# 打印输出结果的一部分进行调试
print(df_cutted.head())

                                           url  \
0  https://news.tju.edu.cn/info/1005/73323.htm   
1  https://news.tju.edu.cn/info/1005/73306.htm   
2  https://news.tju.edu.cn/info/1005/73309.htm   
3  https://news.tju.edu.cn/info/1005/73308.htm   
4  https://news.tju.edu.cn/info/1005/73307.htm   

                                               title  \
0   健康 健康报 创新 存储 方案 破解 医疗 数据 存储 难题 天津 大学 天津大学 新闻 新闻网   
1      天津 教育 报 校企 共 探产教 协同 发展 新 路径 天津 大学 天津大学 新闻 新闻网   
2  中国 新闻 新闻网 新质 生产 生产力 与 人才 培养 人才培养 论坛 召开 校企 共 探产...   
3  央广网 新质 生产 生产力 与 人才 培养 人才培养 论坛 在 津 召开 天津 大学 天津大...   
4  中国 科学 学报 科学报 校企 共商 新质 生产 生产力 与 人才 培养 人才培养 天津 大...   

                                         description          date  \
0   健康 健康报 创新 存储 方案 破解 医疗 数据 存储 难题 天津 大学 天津大学 新闻 新闻网  1.730477e+09   
1      天津 教育 报 校企 共 探产教 协同 发展 新 路径 天津 大学 天津大学 新闻 新闻网  1.730477e+09   
2  中国 新闻 新闻网 新质 生产 生产力 与 人才 培养 人才培养 论坛 召开 校企 共 探产...  1.730477e+09   
3  央广网 新质 生产 生产力 与 人才 培养 人才培养 论坛 在 津 召开 天津 大学 天津大...  1.730477e+09   
4  中国 科学 学报 

In [15]:
import pandas as pd

# 读取源 CSV 文件，假设文件名为 source.csv
source_df = pd.read_csv('../spider/tju_allinfo.csv')

# 读取目标 CSV 文件，假设文件名为 target.csv
target_df = pd.read_csv('cutted_news_tju.csv')

# 检查源 CSV 是否包含 'doc_link' 列
if 'doc_link' in source_df.columns:
    # 将源文件中的 'doc_link' 列添加到目标文件的最后一列
    target_df['doc_link'] = source_df['doc_link']
else:
    print("源文件中没有 'doc_link' 列!")

# 保存更新后的目标 CSV 文件
target_df.to_csv('cutted_tju.csv', index=False)

# 打印前几行检查
print(target_df.head())


                                           url  \
0  https://news.tju.edu.cn/info/1005/73323.htm   
1  https://news.tju.edu.cn/info/1005/73306.htm   
2  https://news.tju.edu.cn/info/1005/73309.htm   
3  https://news.tju.edu.cn/info/1005/73308.htm   
4  https://news.tju.edu.cn/info/1005/73307.htm   

                                               title  \
0   健康 健康报 创新 存储 方案 破解 医疗 数据 存储 难题 天津 大学 天津大学 新闻 新闻网   
1      天津 教育 报 校企 共 探产教 协同 发展 新 路径 天津 大学 天津大学 新闻 新闻网   
2  中国 新闻 新闻网 新质 生产 生产力 与 人才 培养 人才培养 论坛 召开 校企 共 探产...   
3  央广网 新质 生产 生产力 与 人才 培养 人才培养 论坛 在 津 召开 天津 大学 天津大...   
4  中国 科学 学报 科学报 校企 共商 新质 生产 生产力 与 人才 培养 人才培养 天津 大...   

                                         description          date  \
0   健康 健康报 创新 存储 方案 破解 医疗 数据 存储 难题 天津 大学 天津大学 新闻 新闻网  1.730477e+09   
1      天津 教育 报 校企 共 探产教 协同 发展 新 路径 天津 大学 天津大学 新闻 新闻网  1.730477e+09   
2  中国 新闻 新闻网 新质 生产 生产力 与 人才 培养 人才培养 论坛 召开 校企 共 探产...  1.730477e+09   
3  央广网 新质 生产 生产力 与 人才 培养 人才培养 论坛 在 津 召开 天津 大学 天津大...  1.730477e+09   
4  中国 科学 学报 

In [1]:
import pandas as pd

# 读取第一个 CSV 文件
df1 = pd.read_csv('cutted_tju.csv')

# 读取第二个 CSV 文件
df2 = pd.read_csv('cutted_nku.csv')

# 按行合并（纵向拼接）
concatenated_df = pd.concat([df1, df2], ignore_index=True)

# 保存合并后的文件
concatenated_df.to_csv('total_cutted_news.csv', index=False)

# 打印合并后的前几行进行检查
print(concatenated_df.head())


                                           url  \
0  https://news.tju.edu.cn/info/1005/73323.htm   
1  https://news.tju.edu.cn/info/1005/73306.htm   
2  https://news.tju.edu.cn/info/1005/73309.htm   
3  https://news.tju.edu.cn/info/1005/73308.htm   
4  https://news.tju.edu.cn/info/1005/73307.htm   

                                               title  \
0   健康 健康报 创新 存储 方案 破解 医疗 数据 存储 难题 天津 大学 天津大学 新闻 新闻网   
1      天津 教育 报 校企 共 探产教 协同 发展 新 路径 天津 大学 天津大学 新闻 新闻网   
2  中国 新闻 新闻网 新质 生产 生产力 与 人才 培养 人才培养 论坛 召开 校企 共 探产...   
3  央广网 新质 生产 生产力 与 人才 培养 人才培养 论坛 在 津 召开 天津 大学 天津大...   
4  中国 科学 学报 科学报 校企 共商 新质 生产 生产力 与 人才 培养 人才培养 天津 大...   

                                         description          date  \
0   健康 健康报 创新 存储 方案 破解 医疗 数据 存储 难题 天津 大学 天津大学 新闻 新闻网  1.730477e+09   
1      天津 教育 报 校企 共 探产教 协同 发展 新 路径 天津 大学 天津大学 新闻 新闻网  1.730477e+09   
2  中国 新闻 新闻网 新质 生产 生产力 与 人才 培养 人才培养 论坛 召开 校企 共 探产...  1.730477e+09   
3  央广网 新质 生产 生产力 与 人才 培养 人才培养 论坛 在 津 召开 天津 大学 天津大...  1.730477e+09   
4  中国 科学 学报 