In [13]:
import requests
import urllib.parse as up
from bs4 import BeautifulSoup
from selenium import webdriver
import datetime
import os
import pandas as pd

In [14]:
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:45.0) Gecko/20100101 Firefox/45.0'}  # 指定UA防止反爬
homepage = "https://tech.sina.com.cn/roll/"  # 滚动新闻

In [15]:
def getOneArticle(url):
    """
    获取一篇新闻的纯文本正文。
    Params:
        url: 新闻网址。
    Returns:
        由新闻标题、正文字符串组成的二元组。
    """
    re = requests.get(url)  # 下载页面
    re.raise_for_status()   # 若请求失败则抛出异常
    re.encoding = re.apparent_encoding  # 检测编码
    soup = BeautifulSoup(re.text)       # 解析HTML
    
    for s in soup('script'):
        s.extract()  # 丢弃HTML中的JS内容

    title = soup.select(".main-title")
    if len(title) == 0:
        title = soup.select("#artibodyTitle")
    title = title[0].text
    content = soup.find("div", id="artibody").text.strip()
    return title, content

In [16]:
def getPageLinks():
    """
    获取滚动新闻一个页面的所有新闻链接。
    Params:
        无。
    Returns:
        新闻链接的列表。
    """
    global browser
    results = browser.find_elements_by_xpath('//div[@class="d_list_txt"]/ul/li/span/a')
    links = []
    for result in results:
        links.append(result.get_attribute('href'))
    return links

In [17]:
counter = 0
metadata = []  # (id, 标题)元组的列表
visited = set()

browser = webdriver.Chrome()
browser.implicitly_wait(10)
browser.get(homepage)  # 滚动新闻首页

while True:
    links = getPageLinks()  # 获取滚动新闻一个页面的所有新闻链接
    for link in links:
        if link not in visited:  # 避免重复爬取
            visited.add(link)

            title, content = getOneArticle(link)

            if len(content) >= 1000:  # 忽略1000字以下的文章
                counter += 1
                metadata.append((counter, title))  # 记录id与标题的对应关系
                with open("data/" + str(counter) + ".txt", "w", encoding='utf-8') as f:
                    f.write(content)
                print(counter, title, len(content), link)

    browser.execute_script("newsList.page.next();return false;")  # 翻页
    browser.implicitly_wait(10)  # 等待页面加载完毕
    if counter >= 1000:
        break

browser.close()
print("[+] Done.")

1 由盛转衰的YY难“救”，国外业务能撑起欢聚时代吗？ 6050 http://finance.sina.com.cn/tech/csj/2020-10-29/doc-iiznctkc8411745.shtml
2 中兴通讯：前三季度研发投入近108亿元 同比增长15.3% 1550 https://finance.sina.com.cn/tech/2020-10-29/doc-iiznctkc8405509.shtml
3 重磅！中央明确：把科技自立自强作为战略支撑 6749 https://finance.sina.com.cn/tech/2020-10-29/doc-iiznezxr8816784.shtml
4 苹果收复失地，从抵制拼多多淘宝们开始 2288 https://finance.sina.com.cn/tech/2020-10-29/doc-iiznctkc8399805.shtml
5 2020中国互联网百强名单：阿里、腾讯、美团分列前三(附全榜单) 1261 https://finance.sina.com.cn/tech/2020-10-29/doc-iiznezxr8813304.shtml
6 外界心中的谋局者、思辨者——马云 4083 https://finance.sina.com.cn/tech/2020-10-29/doc-iiznctkc8392982.shtml
7 2.5亿人的空虚，又一片韭菜地？ 4979 https://finance.sina.com.cn/tech/2020-10-29/doc-iiznctkc8391258.shtml
8 YY之于百度，合适的才是完美的 4253 http://finance.sina.com.cn/tech/csj/2020-10-29/doc-iiznezxr8797552.shtml
9 美国社交巨头CEO出席听证会：民主和共和两党发出混杂信号 1198 https://finance.sina.com.cn/tech/2020-10-29/doc-iiznctkc8384246.shtml
10 深度复盘中国半导体产业，错失黄金三十年 8592 http://finance.sina.com.cn/tech/csj/2020-10-29/doc-iiznctkc83740

81 iPhone 12难逃“真香”定律 报道称将加单200万部 2712 https://finance.sina.com.cn/tech/2020-10-29/doc-iiznctkc8258692.shtml
82 AMD收购赛灵思 半导体行业终极大乱斗来了？ 3710 https://finance.sina.com.cn/tech/2020-10-29/doc-iiznezxr8674896.shtml
83 深圳的数字货币“红包”试验，谁最受益？ 3288 https://finance.sina.com.cn/tech/2020-10-29/doc-iiznctkc8260195.shtml
84 “雪花飘飘、北风萧萧”是如何洗脑海外网友的？ 2043 https://finance.sina.com.cn/tech/2020-10-29/doc-iiznezxr8601801.shtml
85 双11买家心声：今年不仅考体力脑力 还要考我记忆力？|观潮 3600 https://finance.sina.com.cn/tech/2020-10-29/doc-iiznezxr8671170.shtml
86 蚂蚁的野心和风险 8014 http://finance.sina.com.cn/tech/csj/2020-10-29/doc-iiznctkc8252195.shtml
87 彩电行业掀起高端突围战 用户聚焦社交娱乐与极致显示 2938 https://finance.sina.com.cn/tech/2020-10-29/doc-iiznezxr8678659.shtml
88 iPhone12跌破发行价！经销商：办5G套餐能降1300多元 1951 https://finance.sina.com.cn/tech/2020-10-29/doc-iiznctkc8251515.shtml
89 AMD难抵两大诱惑，350亿美元吞下赛灵思 3034 https://finance.sina.com.cn/tech/2020-10-28/doc-iiznezxr8595632.shtml
90 为老年人提供更多数字服务的便利（金台锐评） 1164 https://finance.sina.com.cn/tech/2020-10-29/doc-ii

161 恒大腾讯联手，72亿买下一家影视公司 1992 https://finance.sina.com.cn/tech/2020-10-28/doc-iiznctkc8151933.shtml
162 又一个巨无霸诞生：51岁，她掀起半导体史上最强战役 3305 https://finance.sina.com.cn/tech/2020-10-28/doc-iiznezxr8568807.shtml
163 灰产租售“靠谱”直播号 商家千元备战双十一 4323 http://finance.sina.com.cn/tech/csj/2020-10-28/doc-iiznctkc8148700.shtml
164 只有使用权没有所有权 公众号还能愉快地买卖吗？ 3266 http://finance.sina.com.cn/tech/csj/2020-10-28/doc-iiznezxr8564636.shtml
165 欧可林发布多款口腔护理新品 便携式冲牙器售价799元 1713 https://finance.sina.com.cn/tech/2020-10-28/doc-iiznezxr8564565.shtml
166 扎克伯格周三出席听证会 对调整内容监管法态度比杰克多西开放 5615 https://finance.sina.com.cn/tech/2020-10-28/doc-iiznctkc8146040.shtml
167 汽车之家股价腾空：车市复苏or昙花一现？ 4900 http://finance.sina.com.cn/tech/csj/2020-10-28/doc-iiznezxr8561887.shtml
168 苹果秘密加紧开发自有搜索工具，已有重大进步 2435 https://finance.sina.com.cn/tech/2020-10-28/doc-iiznezxr8559843.shtml
169 推特CEO杰克·多西： 全面内容监管将加重垄断 4405 https://finance.sina.com.cn/tech/2020-10-28/doc-iiznezxr8557319.shtml
170 银保监会提醒：直播营销行为存在销售误导风险 1946 https://finance.sina.com.cn/tech/2

240 AMD350亿美元拿下赛灵思 与英特尔英伟达三分天下 3083 https://finance.sina.com.cn/tech/2020-10-28/doc-iiznezxr8457159.shtml
241 涨价接力赛：冰箱冷柜涨后洗衣机涨 空调也要涨？ 1533 https://finance.sina.com.cn/tech/2020-10-28/doc-iiznctkc8039296.shtml
242 做芯片不是捏泥丸，请做好长期“打工”的准备 3100 http://finance.sina.com.cn/tech/csj/2020-10-28/doc-iiznezxr8457088.shtml
243 迄今最大流量！三款小米净水器齐发布 一文看懂怎么选 2612 https://finance.sina.com.cn/tech/2020-10-28/doc-iiznezxr8368859.shtml
244 “蚂蚁”上市成“大象” 或刷新A股总市值排行 2369 https://finance.sina.com.cn/tech/2020-10-28/doc-iiznctkc8034769.shtml
245 iPhone 12从加价到破发仅一周 华强北最低5800元拿货 1009 https://finance.sina.com.cn/tech/2020-10-28/doc-iiznctkc8035353.shtml
246 罗永浩做直播的公司要卖了？ 买主竟是家做电缆的上市公司 3167 https://finance.sina.com.cn/tech/2020-10-28/doc-iiznezxr8450589.shtml
247 失速的良品铺子 如何用低研发费率维持高端路线？ 1890 https://finance.sina.com.cn/tech/2020-10-28/doc-iiznezxr8450399.shtml
248 “币圈大佬”徐明星被调查 OKEx炒币还安全么 3172 https://finance.sina.com.cn/tech/2020-10-28/doc-iiznctkc8032478.shtml
249 AMD确认350亿美元收购赛灵思:2020年第二大规模半导体收购案落定 1370 https://fin

320 蚂蚁刺激大象：腾讯大涨创新高 机构要对标重新估值？ 2477 https://finance.sina.com.cn/tech/2020-10-27/doc-iiznctkc7949172.shtml
321 亚马逊贝索斯：哪有不遗憾的人生，只有更恰当的选择 6414 http://finance.sina.com.cn/tech/csj/2020-10-27/doc-iiznctkc7930048.shtml
322 彻底分手！蚂蚁退出趣店旗下趣校园平台 趣店股价大跌8.5% 1130 https://finance.sina.com.cn/tech/2020-10-27/doc-iiznctkc7928014.shtml
323 为什么今年冬天新冠肺炎疫情可能会恶化？ 1887 https://finance.sina.com.cn/tech/2020-10-27/doc-iiznezxr8347493.shtml
324 超过特斯拉 上海新添一座投资170亿元超级工厂 1665 https://finance.sina.com.cn/tech/2020-10-27/doc-iiznezxr8343033.shtml
325 日本新研究：多喝绿茶和咖啡，可显著降低糖尿病患者死亡风险 1548 https://finance.sina.com.cn/tech/2020-10-27/doc-iiznctkc7926376.shtml
326 被围剿的“苹果税”，还能撑多久？ 4909 http://finance.sina.com.cn/tech/csj/2020-10-27/doc-iiznezxr8339298.shtml
327 新研究揭示：运动不仅能预防疾病，还能抗癌！ 1449 https://finance.sina.com.cn/tech/2020-10-27/doc-iiznezxr8339429.shtml
328 马云VS王健林：2020房地产仍占大半江山 互联网输了吗？ 3835 http://finance.sina.com.cn/tech/csj/2020-10-27/doc-iiznctkc7919145.shtml
329 多家信托公司发声明：部分以“信托公司”命名的App是盗版 1866 https://finance.sin

401 438万人在线看网红小香猪 看萌宠短视频如何催生新经济 1833 https://finance.sina.com.cn/tech/2020-10-27/doc-iiznezxr8261737.shtml
402 线下文娱演出复苏进行时：“演员+老师+直播”多元化开拓 5370 https://finance.sina.com.cn/tech/2020-10-27/doc-iiznctkc7822850.shtml
403 百度YY在一起？ 一个不停买一个连续卖 2114 https://finance.sina.com.cn/tech/2020-10-27/doc-iiznctkc7822814.shtml
404 “双11”前夕：快递网点承压企业疯狂圈地 2401 https://finance.sina.com.cn/tech/2020-10-27/doc-iiznctkc7822791.shtml
405 集成灶真的能取代传统烟机灶具吗? 1707 https://finance.sina.com.cn/tech/2020-10-26/doc-iiznezxr8102787.shtml
406 上海的“新特产” 7000辆特斯拉驶向欧洲 2717 https://finance.sina.com.cn/tech/2020-10-27/doc-iiznezxr8240500.shtml
407 “双十一”习惯了上网买买买？这份文件要让线上线下消费有机融合 2693 https://finance.sina.com.cn/tech/2020-10-27/doc-iiznctkc7822640.shtml
408 蚂蚁集团发行价定了 每股68.8元贵不贵 2512 https://finance.sina.com.cn/tech/2020-10-27/doc-iiznezxr8240414.shtml
409 掘金电竞 腾讯、快手押注英雄体育VSPN 2221 https://finance.sina.com.cn/tech/2020-10-27/doc-iiznctkc7822525.shtml
410 扶贫新模式：短视频、直播＋扶贫 2245 https://finance.sina.com.cn/tech/2020-10-27/doc-iiznctk

481 为什么有些语言难学？科学家发现关键基因 1617 https://finance.sina.com.cn/tech/2020-10-26/doc-iiznctkc7673015.shtml
482 优胜教育“爆雷”背后：校区资质有缺乏 部分教师简历涉嫌造假 2509 https://finance.sina.com.cn/tech/2020-10-26/doc-iiznezxr8093425.shtml
483 太空中厕所爆炸是一种怎样的体验？ 3550 https://finance.sina.com.cn/tech/2020-10-26/doc-iiznezxr8090201.shtml
484 变味的在线教育：每月花5亿元打广告，产品被指不重视少儿启蒙 4822 https://finance.sina.com.cn/tech/2020-10-26/doc-iiznezxr8116071.shtml
485 最近的“打工人”是什么梗？ 2841 http://finance.sina.com.cn/tech/csj/2020-10-26/doc-iiznctkc7671412.shtml
486 数字时代，社会等一等，老人赶一赶？ 5221 https://finance.sina.com.cn/tech/2020-10-26/doc-iiznctkc7699078.shtml
487 多一点数字留白，别让银发族“无码可依” 3251 https://finance.sina.com.cn/tech/2020-10-26/doc-iiznezxr8116391.shtml
488 亚马逊工人谋求变革 ，组建工会屡遭压制 3851 https://finance.sina.com.cn/tech/2020-10-26/doc-iiznezxr8087443.shtml
489 新研究：扔掉的垃圾会回到你的肚子里，并且影响营养吸收 3287 https://finance.sina.com.cn/tech/2020-10-26/doc-iiznezxr8087041.shtml
490 苹果将在A15芯片中使用台积电的5纳米技术 1860 https://finance.sina.com.cn/tech/2020-10-26/doc-iiznctkc766

563 够硬！这虫子汽车都压不死 2231 https://finance.sina.com.cn/tech/2020-10-25/doc-iiznctkc7522405.shtml
564 乳腺癌发病率上升，哪些因素起了推动作用？ 2158 https://finance.sina.com.cn/tech/2020-10-25/doc-iiznctkc7521626.shtml
565 细数三星家族豪门恩怨: 一代奠基业, 二代争权势 2937 https://finance.sina.com.cn/tech/2020-10-25/doc-iiznezxr7958538.shtml
566 14岁中学生找到有望治疗新冠的药物，获得北美科研竞赛大奖 3434 https://finance.sina.com.cn/tech/2020-10-25/doc-iiznezxr7937961.shtml
567 内卷化，更像是成熟社会的“富贵病” 1827 https://finance.sina.com.cn/tech/2020-10-24/doc-iiznezxr7874256.shtml
568 科学家发现新石器晚期青藏高原东北部存在热带大型哺乳动物 1933 https://finance.sina.com.cn/tech/2020-10-25/doc-iiznctkc7516267.shtml
569 亿咖通科技获百度领投13亿元A轮融资 推动自动驾驶汽车芯片等研发 2080 https://finance.sina.com.cn/tech/2020-10-26/doc-iiznctkc7658246.shtml
570 韩媒：韩国三星会长李健熙去世，享年78岁 2402 https://finance.sina.com.cn/tech/2020-10-25/doc-iiznctkc7504892.shtml
571 被困在系统里的，还有点外卖的人|诉说 2412 https://finance.sina.com.cn/tech/2020-10-25/doc-iiznezxr7921043.shtml
572 北京市老龄办、老龄协会发出倡议：帮助老年朋友迈过“数字鸿沟” 1065 https://finance.sina.com.cn/tech/2020-10-2

643 高价苹果手机未阻挡中国消费者 有望抢占华为高端市场份额 1431 https://finance.sina.com.cn/tech/2020-10-23/doc-iiznctkc7258482.shtml
644 iPhone12首发日 上海顾客如何评价到手的“环保蓝” 1429 https://finance.sina.com.cn/tech/2020-10-23/doc-iiznctkc7255958.shtml
645 双11，愁！ 2528 https://finance.sina.com.cn/tech/2020-10-23/doc-iiznezxr7665479.shtml
646 工信部：已累计开通5G基站69万个，连接用户数超过1.6亿 1887 https://finance.sina.com.cn/tech/2020-10-23/doc-iiznezxr7663660.shtml
647 工信部：4G用户超过12亿 千兆光纤覆盖家庭超过8000万户 1887 https://finance.sina.com.cn/tech/2020-10-23/doc-iiznctkc7245800.shtml
648 特斯拉解雇柏林工厂负责人 并称"不会延误工厂计划好的申请流程" 1037 https://finance.sina.com.cn/tech/2020-10-23/doc-iiznctkc7243181.shtml
649 CNCC中国计算机大会科学与影视融合发展论坛在京举行 1838 https://finance.sina.com.cn/tech/2020-10-23/doc-iiznezxr7658476.shtml
650 解读个人信息保护法草案：哪些企业与商业行为将迎变局？ 5172 https://finance.sina.com.cn/tech/2020-10-23/doc-iiznctkc7244842.shtml
651 烂尾芯片厂，“师从”房产商 3418 http://finance.sina.com.cn/tech/csj/2020-10-23/doc-iiznezxr7657144.shtml
652 老人不会用智能手机，就活该被淘汰吗？ 3259 http://finance.sina.com.cn/tech/c

723 和iPhone 12正面硬刚？华为Mate 40系列官宣 2435 https://finance.sina.com.cn/tech/2020-10-23/doc-iiznctkc7141367.shtml
724 搭上中国快车，特斯拉交出史上最佳财报，马斯克一夜财富增39亿 3104 https://finance.sina.com.cn/tech/2020-10-23/doc-iiznezxr7580169.shtml
725 难以突破的中高端电视 OPPO“志”在何处 3040 https://finance.sina.com.cn/tech/2020-10-23/doc-iiznctkc7140233.shtml
726 LG电子召回计划会影响OLED电视市场普及进程么？ 3750 https://finance.sina.com.cn/tech/2020-10-23/doc-iiznezxr7361426.shtml
727 蚂蚁集团科创板IPO注册生效 2万亿巨无霸上市倒计时 1792 https://finance.sina.com.cn/tech/2020-10-23/doc-iiznctkc7136744.shtml
728 5G不是4G+1G而是“蓝海” 工信部:网络成本会越来越低 1481 https://finance.sina.com.cn/tech/2020-10-23/doc-iiznezxr7554224.shtml
729 钱烧光了路还没找到 二手车行业进退两难 2856 https://finance.sina.com.cn/tech/2020-10-23/doc-iiznezxr7554151.shtml
730 中国手机企业在乡镇，熟人市场成功的秘密 3592 https://finance.sina.com.cn/tech/2020-10-23/doc-iiznezxr7554054.shtml
731 谁能填补华为留下的手机市场空间？ 1550 https://finance.sina.com.cn/tech/2020-10-23/doc-iiznezxr7554007.shtml
732 全球数字经济超30万亿美元 德、英三产数字化渗透率最高 2025 https://finance.sina.com.cn/te

802 蚂蚁正式启动招股，首次揭秘影响其命运的4场会议 3469 http://finance.sina.com.cn/tech/csj/2020-10-22/doc-iiznctkc7023732.shtml
803 美得“要命”的医美：麻醉事故频发，黑机构每年致残致死约十万 3301 https://finance.sina.com.cn/tech/2020-10-22/doc-iiznezxr7363975.shtml
804 乐视格力已折戟，富士康恒大在烧钱，跨界造车有多难？ 6181 http://finance.sina.com.cn/tech/csj/2020-10-22/doc-iiznctkc7020329.shtml
805 做局者沈南鹏 11137 http://finance.sina.com.cn/tech/csj/2020-10-22/doc-iiznctkc7020302.shtml
806 特斯拉连续五个季度盈利 上海Model 3年产能增至25万辆 1762 https://finance.sina.com.cn/tech/2020-10-22/doc-iiznezxr7437959.shtml
807 7亿人拿出手机扫一扫，“国民应用”支付宝养成记 4567 https://finance.sina.com.cn/tech/2020-10-22/doc-iiznctkc7072446.shtml
808 连续五季度盈利，产能将升至百万辆，特斯拉急“上岸” 3030 https://finance.sina.com.cn/tech/2020-10-22/doc-iiznezxr7443412.shtml
809 工信部：5G网络成本会越来越低 1480 https://finance.sina.com.cn/tech/2020-10-22/doc-iiznezxr7437627.shtml
810 张一鸣的投资帝国：与自身业务整合 寻找新增长引擎 5234 https://finance.sina.com.cn/tech/2020-10-22/doc-iiznctkc7016278.shtml
811 三季度净利润暴增131% 特斯拉将迎来首个盈利财年？ 2130 https://finance.sina.com.cn/tech/2

881 人民日报：打断跨境网络赌博的黑色链条 3438 https://finance.sina.com.cn/tech/2020-10-22/doc-iiznezxr7338653.shtml
882 蚂蚁集团科创板IPO获批 A股首迎万亿市值科技公司 1259 https://finance.sina.com.cn/tech/2020-10-22/doc-iiznezxr7335512.shtml
883 “外卖运营师”面世 新角色能否解决老问题 2375 https://finance.sina.com.cn/tech/2020-10-22/doc-iiznezxr7330587.shtml
884 二次上市风口继续 百度赴港在路上？ 1599 https://finance.sina.com.cn/tech/2020-10-22/doc-iiznezxr7330584.shtml
885 美司法部正式出手 谷歌会成下一个微软吗 2811 https://finance.sina.com.cn/tech/2020-10-22/doc-iiznctkc6912467.shtml
886 新增订阅大幅放缓 奈飞“飞不动了” 1154 https://finance.sina.com.cn/tech/2020-10-22/doc-iiznezxr7330568.shtml
887 用“二次号”被欠贷：运营商别让用户为衍生问题买单 1272 https://finance.sina.com.cn/tech/2020-10-22/doc-iiznezxr7329905.shtml
888 对话薛其坤院士：量子技术发展需攻关核心元器件技术 2969 https://finance.sina.com.cn/tech/2020-10-22/doc-iiznctkc6911760.shtml
889 “芯片龙头”紫光国微奔跌停 近80亿市值蒸发“预期差”惹祸？ 2134 https://finance.sina.com.cn/tech/2020-10-22/doc-iiznctkc6910847.shtml
890 美团七年扶贫样本：马背上的少年成今日骑手 2105 https://finance.sina.com.cn/tech/2020-10-22/doc-iiznezxr

960 科学好故事｜丢失了基因，生命反而进化得更加复杂 4600 https://finance.sina.com.cn/tech/2020-10-21/doc-iiznezxr7174437.shtml
961 免疫系统会影响你对配偶的选择吗？ 1858 https://finance.sina.com.cn/tech/2020-10-21/doc-iiznctkc6754177.shtml
962 新的器官？荷兰研究者在鼻咽后部发现此前未知的唾液腺 2228 https://finance.sina.com.cn/tech/2020-10-21/doc-iiznctkc6753198.shtml
963 朋友圈骂闺蜜被判赔1000元，法官：朋友圈不是私人空间 1797 https://finance.sina.com.cn/tech/2020-10-21/doc-iiznezxr7250043.shtml
964 福岛逾100万吨核废水将进入太平洋？专家：这样做符合国际惯例 3375 https://finance.sina.com.cn/tech/2020-10-21/doc-iiznctkc6753245.shtml
965 移动互联网IPO大逃亡 5405 http://finance.sina.com.cn/tech/csj/2020-10-21/doc-iiznezxr7169006.shtml
966 30年实现碳中和？专家：推动能源结构向深度“脱碳”转型 3126 https://finance.sina.com.cn/tech/2020-10-21/doc-iiznctkc6751136.shtml
967 用“二次号”莫名被欠贷：别让用户为衍生问题买单 1480 https://finance.sina.com.cn/tech/2020-10-21/doc-iiznctkc6751427.shtml
968 将贵金属“吃干榨尽”！ 香山科学会议：尽早布局单原子催化 1926 https://finance.sina.com.cn/tech/2020-10-21/doc-iiznezxr7168354.shtml
969 原来它一直在“装嫩”｜“心电图”揭秘富锂巨星真实年龄 2051 https://finance.sina.com.cn/tec

In [19]:
# 把新闻id及标题的对应关系写入csv文件（这一步是可选的，后续工作并未用到该信息）
df = pd.DataFrame(metadata, columns=["id", "title"])
df.to_csv("metadata.csv", index=False, encoding="utf-8")