# 假消息鉴定平台分析

## python pip类库环境遇到的问题

macOS selenium 就 urllib3 v2.0 版本问题：https://github.com/urllib3/urllib3/issues/3020  <br>
stackoverflow：[Selenium - Python - AttributeError: 'WebDriver' object has no attribute 'find_element_by_name'](https://stackoverflow.com/questions/72773206/selenium-python-attributeerror-webdriver-object-has-no-attribute-find-el ) <br>
selenium API：https://www.selenium.dev/zh-cn/documentation/webdriver/getting_started/first_script/


In [1]:

{
    "社会":[
        "分配",
        "毒打",
        "上岸",
        "现象",
        "核酸",
        "抽样",
        "自动化",
        "分类"
        
    ],
    "健康":[
        "病毒",
        "癌症",
        "艾滋",
        "艾滋病",
        "糖尿病"

    ]
}

SyntaxError: invalid syntax. Perhaps you forgot a comma? (3373991575.py, line 2)

## python反爬测试遇到的问题

1. 网页加载时通常不能正常获取到值。
1. 能获取到部分元素属性，却获取不到文本

解决办法：

1. 做延迟处理，在等待中加载数据，如： `WebDriverWait(e, 10).until( EC.visibility_of_element_located((By.CSS_SELECTOR, 'a')))`
1. a标签获取不到值，那么就从其上级元素获取文本

In [None]:
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver.support.ui import WebDriverWait
from selenium.webdriver.support import expected_conditions as EC
import time

# 创建 WebDriver 对象，这里使用 Chrome 浏览器
driver = webdriver.Chrome()

# 访问网页
driver.get('https://www.piyao.org.cn/bq/index.htm')

# 在等待 "more" 元素出现之前，先将页面滚动到底部，以确保 "more" 元素已经加载
driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

# 等待 "more" 元素出现，并进行点击
element = WebDriverWait(driver, 10).until(
    # 个预期条件对象，用于检查页面是否出现了一个可见的元素。
    EC.visibility_of_element_located((By.CSS_SELECTOR, 'div.more'))
)
for i in range(2):
    time.sleep(3)
    element.click()

# 确保新数据已经加载完成
time.sleep(3)

# 获取 ul 元素
element = driver.find_element(By.CSS_SELECTOR, 'ul.list')
# 获取 li 元素列表
elements = element.find_elements(By.TAG_NAME, 'li')

# 遍历 li 元素列表，获取需要的数据
for e in elements:
    # 获取标题和链接（经测试发现只能取到链接）
    href_element = WebDriverWait(e, 10).until(
        EC.visibility_of_element_located((By.CSS_SELECTOR, 'a'))
    )
    # 通过a元素的上级元素h2，直接取到了文本
    h2_element = WebDriverWait(e, 10).until(
        EC.visibility_of_element_located((By.CSS_SELECTOR, 'h2'))
    )
    # 通过a元素的上级元素h2，直接取到了文本
    h3_element = WebDriverWait(e, 10).until(
        EC.visibility_of_element_located((By.CSS_SELECTOR, 'h3'))
    )
    href = href_element.get_attribute('href')
    title = h2_element.text
    # 获取源网站名称，仅保留冒号后面的内容
    source = h3_element.text.split('：', 1)[-1].strip()
    # 输出数据
    print(title,'->', source, '->', href)

# 关闭浏览器
driver.quit()


Excel存表样式

| 标题 | 来源 | 时间 | 自动化分类 | 情绪值 | 是否存在特定词性 | 特定词性 | 链接 |
| ---- | ---- | ---- | ---------- | ------ | ---------------- | -------- | ---- |


`get_element_data(element) -> dict` 是 Python 函数声明的一种语法。其中，“get_element_data”是函数的名称，“element”是函数的参数，而“-> dict”是函数返回值的类型注解，表示函数会返回一个字典类型的数据。这种类型注解的语法是在 Python 3.5 中引入的，用于标注参数和返回值的数据类型，可以提高代码阅读性和可维护性，并帮助 IDE 对代码进行类型检查和智能提示。

具体来说，类型注解可以使用 Python 内置类型、自定义类型或特定的泛型类型。例如：

* int 表示整数类型。
* str 表示字符串类型。
* List[str] 表示字符串列表类型。
* Tuple[int, str] 表示由一个整数和一个字符串组成的元组类型。
* Any 表示任意类型。
* Union[int, float] 表示可以是整数或浮点数类型。

需要注意的是，类型注解仅仅是一种提示，Python 解释器不会对其进行强制执行，因此，在使用注解时应该遵循一定的规范和约定。

In [None]:
# 确定保存文本格式用的。
def get_save_path_xlsx_file():
    """
    获取格式化后的当前时间
    :return: 格式化后的当前时间字符串
    """
    # 进行跨平台处理保存路径
    return os.path.join(os.path.join(os.path.expanduser("~"), "Desktop"), 
                                       "piyao_{}.xlsx".format(datetime.now().strftime('%Y-%m-%d')))

def get_element_data(element) -> dict:
    # 获取标题和链接（经测试发现只能取到链接）
    href_element = WebDriverWait(element, 10).until(
        EC.visibility_of_element_located((By.CSS_SELECTOR, 'a'))
    )
    # 通过a元素的上级元素h2，直接取到了文本
    h2_element = WebDriverWait(element, 10).until(
        EC.visibility_of_element_located((By.CSS_SELECTOR, 'h2'))
    )
    # 通过a元素的上级元素h2，直接取到了文本
    h3_element = WebDriverWait(element, 10).until(
        EC.visibility_of_element_located((By.CSS_SELECTOR, 'h3'))
    )

    href = href_element.get_attribute('href')
    title = h2_element.text
    # 获取源网站名称，仅保留冒号后面的内容
    source = h3_element.text.split('：', 1)[-1].strip()

    # 获取时间标识
    time_str = href.split('/')[-3]
    # 将时间标识转换为 datetime 对象
    datetime_obj = datetime.strptime(time_str, '%Y%m%d')
    # 将 datetime 对象格式化为指定字符串
    time_formatted = datetime_obj.strftime('%Y/%m/%d')

    return {'title': title, 'source': source,'time': time_formatted, 'href': href}


def selenium_url_parse(url):
    # 创建 WebDriver 对象，这里使用 Chrome 浏览器
    driver = webdriver.Chrome()

    # 访问网页
    driver.get(url)

    # 在等待 "more" 元素出现之前，先将页面滚动到底部，以确保 "more" 元素已经加载
    driver.execute_script("window.scrollTo(0, document.body.scrollHeight);")

    # 等待 "more" 元素出现，并进行点击
    more = WebDriverWait(driver, 10).until(
        # 个预期条件对象，用于检查页面是否出现了一个可见的元素。
        EC.visibility_of_element_located((By.CSS_SELECTOR, 'div.more')))

    # 每次加载数据为20个，拿x次加载的数据内容
    x = 3
    for i in range(x):
        time.sleep(3);more.click()

    # 获取 ul中的li 元素列表
    elements = driver.find_elements(By.CSS_SELECTOR, 'ul.list>li')

    # 遍历每个元素，提取所需数据，并存储到一个列表中
    data_list = []
    for e in elements:
        data = get_element_data(e)
        data_list.append(data)

    # 关闭浏览器
    driver.quit()

    return data_list

def baseinfo_write_to_excel(rumor_contents) -> list:
    # 创建一个Workbook对象
    workbook = Workbook()
    # 获取默认sheet
    sheet = workbook.active

    # 写入表头
    sheet['A1'] = '谣言标题'
    sheet['B1'] = '发布来源'
    sheet['C1'] = '辟谣时间'
    sheet['D1'] = '链接'



    # 写入数据
    for i, data in enumerate(data_list):
        sheet.cell(row=i+2, column=1, value=data['title'])
        sheet.cell(row=i+2, column=2, value=data['source'])
        sheet.cell(row=i+2, column=3, value=data['time'])
        sheet.cell(row=i+2, column=4, value=data['href'])

    # 保存Excel文件
    workbook.save(get_save_path_xlsx_file())


url = ''
data_list = selenium_url_parse(url)
baseinfo_write_to_excel(data_list)