In [1]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

def crawl_qinhuangdao_weather():
    # 目标网页URL
    url = "https://mirror-earth.com/wea_history/130300/2025-10"
    
    try:
        # 发送请求获取网页内容（添加请求头模拟浏览器访问）
        headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
        }
        response = requests.get(url, headers=headers, timeout=10)
        response.raise_for_status()  # 若状态码非200，抛出异常
        response.encoding = response.apparent_encoding  # 自动识别编码
        
        # 解析HTML
        soup = BeautifulSoup(response.text, "html.parser")
        
        # 找到天气数据表格（网页中唯一的table标签）
        table = soup.find("table")
        if not table:
            print("未找到天气数据表格")
            return
        
        # 提取表头（th标签内容）
        headers = [th.get_text(strip=True) for th in table.find_all("th")]
        print("表头：", headers)
        
        # 提取表格数据（tr标签内容，跳过表头行）
        rows = []
        for tr in table.find_all("tr")[1:]:  # [1:] 跳过表头行
            row = [td.get_text(strip=True) for td in tr.find_all("td")]
            if row:  # 过滤空行
                rows.append(row)
        
        # 转换为DataFrame（便于后续处理和保存）
        df = pd.DataFrame(rows, columns=headers)
        
        # 数据清洗（可选：去除多余字符、转换数据类型）
        df["最高温"] = df["最高温"].str.replace("℃", "").astype(float)
        df["最低温"] = df["最低温"].str.replace("℃", "").astype(float)
        df["日照时长"] = df["日照时长"].str.replace("小时", "").astype(float)
        
        # 保存数据（CSV格式，可直接用Excel打开）
        df.to_csv("秦皇岛2025年10月天气数据.csv", index=False, encoding="utf-8-sig")
        print(f"数据爬取成功！共获取{len(df)}条记录，已保存为CSV文件")
        
        # 打印前5条数据预览
        print("\n数据预览：")
        print(df.head())
        
        return df
    
    except requests.exceptions.RequestException as e:
        print(f"爬取失败：{e}")
        return None

# 执行爬虫
if __name__ == "__main__":
    weather_data = crawl_qinhuangdao_weather()

表头： ['日期', '最高温', '最低温', '天气', '风力风向', '日照时长']
数据爬取成功！共获取31条记录，已保存为CSV文件

数据预览：
              日期   最高温   最低温  天气   风力风向  日照时长
0  2025-10-01 周三  27.6  17.1   晴   西风2级   9.8
1  2025-10-02 周四  25.8  19.5   阴  西南风3级   7.2
2  2025-10-03 周五  23.0  17.2   晴   东风2级   3.9
3  2025-10-04 周六  24.4  17.1  多云   西风3级   7.3
4  2025-10-05 周日  19.8  16.6   晴  东北风4级   4.1


In [3]:
import requests
from bs4 import BeautifulSoup
import pandas as pd

def crawl_qinhuangdao_weather():
    # 目标网页URL
    url = "https://mirror-earth.com/wea_history/371600/2025-10"
    
    try:
        # 发送请求获取网页内容（添加请求头模拟浏览器访问）
        headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/120.0.0.0 Safari/537.36"
        }
        response = requests.get(url, headers=headers, timeout=10)
        response.raise_for_status()  # 若状态码非200，抛出异常
        response.encoding = response.apparent_encoding  # 自动识别编码
        
        # 解析HTML
        soup = BeautifulSoup(response.text, "html.parser")
        
        # 找到天气数据表格（网页中唯一的table标签）
        table = soup.find("table")
        if not table:
            print("未找到天气数据表格")
            return
        
        # 提取表头（th标签内容）
        headers = [th.get_text(strip=True) for th in table.find_all("th")]
        print("表头：", headers)
        
        # 提取表格数据（tr标签内容，跳过表头行）
        rows = []
        for tr in table.find_all("tr")[1:]:  # [1:] 跳过表头行
            row = [td.get_text(strip=True) for td in tr.find_all("td")]
            if row:  # 过滤空行
                rows.append(row)
        
        # 转换为DataFrame（便于后续处理和保存）
        df = pd.DataFrame(rows, columns=headers)
        
        # 数据清洗（可选：去除多余字符、转换数据类型）
        df["最高温"] = df["最高温"].str.replace("℃", "").astype(float)
        df["最低温"] = df["最低温"].str.replace("℃", "").astype(float)
        df["日照时长"] = df["日照时长"].str.replace("小时", "").astype(float)
        
        # 保存数据（CSV格式，可直接用Excel打开）
        df.to_csv("滨州2025年10月天气数据.csv", index=False, encoding="utf-8-sig")
        print(f"数据爬取成功！共获取{len(df)}条记录，已保存为CSV文件")
        
        # 打印前5条数据预览
        print("\n数据预览：")
        print(df.head())
        
        return df
    
    except requests.exceptions.RequestException as e:
        print(f"爬取失败：{e}")
        return None

# 执行爬虫
if __name__ == "__main__":
    weather_data = crawl_qinhuangdao_weather()

表头： ['日期', '最高温', '最低温', '天气', '风力风向', '日照时长']
数据爬取成功！共获取31条记录，已保存为CSV文件

数据预览：
              日期   最高温   最低温   天气   风力风向  日照时长
0  2025-10-01 周三  29.2  19.4    晴  西南风3级   8.3
1  2025-10-02 周四  21.3  17.5  毛毛雨   东风4级   1.2
2  2025-10-03 周五  23.3  17.4    阴  东北风2级   4.3
3  2025-10-04 周六  24.6  16.2   小雨   西风2级   6.0
4  2025-10-05 周日  22.4  18.9   中雨   东风4级   2.6
