# Python 爬虫框架

本教程将学习Python中常用的爬虫库和框架，包括BeautifulSoup和Scrapy基础。

## 1. BeautifulSoup - HTML/XML解析库

BeautifulSoup是解析HTML和XML文档的库，适合快速开发简单的爬虫。


In [None]:
# BeautifulSoup 基础（需要安装: pip install beautifulsoup4 lxml）
try:
    from bs4 import BeautifulSoup
    import requests
    
    # 示例HTML
    html_doc = """
    <html>
    <head><title>测试页面</title></head>
    <body>
        <div class="content">
            <h1>标题</h1>
            <p class="intro">这是第一段</p>
            <p>这是第二段</p>
            <a href="https://example.com">链接</a>
        </div>
        <ul>
            <li>项目1</li>
            <li>项目2</li>
            <li>项目3</li>
        </ul>
    </body>
    </html>
    """
    
    # 创建BeautifulSoup对象
    soup = BeautifulSoup(html_doc, 'html.parser')
    
    # 获取标题
    title = soup.title.string
    print(f"页面标题: {title}")
    
    # 查找所有段落
    paragraphs = soup.find_all('p')
    print(f"\n找到 {len(paragraphs)} 个段落:")
    for p in paragraphs:
        print(f"  - {p.get_text()}")
    
    # 查找特定class的元素
    intro = soup.find('p', class_='intro')
    if intro:
        print(f"\nintro段落: {intro.get_text()}")
    
    # 查找所有链接
    links = soup.find_all('a')
    print(f"\n找到 {len(links)} 个链接:")
    for link in links:
        print(f"  - {link.get_text()}: {link.get('href')}")
    
    # 查找列表项
    items = soup.find_all('li')
    print(f"\n列表项:")
    for item in items:
        print(f"  - {item.get_text()}")
        
except ImportError:
    print("BeautifulSoup未安装，使用 'pip install beautifulsoup4 lxml' 安装")


In [None]:
# BeautifulSoup 选择器（类似CSS选择器）
try:
    from bs4 import BeautifulSoup
    
    html = """
    <div class="container">
        <div class="item" id="item1">
            <h2>商品1</h2>
            <p class="price">¥99.00</p>
        </div>
        <div class="item" id="item2">
            <h2>商品2</h2>
            <p class="price">¥199.00</p>
        </div>
    </div>
    """
    
    soup = BeautifulSoup(html, 'html.parser')
    
    # 使用CSS选择器
    print("使用CSS选择器:")
    
    # 选择所有class为item的div
    items = soup.select('div.item')
    print(f"找到 {len(items)} 个商品:")
    for item in items:
        name = item.select_one('h2').get_text()
        price = item.select_one('.price').get_text()
        print(f"  - {name}: {price}")
    
    # 选择特定ID的元素
    item1 = soup.select_one('#item1')
    if item1:
        print(f"\nID为item1的商品: {item1.select_one('h2').get_text()}")
    
    # 选择所有价格
    prices = soup.select('.price')
    print(f"\n所有价格:")
    for price in prices:
        print(f"  - {price.get_text()}")
    
except ImportError:
    print("BeautifulSoup未安装")


## 2. 爬虫最佳实践

编写爬虫时需要注意的要点。


In [None]:
import time
import requests
from bs4 import BeautifulSoup
from urllib.robotparser import RobotFileParser

print("爬虫最佳实践:")
print("\n1. 遵守robots.txt协议:")
print("   - 检查网站的robots.txt文件")
print("   - 遵守爬取规则")
print("   - 尊重网站的使用条款")

print("\n2. 设置合理的请求间隔:")
print("   - 不要过于频繁地请求")
print("   - 使用 time.sleep() 添加延迟")
print("   - 避免对服务器造成压力")

print("\n3. 设置User-Agent:")
print("   - 模拟浏览器访问")
print("   - 避免被识别为爬虫")

print("\n4. 错误处理:")
print("   - 处理网络错误")
print("   - 处理解析错误")
print("   - 使用try-except捕获异常")

print("\n5. 数据存储:")
print("   - 及时保存爬取的数据")
print("   - 避免重复爬取")
print("   - 使用数据库存储")

# 示例：遵守robots.txt的爬虫
def check_robots_txt(url):
    """检查robots.txt"""
    rp = RobotFileParser()
    rp.set_url(f"{url}/robots.txt")
    rp.read()
    return rp.can_fetch('*', url)

print("\n6. 使用Session:")
print("   - 保持会话状态")
print("   - 处理cookies")
print("   - 提高效率")

# 示例：使用Session
def crawl_with_session(url):
    """使用Session爬取"""
    session = requests.Session()
    session.headers.update({
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36'
    })
    
    try:
        response = session.get(url, timeout=10)
        response.raise_for_status()  # 检查HTTP错误
        time.sleep(1)  # 添加延迟
        return response.text
    except requests.RequestException as e:
        print(f"请求失败: {e}")
        return None

print("\n示例函数已定义，展示了基本的爬虫实践")
