In [1]:
# 基础导入和设置
import asyncio
import time
import aiohttp
import aiofiles
from typing import List, Dict, Any

# 检查是否在 Jupyter 环境中
import nest_asyncio
nest_asyncio.apply()  # 允许在 Jupyter 中运行异步代码

print("异步编程环境设置完成！")


异步编程环境设置完成！


In [2]:
# 简单的异步函数
async def hello_async():
    """一个简单的异步函数"""
    print("开始异步任务...")
    await asyncio.sleep(1)  # 模拟异步操作
    print("异步任务完成！")
    return "Hello, Async World!"

# 运行异步函数
result = await hello_async()
print(f"结果: {result}")


开始异步任务...
异步任务完成！
结果: Hello, Async World!


In [3]:
# 带延迟的数据获取函数
async def fetch_data_with_delay(data: str, delay: float) -> str:
    """模拟异步数据获取"""
    print(f"开始获取数据: {data}")
    await asyncio.sleep(delay)  # 模拟网络延迟
    result = f"Data: {data} (delayed {delay}s)"
    print(f"完成获取: {result}")
    return result

# 顺序执行 vs 并发执行对比
print("=== 顺序执行 ===")
start_time = time.time()

result1 = await fetch_data_with_delay("任务1", 1.0)
result2 = await fetch_data_with_delay("任务2", 1.0)
result3 = await fetch_data_with_delay("任务3", 1.0)

sequential_time = time.time() - start_time
print(f"顺序执行耗时: {sequential_time:.2f}秒\n")

print("=== 并发执行 ===")
start_time = time.time()

# 创建并发任务
tasks = [
    fetch_data_with_delay("任务A", 1.0),
    fetch_data_with_delay("任务B", 1.0), 
    fetch_data_with_delay("任务C", 1.0)
]

# 并发执行所有任务
results = await asyncio.gather(*tasks)

concurrent_time = time.time() - start_time
print(f"并发执行耗时: {concurrent_time:.2f}秒")
print(f"性能提升: {sequential_time/concurrent_time:.2f}倍")


=== 顺序执行 ===
开始获取数据: 任务1
完成获取: Data: 任务1 (delayed 1.0s)
开始获取数据: 任务2
完成获取: Data: 任务2 (delayed 1.0s)
开始获取数据: 任务3
完成获取: Data: 任务3 (delayed 1.0s)
顺序执行耗时: 3.00秒

=== 并发执行 ===
开始获取数据: 任务A
开始获取数据: 任务B
开始获取数据: 任务C
完成获取: Data: 任务A (delayed 1.0s)
完成获取: Data: 任务B (delayed 1.0s)
完成获取: Data: 任务C (delayed 1.0s)
并发执行耗时: 1.00秒
性能提升: 3.00倍


In [4]:
# 异步生成器示例
async def async_range(start: int, stop: int, delay: float = 0.1):
    """异步生成数字序列"""
    for i in range(start, stop):
        print(f"生成数字: {i}")
        await asyncio.sleep(delay)  # 模拟异步操作
        yield i

# 使用异步生成器
print("=== 异步生成器演示 ===")
async for value in async_range(0, 5, 0.2):
    print(f"接收到值: {value}")

print("\n=== 收集异步生成器的所有值 ===")
async def collect_async_values():
    values = []
    async for value in async_range(10, 15, 0.1):
        values.append(value)
    return values

collected = await collect_async_values()
print(f"收集的值: {collected}")

# 异步生成器的高级用法
async def async_fibonacci(n: int):
    """异步生成斐波那契数列"""
    a, b = 0, 1
    for i in range(n):
        print(f"计算斐波那契数: {a}")
        await asyncio.sleep(0.1)  # 模拟计算时间
        yield a
        a, b = b, a + b

print("\n=== 异步斐波那契数列 ===")
fib_values = []
async for fib in async_fibonacci(8):
    fib_values.append(fib)
    
print(f"斐波那契数列: {fib_values}")

# 并发处理异步生成器
async def process_async_generator(name: str, generator):
    """并发处理异步生成器"""
    results = []
    async for value in generator:
        result = f"{name}-处理-{value}"
        results.append(result)
        print(f"{name} 处理了值: {value}")
    return results

print("\n=== 并发处理异步生成器 ===")
async def demo_concurrent_async_generators():
    tasks = [
        process_async_generator("Worker-1", async_range(0, 3, 0.1)),
        process_async_generator("Worker-2", async_range(10, 13, 0.15)),
        process_async_generator("Worker-3", async_range(20, 23, 0.12))
    ]
    
    results = await asyncio.gather(*tasks)
    return results

concurrent_results = await demo_concurrent_async_generators()
print(f"并发处理结果: {concurrent_results}")


=== 异步生成器演示 ===
生成数字: 0
接收到值: 0
生成数字: 1
接收到值: 1
生成数字: 2
接收到值: 2
生成数字: 3
接收到值: 3
生成数字: 4
接收到值: 4

=== 收集异步生成器的所有值 ===
生成数字: 10
生成数字: 11
生成数字: 12
生成数字: 13
生成数字: 14
收集的值: [10, 11, 12, 13, 14]

=== 异步斐波那契数列 ===
计算斐波那契数: 0
计算斐波那契数: 1
计算斐波那契数: 1
计算斐波那契数: 2
计算斐波那契数: 3
计算斐波那契数: 5
计算斐波那契数: 8
计算斐波那契数: 13
斐波那契数列: [0, 1, 1, 2, 3, 5, 8, 13]

=== 并发处理异步生成器 ===
生成数字: 0
生成数字: 10
生成数字: 20
Worker-1 处理了值: 0
生成数字: 1
Worker-3 处理了值: 20
生成数字: 21
Worker-2 处理了值: 10
生成数字: 11
Worker-1 处理了值: 1
生成数字: 2
Worker-3 处理了值: 21
生成数字: 22
Worker-2 处理了值: 11
生成数字: 12
Worker-1 处理了值: 2
Worker-3 处理了值: 22
Worker-2 处理了值: 12
并发处理结果: [['Worker-1-处理-0', 'Worker-1-处理-1', 'Worker-1-处理-2'], ['Worker-2-处理-10', 'Worker-2-处理-11', 'Worker-2-处理-12'], ['Worker-3-处理-20', 'Worker-3-处理-21', 'Worker-3-处理-22']]


In [5]:
# 异步上下文管理器示例
class AsyncTimer:
    """异步计时器上下文管理器"""
    
    def __init__(self):
        self.start_time = None
        self.execution_time = None
    
    async def __aenter__(self):
        print("开始计时...")
        self.start_time = time.time()
        return self
    
    async def __aexit__(self, exc_type, exc_val, exc_tb):
        if self.start_time is not None:
            self.execution_time = time.time() - self.start_time
            print(f"执行完成，耗时: {self.execution_time:.2f}秒")
        return False

# 使用异步上下文管理器
async def demo_async_context_manager():
    async with AsyncTimer() as timer:
        print("执行一些异步操作...")
        await asyncio.sleep(1.5)
        await fetch_data_with_delay("测试数据", 0.5)
    
    print(f"总执行时间: {timer.execution_time:.2f}秒")

await demo_async_context_manager()

# 异步资源管理器示例
class AsyncResourceManager:
    """异步资源管理器"""
    
    def __init__(self, resource_name: str):
        self.resource_name = resource_name
        self.resource = None
    
    async def __aenter__(self):
        print(f"获取资源: {self.resource_name}")
        await asyncio.sleep(0.1)  # 模拟资源获取时间
        self.resource = f"Resource-{self.resource_name}-{time.time()}"
        print(f"资源获取成功: {self.resource}")
        return self.resource
    
    async def __aexit__(self, exc_type, exc_val, exc_tb):
        print(f"释放资源: {self.resource}")
        await asyncio.sleep(0.1)  # 模拟资源释放时间
        self.resource = None
        print("资源释放完成")
        return False

# 使用异步资源管理器
print("\n=== 异步资源管理器演示 ===")
async def demo_async_resource_manager():
    async with AsyncResourceManager("数据库连接") as db_conn:
        print(f"使用资源: {db_conn}")
        await asyncio.sleep(0.5)
        print("执行数据库操作...")
        
    async with AsyncResourceManager("文件句柄") as file_handle:
        print(f"使用资源: {file_handle}")
        await asyncio.sleep(0.3)
        print("执行文件操作...")

await demo_async_resource_manager()

# 异步信号量上下文管理器
class AsyncSemaphoreManager:
    """异步信号量管理器"""
    
    def __init__(self, max_concurrent: int = 3):
        self.semaphore = asyncio.Semaphore(max_concurrent)
        self.max_concurrent = max_concurrent
    
    async def __aenter__(self):
        await self.semaphore.acquire()
        print(f"获取信号量，当前可用: {self.semaphore._value}")
        return self
    
    async def __aexit__(self, exc_type, exc_val, exc_tb):
        self.semaphore.release()
        print(f"释放信号量，当前可用: {self.semaphore._value}")
        return False

# 使用异步信号量管理器
print("\n=== 异步信号量管理器演示 ===")
semaphore_manager = AsyncSemaphoreManager(2)

async def worker_with_semaphore_manager(worker_id: int):
    """使用信号量管理器的工作函数"""
    async with semaphore_manager:
        print(f"Worker {worker_id} 开始工作")
        await asyncio.sleep(1)  # 模拟工作时间
        print(f"Worker {worker_id} 完成工作")

async def demo_semaphore_manager():
    tasks = [
        worker_with_semaphore_manager(i) 
        for i in range(5)
    ]
    
    await asyncio.gather(*tasks)
    print("所有工作完成")

await demo_semaphore_manager()


开始计时...
执行一些异步操作...
开始获取数据: 测试数据
完成获取: Data: 测试数据 (delayed 0.5s)
执行完成，耗时: 2.00秒
总执行时间: 2.00秒

=== 异步资源管理器演示 ===
获取资源: 数据库连接
资源获取成功: Resource-数据库连接-1752684772.092725
使用资源: Resource-数据库连接-1752684772.092725
执行数据库操作...
释放资源: Resource-数据库连接-1752684772.092725
资源释放完成
获取资源: 文件句柄
资源获取成功: Resource-文件句柄-1752684772.795024
使用资源: Resource-文件句柄-1752684772.795024
执行文件操作...
释放资源: Resource-文件句柄-1752684772.795024
资源释放完成

=== 异步信号量管理器演示 ===
获取信号量，当前可用: 1
Worker 0 开始工作
获取信号量，当前可用: 0
Worker 1 开始工作
Worker 0 完成工作
释放信号量，当前可用: 0
Worker 1 完成工作
释放信号量，当前可用: 0
获取信号量，当前可用: 0
Worker 2 开始工作
获取信号量，当前可用: 0
Worker 3 开始工作
Worker 2 完成工作
释放信号量，当前可用: 0
Worker 3 完成工作
释放信号量，当前可用: 1
获取信号量，当前可用: 1
Worker 4 开始工作
Worker 4 完成工作
释放信号量，当前可用: 2
所有工作完成


In [6]:
# 异步HTTP请求示例
import json
from typing import List, Dict

async def fetch_url(session, url: str) -> Dict:
    """异步获取URL内容"""
    print(f"开始请求: {url}")
    try:
        async with session.get(url) as response:
            data = await response.json()
            print(f"完成请求: {url} - 状态码: {response.status}")
            return {
                'url': url,
                'status': response.status,
                'data': data
            }
    except Exception as e:
        print(f"请求失败: {url} - 错误: {e}")
        return {
            'url': url,
            'status': 'error',
            'error': str(e)
        }

async def fetch_multiple_urls(urls: List[str]) -> List[Any]:
    """并发请求多个URL"""
    async with aiohttp.ClientSession() as session:
        tasks = [fetch_url(session, url) for url in urls]
        results = await asyncio.gather(*tasks, return_exceptions=True)
        return results

# 演示异步HTTP请求
urls = [
    'https://httpbin.org/delay/1',
    'https://httpbin.org/delay/2',
    'https://httpbin.org/get?param=test',
    'https://httpbin.org/json'
]

print("=== 异步HTTP请求演示 ===")
start_time = time.time()

try:
    results = await fetch_multiple_urls(urls)
    
    execution_time = time.time() - start_time
    print(f"\n并发请求完成，总耗时: {execution_time:.2f}秒")
    
    # 显示结果统计
    success_count = sum(1 for r in results if isinstance(r, dict) and r.get('status') == 200)
    print(f"成功请求: {success_count}/{len(urls)}")
    
except Exception as e:
    print(f"请求过程中发生错误: {e}")


=== 异步HTTP请求演示 ===
开始请求: https://httpbin.org/delay/1
开始请求: https://httpbin.org/delay/2
开始请求: https://httpbin.org/get?param=test
开始请求: https://httpbin.org/json
完成请求: https://httpbin.org/get?param=test - 状态码: 200
完成请求: https://httpbin.org/delay/1 - 状态码: 200
完成请求: https://httpbin.org/json - 状态码: 200
完成请求: https://httpbin.org/delay/2 - 状态码: 200

并发请求完成，总耗时: 6.09秒
成功请求: 4/4


In [7]:
# 异步文件操作示例
import os
import tempfile

async def write_files_async(files_data: Dict[str, str]):
    """异步写入多个文件"""
    async def write_single_file(filename: str, content: str):
        async with aiofiles.open(filename, 'w', encoding='utf-8') as f:
            await f.write(content)
            print(f"写入文件: {filename}")
    
    # 并发写入所有文件
    tasks = [write_single_file(name, content) for name, content in files_data.items()]
    await asyncio.gather(*tasks)

async def read_files_async(filenames: List[str]) -> Dict[str, str]:
    """异步读取多个文件"""
    async def read_single_file(filename: str) -> tuple:
        try:
            async with aiofiles.open(filename, 'r', encoding='utf-8') as f:
                content = await f.read()
                print(f"读取文件: {filename}")
                return filename, content
        except FileNotFoundError:
            print(f"文件不存在: {filename}")
            return filename, ""
    
    # 并发读取所有文件
    tasks = [read_single_file(name) for name in filenames]
    results = await asyncio.gather(*tasks)
    return dict(results)

# 演示异步文件操作
print("=== 异步文件操作演示 ===")

# 创建临时目录
with tempfile.TemporaryDirectory() as temp_dir:
    # 准备文件数据
    files_data = {
        os.path.join(temp_dir, 'file1.txt'): '这是第一个文件的内容',
        os.path.join(temp_dir, 'file2.txt'): '这是第二个文件的内容',
        os.path.join(temp_dir, 'file3.txt'): '这是第三个文件的内容'
    }
    
    # 异步写入文件
    start_time = time.time()
    await write_files_async(files_data)
    write_time = time.time() - start_time
    
    # 异步读取文件
    start_time = time.time()
    file_contents = await read_files_async(list(files_data.keys()))
    read_time = time.time() - start_time
    
    print(f"\n写入耗时: {write_time:.3f}秒")
    print(f"读取耗时: {read_time:.3f}秒")
    print(f"读取到 {len(file_contents)} 个文件")


=== 异步文件操作演示 ===
写入文件: /var/folders/bx/s3gkf33n7wg9c_mr9q7cqg5c0000gn/T/tmphlgj7hqs/file3.txt
写入文件: /var/folders/bx/s3gkf33n7wg9c_mr9q7cqg5c0000gn/T/tmphlgj7hqs/file2.txt
写入文件: /var/folders/bx/s3gkf33n7wg9c_mr9q7cqg5c0000gn/T/tmphlgj7hqs/file1.txt
读取文件: /var/folders/bx/s3gkf33n7wg9c_mr9q7cqg5c0000gn/T/tmphlgj7hqs/file1.txt
读取文件: /var/folders/bx/s3gkf33n7wg9c_mr9q7cqg5c0000gn/T/tmphlgj7hqs/file2.txt
读取文件: /var/folders/bx/s3gkf33n7wg9c_mr9q7cqg5c0000gn/T/tmphlgj7hqs/file3.txt

写入耗时: 0.001秒
读取耗时: 0.001秒
读取到 3 个文件


In [8]:
# 任务管理和取消示例

async def long_running_task(name: str, duration: int):
    """长时间运行的任务"""
    try:
        for i in range(duration):
            await asyncio.sleep(1)
            print(f"任务 {name}: 进度 {i+1}/{duration}")
        print(f"任务 {name}: 完成！")
        return f"任务 {name} 结果"
    except asyncio.CancelledError:
        print(f"任务 {name}: 被取消")
        raise

async def task_with_timeout(name: str, work_duration: int, timeout: int):
    """带超时的任务"""
    try:
        # 使用 wait_for 设置超时
        result = await asyncio.wait_for(
            long_running_task(name, work_duration),
            timeout=timeout
        )
        return result
    except asyncio.TimeoutError:
        print(f"任务 {name}: 超时!")
        return f"任务 {name} 超时"

# 演示任务管理
print("=== 任务管理和取消演示 ===")

# 1. 创建和管理多个任务
tasks = []
for i in range(3):
    task = asyncio.create_task(long_running_task(f"Task-{i}", 3))
    tasks.append(task)

# 等待一段时间后取消第二个任务
await asyncio.sleep(1.5)
print("取消第二个任务...")
tasks[1].cancel()

# 等待所有任务完成（包括被取消的）
results = await asyncio.gather(*tasks, return_exceptions=True)

print("\n=== 任务执行结果 ===")
for i, result in enumerate(results):
    if isinstance(result, asyncio.CancelledError):
        print(f"任务 {i}: 被取消")
    elif isinstance(result, Exception):
        print(f"任务 {i}: 异常 - {result}")
    else:
        print(f"任务 {i}: 结果 - {result}")

# 2. 超时处理演示
print("\n=== 超时处理演示 ===")
timeout_task = asyncio.create_task(task_with_timeout("超时任务", 5, 3))
timeout_result = await timeout_task
print(f"超时任务结果: {timeout_result}")


=== 任务管理和取消演示 ===
任务 Task-0: 进度 1/3
任务 Task-1: 进度 1/3
任务 Task-2: 进度 1/3
取消第二个任务...
任务 Task-1: 被取消
任务 Task-0: 进度 2/3
任务 Task-2: 进度 2/3
任务 Task-0: 进度 3/3
任务 Task-0: 完成！
任务 Task-2: 进度 3/3
任务 Task-2: 完成！

=== 任务执行结果 ===
任务 0: 结果 - 任务 Task-0 结果
任务 1: 被取消
任务 2: 结果 - 任务 Task-2 结果

=== 超时处理演示 ===
任务 超时任务: 进度 1/5
任务 超时任务: 进度 2/5
任务 超时任务: 被取消
任务 超时任务: 超时!
超时任务结果: 任务 超时任务 超时


In [9]:
# 异步队列和生产者-消费者模式

async def producer(queue: asyncio.Queue, name: str, num_items: int):
    """生产者函数"""
    for i in range(num_items):
        item = f"{name}-item-{i}"
        await queue.put(item)
        print(f"生产者 {name} 生产了: {item}")
        await asyncio.sleep(0.1)  # 模拟生产时间
    
    # 发送结束信号
    await queue.put(None)
    print(f"生产者 {name} 完成")

async def consumer(queue: asyncio.Queue, name: str):
    """消费者函数"""
    consumed_items = []
    while True:
        item = await queue.get()
        if item is None:
            # 接收到结束信号
            await queue.put(None)  # 传递给其他消费者
            break
        
        consumed_items.append(item)
        print(f"消费者 {name} 消费了: {item}")
        await asyncio.sleep(0.2)  # 模拟消费时间
        queue.task_done()
    
    print(f"消费者 {name} 完成，共消费 {len(consumed_items)} 个项目")
    return consumed_items

# 演示异步队列
print("=== 异步队列演示 ===")

async def demo_async_queue():
    # 创建有界队列
    queue = asyncio.Queue(maxsize=5)
    
    # 创建生产者和消费者任务
    tasks = [
        asyncio.create_task(producer(queue, "P1", 10)),
        asyncio.create_task(consumer(queue, "C1")),
        asyncio.create_task(consumer(queue, "C2")),
    ]
    
    # 等待所有任务完成
    await asyncio.gather(*tasks, return_exceptions=True)
    
    print("队列处理完成")

await demo_async_queue()


=== 异步队列演示 ===
生产者 P1 生产了: P1-item-0
消费者 C1 消费了: P1-item-0
生产者 P1 生产了: P1-item-1
消费者 C2 消费了: P1-item-1
生产者 P1 生产了: P1-item-2
消费者 C1 消费了: P1-item-2
生产者 P1 生产了: P1-item-3
消费者 C2 消费了: P1-item-3
生产者 P1 生产了: P1-item-4
消费者 C1 消费了: P1-item-4
生产者 P1 生产了: P1-item-5
消费者 C2 消费了: P1-item-5
生产者 P1 生产了: P1-item-6
消费者 C1 消费了: P1-item-6
生产者 P1 生产了: P1-item-7
消费者 C2 消费了: P1-item-7
生产者 P1 生产了: P1-item-8
消费者 C1 消费了: P1-item-8
生产者 P1 生产了: P1-item-9
消费者 C2 消费了: P1-item-9
生产者 P1 完成
消费者 C1 完成，共消费 5 个项目
消费者 C2 完成，共消费 5 个项目
队列处理完成


In [10]:
# 异步锁和同步机制

# 共享资源类
class SharedResource:
    def __init__(self):
        self.value = 0
        self.lock = asyncio.Lock()
    
    async def increment(self, worker_id: str):
        """使用锁保护的递增操作"""
        async with self.lock:
            current_value = self.value
            print(f"Worker {worker_id}: 读取当前值 {current_value}")
            
            # 模拟一些处理时间
            await asyncio.sleep(0.1)
            
            self.value = current_value + 1
            print(f"Worker {worker_id}: 更新值为 {self.value}")

# 信号量示例
class ResourcePool:
    def __init__(self, max_resources: int):
        self.semaphore = asyncio.Semaphore(max_resources)
        self.resources = [f"Resource-{i}" for i in range(max_resources)]
        self.in_use = set()
    
    async def acquire_resource(self, worker_id: str):
        """获取资源"""
        async with self.semaphore:
            # 模拟获取资源
            resource = self.resources[len(self.in_use)]
            self.in_use.add(resource)
            print(f"Worker {worker_id}: 获取资源 {resource}")
            
            # 模拟使用资源
            await asyncio.sleep(0.5)
            
            # 释放资源
            self.in_use.remove(resource)
            print(f"Worker {worker_id}: 释放资源 {resource}")
            return resource

# 演示异步锁
print("=== 异步锁演示 ===")
shared_resource = SharedResource()

async def worker_with_lock(worker_id: str, num_increments: int):
    """使用锁的工作函数"""
    for i in range(num_increments):
        await shared_resource.increment(worker_id)

async def demo_async_lock():
    tasks = [
        worker_with_lock("A", 3),
        worker_with_lock("B", 3),
        worker_with_lock("C", 3)
    ]
    
    await asyncio.gather(*tasks)
    print(f"最终值: {shared_resource.value}")

await demo_async_lock()

# 演示信号量
print("\n=== 信号量演示 ===")
resource_pool = ResourcePool(2)  # 最多2个资源

async def worker_with_semaphore(worker_id: str):
    """使用信号量的工作函数"""
    resource = await resource_pool.acquire_resource(worker_id)
    return f"Worker {worker_id} 使用了 {resource}"

async def demo_semaphore():
    tasks = [
        worker_with_semaphore(f"Worker-{i}")
        for i in range(5)  # 5个工作者竞争2个资源
    ]
    
    results = await asyncio.gather(*tasks)
    for result in results:
        print(result)

await demo_semaphore()


=== 异步锁演示 ===
Worker A: 读取当前值 0
Worker A: 更新值为 1
Worker B: 读取当前值 1
Worker B: 更新值为 2
Worker C: 读取当前值 2
Worker C: 更新值为 3
Worker A: 读取当前值 3
Worker A: 更新值为 4
Worker B: 读取当前值 4
Worker B: 更新值为 5
Worker C: 读取当前值 5
Worker C: 更新值为 6
Worker A: 读取当前值 6
Worker A: 更新值为 7
Worker B: 读取当前值 7
Worker B: 更新值为 8
Worker C: 读取当前值 8
Worker C: 更新值为 9
最终值: 9

=== 信号量演示 ===
Worker Worker-0: 获取资源 Resource-0
Worker Worker-1: 获取资源 Resource-1
Worker Worker-0: 释放资源 Resource-0
Worker Worker-1: 释放资源 Resource-1
Worker Worker-2: 获取资源 Resource-0
Worker Worker-3: 获取资源 Resource-1
Worker Worker-2: 释放资源 Resource-0
Worker Worker-3: 释放资源 Resource-1
Worker Worker-4: 获取资源 Resource-0
Worker Worker-4: 释放资源 Resource-0
Worker Worker-0 使用了 Resource-0
Worker Worker-1 使用了 Resource-1
Worker Worker-2 使用了 Resource-0
Worker Worker-3 使用了 Resource-1
Worker Worker-4 使用了 Resource-0


In [11]:
# 异步网络爬虫实战项目

import re
from urllib.parse import urljoin, urlparse
from collections import defaultdict
from typing import Optional

class AsyncWebCrawler:
    """异步网络爬虫类"""
    
    def __init__(self, max_concurrent: int = 10, delay: float = 1.0):
        self.max_concurrent = max_concurrent
        self.delay = delay
        self.visited_urls = set()
        self.results = []
        self.semaphore = asyncio.Semaphore(max_concurrent)
        self.session = None
    
    async def __aenter__(self):
        """异步上下文管理器入口"""
        self.session = aiohttp.ClientSession()
        return self
    
    async def __aexit__(self, exc_type, exc_val, exc_tb):
        """异步上下文管理器出口"""
        if self.session:
            await self.session.close()
    
    async def fetch_page(self, url: str) -> Optional[Dict[str, Any]]:
        """获取单个页面"""
        if url in self.visited_urls:
            return None
        
        self.visited_urls.add(url)
        
        async with self.semaphore:
            try:
                if self.session is None:
                    return None
                async with self.session.get(url) as response:
                    if response.status == 200:
                        content = await response.text()
                        return {
                            'url': url,
                            'status': response.status,
                            'content': content,
                            'title': self.extract_title(content),
                            'links': self.extract_links(content, url)
                        }
                    else:
                        print(f"HTTP错误 {response.status}: {url}")
                        return None
            except Exception as e:
                print(f"获取页面失败 {url}: {e}")
                return None
            finally:
                # 添加延迟避免过快请求
                await asyncio.sleep(self.delay)
    
    def extract_title(self, html: str) -> str:
        """提取页面标题"""
        title_match = re.search(r'<title[^>]*>(.*?)</title>', html, re.IGNORECASE | re.DOTALL)
        return title_match.group(1).strip() if title_match else "无标题"
    
    def extract_links(self, html: str, base_url: str) -> List[str]:
        """提取页面链接"""
        links = []
        link_pattern = r'<a[^>]*href=["\']([^"\']+)["\'][^>]*>'
        
        for match in re.finditer(link_pattern, html, re.IGNORECASE):
            href = match.group(1)
            # 转换为绝对URL
            absolute_url = urljoin(base_url, href)
            
            # 只保留HTTP/HTTPS链接
            if absolute_url.startswith(('http://', 'https://')):
                links.append(absolute_url)
        
        return links
    
    async def crawl_urls(self, start_urls: List[str], max_depth: int = 2) -> List[Dict[str, Any]]:
        """爬取URL列表"""
        current_urls = start_urls
        
        for depth in range(max_depth):
            print(f"爬取深度 {depth + 1}, 待爬取URL数量: {len(current_urls)}")
            
            # 并发爬取当前层级的所有URL
            tasks = [self.fetch_page(url) for url in current_urls]
            results = await asyncio.gather(*tasks, return_exceptions=True)
            
            # 处理结果
            next_urls = set()
            for result in results:
                if isinstance(result, dict) and result is not None:
                    self.results.append(result)
                    
                    # 收集下一层级的URL
                    if depth < max_depth - 1:
                        for link in result.get('links', []):
                            if link not in self.visited_urls:
                                next_urls.add(link)
            
            current_urls = list(next_urls)
            
            # 限制下一层级的URL数量
            if len(current_urls) > 20:
                current_urls = current_urls[:20]
        
        return self.results
    
    def analyze_results(self) -> Dict[str, Any]:
        """分析爬取结果"""
        if not self.results:
            return {}
        
        # 基础统计
        total_pages = len(self.results)
        successful_pages = sum(1 for r in self.results if r.get('status') == 200)
        
        # 域名统计
        domain_counts = defaultdict(int)
        for result in self.results:
            domain = urlparse(result['url']).netloc
            domain_counts[domain] += 1
        
        # 标题长度统计
        title_lengths = [len(r.get('title', '')) for r in self.results]
        avg_title_length = sum(title_lengths) / len(title_lengths) if title_lengths else 0
        
        # 链接统计
        total_links = sum(len(r.get('links', [])) for r in self.results)
        avg_links_per_page = total_links / total_pages if total_pages > 0 else 0
        
        return {
            'total_pages': total_pages,
            'successful_pages': successful_pages,
            'success_rate': successful_pages / total_pages if total_pages > 0 else 0,
            'domain_counts': dict(domain_counts),
            'avg_title_length': avg_title_length,
            'total_links': total_links,
            'avg_links_per_page': avg_links_per_page
        }

# 演示异步爬虫
print("=== 异步网络爬虫演示 ===")

async def demo_web_crawler():
    """演示网络爬虫"""
    # 测试URL列表
    start_urls = [
        'https://httpbin.org/',
        'https://httpbin.org/html',
        'https://httpbin.org/json'
    ]
    
    async with AsyncWebCrawler(max_concurrent=5, delay=0.5) as crawler:
        print("开始爬取...")
        start_time = time.time()
        
        results = await crawler.crawl_urls(start_urls, max_depth=2)
        
        end_time = time.time()
        print(f"爬取完成，耗时: {end_time - start_time:.2f}秒")
        
        # 分析结果
        analysis = crawler.analyze_results()
        print(f"\n=== 爬取结果分析 ===")
        print(f"总页面数: {analysis.get('total_pages', 0)}")
        print(f"成功页面数: {analysis.get('successful_pages', 0)}")
        print(f"成功率: {analysis.get('success_rate', 0):.2%}")
        print(f"平均标题长度: {analysis.get('avg_title_length', 0):.1f}")
        print(f"总链接数: {analysis.get('total_links', 0)}")
        print(f"平均每页链接数: {analysis.get('avg_links_per_page', 0):.1f}")
        
        # 显示域名统计
        domain_counts = analysis.get('domain_counts', {})
        if domain_counts:
            print(f"\n域名统计:")
            for domain, count in sorted(domain_counts.items(), key=lambda x: x[1], reverse=True):
                print(f"  {domain}: {count}")
        
        # 显示前几个页面的标题
        print(f"\n前5个页面标题:")
        for i, result in enumerate(results[:5]):
            print(f"  {i+1}. {result.get('title', '无标题')} - {result.get('url', '')}")

# 运行爬虫演示
try:
    await demo_web_crawler()
except Exception as e:
    print(f"爬虫演示失败: {e}")

print("\n=== 异步编程总结 ===")
print("""
异步编程的关键要点：
1. 使用 async/await 语法定义和调用异步函数
2. 使用 asyncio.gather() 并发执行多个任务
3. 使用异步上下文管理器管理资源
4. 使用异步队列实现生产者-消费者模式
5. 使用异步锁和信号量控制并发
6. 合理设计异步函数避免阻塞操作
7. 使用任务取消和超时机制提高健壮性
""")


=== 异步网络爬虫演示 ===
开始爬取...
爬取深度 1, 待爬取URL数量: 3
爬取深度 2, 待爬取URL数量: 4
爬取完成，耗时: 7.46秒

=== 爬取结果分析 ===
总页面数: 7
成功页面数: 7
成功率: 100.00%
平均标题长度: 33.9
总链接数: 510
平均每页链接数: 72.9

域名统计:
  httpbin.org: 4
  github.com: 2
  kennethreitz.org: 1

前5个页面标题:
  1. httpbin.org - https://httpbin.org/
  2. 无标题 - https://httpbin.org/html
  3. 无标题 - https://httpbin.org/json
  4. 无标题 - https://httpbin.org/forms/post
  5. GitHub - postmanlabs/httpbin: HTTP Request &amp; Response Service, written in Python + Flask. - https://github.com/requests/httpbin

=== 异步编程总结 ===

异步编程的关键要点：
1. 使用 async/await 语法定义和调用异步函数
2. 使用 asyncio.gather() 并发执行多个任务
3. 使用异步上下文管理器管理资源
4. 使用异步队列实现生产者-消费者模式
5. 使用异步锁和信号量控制并发
6. 合理设计异步函数避免阻塞操作
7. 使用任务取消和超时机制提高健壮性

