In [10]:
# 单线程
import os
import requests
from lxml import etree
from concurrent.futures import ThreadPoolExecutor
import time
import threading

# 下载 https://sc.chinaz.com/psd/?business=0 免费设计模版

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'
}

if not os.path.exists("d_template"):
    os.mkdir("d_template")

def download_template(src, name):
    try:
        template = requests.get(url=src, headers=headers).content.decode('utf-8')
        template_tree = etree.HTML(template)
        download_url = template_tree.xpath('//div[@class="c-div clearfix"]/a/@href')[0]
        template = requests.get(url=download_url, headers=headers).content
        with open("d_template/"+name+".zip", "wb") as fp:
            fp.write(template)
        print(f"{name} 下载成功!")
    except Exception as e:
        print(f"{name} 下载失败: {e}")

urls = []

# 分页
def scrape_page(index):
    page = "index"+("_"+str(index) if index > 1 else "")+".html"
    url = 'https://sc.chinaz.com/psd/'+page+"?business=0"
    print(f"正在爬取 ", url)
    page_text = requests.get(url=url, headers=headers).content.decode('utf-8')
    tree = etree.HTML(page_text)
    items = tree.xpath('//div[@class="bot-div"]/a')
    for item in items:
        name = item.xpath('./text()')[0]
        src = "https:"+item.xpath('./@href')[0]
        # download_template(src, name)
        urls.append((src, name))

scrape_page(1)
start_time = time.time()
for src, name in urls:
    download_template(src, name)
end_time = time.time()
print(f"单线程爬取时间: {end_time-start_time} s")

正在爬取  https://sc.chinaz.com/psd/index.html?business=0
手绘风格感恩节传单海报设计 下载成功!
美容护肤行业商务名片模板 下载成功!
夏日咖啡饮品特价招贴海报设计 下载成功!
手工展三折页宣传PSD模板 下载成功!
暖房派对海报PSD设计源文件 下载成功!
开学季返校横幅ps素材 下载成功!
唇釉化妆品广告传单设计 下载成功!
手工艺术展宣传单模板设计 下载成功!
宠物店宠物护理折扣传单A5模板 下载成功!
周岁宝宝生日宴会邀请模板A5 下载成功!
扁平插画风格房地产海报设计 下载成功!
可爱卡通风格周岁生日海报设计 下载成功!
曲棍球运动传单PS素材 下载成功!
全民营养周宣传海报PSD模板 下载成功!
游戏活动传单设计源文件 下载成功!
世界心脏日公益活动邀请模板 下载成功!
卡通插画风格市场营销传单设计 下载成功!
游戏电竞海报PSD设计源文件 下载成功!
房地产建筑卡通插画风格传单设计 下载成功!
蓝色清新花卉派对邀请A5模板 下载成功!
单线程爬取时间: 70.31480479240417 s


In [9]:
# 线程池

import os
import requests
from lxml import etree
from multiprocessing.dummy import Pool
import time
import threading

# 下载 https://sc.chinaz.com/psd/?business=0 免费设计模版

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'
}

if not os.path.exists("d_template"):
    os.mkdir("d_template")

def download_template(dict):
    # thread_name = threading.current_thread().name
    thread_name = threading.get_native_id()
    try:
        src, name = dict['src'], dict['name']
        template = requests.get(
            url=src, headers=headers).content.decode('utf-8')
        template_tree = etree.HTML(template)
        download_url = template_tree.xpath(
            '//div[@class="c-div clearfix"]/a/@href')[0]
        template = requests.get(url=download_url, headers=headers).content
        with open("d_template/"+name+".zip", "wb") as fp:
            fp.write(template)
        print(f"{thread_name} {name} 下载成功!")
    except Exception as e:
        print(f"{thread_name} {name} 下载失败: {e}")

urls = []

# 分页
def scrape_page(index):
    page = "index"+("_"+str(index) if index > 1 else "")+".html"
    url = 'https://sc.chinaz.com/psd/'+page+"?business=0"
    print(f"正在爬取 ", url)
    page_text = requests.get(url=url, headers=headers).content.decode('utf-8')
    tree = etree.HTML(page_text)
    items = tree.xpath('//div[@class="bot-div"]/a')
    for item in items:
        name = item.xpath('./text()')[0]
        src = "https:"+item.xpath('./@href')[0]
        # download_template(src, name)
        urls.append({'src': src, 'name': name})

scrape_page(1)
start_time = time.time()
pool = Pool(4)
pool.map(download_template, urls)
pool.close()
pool.join()
end_time = time.time()
print(f"单线程爬取时间: {end_time-start_time} s")

正在爬取  https://sc.chinaz.com/psd/index.html?business=0
668 手工艺术展宣传单模板设计 下载成功!
34976 暖房派对海报PSD设计源文件 下载成功!
18920 美容护肤行业商务名片模板 下载成功!
668 宠物店宠物护理折扣传单A5模板 下载成功!
34976 周岁宝宝生日宴会邀请模板A5 下载成功!
34976 曲棍球运动传单PS素材 下载成功!
668 可爱卡通风格周岁生日海报设计 下载成功!
668 世界心脏日公益活动邀请模板 下载成功!
668 游戏活动传单设计源文件 下载成功!
668 卡通插画风格市场营销传单设计 下载成功!
668 游戏电竞海报PSD设计源文件 下载成功!
18920 扁平插画风格房地产海报设计 下载成功!
668 房地产建筑卡通插画风格传单设计 下载成功!
18920 蓝色清新花卉派对邀请A5模板 下载成功!
32296 开学季返校横幅ps素材 下载成功!
34976 全民营养周宣传海报PSD模板 下载成功!
35340 手工展三折页宣传PSD模板 下载成功!
33320 唇釉化妆品广告传单设计 下载成功!
32364 手绘风格感恩节传单海报设计 下载成功!
33660 夏日咖啡饮品特价招贴海报设计 下载成功!
单线程爬取时间: 43.727301597595215 s


In [22]:
import random
import requests
from lxml import etree
import re, json, os, time, threading
from multiprocessing.dummy import Pool

# 使用线程池爬取梨视频的视频数据

if not os.path.exists('./videos'):
    os.mkdir('./videos')
    
start_time = time.time()

session = requests.session()
headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36'
}
# 添加到session中是全局的 后面每个get/post请求都会携带这个headers
session.headers.update(headers)

url = 'https://www.pearvideo.com/popular'
page_text = session.get(url=url).content.decode('utf-8')
# print(session.headers)
# print(requests.utils.dict_from_cookiejar(session.cookies))

tree = etree.HTML(page_text)
li_list = tree.xpath('//ul[@id="popularList"]/li')
urls = []
for li in li_list:
    v_id = li.xpath('./div/a/@href')[0].split('_')[-1]
    name = li.xpath('./div/a/h2/text()')[0]+'.mp4'
    # 利用正则表达式替换文件名中的非法字符
    name = re.sub(r'[\\/:*?"<>|\s]', '_', name)
    video_url = f"https://www.pearvideo.com/videoStatus.jsp"
    params = {
        'contId': v_id,
        'mrd': random.random()
    }
    # Referer是请求头的一部分 用来标识请求是从哪个页面发起的
    headers = {'Referer': f'https://www.pearvideo.com/video_{v_id}'}
    video_ajax = session.get(url=video_url, headers=headers, params=params).content.decode('utf-8')
    video_json = json.loads(video_ajax)
    # 对比真实视频地址和原始视频地址的区别
    origin_url = video_json['videoInfo']['videos']['srcUrl']
    true_url = re.sub(r'/\d*?-', '/cont-'+v_id+'-', origin_url)
    dic = {
        'name': name,
        'url': true_url
    }
    urls.append(dic)
# print(urls)

def get_video_data(dic):
    url = dic['url']
    data = session.get(url=url).content
    # 持久化存储操作
    with open('./videos/'+dic['name'], 'wb') as fp:
        fp.write(data)
        print(f"{threading.get_native_id()} {dic['name']} 下载成功!")

# 单线程
# for dic in urls:
#     get_video_data(dic)
# 使用线程池对视频数据进行请求 较为耗时的阻塞操作
pool = Pool(4)
pool.map(get_video_data, urls)
pool.close()
pool.join()
end_time = time.time()
print(f"下载视频耗时: {end_time-start_time} s")

9772 少年般绚丽.mp4 下载成功!
9772 奶奶的新时代.mp4 下载成功!
9772 微短剧《赵小姐的日记》｜一本日记，两段情缘。.mp4 下载成功!
9772 以史为镜，情缘相连。文物修复师恋人探寻前世，以期今生.mp4 下载成功!
9772 网剧_1818_编辑部___网络世界迷人眼.mp4 下载成功!
9772 如今可选择的选项越来越多，有选择困难症怎么破？.mp4 下载成功!
9772 网台同播纪录片《赶集故事会》走进百姓生活_感受众生百态.mp4 下载成功!
9772 以为夏天的哈尔滨不会有雪，梦幻冰雪馆让你过足冰雪瘾！.mp4 下载成功!
9772 #两极穿越龙江行｜东极黑瞎子岛的岛主竟然是萌呆的黑熊们.mp4 下载成功!
9772 #两极穿越龙江行｜世界慢慢游,去18度的漠河避暑两日游攻略.mp4 下载成功!
下载视频耗时: 2.521181583404541 s


In [26]:
import random
import aiohttp
import asyncio
from lxml import etree
import re, json, os, time

# 使用 aiohttp 的 ClientSession 进行异步 HTTP 请求
# text()返回字符串形式的响应数据
# read()返回的二进制形式的响应数据
# json()返回的就是json对象
# 注意：获取响应数据操作之前一定要使用await进行手动挂起

async def fetch_page(url, session):
    async with session.get(url) as response:
        return await response.text(encoding='utf-8')

async def fetch_json(url, session, params, headers):
    async with session.get(url, params=params, headers=headers) as response:
        return await response.json(encoding='utf-8')

async def download_video(dic, session):
    url = dic['url']
    async with session.get(url) as response:
        data = await response.read()
        # 持久化存储操作
        with open('./videos/' + dic['name'], 'wb') as fp:
            fp.write(data)
            print(f"{dic['name']} 下载成功!")

async def main():
    # 不使用with的话需要手动关闭session
    async with aiohttp.ClientSession(headers={
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/102.0.0.0 Safari/537.36',
        'NAME': 'Decade'
    }) as session:
        # 获取主页内容
        page_text = await fetch_page('https://www.pearvideo.com/popular', session)
        tree = etree.HTML(page_text)
        li_list = tree.xpath('//ul[@id="popularList"]/li')
        urls = []

        # 获取每个视频的详细信息
        for li in li_list:
            v_id = li.xpath('./div/a/@href')[0].split('_')[-1]
            name = li.xpath('./div/a/h2/text()')[0] + '.mp4'
            # 利用正则表达式替换文件名中的非法字符
            name = re.sub(r'[\\/:*?"<>|\s]', '_', name)
            video_url = f"https://www.pearvideo.com/videoStatus.jsp"
            params = {
                'contId': v_id,
                'mrd': random.random()
            }
            headers = {'Referer': f'https://www.pearvideo.com/video_{v_id}'}
            video_json = await fetch_json(video_url, session, params, headers)
            origin_url = video_json['videoInfo']['videos']['srcUrl']
            true_url = re.sub(r'/\d*?-', '/cont-' + v_id + '-', origin_url)
            dic = {
                'name': name,
                'url': true_url
            }
            urls.append(dic)

        # 创建任务并下载视频
        tasks = [
            asyncio.create_task(download_video(dic, session)) for dic in urls
        ]
        await asyncio.wait(tasks)

if not os.path.exists('./videos'):
    os.mkdir('./videos')
    
start_time = time.time()
await main()
end_time = time.time()
print(f"下载视频耗时: {end_time-start_time} s")

以史为镜，情缘相连。文物修复师恋人探寻前世，以期今生.mp4 下载成功!
#两极穿越龙江行｜东极黑瞎子岛的岛主竟然是萌呆的黑熊们.mp4 下载成功!
微短剧《赵小姐的日记》｜一本日记，两段情缘。.mp4 下载成功!
以为夏天的哈尔滨不会有雪，梦幻冰雪馆让你过足冰雪瘾！.mp4 下载成功!
网剧_1818_编辑部___网络世界迷人眼.mp4 下载成功!
奶奶的新时代.mp4 下载成功!
网台同播纪录片《赶集故事会》走进百姓生活_感受众生百态.mp4 下载成功!
#两极穿越龙江行｜世界慢慢游,去18度的漠河避暑两日游攻略.mp4 下载成功!
少年般绚丽.mp4 下载成功!
如今可选择的选项越来越多，有选择困难症怎么破？.mp4 下载成功!
下载视频耗时: 2.623565196990967 s
