# Selenium框架简介
 Selenium是一系列基于Web的自动化工具，提供一套测试函数，用于支持Web自动化测试。函数非常灵活，能够完成界面元素定位、窗口跳转、结果比较。具有如下特点：
1. 多浏览器支持： 可以对多浏览器进行测试，如IE、Firefox、Safari、Chrome、Android手机浏览器等。
2. 支持多种语言： 如Java、C#、Python、Ruby、PHP等。
3. 支持多种操作系统：如Windows、Linux、IOS、Android等。

# 使用selenium框架爬取商品具体步骤：
1. 解析页面
2. 创建browser对象：
3. 抓取索引页：
4. 解析商品列表
5. 将数据以json格式输出

In [7]:
from selenium import webdriver
from selenium.common.exceptions import TimeoutException
from selenium.webdriver.common.by import By
from selenium.webdriver.support import expected_conditions as EC
from selenium.webdriver.support.wait import WebDriverWait
from bs4 import BeautifulSoup
from json import dumps


# 分析页面
请求页面的url为：https://s.taobao.com/search?q=keyword，
本次爬虫keyword为“iPad”，页面使用Ajax获取商品，但是Ajax请求中有加密参数，解密比较麻烦，所以用selenium控制浏览器来爬取

# 创建browser对象：
这里首先构造了一个chrome浏览器对象，又构造了一个WebDriverWait对象来等待加载，这里指定等待最大时长为10秒，如果在这个时间内成功匹配了等待条件，也就是页面元素加载出来了，就立即返回相应结果并继续向下执行，否则到了最大等待时间还没有加在出来，就抛出超时异常。

In [8]:
browser = webdriver.Chrome()
wait = WebDriverWait(browser, 10)
KEYWORD = 'iPad'

# 抓取索引页：

使用chrome浏览器的开发者工具定位节点，此处定位的节点有：input（页码输入框），submit（提交页码按钮），item（商品节点，以及一个当前页码高亮显示的节点。当page(页码)参数大于1（需要跳转页面）时，选定input节点，使用clear()方法清除文本框内原本的页码，使用send_keys()方法输入页码，使用click()方法点击submit按钮提交页码。当 当前页码显示高亮，以及所有item节点加载完毕时，使用browser的page_source属性将此时的页面html代码返回。

In [9]:
def index_page(page):
    """
    抓取当前页面
    """
    print("正在爬取第", page, "页")
    try:
        url = 'https://s.taobao.com/search?q={}'.format(KEYWORD)
        browser.get(url)
        if page > 1:
            #输入框和点击按钮的获取方法如下
            input = wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '#mainsrp-pager div.form > input')))
            submit = wait.until(EC.element_to_be_clickable((By.CSS_SELECTOR, '#mainsrp-pager div.form > span.btn.J_Submit')))
            input.clear()
            input.send_keys(page)
            submit.click()
        #.判断页面上，“page”按钮这个元素中存在文本：1页（等等）
        wait.until(EC.text_to_be_present_in_element((By.CSS_SELECTOR, '#mainsrp-pager li.item.active > span'), str(page)))
        #item获取方法如下
        wait.until(EC.presence_of_element_located((By.CSS_SELECTOR, '.m-itemlist .items .item')))
        get_products()
    except TimeoutException:
        index_page(page)


# 解析商品列表
使用CSS选择器选择所有商品节点，然后就可以使用for循环遍历每一个item节点（商品节点），传入CSS选择器，就可以获取单个商品的特定属性内容了。最后将商品的属性和值储存为json文件。


In [10]:
def get_products():
    """
    美味汤提取宝贝信息
    """
    html = browser.page_source
#     Beautiful Soup是python的一个库，最主要的功能是从网页抓取数据
    soup = BeautifulSoup(html, 'html.parser')
    html_list = soup.find('div', {'class': 'm-itemlist'}).find_all('div', {'data-category': 'auctions'})
    product_list = []
    for sub in html_list:
        product = {
            '图片': sub.find('div', {'class': 'pic'}).img['src'],
            '价格': sub.find('div', {'class': 'price g_price g_price-highlight'}).get_text().strip(),
            '付款人数': sub.find('div', {'class': 'deal-cnt'}).get_text(),
            '标题': sub.find('div', {'class': 'row row-2 title'}).get_text().strip(),
            '商铺': sub.find('div', {'class': 'shop'}).get_text().strip(),
            '位置': sub.find('div', {'class': 'location'}).get_text()
        }
        product_list.append(product)
    with open('./taobao.json', 'a', encoding='UTF-8') as f:
#         json.dumps 序列化时对中文默认使用的ascii编码.想输出真正的中文需要指定ensure_ascii=False
        f.write(dumps(product_list, indent=2, ensure_ascii=False))
    print('Finished.')

In [11]:
# 使用一个for循环向主函数传入page参数。用range()函数得到页码遍历，定义最小页码为1，最大页码为页面最大页码，
# 最大页码为上面定位的input节点中的max属性值，这里直接定义为100（最多100页）
for page in range(1, 101):
    index_page(page)


正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页


正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页


正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页
正在爬取第 1 页


IOPub data rate exceeded.
The notebook server will temporarily stop sending output
to the client in order to avoid crashing it.
To change this limit, set the config variable
`--NotebookApp.iopub_data_rate_limit`.
