## 一、每个英雄的链接采集

In [1]:
import requests
res = requests.get('https://pvp.qq.com/web201605/js/herolist.json')
herolist_json = res.json()
for i in range(len(herolist_json)):
    herolist_json[i]['ename'] = 'https://pvp.qq.com/web201605/herodetail/{}.shtml'.format(herolist_json[i]['ename'])

herolist_json[0]

{'ename': 'https://pvp.qq.com/web201605/herodetail/105.shtml',
 'cname': '廉颇',
 'title': '正义爆轰',
 'new_type': 0,
 'hero_type': 3,
 'skin_name': '正义爆轰|地狱岩魂',
 'moss_id': 3627}

|herodetail-sort|类型|
|:-:|:-:|
|1|战士|
|2|法师|
|3|坦克|
|4|刺客|
|5|射手|
|6|辅助|

## 存入 MongoDB 

In [39]:
import pymongo
client = pymongo.MongoClient(host='localhost', port=27017)
db = client['HonorOfKings']     # 指定数据库
collection = db['herolist']     # 指定集合
collection.insert_many(herolist_json)   # 插入文档

<pymongo.results.InsertManyResult at 0x1ecc59a8460>

<div align=center>
<img alt="图 1" src="../images/2b51d0a655a9a13bf8bf78c88a38bb75babffa4986031ba2ec4e25d0bd0153c0.png" width=75%/>  
</div>

## 采集每个英雄的详细信息

> 说明

1. **`lxml & XPath`** 采集的数据包括
 - 英雄基本信息
 - 技能介绍
 - 技能加点建议
 - 英雄关系

2. **`Selenium & XPath`** 采集的数据包括

    该部分内容被HTML注释，且`注释内容`与`页面展示（即肉眼所见内容）`不同
- 铭文搭配建议
- 出装建议

### 准备工作

In [1]:
### 导库、读取数据库
import re
import pymongo
import requests
from lxml import etree
from selenium import webdriver
from selenium.webdriver.common.by import By
from selenium.webdriver import ChromeOptions
from selenium.common.exceptions import NoSuchElementException

client = pymongo.MongoClient(host='localhost', port=27017)
db = client['HonorOfKings']
collection = db['herolist']

results = collection.find({})

In [2]:
### ✅英雄基本信息
### ✅技能介绍
### ✅技能加点建议
### ✅英雄关系

class LxmlMode:
    def __init__(self, url):
        res = requests.get(url)
        res.encoding = 'gbk'
        self.html = etree.HTML(res.text)

    ### ✅英雄基本信息
    '''
        返回一个字典
    '''
    def get_cover_info(self):
        # 英雄基本信息
        cover      = self.html.xpath('//div[@class="cover"]')[0]
        
        cover_name = cover.xpath('./h2/text()')[0]      # 英雄名
        herodetail_sort = cover.xpath('./span/i/@class')[0]     # 英雄类型
        cover_list = []

        cover_value = {
            '生存能力' : int(cover.xpath('.//ul/li[1]/span/i/@style')[0].split(':')[1][:-1]) / 100,
            '攻击伤害' : int(cover.xpath('.//ul/li[2]/span/i/@style')[0].split(':')[1][:-1]) / 100,
            '技能效果' : int(cover.xpath('.//ul/li[3]/span/i/@style')[0].split(':')[1][:-1]) / 100,
            '上手难度' : int(cover.xpath('.//ul/li[4]/span/i/@style')[0].split(':')[1][:-1]) / 100,
        }

        cover_info = {
            '英雄名称':cover_name, 
            '英雄类型':herodetail_sort[-1:], 
            '英雄基础信息':cover_value
            }
        
        return cover_info

    ### ✅技能介绍
    '''
        返回一个列表，列表内容包括每一个技能的介绍
    '''
    def get_skill_info_details(self):
        # 技能介绍
        skill_info = self.html.xpath('//div[contains(@class, "skill-show")]')[0]
        
        skill_info_details = []
        for div in skill_info.xpath('./div'):
            if len(div.xpath('./p[1]/b/text()')) == 0:
                pass
            else:
                skill_name = div.xpath('./p[1]/b/text()')[0]            # 技能名
                skill_time = div.xpath('./p[1]/span[1]/text()')[0][4:].split('/')  # 技能冷却值
                skill_need = div.xpath('./p[1]/span[2]/text()')[0][3:]  # 技能消耗
                skill_desc = div.xpath('./p[2]/text()')                 # 技能描述
                skill_info_details.append({
                    '技能名称' : skill_name,
                    '冷却时间（单位/秒）' : skill_time,
                    '消耗值' : skill_need,
                    '技能描述' : skill_desc,
                })

        return skill_info_details

    ### ✅技能加点建议
    '''
        返回一个字典
    '''
    def get_skill_upgrade_sugg(self):
        sugg_info2 = self.html.xpath('//div[contains(@class, "sugg-info2")]/p[contains(@class, "sugg-name")]')

        major_skill_sugg = sugg_info2[0].xpath('./span/text()')[0]
        minor_skill_sugg = sugg_info2[1].xpath('./span/text()')[0]
        hero_skill_sugg  = sugg_info2[2].xpath('./span/text()')[0].split('/')

        skill_upgrade_sugg = {
            '主升' : major_skill_sugg,
            '副升' : minor_skill_sugg,
            '召唤师技能' : hero_skill_sugg,
        }

        return skill_upgrade_sugg

    ### ✅英雄关系
    '''
        返回一个字典【多层】 
    '''
    def get_hero_relationship(self):
        hero_info_box = self.html.xpath('//div[@class="hero-info-box"]/div/div')

        def hero_info(xpath_):
            ids = [i.split('.')[0] for i in xpath_.xpath('./div[2]/ul/li/a/@href')]
            tips = xpath_.xpath('./div[3]/p/text()')
            
            relationship_dict = []
            for item in list(zip(ids, tips)):
                relationship_dict.append({
                    'id':item[0],
                    'tip':item[1]
                })
            return relationship_dict
        
        hero_relationship = {}
        for i in range(len(hero_info_box)):
            if i == 0:
                hero_relationship['最佳搭档'] = hero_info(xpath_=hero_info_box[i])
            elif i == 1:
                hero_relationship['压制英雄'] = hero_info(xpath_=hero_info_box[i])
            else:
                hero_relationship['被压制英雄'] = hero_info(xpath_=hero_info_box[i])
        
        return hero_relationship


In [3]:
### ✅出装建议
### ✅铭文搭配建议

class SeleniumMode:
    def __init__(self, url):
        option = ChromeOptions()
        option.add_argument('--headless')
        self.browser = webdriver.Chrome(options = option)
        self.browser.get(url)

    ## 出装建议【✅】
    '''
        返回一个元组，包含：
        1. (推荐出装一, Tips)
        2. (推荐出装二, Tips)
    '''
    def get_equip_sugg(self):
        equip_suggs  = self.browser.find_elements(By.CSS_SELECTOR, '.equip-bd > div')
        equip_1_info = []
        equip_2_info = []
        i = 0
        for equip_sugg in equip_suggs:
            i += 1
            tips = equip_sugg.find_element(By.XPATH, './p').text
            for equip in equip_sugg.find_elements(By.XPATH, './ul/li/a/div'):
                name       = equip.find_element(By.XPATH, './div[1]/div/h4').get_attribute('textContent')
                sale_price = int(equip.find_element(By.XPATH, './div[1]/div/p[1]').get_attribute('textContent')[3:])
                price      = int(equip.find_element(By.XPATH, './div[1]/div/p[2]').get_attribute('textContent')[3:])
                features   = equip.find_element(By.XPATH, './div[2]/p[1]').get_attribute('textContent')
                try:
                    desc       = equip.find_element(By.XPATH, './div[2]/p[2]').get_attribute('textContent')
                except NoSuchElementException:
                    desc       = None
                equip_info_dict = {
                    '装备名' : name,
                    '售价' : sale_price,
                    '总价' : price,
                    '特性' : features,
                    '描述/被动' : desc,
                }
                if i == 1:
                    equip_1_info.append(equip_info_dict)
                    equip_1_tips = tips
                else:
                    equip_2_info.append(equip_info_dict)
                    equip_2_tips = tips

        return ({'推荐出装一' : equip_1_info, '推荐出装建议' : equip_1_tips}, {'推荐出装二' : equip_2_info, '推荐出装建议' : equip_2_tips})

    ## 铭文搭配建议【✅】
    '''
        返回一个元组，包含：
        1. 铭文信息
        2. 铭文搭配Tips
    '''
    def get_ming_sugg(self):
        sugg_info = self.browser.find_element(By.CSS_SELECTOR, '.sugg-info.info')

        sugg_ming_tips = sugg_info.find_element(By.XPATH, './p').text
        lis = sugg_info.find_elements(By.XPATH, './ul/li')
        sugg_ming = []
        for li in lis:
            name = li.find_element(By.XPATH, './p[1]/em').text

            try:
                physical_attack = li.find_element(By.XPATH, './p[2]').text
                physical_penetration = li.find_element(By.XPATH, './p[3]').text
            except NoSuchElementException:
                physical_penetration = None
            ming_sugg_dict = {
                '铭文名称' : name,
                '属性一' : physical_attack,
                '属性二' : physical_penetration,
            }
            sugg_ming.append(ming_sugg_dict)
        
        return (sugg_ming, sugg_ming_tips)


In [4]:
### 单个URL测试

url = 'https://pvp.qq.com/web201605/herodetail/109.shtml'

# LxmlMode(url).get_cover_info()            # ✅英雄基本信息
# LxmlMode(url).get_skill_info_details()    # ✅技能介绍
# LxmlMode(url).get_skill_upgrade_sugg()   # ✅技能加点建议
# LxmlMode(url).get_hero_relationship()     # ✅英雄关系

# SeleniumMode(url).get_equip_sugg()    # ✅出装建议
# SeleniumMode(url).get_ming_sugg()     # ✅铭文搭配建议

### 正式采集

#### 一、第 1 部分【✅英雄基本信息、技能介绍、技能加点建议、英雄关系】

In [536]:
### 遍历每一个英雄的 URL
import pymongo
client = pymongo.MongoClient(host='localhost', port=27017)
db = client['HonorOfKings']
collection_list = db['herolist']    # 从该集合中读取英雄url进而采集每个英雄的信息
collection_info = db['heroinfo']    # 采集到的每个英雄的信息存入此集合

i = 0
results = collection_list.find({})
for result in results:
    i += 1
    print('正在采集：【第{}个】'.format(i))
    name = result['cname']
    url = result['ename']
    id = url.split('/')[-1].split('.')[0]

    info1 = LxmlMode(url).get_cover_info()          # ✅英雄基本信息
    info2 = LxmlMode(url).get_skill_info_details()  # ✅技能介绍
    info3 = LxmlMode(url).get_skill_upgrade_sugg()  # ✅技能加点建议
    info4 = LxmlMode(url).get_hero_relationship()   # ✅英雄关系

    collection_info.insert_one({
        '英雄ID' : id,
        '英雄名' : name,
        '英雄URL' : url,
        '基本信息' : info1,
        '技能介绍' : info2,
        '技能加点建议' : info3,
        '英雄关系' : info4,
    })


正在采集：【第1个】
正在采集：【第2个】
正在采集：【第3个】
正在采集：【第4个】
正在采集：【第5个】
正在采集：【第6个】
正在采集：【第7个】
正在采集：【第8个】
正在采集：【第9个】
正在采集：【第10个】
正在采集：【第11个】
正在采集：【第12个】
正在采集：【第13个】
正在采集：【第14个】
正在采集：【第15个】
正在采集：【第16个】
正在采集：【第17个】
正在采集：【第18个】
正在采集：【第19个】
正在采集：【第20个】
正在采集：【第21个】
正在采集：【第22个】
正在采集：【第23个】
正在采集：【第24个】
正在采集：【第25个】
正在采集：【第26个】
正在采集：【第27个】
正在采集：【第28个】
正在采集：【第29个】
正在采集：【第30个】
正在采集：【第31个】
正在采集：【第32个】
正在采集：【第33个】
正在采集：【第34个】
正在采集：【第35个】
正在采集：【第36个】
正在采集：【第37个】
正在采集：【第38个】
正在采集：【第39个】
正在采集：【第40个】
正在采集：【第41个】
正在采集：【第42个】
正在采集：【第43个】
正在采集：【第44个】
正在采集：【第45个】
正在采集：【第46个】
正在采集：【第47个】
正在采集：【第48个】
正在采集：【第49个】
正在采集：【第50个】
正在采集：【第51个】
正在采集：【第52个】
正在采集：【第53个】
正在采集：【第54个】
正在采集：【第55个】
正在采集：【第56个】
正在采集：【第57个】
正在采集：【第58个】
正在采集：【第59个】
正在采集：【第60个】
正在采集：【第61个】
正在采集：【第62个】
正在采集：【第63个】
正在采集：【第64个】
正在采集：【第65个】
正在采集：【第66个】
正在采集：【第67个】
正在采集：【第68个】
正在采集：【第69个】
正在采集：【第70个】
正在采集：【第71个】
正在采集：【第72个】
正在采集：【第73个】
正在采集：【第74个】
正在采集：【第75个】
正在采集：【第76个】
正在采集：【第77个】
正在采集：【第78个】
正在采集：【第79个】
正在采集：【第80个】
正在采集：【第81个】
正在采集：【第82个】
正在采集：【第83个】
正在采集：【第84个】
正

#### 二、第 2 部分【✅出装建议、铭文搭配建议】

##### 说明

- 通过 PyMongo 在 **`heroinfo`** 集合中新增 两个字段（✅出装建议、✅铭文搭配建议）

> 参考链接：
> 
> [python + pymongo: how to insert a new field on an existing document in mongo from a for loop](https://stackoverflow.com/questions/15666169/python-pymongo-how-to-insert-a-new-field-on-an-existing-document-in-mongo-fro)

<div align=center>
<img alt="图 4" src="../images/70c0d9ca5d987cac054866a063cd094fd8bc43e56e13e7fd4648439e4334dc06.png" width=75%/>  
</div>

```Python
col.update_many({"NewField_Name": {"$exists": False}}, {"$set": {"NewField_Name": "NewField_Default_Value"}})
```

- 根据ID，同时更新两个字段的值

> 参考链接
> 
> [2.1. Update Multiple Fields of a Single Document](https://www.baeldung.com/mongodb-update-multiple-fields#1-update-multiple-fields-of-a-single-document)

<div align=center>
<img alt="图 5" src="../images/4087f8a09569ce5cdffa3f9d03a5ad4ba5cd48c7f99d698968267984d0bd7d18.png" width=75%/>  
</div>

##### 代码

In [501]:
### 新增两列 字段，初试值为空
import pymongo
client = pymongo.MongoClient(host='localhost', port=27017)
db = client['HonorOfKings']
collection = db['heroinfo']

collection.update_many({'出装建议':{"$exists":False}}, {'$set':{'出装建议':None}})
collection.update_many({'铭文搭配建议':{"$exists":False}}, {'$set':{'TEST2':None}})

<pymongo.results.UpdateResult at 0x1a6f1ddb1f0>

In [10]:
### 遍历每一个英雄的 URL
import pymongo
client = pymongo.MongoClient(host='localhost', port=27017)
db = client['HonorOfKings']
collection_info = db['heroinfo']

i = 0
# results = collection_info.find({})
results = collection_info.find({'出装建议' : {'$exists':None}})
for result in results:
    i += 1
    print('【第{}个】'.format(i))
    url = result['英雄URL']
    id = url.split('/')[-1].split('.')[0]

    info5 = SeleniumMode(url).get_equip_sugg()      # ✅出装建议
    info6 = SeleniumMode(url).get_ming_sugg()       # ✅铭文搭配建议

    collection.update_one(
        {"英雄ID":id},                  # 条件
        {"$set":{                       # 更新 数据
            "出装建议":info5, 
            "铭文搭配建议":info6
            }
        }
    )

【第1个】
【第2个】
【第3个】
【第4个】
【第5个】
【第6个】
【第7个】
【第8个】
【第9个】
【第10个】
【第11个】
【第12个】
【第13个】
【第14个】
【第15个】
【第16个】
【第17个】
【第18个】
【第19个】
【第20个】
【第21个】
【第22个】
【第23个】
【第24个】
【第25个】
【第26个】
【第27个】
【第28个】
【第29个】
【第30个】
【第31个】
【第32个】
【第33个】
【第34个】
【第35个】
【第36个】
【第37个】


##### 报错一

- 【报错类型】
  
  **`NoSuchElementException`**

<div align=center>
<img alt="图 6" src="../images/7992217f50da0f35d13c6bb0d87477587ffc4bee6df5fee0d1241caeb19d589d.png" width=75%/>  
</div>

- 【报错原因】
  
  ID: 107 的英雄: 墨子
  其铭文搭配建议所对应的属性，存在只有一个的问题

  <div align=center>
  <img alt="图 7" src="../images/58c3f244c2763c922033b05b4743a26799916a901ee157bd1b40468e5fa2c456.png" width=75%/>  
  </div>

- 【解决方法】
  
  增加异常处理方法
  <div align=center>
  <img alt="图 8" src="../images/9d542f16c775119ed060e9dfb00f2e4813a5efe190777fbf8f96f3ae2a9bf81d.png" width=75%/>  
  </div>

- 【再次报错】

  <div align=center>
  <img alt="图 9" src="../images/bf2b953ff7fc69a373bc8c8be57bf9f1a2393c4cc344659e56b7c529a2ebee9e.png" width=75%/>  
  </div>

- 【再次报错的原因】

  1) [python selenium webscraping "NoSuchElementException" not recognized](https://stackoverflow.com/questions/19200497/python-selenium-webscraping-nosuchelementexception-not-recognized)

  2) [Python Selenium之异常处理](https://www.cnblogs.com/cnkemi/p/8985654.html)

  需要导入 `Selenium` 异常模块
  
  ```Python
  from selenium.common.exceptions import NoSuchElementException
  ```

- 【成功解决】

  <div align=center>
  <img alt="图 10" src="../images/4efae9a06ef276da7a449acd94ee2914b306df59d1a2fb860d2cf3852cb06bb3.png" width=75%/>  
  </div>