# 获取天猫左侧菜单一二级目录

本部分代码主要是抓取天猫左侧菜单栏的一二级类目下的分类信息，如下图所示

[![knfplQ.md.png](https://s2.ax1x.com/2019/01/26/knfplQ.md.png)](https://imgchr.com/i/knfplQ)

在图像的左方是一级菜单，显示了天猫所有产品的一级类目，当我们吧鼠标移到一级类目上时，就会弹出二级类目菜单，通过Chrome的控制台我们可以了解到一二级类目是异步加载（按照用户的不同操作时间先后加载）的，从常规思维讲，我们需要做的是把用selenium操作了浏览器，把鼠标移到所有的一级类目菜单上，在试用`find_elements_by_XX`之类的webdriver方法获取text文本。

但后来通过chrome查看后台的交互逻辑发现，原来当用户鼠标移动到一级类目菜单上时，浏览器实际上作了一个request请求；服务器后台返回了一个JSON包（异步加载的常用形式），而我们所需要的数据都包含在这个包中，知道了这一点，我们就得到了获取一二级分类的思路：

- 1. 直接向后台请求JSON包的地址
- 2. 解析JSON包，获取所需数据。



## 请求连接构建

之后我们获取到了天猫`Request URL`请求的地址，请求地址基本大同小异，异常之处就是我们要修改的地方，如下所示是`母婴用品`的请求地址：
```
https://www.tmall.com/wow/chaoshi/act/catpopup?wh_id=myyp&wh_logica=HD&wh_callback=__chaoshi_category_popup_myyp
```
接下来是`家庭清洁`的`Request URL`的请求地址：
```
ttps://www.tmall.com/wow/chaoshi/act/catpopup?wh_id=jtqj&wh_logica=HD&wh_callback=__chaoshi_category_popup_jtqj
```
可以看到两句中只有两处不同之处（`myyp`和`jtqj`），这两处分别是母婴用品和家庭情节的拼音首字母。

到此为止我们已经知道该如何构建天猫一二级分类的Request URL了，接下来我们要做的就是获取JSON并解析。

In [1]:
# 全部的需求包
from urllib import request
from urllib.request import Request
from bs4 import BeautifulSoup
from lxml import etree
import requests
import pandas as pd
import json
import time
from pandas.io.json import json_normalize
import re

In [2]:
import requests
# 根据Json文件的请求链接得到主菜单的排序方式，于是制作链接片段
url_forwards = 'https://www.tmall.com/wow/chaoshi/act/catpopup?wh_id='
url_back = '&wh_logica=HD&wh_callback=__chaoshi_category_popup_'
url_small = ['jksp','spyl','lyfs','mrxh','jjjd','jtqj','myyp']

# 制作链接列表
result = []
for i in url_small:
    result.append(url_forwards+i+url_back+i)
# 遍历列表，访问服务器，得到所有的Json结果
JsonResult = []
for jsonURL in result:
    JsonResult.append(requests.get(jsonURL))
    print(jsonURL)
    time.sleep(5)

https://www.tmall.com/wow/chaoshi/act/catpopup?wh_id=jksp&wh_logica=HD&wh_callback=__chaoshi_category_popup_jksp
https://www.tmall.com/wow/chaoshi/act/catpopup?wh_id=spyl&wh_logica=HD&wh_callback=__chaoshi_category_popup_spyl
https://www.tmall.com/wow/chaoshi/act/catpopup?wh_id=lyfs&wh_logica=HD&wh_callback=__chaoshi_category_popup_lyfs
https://www.tmall.com/wow/chaoshi/act/catpopup?wh_id=mrxh&wh_logica=HD&wh_callback=__chaoshi_category_popup_mrxh
https://www.tmall.com/wow/chaoshi/act/catpopup?wh_id=jjjd&wh_logica=HD&wh_callback=__chaoshi_category_popup_jjjd
https://www.tmall.com/wow/chaoshi/act/catpopup?wh_id=jtqj&wh_logica=HD&wh_callback=__chaoshi_category_popup_jtqj
https://www.tmall.com/wow/chaoshi/act/catpopup?wh_id=myyp&wh_logica=HD&wh_callback=__chaoshi_category_popup_myyp


我们已经获得了全部的数据，接下来就是清洗这部分数据了，首先我们来看一下这部分数据长什么样子。

In [3]:
JsonResult[0].text

'\r\n\r\n\n\n\n      \n        \n      \n    \n\n\n\n\n\n\n\n    \n\n\n\n\n    __chaoshi_category_popup_jksp({"data":{"cats":[{"cats":[{"highlight":false,"link":"//list.tmall.com/search_product.htm?spm=1.1.0.0.PJMbwM&user_id=725677994&cat=51440019&active=1&acm=lb-zebra-26901-351264.1003.4.468294&style=g&sort=s&scm=1003.4.lb-zebra-26901-351264.OTHER_14440874222721_468294&industryCatId=51462017","text":"进口纯牛奶"},{"highlight":true,"link":"//list.tmall.com/search_product.htm?spm=1.1.0.0.1n8FE3&user_id=725677994&cat=51456017&active=1&acm=lb-zebra-26901-351264.1003.4.468294&style=g&sort=s&scm=1003.4.lb-zebra-26901-351264.OTHER_14440870375242_468294&industryCatId=51462017","text":"进口酸奶"},{"highlight":false,"link":"//list.tmall.com/search_product.htm?spm=1.1.0.0.Pp5jwS&user_id=725677994&cat=53992015&active=1&acm=lb-zebra-26901-351264.1003.4.468294&style=g&sort=td&search_condition=23&scm=1003.4.lb-zebra-26901-351264.OTHER_14440881917703_468294&industryCatId=51462017","text":"进口成人奶粉"},{"highlight

In [4]:
JsonResult[0].text[:100]

'\r\n\r\n\n\n\n      \n        \n      \n    \n\n\n\n\n\n\n\n    \n\n\n\n\n    __chaoshi_category_popup_jksp({"data":{"cats"'

In [5]:
JsonResult[0].text[-100:]

'608&scm=1003.4.lb-zebra-26901-329726.OTHER_14434855470411_456608"}},"code":"100","desc":"success"})\n'

从数据的展示我们可以看到，在数据的开头和结尾有一大段数据是没有用处的：

```'\r\n\r\n\n\n\n      \n        \n      \n    \n\n\n\n\n\n\n\n    \n\n\n\n\n    __chaoshi_category_popup_jksp(`JSON内容`)\n'```

我们需要的是`JSON内容部分`，那么首先我们先进行数据提取，把有用的数据提取出来。

In [6]:
JsonToloads = []
# Json的原始数据不规范，先对原始数据进行处理，取(*)之间的值
for i in JsonResult:
    JsonToloads.append(re.split(r'\(|\)',i.text)[1])

就下来我们使用pandas包中的json_normalize包来对获取到的JSON文件进行解析，在解析过程中，我们遇到了很多语法陷阱，比如在不同的一二级类目中，活动`acts`和品牌`brands`的存在与否是不一样，我们的目的是为了提取一级类目下的所有二级类目，自然=也想把活动和品牌的信息也提取出来，于是在处理中，我们设置了两个判断语句。

In [9]:
import json
from pandas.io.json import json_normalize

# 创建list作为一级菜单
url_small_name = ['进口食品','食品饮料','粮油副食','美容洗护','家居家电','家庭清洁','母婴用品']

# 将Json数据转为DataFrame数据
def JsonToDataFrame(result):
    mergeOne = json_normalize(result['data'],'cats')[['title','link']]

    mergeTwo = json_normalize(result['data']['cats'],'cats',['cats','title'])[['title','text','link']]
    mergeTwo.rename(columns={'link':'productLink'},inplace=True)
    result_save = pd.merge(mergeOne,mergeTwo,on = 'title')

    acts = json_normalize(result['data']['acts'])
    # 这个判断是为了判断出活动是否为空，为空不执行这一步
    if acts.shape[0]!=0:
        acts = acts[['text','link']]
        acts.rename(columns={'link':'productLink'},inplace=True)
        result_save = pd.merge(result_save,acts,how = 'outer')
    # 这个判断是为了判断出品牌是否为空，为空不执行
    brands = json_normalize(result['data']['brands'])
    if brands.shape[0]!=0:
        brands = brands[['text','link']]
        brands.rename(columns={'link':'productLink'},inplace=True)
        result_save = pd.merge(result_save,brands,how = 'outer')

    return result_save
# 将不同的类目的DataFrame表拼接成一张表并返回

def ResultSave(JsonToloads):
    for i in range(len(JsonToloads)):
        name = url_small[i]
        values = json.loads(JsonToloads[i])
        if i == 0:
            result = JsonToDataFrame(values)
            result['Main']=url_small_name[i]
        else:
            temp = JsonToDataFrame(values)
            # 增加一级菜单列
            temp['Main']=url_small_name[i]
            result = pd.merge(result,temp,how='outer')
        print(url_small_name[i],'OK',end = '\t')
    return result

查看返回的数据形式

In [10]:
result = ResultSave(JsonToloads)
result.iloc[0:5]

进口食品 OK	食品饮料 OK	粮油副食 OK	美容洗护 OK	家居家电 OK	家庭清洁 OK	母婴用品 OK	

Unnamed: 0,title,link,text,productLink,Main
0,进口牛奶,//list.tmall.com/search_product.htm?spm=3.4052...,进口纯牛奶,//list.tmall.com/search_product.htm?spm=1.1.0....,进口食品
1,进口牛奶,//list.tmall.com/search_product.htm?spm=3.4052...,进口酸奶,//list.tmall.com/search_product.htm?spm=1.1.0....,进口食品
2,进口牛奶,//list.tmall.com/search_product.htm?spm=3.4052...,进口成人奶粉,//list.tmall.com/search_product.htm?spm=1.1.0....,进口食品
3,进口牛奶,//list.tmall.com/search_product.htm?spm=3.4052...,进口含乳饮料,//list.tmall.com/search_product.htm?spm=1.1.0....,进口食品
4,进口牛奶,//list.tmall.com/search_product.htm?spm=3.4052...,进口有机牛奶,//list.tmall.com/search_product.htm?spm=1.1.0....,进口食品


通过浏览数据发现表中的`link`和`productLink`的连接缺了`https:`部分，我们用正则表达式补全这一部分。

In [11]:
result['link'] = result['link'].str.replace('//list.','https://list.')
result['productLink'] = result['productLink'].str.replace('//list.','https://list.')

In [12]:
result[0:5]

Unnamed: 0,title,link,text,productLink,Main
0,进口牛奶,https://list.tmall.com/search_product.htm?spm=...,进口纯牛奶,https://list.tmall.com/search_product.htm?spm=...,进口食品
1,进口牛奶,https://list.tmall.com/search_product.htm?spm=...,进口酸奶,https://list.tmall.com/search_product.htm?spm=...,进口食品
2,进口牛奶,https://list.tmall.com/search_product.htm?spm=...,进口成人奶粉,https://list.tmall.com/search_product.htm?spm=...,进口食品
3,进口牛奶,https://list.tmall.com/search_product.htm?spm=...,进口含乳饮料,https://list.tmall.com/search_product.htm?spm=...,进口食品
4,进口牛奶,https://list.tmall.com/search_product.htm?spm=...,进口有机牛奶,https://list.tmall.com/search_product.htm?spm=...,进口食品


保存数据(到TmallInformation.db中），完成对天猫左侧一二级菜单栏的抓取。

In [18]:
import sqlite3

with sqlite3.connect('TmallInformation.db') as con :
    # 保存数据如果在数据库中表存在，则取代它
    result[['Main','title','link','text','productLink']].to_sql(name= 'brands',con = con ,if_exists='replace')