# 荔枝爬虫
所有代码都已经托管在[Github](https://github.com/XiaohuiLee/lizhiFM)上，克隆仓库请用：
```
git clone https://github.com/XiaohuiLee/lizhiFM.git
```
## 1、主要库
* requests：http解析，网页内容抓取
* pandas：数据规约整理
* numpy：util工具类
* re：正则表达式库，匹配模式
* urllib：下载图片用


base url:`http://www.lizhi.fm/hot/`
## 2、摘要
此爬虫的主要目的是爬取荔枝FM热榜下的dj信息，包括FM频道，DJ，个人信息主页，其中个人信息主页用于进一步抓取DJ信息的声音列表数量，播放量，粉丝数以及归属栏目，并将数据保存在本地平面文件。
## 3、主要步骤
* 爬取：通过requests使用GET方法传输数据包，主页没有反爬虫机制，所以没有使用代理IP。
* 解析：爬取回来的网页内容是UTF-8文本，使用正则表达式匹配字符串抽取信息。
* 存储：将数据规约成DataFrame，调用to_csv方法写到csv文件中。



In [1]:
# 2018年1月28日20:44:43
import requests
import pandas as pd
import numpy as np
import urllib
import re
import os

In [2]:
# 一级页面
baseUrl = "http://www.lizhi.fm/hot/"
# 用户信息页面
prefix = 'http://www.lizhi.fm'

header = {
    "User-Agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/62.0.3202.94 Safari/537.36"
}

sess = requests.Session()

df = pd.DataFrame(columns=['FM','Author','href'])
# 列名：
#     FM：FM频道ID
#     Author：DJ
#     href：DJ个人主页链接

In [3]:
# getContent(url)
# 作用：抓取网页内容
# 参数：
#         url：抓取地址
def getContent(url):
    contentRaw = sess.get(url, headers = header).text
    content = re.sub(r'\s+', "", contentRaw)
    return(content)

In [4]:
# fetchElements(content)
# 作用：抓取一级页面下的FM频道，DJ，以及个人主页链接
# 参数：
#     content：网页UTF-8文本内容
# 返回：
#     FM频道，DJ，以及个人主页
def fetchElements(content):
    #     fm列表正则表达式
    re_FM = r'<spanclass="radioBandbold">.*?<i>(.*?)</i></span>'
    #     作者列表正则表达式
    re_author = r'<pclass="radioNamefontYaHei"><ahref="//www.lizhi.fm/user/.*?">(.*?)</a>'
    #     作者个人网页列表正则表达式
    re_href = r'<liclass="radio_list"><ahref="(.*?)"class="radioCover"'
    #     作者头像列表正则表达式
    re_cover = r'data-echo="(.*?160x160.*?)"'
    
    #     匹配内容
    FM = re.findall(re_FM, content)
    author = re.findall(re_author, content)
    href = re.findall(re_href, content)
    cover = re.findall(re_cover, content)
    return(FM,author,href,cover)

In [5]:
# save2csv(df)
# 作用：将DataFrame格式数据保存到csv文件
# 参数：
#     df：待保存的DataFrame
# 返回：
#     无
def save2csv(df):
    with open('FM.CSV', 'a+', encoding='utf-8-sig') as csvfile:
        df.to_csv(csvfile, index=False, header=False,encoding='utf-8-sig')

In [6]:
# findNext(content)
# 作用：找到一级页面的下一页链接
# 参数：
#     content：网页纯文本
# 返回：
#     假如有下一页，找到短连接并返回，否则返回空
def findNext(content):
    Next = re.findall(r'</a><ahref="\./(\d+.html)"class="next">', content)
    return(Next)

In [7]:
# save_img(img_url,file_name=None,file_path='img')
# 作用：保存图片到本地
# 参数：
#     img_url：网页图片的远程连接
#     file_name：图片文件名
#     file_path：图片保存到本地的本地路径，默认是当前路径下的img文件夹
# 返回：
#     无
def save_img(img_url,file_name=None,file_path='img'):
    #保存图片到磁盘文件夹 file_path中，默认为当前脚本运行目录下的 /img文件夹
    try:
        if not os.path.exists(file_path):
            print('文件夹',file_path,'不存在，重新建立')
            #os.mkdir(file_path)
            os.makedirs(file_path)
        #获得图片后缀
        file_suffix = os.path.splitext(img_url)[1]
        #拼接图片名（包含路径）
        filename = '{}{}{}{}'.format(file_path,os.sep,file_name,file_suffix)
       #下载图片，并保存到文件夹中
        urllib.request.urlretrieve(img_url,filename=filename)
    except IOError as e:
        print('文件操作失败',e)
    except Exception as e:
        print('错误 ：',e)

In [8]:
# fetchUserInfo(content)
# 作用：抓取DJ个人信息，包括：声音列表数，播放数，粉丝数，归属一类标签，归属二类标签（若无标签返回空值）
# 参数：
#     content：二级页面纯文本内容
# 返回：
#     声音列表数，播放数，粉丝数，归属一类标签，归属二类标签
def fetchUserInfo(content):
#     声音列表数正则
    re_countRadioList = r'<iclass="stat-audio-icon"></i><spanclass="text">(.*?)</span>'
#     播放数正则
    re_countPlay = r'<iclass="stat-play-icon"></i><spanclass="text">(.*?)</span>'
#     粉丝数正则
    re_countFans = r'<iclass="stat-fans-icon"></i><spanclass="text">(.*?)</span>'
#     归属一类标签
    re_label1 = r'<spanclass="radio-info-label-b-label">(.*?)</span>'
#     归属二类标签
    re_label2 = r'class="radio-info-label-label">(.*?)</a>'
#     匹配模式
    countRadios = re.findall(re_countRadioList, content)[0]
    countPlays = re.findall(re_countPlay, content)[0]
    countFans = re.findall(re_countFans, content)[0]
    countPlays = chi2int(countPlays)
    countFans = chi2int(countFans)
    label1 = re.findall(re_label1, content)
    label2 = re.findall(re_label2, content)
#         判断label空不空
    if label1:
        label1 = label1[0]
    else:
        label1 = '空'
    if label2:
        label2 = label2[0]
    else:
        label2 = '空'
    return(countRadios, countPlays, countFans, label1, label2)

In [9]:
# grabUserInfo(href):
# 作用：抓取DJ个人信息的主函数，结合了getContent()和fetchUserInfo
# 参数：
#     href：二级页面地址
# 返回：
#     声音列表数，播放数，粉丝数，归属一类标签，归属二类标签
def grabUserInfo(href):
    url = prefix + href
    print("正在抓取："+url)
    userPage = getContent(url)
    Radios, Plays, Fans, label1, label2 = fetchUserInfo(userPage)
    print([Radios, Plays, Fans, label1, label2])
    return(Radios, Plays, Fans, label1, label2)

In [10]:
# makeDf(FM,Author)
# 作用：将FM频道ID和DJ存入到DataFrame
# 参数：
#     FM:待保存的Fm频道,数组形式
#     Author:待保存的DJ名字,数组形式
# 返回：
#     格式化后的df
def makeDf(FM,Author):
    df = pd.DataFrame(columns=['FM','Author'])
    df.FM = FM
    df.Author = Author
    return df

In [11]:
# chi2int(strin)
# 作用：因为抽取到的播放数,粉丝数都是用中国的"亿","万"作为单位,没法子被Python识别,因此有必要将这类单位转化成对应的十进制数
# 参数：
#     strin:待传入的字符串(播放数\粉丝数)
# 返回：
#     十进制数
def chi2int(strin):
    mask = r'\d+'
    result = re.findall(mask, strin)
    if "亿" in strin:
        print(result)
        yi = int(result[0]) * int(1e8)
        wan = int(result[1]) * int(1e4)
        strin = yi + wan
    elif "万" in strin:
        strin = int(float(strin[0:-1]) * int(1e4))
    return strin

In [12]:
# scrapper(baseUrl)
# 作用：全局main函数,集合了上述所有函数,是整个爬虫引擎的主体
# 参数：
#     baseurl:一级页面地址
# 返回：
#     找到当前一级页面地址的下一页地址
def scrapper(baseUrl):
    # 1、读取第一页，返回页面
#     columns=['Radios', "Plays", "Fans"]
    userDf = pd.DataFrame()
    content = getContent(baseUrl)
    # 2、获取FM和Author,Href, Cover
    FM, author, href, cover = fetchElements(content)
    for hr in href:
        Radios, Plays, Fans, label1, label2 = grabUserInfo(hr)
        se = pd.Series([Radios, Plays, Fans, label1, label2])
        userDf = userDf.append(se, ignore_index=True)
    # 3、1 保存到csv
    _Df = makeDf(FM, author)
    df = pd.concat([_Df, userDf], axis=1)
    save2csv(df)
    # 3、2保存头像到/img
    for co,au in zip(cover, author):
        save_img(co,file_name=au)
    # 4、找到下一页
    Next =findNext(content) 
    # 5、返回下一页
    return(Next)

In [13]:
# 爬虫爬取过程
Next = scrapper(baseUrl)
while Next:
    index = re.findall(r'\d+', str(Next[0]))
    print("这是第"+str(index[0])+"页了。")
    nextUrl = baseUrl + str(Next[0])
    print("爬取地址是："+nextUrl)
    Next = scrapper(nextUrl)
    if not Next:
        print("已经爬取完了哦！")

正在抓取：http://www.lizhi.fm/user/1370548/
['4', '8557']
['828', 485570000, 1748000, '情感', '治愈']
正在抓取：http://www.lizhi.fm/user/36376/
['3', '2848']
['441', 328480000, 2648000, '情感', '治愈']
正在抓取：http://www.lizhi.fm/user/5147926/
['277', 51620000, 547000, '情感', '治愈']
正在抓取：http://www.lizhi.fm/user/13821369/
['913', 52230000, 58000, '亲子', '童话']
正在抓取：http://www.lizhi.fm/user/511685/
['459', 93690000, 1168000, '情感', '治愈']
正在抓取：http://www.lizhi.fm/user/14302642/
['86', 10550000, 239000, '脱口秀', '神吐槽']
正在抓取：http://www.lizhi.fm/user/332/
['1884', 88330000, 716000, '脱口秀', '名嘴秀']
正在抓取：http://www.lizhi.fm/user/12920027/
['4663', 31150000, 55000, '文化', '人文']
正在抓取：http://www.lizhi.fm/user/2552360964061657132/
['1784', 6459000, 40000, '文化', '惊悚']
正在抓取：http://www.lizhi.fm/user/2635684484736916012/
['20', 6282000, '3842', '空', '空']
正在抓取：http://www.lizhi.fm/user/2525632519289351212/
['412', 6622000, 19000, '娱乐', '偶像']
正在抓取：http://www.lizhi.fm/user/1302851/
['879', 77400000, 551000, '情感', '美文']
正在抓取：http://www

['416', 27950000, 343000, '情感', '美文']
正在抓取：http://www.lizhi.fm/user/2615479661388478508/
['2', '500', '6254', '空', '空']
这是第6页了。
爬取地址是：http://www.lizhi.fm/hot/6.html
正在抓取：http://www.lizhi.fm/user/2376944/
['86', 1056000, '5314', '文化', '惊悚']
正在抓取：http://www.lizhi.fm/user/405/
['487', 6550000, 41000, '脱口秀', '达人秀']
正在抓取：http://www.lizhi.fm/user/436/
['306', 24190000, 741000, '情感', '治愈']
正在抓取：http://www.lizhi.fm/user/2590941525339300908/
['219', 3336000, '9487', '音乐', '流行']
正在抓取：http://www.lizhi.fm/user/28471945414645676/
['75', 3911000, 60000, '音乐', '翻唱']
正在抓取：http://www.lizhi.fm/user/4913838/
['470', 7855000, 31000, '亲子', '育儿']
正在抓取：http://www.lizhi.fm/user/2623791471709806636/
['25', '57241', '863', '空', '空']
正在抓取：http://www.lizhi.fm/user/2577585536449418796/
['909', 1829000, 14000, '文化', '惊悚']
正在抓取：http://www.lizhi.fm/user/2640996182985046060/
['39', '6439', '5237', '空', '空']
正在抓取：http://www.lizhi.fm/user/2614868861207350828/
['11', '16055', '722', '脱口秀', '神吐槽']
正在抓取：http://www.lizhi.fm

['346', 2139000, 12000, '音乐', '翻唱']
正在抓取：http://www.lizhi.fm/user/5331694/
['53', 368000, '3510', '文化', '有声书']
正在抓取：http://www.lizhi.fm/user/972519/
['3098', 4247000, 17000, '广播剧', '纯爱']
正在抓取：http://www.lizhi.fm/user/278910/
['1572', 4492000, '8511', '语言', '其他']
这是第11页了。
爬取地址是：http://www.lizhi.fm/hot/11.html
正在抓取：http://www.lizhi.fm/user/886042/
['190', 22610000, 1090000, '情感', '治愈']
正在抓取：http://www.lizhi.fm/user/2540841511733470252/
['477', 1809000, '9107', '情感', '恋爱']
正在抓取：http://www.lizhi.fm/user/2604008956940721708/
['32', 183000, '1595', '广播剧', '现代剧']
正在抓取：http://www.lizhi.fm/user/2502416075502484524/
['52', 2619000, 80000, '二次元', '古风']
正在抓取：http://www.lizhi.fm/user/2578619992209088556/
['39', 498000, 13000, '情感', '治愈']
正在抓取：http://www.lizhi.fm/user/2505036570553053228/
['90', 2566000, 13000, '二次元', '宅文化']
正在抓取：http://www.lizhi.fm/user/2574645747301634604/
['61', 3188000, 274000, '情感', '治愈']
正在抓取：http://www.lizhi.fm/user/3555724/
['104', 16060000, 520000, '音乐', '流行']
正在抓取：http://w

['95', 395000, '2446', '语言', '粤语']
正在抓取：http://www.lizhi.fm/user/2575996535991754284/
['147', 1690000, '6922', '音乐', '纯音乐']
正在抓取：http://www.lizhi.fm/user/2557328424132414508/
['328', 2678000, '7556', '生活', '公益']
正在抓取：http://www.lizhi.fm/user/2498731708674551340/
['319', 284000, '1278', '亲子', '育儿']
正在抓取：http://www.lizhi.fm/user/2613288096343448620/
['24', '85753', '107', '空', '空']
正在抓取：http://www.lizhi.fm/user/2562979439305416236/
['352', '39215', '252', '亲子', '育儿']
这是第16页了。
爬取地址是：http://www.lizhi.fm/hot/16.html
正在抓取：http://www.lizhi.fm/user/103347/
['276', 594000, '4663', '脱口秀', '达人秀']
正在抓取：http://www.lizhi.fm/user/574/
['1', '1876']
['144', 118760000, 100000000, '娱乐', '访谈']
正在抓取：http://www.lizhi.fm/user/575/
['1183', 33750000, 463000, '文化', '有声书']
正在抓取：http://www.lizhi.fm/user/1340759/
['1100', 6695000, 73000, '资讯', '财经']
正在抓取：http://www.lizhi.fm/user/2563480913244696620/
['18', 119000, '5132', '情感', '治愈']
正在抓取：http://www.lizhi.fm/user/12052368/
['558', 11050000, 99000, '情感', '治愈']
正在

正在抓取：http://www.lizhi.fm/user/2522078182381360684/
['49', 981000, 201000, '情感', '恋爱']
正在抓取：http://www.lizhi.fm/user/505903/
['405', 23900000, 303000, '情感', '治愈']
正在抓取：http://www.lizhi.fm/user/2601552886336843820/
['9', '2229', '736', '二次元', '古风']
正在抓取：http://www.lizhi.fm/user/2564447240084700716/
['14', '1525', '1002', '空', '空']
正在抓取：http://www.lizhi.fm/user/2648334487045403180/
['7', '10142', '181', '空', '空']
正在抓取：http://www.lizhi.fm/user/14313261/
['556', 3289000, '4965', '脱口秀', '名嘴秀']
正在抓取：http://www.lizhi.fm/user/2554914983542235180/
['294', 1605000, 11000, '广播剧', '古风剧']
正在抓取：http://www.lizhi.fm/user/2525835580831865388/
['3', '10450', '517', '空', '空']
正在抓取：http://www.lizhi.fm/user/2569305127348106796/
['93', 824000, 38000, '音乐', '翻唱']
这是第21页了。
爬取地址是：http://www.lizhi.fm/hot/21.html
正在抓取：http://www.lizhi.fm/user/2770501/
['172', 3586000, 27000, '广播剧', 'CV']
正在抓取：http://www.lizhi.fm/user/2620869826016632876/
['39', 129000, '5930', '音乐', '翻唱']
正在抓取：http://www.lizhi.fm/user/26466505055

['10', '10621', '2228', '音乐', '流行']
正在抓取：http://www.lizhi.fm/user/4353126/
['151', 14450000, 142000, '情感', '美文']
正在抓取：http://www.lizhi.fm/user/2629237022088654892/
['153', '61460', 12000, '空', '空']
正在抓取：http://www.lizhi.fm/user/2507897813130048556/
['182', 591000, '3845', '二次元', '宅文化']
正在抓取：http://www.lizhi.fm/user/2598385687360518700/
['339', 2711000, 230000, '文化', '有声书']
正在抓取：http://www.lizhi.fm/user/2579810232832128556/
['1', '30950', 27000, '娱乐', '偶像']
正在抓取：http://www.lizhi.fm/user/29917396002093612/
['88', 10450000, 188000, '空', '空']
正在抓取：http://www.lizhi.fm/user/2505296055085584428/
['56', 637000, '8359', '情感', '恋爱']
正在抓取：http://www.lizhi.fm/user/3273804/
['221', 1591000, 10000, '语言', '英语交流']
正在抓取：http://www.lizhi.fm/user/2574455995648348204/
['21', 461000, 147000, '情感', '治愈']
正在抓取：http://www.lizhi.fm/user/2536757450738034220/
['20', 1466000, 20000, '二次元', '同人']
正在抓取：http://www.lizhi.fm/user/2597636151040043052/
['10', 185000, '521', '情感', '心理']
文件操作失败 [Errno 22] Invalid argument