<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#项目概述" data-toc-modified-id="项目概述-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>项目概述</a></span></li><li><span><a href="#数据抓取" data-toc-modified-id="数据抓取-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>数据抓取</a></span><ul class="toc-item"><li><span><a href="#下载网页" data-toc-modified-id="下载网页-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>下载网页</a></span></li><li><span><a href="#获取番剧信息" data-toc-modified-id="获取番剧信息-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>获取番剧信息</a></span><ul class="toc-item"><li><span><a href="#处理数字" data-toc-modified-id="处理数字-2.2.1"><span class="toc-item-num">2.2.1&nbsp;&nbsp;</span>处理数字</a></span></li><li><span><a href="#处理日期" data-toc-modified-id="处理日期-2.2.2"><span class="toc-item-num">2.2.2&nbsp;&nbsp;</span>处理日期</a></span></li><li><span><a href="#估算番剧长度" data-toc-modified-id="估算番剧长度-2.2.3"><span class="toc-item-num">2.2.3&nbsp;&nbsp;</span>估算番剧长度</a></span></li><li><span><a href="#提取信息" data-toc-modified-id="提取信息-2.2.4"><span class="toc-item-num">2.2.4&nbsp;&nbsp;</span>提取信息</a></span></li></ul></li><li><span><a href="#获取合法的mdid" data-toc-modified-id="获取合法的mdid-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>获取合法的mdid</a></span><ul class="toc-item"><li><span><a href="#汇总数据" data-toc-modified-id="汇总数据-2.3.1"><span class="toc-item-num">2.3.1&nbsp;&nbsp;</span>汇总数据</a></span></li></ul></li><li><span><a href="#收集数据" data-toc-modified-id="收集数据-2.4"><span class="toc-item-num">2.4&nbsp;&nbsp;</span>收集数据</a></span></li></ul></li><li><span><a href="#回归分析" data-toc-modified-id="回归分析-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>回归分析</a></span></li><li><span><a href="#可视化" data-toc-modified-id="可视化-4"><span class="toc-item-num">4&nbsp;&nbsp;</span>可视化</a></span></li></ul></div>

# 项目概述

**这里的番剧不仅仅包含动画内容、也包含电影等，只要包含在B站media之中的内容都进行统计分析**

> bilibili，全称为哔哩哔哩弹幕网，亦称哔哩哔哩、bilibili弹幕网，或简称为B站，是总部位于中国大陆上海的一个以ACG相关内容起家的弹幕视频分享网站。\
作为数据分析课程的期末论文，本项目打算从0开始收集B站的番剧数据，包括`播放量`、`追番人数`、`弹幕总数`、`评分`、`评分人数`等等一系列变量。\
而后进行数据的分析与可视化，数据分析部分主要是建立回归模型寻找播放量与其他变量之间的关系，可视化部分主要是对番剧的开播时间进行时间轴上的数量展示，观察什么时期的番剧比较多。

In [20]:
import requests
import parsel
import re
from datetime import datetime
import pandas as pd

# 数据抓取

## 下载网页

已知番剧的media id时，使用requests库下载网页（本项目涉及的全是网页的静态内容），注意编码格式为utf-8

In [21]:
def gethtml(mdid):
    '''
    获取哔哩哔哩番剧详情页面的html文本
    input mdid【int】
    output 对应番剧的详情页面【str】
    '''

    url = f'https://www.bilibili.com/bangumi/media/md{mdid}'
    response = requests.get(url)
    response.encoding = 'utf8'
    html = response.text
    # B站域名下非法的网址会跳转到错误页面，包含以下字符串
    if 'Σ(oﾟдﾟoﾉ) 无法找到该页面~' in html:
        html = 'invalid'
    return html

## 获取番剧信息

### 处理数字

B站的播放量、追番数以及弹幕数经常以万或者亿结尾，写一个函数转换一下

In [22]:
def eval_playdata(s):
    '''
    把playdata中的xxx万、亿转换为数字
    input s【str】
    output 对应数字表达的整数值【int】
    '''

    d = {'万': 1e4, '亿': 1e8}
    try:
        #没有汉字，纯数字
        ans = eval(s)
    except SyntaxError:
        # 判断末尾是不是万或者亿，否则报错
        if s[-1] in d:
            ans = int(eval(s[:-1]) * d[s[-1]])
        else:
            ans = s
    return ans

### 处理日期

由于B站对开播时间的描述不尽相同，故而特别处理一下\
大致有一下几种情况：
- %Y年%m月%d日开播【例如[md7](https://www.bilibili.com/bangumi/media/md7)】
- %Y年%m月开播【例如[md9892](https://www.bilibili.com/bangumi/media/md9892)】
- %Y年开播【例如[md9352](https://www.bilibili.com/bangumi/media/md9352)】
- %Y年%m月%d日上映【例如[md10086](https://www.bilibili.com/bangumi/media/md10086)】
- %Y开播【例如[md27372](https://www.bilibili.com/bangumi/media/md27372)】

In [23]:
def eval_broadcast_date(s):
    '''
    把播放日期格式化为datetime格式
    input s【str】
    output 日期表达的datetime【datetime】
    '''
    
    if '日' in s:
        ans = datetime.strptime(s[:-2], '%Y年%m月%d日')
    elif '月' in s:
        ans = datetime.strptime(s[:-2], '%Y年%m月')
    elif '年' in s:
        ans = datetime.strptime(s[:-2], '%Y年')
    else:
        ans = datetime.strptime(s[:-2], '%Y')
    
    return ans

### 估算番剧长度

In [24]:
def eval_length(over):
    '''
    估算番剧的长度
    input over【str】,例如'已完结，全3集'或者'123分钟'
    output 番剧长度单位为分钟【int】
    '''
    # 去除掉空格
    over = over.replace(' ','')
    if over[-2:]=='分钟':
        length = int(over[:-2])
    elif over[-1]=='话':
        # 按照每一话25分钟估算
        length = int(over[5:-1])*25
    elif over[-1]=='集':
        # 按照每一集45分钟估算
        length = int(over[5:-1])*45
    else:
        length = 'NA'
    return length

### 提取信息

这里主要使用re库配合正则表达式，以及parsel库的css选择器，对网页的元素进行筛选

In [25]:
def getinfo(html):
    '''
    获取番剧的详细信息
    input html【str】
    output 提取到的番剧信息【dict】
    '''

    assert html != 'invalid'
    selector = parsel.Selector(html)
    # 标题
    title = selector.css('.media-info-title-t::text').get()
    # 评分
    score = selector.css('.media-info-score-content::text').get()
    # 评分人数
    review_times = selector.css('.media-info-review-times::text').get()
    # tags
    tags = selector.css('.media-tag::text').getall()
    # 播放数据
    media_info_label = selector.css('.media-info-label::text').getall()
    media_info_play_data = selector.css('em::text').getall()
    play_data = dict(zip(media_info_label, media_info_play_data))
    # 是否为系列
    series = True if '系列' in media_info_label[1] else False
    # 播放量、追番数、弹幕数
    play_times, followers, bullet_screen = selector.css('em::text').getall()
    # 开播时间(是否完结)
    pattern1 = '<div class="media-info-time"><span>.*</span> <span>.*</span></div>'
    prefix_len = len('<div class="media-info-time"><span>')
    suffix_len = len('</span></div>')
    play_season_str = re.search(pattern1, html)[0]
    broadcast_date, _, over = play_season_str.partition('</span> <span>')
    broadcast_date, over = broadcast_date[prefix_len:], over[:-suffix_len]
    # 是否为电影or剧场版
    film = True if '分钟' in over else False
    # 番剧长度
    length = eval_length(over)
    # 是否为大会员专享
    pattern2 = '<div class="btn-pay-wrapper vip-only">'
    vip_only = True if re.search(pattern2, html) else False
    # 整理到一个字典里,这个时候尽量把更多的信息保留下来，所以会有很多后缀为str的变量
    # 后续可以再把这些变量删掉
    info = dict(
        title=title,
        # 可能没有评分
        score=eval(score) if score else 'NA',
        review_times=int(review_times[:-2]) if review_times else 'NA',
        # tags用逗号连接
        tags=','.join(tags),
        play_data=str(play_data),
        series=series,
        film=film,
        # xxx万、亿转换为数字
        play_times=eval_playdata(play_times),
        followers=eval_playdata(followers),
        bullet_screen=eval_playdata(bullet_screen),
        # 字符串时间
        broadcast_date_str=broadcast_date,
        # 转换为时间类型
        broadcast_date=eval_broadcast_date(broadcast_date),
        over_str=over,
        over=True if over[:3] == '已完结' else False,
        length=length,
        vip_only=vip_only)
    return info

In [26]:
getinfo(gethtml(28223043))

{'title': '凡人修仙传',
 'score': 9.6,
 'review_times': 145942,
 'tags': '小说改,古风,励志,战斗',
 'play_data': "{'总播放': '3.6亿', '追番人数': '423.2万', '弹幕总数': '237万'}",
 'series': False,
 'film': False,
 'play_times': 360000000,
 'followers': 4232000,
 'bullet_screen': 2370000,
 'broadcast_date_str': '2020年7月25日开播',
 'broadcast_date': datetime.datetime(2020, 7, 25, 0, 0),
 'over_str': '连载中, 每周日 11:00更新',
 'over': False,
 'length': 'NA',
 'vip_only': True}

## 获取合法的mdid

由于B站的media id是顺序编号的，故而我们这里尝试从0开始往后一次遍历，每次调用函数都会在以及遍历的基础上再向前寻找n个。（B站目前的编号大概已经到了2千万，所以数据量很大，本项目只是选取编号在0-10w的番剧）

In [27]:
def moremdid(n):
    '''
    读取本地的mdidlist.txt文件中的mdid，接着探索更多可能的mdid
    input n【int】
    output 所有已知合法的mdid【list】
    '''

    # 读取文件中的mdidlist
    with open('mdidlist.txt', mode='r') as f:
        mdid = list(map(lambda x: eval(x[:-1]), f.readlines()))
        f.close()
    start = mdid[-1] + 1
    for i in range(start, start + n):
        if requests.get(f'https://www.bilibili.com/bangumi/media/md{i}'):
            mdid.append(i)
    # 覆盖写，更新源文件中的mdidlist
    with open('mdidlist.txt', mode='w') as f:
        f.writelines(map(lambda x: str(x) + '\n', mdid))
        f.close()
    print(f'completed, length of mdid now is {len(mdid)}')
    return mdid

### 汇总数据

使用pandas把上面整理好的数据汇总到一起，并且写入到csv文件中备用

In [28]:
def generate_df(mdid):
    '''
    获取mdid中所有番剧的信息，放到一个df中
    input mdid【list】
    output 汇总的所有番剧信息【pandas.DataFrame】
    '''
    l = []
    for i in mdid:
        # 用try语句捕获错误，尽量让程序一运行发现更多的错误
        try:
            html = gethtml(i)
            info = getinfo(html)
            info['mdid'] = i
            l.append(info)
        except Exception as e:
            # 不过exception不是很多就放弃那些报错的数据
            print(repr(e))
            print(f'{i} failed!')
    return pd.DataFrame(l)

## 收集数据

In [29]:
mdid = moremdid(100)

completed, length of mdid now is 14678


In [30]:
# 遍历的效率很低，但也别无他法
max(mdid),len(mdid)

(28236211, 14678)

In [31]:
df = generate_df(mdid)

IndexError('string index out of range')
6055 failed!
ValueError('unconverted data remains: 开播')
6352 failed!
IndexError('string index out of range')
52192 failed!
IndexError('string index out of range')
55232 failed!
ValueError('unconverted data remains: -07-06')
75892 failed!
ValueError("invalid literal for int() with base 10: '双周周六10:00更新一'")
78052 failed!
IndexError('string index out of range')
116832 failed!
IndexError('string index out of range')
116912 failed!
IndexError('string index out of range')
117432 failed!
IndexError('string index out of range')
121012 failed!
IndexError('string index out of range')
121192 failed!
IndexError('string index out of range')
121212 failed!
IndexError('string index out of range')
121232 failed!
IndexError('string index out of range')
122572 failed!
IndexError('string index out of range')
122592 failed!
IndexError('string index out of range')
123132 failed!
IndexError('string index out of range')
123172 failed!
ValueError('unconverted data remai

ValueError('unconverted data remains: 开播')
28234004 failed!
ValueError('unconverted data remains: 开播')
28234007 failed!
ValueError('unconverted data remains: 开播')
28234010 failed!
ValueError('unconverted data remains: -04')
28234015 failed!
ValueError('unconverted data remains: 开播')
28234023 failed!
ValueError('unconverted data remains: 开播')
28234024 failed!
ValueError('unconverted data remains: 开播')
28234025 failed!
ValueError('unconverted data remains: 开播')
28234026 failed!
IndexError('string index out of range')
28234030 failed!
IndexError('string index out of range')
28234031 failed!
ValueError('unconverted data remains: 开播')
28234033 failed!
ValueError('unconverted data remains: 开播')
28234035 failed!
ValueError('unconverted data remains: 开播')
28234043 failed!
ValueError('unconverted data remains: 开播')
28234046 failed!
ValueError('unconverted data remains: 开播')
28234061 failed!
ValueError('unconverted data remains: 开播')
28234063 failed!
ValueError('unconverted data remains: 开播')
28

IndexError('string index out of range')
28235354 failed!
IndexError('string index out of range')
28235355 failed!
IndexError('string index out of range')
28235357 failed!
IndexError('string index out of range')
28235358 failed!
IndexError('string index out of range')
28235359 failed!
IndexError('string index out of range')
28235360 failed!
IndexError('string index out of range')
28235362 failed!
IndexError('string index out of range')
28235363 failed!
IndexError('string index out of range')
28235364 failed!
IndexError('string index out of range')
28235371 failed!
ValueError("time data '21：20' does not match format '%Y'")
28235379 failed!
IndexError('string index out of range')
28235381 failed!
IndexError('string index out of range')
28235382 failed!
IndexError('string index out of range')
28235383 failed!
IndexError('string index out of range')
28235384 failed!
IndexError('string index out of range')
28235387 failed!
IndexError('string index out of range')
28235388 failed!
IndexError('

ValueError('unconverted data remains: 开播')
28235879 failed!
ValueError('unconverted data remains: 开播')
28235883 failed!
ValueError('unconverted data remains: 开播')
28235895 failed!
ValueError('unconverted data remains: 开播')
28235896 failed!
ValueError("time data '23：00' does not match format '%Y'")
28235904 failed!
ValueError('unconverted data remains: 开播')
28235905 failed!
ValueError('unconverted data remains: 开播')
28235906 failed!
ValueError('unconverted data remains: 开播')
28235907 failed!
ValueError('unconverted data remains: 开播')
28235908 failed!
ValueError('unconverted data remains: 开播')
28235910 failed!
ValueError('unconverted data remains: 开播')
28235916 failed!
ValueError('unconverted data remains: 开播')
28235918 failed!
ValueError('unconverted data remains: 开播')
28235920 failed!
ValueError('unconverted data remains: 开播')
28235922 failed!
ValueError('unconverted data remains: 开播')
28235924 failed!
ValueError('unconverted data remains: 开播')
28235926 failed!
ValueError('unconverted 

In [33]:
df

Unnamed: 0,title,score,review_times,tags,play_data,series,film,play_times,followers,bullet_screen,broadcast_date_str,broadcast_date,over_str,over,length,vip_only,mdid
0,漫研部,8.7,224,"搞笑,泡面,日常,校园","{'总播放': '107.8万', '系列追番人数': '9.2万', '弹幕总数': '5...",True,False,1078000,92000,5283,2013年1月3日开播,2013-01-03,"已完结, 全13话",True,325,False,7
1,漫研部~妄想突变~,8.1,156,"搞笑,泡面,校园,日常","{'总播放': '62.4万', '系列追番人数': '9.2万', '弹幕总数': '29...",True,False,624000,92000,2910,2014年7月8日开播,2014-07-08,"已完结, 全12话",True,300,False,8
2,幕末Rock,8.7,153,"搞笑,音乐,偶像,游戏改","{'总播放': '28.8万', '追番人数': '4.3万', '弹幕总数': '1.6万'}",False,False,288000,43000,16000,2014年7月2日开播,2014-07-02,"已完结, 全12话",True,300,False,9
3,网球并不可笑嘛 第一季,9.4,360,"萌系,日常,运动,社团","{'总播放': '169.3万', '系列追番人数': '19.4万', '弹幕总数': '...",True,False,1693000,194000,7656,2012年10月7日开播,2012-10-07,"已完结, 全12话",True,300,False,17
4,网球并不可笑嘛 第二季,9.3,190,"萌系,日常,运动,社团","{'总播放': '168.3万', '系列追番人数': '19.4万', '弹幕总数': '...",True,False,1683000,194000,5774,2013年7月7日开播,2013-07-07,"已完结, 全12话",True,300,False,18
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
14227,哈哈咪,,,少儿,"{'总播放': '32', '追番人数': '2', '弹幕总数': '-'}",False,False,32,2,-,2000年开播,2000-01-01,"已完结, 全52话",True,1300,False,28236206
14228,宝宝妈妈网之儿童诗系列,,,少儿,"{'总播放': '425', '追番人数': '12', '弹幕总数': '-'}",False,False,425,12,-,2009年1月开播,2009-01-01,"已完结, 全52话",True,1300,False,28236207
14229,铜马,,,少儿,"{'总播放': '28', '追番人数': '-', '弹幕总数': '-'}",False,False,28,-,-,2020年开播,2020-01-01,"已完结, 全12话",True,300,False,28236209
14230,小猫威力,,,,"{'总播放': '32', '系列追番人数': '-', '弹幕总数': '-'}",True,False,32,-,-,2020年开播,2020-01-01,"已完结, 全26话",True,650,False,28236210


In [35]:
df.to_excel('./BLBLdata.xlsx', index=False, encoding='utf-8')

# 回归分析

# 可视化