In [1]:
import requests
from pyquery import PyQuery
from urllib.parse import urljoin, urlparse
import re
import json
import time

# 获取html页面文本
def get_url_page(url):
    response = requests.get(url)

    if response.status_code == 200:
        time.sleep(0.5)
        return response.text
    else:
        time.sleep(0.1)
        print(response.status_code)
        return get_url_page(url)


# 解析issue页，爬取页面的issue列表
def parse_issue_page(html, url, status):
    issue_list_per_page = list()
    document = PyQuery(html)
    issue_all = document('div').filter('.js-issue-row')
    issue_items = issue_all.items()
    # 获取每一个issue
    for item in issue_items:
        head = item('a').filter('.h4')
        title = head.text()
        types = [i.text() for i in item('.IssueLabel').items()]
        types = [re.split("[:]",t, maxsplit=1) for t in types]
        if len(types):
            # 使用json类型保存
            item_info = {
                'title'   :  title.replace("'", "''")
            }
            for t in types:
                if len(t) < 2:
                    item_info['other'] = t[0]
                else:
                    item_info[t[0]] = t[1]
            item_info = json.dumps(item_info)
            issue_list_per_page.append(item_info)

    # 下一页链接
    next_page_link = document('.next_page').attr('href')
    # 判断下一页链接是否disabled
    if next_page_link != None:
        next_page_link = urljoin(url, next_page_link)

    return issue_list_per_page, next_page_link


# 循环获取所有issue页面获取所有issue项, 返回issue list
def get_issues(url, max_num_issues=30000):
    html = get_url_page(url)
    issue_list, next_page = parse_issue_page(html, url, 'opened')

    while next_page != None:
        html = get_url_page(next_page)
        issue_list_per_page, next_page = parse_issue_page(html, url, 'opened')
        issue_list += issue_list_per_page
        print("1.当前issues数：{}".format(len(issue_list)))
        if len(issue_list) > max_num_issues:
            return issue_list

    document = PyQuery(html)
    closed_url = urljoin(url, document('#js-issues-toolbar .table-list-header-toggle.states a').not_('.selected').attr('href'))

    # 爬取已关闭的issue
    html = get_url_page(closed_url)
    temp_list, next_page = parse_issue_page(html, closed_url, 'closed')

    issue_list += temp_list

    while next_page != None:
        html = get_url_page(next_page)
        issue_list_per_page, next_page = parse_issue_page(html, closed_url, 'closed')
        issue_list += issue_list_per_page
        print("2.当前issues数：{}".format(len(issue_list)))
        if len(issue_list) > max_num_issues:
            return issue_list

    return issue_list

 

github_source_url = [
#     "https://github.com/jenkinsci/docker"
#     "https://github.com/vuejs/vue"
    "https://github.com/tensorflow/tensorflow"
]


part = 'issues'
for source in github_source_url:
    url = source + "/" + part
    issue_list = get_issues(url)
    issue_list = json.dumps(issue_list)
    with open(source.split('/')[-1] + "data2.json", "w+") as f:
        f.write(issue_list)
    

1.当前issues数：48
1.当前issues数：73
1.当前issues数：98
1.当前issues数：123
1.当前issues数：148
1.当前issues数：173
1.当前issues数：198
1.当前issues数：223
1.当前issues数：248
1.当前issues数：273
1.当前issues数：298
1.当前issues数：323
1.当前issues数：348
1.当前issues数：373
1.当前issues数：398
1.当前issues数：423
1.当前issues数：448
1.当前issues数：473
1.当前issues数：498
1.当前issues数：523
1.当前issues数：548
1.当前issues数：573
1.当前issues数：598
1.当前issues数：623
1.当前issues数：648
1.当前issues数：673
1.当前issues数：698
1.当前issues数：723
1.当前issues数：748
1.当前issues数：773
1.当前issues数：798
1.当前issues数：823
1.当前issues数：848
1.当前issues数：873
1.当前issues数：898
1.当前issues数：923
1.当前issues数：948
1.当前issues数：973
1.当前issues数：998
1.当前issues数：1023
1.当前issues数：1048
1.当前issues数：1073
1.当前issues数：1098
1.当前issues数：1123
1.当前issues数：1148
1.当前issues数：1173
1.当前issues数：1198
1.当前issues数：1223
1.当前issues数：1248
1.当前issues数：1273
1.当前issues数：1298
1.当前issues数：1323
1.当前issues数：1348
1.当前issues数：1373
1.当前issues数：1398
1.当前issues数：1423
1.当前issues数：1448
1.当前issues数：1473
1.当前issues数：1498
1.当前issues数：1523
1.当前issues数：1548
1.当前i

2.当前issues数：11670
2.当前issues数：11694
2.当前issues数：11719
2.当前issues数：11744
2.当前issues数：11769
2.当前issues数：11791
2.当前issues数：11813
2.当前issues数：11837
2.当前issues数：11862
2.当前issues数：11885
2.当前issues数：11907
2.当前issues数：11931
2.当前issues数：11956
2.当前issues数：11979
2.当前issues数：12001
2.当前issues数：12025
2.当前issues数：12048
2.当前issues数：12067
2.当前issues数：12087
2.当前issues数：12111
2.当前issues数：12133
2.当前issues数：12157
2.当前issues数：12180
2.当前issues数：12201
2.当前issues数：12226
2.当前issues数：12249
2.当前issues数：12270
2.当前issues数：12293
2.当前issues数：12317
2.当前issues数：12339
2.当前issues数：12364
2.当前issues数：12386
2.当前issues数：12409
2.当前issues数：12431
2.当前issues数：12452
2.当前issues数：12476
2.当前issues数：12495
2.当前issues数：12520
2.当前issues数：12545
2.当前issues数：12566
2.当前issues数：12584
2.当前issues数：12603
2.当前issues数：12624
2.当前issues数：12645
2.当前issues数：12667
2.当前issues数：12692
2.当前issues数：12715
2.当前issues数：12736
2.当前issues数：12758
2.当前issues数：12780
2.当前issues数：12804
2.当前issues数：12826
2.当前issues数：12848
2.当前issues数：12871
2.当前issues数：12896
2.当前issues

2.当前issues数：19316
2.当前issues数：19329
2.当前issues数：19338
2.当前issues数：19353
2.当前issues数：19369
2.当前issues数：19381
2.当前issues数：19397
2.当前issues数：19412
2.当前issues数：19422
2.当前issues数：19436
2.当前issues数：19449
2.当前issues数：19467
2.当前issues数：19480
2.当前issues数：19490
2.当前issues数：19502
2.当前issues数：19519
2.当前issues数：19540
2.当前issues数：19558
2.当前issues数：19578
2.当前issues数：19596
2.当前issues数：19616
2.当前issues数：19629
2.当前issues数：19645
2.当前issues数：19658
2.当前issues数：19673
2.当前issues数：19682
2.当前issues数：19701
2.当前issues数：19719
2.当前issues数：19731
2.当前issues数：19743
2.当前issues数：19756
2.当前issues数：19770
2.当前issues数：19789
2.当前issues数：19805
2.当前issues数：19819
2.当前issues数：19835
2.当前issues数：19848
2.当前issues数：19861
2.当前issues数：19876
2.当前issues数：19891
2.当前issues数：19906
2.当前issues数：19918
2.当前issues数：19931
2.当前issues数：19943
2.当前issues数：19952
2.当前issues数：19965
2.当前issues数：19981
2.当前issues数：19997
2.当前issues数：20013
2.当前issues数：20028
2.当前issues数：20041
2.当前issues数：20057
2.当前issues数：20064
2.当前issues数：20077
2.当前issues数：20088
2.当前issues