# 数据收集

在数据分析过程中，数据收集是至关重要的第一步。通常我们可以通过 Python 脚本收集、API 收集、数据生成这几个方法获得数据。

知识点：Python 脚本收集、API 收集、数据生成

## Python 脚本收集

脚本可以帮助我们自动化地从不同来源获取新闻、电影评论、股票、天气、商品价格和社交媒体等数据。使用Python来作为数据收集的脚本语言有多个优势，这些优势使得Python成为数据科学和数据工程领域的首选语言：

1. **易学易用**： Python 被广泛认为是一门易学易用的编程语言，因此非常适合初学者。其简洁的语法和清晰的代码结构使得编写数据收集脚本相对容易，减少了学习曲线。

2. **丰富的库和框架**： Python 拥有众多的数据科学和数据工程库，如 NumPy 、 Pandas 、 Matplotlib 、 Requests 等，这些库提供了各种数据操作、分析和可视化工具，可以大大简化数据收集和处理的任务。

3. **强大的生态系统**： Python 生态系统拥有大量的第三方库和工具，例如 Beautiful Soup 和 Scrapy 用于网页抓取、 SQLAlchemy 用于数据库连接等等。这些工具可帮助用户轻松地处理各种数据源。

4. **跨平台支持**： Python 是跨平台的编程语言，可以在 Windows 、 macOS 和 Linux 等操作系统上运行，这使得它适用于不同的开发环境。

### 准备工作

在开始之前，确保已经安装了Python，并且安装相应的两个库。可以通过 `pip install requests` 和 `pip install beautifulsoup4` 来安装

### 使用Requests库进行HTTP请求

Python的requests库是一种流行的HTTP库，它允许用户轻松发送HTTP请求并获取网页内容。以下是一些示例用法：



In [1]:
import requests

# 发送GET请求
response = requests.get("https://baidu.com")

# 获取网页内容
html_content = response.text

# 打印网页内容
print(html_content)


<!DOCTYPE html>
<!--STATUS OK--><html> <head><meta http-equiv=content-type content=text/html;charset=utf-8><meta http-equiv=X-UA-Compatible content=IE=Edge><meta content=always name=referrer><link rel=stylesheet type=text/css href=http://s1.bdstatic.com/r/www/cache/bdorz/baidu.min.css><title>ç¾åº¦ä¸ä¸ï¼ä½ å°±ç¥é</title></head> <body link=#0000cc> <div id=wrapper> <div id=head> <div class=head_wrapper> <div class=s_form> <div class=s_form_wrapper> <div id=lg> <img hidefocus=true src=//www.baidu.com/img/bd_logo1.png width=270 height=129> </div> <form id=form name=f action=//www.baidu.com/s class=fm> <input type=hidden name=bdorz_come value=1> <input type=hidden name=ie value=utf-8> <input type=hidden name=f value=8> <input type=hidden name=rsv_bp value=1> <input type=hidden name=rsv_idx value=1> <input type=hidden name=tn value=baidu><span class="bg s_ipt_wr"><input id=kw name=wd class=s_ipt value maxlength=255 autocomplete=off autofocus></span><span class="bg s_btn_wr"><input typ

### 使用Beautiful Soup解析网页内容

一旦获取了网页的HTML内容，通常需要使用解析库来提取所需的信息。Beautiful Soup是一个强大的库，用于解析HTML和XML文档，并提供了简便的方法来导航和搜索文档。以下是一个示例：

In [None]:
from bs4 import BeautifulSoup

# 使用Beautiful Soup解析HTML
soup = BeautifulSoup(html_content, 'html.parser',from_encoding='utf-8')

# 查找特定标签
title = soup.title
print("标题:", title.text)

# 查找所有链接
links = soup.find_all('a')
for link in links:
    print(link.get('href'))


### 使用CSS选择器或XPath进行元素选择

在Beautiful Soup中，您可以使用CSS选择器或XPath来选择和提取特定的HTML元素。这允许您以更精确的方式定位所需的数据。以下是一些示例：

使用CSS选择器：

In [None]:
# 选择所有带有class="article"的元素
articles = soup.select('.article')


使用XPath：（这里需要安装 lxml）

In [None]:
# 使用XPath选择所有<h2>元素
# headings = soup.xpath('//h2')

from bs4 import BeautifulSoup
import lxml

# 使用Beautiful Soup解析HTML并指定解析器为lxml
soup = BeautifulSoup(html_content, 'lxml')

# 使用XPath选择所有<h2>元素
headings = soup.xpath('//h2')

# 打印选择的元素
for heading in headings:
    print(heading.text)

### 处理动态网页

某些网页使用JavaScript来动态加载数据，这可能需要使用更高级的技术。您可以考虑使用Selenium等工具来模拟浏览器行为，并获取JavaScript生成的内容。

如果需要使用Selenium，则需要在终端输入 `pip install Selenium`

In [None]:
from selenium import webdriver

# 创建一个浏览器驱动程序
driver = webdriver.Chrome()

# 打开网页
driver.get("https://example.com")

# 等待一段时间，以确保页面加载完成
driver.implicitly_wait(10)

# 获取动态加载的内容
dynamic_content = driver.page_source

# 关闭浏览器
driver.quit()


### 保存数据

可以用过Python将获得的数据存成html、CSV、JSON格式。保存至本地给其他任务使用。

#### html格式存储

- 首先发送HTTP GET请求获取网页内容，然后检查响应状态码以确保请求成功。
- 接下来，我们指定要保存的文件路径和文件名（在这里是baidu_webpage.html），并使用open函数创建文件对象。
- 然后，使用write方法将网页内容写入文件中。最后，我们在完成文件写入后关闭文件。

请确保指定的文件路径和文件名是正确的，以及有适当的文件写入权限。以下示例将网页内容保存为HTML文件：

In [None]:
import requests

# 发送HTTP GET请求获取网页内容
url = "http://baidu.com"
response = requests.get(url)

# 检查响应状态码，200表示成功
if response.status_code == 200:
    # 获取网页内容
    html_content = response.text

    # 指定要保存的文件路径和文件名
    file_path = "baidu_webpage.html"

    # 打开文件并写入网页内容
    with open(file_path, 'w', encoding='utf-8') as file:
        file.write(html_content)

    print(f"网页内容已保存到 {file_path}")
else:
    print("请求失败")


#### JSON格式存储

使用json模块来将数据写入JSON文件。json.dump函数用于将数据写入JSON文件，ensure_ascii=False参数用于处理非ASCII字符，indent参数用于指定缩进。

In [None]:
import requests
import json

# 发送HTTP GET请求获取数据
url = "https://jsonplaceholder.typicode.com/posts"
response = requests.get(url)

# 检查响应状态码，200表示成功
if response.status_code == 200:
    # 获取数据（假设数据是JSON格式）
    data = response.json()

    # 指定要保存的JSON文件路径和文件名
    json_file_path = "data.json"

    # 将数据写入JSON文件
    with open(json_file_path, 'w', encoding='utf-8') as json_file:
        json.dump(data, json_file, ensure_ascii=False, indent=4)

    print(f"数据已保存到 {json_file_path}")
else:
    print("请求失败")


#### CSV格式存储

和JSON格式存储类似，但不同的是CSV格式需要设置表头。使用csv模块来将数据写入CSV文件。根据数据的类型（列表或字典），我们使用不同的方法来写入数据。如果数据是列表，我们使用writerows方法写入多行数据。如果数据是字典，我们遍历字典中的键值对，并使用writerow方法写入每一行。请根据您的数据类型进行适当的调整。

In [None]:
import requests
import csv

# 发送HTTP GET请求获取数据
url = "https://jsonplaceholder.typicode.com/posts"
response = requests.get(url)

# 检查响应状态码，200表示成功
if response.status_code == 200:
    # 获取数据（假设数据是列表或字典）
    data = response.json()

    # 指定要保存的CSV文件路径和文件名
    csv_file_path = "data.csv"

    # 将数据写入CSV文件
    with open(csv_file_path, 'w', newline='', encoding='utf-8') as csv_file:
        csv_writer = csv.writer(csv_file)

        # 如果数据是列表，可以直接写入
        if isinstance(data, list):
            csv_writer.writerows(data)
        # 如果数据是字典，可以从字典中提取数据并写入
        elif isinstance(data, dict):
            for key, value in data.items():
                csv_writer.writerow([key, value])

    print(f"数据已保存到 {csv_file_path}")
else:
    print("请求失败")


#### 网站说明

`https://jsonplaceholder.typicode.com/posts` 是一个用于演示和测试的假数据 API（Application Programming Interface）。它是一个由 JSONPlaceholder 提供的免费的开发者工具，旨在模拟一个RESTful API，并提供一些虚构的数据，以便开发者可以在不访问真实数据的情况下测试和开发应用程序。

该 API 提供了一些常见的资源，如帖子（posts）、评论（comments）、用户（users）等，可以用于测试和学习如何与 RESTful API 进行交互。开发者可以通过发送 HTTP 请求（例如，GET、POST、PUT、DELETE）来与该 API 进行通信，并获取、创建、更新和删除虚构的数据。

这对于学习如何使用 HTTP 请求与 API 互动，以及如何处理返回的 JSON 数据非常有用。然而，请注意，这些数据都是虚构的，仅用于开发和测试目的，不包含真实的信息。如果您需要使用真实的数据，请查找适合您项目需求的实际 API。

### 网页抓取的伦理和法律问题

在进行网页抓取时，必须注意伦理和法律问题。确保遵守网站的使用政策，不要过度频繁地请求网页以避免对服务器造成负担。某些网站可能会禁止自动抓取，因此请仔细检查网站的robots.txt文件并尊重其规则。



### 样例: 获取电影评论数据


In [3]:
# 样例1 但是爬不到

import requests
from bs4 import BeautifulSoup
import lxml
import csv


def get_movie_reviews(movie_id,page_limit=10):

    url_template=f'https://movie.douban.com/subject/{movie_id}/comments?start={{start}}&limit=20 sort=new_score&status=P'
    # 设置请求头，模拟浏览器访问
    headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'
    }

    reviews_data=[]

    for i in range(page_limit):
        url=url_template.format(start=i*20)
        response=requests.get(url,headers=headers)
        response.encoding='utf-8'

        soup= BeautifulSoup(response.text,'lxml')

        for item in soup.find_all('div',class_='comment_item'):
            user_element=item.find('span',class_='comment-info').find('a')
            user=user_element.text.strip()

            rating_element=item.find_all('div',class_='rating')
            rating=rating_element['title'] if rating_element else ''

            comment_element= item.find('span',class_='short')
            comment=comment_element.text.strip()

            reviews_data.append({
                'user':user,
                'rating':rating,
                'comment':comment,
            })
        
    return reviews_data

def save_to_csv(reviews_data,filename):
    with open(filename,'w',newline='',encoding='utf-8') as csvfile:
        fieldnames=['user','rating','comment']
        writer=csv.DictWriter(csvfile,fieldnames=fieldnames)
        writer.writeheader()
        for row in reviews_data:
            writer.writerow(row)

movie_id='1292722' # 泰坦尼克号的电影ID
reviews_data = get_movie_reviews(movie_id)
save_to_csv(reviews_data,'titanic_reviews.csv')
print('数据已成功抓取并保存为CSV文件: titanic_reviews.csv')


数据已成功抓取并保存为CSV文件: titanic_reviews.csv


In [2]:
# 样例2 成功爬取

import requests
from bs4 import BeautifulSoup
import csv

# 设置豆瓣电影页面的URL

headers = {
    'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.124 Safari/537.36'}
url = 'https://movie.douban.com/subject/1292722/reviews'

# 发送HTTP请求获取页面内容
response=requests.get(url,headers=headers)
if response.status_code == 200:
    soup = BeautifulSoup(response.text, 'html.parser')
else:
    print("无法访问网页")
    exit()

data = []

# 查找评论元素
reviews = soup.find_all('div', class_='review-item')

# 遍历评论元素并提取信息
for review in reviews:
    reviewer = review.find('a', class_='name').text.strip()
    rating = review.find('span', class_='main-title-rating')
    if rating:
        rating = rating.text.strip()
    else:
        rating = '未评分'
    content = review.find('div', class_='short-content').text.strip()

    # 将提取的信息添加到数据列表中
    data.append([reviewer, rating, content])

# 将数据保存到CSV文件
with open('titanic_reviews.csv', 'w', newline='', encoding='utf-8') as csv_file:
    csv_writer = csv.writer(csv_file)
    csv_writer.writerow(['评论者', '评分', '评论内容'])  # 写入CSV文件头
    csv_writer.writerows(data)  # 写入数据行

print("数据已成功抓取并保存为CSV文件：titanic_reviews.csv")

数据已成功抓取并保存为CSV文件：titanic_reviews.csv


### 练习

抓取新浪网最近一天的新闻数据，包括新闻主题、时间、摘要。抓取对应信息后，将信息存放在CSV文件中。

新浪网的地址是 https://news.sina.com.cn/world

## API 收集

通过API（Application Programming Interface）收集数据是数据科学中常见的任务，它允许用户从不同的数据源获取结构化数据。

API是一组定义了不同软件组件之间如何交互的规则和协议。它允许应用程序或服务之间进行通信，以获取数据、执行操作或访问功能。API通常以**JSON**或**XML**格式返回数据。

数据可以来自各种各样的数据源，包括社交媒体平台（如Twitter、Facebook）、云服务（如AWS、Google Cloud）、数据提供商（如天气数据、金融数据）、政府机构（如气象局、统计局）等。

### API 收集数据的步骤

1. **寻找合适的API**：
首先，你需要确定你想要获取数据的源头，然后查找是否有可用的API。通常，数据提供者会提供文档，其中包含了API的细节，如请求的URL、参数、授权方式等。

2. **获取API密钥**：
许多API要求你提供一个API密钥（API Key）或访问令牌（Access Token）以进行身份验证和授权。你需要注册并获得这些密钥或令牌，以便能够使用API。

3. **发送API请求**：
使用HTTP请求（通常是GET或POST请求），向API的特定终端点（URL）发送请求。这些请求可能包括参数，以指定你所需的数据或操作。

4. **处理API响应**：
一旦API响应返回，你需要解析它以提取所需的数据。通常，API响应以JSON或XML格式返回数据。你可以使用Python的库（如requests）来发送请求和处理响应。

5. **存储数据**：
最后，你可以选择将数据存储在合适的地方，如本地文件、数据库或云存储中，以供后续分析和使用。


### 通过 GitHub API 获取数据

1. **未经身份验证的请求**：
- 在未经身份验证的请求中，你可以向GitHub API发送HTTP请求，但不提供任何身份验证信息，例如个人访问令牌或用户名和密码。这种方式通常适用于一些公共的、只读的API终端点，允许你获取一些公开数据，例如公开仓库的信息。
2. **通过个人token的请求**：
- 通过个人访问令牌进行请求需要提供一个有效的个人访问令牌（Token），这个Token将你的身份与请求关联起来，并允许你访问更多的API功能，包括创建、更新、删除资源以及访问私有仓库的数据等。个人访问令牌是一种安全的方式，以便于GitHub识别和跟踪你的API活动。

#### 未经身份验证的请求

向GitHub的一个仓库的 "stargazers" 终端点发送了一个未经身份验证的请求，获取了该仓库的星标用户列表。由于该请求没有提供身份验证信息，因此只能获取公开可见的数据。

In [9]:
import json
import requests

# An unauthenticated request that doesn't contain an ?access_token=xxx query string
url = "https://api.github.com/repos/X-lab2017/dase-2023-autumn/stargazers"
response = requests.get(url)

# Display stargazer
print(json.dumps(response.json(), indent=1))
print()

# Display headers
for (k,v) in response.headers.items():
    print(k, "=>", v)

[
 {
  "login": "andyhuang18",
  "id": 50283262,
  "node_id": "MDQ6VXNlcjUwMjgzMjYy",
  "avatar_url": "https://avatars.githubusercontent.com/u/50283262?v=4",
  "gravatar_id": "",
  "url": "https://api.github.com/users/andyhuang18",
  "html_url": "https://github.com/andyhuang18",
  "followers_url": "https://api.github.com/users/andyhuang18/followers",
  "following_url": "https://api.github.com/users/andyhuang18/following{/other_user}",
  "gists_url": "https://api.github.com/users/andyhuang18/gists{/gist_id}",
  "starred_url": "https://api.github.com/users/andyhuang18/starred{/owner}{/repo}",
  "subscriptions_url": "https://api.github.com/users/andyhuang18/subscriptions",
  "organizations_url": "https://api.github.com/users/andyhuang18/orgs",
  "repos_url": "https://api.github.com/users/andyhuang18/repos",
  "events_url": "https://api.github.com/users/andyhuang18/events{/privacy}",
  "received_events_url": "https://api.github.com/users/andyhuang18/received_events",
  "type": "User",
  "s

#### 通过个人token的请求

##### **获取个人token步骤**

1. 点击 Settings

![01-1](https://github.com/X-lab2017/OpenTEA101/assets/50283262/082abb39-b9a0-4d5f-8f3a-dd5c59fb7015)

2. 点击 Develop settings 

![01-2](https://github.com/X-lab2017/OpenTEA101/assets/50283262/fca6aa7f-97fd-44fd-b000-8c9999eeb3ef)

3. 点击 Personal access tokens -> Tokens (classic) ,点击右上角 Generate new token

![01-3](https://github.com/X-lab2017/OpenTEA101/assets/50283262/2ba632c8-7d1c-4106-80de-865c15b12e54)

4. 在生成token界面可以设置这个token的注解、时限、功能范围

![01-4](https://github.com/X-lab2017/OpenTEA101/assets/50283262/284e68c4-a693-40bf-99c1-afd76bfebd1c)

5. 如图所示，token就生成完毕了，可以将其复制使用～

![01-5](https://github.com/X-lab2017/OpenTEA101/assets/50283262/ca9fd3ae-ab43-4604-850a-b8a5be3f8881)

#### 查询个人仓库信息

In [10]:
import requests

# 请替换为你自己的个人访问令牌
token = 'YOUR_PERSONAL_ACCESS_TOKEN'

# 构建API请求的URL
url = 'https://api.github.com/user/repos'

# 添加个人访问令牌到请求头部
headers = {
    'Authorization': f'token {token}'
}

# 发送GET请求
response = requests.get(url, headers=headers)

# 检查响应是否成功
if response.status_code == 200:
    # 解析响应的JSON数据
    repos = response.json()
    
    # 打印仓库名
    for repo in repos:
        print(repo['name'])
else:
    print(f"API请求失败,状态码: {response.status_code}")


AccelerateDevOps
andyhuang18.github.io
cocogoat
dase-practice-course
DaseDevOps
ECNU-FedTree-Challenge
excelize
G6VP
genshin-data
gi-assets-xlab
hypertrons-crx
intro_ds
latex-translation
Mining-the-Social-Web-3rd-Edition
od-api
open-digger
open-leaderboard
OpenTEA101
oss101
psweb
statistical-learning-method-solutions-manual
Study-Floder
wop
xlab-website
G6VP
OpenDL
hypertrons
hypertrons-admin
hypertrons-crx
hypertrons-crx-website


### PyGithub

PyGithub 是一个用于与GitHub进行交互的Python库，它提供了对GitHub API的高级封装，使得在Python应用程序中更容易地访问和操作GitHub上的仓库、问题、拉取请求、用户、组织等资源。PyGithub 构建在GitHub REST API之上，为开发人员提供了强大的工具来管理和自动化GitHub上的各种操作。具体操作方式可以查阅：https://pygithub.readthedocs.io/en/latest/index.html

以下是一个简单的示例，演示如何使用 PyGithub 获取当前用户的GitHub仓库列表：

In [12]:
from github import Github

# 创建 Github 对象，需要提供个人访问令牌
g = Github("YOUR_PERSONAL_ACCESS_TOKEN")

# 获取当前用户
user = g.get_user()

# 列出当前用户的所有仓库
for repo in user.get_repos():
    print(repo.name)


AccelerateDevOps
andyhuang18.github.io
cocogoat
dase-practice-course
DaseDevOps
ECNU-FedTree-Challenge
excelize
G6VP
genshin-data
gi-assets-xlab
hypertrons-crx
intro_ds
latex-translation
Mining-the-Social-Web-3rd-Edition
od-api
open-digger
open-leaderboard
OpenTEA101
oss101
psweb
statistical-learning-method-solutions-manual
Study-Floder
wop
xlab-website
G6VP
OpenDL
hypertrons
hypertrons-admin
hypertrons-crx
hypertrons-crx-website
hypertrons-wonderland
dase-2023-autumn
G6VP
gi-assets-xlab
hypertrons-crx
open-leaderboard
open-research
open-wonderland
secret-garden
unmaintained-projects-research


以下是通过PyGithub查询X-lab2017组织下的所有仓库信息：

In [14]:
from github import Github

# 替换为你的个人访问令牌
token = 'YOUR_PERSONAL_ACCESS_TOKEN'

# 替换为你要查询的组织名称
organization_name = 'X-lab2017'

# 创建 Github 对象并进行身份验证
g = Github(token)

# 获取组织对象
org = g.get_organization(organization_name)

# 获取组织的所有仓库
repos = org.get_repos()

# 遍历并打印组织的所有仓库名称
for repo in repos:
    print(repo.name)


git
x-lab-paper_co-read
pp_cc
Deep-Learning-with-TensorFlow
DaSE_lab
TensorFlow-Getting-Started
go-study-guide
minicourse-k8s
github-graphql-client
data-cat
github-analysis-report-2019
grimoirelab-elk
grimoirelab-sigils
grimoirelab-sirmordred
X-lab2017.github.io
sirmordred
grimoirelab-elk-gitee
xlab-website
github-push-action
grimoirelab
open-digger
OSSDevGov2021
CCSADP
open-digger-website
chinese_decade_open_source_insight_report
open-galaxy
open-galaxy-backend
open-research
open-digger-jupyterlab-nodejs
22-Spring-OSDD
openrank-neo4j-gds
open-perf
open-wonderland
hypertrons-crx
open-leaderboard
open-lecture
open-certified
DaseDevops
unmaintained-projects-research
.github
OSSDevGov2022
secret-garden
DesignThinking-LeanStartup
DaSE101
2022-SocialComputing
X-lab-website
oss101-awesome-list
WIP-feedback
HOSAS
docker-cli
OpenBench
open-tag
open-tag-web
od-api
oss101
open-dashboard
AccelerateDevOps
AccelerateDevOps-1
scripts-for-xlab-ospo-dashboard
gi-assets-xlab
G6VP
dase-2023-autumn
ds-20

### 练习

通过学习PyGithub文档，利用GitHub API，首先生成个人的token，查询自己所有关注者的仓库的数据，将其存到本地。

## 实验案例:机器人账户识别

在 `./data/github_bot_label_data.csv` 中，存有actor_id和label数据，通过github api 可以采集到这些actor_id的所有信息，将这个信息存成新的csv，以备后续实验使用。

In [1]:
import csv
import requests

# 设置你的GitHub个人token
github_token = 'token'

# 读取CSV文件，CSV文件包含'actor_id'和'label'两列
csv_filename = './data/github_bot_label_data.csv'
output_csv_filename = './data/github_bot_raw_data.csv'  # 新的CSV文件

# 打开CSV文件并创建新的CSV文件
with open(csv_filename, mode='r', newline='') as file, \
     open(output_csv_filename, mode='w', newline='') as output_file:
    csv_reader = csv.DictReader(file)
    
    # 创建CSV写入器，并指定列名
    fieldnames = ['actor_id', 'label', 'login', 'id', 'node_id', 'avatar_url', 'gravatar_id', 'url', 'html_url',
                  'followers_url', 'following_url', 'gists_url', 'starred_url', 'subscriptions_url', 'organizations_url',
                  'repos_url', 'events_url', 'received_events_url', 'type', 'site_admin', 'name', 'company', 'blog',
                  'location', 'email', 'hireable', 'bio', 'twitter_username', 'public_repos', 'public_gists',
                  'followers', 'following', 'created_at', 'updated_at']
    csv_writer = csv.DictWriter(output_file, fieldnames=fieldnames)
    
    # 写入列名到新的CSV文件
    csv_writer.writeheader()
    
    # 计数器
    count = 0
    
    for row in csv_reader:
        # if count >= 200:
        #    break
        
        actor_id = row['actor_id']
        label = row['label']
        
        # 构建GitHub API请求URL
        user_url = f'https://api.github.com/user/{actor_id}'  # 注意URL的修改
        
        # 设置HTTP头部，包括你的GitHub个人token
        headers = {
            'Authorization': f'token {github_token}',
            'Accept': 'application/vnd.github.v3+json'
        }
        
        print(f'Processing actor_id: {actor_id}')
        
        # 发送请求获取用户信息
        user_response = requests.get(user_url, headers=headers)
        
        if user_response.status_code == 200:
            user_data = user_response.json()
            
            # 将信息写入新的CSV文件
            csv_writer.writerow({
                'actor_id': actor_id,
                'label': label,
                'login': user_data['login'],
                'id': user_data['id'],
                'node_id': user_data['node_id'],
                'avatar_url': user_data['avatar_url'],
                'gravatar_id': user_data['gravatar_id'],
                'url': user_data['url'],
                'html_url': user_data['html_url'],
                'followers_url': user_data['followers_url'],
                'following_url': user_data['following_url'],
                'gists_url': user_data['gists_url'],
                'starred_url': user_data['starred_url'],
                'subscriptions_url': user_data['subscriptions_url'],
                'organizations_url': user_data['organizations_url'],
                'repos_url': user_data['repos_url'],
                'events_url': user_data['events_url'],
                'received_events_url': user_data['received_events_url'],
                'type': user_data['type'],
                'site_admin': user_data['site_admin'],
                'name': user_data['name'],
                'company': user_data['company'],
                'blog': user_data['blog'],
                'location': user_data['location'],
                'email': user_data['email'],
                'hireable': user_data['hireable'],
                'bio': user_data['bio'],
                'twitter_username': user_data['twitter_username'],
                'public_repos': user_data['public_repos'],
                'public_gists': user_data['public_gists'],
                'followers': user_data['followers'],
                'following': user_data['following'],
                'created_at': user_data['created_at'],
                'updated_at': user_data['updated_at']
            })
            
            count += 1
        else:
            print(f'Error processing actor_id: {actor_id}')
        
        print('------------------------------------')
    
    print(f'Processed {count} actor_ids')

Processing actor_id: 1081405
------------------------------------
Processing actor_id: 13100598
------------------------------------
Processing actor_id: 22494
------------------------------------
Processing actor_id: 7648032
------------------------------------
Processing actor_id: 2163522
------------------------------------
Processing actor_id: 27288824
------------------------------------
Processing actor_id: 5709
------------------------------------
Processing actor_id: 1355668
------------------------------------
Processing actor_id: 59210087
------------------------------------
Processing actor_id: 5076961
------------------------------------
Processing actor_id: 18280708
------------------------------------
Processing actor_id: 759062
------------------------------------
Processing actor_id: 29738535
------------------------------------
Processing actor_id: 35039147
------------------------------------
Processing actor_id: 11386439
------------------------------------
Processin

SSLError: HTTPSConnectionPool(host='api.github.com', port=443): Max retries exceeded with url: /user/30538765 (Caused by SSLError(SSLEOFError(8, 'EOF occurred in violation of protocol (_ssl.c:2427)')))

由于 GitHub 网站的限制，我们会遇到中断连接的问题，因此需要对代码进行改进。我们要记录我们请求到了哪些数据，以便下次继续请求。

In [8]:
import csv
import requests

# 设置你的GitHub个人token
github_token = 'token'

# 读取CSV文件，CSV文件包含'actor_id'和'label'两列
csv_filename = './data/github_bot_label_data.csv'
output_csv_filename = './data/github_bot_raw_data.csv'  # 新的CSV文件

# 用于记录已处理的用户数量
processed_count = 0

# 检查是否存在保存进度的文件，如果存在，从中获取processed_count
progress_file = 'progress.txt'
try:
    with open(progress_file, 'r') as progress:
        processed_count = int(progress.read())
except FileNotFoundError:
    pass

# 打开CSV文件并创建新的CSV文件
with open(csv_filename, mode='r', newline='') as file, \
     open(output_csv_filename, mode='a', newline='') as output_file:
    csv_reader = csv.DictReader(file)
    
    # 创建CSV写入器，并指定列名
    fieldnames = ['actor_id', 'label', 'login', 'id', 'node_id', 'avatar_url', 'gravatar_id', 'url', 'html_url',
                  'followers_url', 'following_url', 'gists_url', 'starred_url', 'subscriptions_url', 'organizations_url',
                  'repos_url', 'events_url', 'received_events_url', 'type', 'site_admin', 'name', 'company', 'blog',
                  'location', 'email', 'hireable', 'bio', 'twitter_username', 'public_repos', 'public_gists',
                  'followers', 'following', 'created_at', 'updated_at']
    csv_writer = csv.DictWriter(output_file, fieldnames=fieldnames)
    
    # 如果已经处理的数量大于0，将CSV写入器移到文件的正确位置
    if processed_count > 0:
        for _ in range(processed_count):
            next(csv_reader)  # 跳过已处理的行
    
    # 如果已经处理的数量大于0，将CSV写入器移到文件的正确位置
    csv_writer.writeheader()
    
    # 计数器
    count = 0
    
    for row in csv_reader:
        
        
        actor_id = row['actor_id']
        label = row['label']
        
        # 构建GitHub API请求URL
        user_url = f'https://api.github.com/user/{actor_id}'  # 注意URL的修改
        
        # 设置HTTP头部，包括你的GitHub个人token
        headers = {
            'Authorization': f'token {github_token}',
            'Accept': 'application/vnd.github.v3+json'
        }
        
        print(f'Processing actor_id: {actor_id}')
        
        # 发送请求获取用户信息
        user_response = requests.get(user_url, headers=headers)
        
        if user_response.status_code == 200:
            user_data = user_response.json()
            
            # 将信息写入新的CSV文件
            csv_writer.writerow({
                'actor_id': actor_id,
                'label': label,
                'login': user_data['login'],
                'id': user_data['id'],
                'node_id': user_data['node_id'],
                'avatar_url': user_data['avatar_url'],
                'gravatar_id': user_data['gravatar_id'],
                'url': user_data['url'],
                'html_url': user_data['html_url'],
                'followers_url': user_data['followers_url'],
                'following_url': user_data['following_url'],
                'gists_url': user_data['gists_url'],
                'starred_url': user_data['starred_url'],
                'subscriptions_url': user_data['subscriptions_url'],
                'organizations_url': user_data['organizations_url'],
                'repos_url': user_data['repos_url'],
                'events_url': user_data['events_url'],
                'received_events_url': user_data['received_events_url'],
                'type': user_data['type'],
                'site_admin': user_data['site_admin'],
                'name': user_data['name'],
                'company': user_data['company'],
                'blog': user_data['blog'],
                'location': user_data['location'],
                'email': user_data['email'],
                'hireable': user_data['hireable'],
                'bio': user_data['bio'],
                'twitter_username': user_data['twitter_username'],
                'public_repos': user_data['public_repos'],
                'public_gists': user_data['public_gists'],
                'followers': user_data['followers'],
                'following': user_data['following'],
                'created_at': user_data['created_at'],
                'updated_at': user_data['updated_at']
            })
            
            count += 1
            processed_count += 1
            if processed_count % 10 == 0:  # 每处理10个用户保存一次进度
                with open(progress_file, 'w') as progress:
                    progress.write(str(processed_count))
        else:
            print(f'Error processing actor_id: {actor_id}')
            print(user_response.status_code)
        
        print('------------------------------------')
    
    print(f'Processed {count} actor_ids')


Processing actor_id: 1081405
Error processing actor_id: 1081405
401
------------------------------------
Processing actor_id: 13100598
Error processing actor_id: 13100598
401
------------------------------------
Processing actor_id: 22494
Error processing actor_id: 22494
401
------------------------------------
Processing actor_id: 7648032
Error processing actor_id: 7648032
401
------------------------------------
Processing actor_id: 2163522


KeyboardInterrupt: 