## 获取数据

获取数据主要有以下几种方法：
1. 手工输入
2. 读取文件
3. 网络爬虫
4. API请求

### 读取文件

可以显式地用代码读取文件。Python使得处理文件变得非常简单。

#### 文本文件的基础

在with模块中使用open获取文件对象：

In [1]:
# 读取文件
with open('./data/example.txt', 'r') as file:
    content = file.read()
    print(content)

Hello, World!
Appending more text.


In [2]:
# 写入文件
with open('./data/example.txt', 'w') as file:
    file.write('Hello, World!')

In [3]:
# 追加内容到文件
with open('./data/example.txt', 'a') as file:
    file.write('\nAppending more text.')

file的方法示例（请比较以下两个代码块中的lines的输出为什么不一样？）

In [4]:
with open('./data/example.txt', 'r') as file:
    line = file.readline()  # 读取一行内容
    print(line)
    
    lines = file.readlines()  # 读取所有行到列表中
    print('lines is:',lines)

Hello, World!

lines is: ['Appending more text.']


In [5]:
with open('./data/example.txt', 'r') as file:
    lines = file.readlines()  # 读取所有行到列表中
    print('lines is:',lines)

lines is: ['Hello, World!\n', 'Appending more text.']


>tips:文件在被打开后，就会有个指针，读写操作都是基于这个指针进行的。

#### 限制的文件

**CSV**、**JSON** 和 **XML** 是三种常见的数据交换格式，用于在不同系统之间传递和存储数据。

1. **CSV（Comma-Separated Values）**：

- 描述： CSV 是一种文本文件格式，用于存储表格数据。每行表示一条记录，字段之间使用逗号或其他分隔符进行分隔。
- 特点： CSV 文件简单、易于理解和创建。它常用于电子表格软件中，如Microsoft Excel和Google Sheets。
- 例子：

```csv
Name, Age, City
John, 25, New York
Jane, 30, London
```

2. **JSON（JavaScript Object Notation）**：

- 描述： JSON 是一种轻量级的数据交换格式，易于人阅读和编写。它使用键值对表示数据，支持数组和对象。
- 特点： JSON 是一种灵活、通用的数据格式，常用于 Web 开发中的 API 数据交互。易于解析和生成。
- 例子：
```json
{
  "name": "John",
  "age": 25,
  "city": "New York"
}
```

3. **XML（eXtensible Markup Language）**：

- 描述： XML 是一种可扩展标记语言，用于描述数据的结构。它使用标签来标识数据元素，支持嵌套和属性。
- 特点： XML 具有强大的结构化能力，适用于表示复杂数据结构。常用于配置文件、文档存储以及一些Web服务中。
- 例子：
```xml
<person>
  <name>John</name>
  <age>25</age>
  <city>New York</city>
</person>
```

这三种格式在不同的场景中有不同的用途。CSV 适合简单的表格数据，JSON 适用于结构化数据和API通信，而 XML 则适用于需要更严格结构化和元数据的应用。

##### CSV

在Python中，可以使用内置的 csv 模块来读取和处理 CSV 文件。

In [6]:
# 读取并展示数据
import csv

# 打开CSV文件
with open('./data/csv_example.csv', 'r') as csvfile:
    # 创建CSV读取器
    csvreader = csv.reader(csvfile)

    # 读取表头
    header = next(csvreader)
    print("表头:", header)

    # 读取数据行并进行处理
    for row in csvreader:
        name, age, city = row
        age = int(age)  # 将年龄转换为整数
        print(f"姓名: {name}, 年龄: {age}, 城市: {city}")

表头: ['Name', ' Age', ' City']
姓名: John, 年龄: 25, 城市:  New York
姓名: Jane, 年龄: 30, 城市:  London
姓名: Bob, 年龄: 22, 城市:  Paris


In [7]:
# 向CSV文件写入数据
import csv

# 打开CSV文件，使用'a'模式以追加方式写入
with open('./data/csv_example.csv', 'a', newline='') as csvfile:
    # 创建CSV写入器
    csvwriter = csv.writer(csvfile)

    # 新的行数据
    new_row = ['Alice', 28, 'San Francisco']

    # 写入新的行
    csvwriter.writerow(new_row)

# 打开CSV文件，使用'r'模式以读取方式验证是否写入成功
with open('./data/csv_example.csv', 'r') as csvfile:
    csvreader = csv.reader(csvfile)

    for row in csvreader:
        print(row)

['Name', ' Age', ' City']
['John', ' 25', ' New York']
['Jane', ' 30', ' London']
['Bob', ' 22', ' Paris']
['Alice', '28', 'San Francisco']


##### JSON

在Python中，可以使用内置的 json 模块来读取JSON文件。

In [8]:
import json

# 打开JSON文件
with open('./data/json_example.json', 'r') as jsonfile:
    # 读取JSON数据
    data = json.load(jsonfile)

# 打印读取的数据
print("姓名:", data["name"])
print("年龄:", data["age"])
print("城市:", data["city"])

姓名: John
年龄: 25
城市: New York


### 网络抓取

#### HTML 和解析方法

HTML（Hypertext Markup Language）是一种用于创建和设计网页结构的标记语言。它由一系列标签（tag）组成，每个标签用于定义文档中的不同元素，如文本、图像、链接等。HTML文件以.html为扩展名。

```html
<!doctype html>
<html lang="en-US">
<head>
    <title>Getting Data</title>
    <meta charset="utf-8">
</head>
<body>
    <h1>Getting Data</h1>
    <div class="explanation">
        This is an explanation.
    </div>
    <div class="comment">
        This is a comment.
    </div>
    <div class="content">
        <p id="p1">This is the first paragraph.</p>
        <p class="important">This is the second paragraph.</p>
    </div>
    <div class="signature">
        <span id="name">Joel</span>
        <span id="twitter">@joelgrus</span>
        <span id="email">joelgrus-at-gmail</span>
    </div>
</body>
</html>
```

为了从 HTML 中获取数据，我们需要 Beautiful Soup 库，它将网页上的各种元素构建成树结构，并提供了简单接口来访问他们。还需要使用 Requests 库，这是一种比 Python 内置方法更好的 HTTP 请求方式。Python 内置的 HTML 解析器是比较严格的，这意味着它并不能很好地处理没有很好结构的 HTML。因此，我们还需要安装 html5lib 解析器。

```bash
pip install beautifulsoup4 requests html5lib
```

In [9]:
from bs4 import BeautifulSoup
import requests

url = ("https://raw.githubusercontent.com/joelgrus/data/master/getting-data.html")

# 获取HTML文档
html = requests.get(url).text
print('html:',html)

html: <!doctype html>
<html lang="en-US">
<head>
    <title>Getting Data</title>
    <meta charset="utf-8">
</head>
<body>
    <h1>Getting Data</h1>
    <div class="explanation">
        This is an explanation.
    </div>
    <div class="comment">
        This is a comment.
    </div>
    <div class="content">
        <p id="p1">This is the first paragraph.</p>
        <p class="important">This is the second paragraph.</p>
    </div>
    <div class="signature">
        <span id="name">Joel</span>
        <span id="twitter">@joelgrus</span>
        <span id="email">joelgrus-at-gmail</span>
    </div>
</body>
</html>



#### Beautiful Soup 用法

In [10]:
# 创建BeautifulSoup对象
soup = BeautifulSoup(html, 'html5lib')
# soup.prettify()  格式化输出
print('soup:', soup.prettify())

soup: <!DOCTYPE html>
<html lang="en-US">
 <head>
  <title>
   Getting Data
  </title>
  <meta charset="utf-8"/>
 </head>
 <body>
  <h1>
   Getting Data
  </h1>
  <div class="explanation">
   This is an explanation.
  </div>
  <div class="comment">
   This is a comment.
  </div>
  <div class="content">
   <p id="p1">
    This is the first paragraph.
   </p>
   <p class="important">
    This is the second paragraph.
   </p>
  </div>
  <div class="signature">
   <span id="name">
    Joel
   </span>
   <span id="twitter">
    @joelgrus
   </span>
   <span id="email">
    joelgrus-at-gmail
   </span>
  </div>
 </body>
</html>



通过 find()方法获取第一个标签

In [11]:
# 获取第一个<p>标签
first_paragraph = soup.find('p')
print('first_paragraph:', first_paragraph)

first_paragraph: <p id="p1">This is the first paragraph.</p>


通过 text 方法获取标签内部文本数据

In [12]:
# 获取第一个<p>标签的文本内容
first_paragraph_text = soup.p.text
print('first_paragraph_text:', first_paragraph_text)

first_paragraph_text: This is the first paragraph.


In [13]:
# 获取第一个<p>标签的文本内容的单词列表
first_paragraph_words = soup.p.text.split()
print('first_paragraph_words:', first_paragraph_words)

first_paragraph_words: ['This', 'is', 'the', 'first', 'paragraph.']


In [14]:
# 获取标签的id属性 通过字典的方式获取
first_paragraph_id = soup.p['id']       
print('first_paragraph_id:', first_paragraph_id)

# 获取标签的id属性 通过get方法获取
first_paragraph_id2 = soup.p.get('id')  
print('first_paragraph_id2:', first_paragraph_id2)

first_paragraph_id: p1
first_paragraph_id2: p1


通过 find_all() 方法获取所有标签

In [15]:
# 获取所有的<p>标签
all_paragraphs = soup.find_all('p')  # 用soup('p') 也可以
print('all_paragraphs:', all_paragraphs)

# 仅返回有id属性的<p>标签
paragraphs_with_ids = [p for p in soup('p') if p.get('id')]
print('paragraphs_with_ids:', paragraphs_with_ids)

all_paragraphs: [<p id="p1">This is the first paragraph.</p>, <p class="important">This is the second paragraph.</p>]
paragraphs_with_ids: [<p id="p1">This is the first paragraph.</p>]


也可以通过 class 来寻找标签

In [16]:
# 通过 class 获取标签
important_paragraphs = soup('p', {'class': 'important'})
print('important_paragraphs:', important_paragraphs)

# 通过 class 获取标签
important_paragraphs2 = soup('p', 'important')
print('important_paragraphs2:', important_paragraphs2)

# 通过 class 获取标签
important_paragraphs3 = [p for p in soup('p')
                         if 'important' in p.get('class', [])]
print('important_paragraphs3:', important_paragraphs3)

important_paragraphs: [<p class="important">This is the second paragraph.</p>]
important_paragraphs2: [<p class="important">This is the second paragraph.</p>]
important_paragraphs3: [<p class="important">This is the second paragraph.</p>]


In [17]:
# 可以进行一些更加复杂的查询，比如查找某个<div>元素中的每个<span>元素
spans_inside_divs = [span
                     for div in soup('div')     # 对页面上的每个<div>元素
                     for span in div('span')]   # 找到其中的每个<span>元素
print('spans_inside_divs:', spans_inside_divs)

spans_inside_divs: [<span id="name">Joel</span>, <span id="twitter">@joelgrus</span>, <span id="email">joelgrus-at-gmail</span>]


### 使用API

通过API（Application Programming Interface）收集数据是数据科学中常见的任务，它允许用户从不同的数据源获取结构化数据。

API是一组定义了不同软件组件之间如何交互的规则和协议。它允许应用程序或服务之间进行通信，以获取数据、执行操作或访问功能。API通常以 **JSON** 或 **XML** 格式返回数据。

数据可以来自各种各样的数据源，包括社交媒体平台（如Twitter、Facebook）、云服务（如AWS、Google Cloud）、数据提供商（如天气数据、金融数据）、政府机构（如气象局、统计局）等。

https://api.github.com/repos/X-lab2017/dase-2023-autumn/stargazers

#### API 收集数据的步骤



1. **寻找合适的API**：
首先，你需要确定你想要获取数据的源头，然后查找是否有可用的API。通常，数据提供者会提供文档，其中包含了API的细节，如请求的URL、参数、授权方式等。

2. **获取API密钥**：
许多API要求你提供一个API密钥（API Key）或访问令牌（Access Token）以进行身份验证和授权。你需要注册并获得这些密钥或令牌，以便能够使用API。

3. **发送API请求**：
使用HTTP请求（通常是GET或POST请求），向API的特定终端点（URL）发送请求。这些请求可能包括参数，以指定你所需的数据或操作。

4. **处理API响应**：
一旦API响应返回，你需要解析它以提取所需的数据。通常，API响应以JSON或XML格式返回数据。你可以使用Python的库（如requests）来发送请求和处理响应。

5. **存储数据**：
最后，你可以选择将数据存储在合适的地方，如本地文件、数据库或云存储中，以供后续分析和使用。


#### 通过 GitHub API 获取数据

1. **未经身份验证的请求**：
- 在未经身份验证的请求中，你可以向GitHub API发送HTTP请求，但不提供任何身份验证信息，例如个人访问令牌或用户名和密码。这种方式通常适用于一些公共的、只读的API终端点，允许你获取一些公开数据，例如公开仓库的信息。
2. **通过个人token的请求**：
- 通过个人访问令牌进行请求需要提供一个有效的个人访问令牌（Token），这个Token将你的身份与请求关联起来，并允许你访问更多的API功能，包括创建、更新、删除资源以及访问私有仓库的数据等。个人访问令牌是一种安全的方式，以便于GitHub识别和跟踪你的API活动。

##### 未经身份验证的请求

向GitHub的一个仓库的 "dase-2023-autumn" 终端点发送了一个未经身份验证的请求，获取了该仓库的星标用户列表。由于该请求没有提供身份验证信息，因此只能获取公开可见的数据。

In [18]:
import json
import requests

# 未经身份验证的请求，不包含 ?access_token=xxx 查询字符串
url = "https://api.github.com/repos/X-lab2017/dase-2023-autumn/stargazers"
response = requests.get(url)

# 检查响应状态码，200表示成功
if response.status_code == 200:
    # 解析JSON数据
    stargazers_data = response.json()

    # 指定本地JSON文件路径
    file_path = "stargazers.json"

    # 将数据写入JSON文件
    with open(file_path, 'w', encoding='utf-8') as json_file:
        json.dump(stargazers_data, json_file, ensure_ascii=False, indent=2)

    print(f"Stargazers数据已保存到 {file_path}")
else:
    print("请求失败")

Stargazers数据已保存到 stargazers.json


##### 通过个人token的请求

**获取个人token步骤**

1. 点击 Settings

![01-1](https://github.com/X-lab2017/OpenTEA101/assets/50283262/082abb39-b9a0-4d5f-8f3a-dd5c59fb7015)

2. 点击 Develop settings 

![01-2](https://github.com/X-lab2017/OpenTEA101/assets/50283262/fca6aa7f-97fd-44fd-b000-8c9999eeb3ef)

3. 点击 Personal access tokens -> Tokens (classic) ,点击右上角 Generate new token

![01-3](https://github.com/X-lab2017/OpenTEA101/assets/50283262/2ba632c8-7d1c-4106-80de-865c15b12e54)

4. 在生成token界面可以设置这个token的注解、时限、功能范围

![01-4](https://github.com/X-lab2017/OpenTEA101/assets/50283262/284e68c4-a693-40bf-99c1-afd76bfebd1c)

5. 如图所示，token就生成完毕了，可以将其复制使用～

![01-5](https://github.com/X-lab2017/OpenTEA101/assets/50283262/ca9fd3ae-ab43-4604-850a-b8a5be3f8881)

##### 查询个人仓库信息

In [19]:
import requests

# 请替换为你自己的个人访问令牌
token = 'token'

# 构建API请求的URL
url = 'https://api.github.com/user/repos'

# 添加个人访问令牌到请求头部
headers = {
    'Authorization': f'token {token}'
}

# 发送GET请求
response = requests.get(url, headers=headers)

# 检查响应是否成功
if response.status_code == 200:
    # 解析响应的JSON数据
    repos = response.json()

    # 打印仓库名
    for repo in repos:
        print(repo['name'])
else:
    print(f"API请求失败,状态码: {response.status_code}")

AccelerateDevOps
andyhuang18.github.io
ChatDev
cocogoat
dase-practice-course
DaseDevOps
data-science-from-scratch
Data-Thinking-and-Practice
ECNU-FedTree-Challenge
excelize
G6VP
genshin-data
gi-assets-xlab
hypertrons-crx
intro_ds
latex-translation
Mining-the-Social-Web-3rd-Edition
od-api
open-digger
open-leaderboard
OpenTEA101
oss101
psweb
statistical-learning-method-solutions-manual
Study-Floder
wop
xlab-website


#### PyGithub

PyGithub 是一个用于与GitHub进行交互的Python库，它提供了对GitHub API的高级封装，使得在Python应用程序中更容易地访问和操作GitHub上的仓库、问题、拉取请求、用户、组织等资源。PyGithub 构建在GitHub REST API之上，为开发人员提供了强大的工具来管理和自动化GitHub上的各种操作。具体操作方式可以查阅：https://pygithub.readthedocs.io/en/latest/index.html

以下是一个简单的示例，演示如何使用 PyGithub 获取当前用户的GitHub仓库列表：

In [20]:
from github import Github

# 创建 Github 对象，需要提供个人访问令牌
g = Github("token")

# 获取当前用户
user = g.get_user()

# 列出当前用户的所有仓库
for repo in user.get_repos():
    print(repo.name)

AccelerateDevOps
andyhuang18.github.io
ChatDev
cocogoat
dase-practice-course
DaseDevOps
data-science-from-scratch
Data-Thinking-and-Practice
ECNU-FedTree-Challenge
excelize
G6VP
genshin-data
gi-assets-xlab
hypertrons-crx
intro_ds
latex-translation
Mining-the-Social-Web-3rd-Edition
od-api
open-digger
open-leaderboard
OpenTEA101
oss101
psweb
statistical-learning-method-solutions-manual
Study-Floder
wop
xlab-website


以下是通过PyGithub查询X-lab2017组织下的所有仓库信息：

In [21]:
from github import Github

# 替换为你的个人访问令牌
token = 'token'

# 替换为你要查询的组织名称
organization_name = 'X-lab2017'

# 创建 Github 对象并进行身份验证
g = Github(token)

# 获取组织对象
org = g.get_organization(organization_name)

# 获取组织的所有仓库
repos = org.get_repos()

# 遍历并打印组织的所有仓库名称
for repo in repos:
    print(repo.name)

git
x-lab-paper_co-read
pp_cc
Deep-Learning-with-TensorFlow
DaSE_lab
TensorFlow-Getting-Started
go-study-guide
minicourse-k8s
github-graphql-client
data-cat
github-analysis-report-2019
grimoirelab-elk
grimoirelab-sigils
grimoirelab-sirmordred
X-lab2017.github.io
sirmordred
grimoirelab-elk-gitee
xlab-website
github-push-action
grimoirelab
open-digger
OSSDevGov2021
CCSADP
open-digger-website
chinese_decade_open_source_insight_report
open-galaxy
open-galaxy-backend
open-research
open-digger-jupyterlab-nodejs
22-Spring-OSDD
openrank-neo4j-gds
open-perf
open-wonderland
hypertrons-crx
open-leaderboard
open-lecture
open-certified
DaseDevops
.github
OSSDevGov2022
DesignThinking-LeanStartup
DaSE101
2022-SocialComputing
X-lab-website
oss101-awesome-list
WIP-feedback
HOSAS
docker-cli
OpenBench
open-tag
open-tag-web
od-api
oss101
open-dashboard
AccelerateDevOps
AccelerateDevOps-1
scripts-for-xlab-ospo-dashboard
gi-assets-xlab
open-digger-cli
G6VP
dase-2023-autumn
ds-2023-autumn
open-widgets
OpenTE

### 练习

通过学习PyGithub文档，利用GitHub API，首先生成个人的token，查询自己所有关注者的仓库的数据，将其存到本地。