# 快速开始 Pandas｜了解 Pandas 的数据结构并实现常用的表格操作

> 作者: Haohui Que [quehaohui@dp.tech](mailto:quehaohui@dp.tech)
>
> 创建日期: 2023-03-15 19:13
>
> 最后一次修改: Haohui Que [quehaohui@dp.tech](mailto:quehaohui@dp.tech), 
>
> 最后一次修改时间: 2023-03-16 12:06
>
> 目录: /Proem/Pandas_Quick_Start_Tutorial.ipynb
>
> 描述: 本教程主要参考 [1]，可在 Bohrium Notebook 上直接运行。你可以点击界面上方蓝色按钮 `开始连接`，选择 `bohrium-notebook:2023-02-28` 镜像及任何一款节点配置，稍等片刻即可运行。
> 如您遇到任何问题，请联系 [bohrium@dp.tech](mailto:bohrium@dp.tech) 。
>
> 共享协议: 本作品采用[知识共享署名-非商业性使用-相同方式共享 4.0 国际许可协议](https://creativecommons.org/licenses/by-nc-sa/4.0/)进行许可。

# 目标

> **了解 Pandas 的数据结构并实现常用的表格操作。**

在学习本教程后，你将能够：



# 目录

![pandas](https://camo.githubusercontent.com/981d48e57e23a4907cebc4eb481799b5882595ea978261f22a3e131dcd6ebee6/68747470733a2f2f70616e6461732e7079646174612e6f72672f7374617469632f696d672f70616e6461732e737667)

* [背景](#background)
* [实践](#practice)
  * [1 认识 Pandas](#whatispandas)
    * [1.1 什么是 Pandas](#1-1)
    * [1.2 安装 Pandas【Bohrium 中可直接运行，无需安装】](#1-2)
    * [1.3 验证安装并查看 Pandas 版本](#1-3)
  * [2 Pandas 方法](#pandasfeatures)
    * [2.1 创建对象](#2-1)
    * [2.2 查看数据](#2-2)
    * [2.3 选择数据](#2-3)
    * [2.4 删除缺失值](#2-4)
    * [2.5 操作数据](#2-5)
    * [2.6 合并表格](#2-6)
    * [2.7 数据分组](#2-7)
    * [2.8 改变数据结构](#2-8)
    * [2.9 时间序列](#2-9)
    * [2.10 分类数据](#2-10)
    * [2.11 绘图](#2-11)
    * [2.12 读取与导出数据](#2-12)
* [总结](#summary)
* [进一步阅读](#furtherreading)
* [参考资料](#references)

**阅读该教程【最多】约需 30 分钟，让我们开始吧！**

# 背景 <a id ='background'></a>

这是对 Pandas 的简短介绍，主要面向新用户。您可以在[这里](https://pandas.pydata.org/docs/user_guide/cookbook.html#cookbook)查看更进一步的教程。

**你需要提前掌握以下知识：**
- 非常基本的 Python 知识


# 实践 <a id='practice'></a>

# 1 认识 Pandas

在这一部分，你会了解什么是 Pandas，在 Bohrium 中使用 Pandas，验证安装并查看版本。

### 1.1 什么是 Pandas <a id='1-1'></a>

Pandas 是一个用于处理数据集的 Python 库。它具有分析、清理、探索和操作数据的功能。 “Pandas”这个名称参考了“Panel Data”和“Python Data Analysis”，由 Wes McKinney 于 2008 年创建。Pandas 广泛用于数据科学、数据分析和机器学习任务。

官方强调了其如下显著特点[4]：

* 轻松处理浮点数和非浮点数中的 [**缺失数据**](https://pandas.pydata.org/pandas-docs/stable/user_guide/missing_data.html)（表示为 `NaN`、`NA` 或 `NaT`）

* 大小可变性：可以从 DataFrame 和更高维度的对象中[**插入和删除**](https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html#column-selection-addition-deletion) 列。

* 自动和显式[数据对齐](https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html?highlight=alignment#intro-to-data-structures)，对象可以显式地对齐到一组标签，或者用户可以简单地忽略标签，让 Series、DataFrame 等在计算中自动对齐数据。

* 提供了强大、灵活的[分组](https://pandas.pydata.org/pandas-docs/stable/user_guide/groupby.html#group-by-split-apply-combine)功能，可以对数据集执行分割-应用-组合操作，用于聚合和转换数据。

* 以将 Python 和 NumPy 数据结构中的不同索引、不规则数据[轻松转换](https://pandas.pydata.org/pandas-docs/stable/user_guide/dsintro.html#dataframe)为 DataFrame 对象。


* 智能的基于标签的[切片](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#slicing-ranges)、[花式索引](https://pandas.pydata.org/pandas-docs/stable/user_guide/advanced.html#advanced)和[子集](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#boolean-indexing)，可用于大型数据集。

* 直观的[合并](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html#database-style-dataframe-or-named-series-joining-merging)和[连接](https://pandas.pydata.org/pandas-docs/stable/user_guide/merging.html#joining-on-index)数据集的方法。

* 数据集的灵活[重塑](https://pandas.pydata.org/pandas-docs/stable/user_guide/reshaping.html)和[透视](https://pandas.pydata.org/pandas-docs/stable/user_guide/reshaping.html)

* 轴的[分层](https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#hierarchical-indexing-multiindex)标签（每个刻度可以有多个标签）

* 强大的 IO 工具，可从[平面文件](https://pandas.pydata.org/pandas-docs/stable/user_guide/io.html#csv-text-files)（CSV 和分隔符）、Excel 文件、数据库加载数据，并从超快的 HDF5 格式保存/加载数据

* [时间序列](https://pandas.pydata.org/pandas-docs/stable/user_guide/timeseries.html#time-series-date-functionality)特定功能：日期范围生成和频率转换、移动窗口统计、日期移位和滞后

### 1.2 安装 Pandas <a id='1-2'></a>

**Bohrium 已默认安装 Pandas，可在 Notebook 上直接运行。** 

你可以点击界面上方蓝色按钮 `开始连接`，选择 `notebook-Scikit-Learn:2023-02-28` 镜像及任何一款计算机型，稍等片刻即可运行。

如果你的 Bohrium 镜像尚未安装 Pandas， 最方便的方法是通过 pip 安装:

In [None]:
! pip install pandas



如果你需要使用更特定于你的平台或包管理器的安装方法，你可以在[这里](https://pandas.pydata.org/docs/getting_started/install.html)查看更完整的安装说明。


### 1.3 验证 Pandas 安装并查看版本 <a id='1-3'></a>

安装 Pandas 后，确认库已成功安装并且你可以开始使用它。 

不要跳过此步骤。 

如果 Pandas 未正确安装或在此步骤中引发错误，则将无法运行之后的示例。

In [None]:
import sklearn
print(sklearn.__version__)  # sklearn.__version__ 返回安装的 Scikit-Learn 的版本号

1.2.0


## 2 Pandas 方法 <a id='pandasfeatures'></a>

在这一节中，你会了解到一些 Pandas 的基础方法，包括：
- 2.1 创建对象
- 2.2 查看数据
- 2.3 选择数据
- 2.4 删除缺失值
- 2.5 操作数据
- 2.6 合并表格
- 2.7 数据分组
- 2.8 改变数据结构
- 2.9 时间序列
- 2.10 分类数据
- 2.11 绘图
- 2.12 读取与导出数据

### 2.1 创建对象 <a id='2-1'></a>

### 2.2 查看数据 <a id='2-2'></a>

### 2.3 选择数据 <a id='2-3'></a>

### 2.4 删除缺失值 <a id='2-4'></a>

### 2.5 操作数据 <a id='2-5'></a>

### 2.6 合并表格 <a id='2-6'></a>

### 2.7 数据分组 <a id='2-7'></a>

### 2.8 改变数据结构 <a id='2-8'></a>

### 2.9 时间序列 <a id='2-9'></a>

### 2.10 分类数据 <a id='2-10'></a>

### 2.11 绘图 <a id='2-11'></a>

### 2.12 读取与导出数据 <a id='2-12'></a>

# 总结 <a id='summary'></a>

在本教程中，您学习了在 Pandas 的一些基础方法。 

具体而言，您了解到： 
- 使用 Pandas 创建、读取或导出数据
- 查看或选择数据，对数据进行处理（选择，删除，分组，分类等）
- 表格处理，例如多表合并，改变表的数据结构
- 使用 Pandas 时间序列数据
- 结合 matplotlib 对 Pandas 数据进行绘图
 
你有什么问题吗？ 欢迎与我们联系 [bohrium@dp.tech](mailto:bohrium@dp.tech) 。

# 进一步阅读 <a id='furtherreading'></a>

如果您希望更深入学习 Pandas 及 Python 数据分析，本节提供有关该主题的更多资源。

**书籍**

- [Python for Data Analysis](https://amzn.to/3DyLaJc), 2021.

**Scikit-Learn 项目**

- [Scikit-Learn Homepage](https://scikit-learn.org/stable/).
- [Scikit-Learn Documentation](https://scikit-learn.org/stable/user_guide.html)
- [Scikit-Learn Installation Guide](https://scikit-learn.org/stable/install.html)
- [Scikit-Learn, Wikipedia](https://zh.wikipedia.org/wiki/Scikit-learn).
- [Scikit-Learn on GitHub](https://github.com/scikit-learn/scikit-learn).

# 参考

1. https://pandas.pydata.org/docs/user_guide/10min.html#min
2. https://pandas.pydata.org
3. https://amzn.to/3DyLaJc
4. https://github.com/pandas-dev/pandas