<!--NAVIGATION-->
< [Data Manipulation with Pandas](03.00-Introduction-to-Pandas.ipynb) | [Contents](Index.ipynb) | [Data Indexing and Selection](03.02-Data-Indexing-and-Selection.ipynb) >

# 3.2 Pandas对象简介（Pandas Objects）

如果从底层视角观察Pandas对象，可以把它们看成**增强版的NumPy结构化数组，行列都不再只是简单的整数索引，还可以带上标签**。

在本章后面的内容中我们将会发现，虽然Pandas 在基本数据结构上实现了许多便利的工具、方法和功能，但是后面将要介绍的每一个工具、方法和功能几乎都需要我们理解基本数据结构的内部细节。因此，在深入学习Pandas之前，先来看看Pandas的三个基本数据结构：``Series``, ``DataFrame``和``Index``。

从导入标准 NumPy 和 Pandas 开始：

In [95]:
import numpy as np
import pandas as pd

## 3.2.1 Pandas的Series对象

Pandas的``Series``对象是一个带索引数据构成的一维数组。可以用一个数组创建，如下所示：

In [96]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

从上面的结果中，你会发现``Series``对象将一组**数据**和一组**索引**绑定在一起，我们可以通过``values``属性和``index``属性获取数据。``values``属性返回的结果与NumPy数组类似：

In [97]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

``index``属性返回的结果是一个类型为``pd.Index``的类数组对象，我们将在后面的内容里详细介绍它：

In [98]:
data.index

RangeIndex(start=0, stop=4, step=1)

和NumPy数组一样，数据可以通过Python的中括号和索引标签获取：

In [99]:
data[1]

0.5

In [100]:
data[1:3]

1    0.50
2    0.75
dtype: float64

下面我们将会看到，Pandas的``Series``对象比它模仿的一维NumPy数组更加**通用、灵活**。

### 1. Series是通用的NumPy数组

``Series``对象和一维NumPy数组的本质差异是**索引**：NumPy数组通过**隐式定义**的整数索引获取数值，而Pandas的``Series``对象用一种**显式定义**的索引与数值关联。

显式索引的定义让``Series``对象拥有了更强的能力。例如，索引不再仅仅是整数，还可以是**任意想要的类型**。如果需要，完全可以用字符串定义索引：

小贴士：``Series``对象定义的是数组，但是“索引不再仅仅是整数，还可以是**任意想要的类型**”使我们自然而然的想到它很像字典，但是它和字典的区别在哪里呢，下小节将介绍。

In [101]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

获取数值的方式与之前一样：

In [102]:
data["b"]#运行data[1]结果一样

0.5

也可以使用不连续或不按顺序的索引：

In [103]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [104]:
data[5] #这时运行data[1]会报错

0.5

### 2.Series是特殊的字典

你可以把Pandas的``Series``对象看成一种特殊的Python字典。

你可以把 Pandas 的 Series 对象看成一种特殊的 Python 字典。字典是一种将任意键映射到一组任意值的数据结构，而 Series 对象其实是一种将类型键映射到一组类型值的数据结构。类型至关重要：就像 NumPy 数组背后特定类型的经过编译的代码使得它在某些操作上比普通的 Python 列表更加高效一样， **Pandas Series 的类型信息使得它在某些操作上比Python 的字典更高效**。

我们可以直接用Python的字典创建一个``Series``对象，让``Series``对象与字典的类比更加清晰：

In [119]:
#数据来自：2018年中国城市人口排名表前五（单位：万人）
population_dict = {'重庆': 3101.79,
                   '上海': 2423.78,
                   '北京': 2154.2,
                   '成都': 1633,
                   '天津': 1559.60} #字典用花括号{}, 内含有多对索引：值（又称为键-值对）
population = pd.Series(population_dict) #用Python的字典创建一个Series对象
#population = pd.Series(population_dict, dtype='float32')
population

重庆    3101.79
上海    2423.78
北京    2154.20
成都    1633.00
天津    1559.60
dtype: float64

用字典创建``Series``对象时，其索引默认按照顺序排列。典型的字典数值获取方式仍然有效：

In [120]:
population['重庆']

3101.79

和字典不同，``Series``对象还支持数组形式的操作，比如切片（而字典是不排序的，所以不能像列表那样切片。）

In [121]:
population['重庆':'北京']

重庆    3101.79
上海    2423.78
北京    2154.20
dtype: float64

我们将在下节中介绍Pandas取值与切片的一些技巧。

In [122]:
pd.Series([2, 4, 6])

0    2
1    4
2    6
dtype: int64

###  3. 创建Series对象

我们已经见过几种创建Pandas的``Series``对象的方法，都是像这样的形式：

```python
>>> pd.Series(data, index=index)
```
其中，第一个``index``是Series方法的一个可选参数（名字不能变），后一个index指一个存放索引值的一个变量（也可以是其它名字），``data``参数支持多种数据类型（字典，数组，列表，标量）。

例如，**``series``可以由列表或NumPy数组**来创建，这时``index``默认值为整数序列：

**也可以由一个标量来创建**，创建Series对象时会**重复填充**到每个索引上：

In [123]:
pd.Series(5, index=[100, 200, 300])

100    5
200    5
300    5
dtype: int64

**也可以由一个字典来创建，``index``默认是排序的字典键**：

In [124]:
pd.Series({2:'a', 1:'b', 3:'c'})

2    a
1    b
3    c
dtype: object

也可以由字典的一部分来创建：

In [125]:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])

3    c
2    a
dtype: object

## 3.2.2 Pandas的DataFrame对象

Pandas的另一个基础数据结构是``DataFrame``。和``Series``对象一样，``DataFrame``既可以作为一个通用型NumPy数组，也可以看作特殊的Python字典。下面来分别看看。

### 1. DataFrame是通用的NumPy数组

如果将``Series``类比为带灵活索引的一维数组，那么``DataFrame``就可以看作是一种既有**灵活的行索引**，又有**灵活的列名字**的二维数组。就像你可以把二维数组看成是有序排列的一维数组一样，你也可以把``DataFrame``看成是有序排列的若干``Series``对象。这里的“排列”指的是它们拥有**共同的索引**。

In [134]:
#数据来自：2018年中国城市GDP排名（单位：亿元）
gdp_dict = {'重庆': 20363.19, '上海': 32679.87, '北京': 30320.00,
             '成都': 15342.77, '天津': 188099.64}
gdp = pd.Series(gdp_dict)
gdp

重庆     20363.19
上海     32679.87
北京     30320.00
成都     15342.77
天津    188099.64
dtype: float64

In [135]:
cities = pd.DataFrame({'人口': population,
                       'GDP': gdp})#由两个series生成，且population和area有共同的索引。
cities

Unnamed: 0,人口,GDP
重庆,3101.79,20363.19
上海,2423.78,32679.87
北京,2154.2,30320.0
成都,1633.0,15342.77
天津,1559.6,188099.64


结合之前创建的``population`` 的Series对象，创建一个包含人口和GDP信息的二维对象：

In [136]:
cities.index

Index(['重庆', '上海', '北京', '成都', '天津'], dtype='object')

另外，``DataFrame``还有一个``columns``属性，是存放列标签的``Index``对象：

In [137]:
cities.columns

Index(['人口', 'GDP'], dtype='object')

因此``DataFrame``可以看作一种通用的NumPy二维数组，它的行与列都可以通过索引获取。

### 2. 将DataFrame看作是特殊的字典

与Series类似，我们也可以把``DataFrame``看成一种特殊的字典。字典是一个键映射一个值，而``DataFrame``是一列映射一个``Series``的数据。

例如，通过``'GDP'``的列属性可以返回包含面积数据的``Series``对象：

In [138]:
cities['GDP']

重庆     20363.19
上海     32679.87
北京     30320.00
成都     15342.77
天津    188099.64
Name: GDP, dtype: float64

**注意：在NumPy的二维数组里，``data[0]``返回第0行；而在``DataFrame``中，``data['第0列名']``返回第0列**。因此，最好把 ``DataFrame``看成一种通用字典，而不是通用数组，即使这两种看法在不同情况下都是有用的。 下节将介绍更多DataFrame灵活取值的方法。

### 3. 创建DataFrame对象

Pandas的``DataFrame``对象可以通过许多方式创建，这里举几个常用的例子。

#### （1）. 通过单个 Series 对象创建

**``DataFrame``是一组``Series``对象的集合**，可以用单个``Series``创建一个单列的``DataFrame``：

In [139]:
pd.DataFrame(population, columns=['人口'])#单位：万人

Unnamed: 0,人口
重庆,3101.79
上海,2423.78
北京,2154.2
成都,1633.0
天津,1559.6


#### (2). 通过字典列表创建

任何元素是字典的列表都可以变成``DataFrame``。用一个简单的列表综合来创建一些数据：

In [69]:
data = [{'a': i, 'b': 2 * i}
        for i in range(3)]# 注意这里a,b是列索引（columns），不是行索引（index）
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


In [None]:
以上用循环产生了有规律的各行数。比较以下写法：

In [142]:
data = [{'a':0, 'b':0}, {'a':1, 'b':2}, {'a':2, 'b':4}]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


即使字典中有些键不存在，Pandas也会用缺失值``NaN``（i.e.,not a number）来表示：

In [145]:
pd.DataFrame([{'a':0, 'b':0, 'c':0}, {'a': 1, 'b': 2}, {'b': 4, 'c': 6}])

Unnamed: 0,a,b,c
0,0.0,0,0.0
1,1.0,2,
2,,4,6.0


#### (3).  通过Series对象字典创建

如前所示，``DataFrame``也可以用一个由``Series``对象构成的字典创建：

In [146]:
pd.DataFrame({'人口': population,
              'GPD': gdp})

Unnamed: 0,人口,GPD
重庆,3101.79,20363.19
上海,2423.78,32679.87
北京,2154.2,30320.0
成都,1633.0,15342.77
天津,1559.6,188099.64


#### (4). 通过NumPy二维数组创建

假如有一个二维数组，就可以创建一个可以指定行列索引值的``DataFrame``。如果不指定行列索引值，那么行列默认都是整数索引值：

In [147]:
pd.DataFrame(np.random.rand(3, 2),
             columns=['foo', 'bar'],
             index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.135115,0.911189
b,0.340126,0.240436
c,0.096178,0.608608


#### (5). 通过NumPy结构化数组创建

2.9节曾介绍过结构化数组。由于Pandas的``DataFrame``与结构化数组十分相似，因此可以通过结构化数组创建``DataFrame``：

In [73]:
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [74]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


## 3.2.3 Pandas的Index对象

我们已经发现，``Series``和``DataFrame``对象都使用便于引用和调整的显式索引。

Pandas的``Index``对象是一个很有趣的数据结构，可以将它看作是一个**不可变数组或有序集合**（实际上是一个多集，因为``Index``对象可能会包含重复值）。这两种观点使得``Index``对象能呈现一些有趣的功能。

让我们用一个简单的整数列表来创建一个``Index``对象：

In [75]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

### 1. 将Index看作不可变数组

``Index``对象的许多操作都像数组。例如，可以通过标准Python的取值方法获取数值，也可以通过切片获取数值：

In [76]:
ind[1]

3

In [77]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

``Index``对象还有许多与NumPy数组相似的属性：

In [78]:
print(ind.size, ind.shape, ind.ndim, ind.dtype) #ndim返回的是数组的维度，在这里是一维

5 (5,) 1 int64


``Index``对象与NumPy数组之间的不同在于，``Index``对象的**索引是不可变的**，也就是说**不能**通过通常的方式进行调整：

In [79]:
ind[1] = 0

TypeError: Index does not support mutable operations

Index对象的不可变特征使得多个``DataFrame``和数组之间进行索引共享时更加安全，尤其是可以避免因修改索引时粗心大意而导致的副作用。

### 2. 将Index看作有序集合

Pandas对象被设计用于实现许多操作，如连接（``join``）数据集，其中会涉及许多集合操作。``Index``对象遵循 Python 标准库的集合（``set``）数据结构的许多习惯用法，包括并集、交集、差集等。

In [155]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [156]:
indA & indB  # 交集（&用在集合操作时是求交集运算，用在布尔数组时是按位与）

Int64Index([3, 5, 7], dtype='int64')

In [157]:
indA | indB  # 并集

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [158]:
indA ^ indB  # 异或

Int64Index([1, 2, 9, 11], dtype='int64')

这些操作还可以通过调用对象方法来实现，例如 ``indA.intersection(indB)``.

<!--NAVIGATION-->
< [Data Manipulation with Pandas](03.00-Introduction-to-Pandas.ipynb) | [Contents](Index.ipynb) | [Data Indexing and Selection](03.02-Data-Indexing-and-Selection.ipynb) >