#  Introduction to pandas Data Structures

## pandas 简介

前面，我们详细介绍了NumPy 和它的ndarray 对象，这个对象为Python 多维数组
提供了高效的存储和处理方法。下面，我们将基于前面的知识，深入学习Pandas 程序库提
供的数据结构。Pandas 是在NumPy 基础上建立的新程序库，提供了一种高效的DataFrame
数据结构。DataFrame 本质上是一种带行标签和列标签、支持相同类型数据和缺失值的多
维数组。Pandas 不仅为带各种标签的数据提供了便利的存储界面，还实现了许多强大的操
作，这些操作对数据库框架和电子表格程序的用户来说非常熟悉。

正如我们之前看到的那样，NumPy 的ndarray 数据结构为数值计算任务中常见的干净整
齐、组织良好的数据提供了许多不可或缺的功能。虽然它在这方面做得很好，但是当我们
需要处理更灵活的数据任务（如为数据添加标签、处理缺失值等），或者需要做一些不是
对每个元素都进行广播映射的计算（如分组、透视表等）时，NumPy 的限制就非常明显
了，而这些都是分析各种非结构化数据时很重要的一部分。建立在NumPy 数组结构上的
Pandas，尤其是它的Series 和DataFrame 对象，为数据科学家们处理那些消耗大量时间的
“数据清理”（data munging）任务提供了捷径。

以后将重点介绍Series、DataFrame 和其他相关数据结构的高效使用方法。

Pandas 安装好之后，可以导入它检查一下版本号：

In [1]:
import pandas
pandas.__version__

'0.24.2'

和之前导入NumPy 并使用别名np 一样，我们将导入Pandas 并使用别名pd：

In [2]:
import pandas as pd

另外可以导入Series和DataFrame，因为这两个经常被用到：

In [3]:
from pandas import Series, DataFrame

如果从底层视角观察Pandas 对象，可以把它们看成增强版的NumPy 结构化数组，行列都
不再只是简单的整数索引，还可以带上标签。在后面的内容中我们将会发现，虽然
Pandas 在基本数据结构上实现了许多便利的工具、方法和功能，但是后面将要介绍的每
一个工具、方法和功能几乎都需要我们理解基本数据结构的内部细节。因此，在深入学习
Pandas 之前，先来看看Pandas 的三个基本数据结构：Series、DataFrame 和Index。

从导入标准NumPy 和Pandas 开始：|

In [4]:
import numpy as np
import pandas as pd

## Pandas的Series对象

Pandas 的Series 对象是一个带索引数据构成的一维数组。可以用一个数组创建Series 对
象，如下所示：

In [5]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

从上面的结果中，你会发现Series 对象将一组数据和一组索引绑定在一起，我们可以通过
values 属性和index 属性获取数据。**values 属性返回的结果与NumPy 数组类似**：

In [6]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

**index 属性返回的结果是一个类型为pd.Index 的类数组对象**，我们将在后面的内容里详细
介绍它：

In [7]:
data.index

RangeIndex(start=0, stop=4, step=1)

和NumPy 数组一样，数据可以通过Python 的中括号索引标签获取：

In [8]:
data[1]

0.5

In [9]:
data[1:3]

1    0.50
2    0.75
dtype: float64

但是我们将会看到，Pandas 的Series 对象比它模仿的一维NumPy 数组更加通用、灵活。

#### 1. Serise是通用的NumPy数组

到目前为止，我们可能觉得Series 对象和一维NumPy 数组基本可以等价交换，但两者
间的本质差异其实是索引：NumPy 数组通过隐式定义的整数索引获取数值，而Pandas 的
Series 对象用一种显式定义的索引与数值关联。

显式索引的定义让Series 对象拥有了更强的能力。例如，索引不再仅仅是整数，还可以是
任意想要的类型。如果需要，完全可以用字符串定义索引：

In [10]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                 index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

获取数值的方式与之前一样：

In [11]:
data['b']

0.5

也可以使用不连续或不按顺序的索引：

In [12]:
data = pd.Series([0.25, 0.5, 0.75, 1.0],
                    index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [13]:
data[5]

0.5

#### 2. Series是特殊的字典

你可以把Pandas 的Series 对象看成一种特殊的Python 字典。字典是一种将任意键映射到
一组任意值的数据结构，而Series 对象其实是一种将类型键映射到一组类型值的数据结
构。类型至关重要：就像NumPy 数组背后特定类型的经过编译的代码使得它在某些操作
上比普通的Python 列表更加高效一样，Pandas Series 的类型信息使得它在某些操作上比
Python 的字典更高效。

我们可以直接用Python 的字典创建一个Series 对象，让Series 对象与字典的类比更
加清晰：

In [14]:
population_dict = {'California': 38332521,
                    'Texas': 26448193,
                    'New York': 19651127,
                    'Florida': 19552860,
                    'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

用字典创建Series 对象时，其索引默认按照顺序排列。典型的字典数值获取方式仍然
有效：

In [15]:
population['California']

38332521

和字典不同，Series 对象还支持数组形式的操作，比如切片：

In [16]:
population['California':'New York']

California    38332521
Texas         26448193
New York      19651127
dtype: int64

#### 3. 创建Series对象

我们已经见过几种创建Pandas 的Series 对象的方法，都是像这样的形式：
```python
pd.Series(data, index=index)
```
其中，index 是一个可选参数，data 参数支持多种数据类型。
例如，data 可以是列表或NumPy 数组，这时index 默认值为整数序列：

例如，data 可以是列表或NumPy 数组，这时index 默认值为整数序列：

In [17]:
pd.Series([2, 4, 6])

0    2
1    4
2    6
dtype: int64

data 也可以是一个标量，创建Series 对象时会重复填充到每个索引上：

In [18]:
pd.Series(5, index=[100, 200, 300])

100    5
200    5
300    5
dtype: int64

data 还可以是一个字典，index 默认是排序的字典键：

In [19]:
pd.Series({2:'a', 1:'b', 3:'c'})

2    a
1    b
3    c
dtype: object

每一种形式都可以通过显式指定索引筛选需要的结果：

In [20]:
pd.Series({2:'a', 1:'b', 3:'c'}, index=[3, 2])

3    c
2    a
dtype: object

这里需要注意的是，Series 对象只会保留显式定义的键值对。

#### 4. 其他

In [21]:
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

使用numpy函数或类似的操作，会保留index-value的关系：

In [22]:
obj2[obj2 > 0]

d    4
b    7
c    3
dtype: int64

In [23]:
obj2 * 2

d     8
b    14
a   -10
c     6
dtype: int64

In [24]:
np.exp(obj2)

d      54.598150
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

另一种看待series的方法，它是一个长度固定，有顺序的dict，从index映射到value。在很多场景下，可以当做dict来用：

In [25]:
'b' in obj2

True

In [26]:
'e' in obj2

False

In [27]:
1 in obj2 ##隐式索引不行

False

用现有的dict来创建series：

In [28]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon':16000, 'Utah': 5000}
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

顺序是按states里来的，但因为没有找到california,所以是NaN。NaN表示缺失数据，。pandas中的isnull和notnull函数可以用来检测缺失数据：

In [29]:
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [30]:
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

series也有对应的方法：

In [31]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

serice自身和它的index都有一个叫name的属性，这个能和其他pandas的函数进行整合：

In [32]:
obj4.name = 'population'
obj4.index.name = 'state'

In [33]:
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

series的index能被直接更改(长度必须一致，不然会报错)：

In [34]:
obj4.index = ['d', 'b', 'a', 'c'] 
obj4.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [35]:
obj4

d        NaN
b    35000.0
a    16000.0
c    71000.0
Name: population, dtype: float64

## Pandas的DataFrame对象
Pandas 的另一个基础数据结构是DataFrame。和上一节介绍的Series 对象一样，DataFrame既可以作为一个通用型NumPy 数组，也可以看作特殊的Python 字典。下面来分别看看。

#### 1. DataFrame是通用的NumPy数组
如果将Series 类比为带灵活索引的一维数组，那么DataFrame 就可以看作是一种既有灵活
的行索引，又有灵活列名的二维数组。就像你可以把二维数组看成是有序排列的一维数组
一样，你也可以把DataFrame 看成是有序排列的若干Series 对象。这里的“排列”指的是
它们拥有共同的索引。

用美国五个州面积的数据创建一个新的Series 来进行演示：

In [36]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

再创建population 的Series 对象，用一个字典创建一个包含这些信息的二维对象：

In [37]:
population_dict = {'California': 38332521,
                    'Texas': 26448193,
                    'New York': 19651127,
                    'Florida': 19552860,
                    'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [38]:
states = pd.DataFrame({'population': population,
'area': area})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


和Series 对象一样，DataFrame 也有一个index 属性可以获取索引标签：

In [39]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

另外，DataFrame 还有一个columns 属性，是存放列标签的Index 对象：

In [40]:
states.columns

Index(['population', 'area'], dtype='object')

因此DataFrame 可以看作一种通用的NumPy 二维数组，它的行与列都可以通过索引获取。

#### 2. DataFrame是特殊的字典
与Series 类似，我们也可以把DataFrame 看成一种特殊的字典。字典是一个键映射一个值，而DataFrame 是一列映射一个Series 的数据。
例如，通过'area' 的列属性可以返回包含面积数据的Series 对象：

In [41]:
states['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

这里需要注意的是，在NumPy 的二维数组里，data[0] 返回第一行；而在DataFrame 中，
data['col0'] 返回第一列。因此，最好把DataFrame 看成一种通用字典，而不是通用数
组，即使这两种看法在不同情况下都是有用的。3.3 节将介绍更多DataFrame 灵活取值的
方法。

#### 3. 创建DataFrame对象
Pandas 的DataFrame 对象可以通过许多方式创建，这里举几个常用的例子。

(1) 通过单个Series 对象创建。DataFrame 是一组Series 对象的集合，可以用单个Series
创建一个单列的DataFrame：

In [42]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


(2) 通过字典列表创建。任何元素是字典的列表都可以变成DataFrame。用一个简单的列表
综合来创建一些数据：

In [43]:
data = [{'a': i, 'b': 2 * i} for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


即使字典中有些键不存在，Pandas 也会用缺失值NaN（不是数字，not a number）来表示：

In [44]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


(3) 通过Series 对象字典创建。就像之前见过的那样，DataFrame 也可以用一个由Series
对象构成的字典创建：

In [45]:
pd.DataFrame({'population': population,'area': area})

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


(4) 通过NumPy 二维数组创建。假如有一个二维数组，就可以创建一个可以指定行列索引
值的DataFrame。如果不指定行列索引值，那么行列默认都是整数索引值：

In [46]:
pd.DataFrame(np.random.rand(3, 2),
            columns=['foo', 'bar'],
            index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.880607,0.148461
b,0.614604,0.193099
c,0.734003,0.766886


(5) 通过NumPy 结构化数组创建。由于Pandas 的DataFrame与结构化数组十分相似，因此可以通过结构化数组创建DataFrame：

In [47]:
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [48]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


#### 其他

构建一个dataframe的方法，用一个dcit，dict里的值是list：

In [49]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'], 
        'year': [2000, 2001, 2002, 2001, 2002, 2003], 
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

frame = pd.DataFrame(data)

frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


dataframe也会像series一样，自动给数据赋index, 而列则会按顺序排好。

对于一个较大的DataFrame，用head方法会返回前5行（注：这个函数在数据分析中经常使用，用来查看表格里有什么东西）：

In [50]:
frame.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


如果指定一列的话，会自动按列排序：

In [51]:
pd.DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


如果你导入一个不存在的列名，那么会显示为缺失数据：

In [52]:
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'], 
                      index=['one', 'two', 'three', 'four', 'five', 'six'])
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [53]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

从DataFrame里提取一列的话会返回series格式，可以以属性或是dict一样的形式来提取：

In [54]:
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [55]:
frame2.year

one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64

注意：frame2[column]能应对任何列名，但frame2.column的情况下，列名必须是有效的python变量名才行。

返回的series有DataFrame种同样的index，而且name属性也是对应的。

对于行，要用在loc属性里用 位置或名字：

In [56]:
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

列值也能通过赋值改变。比如给debt赋值：

In [57]:
frame2['debt'] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


In [58]:
frame2['debt'] = np.arange(6.)
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


如果把list或array赋给column的话，长度必须符合DataFrame的长度。如果把一二series赋给DataFrame，会按DataFrame的index来赋值，不够的地方用缺失数据来表示：

In [59]:
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


如果列不存在，赋值会创建一个新列。而del也能像删除字典关键字一样，删除列：

In [60]:
frame2['eastern'] = frame2.state == 'Ohio'
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False
six,2003,Nevada,3.2,,False


然后用del删除这一列：

In [61]:
del frame2['eastern']
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

另一种常见的格式是dict中的dict：

In [62]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}

把上面这种嵌套dcit传给DataFrame，pandas会把外层dcit的key当做列，内层key当做行索引：

In [63]:
frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


另外DataFrame也可以向numpy数组一样做转置：

In [64]:
frame3.T

Unnamed: 0,2000,2001,2002
Nevada,,2.4,2.9
Ohio,1.5,1.7,3.6


values属性会返回二维数组：

In [65]:
frame3.values

array([[nan, 1.5],
       [2.4, 1.7],
       [2.9, 3.6]])

如果column有不同的类型，dtype会适应所有的列：

In [66]:
frame2.values

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, -1.2],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, -1.5],
       [2002, 'Nevada', 2.9, -1.7],
       [2003, 'Nevada', 3.2, nan]], dtype=object)

## Pandas的Index对象
我们已经发现，Series 和DataFrame 对象都使用便于引用和调整的显式索引。Pandas 的
Index 对象是一个很有趣的数据结构，可以将它看作是一个不可变数组或有序集合（实际
上是一个多集，因为Index 对象可能会包含重复值）。这两种观点使得Index 对象能呈现一
些有趣的功能。让我们用一个简单的整数列表来创建一个Index 对象：

In [67]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

#### 1. 将Index看作不可变数组
Index 对象的许多操作都像数组。例如，可以通过标准Python 的取值方法获取数值，也可
以通过切片获取数值：

In [68]:
ind[1]

3

In [69]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

Index 对象还有许多与NumPy 数组相似的属性：

In [70]:
ind.size, ind.shape, ind.ndim, ind.dtype

(5, (5,), 1, dtype('int64'))

Index 对象与NumPy 数组之间的不同在于，Index 对象的索引是不可变的，也就是说不能
通过通常的方式进行调整：

    ind[1] = 0   #会报错

Index 对象的不可变特征使得多个DataFrame 和数组之间进行索引共享时更加安全，尤其是
可以避免因修改索引时粗心大意而导致的副作用。

#### 2. 将Index看作有序集合
Pandas 对象被设计用于实现许多操作，如连接（join）数据集，其中会涉及许多集合操作（当然pandas的index允许重复）。
Index 对象遵循Python 标准库的集合（set）数据结构的许多习惯用法，包括并集、交集、
差集等：

In [71]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])

In [72]:
indA & indB # 交集

Int64Index([3, 5, 7], dtype='int64')

In [73]:
indA | indB # 并集

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [74]:
indA ^ indB # 异或

Int64Index([1, 2, 9, 11], dtype='int64')

这些操作还可以通过调用对象方法来实现，例如indA.intersection(indB)。