# 3.1 安装并使用pandas

In [1]:
import pandas as pd
import numpy as np

# 3.2 pandas对象简介
Pandas的基本数据结构分为以下三类：Series、DataFrame和Index。

## 3.2.1 Pandas的Series对象
Pandas的Series对象是一个带索引数据构成的一维数组，可用一个数组创建Series对象，如下所示：

In [2]:
data =pd.Series([0.25,0.5,0.75,1])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

Series对象将一组数据和一组索引绑定在一起，我们可以通过values和index属性获取数据。values是一个与Numpy数组类似。

In [3]:
print(data.values)
print(type(data.values))

[0.25 0.5  0.75 1.  ]
<class 'numpy.ndarray'>


index属性返回的是一个类型为pd.index的类数组对象。

In [4]:
data.index

RangeIndex(start=0, stop=4, step=1)

和Numpy数组一样，数据可以通过Python的括号索引标签获取：

In [5]:
data[1]

0.5

In [6]:
data[1:3]

1    0.50
2    0.75
dtype: float64

但是我们将看到，Series对象比其模仿的Numpy数据更加通用，灵活。

### 1. Series是通用的Numpy数组

到目前未知，我们可能觉得Series对象和一维Numpy数组基本可以等价交换。但两者的本质差异其实是索引：Numpy通过**隐式定义的**整数索引获取数值，
而Pandas的Series对象用一种**显式定义的**索引与数值关联。

显示索引的而定义让Series对象拥有了更强的能力。例如，索引不再仅仅是整数，还可以是任意想要的类型。如果可以，完全能够用字符串定义索引：

In [7]:
data = pd.Series([0.25,0.5,0.75,1.0],index=['a','b','c','d'])

In [8]:
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [9]:
data['b']

0.5

In [10]:
data[1]

  data[1]


0.5

也可以使用不按照顺序的整数索引

In [11]:
data = pd.Series([0.25,0.5,0.75,1.0],index=[2,5,3,7])

In [12]:
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

In [13]:
data[5]

0.5

### Series是特殊的字典
你可以把Series对象看作一种特殊的Python字典。字典是将一种任意键映射到一组任意值的数据结构，而Series对象是一种将类型键映射到一组类型值的数组结构。


类型至关重要，索引和数值各自保持为统一类型使得Series比字典更加高效。

In [14]:
population_dict = {'California': 38332521,
                   'Texas': 26448193,
                   'New York':19651127,
                   'Florida':19552860,
                   'Illinois':12882135
}
population=pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

注意，用字典创建Series对象时候，其索引是按照字典内索引顺序排列的（**和书中写得不同**）。典型的字典数值获取方式仍然有效：

In [15]:
population['California']

38332521

In [16]:
population['California':'New York']

California    38332521
Texas         26448193
New York      19651127
dtype: int64

### 创建Series对象
我们已经见过几种创建Series对象的方法，都是像这样的形式：

`pd.Series(data, index=index)`

其中，index是一个可选参数，data参数支持多种数据类型。

例如，data可以是列表或者Numpy数组，这时index值默认为整数序列：

In [17]:
pd.Series([2,4,6])

0    2
1    4
2    6
dtype: int64

data也可以是一个标量，创建的Series对象会重复填充到每个索引上：

In [18]:
pd.Series(5,index=[10,12,14])

10    5
12    5
14    5
dtype: int64

data可以是一个字典，index的默认排序是排序的字典键:

In [19]:
pd.Series({2:'a',1:'b',3:'c'})

2    a
1    b
3    c
dtype: object

可以通过显示指定索引来筛选需要的结果，pandas只会保留显示指定的索引键值对。

In [20]:
pd.Series({2:'a',1:'b',3:'c'},index=[3,2])

3    c
2    a
dtype: object

## 3.2.2 Pandas的DataFrame对象
和Series对象一样，DataFrame既可以作为通用型的Numpy数组，也可以看作特殊的Python字典。

### 1.DataFrame是通用的Numpy数组
DataFrame是既有灵活的行索引，又有灵活列名的二维数组。你也可以把DataFrame看成是有序排列的若干Series对象，这里的排列是指它们有共同的索引。

In [21]:
area_dict = {'California':423967,'Texas':695662,'New York':141297,
             'Florida':170312,'Illinois':149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

In [22]:
#结合之前创建的population Series对象，用一个字典创建包含这些信息的二维对象
states = pd.DataFrame({'population':population,
                      'area':area})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


和Series对象一样，DataFrame也有一个index属性可以获取索引标签：

In [23]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

Dataframe还有一个columns属性，是存放列标签的Index对象：

In [24]:
states.columns

Index(['population', 'area'], dtype='object')

### 2. DataFrame是特殊的字典
与Series类似，我们也可以把DataFrame看成一种特殊的字典，字典是一个键映射一个值，而DataFrame是一列映射一个Series数据。例如，通过'area'的列
属性可以返回包含面积数据的Series对象：

In [25]:
states['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

需要特别注意的事情是，Numpy数组`data[0]`会返回第一行，而dataframe会直接报错。因此，最好把DataFrame看成一种二维字典。

### 3. 创建DataFrame对象
Pandas的DataFrame对象可以通过许多方式创建,这里举几个常用的例子。

#### (1) 通过单个Series对象创建
还是以population和area为例，可以创建如下的dataframe

In [26]:
# 单列
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


多列无论怎么写都会失效，看来还是别这么写了。

#### (2) 通过字典-列表/列表-字典创建
任何元素是字典的列表都可以变成DataFrame。用一个简单的列表来创建一些数据：

In [27]:
data = [{'a':i, 'b':2*i} for i in range(3)]
data

[{'a': 0, 'b': 0}, {'a': 1, 'b': 2}, {'a': 2, 'b': 4}]

In [28]:
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


那么值是列表的字典能不能得到dataframe呢？

In [29]:
dict = {'Odd':[x for x in range(1,10,2)],
       'Even':[x for x in range(2,12,2)]}
dict

{'Odd': [1, 3, 5, 7, 9], 'Even': [2, 4, 6, 8, 10]}

In [30]:
pd.DataFrame(dict)

Unnamed: 0,Odd,Even
0,1,2
1,3,4
2,5,6
3,7,8
4,9,10


也是可以的！创建DataFrame的底层逻辑就是**你输入的数据结构需要提供列索引。**

#### (3) 通过Series对象字典创建
和利用值是列表的字典创建逻辑差不多。

In [31]:
pd.DataFrame({'population':population,
             'area':area})

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


#### (4) 通过NumPy二维数组创建
假如有一个二维数组，就可以创建一个指定行列索引的DataFrame。如果不指定行列索引值，那么默认都是整数索引值。

In [32]:
pd.DataFrame(np.random.rand(3,2),
            columns=['foo','bar'],
            index=['a','b','c'])

Unnamed: 0,foo,bar
a,0.950091,0.21557
b,0.553743,0.702112
c,0.805421,0.812738


#### (5) 通过NumPy结构化数组创建。
由于Pandas的DataFrame与结构化数组十分相似，因此可以通过结构化数组创建DataFrame：

In [33]:
A = np.zeros(3,dtype=[('A','i8'),('B','f8')])
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [34]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


## 3.2.3 Pandas的Index对象
Pandas的Series和DataFrame对象都使用便于引用和调整的**显式索引**，Pandas的Index对象是一个很有趣的数据结构，可以将它看作是一个
**不可变数组**或者**有序集合**（实际上是一个多集，因为Index对象可能包含重复值）。让我们来看一下Index对象：

In [35]:
import pandas as pd
ind = pd.Index([2,3,5,7,11])
ind

Index([2, 3, 5, 7, 11], dtype='int64')

#### 1. 将Index看作不可变数组
Index对象有许多对象都像数组，可以通过标准的索引方法和切片操作取值。

In [36]:
ind[2]

5

In [37]:
ind[::2]

Index([2, 5, 11], dtype='int64')

Index还有许多与Numpy数组相似的属性：

In [38]:
print(ind.size,ind.shape,ind.ndim,ind.dtype)

5 (5,) 1 int64


与一般数组不同，Index对象的索引是不可变的。赋值操作会被判错：

    ind[1]=0
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
Cell In[39], line 1
----> 1 ind[1]=0

File F:\Anaconda3\Lib\site-packages\pandas\core\indexes\base.py:5348, in Index.__setitem__(self, key, value)
   5346 @final
   5347 def __setitem__(self, key, value) -> None:
-> 5348     raise TypeError("Index does not support mutable operations")

TypeError: Index does not support mutable operations

### 2.将Index看作有序集合
Index对象遵循Python标准库的集合（Set）数据结构的许多习惯用法，包括交集、并集和差集：

In [39]:
indA = pd.Index([1,3,5,7,9])
indB = pd.Index([2,3,5,7,11])
print(indA)
print(indB)

Index([1, 3, 5, 7, 9], dtype='int64')
Index([2, 3, 5, 7, 11], dtype='int64')


In [40]:
indA & indB

Index([0, 3, 5, 7, 9], dtype='int64')

In [41]:
indA | indB

Index([3, 3, 5, 7, 11], dtype='int64')

In [42]:
indA ^ indB

Index([3, 0, 0, 0, 2], dtype='int64')

奇怪……

# 3.3 数据取值和选择
Series和DataFrame的取值与Numpy非常相似。

## 3.3.1 Series数据选择方法
### 1. 将Series看作字典
和字典一样，Series对象提供了键值对映射，这使得许多用于字典的方法能够用于Series对象。

In [43]:
import pandas as pd
data=pd.Series([0.25,0.5,0.75,1.0],
              index = ['a','b','c','d'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [44]:
data['b']

0.5

我们还可以用Python字典的表达式和方法来检测键/索引和值

In [45]:
'a' in data

True

In [46]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [47]:
data.index # 这似乎是更加“正宗”的获取索引的方法

Index(['a', 'b', 'c', 'd'], dtype='object')

In [48]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

也可以通过索引进行赋值操作

In [49]:
data['e']=1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

### 2.将Series看作一维数组
Series具有和NumPy数组一样的数据选择功能，包括**索引**、**掩码**、**花哨的索引**等操作，具体示例如下所示：

In [50]:
data['a':'c'] # 将显式索引作为切片

a    0.25
b    0.50
c    0.75
dtype: float64

In [51]:
data[0:2] # 将隐式整数索引作为切片

a    0.25
b    0.50
dtype: float64

In [52]:
## 掩码
data[ (data>0.3) & (data<0.8) ]

b    0.50
c    0.75
dtype: float64

In [53]:
## 花哨的索引
data[['a','e']]

a    0.25
e    1.25
dtype: float64

以上操作之中，切片是绝大部分混乱之源。使用显式索引，结果**包含最后一个元素**；使用隐式索引，结果**不包含最后一个元素**。为了规避这些混乱
Pandas内置了索引器。

### 3.索引器：loc、iloc
对于下面的Series对象，当你采用取值操作会使用显式索引，而切片操作却会使用隐式索引。

In [54]:
data = pd.Series(['a','b','c'],index=[1,3,5])
data

1    a
3    b
5    c
dtype: object

In [55]:
data[1]

'a'

In [56]:
data[1:3]

3    b
5    c
dtype: object

整数索引太容易造成混淆，所以Pandas提供了一些**索引器（indexer）** 属性来作为取值的方法。它们不是Series对象的函数方法，而是暴露切片接口的属性。

第一个索引器是loc属性，表示取值和切片都是显式的：

In [57]:
data.loc[1]

'a'

In [58]:
data.loc[1:3]

1    a
3    b
dtype: object

第二个索引器是iloc属性，表示取值和切片都是隐式的（从0开始的左闭右开区间）：

In [59]:
data.iloc[1]

'b'

In [60]:
data.iloc[1:3]

3    b
5    c
dtype: object

强烈建议使用两种索引器属性来获取数据。

## 3.3.2 DataFrame数据选择方法
DataFrame具有二维或结构化数组的性质，有时候又像一个共享索引的若干Series对象构成的字典。这两种类比可以帮助我们更好地掌握这种数据结构的数据选择方法。

### 1. 将DataFrame看作字典


In [61]:
area = pd.Series({'California':432967,"Texas":695662, 'New York':141297,"Florida":170312,"Illinois":149995})
pop = pd.Series({'California':38332521,"Texas":26448193, 'New York':19651127,"Florida":19552860,"Illinois":12882135})
data = pd.DataFrame({'area':area,'pop':pop})
data

Unnamed: 0,area,pop
California,432967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


可以通过对列名进行字典形式的取值获取数据：

In [62]:
data['area']

California    432967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

也可以用属性形式（attribute—style）选择**纯字符串列名**的数据

In [63]:
data.area

California    432967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [64]:
data.area is data['area']

True

属性形式有许多局限性，如果列名是纯字符串，或者列名于DataFrame的方法同名，就不能这么用。

尤其要避免`data.pop=z`这样的语法的使用。

你可以用字典形式的语法调整对象，如果要增加一列可以这么做：

In [65]:
data['density'] = data['pop']/data['area']
data

Unnamed: 0,area,pop,density
California,432967,38332521,88.53451
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


### 2.将DataFrame作为二维数组
前面曾经提到，可以把DataFrame看作一个增强版的二维数组，用values查看数据：

In [66]:
data.values

array([[4.32967000e+05, 3.83325210e+07, 8.85345096e+01],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02],
       [1.49995000e+05, 1.28821350e+07, 8.58837628e+01]])

理解了这一点，就可以把许多数组的操作方式用在DataFrame上。例如，可以进行列转置：

In [67]:
data.T

Unnamed: 0,California,Texas,New York,Florida,Illinois
area,432967.0,695662.0,141297.0,170312.0,149995.0
pop,38332520.0,26448190.0,19651130.0,19552860.0,12882140.0
density,88.53451,38.01874,139.0767,114.8061,85.88376


你仍然可以用下面这两种比较原始的方法获取Dataframe的行和列，但并不便捷,而且返回得到的不是一种数据类型：

In [68]:
data.values[0] # 获取第1行

array([4.32967000e+05, 3.83325210e+07, 8.85345096e+01])

In [69]:
data['area']

California    432967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

因此，采用索引器获取DataFrame数据是十分必要的——使用这种获取方式能自动保留行列标签：

In [70]:
# 隐式索引
data.iloc[:3,:2]

Unnamed: 0,area,pop
California,432967,38332521
Texas,695662,26448193
New York,141297,19651127


In [71]:
# 显式索引
data.loc[:'Illinois',:'pop']

Unnamed: 0,area,pop
California,432967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


注意先是行索引，再是列索引，尤其是在使用ix索引器时：

~~data.ix[:3,:'pop']~~ ix方法已经被重构，不再使用

可以在loc索引器中使用掩码和花哨的索引：

In [72]:
data.loc[data.density>0,['pop','density']]

Unnamed: 0,pop,density
California,38332521,88.53451
Texas,26448193,38.01874
New York,19651127,139.076746
Florida,19552860,114.806121
Illinois,12882135,85.883763



    `data.iloc[data.density>0,0:2]`
---------------------------------------------------------------------------
ValueError                                Traceback (most recent call last)
File F:\Anaconda3\Lib\site-packages\pandas\core\indexing.py:940, in _LocationIndexer._validate_tuple_indexer(self, key)
    939 try:
--> 940     self._validate_key(k, i)
    941 except ValueError as err:

File F:\Anaconda3\Lib\site-packages\pandas\core\indexing.py:1545, in _iLocIndexer._validate_key(self, key, axis)
   1540         raise NotImplementedError(
   1541             "iLocation based boolean "
   1542             "indexing on an integer type "
   1543             "is not available"
   1544         )
-> 1545     raise ValueError(
   1546         "iLocation based boolean indexing cannot use "
   1547         "an indexable as a mask"
   1548     )
   1549 return

ValueError: iLocation based boolean indexing cannot use an indexable as a mask

The above exception was the direct cause of the following exception:

ValueError                                Traceback (most recent call last)
Cell In[73], line 1
----> 1 data.iloc[data.density>0,0:2]

File F:\Anaconda3\Lib\site-packages\pandas\core\indexing.py:1147, in _LocationIndexer.__getitem__(self, key)
   1145     if self._is_scalar_access(key):
   1146         return self.obj._get_value(*key, takeable=self._takeable)
-> 1147     return self._getitem_tuple(key)
   1148 else:
   1149     # we by definition only have the 0th axis
   1150     axis = self.axis or 0

File F:\Anaconda3\Lib\site-packages\pandas\core\indexing.py:1652, in _iLocIndexer._getitem_tuple(self, tup)
   1651 def _getitem_tuple(self, tup: tuple):
-> 1652     tup = self._validate_tuple_indexer(tup)
   1653     with suppress(IndexingError):
   1654         return self._getitem_lowerdim(tup)

File F:\Anaconda3\Lib\site-packages\pandas\core\indexing.py:942, in _LocationIndexer._validate_tuple_indexer(self, key)
    940         self._validate_key(k, i)
    941     except ValueError as err:
--> 942         raise ValueError(
    943             "Location based indexing can only have "
    944             f"[{self._valid_types}] types"
    945         ) from err
    946 return key

ValueError: Location based indexing can only have [integer, integer slice (START point is INCLUDED, END point is EXCLUDED), listlike of integers, boolean array] types

好吧，看来只有loc索引器支持复杂的索引。

任何一种取值方法都可以用于调整数据：

In [73]:
data.iloc[0,2]=90
data

Unnamed: 0,area,pop,density
California,432967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


也支持多个赋值

In [74]:
data.iloc[0:2,2]=90
data

Unnamed: 0,area,pop,density
California,432967,38332521,90.0
Texas,695662,26448193,90.0
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


### 3. 其他的取值方法
还有一些取值方法和前面介绍过的方法不太一样，虽然看着有些奇怪，但是在实践中还是很好用的。首先，如果对单个标签**取值**就选择列，面对多个标签用**切片**就选择行：

In [75]:
data['Florida':'Illinois']

Unnamed: 0,area,pop,density
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


In [76]:
data[['area','pop']]

Unnamed: 0,area,pop
California,432967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


切片也可以不用索引值，直接用行数来实现：


In [77]:
data[1:3]

Unnamed: 0,area,pop,density
Texas,695662,26448193,90.0
New York,141297,19651127,139.076746


掩码操作可以直接对每一行过滤，不需要使用loc索引器：

In [78]:
data[data.density>100]

Unnamed: 0,area,pop,density
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121


# 3.4 Pandas数值运算方法
Pandas继承了Numpy的核心功能，可以对每个元素进行快速运算。但是对于一元运算（像函数和三角函数），这些通用函数将在输出结果中**保留索引和列标签**，而在传递通用函数时会自动**对齐索引**进行计算。这就意味着，**保存数据内容**与**组合不同来源的数据**——两处在NumPy数组中都容易出错的地方——变成了Pandas的杀手锏。

## 3.4.1 通用函数：保留索引

由于Pandas是建立在NumPy基础上的，所以NumPy的通用函数同样适用于Pandas的Series和DataFrame对象，让我们用一个简单的Series和DataFrame来演示：

In [79]:
import pandas as pd
import numpy as np

In [80]:
rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0,10,4))
ser

0    6
1    3
2    7
3    4
dtype: int32

In [81]:
df = pd.DataFrame(rng.randint(0,10,(3,4)),
                 columns=['A','B','C','D'])
df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


对这两个对象中的任何一个对象使用NumPy通用函数，生成的结果是另一个保留索引值的Pandas对象：

In [82]:
np.exp(ser)

0     403.428793
1      20.085537
2    1096.633158
3      54.598150
dtype: float64

或者，再做一个比较复杂的运算：

In [83]:
np.sin(df*np.pi/4)

Unnamed: 0,A,B,C,D
0,-1.0,0.7071068,1.0,-1.0
1,-0.707107,1.224647e-16,0.707107,-0.7071068
2,-0.707107,1.0,-0.707107,1.224647e-16


## 3.4.2 通用函数：索引对齐
当你采用二元通用函数进行计算时，Pandas会在计算过程红自动对齐索引。当你处理不完整的数据时，这一点非常方便，我们将在后面的示例中看到。

### 1. Series索引对齐
来看一个例子，假如你要整合两个数据源的数据，其中一个是美国面积最大的三个州的**面积数据**，另一个是美国人口最多的三个州的**人口数据**：

In [84]:
area = pd.Series({'Alaska':1723337,'Texas':695662,'California':423967},name='area')
population = pd.Series({'California':38332521,'Texas':26448193,'New York':19651127},name='population')

In [85]:
population/area

Alaska              NaN
California    90.413926
New York            NaN
Texas         38.018740
dtype: float64

结果数组的索引是两个输入数组索引的**并集。**

对于缺失位置的数据，Pandas会用NaN填充，表示**此处没有数据**

In [86]:
A = pd.Series([2,4,6], index=[0,1,2])
B = pd.Series([1,3,5], index=[1,2,3])
A+B

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

可以用适当的对象方法代替运算符，也可以设置参数自定义A或者B缺失的数据：

In [87]:
A.add(B,fill_value=0)

0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64

### 2. DataFrame索引对齐
在计算两个DataFrame时，类似的索引对齐规则也会同样出现在**共同**列中（并集）：

In [88]:
A=pd.DataFrame(rng.randint(0,20,(2,2)),
              columns=list('AB'))
A

Unnamed: 0,A,B
0,1,11
1,5,1


In [89]:
B = pd.DataFrame(rng.randint(0,10,(3,3) ),
                columns=list('BAC'))
B

Unnamed: 0,B,A,C
0,4,0,9
1,5,8,0
2,9,2,6


In [90]:
A+B

Unnamed: 0,A,B,C
0,1.0,15.0,
1,13.0,6.0,
2,,,


你会发现，两个对象的行索引可以是不同顺序的，结果的索引会自动按照顺序排列。在Series中，我们可以通过运算符方法的fill_value参数自定义缺省值。这里，我们
将用A数组的均值来填充缺失值：

In [91]:
# 计算A的均值，stack负责把A浓缩成一维数组
A.stack()

0  A     1
   B    11
1  A     5
   B     1
dtype: int32

In [94]:
fill = A.stack().mean()
fill

4.5

In [95]:
A.add(B,fill_value=fill)

Unnamed: 0,A,B,C
0,1.0,15.0,13.5
1,13.0,6.0,4.5
2,6.5,13.5,10.5


下表列举了Python运算符与Pandas方法之间的对应关系。
|Python运算符|Pandas方法|
|:---|:----|
|+|add()|
|-|sub(), subtract()|
|*|mul(), multiply()|
|/|truediv(), div(), divide()|
|//|floordiv()|
|%|mod()|
|**|pow()|

## 3.4.3 通用函数：DataFrame与Series的运算
我们经常需要对一个DataFrame和一个Series进行计算，行列对齐方式与NumPy数组中二维数组和一维数组的运算规则是一样的。

In [96]:
A = rng.randint(10,size=(3,4))
A

array([[3, 8, 2, 4],
       [2, 6, 4, 8],
       [6, 1, 3, 8]])

In [97]:
A-A[0]

array([[ 0,  0,  0,  0],
       [-1, -2,  2,  4],
       [ 3, -7,  1,  4]])

和Numpy的规则类似。这里是逐行计算的。

In [100]:
df = pd.DataFrame(A,columns=list('QRST'))
df

Unnamed: 0,Q,R,S,T
0,3,8,2,4
1,2,6,4,8
2,6,1,3,8


In [101]:
df-df.iloc[0]

Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,-1,-2,2,4
2,3,-7,1,4


如果你想要按照列来计算，那么就需要利用前面介绍过的运算符方法，并通过axis关键字设置：

In [102]:
df.subtract(df['R'],axis=0)

Unnamed: 0,Q,R,S,T
0,-5,0,-6,-4
1,-4,0,-2,2
2,5,0,2,7


和前面的运算一样，索引会自动对齐：

In [104]:
halfrow = df.iloc[0,::2]
halfrow

Q    3
S    2
Name: 0, dtype: int32

In [105]:
halfrow.shape

(2,)

In [107]:
type(halfrow)

pandas.core.series.Series

这里非常有趣，采用iloc与loc方法取单个索引返回的都是Series而不是DataFrame,如果你想得到dataframe请按照下面的方式操作：

In [110]:
halfrow = df.iloc[[0],::2]
type(halfrow)

pandas.core.frame.DataFrame

In [111]:
halfrow.shape

(1, 2)

In [112]:
halfrow

Unnamed: 0,Q,S
0,3,2


言归正传，无论是Series还是DataFranme，都能自动实现索引的对齐，避免了数组维度不一致引起的问题

In [115]:
halfrow = df.iloc[0,::2]
halfrow

Q    3
S    2
Name: 0, dtype: int32