In [391]:
import pandas as pd
import numpy as np
pd.__version__


'0.25.3'

**Pandas 的三个基本数据结
构：Series、DataFrame 和 Index。**

##3.2.1　Pandas的Series对象
Pandas 的 Series 对象是一个带索引数据构成的一维数组。

In [392]:
data = pd.Series([0.25,0.5,0.75,1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

In [393]:
data.values

array([0.25, 0.5 , 0.75, 1.  ])

In [394]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [395]:
data[1]

0.5

In [396]:
data[1:3]

1    0.50
2    0.75
dtype: float64

**01. Serise是通用的NumPy数组**

到目前为止，我们可能觉得 Series 对象和一维 NumPy 数组基本
可以等价交换，但两者间的本质差异其实是索引：NumPy 数组通
过隐式定义的整数索引获取数值，而 Pandas 的 Series 对象用一
种显式定义的索引与数值关联。
显式索引的定义让 Series 对象拥有了更强的能力。例如，索引不
再仅仅是整数，还可以是任意想要的类型。如果需要，完全可以用
字符串定义索引：

In [397]:
data = pd.Series([0.25,0.5,0.75,1.0],index=['a','b','c','d'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [398]:
data['b']

0.5

也可以使用不连续或不按顺序的索引：

In [399]:
data = pd.Series([0.25,0.5,0.75,1.0],index=[2,5,3,7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

**02. Series是特殊的字典**

你可以把 Pandas 的 Series 对象看成一种特殊的 Python 字典。字
典是一种将任意键映射到一组任意值的数据结构，而 Series 对象
其实是一种将类型键映射到一组类型值的数据结构。

In [400]:
population_dict = {'California': 38332521,
'Texas': 26448193,
'New York': 19651127,
'Florida': 19552860,
'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

In [401]:
population['California']

38332521

和字典不同，Series 对象还支持数组形式的操作，比如切片：

In [402]:
population['California':'Illinois']

California    38332521
Texas         26448193
New York      19651127
Florida       19552860
Illinois      12882135
dtype: int64

**03. 创建Series对象**

我们已经见过几种创建 Pandas 的 Series 对象的方法，都是像这样
的形式：
`pd.Series(data, index=index)`
其中，index 是一个可选参数，data 参数支持多种数据类型。

data 可以是列表或 NumPy 数组，这时 index 默认值为整
数序列

In [403]:
pd.Series([2,4,6])

0    2
1    4
2    6
dtype: int64

data 也可以是一个标量，创建 Series 对象时会重复填充到每个
索引上：

In [404]:
pd.Series(5,index=[100,200,300])

100    5
200    5
300    5
dtype: int64

data 还可以是一个字典，index 默认是排序的字典键：

In [405]:
pd.Series({2:'a',1:'b',3:'c'})

2    a
1    b
3    c
dtype: object

每一种形式都可以通过显式指定索引筛选需要的结果：

In [406]:
pd.Series({2:'a',1:'b',3:'c'},index=[3,2])

3    c
2    a
dtype: object

##3.2.2　Pandas的DataFrame对象
Pandas 的另一个基础数据结构是 DataFrame。和上一节介绍的 Series
对象一样，DataFrame 既可以作为一个通用型 NumPy 数组，也可以看
作特殊的 Python 字典。

01. **DataFrame是通用的NumPy数组**

  如果将 Series 类比为带灵活索引的一维数组，那么 DataFrame
就可以看作是一种既有灵活的行索引，又有灵活列名的二维数组。
就像你可以把二维数组看成是有序排列的一维数组一样，你也可以
把 DataFrame 看成是有序排列的若干 Series 对象。这里的“排
列”指的是它们拥有共同的索引。
下面用上一节中美国五个州面积的数据创建一个新的 Series 来进
行演示：

In [407]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297,
'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
dtype: int64

再结合之前创建的 population 的 Series 对象，用一个字典创建
一个包含这些信息的二维对象：

In [408]:
states = pd.DataFrame({'population':population,'area':area})
states

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


和 Series 对象一样，DataFrame 也有一个 index 属性可以获取
索引标签

In [409]:
states.index

Index(['California', 'Texas', 'New York', 'Florida', 'Illinois'], dtype='object')

另外，DataFrame 还有一个 columns 属性，是存放列标签的
Index 对象：

In [410]:
states.columns

Index(['population', 'area'], dtype='object')

因此 DataFrame 可以看作一种通用的 NumPy 二维数组，它的行与
列都可以通过索引获取。
02. **DataFrame是特殊的字典**

  与 Series 类似，我们也可以把 DataFrame 看成一种特殊的字
典。字典是一个键映射一个值，而 DataFrame 是一列映射一个
Series 的数据。例如，通过 'area' 的列属性可以返回包含面积
数据的 Series 对象：

In [411]:
states['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

03. **创建DataFrame对象**

  Pandas 的 DataFrame 对象可以通过许多方式创建，这里举几个常
用的例子。

  1. 通过单个 Series 对象创建。
  
      DataFrame 是一组 Series 对象的
      集合，可以用单个 Series 创建一个单列的 DataFrame：

In [412]:
pd.DataFrame(population,columns=['population'])

Unnamed: 0,population
California,38332521
Texas,26448193
New York,19651127
Florida,19552860
Illinois,12882135


      (2) 通过字典列表创建。
        任何元素是字典的列表都可以变成DataFrame。用一个简单的列表综合来创建一些数据：

In [413]:
data = [{'a':i,'b':2*i} for i in range(5)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4
3,3,6
4,4,8


即使字典中有些键不存在，Pandas 也会用缺失值 NaN（不是数字，
not a number）来表示：

In [414]:
pd.DataFrame([{'a',1,'b',2},{'b':3,'c':4}])

Unnamed: 0,0,1,2,3
0,1,2,b,a
1,b,c,,


      (3) 通过 Series 对象字典创建。
        就像之前见过的那样，DataFrame也可以用一个由 Series 对象构成的字典创建：

In [415]:
pd.DataFrame({'population':population,'area':area})

Unnamed: 0,population,area
California,38332521,423967
Texas,26448193,695662
New York,19651127,141297
Florida,19552860,170312
Illinois,12882135,149995


      (4) 通过 NumPy 二维数组创建。
        假如有一个二维数组，就可以创建一个可以指定行列索引值的 DataFrame。如果不指定行列索引值，那么行列默认都是整数索引值：

In [416]:
pd.DataFrame(np.random.rand(3,2),columns=['foo','bar'],index=['a','b','c'])

Unnamed: 0,foo,bar
a,0.923718,0.076367
b,0.625556,0.886277
c,0.541253,0.632227


      (5) 通过 NumPy 结构化数组创建。
        2.9 节曾介绍过结构化数组。由于 Pandas 的 DataFrame 与结构化数组十分相似，因此可以通过结构化数组创建 DataFrame：

In [417]:
A = np.zeros(3,dtype=[('A','i8'),('B','f8')])
A

array([(0, 0.), (0, 0.), (0, 0.)], dtype=[('A', '<i8'), ('B', '<f8')])

In [418]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


##3.2.3　Pandas的Index对象



In [419]:
ind = pd.Index([2,3,5,7,11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

    01. 将Index看作不可变数组

      Index 对象的许多操作都像数组。例如，可以通过标准 Python 的取值方法获取数值，也可以通过切片获取数值：

In [420]:
ind[1]

3

In [421]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

Index 对象还有许多与 NumPy 数组相似的属性：

In [422]:
print(ind.size,ind.shape,ind.ndim,ind.dtype)

5 (5,) 1 int64


Index 对象与 NumPy 数组之间的不同在于，Index 对象的索引是
不可变的，也就是说不能通过通常的方式进行调整：

      02. 将Index看作有序集合
      Pandas 对象被设计用于实现许多操作，如连接（join）数据集，其中会涉及许多集合操作。 
      Index 对象遵循 Python 标准库的集合（set）数据结构的许多习惯用法，包括并集、交集、差集等：

In [423]:
indA = pd.Index([1,3,5,7,9])
indB = pd.Index([2,3,5,7,11])
indA & indB  #交集

Int64Index([3, 5, 7], dtype='int64')

In [424]:
indA | indB #并集

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [425]:
indA ^ indB #异或

Int64Index([1, 2, 9, 11], dtype='int64')

##3.3　数据取值与选择
###3.3.1　Series数据选择方法
####01. 将Series看作字典
和字典一样，Series 对象提供了键值对的映射：

In [426]:
data = pd.Series([0.25,0.5,0.75,1.0],index=['a','b','c','d'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [427]:
data['b']

0.5

我们还可以用 Python 字典的表达式和方法来检测键 / 索引和值：

In [428]:
'a' in data

True

In [429]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [430]:
list(data.items())

[('a', 0.25), ('b', 0.5), ('c', 0.75), ('d', 1.0)]

Series 对象还可以用字典语法调整数据。就像你可以通过增加新
的键扩展字典一样，你也可以通过增加新的索引值扩展 Series：

In [431]:
data['e'] = 1.25
data

a    0.25
b    0.50
c    0.75
d    1.00
e    1.25
dtype: float64

    02. 将Series看作一维数组
      Series 不仅有着和字典一样的接口，而且还具备和 NumPy 数组一
      样的数组数据选择功能，包括索引、掩码、花哨的索引等操作，具体示例如下所示：

In [432]:
#将显式索引作为切片
data['a':'c']

a    0.25
b    0.50
c    0.75
dtype: float64

In [433]:
#将隐式整数索引作为切片
data[0:2]

a    0.25
b    0.50
dtype: float64

In [434]:
#掩码
data[(data >0.3) & (data <0.8)]

b    0.50
c    0.75
dtype: float64

In [435]:
#花哨的索引
data[['a','e']]

a    0.25
e    1.25
dtype: float64

    03. 索引器：loc、iloc和ix
      这些切片和取值的习惯用法经常会造成混乱。例如，如果你的
      Series 是显式整数索引，那么 data[1] 这样的取值操作会使用显式索引，而 data[1:3] 这样的切片操作却会使用隐式索引。

In [436]:
data = pd.Series(['a','b','c'],index=[1,3,5])
data

1    a
3    b
5    c
dtype: object

In [437]:
#取值操作是显式索引
data[1]

'a'

In [438]:
#切片操作是隐式索引
data[1:3]

3    b
5    c
dtype: object

由于整数索引很容易造成混淆，所以 Pandas 提供了一些索引器
（indexer）属性来作为取值的方法。它们不是 Series 对象的函数
方法，而是暴露切片接口的属性。

* 第一种索引器是 loc 属性，表示取值和切片都是显式的：

In [439]:
data.loc[1]

'a'

In [440]:
data.loc[1:3]

1    a
3    b
dtype: object

* 第二种是 iloc 属性，表示取值和切片都是 Python 形式的 隐式索
引：

In [441]:
data.iloc[1]

'b'

In [442]:
data.iloc[1:3]

3    b
5    c
dtype: object

第三种取值属性是 ix，它是前两种索引器的混合形式，在 Series
对象中 ix 等价于标准的 []（Python 列表）取值方式。ix 索引器
主要用于 DataFrame 对象，后面将会介绍。
Python 代码的设计原则之一是“显式优于隐式”。使用 loc 和 iloc
可以让代码更容易维护，可读性更高。特别是在处理整数索引的对
象时，我强烈推荐使用这两种索引器。它们既可以让代码阅读和理
解起来更容易，也能避免因误用索引 / 切片而产生的小 bug。
##3.3.2　DataFrame数据选择方法
前面曾提到，DataFrame 在有些方面像二维或结构化数组，在有些方面
又像一个共享索引的若干 Series 对象构成的字典。这两种类比可以帮
助我们更好地掌握这种数据结构的数据选择方法。
01. **将DataFrame看作字典**

  第一种类比是把 DataFrame 当作一个由若干 Series 对象构成的
字典。让我们用之前的美国五州面积与人口数据来演示：

In [443]:
area = pd.Series({'California': 423967, 'Texas': 695662,
'New York': 141297, 'Florida': 170312,
'Illinois': 149995})
pop = pd.Series({'California': 38332521, 'Texas': 26448193,
'New York': 19651127, 'Florida': 19552860,
'Illinois': 12882135})
data = pd.DataFrame({'area':area, 'pop':pop})
data

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [444]:
data.area

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [445]:
data.area is data['area']

True

虽然属性形式的数据选择方法很方便，但是它并不是通用的。如果
列名不是纯字符串，或者列名与 DataFrame 的方法同名，那么就
不能用属性索引。例如，DataFrame 有一个 pop() 方法，如果用
data.pop 就不会获取 'pop' 列，而是显示为方法：

In [446]:
data.pop is data['pop']

False

另外，还应该避免对用属性形式选择的列直接赋值（即可以用
data['pop'] = z，但不要用 data.pop = z）。

和前面介绍的 Series 对象一样，还可以用字典形式的语法调整对
象，如果要增加一列可以这样做：

In [447]:
data['density'] = data['pop']/ data['area']
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


    02. 将DataFrame看作二维数组
    前面曾提到，可以把 DataFrame 看成是一个增强版的二维数组，用 values 属性按行查看数组数据：

In [448]:
data.values

array([[4.23967000e+05, 3.83325210e+07, 9.04139261e+01],
       [6.95662000e+05, 2.64481930e+07, 3.80187404e+01],
       [1.41297000e+05, 1.96511270e+07, 1.39076746e+02],
       [1.70312000e+05, 1.95528600e+07, 1.14806121e+02],
       [1.49995000e+05, 1.28821350e+07, 8.58837628e+01]])

In [449]:
data.T

Unnamed: 0,California,Texas,New York,Florida,Illinois
area,423967.0,695662.0,141297.0,170312.0,149995.0
pop,38332520.0,26448190.0,19651130.0,19552860.0,12882140.0
density,90.41393,38.01874,139.0767,114.8061,85.88376


In [450]:
data.values[0]

array([4.23967000e+05, 3.83325210e+07, 9.04139261e+01])

In [451]:
data['area']

California    423967
Texas         695662
New York      141297
Florida       170312
Illinois      149995
Name: area, dtype: int64

In [452]:
data.iloc[:3,:2]

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


In [453]:
data.loc[:'Illinois',:'pop']

Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127
Florida,170312,19552860
Illinois,149995,12882135


In [454]:
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.413926
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


使用 ix 索引器可以实现一种混合效果：

In [455]:
data.ix[:3,:'pop']

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.
.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#ix-indexer-is-deprecated
  retval = getattr(retval, self.name)._getitem_axis(key, axis=i)


Unnamed: 0,area,pop
California,423967,38332521
Texas,695662,26448193
New York,141297,19651127


In [456]:
data.loc[data.density > 100,['pop','density']]

Unnamed: 0,pop,density
New York,19651127,139.076746
Florida,19552860,114.806121


In [457]:
data.iloc[0,2] = 90
data

Unnamed: 0,area,pop,density
California,423967,38332521,90.0
Texas,695662,26448193,38.01874
New York,141297,19651127,139.076746
Florida,170312,19552860,114.806121
Illinois,149995,12882135,85.883763


###3.4.1　通用函数：保留索引

In [458]:
rng = np.random.RandomState(42)
ser = pd.Series(rng.randint(0,10,4))
ser

0    6
1    3
2    7
3    4
dtype: int64

In [459]:
df = pd.DataFrame(rng.randint(0,10,(3,4)),columns=['A','B','C','D'])
df

Unnamed: 0,A,B,C,D
0,6,9,2,6
1,7,4,3,7
2,7,2,5,4


In [460]:
A = pd.Series([2, 4, 6], index=[0, 1, 2])
B = pd.Series([1, 3, 5], index=[1, 2, 3])
A + B

0    NaN
1    5.0
2    9.0
3    NaN
dtype: float64

如果用 NaN 值不是我们想要的结果，那么可以用适当的对象方法代
替运算符。例如，A.add(B) 等价于 A + B，也可以设置参数自定
义 A 或 B 缺失的数据：

In [461]:
A.add(B,fill_value=0)

0    2.0
1    5.0
2    9.0
3    5.0
dtype: float64

In [462]:
A = pd.DataFrame(rng.randint(0,20,(2,2)),columns=list('AB'))
A

Unnamed: 0,A,B
0,1,11
1,5,1


In [463]:
B = pd.DataFrame(rng.randint(0,10,(3,3)),columns=list('BAC'))
B

Unnamed: 0,B,A,C
0,4,0,9
1,5,8,0
2,9,2,6


In [464]:
A +B

Unnamed: 0,A,B,C
0,1.0,15.0,
1,13.0,6.0,
2,,,


你会发现，两个对象的行列索引可以是不同顺序的，结果的索引会
自动按顺序排列。在 Series 中，我们可以通过运算符方法的
fill_value 参数自定义缺失值。这里，我们将用 A 中所有值的均
值来填充缺失值（计算 A 的均值需要用 stack 将二维数组压缩成
一维数组）：

In [465]:
fill = A.stack().mean()
A.add(B,fill_value=fill)

Unnamed: 0,A,B,C
0,1.0,15.0,13.5
1,13.0,6.0,4.5
2,6.5,13.5,10.5


###3.4.3　通用函数：DataFrame与Series的运算

我们经常需要对一个 DataFrame 和一个 Series 进行计算，行列对齐
方式与之前类似。也就是说，DataFrame 和 Series 的运算规则，与
NumPy 中二维数组与一维数组的运算规则是一样的。来看一个常见运
算，让一个二维数组减去自身的一行数据：

In [466]:
A = rng.randint(10,size=(3,4))
A

array([[3, 8, 2, 4],
       [2, 6, 4, 8],
       [6, 1, 3, 8]])

In [467]:
A - A[0]

array([[ 0,  0,  0,  0],
       [-1, -2,  2,  4],
       [ 3, -7,  1,  4]])

根据 NumPy 的广播规则（详情请参见 2.5 节），让二维数组减自身的
一行数据会按行计算。
在 Pandas 里默认也是按行运算的：

In [468]:
df = pd.DataFrame(A,columns=list('QRST'))
df - df.iloc[0]

Unnamed: 0,Q,R,S,T
0,0,0,0,0
1,-1,-2,2,4
2,3,-7,1,4


如果你想按列计算，那么就需要利用前面介绍过的运算符方法，通过
axis 参数设置

In [469]:
df.subtract(df['R'],axis=0)

Unnamed: 0,Q,R,S,T
0,-5,0,-6,-4
1,-4,0,-2,2
2,5,0,2,7


###3.5　处理缺失值
大多数教程里使用的数据与现实工作中的数据的区别在于后者很少是干
净整齐的，许多目前流行的数据集都会有数据缺失的现象。更为甚者，
处理不同数据源缺失值的方法还不同。
###3.5.2　Pandas的缺失值
Pandas 最终选择用标签方法表示缺失值，
包括两种 Python 原有的缺失值：浮点数据类型的 NaN 值，以及 Python
的 None 对象

01. **None：Python对象类型的缺失值**

In [470]:
vals1 = np.array([1,None,3,4])
vals1

array([1, None, 3, 4], dtype=object)

这里 dtype=object 表示 NumPy 认为由于这个数组是 Python 对象
构成的，因此将其类型判断为 object。虽然这种类型在某些情景
中非常有用，对数据的任何操作最终都会在 Python 层面完成，但
是在进行常见的快速操作时，这种类型比其他原生类型数组要消耗
更多的资源：

使用 Python 对象构成的数组就意味着如果你对一个包含 None 的数
组进行累计操作，如 sum() 或者 min()，那么通常会出现类型错
误：

In [None]:
#vals1.sum()

02. **NaN：数值类型的缺失值**

  另一种缺失值的标签是 NaN（全称 Not a Number，不是一个数
字），是一种按照 IEEE 浮点数标准设计、在任何系统中都兼容的
特殊浮点数：

In [472]:
vals2 = np.array([1,np.nan,3,4])
vals2.dtype

dtype('float64')

请注意，NumPy 会为这个数组选择一个原生浮点类型，这意味着
和之前的 object 类型数组不同，这个数组会被编译成 C 代码从而
实现快速操作。你可以把 NaN 看作是一个数据类病毒——它会将与
它接触过的数据同化。无论和 NaN 进行何种操作，最终结果都是
NaN：

In [473]:
1+np.nan

nan

In [474]:
0* np.nan

nan

In [475]:
vals2.sum(),vals2.min(),vals2.max()

(nan, nan, nan)

NumPy 也提供了一些特殊的累计函数，它们可以忽略缺失值的影
响

In [476]:
np.nansum(vals2),np.nanmin(vals2),np.nanmax(vals2)

(8.0, 1.0, 4.0)

03. **Pandas中NaN与None的差异**

  虽然 NaN 与 None 各有各的用处，但是 Pandas 把它们看成是可以等
价交换的，在适当的时候会将两者进行替换：

In [477]:
pd.Series([1,np.nan,2,None])

0    1.0
1    NaN
2    2.0
3    NaN
dtype: float64

###3.5.3　处理缺失值
我们已经知道，Pandas 基本上把 None 和 NaN 看成是可以等价交换的缺
失值形式。为了完成这种交换过程，Pandas 提供了一些方法来发现、剔
除、替换数据结构中的缺失值，主要包括以下几种。

* isnull()
  
  创建一个布尔类型的掩码标签缺失值。

* notnull()

  与 isnull() 操作相反。

* dropna()　　
  
  返回一个剔除缺失值的数据。

* fillna()
  
  返回一个填充了缺失值的数据副本。



01. **发现缺失值**

In [478]:
data = pd.Series([1,np.nan,'hello',None])
data

0        1
1      NaN
2    hello
3     None
dtype: object

In [479]:
data.isnull()

0    False
1     True
2    False
3     True
dtype: bool

In [480]:
data[data.notnull()]

0        1
2    hello
dtype: object

02. **剔除缺失值**

  除了前面介绍的掩码方法，还有两种很好用的缺失值处理方法，分
别是 dropna()（剔除缺失值）和 fillna()（填充缺失值）。
在Series 上使用这些方法非常简单：

In [481]:
data.dropna()

0        1
2    hello
dtype: object

而在 DataFrame 上使用它们时需要设置一些参数，例如下面的
DataFrame： 

In [482]:
df = pd.DataFrame([[1, np.nan, 2],
[2, 3, 5],
[np.nan, 4, 6]])
df

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


我们没法从 DataFrame 中单独剔除一个值，要么是剔除缺失值所
在的整行，要么是整列。根据实际需求，有时你需要剔除整行，有
时可能是整列，DataFrame 中的 dropna() 会有一些参数可以配
置。
默认情况下，dropna() 会剔除任何包含缺失值的整行数据：

In [483]:
df.dropna()

Unnamed: 0,0,1,2
1,2.0,3.0,5


可以设置按不同的坐标轴剔除缺失值，比如 axis=1（或
axis='columns'）会剔除任何包含缺失值的整列数据：

In [484]:
df.dropna(axis='columns')

Unnamed: 0,2
0,2
1,5
2,6


但是这么做也会把非缺失值一并剔除，因为可能有时候只需要剔除
全部是缺失值的行或列，或者绝大多数是缺失值的行或列。这些需
求可以通过设置 how 或 thresh 参数来满足，它们可以设置剔除行
或列缺失值的数量阈值。
默认设置是 how='any'，也就是说只要有缺失值就剔除整行或整列
（通过 axis 设置坐标轴）。你还可以设置 how='all'，这样就只
会剔除全部是缺失值的行或列了：

In [485]:
df[3] = np.nan
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [486]:
df.dropna(axis='columns',how='all')

Unnamed: 0,0,1,2
0,1.0,,2
1,2.0,3.0,5
2,,4.0,6


还可以通过 thresh 参数设置行或列中非缺失值的最小数量，从而
实现更加个性化的配置：

In [487]:
df.dropna(axis='rows',thresh=3)

Unnamed: 0,0,1,2,3
1,2.0,3.0,5,


第 1 行与第 3 行被剔除了，因为它们只包含两个非缺失值。

03. 填充缺失值
  
  有时候你可能并不想移除缺失值，而是想把它们替换成有效的数
值。有效的值可能是像 0、1、2 那样单独的值，也可能是经过填充
（imputation）或转换（interpolation）得到的。虽然你可以通过isnull() 方法建立掩码来填充缺失值，但是 Pandas 为此专门提供
了一个 fillna() 方法，它将返回填充了缺失值后的数组副本。

In [488]:
data = pd.Series([1, np.nan, 2, None, 3], index=list('abcde'))
data

a    1.0
b    NaN
c    2.0
d    NaN
e    3.0
dtype: float64

In [489]:
data.fillna(0)

a    1.0
b    0.0
c    2.0
d    0.0
e    3.0
dtype: float64

可以用缺失值前面的有效值来从前往后填充（forward-fill）：

In [490]:
#从前入后填充
data.fillna(method='ffill')

a    1.0
b    1.0
c    2.0
d    2.0
e    3.0
dtype: float64

In [491]:
#从后往前填充
data.fillna(method='bfill')

a    1.0
b    2.0
c    2.0
d    3.0
e    3.0
dtype: float64

DataFrame 的操作方法与 Series 类似，只是在填充时需要设置坐
标轴参数 axis:

In [492]:
df

Unnamed: 0,0,1,2,3
0,1.0,,2,
1,2.0,3.0,5,
2,,4.0,6,


In [493]:
df.fillna(method='ffill',axis=1)

Unnamed: 0,0,1,2,3
0,1.0,1.0,2.0,2.0
1,2.0,3.0,5.0,5.0
2,,4.0,6.0,6.0


##3.6　层级索引
###3.6.1　多级索引Series
让我们看看如何用一维的 Series 对象表示二维数据——用一系列包含
特征与数值的数据点来简单演示。

In [494]:
index = [('California', 2000), ('California', 2010),
('New York', 2000), ('New York', 2010),
('Texas', 2000), ('Texas', 2010)]
populations = [33871648, 37253956,
18976457, 19378102,
20851820, 25145561]

pop = pd.Series(populations,index=index)
pop

(California, 2000)    33871648
(California, 2010)    37253956
(New York, 2000)      18976457
(New York, 2010)      19378102
(Texas, 2000)         20851820
(Texas, 2010)         25145561
dtype: int64

In [495]:
index = pd.MultiIndex.from_tuples(index)
index

MultiIndex([('California', 2000),
            ('California', 2010),
            (  'New York', 2000),
            (  'New York', 2010),
            (     'Texas', 2000),
            (     'Texas', 2010)],
           )

In [496]:
pop = pop.reindex(index)
pop

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [497]:
pop[:,2010]

California    37253956
New York      19378102
Texas         25145561
dtype: int64

In [498]:
pop[:,2000]

California    33871648
New York      18976457
Texas         20851820
dtype: int64

03. **高维数据的多级索引**

  你可能已经注意到，我们其实完全可以用一个带行列索引的简单
DataFrame 代替前面的多级索引。其实 Pandas 已经实现了类似的
功能。unstack() 方法可以快速将一个多级索引的 Series 转化为
普通索引的 DataFrame：

In [499]:
pop_df = pop.unstack()
pop_df

Unnamed: 0,2000,2010
California,33871648,37253956
New York,18976457,19378102
Texas,20851820,25145561


当然了，也有 stack() 方法实现相反的效果：

In [500]:
pop_df.stack()

California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [501]:
pop_df = pd.DataFrame({'total': pop,
'under18': [9267089, 9284094,
4687374, 4318033,
5906301, 6879014]})
pop_df

Unnamed: 0,Unnamed: 1,total,under18
California,2000,33871648,9267089
California,2010,37253956,9284094
New York,2000,18976457,4687374
New York,2010,19378102,4318033
Texas,2000,20851820,5906301
Texas,2010,25145561,6879014


In [502]:
f_u18 = pop_df['under18'] / pop_df['total']
f_u18.unstack()

Unnamed: 0,2000,2010
California,0.273594,0.249211
New York,0.24701,0.222831
Texas,0.283251,0.273568


In [503]:
f_u18

California  2000    0.273594
            2010    0.249211
New York    2000    0.247010
            2010    0.222831
Texas       2000    0.283251
            2010    0.273568
dtype: float64

###3.6.2　多级索引的创建方法
为 Series 或 DataFrame 创建多级索引最直接的办法就是将 index 参
数设置为至少二维的索引数组，如下所示：

In [504]:
df = pd.DataFrame(np.random.rand(4,2),index=[['a','a','b','b'],[1,2,1,2]],columns=['data1','data2'])
df

Unnamed: 0,Unnamed: 1,data1,data2
a,1,0.528587,0.156058
a,2,0.48841,0.877484
b,1,0.281714,0.351208
b,2,0.526706,0.15758


MultiIndex 的创建工作将在后台完成。
同理，如果你把将元组作为键的字典传递给 Pandas，Pandas 也会默认转
换为 MultiIndex：

In [505]:
data = {('California', 2000): 33871648,
('California', 2010): 37253956,
('Texas', 2000): 20851820,
('Texas', 2010): 25145561,
('New York', 2000): 18976457,
('New York', 2010): 19378102}
pd.Series(data)

California  2000    33871648
            2010    37253956
Texas       2000    20851820
            2010    25145561
New York    2000    18976457
            2010    19378102
dtype: int64

02. **多级索引的等级名称**

  给 MultiIndex 的等级加上名称会为一些操作提供便利。你可以在
前面任何一个 MultiIndex 构造器中通过 names 参数设置等级名
称，也可以在创建之后通过索引的 names 属性来修改名称：

In [506]:
pop.index.names = ['state','year']
pop

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

03. **多级列索引**

  每个 DataFrame 的行与列都是对称的，也就是说既然有多级行索
引，那么同样可以有多级列索引。让我们通过一份医学报告的模拟
数据来演示

In [508]:
#多级行列索引
index = pd.MultiIndex.from_product([[2013,2014],[1,2]],names=['year','visit'])
columns = pd.MultiIndex.from_product([['Bob','Guido','Sue'],['HR', 'Temp']],names=['subject','type'])
#模拟数据
data = np.round(np.random.randn(4,6),1)
data[:,::2] *= 10
data += 37

data


array([[45. , 36.5, 40. , 35.9, 55. , 36.5],
       [37. , 36.6, 44. , 38.3, 36. , 37. ],
       [23. , 38.7, 50. , 36.5, 26. , 37.3],
       [32. , 36.3, 41. , 36.2, 21. , 37.6]])

In [509]:
#创建DataFrame
health_data = pd.DataFrame(data,index=index,columns=columns)
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,45.0,36.5,40.0,35.9,55.0,36.5
2013,2,37.0,36.6,44.0,38.3,36.0,37.0
2014,1,23.0,38.7,50.0,36.5,26.0,37.3
2014,2,32.0,36.3,41.0,36.2,21.0,37.6


In [511]:
health_data['Guido']

Unnamed: 0_level_0,type,HR,Temp
year,visit,Unnamed: 2_level_1,Unnamed: 3_level_1
2013,1,40.0,35.9
2013,2,44.0,38.3
2014,1,50.0,36.5
2014,2,41.0,36.2


In [515]:
health_data['Guido','HR']

year  visit
2013  1        40.0
      2        44.0
2014  1        50.0
      2        41.0
Name: (Guido, HR), dtype: float64

###3.6.3　多级索引的取值与切片
01. **Series多级索引**

In [516]:
pop

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
Texas       2000    20851820
            2010    25145561
dtype: int64

In [519]:
pop['California',2000]

33871648

In [520]:
pop['California']

year
2000    33871648
2010    37253956
dtype: int64

In [521]:
pop.loc['California':'New York']

state       year
California  2000    33871648
            2010    37253956
New York    2000    18976457
            2010    19378102
dtype: int64

In [522]:
pop[:,2000]

state
California    33871648
New York      18976457
Texas         20851820
dtype: int64

02. **DataFrame多级索引**

In [523]:
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,45.0,36.5,40.0,35.9,55.0,36.5
2013,2,37.0,36.6,44.0,38.3,36.0,37.0
2014,1,23.0,38.7,50.0,36.5,26.0,37.3
2014,2,32.0,36.3,41.0,36.2,21.0,37.6


In [524]:
health_data['Guido','HR']

year  visit
2013  1        40.0
      2        44.0
2014  1        50.0
      2        41.0
Name: (Guido, HR), dtype: float64

In [529]:
health_data.iloc[:2,:2]

Unnamed: 0_level_0,subject,Bob,Bob
Unnamed: 0_level_1,type,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2
2013,1,45.0,36.5
2013,2,37.0,36.6


In [530]:
health_data.loc[:,('Bob','HR')]

year  visit
2013  1        45.0
      2        37.0
2014  1        23.0
      2        32.0
Name: (Bob, HR), dtype: float64

In [531]:
health_data.loc[(2013,1),('Sue','Temp')]

36.5

In [533]:
health_data.loc[2013,('Sue','HR')]

visit
1    55.0
2    36.0
Name: (Sue, HR), dtype: float64

In [534]:
health_data.loc[2013:,('Sue','HR')]

year  visit
2013  1        55.0
      2        36.0
2014  1        26.0
      2        21.0
Name: (Sue, HR), dtype: float64

03. 索引的设置与重置

In [535]:
pop_flat = pop.reset_index(name='population')
pop_flat

Unnamed: 0,state,year,population
0,California,2000,33871648
1,California,2010,37253956
2,New York,2000,18976457
3,New York,2010,19378102
4,Texas,2000,20851820
5,Texas,2010,25145561


In [536]:
pop_flat.set_index(['state', 'year'])

Unnamed: 0_level_0,Unnamed: 1_level_0,population
state,year,Unnamed: 2_level_1
California,2000,33871648
California,2010,37253956
New York,2000,18976457
New York,2010,19378102
Texas,2000,20851820
Texas,2010,25145561


###3.6.5　多级索引的数据累计方法

In [537]:
health_data

Unnamed: 0_level_0,subject,Bob,Bob,Guido,Guido,Sue,Sue
Unnamed: 0_level_1,type,HR,Temp,HR,Temp,HR,Temp
year,visit,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2
2013,1,45.0,36.5,40.0,35.9,55.0,36.5
2013,2,37.0,36.6,44.0,38.3,36.0,37.0
2014,1,23.0,38.7,50.0,36.5,26.0,37.3
2014,2,32.0,36.3,41.0,36.2,21.0,37.6


如果你需要计算每一年各项指标的平均值，那么可以将参数 level 设
置为索引 year：

In [539]:
data_mean = health_data.mean(level='year')
data_mean

subject,Bob,Bob,Guido,Guido,Sue,Sue
type,HR,Temp,HR,Temp,HR,Temp
year,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
2013,41.0,36.55,42.0,37.1,45.5,36.75
2014,27.5,37.5,45.5,36.35,23.5,37.45


如果再设置 axis 参数，就可以对列索引进行类似的累计操作了：

In [540]:
data_mean.mean(axis=1,level='type')

type,HR,Temp
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2013,42.833333,36.8
2014,32.166667,37.1


###3.7　合并数据集：Concat与Append操作
将不同的数据源进行合并是数据科学中最有趣的事情之一，这既包括将
两个不同的数据集非常简单地拼接在一起，也包括用数据库那样的连接
（join）与合并（merge）操作处理有重叠字段的数据集。Series 与
DataFrame 都具备这类操作，Pandas 的函数与方法让数据合并变得快
速简单。

先来用 pd.concat 函数演示一个 Series 与 DataFrame 的简单合并操
作。之后，我们将介绍 Pandas 中更复杂的 merge 和 join 内存数据合
并操作。

In [541]:
def make_df(cols,ind):
  """一个简单的DataFrame"""
  data = {c:[str(c) + str(i) for i in ind] for c in cols}
  return pd.DataFrame(data,ind)

#DataFrame示例
make_df('ABC',range(3))

Unnamed: 0,A,B,C
0,A0,B0,C0
1,A1,B1,C1
2,A2,B2,C2


###3.7.2　通过pd.concat实现简易合并

In [542]:
ser1 = pd.Series(['A','B','C'],index=[1,2,3])
ser2 = pd.Series(['D','E','F'],index=[4,5,6])
pd.concat([ser1,ser2])

1    A
2    B
3    C
4    D
5    E
6    F
dtype: object

它也可以用来合并高维数据，例如下面的 DataFrame：

In [545]:
df1 = make_df('AB',[1,2])
df2 = make_df('CD',[3,4])
df1

Unnamed: 0,A,B
1,A1,B1
2,A2,B2


In [546]:
 df2 

Unnamed: 0,C,D
3,C3,D3
4,C4,D4


In [547]:
pd.concat([df1,df2])

of pandas will change to not sort by default.

To accept the future behavior, pass 'sort=False'.


  """Entry point for launching an IPython kernel.


Unnamed: 0,A,B,C,D
1,A1,B1,,
2,A2,B2,,
3,,,C3,D3
4,,,C4,D4


In [552]:
df3 = make_df('AB', [0, 1])
df4 = make_df('CD', [0, 1])
print(df3);print(df4); print(pd.concat([df3, df4], axis=1))

    A   B
0  A0  B0
1  A1  B1
    C   D
0  C0  D0
1  C1  D1
    A   B   C   D
0  A0  B0  C0  D0
1  A1  B1  C1  D1
