In [2]:
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = 'all'

In [3]:
import pandas as pd
from pandas import DataFrame,Series
import matplotlib.pyplot as plt
import numpy as np

# Pandas私房手册-`DataFrame`和`Series`对象

## `Series`

### 创建`Series`对象

#### 通过`ndarray`数组创建

如果值是`array`，`index`的长度一定要和`array`一致，否则会报错：

In [87]:
s = pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd', 'e'])
s
try:
    pd.Series(np.random.randn(5), index=['a', 'b', 'c', 'd'])
except Exception as e:
    print(e)

a   -1.045128
b    1.001157
c    1.182818
d    1.711455
e    0.126759
dtype: float64

Length of passed values is 5, index implies 4


#### 通过字典创建

如果使用`Python`版本>= 3.6和`panda`版本>= 0.23，那么当数据是`dict`，并且没有传递索引时，`Series`的索引将按照`dict`的插入顺序排序。如果您正在使用`Python` < 3.6或`panda` < 0.23，并且没有传递索引，则`Series`的索引将是`dict`键按词法顺序排列的列表。如果传递索引`index`，则将提取与索引中的标签对应的数据中的值。

In [88]:
d = {'a': 0., 'b': 1., 'c': 2.}
Series(d, index=['b', 'a', 'd', 'c'])

b    1.0
a    0.0
d    NaN
c    2.0
dtype: float64

#### 通过标量

如果传入一个标量值，则必须提供索引，会广播标量至索引的长度。

In [89]:
Series(5, index=['a', 'b', 'c', 'd'])

a    5
b    5
c    5
d    5
dtype: int64

### 向量化操作

`pandas`和其它的工具最大的区别就是标签的引入，根据标签可以自动对齐，结果的标签是参与计算的`Series`的标签索引的并集：

In [90]:
s1 = Series([1] * 5)
s2 = Series([2] * 5)
s1[1:] + s2[:-1]

0    NaN
1    3.0
2    3.0
3    3.0
4    NaN
dtype: float64

## `DataFrame`

### 创建`DataFrame`对象

#### 通过值是`Series`的字典创建

可以将字典传入`DataFrame`，其中值是`Series`。如果有任何嵌套的`dict`，则首先将这些`dict`转换为`Series`。最终得到的`datafrmae`的索引将是各个系列的索引的并集。如果没有指定`columns`参数，则列的标签将是`dict`键的有序列表。

In [7]:
d = {
    'one': Series([1., 2., 3.], index=['a', 'b', 'c']),
    'two': Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])
}
DataFrame(d)
DataFrame(d, index=['a', 'b', 'c'])
DataFrame(d, columns=['two', 'three'])

Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0
d,,4.0


Unnamed: 0,one,two
a,1.0,1.0
b,2.0,2.0
c,3.0,3.0


Unnamed: 0,two,three
a,1.0,
b,2.0,
c,3.0,
d,4.0,


#### 通过嵌套的字典（值也是字典）创建

如果通过二维字典创建`DataFrame`，其中一层字典的`key`为列索引，二层字典的`key`为行索引：

In [9]:
d = {"col1": {"row1": 3}, "col2": {"row1": 4}}
DataFrame(d)
d = {"col1": {"row1": 3, "row2": 4}, "col2": {"row1": 4}}
DataFrame(d)

Unnamed: 0,col1,col2
row1,3,4


Unnamed: 0,col1,col2
row1,3,4.0
row2,4,


#### 通过值是`array`或者`list`的字典创建

字典的值如果是`array`或者`list`的话，`array`或者`list`的长度必须要相同，如果指定`index`，长度也要一致，否则会报错：

In [14]:
d = {'one': [1., 2., 3., 4.], 'two': [4., 3., 2., 4.]}
DataFrame(d)

Unnamed: 0,one,two
0,1.0,4.0
1,2.0,3.0
2,3.0,2.0
3,4.0,4.0


#### 通过字典组成的列表

列表中的字典代表一行，注意`columns`参数的设置对结果的影响：

In [4]:
data = [{'a': 1, 'b': 2}, {'a': 5, 'b': 10, 'c': 20}]
DataFrame(data)
DataFrame(data, index=['first', 'tow'], columns=['a', 'b'])

Unnamed: 0,a,b,c
0,1,2,
1,5,10,20.0


Unnamed: 0,a,b
first,1,2
tow,5,10


#### 通过元组构成的字典

键如果是元组，则`dataframe`的列标签索引是多层索引，如果值又是字典，且嵌套的字典的键是元组，则元组是行的索引标签：

In [5]:
pd.DataFrame({('a', 'b'): {('A', 'B'): 1, ('A', 'C'): 2},
              ('a', 'a'): {('A', 'C'): 3, ('A', 'B'): 4},
              ('a', 'c'): {('A', 'B'): 5, ('A', 'C'): 6},
              ('b', 'a'): {('A', 'C'): 7, ('A', 'B'): 8},
              ('b', 'b'): {('A', 'D'): 9, ('A', 'B'): 10}})

Unnamed: 0_level_0,Unnamed: 1_level_0,a,a,a,b,b
Unnamed: 0_level_1,Unnamed: 1_level_1,b,a,c,a,b
A,B,1.0,4.0,5.0,8.0,10.0
A,C,2.0,3.0,6.0,7.0,
A,D,,,,,9.0


#### 通过`pd.DataFrame.from_dict`构造函数

它的操作类似于DataFrame构造函数，除了`orient`参数默认为“columns”，但是可以将其设置为“index”，以便使用`dict`键作为行标签，注意，当`orient`为`column`时，不能设置`columns`参数：

In [9]:
pd.DataFrame.from_dict(
    dict([('A', [1, 2, 3]), ('B', [4, 5, 6])]),
    orient='index',
    columns=['one', 'two', 'three'])

Unnamed: 0,one,two,three
A,1,2,3
B,4,5,6


### 列的添加和删除

#### 像操作字典一样添加列

添加删除列都可以像字典一样的操作，但是也有一些细节要注意：

In [10]:
d = {
    'one': Series([1., 2., 3.], index=['a', 'b', 'c']),
    'two': Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])
}
df = DataFrame(d)
df['three'] = df['one'] * df['two']
# 比较计算产生的布尔列可以直接赋值
df['flag'] = df['one'] > 2
# 等于一个标量的时候，会进行广播
df['foo'] = 'bar'
df

Unnamed: 0,one,two,three,flag,foo
a,1.0,1.0,1.0,False,bar
b,2.0,2.0,4.0,False,bar
c,3.0,3.0,9.0,True,bar
d,,4.0,,False,bar


当插入与`DataFrame`索引不同的`Series`的时候，它将以`dataframe`的索引为准，与之对齐：

In [11]:
df['one_trunc'] = Series([1, 2, 3, 4, 5, 6], index=list('abcdef'))
df
df['one_trunc'] = df['one'][:2]
df

Unnamed: 0,one,two,three,flag,foo,one_trunc
a,1.0,1.0,1.0,False,bar,1
b,2.0,2.0,4.0,False,bar,2
c,3.0,3.0,9.0,True,bar,3
d,,4.0,,False,bar,4


Unnamed: 0,one,two,three,flag,foo,one_trunc
a,1.0,1.0,1.0,False,bar,1.0
b,2.0,2.0,4.0,False,bar,2.0
c,3.0,3.0,9.0,True,bar,
d,,4.0,,False,bar,


也可以传入列表或者数组，但是长度必须与`dataframe`的索引一致：

In [12]:
try:
    df['three'] = [1, 2, 3, 4, 5]
except Exception as e:
    print(e)

Length of values does not match length of index


#### 通过`insert()`方法添加列

默认是在最后添加，可以使用`insert`方法在想要的位置插入，注意，不像很多方法那样返回一个副本，`insert`直接在原位操作：

In [13]:
df.insert(1, 'bar', df['one'])
df

Unnamed: 0,one,bar,two,three,flag,foo,one_trunc
a,1.0,1.0,1.0,1.0,False,bar,1.0
b,2.0,2.0,2.0,4.0,False,bar,2.0
c,3.0,3.0,3.0,9.0,True,bar,
d,,,4.0,,False,bar,


#### 通过`assign()`方法添加列

比如读取一个excel文件以后想要添加一列，如果使用方法链，不分配临时变量的话可以使用`assign`方法，关键字参数是列名，值可以是可迭代对象，标量，`Series`，函数等等，注意`assign`方法返回的是一个副本，私房手册的《选取赋值和索引》一章有详细说明：

In [47]:
pd.read_excel('excel_demo.xlsx').assign(new=[1, 2])

Unnamed: 0.1,Unnamed: 0,col1,col2,new
0,row1,1,2,1
1,row2,3,4,2


#### 通过`del`和`pop`方法删除列

删除列可以直接使用`del`关键字:

In [49]:
d = {
    'one': Series([1., 2., 3.], index=['a', 'b', 'c']),
    'two': Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])
}
df = DataFrame(d)
del df['two']
df

Unnamed: 0,one
a,1.0
b,2.0
c,3.0
d,


还可以使用`pop`方法，注意`pop`方法只能传递字符串，不能传递列表，此时返回的弹出的列，注意和`drop`方法的不同，`drop`方法返回的是删除列以后的`dataframe`对象：

In [51]:
d = {
    'one': Series([1., 2., 3.], index=['a', 'b', 'c']),
    'two': Series([1., 2., 3., 4.], index=['a', 'b', 'c', 'd'])
}
df = DataFrame(d)
df.pop('two')
df

a    1.0
b    2.0
c    3.0
d    4.0
Name: two, dtype: float64

Unnamed: 0,one
a,1.0
b,2.0
c,3.0
d,


### 数据的计算和对齐

当`dataframe`和`dataframe`进行计算，行和列会根据索引对齐，而且索引会是两者的并集（注意下面的例子，`df2`没有D列，不会认为是0，而是`NAN`）：

In [4]:
df1 = pd.DataFrame(np.random.randint(0, 20, (5, 4)),
                   columns=['A', 'B', 'C', 'D'])
df2 = pd.DataFrame(np.random.randint(0, 20, (4, 3)), columns=['A', 'B', 'C'])
df1 + df2

Unnamed: 0,A,B,C,D
0,31.0,4.0,12.0,
1,24.0,19.0,29.0,
2,12.0,24.0,35.0,
3,15.0,14.0,17.0,
4,,,,


在`DataFrame`和`Series`之间执行操作时，默认是和`DataFrame`列的标签索引对齐（也就是说按行操作），然后进行广播（这其实也是符合广播的基本原则的，关于广播的详细说明可以参考私房手册的《Numpy私房手册》），例如：

In [5]:
df1 - df1.iloc[0]

Unnamed: 0,A,B,C,D
0,0,0,0,0
1,-2,5,11,-3
2,-9,11,14,12
3,-6,11,-3,5
4,-11,5,0,12


如果你直接减去一个列，会得到一个莫名其妙但肯定不是你想要的结果（实际上还是在按行操作，只不过索引对不齐，比如下例，`df1`的列索引标签是A,B,C,D，而`df1['A']`的标签是0，1，2，3，4。按行对齐以后，索引没有重叠的，所以结果全都是`NAN`），这种写法以后可能会被删除，推荐使用`dataframe`的计算方法（如这个例子中的`sub`），并指明`axis`的方向，注意，就算使用`sub`方法，如果`axis`设置错误，一样会得到和前面类似的错误的结果，因为本质还是`numpy`数组的广播：

In [7]:
df1 - df1['A']
df1.sub(df1['A'], axis=0)
df1.sub(df1['A'], axis=1)

Unnamed: 0,A,B,C,D,0,1,2,3,4
0,,,,,,,,,
1,,,,,,,,,
2,,,,,,,,,
3,,,,,,,,,
4,,,,,,,,,


Unnamed: 0,A,B,C,D
0,0,-9,-7,-11
1,0,-11,-15,-17
2,0,5,7,6
3,0,-3,-11,-11
4,0,4,-12,6


Unnamed: 0,A,B,C,D,0,1,2,3,4
0,,,,,,,,,
1,,,,,,,,,
2,,,,,,,,,
3,,,,,,,,,
4,,,,,,,,,


如果你理解了广播的原理，还可以这样做：

In [64]:
df1 - df1['A'].values.reshape((df1.index.size, 1))

Unnamed: 0,A,B,C,D
0,0,-13,-14,-10
1,0,-3,-9,-14
2,0,-14,0,-9
3,0,-2,9,-8
4,0,-1,-3,-10


[官网手册](https://pandas.pydata.org/pandas-docs/stable/getting_started/dsintro.html)上说在处理时间序列数据的特殊情况下，如果`DataFrame`索引包含日期，则广播将按列进行。这个解释是不对的，不管是不是时间序列，始终是按行进行广播，只不过是索引对不齐罢了。

### `Numpy`函数和`DataFrame`的互操作性

`DataFrame`并不是`ndarray`的替代，它的索引语义和数据模型在某些地方与n维数组有很大的不同。但是`NumPy`的那些元素级函数`ufuncs`(log、exp、sqrt等等)和其他各种`NumPy`函数都可以在`Series`和`DataFrame`上使用，不会有啥问题，只要其中的数据是数值型的。

In [73]:
np.asarray(df1)
np.sqrt(df1)

array([[14,  1,  0,  4],
       [17, 14,  8,  3],
       [19,  5, 19, 10],
       [ 9,  7, 18,  1],
       [14, 13, 11,  4]])

Unnamed: 0,A,B,C,D
0,3.741657,1.0,0.0,2.0
1,4.123106,3.741657,2.828427,1.732051
2,4.358899,2.236068,4.358899,3.162278
3,3.0,2.645751,4.242641,1.0
4,3.741657,3.605551,3.316625,2.0


0.25版本以后，如果将多个`Series`传入一个`numpy`的函数，会先根据索引进行对齐，然后再进行计算：

In [77]:
ser1 = pd.Series([1, 2, 3], index=['a', 'b', 'c'])
ser2 = pd.Series([1, 3, 5], index=['b', 'a', 'c'])
ser1
ser2
# remainder是两个序列捉对进行地板除法，就好像把zip和math.floor结合起来
np.remainder(ser1, ser2)

a    1
b    2
c    3
dtype: int64

b    1
a    3
c    5
dtype: int64

a    1
b    0
c    3
dtype: int64

当`ufunc`接收的参数是`Series`时，也会优先返回`Series`，如果可能的话，`numpy`并不会在底层将`Series`转换成`ndarray`再进行计算：

In [81]:
np.maximum(Series([4, 5, 6]), [10, 2, 7])

0    10
1     5
2     7
dtype: int64

### 屏幕显示配置

以下是一些比较常用的控制显示效果的配置选项：
- `to_string()`方法会以表格形式进行呈现，某些情况下可以提供更好的显示效果。
- 可以通过`pd.set_option('display.width', 40)`设置显示的宽度，默认为80。
- `pd.set_option('display.max_colwidth', 30)`可以调整每一列的显示宽度。