# 第05章 Getting Started with pandas 开始吧！

pandas、NumPy、SciPy、matplotlib经常一起使用

NumPy适合处理同质性数组

pandas适合处理表格型、异质性数据


In [1]:
import pandas as pd # 默认的导入模式
from pandas import Series , DataFrame # 常用的两个工具
import numpy as np
import matplotlib.pyplot as plt
np.random.seed(12345)

plt.rc('figure', figsize=(10, 6)) # 调字体
PREVIOUS_MAX_ROWS = pd.options.display.max_rows # 保存默认显示的最大行数
pd.options.display.max_rows = 20# 设置本文档显示的最大行数
np.set_printoptions(precision=4, suppress=True)# 设定numpy的打印精度

In [2]:
np.random.seed(12345)

plt.rc('figure', figsize=(10, 6)) # 调字体
PREVIOUS_MAX_ROWS = pd.options.display.max_rows # 保存默认显示的最大行数
pd.options.display.max_rows = 20# 设置本文档显示的最大行数
np.set_printoptions(precision=4, suppress=True)# 设定numpy的打印精度

感谢晓唦！


## 5.1 Introduction to pandas Data Structures 

pandas数据结构介绍

熟悉两个工具，Series，DataFrame

### 5.1.1 Series

值+index索引

In [3]:
# 默认索引 0，1，2
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

In [4]:
# 单独得到值
obj.values

array([ 4,  7, -5,  3], dtype=int64)

In [5]:
# 单独得到索引
obj.index  
# like range(4)
# 跟range的原理一样，[0,4),左闭右开

RangeIndex(start=0, stop=4, step=1)

In [6]:
# 自定义索引
obj2 = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

In [7]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

In [8]:
# 用索引查看
obj2['a'] 

-5

In [9]:
# 用索引改值
obj2['d'] = 6
obj2[['c', 'a', 'd']]

c    3
a   -5
d    6
dtype: int64

In [10]:
# 这个也算是布尔值索引
obj2[obj2 > 0]

d    6
b    7
c    3
dtype: int64

In [11]:
# 数值运算
obj2 * 2

d    12
b    14
a   -10
c     6
dtype: int64

In [12]:
# exp：Exponential以e为底的指数曲线
np.exp(obj2)

d     403.428793
b    1096.633158
a       0.006738
c      20.085537
dtype: float64

In [13]:
# 长度固定且有序的字典，可以判断
'b' in obj2

True

In [14]:
'e' in obj2

False

In [15]:
# 可以用字典生成series，默认的index就是字典的key
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = pd.Series(sdata)
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [16]:
# 字典生成series，自定义index
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = pd.Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

为什么NaN？

为什么不从头对齐？

为什么Utah 5000被挤出去了？

到底拥护啥？

tell me why

啊啊啊我知道了，是因为index在原来的字典key值，就对应取值

index的California不在key值里，就取NaN

自定义的index没有Utah，所以这个值会被丢弃

先看看如何判断有没有数据缺失，也就是NaN

In [17]:
# NaN返回True
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [18]:
# 不是NaN返回True
pd.notnull(obj4)

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

In [19]:
# 另一种写法
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [20]:
# 看一眼相加是是什么效果
# 看一下obj3，四个数，注意index
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

In [21]:
# 看一眼obj4，注意index
# 跟obj3有三个是重复的
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

In [22]:
## 相加之后所有的index都被保留
## 共同的三个index对应value数值相加
## 非共同index变成NaN
obj3 + obj4

California         NaN
Ohio           70000.0
Oregon         32000.0
Texas         142000.0
Utah               NaN
dtype: float64

index和value都有name属性，是命名吗

In [23]:
obj4.name = 'population'
obj4.index.name = 'state'
obj4
# state是变成名字了嘛

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

改变索引

In [24]:
obj
obj.index = ['Bob', 'Steve', 'Jeff', 'Ryan']
obj

Bob      4
Steve    7
Jeff    -5
Ryan     3
dtype: int64

### 5.1.2 DataFrame

二维矩阵

In [25]:
# 字典生成DataFrame
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
frame = pd.DataFrame(data)

In [26]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


哇

In [27]:

frame.head() # 只看前五行

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [28]:




# 改变列的顺序
pd.DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [29]:
# 如果列不在DataFrame里，会显示缺失值
frame2 = pd.DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                      index=['one', 'two', 'three', 'four',
                             'five', 'six'])
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


In [30]:
# 查看列名称
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [31]:
# 查看某列
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

In [32]:
# 查看某列
frame2.year

one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64

In [33]:
# 查看行
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [34]:
# 给一列赋值，给一个数，默认所有的值都得这个
frame2['debt'] = 16.5
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


In [35]:
# 给一个array，按顺序赋值
# 6.表示一位小数
frame2['debt'] = np.arange(6.)
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0
six,2003,Nevada,3.2,5.0


In [36]:
# 通过series给列赋值，先定义一个
# 然后部分的index相同
val = pd.Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
val

two    -1.2
four   -1.5
five   -1.7
dtype: float64

In [37]:
# index相同的部分会赋值
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


In [38]:
frame2['eastern'] = frame2.state == 'Ohio'
frame2
# 新加一个列，eastern，应该是判断是否属于东部
# 给的值是布尔值True或False
# 判断的依据，是该行的state是不是Ohio

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False
six,2003,Nevada,3.2,,False


In [39]:
# 删除一列，用del
# del frame2['eastern']
frame2.columns
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False
six,2003,Nevada,3.2,,False


In [40]:
# 创建DataFrame
# 用嵌套字典赋值
# 一级键作为列
# 二级键作为索引
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': { 2001: 1.7, 2002: 3.6, 2000: 1.5}}



In [41]:
# 将字典作为参数传递DataFrame函数
# DataFrame对键进行联合、排序
frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [42]:
# 可以使用NumPy语法对DataFrame进行转置操作
frame3.T

Unnamed: 0,2000,2001,2002
Nevada,,2.4,2.9
Ohio,1.5,1.7,3.6


In [43]:
# 一样可以自定义索引
# 2000被舍弃
# 2003被创建，没有值得地方默认NaN
# 自己指定索引，就不会被排序了
pd.DataFrame(pop, index=[2002, 2001, 2003])

Unnamed: 0,Nevada,Ohio
2002,2.9,3.6
2001,2.4,1.7
2003,,


In [44]:
# 用frame的series创建frame
# 一级关键字还是列
# 二级关键字，某人是原来的index，2000，2001，2002
pdata = {'Ohio': frame3['Ohio'][:-1],
         'Nevada': frame3['Nevada'][:2]}
# Ohio，Nevada排序，LMNOPQ，所以是Nevada，Ohio
# Nevada里面，对应frame3的[0,2)我要是发明语言，切片就这么写
# Ohio对应的[0,-1)，倒数第一个为止，也就是倒数第一个不要
print(frame3) ## 看一眼frame3
pd.DataFrame(pdata)

      Nevada  Ohio
2000     NaN   1.5
2001     2.4   1.7
2002     2.9   3.6


Unnamed: 0,Ohio,Nevada
2000,1.5,
2001,1.7,2.4


In [45]:
# index和colusmn有name属性
frame3.index.name = 'year'; frame3.columns.name = 'state'
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [46]:
# 与Series类似，values值以二维nadarry返回
frame3.values

array([[nan, 1.5],
       [2.4, 1.7],
       [2.9, 3.6]])

In [47]:
frame2.values # 一样的

array([[2000, 'Ohio', 1.5, nan, True],
       [2001, 'Ohio', 1.7, -1.2, True],
       [2002, 'Ohio', 3.6, nan, True],
       [2001, 'Nevada', 2.4, -1.5, False],
       [2002, 'Nevada', 2.9, -1.7, False],
       [2003, 'Nevada', 3.2, nan, False]], dtype=object)

#### 表5-1 DataFrame可以接受的参数类型

2D ndarray 二位数据矩阵

NumPy结构化数组

Series构成的字典

字典：字典、数组、列表、元组构成的都行

列表：字典、Series、列表、元组构成的

其他DataFrame

NumPy MaskedArray，这是什么鬼


### 5.1.3 Index Objects 索引对象

索引是一种对象类型，跟列表元组啥的似的

数组或标签序列可以转换出索引类型

特点：不可变，可重复



In [48]:
import pandas as pd # 默认的导入模式
from pandas import Series , DataFrame # 常用的两个工具
import numpy as np
import matplotlib.pyplot as plt

In [49]:
obj = pd.Series(range(3), index=['a', 'b', 'c'])
obj

a    0
b    1
c    2
dtype: int64

In [50]:
index1 = obj.index
index1

Index(['a', 'b', 'c'], dtype='object')

In [51]:
# 切片功能跟列表很像
index1[1:]

Index(['b', 'c'], dtype='object')

In [52]:
# # 不可修改
# index1[1] = 'd'
# # 修改会报错

不可变性使得在多种数据结构中分享索引更安全

In [53]:
# 生成一个索引对象
labels = pd.Index(np.arange(3))
labels

Int64Index([0, 1, 2], dtype='int64')

In [54]:
# 生成一个序列，就用我们上面定义的索引
obj2 = pd.Series([1.5, -2.5, 0], index=labels)
obj2

0    1.5
1   -2.5
2    0.0
dtype: float64

In [55]:
# 我滴妈，还可以判断
obj2.index is labels

True

还可以各种判断

In [56]:
# 定义一个表格
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': { 2001: 1.7, 2002: 3.6, 2000: 1.5}}
frame3 = pd.DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [57]:
frame3.columns # 列名也是Index类型对象

Index(['Nevada', 'Ohio'], dtype='object')

In [58]:
'Ohio' in frame3.columns # 判断Ohio是否在这个Index对象里

True

In [59]:
2003 in frame3.index # 判断

False

In [60]:
dup_labels = pd.Index(['foo', 'foo', 'bar', 'bar'])
dup_labels

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

#### 表5-2：index对象的方法和属性

类似列表、集合：

append 

difference 差集

intersection 交集

union 并集

isin 判断

delete 删除

drop 删除指定索引值，并产生新的索引

insert 插入

is_monotonic 如果索引序列递增返回True

is_unique 如果索引序列唯一返回True

unique 计算索引的唯一值序列


## 5.2 Essential Functionality 主要功能

基础，最重要的特性

### 5.2.1 Reindexing 重置索引

干什么想要？看例子

In [61]:
obj = pd.Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
# 这个索引dbac
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [62]:
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
# 取obj的值
# reindex重置索引为abcde
# 改变顺序，原来有值取原来的值，没有的默认NaN
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

有的时候需要自动填充一些值

要用method

比如method = ffill，将值向前填充

In [63]:
obj3 = pd.Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3

0      blue
2    purple
4    yellow
dtype: object

In [64]:
obj3.reindex(range(7), method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
6    yellow
dtype: object

reindex可以改变行，也可以改变列

一个参数，默认改变行索引

In [65]:
frame = pd.DataFrame(np.arange(9).reshape((3, 3)),
                     index=['a', 'c', 'd'],
                     columns=['Ohio', 'Texas', 'California'])
frame

Unnamed: 0,Ohio,Texas,California
a,0,1,2
c,3,4,5
d,6,7,8


In [66]:
frame2 = frame.reindex(['a', 'b', 'c', 'd'])
frame2

Unnamed: 0,Ohio,Texas,California
a,0.0,1.0,2.0
b,,,
c,3.0,4.0,5.0
d,6.0,7.0,8.0


用columns改变列索引

In [67]:
states = ['Texas', 'Utah', 'California']
# 换顺序删除Ohio，加入Utah
frame.reindex(columns=states)

Unnamed: 0,Texas,Utah,California
a,1,,2
c,4,,5
d,7,,8


In [68]:
frame.loc[['a', 'b', 'c','d'], states]

Passing list-likes to .loc or [] with any missing label will raise
KeyError in the future, you can use .reindex() as an alternative.

See the documentation here:
https://pandas.pydata.org/pandas-docs/stable/indexing.html#deprecate-loc-reindex-listlike
  return self._getitem_tuple(key)


Unnamed: 0,Texas,Utah,California
a,1.0,,2.0
b,,,
c,4.0,,5.0
d,7.0,,8.0


#### 表5-3：reindex方法的参数

index 索引或其他序列型数据结构

method ffill向填充，bfill向后填充

fill_value 缺失值的默认值

limit 限制，填充时，限制数量？

tolerance 宽容，填充时，容错？

level 匹配MultiIndex级别的简单索引，否则选择自己

copy =True，复制底层数据，=False，不复制数据

### 5.2.2 Dropping Entries from an Axis 轴向上删除条目

entries进入

就是删除一行或一列吧

用drop

In [69]:
obj5 = pd.Series(np.arange(5.), index=['a', 'b', 'c', 'd', 'e'])
obj5

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [70]:
# 生成一个新的对象
new_obj = obj5.drop('c')
new_obj

a    0.0
b    1.0
d    3.0
e    4.0
dtype: float64

In [71]:
## 原来的obj5并没有改变
obj5.drop(['d', 'c'])
obj5

a    0.0
b    1.0
c    2.0
d    3.0
e    4.0
dtype: float64

In [72]:
data5 = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data5

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [73]:
data5.drop(['Colorado', 'Ohio'])

# 默认就是删掉索引对应的行或列

Unnamed: 0,one,two,three,four
Utah,8,9,10,11
New York,12,13,14,15


In [74]:
data5.drop('two', axis=1)
# 可以指定是哪个轴，axis=1

Unnamed: 0,one,three,four
Ohio,0,2,3
Colorado,4,6,7
Utah,8,10,11
New York,12,14,15


In [75]:
data5.drop(['two', 'four'], axis='columns')
# 用axis=columns也可以

Unnamed: 0,one,three
Ohio,0,2
Colorado,4,6
Utah,8,10
New York,12,14


想要删除替换原来的表格

直接用inplace=True

drop的值会被清除

原来的表格会被改变

In [76]:
obj.drop('c', inplace=True)
obj

d    4.5
b    7.2
a   -5.3
dtype: float64

### 5.2.3 Indexing, Selection, and Filtering 索引、选择、过滤

又要干啥，直接看代码



In [77]:
obj5 = pd.Series(np.arange(4.), index=['a', 'b', 'c', 'd'])
obj5

a    0.0
b    1.0
c    2.0
d    3.0
dtype: float64

In [78]:
obj5['b']

1.0

In [79]:
obj5[1]

1.0

In [80]:
obj5[2:4]

c    2.0
d    3.0
dtype: float64

In [81]:
obj5[['b', 'a', 'd']]

b    1.0
a    0.0
d    3.0
dtype: float64

In [82]:
obj5[[1, 3]]

b    1.0
d    3.0
dtype: float64

In [83]:
obj5[obj5 < 2]

a    0.0
b    1.0
dtype: float64

这不都跟数组差不多

In [84]:
obj5['a':'c']

a    0.0
b    1.0
c    2.0
dtype: float64

In [85]:
obj5['b':'c'] = 5 # 赋值
obj5

a    0.0
b    5.0
c    5.0
d    3.0
dtype: float64

In [86]:
data6 = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data6

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [87]:
data6['two']

Ohio         1
Colorado     5
Utah         9
New York    13
Name: two, dtype: int32

In [88]:
data6[['three', 'one']]

Unnamed: 0,three,one
Ohio,2,0
Colorado,6,4
Utah,10,8
New York,14,12


In [89]:
data6[:2]

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7


In [90]:
data6[data6['three'] > 5] ## 布尔值索引

Unnamed: 0,one,two,three,four
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [91]:
data6 < 5 # 布尔值判断

Unnamed: 0,one,two,three,four
Ohio,True,True,True,True
Colorado,True,False,False,False
Utah,False,False,False,False
New York,False,False,False,False


In [92]:
data6[data6 < 5] = 0 # 布尔值索引赋值
data6

Unnamed: 0,one,two,three,four
Ohio,0,0,0,0
Colorado,0,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [93]:
import pandas as pd # 默认的导入模式
from pandas import Series , DataFrame # 常用的两个工具
import numpy as np
import matplotlib.pyplot as plt
np.random.seed(12345)

plt.rc('figure', figsize=(10, 6)) # 调字体
PREVIOUS_MAX_ROWS = pd.options.display.max_rows # 保存默认显示的最大行数
pd.options.display.max_rows = 20# 设置本文档显示的最大行数
np.set_printoptions(precision=4, suppress=True)# 设定numpy的打印精度

#### 5.2.3.1 Selection with loc and iloc 使用loc和iloc选择数据

loc就是location吧

In [94]:
data6 = pd.DataFrame(np.arange(16).reshape((4, 4)),
                    index=['Ohio', 'Colorado', 'Utah', 'New York'],
                    columns=['one', 'two', 'three', 'four'])
data6

Unnamed: 0,one,two,three,four
Ohio,0,1,2,3
Colorado,4,5,6,7
Utah,8,9,10,11
New York,12,13,14,15


In [95]:
data6.loc['Colorado', ['two', 'three']]
# 用loc
# 第一个元素，一级索引，确定行，Colorado
# 第二个【】，二级索引，确定列

two      5
three    6
Name: Colorado, dtype: int32

iloc难道是index location

In [96]:
data6.iloc[2, [3, 0, 1]]
# 用iloc，2，Utah
# 3 0 1 列

four    11
one      8
two      9
Name: Utah, dtype: int32

In [97]:
data6.iloc[2] # 第二行，默认一行都取出来

one       8
two       9
three    10
four     11
Name: Utah, dtype: int32

In [98]:
data6.iloc[[1, 2], [3, 0, 1]] # 各种试一下

Unnamed: 0,four,one,two
Colorado,7,4,5
Utah,11,8,9


In [99]:
data6.loc[:'Utah', 'two']
# 行，[Ohio，Utah]
# 列选two

Ohio        1
Colorado    5
Utah        9
Name: two, dtype: int32

In [100]:
data6.iloc[:, :3][data6.three > 5]

Unnamed: 0,one,two,three
Colorado,4,5,6
Utah,8,9,10
New York,12,13,14


##### 表 5-4：DataFrame索引选项

不太知道都怎么用，先抄一遍

def[val]：好比data6['two']，取行货列

df.loc[val]：根据标签名单行单列

df.loc[: val]：根据标签，类似于切片模式多行多列

df.loc[val1, val2]：val1行，val2列

df.iloc同理，只不过根据整数索引取

df.at[label_i,label_j]：行列，取一个值

df.iat[i, j]：跟上面一样，用整数索引

reindex：通过标签选择、改变行或列

get_value，set_value方法：根据行列标签设置单个值

### 5.2.4 Integer Indexes 整数索引

- loc，根据元素的内容确定

- iloc，根据索引确定

- 直接用series.[]这种，如果内容不是数字，他就跟iloc一样，如果内容是数字，他就跟loc一样

随便生成一个序列，内容是abc

In [101]:
ser2 = pd.Series(np.arange(3.), index=['a', 'b', 'c'])
# 非整数索引就没事儿
ser2

a    0.0
b    1.0
c    2.0
dtype: float64

这里使用方框，情况相当于iloc，index

In [102]:
ser2[-1] # 默认整数索引

2.0

但你的index内容就是3，2，1

比如下面这种情况

In [103]:
ser = pd.Series(np.arange(3.),index = [3,2,1])
# index是整数
ser

3    0.0
2    1.0
1    2.0
dtype: float64

这里使用方框，情况相当于loc

In [104]:
ser[1] ## 这种引用，直接默认是指的内容，location

2.0

无法启用index

In [105]:
ser[-1] ## 报错，不会启用index

KeyError: -1

为了避免出现这种歧义，通常使用loc和iloc声明你指的是内容，还是索引

In [None]:
print(ser)
ser[:1] # index,iloc

In [None]:
ser.loc[:1] # location 左闭右闭区间

In [None]:
ser.iloc[:2] # index location 左闭右开区间

In [None]:
ser.iloc[-1] # index location

### 5.2.5 Arithmetic and Data Alignment 四则运算和数据调整

看例子把直接

一个轴不同

In [None]:
s1 = pd.Series([7.3, -2.5, 3.4, 1.5], index=['a', 'c', 'd', 'e'])
s1

In [None]:
s2 = pd.Series([-2.1, 3.6, -1.5, 4, 3.1],
               index=['a', 'c', 'e', 'f', 'g'])
s2

直接相加就是索引内容相同的相加

In [None]:
s1+s2 
# 就是索引相同的相加，不同的返回NaN
# 这个之前也见过了

两张表相加，纵轴横轴都有所不同

In [None]:
df1 = pd.DataFrame(np.arange(9.).reshape((3, 3)), columns=list('bcd'),
                   index=['Ohio', 'Texas', 'Colorado'])
df1

In [None]:
df2 = pd.DataFrame(np.arange(12.).reshape((4, 3)), columns=list('bde'),
                   index=['Utah', 'Ohio', 'Texas', 'Oregon'])
df2

In [None]:
df1 + df2

# b，d，Texas，Ohio对应的有数，其他都是NaN

横轴完全不同，都是NaN

In [None]:
df1 = pd.DataFrame({'A': [1, 2]})
df1

In [None]:
df2 = pd.DataFrame({'B': [3, 4]})
df2

In [None]:
df1 - df2

#### 5.2.5.1 Arithmetic methods with fill values 


用fill_value=这方法

In [None]:
df1 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
                   columns=list('abcd'))
df1.loc[0, 'b'] = np.nan
df1

In [None]:
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
                   columns=list('abcde'))
df2.loc[1, 'b'] = np.nan
df2.loc[1, 'e'] = np.nan
df2
# 设置一个NaN，缺失值

In [None]:
df1 + df2
# 两个相加，有了更多的NaN

In [None]:
df1.add(df2, fill_value=0)
# 对df1填充值
# 添加的值来自df2
# df1里没有的值，df2来补
# fill_value=0先填充确实数据，NaN=0
# 再求和

In [None]:
df2.add(df1, fill_value=0)

我自己在试一个例子

In [None]:
df3 = pd.DataFrame(np.arange(12.).reshape((3, 4)),
                   columns=list('abcd'))
df3.loc[1, 'b'] = np.nan
df3

In [None]:
df2 = pd.DataFrame(np.arange(20.).reshape((4, 5)),
                   columns=list('abcde'))
df2.loc[1, 'b'] = np.nan
df2 ## df2，df3（1，b）都是NaN

In [None]:
df3.add(df2, fill_value=0)
# 这种情况下补充，NaN还是NaN
# fill_value方法填充NA数据，不过两个df中都为NA的数据，该方法不会填充

In [None]:
1 / df1 # 所有的值取倒数

In [None]:
df1.rdiv(1) 
# 等价于1 div df1，也就是1除以df1
# 看样子r应该是翻转的意思，就是换个位置

重建index时也可以用

fill_value=0这里就默认了=0

In [None]:
df1.reindex(columns=df2.columns, fill_value=0)

##### 表 5-5：四则运算啊

add,radd 加

sub,rsub 减

div,rdiv 除

floorrdiv,rfloordiv 整除

mul,rmul 乘

pow,rpow 次方

#### 5.2.5.2 Operations between DataFrame and Series

DataFrame和Series之间的操作

说的这么复杂，就是一个表加减一行的情况

In [None]:
arr = np.arange(12.).reshape((3, 4))
arr

In [None]:
arr[0]

In [None]:
arr - arr[0]
## 每一行都减去arr[0]


再来个例子

In [None]:
frame6 = pd.DataFrame(np.arange(12.).reshape((4, 3)),
                     columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])

frame6

In [None]:
series6 = frame6.iloc[0]
series6

In [None]:
frame6 - series6

In [None]:
series7 = pd.Series(range(3), index=['b', 'e', 'f'])
series7

In [None]:
frame6 + series7

# bde+bef=be
# 每行都加上series7
# 其他都是NaN

如果想对一列进行操作怎么办

需要使用算数方法sub等

In [None]:
frame6 # 这个是之前的表格

In [None]:
series8 = frame6['d']
series8
# 取出其中的一列

In [None]:
frame6.sub(series8, axis='index')
# 要用sub这个函数
# index就是人名那个轴
# frame6的每列减去d的值

### 5.2.6 Function Application and Mapping 函数应用和映射

NumPy的函数，可以用

In [None]:
frame7 = pd.DataFrame(np.random.randn(4, 3), columns=list('bde'),
                     index=['Utah', 'Ohio', 'Texas', 'Oregon'])
frame7

In [None]:
np.abs(frame7)
# abs是啥来着，看样子大概是绝对值

如果想实现，一列中的最大值-最小值

也就是要对每一列执行同一个函数操作

用apply

In [None]:
f = lambda x: x.max() - x.min()
frame7.apply(f)

# 比如b这列，是2.0几-0.1几=1.8几

In [None]:
frame7.apply(f, axis='columns')
# 沿着columns的方向
# 每行来一次

返回的值可以带有多个值得Series

比如想留下最大值和最小值

In [None]:
def f(x):
    return pd.Series([x.min(), x.max()], index=['min', 'max'])
frame7.apply(f)

frame7里面的是浮点数

这个浮点数保留两位，变成字符串

用applymap

In [None]:
format = lambda x: '%.2f' % x
# 这个就是保留两位小数
frame7.applymap(format)
# 这里是applymap，对每一列都进行操作
# 区别于map，是对某一列，也就是某Series进行操作

In [None]:
# map方法
frame7['e'].map(format)

### 5.2.7 Sorting and Ranking 排序和排名

按索引排序，用sort_index

按值排序，用sort_values

In [None]:
obj8 = pd.Series(range(4), index=['d', 'a', 'b', 'c'])
obj8

In [None]:
obj8.sort_index()

In [None]:
# 默认给axis=0排序
frame = pd.DataFrame(np.arange(8).reshape((2, 4)),
                     index=['three', 'one'],
                     columns=['d', 'a', 'b', 'c'])
frame.sort_index()

In [None]:
# 给axis=1排序需要指定
frame.sort_index(axis=1)

In [None]:
# 默认升序，想要降序ascending=False
frame.sort_index(axis=1, ascending=False)

sort_values()按值排序

In [None]:
obj9 = pd.Series([4, 7, -3, 2])
obj9
## 默认index是0123
## 对应值

In [None]:
obj9.sort_values()
# 按值从小到大排序

缺失值会被排序值Series的尾部

In [None]:
obj10 = pd.Series([4, np.nan, 7, np.nan, -3, 2])
obj10.sort_values()

给DataFrame，就是表格排序时

sort_values(by=排序的根据)

In [None]:
frame10 = pd.DataFrame({'b': [4, 7, -3, 2], 'a': [0, 1, 0, 1]})
frame10

In [None]:
frame10.sort_values(by='b')
# 根据b这列排序

In [None]:
frame10.sort_values(by=['a', 'b'])
# 排序优先次序，a然后b

In [None]:
obj10 = pd.Series([7, -5, 7, 4, 2, 0, 4])
obj10

In [None]:
obj10.rank()
## 什么鬼？？？
## 啊，我知道了，按值从小到大
## 排名，1：-5排在第一位
## 5：0第二位
## 4：2第三位
## 6：4，3：4相等，并列第四，也就是第四和第五，所以都是4.5位
## 以此类推

In [None]:
obj10.rank(method='first')
## 啥玩意？？？
## 3和6对应的值都是4
## method=first就是先看到的优先
## 也就是3：4排第4位
## 6：4排在第5位

In [None]:
# Assign tie values the maximum rank in the group
obj10.rank(ascending=False, method='max')
## 首先是反序，由大到小
## [7, -5, 7, 4, 2, 0, 4]
## 0：7和2：7，最大，在第一位和第二位
## method=max就是取最大的数
## 也就是两个的排名都是2

In [None]:
frame11 = pd.DataFrame({'b': [4.3, 7, -3, 2], 'a': [0, 1, 0, 1],
                      'c': [-2, 5, 8, -2.5]})
frame11

In [None]:
frame11.rank(axis='columns')
# 明显是abc对应的三个数排名

#### 表 5-6：排名优先级

加入两个并列第四

average 默认是这个，那就都是4.5

min 都是第四

max 都是第五

first 先来的第四，后来的第五

dense 类似于min，不过组间排名加1【不确定在干啥】

### 5.2.8 Axis Indexes with Duplicate Labels 含有重复标签的轴索引

这个没什么，看看效果就可以了

In [None]:
## 如果索引有重复的，比如，两个a，两个b
import pandas as pd
import numpy as np
obj = pd.Series(range(5), index=['a', 'a', 'b', 'b', 'c'])
obj

In [None]:
# 判断索引元素是否是唯一的
obj.index.is_unique

In [None]:
# 使用索引，什么效果
obj['a']

In [None]:
obj['c']

In [None]:
# 如果是4*4的看一哈
df = pd.DataFrame(np.random.randn(4, 3), index=['a', 'a', 'b', 'b'])
df

In [None]:
df.loc['b']

## 5.3 Summarizing and Computing Descriptive Statistics 

描述性统计的概述与计算

主要是进行统计运算时，对缺失值的处理

In [None]:
# 建立一个有缺失值的表
df = pd.DataFrame([[1.4, np.nan], [7.1, -4.5],
                   [np.nan, np.nan], [0.75, -1.3]],
                  index=['a', 'b', 'c', 'd'],
                  columns=['one', 'two'])
df

In [None]:
# 感觉NaN被默认为0
df.sum() # 默认计算axis=0方向，竖着加

In [None]:
# 计算axis=1方向，横着加，c行印证了NaN默认为零
df.sum(axis='columns')

In [None]:
# 如果想保留缺失值，则加入参数skipna=False
df.mean(axis='columns', skipna=False)

### 表5-7：归约方法可选参数

axis 归约轴

skipna 排除缺失值，默认为True

level 如果轴是多层索引MultiIndex，该参数可以缩减分组层级


In [None]:
## 最大值的索引值，one这一列，最大值7.10，对应索引为b
df.idxmax()

In [None]:
# 积累型计算
# 1.4
# 1.4+7.1=8.5
# NaN
# 1.4+7.1+0.75=9.25
df.cumsum()

In [None]:
# 一次性产生多个汇总统计
df.describe()

In [None]:
# 对于非数值型数据，产生另一种汇总统计
obj = pd.Series(['a', 'a', 'b', 'c'] * 4)
obj

In [None]:
obj.describe()
# 共16个
# 元素abc三个
# top最多的是a
# frequency，重复的次数是8

### 表5-8：描述性统计和汇总统计

count 非NA值得个数

describe 计算Series或DataFrame各列的汇总统计集合

min, max 计算最小值、最大值

argmin，argmax 分别计算最小值、最大值所在的索引位置（整数）

idxmin，idxmax 分别计算最小值或最大值所在的索引标签

quantile 计算样本的从0到1间的分位数

sum 加和

mean 均值

median 中位数

mad 平均值和平均绝对偏差

prod 所有值得积

var 值的样本方差

std 值的样本标准差

skew 样本偏度值

kurt 样本鞥度值

cumsum 累计值

cummin，cummax 累计最小值或最大值

cumprod 值的累计积

diff 计算第一个算术差值

pct_change 计算百分比
    

### 5.3.1 Correlation and Covariance 相关性和协方差

库：pandas-datareader

数据：Yahoo！Finance上获取包含股价交易量的DataFrame

可以通过conda或pip安装

In [106]:
# conda install pandas-datareader
!pip install pandas-datareader

Looking in indexes: https://pypi.tuna.tsinghua.edu.cn/simple


亲测好用

In [107]:
# 使用pandas_datareader下载一些数据
import pandas_datareader.data as web
all_data = {ticker: web.get_data_yahoo(ticker)
            for ticker in ['AAPL', 'IBM', 'MSFT', 'GOOG']}
# 下载股票代号ticker为这几个的数据

或者用作者已经准备好的数据

In [None]:
# 书上准备好的数据集
# price = pd.read_pickle('examples/yahoo_price.pkl')
# volume = pd.read_pickle('examples/yahoo_volume.pkl')

查看一下这个数据

High当日最高价

Low当日最低价

Open当日开盘价

Close当日收盘价

Volume当日成交量

Adj Close 前复权收盘价，为了更准确反应股票的价值，针对分红对影响进行的调整

[知乎：股价的前复权和后复权是什么鬼](https://zhuanlan.zhihu.com/p/49187942)

In [108]:
all_data

{'AAPL':                   High         Low        Open       Close       Volume  \
 Date                                                                      
 2009-12-31   30.478571   30.080000   30.447144   30.104286   88102700.0   
 2010-01-04   30.642857   30.340000   30.490000   30.572857  123432400.0   
 2010-01-05   30.798571   30.464285   30.657143   30.625713  150476200.0   
 2010-01-06   30.747143   30.107143   30.625713   30.138571  138040000.0   
 2010-01-07   30.285715   29.864286   30.250000   30.082857  119282800.0   
 2010-01-08   30.285715   29.865715   30.042856   30.282858  111902700.0   
 2010-01-11   30.428572   29.778572   30.400000   30.015715  115557400.0   
 2010-01-12   29.967142   29.488571   29.884285   29.674286  148614900.0   
 2010-01-13   30.132856   29.157143   29.695715   30.092857  151473000.0   
 2010-01-14   30.065714   29.860001   30.015715   29.918571  108223500.0   
 ...                ...         ...         ...         ...          ...   
 201

这个数据本身是一个大字典

In [109]:
print(type(all_data))

<class 'dict'>


字典的key值为股票代号，value值是一个DataFrame

In [110]:
print(type(all_data['AAPL']))

<class 'pandas.core.frame.DataFrame'>


In [111]:
# 取出DataFrame里面的一个列Series
all_data['AAPL']['Adj Close']

Date
2009-12-31     26.193771
2010-01-04     26.601469
2010-01-05     26.647457
2010-01-06     26.223597
2010-01-07     26.175119
2010-01-08     26.349140
2010-01-11     26.116703
2010-01-12     25.819624
2010-01-13     26.183823
2010-01-14     26.032179
                 ...    
2019-11-05    256.360352
2019-11-06    256.470001
2019-11-07    259.429993
2019-11-08    260.140015
2019-11-11    262.200012
2019-11-12    261.959991
2019-11-13    264.470001
2019-11-14    262.640015
2019-11-15    265.760010
2019-11-18    265.233398
Name: Adj Close, Length: 2488, dtype: float64

取出四只股票代码和价格，通过字典生成一个DataFrame

其中字典的key值来自与all_data里面的key值

value值是all_data里面DataFrame的一列

这里用的是Adj Close

In [112]:
# 取出价格生成一个DataFrame
price = pd.DataFrame({ticker: data['Adj Close'] 
                      for ticker, data in all_data.items()})
price

Unnamed: 0_level_0,AAPL,IBM,MSFT,GOOG
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2009-12-31,26.193771,95.862190,24.072418,308.832428
2010-01-04,26.601469,96.997330,24.443624,312.204773
2010-01-05,26.647457,95.825584,24.451517,310.829926
2010-01-06,26.223597,95.203102,24.301458,302.994293
2010-01-07,26.175119,94.873573,24.048725,295.940735
2010-01-08,26.349140,95.825584,24.214581,299.885956
2010-01-11,26.116703,94.822289,23.906574,299.432648
2010-01-12,25.819624,95.576599,23.748617,294.137512
2010-01-13,26.183823,95.371521,23.969755,292.448822
2010-01-14,26.032179,96.894806,24.451517,293.823669


取出四只股票当日成交量

In [113]:
volume = pd.DataFrame({ticker: data['Volume'] for ticker,
                       data in all_data.items()})
volume

Unnamed: 0_level_0,AAPL,IBM,MSFT,GOOG
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2009-12-31,88102700.0,4223400.0,31929700.0,2448700.0
2010-01-04,123432400.0,6155300.0,38409100.0,3927000.0
2010-01-05,150476200.0,6841400.0,49749600.0,6031900.0
2010-01-06,138040000.0,5605300.0,58182400.0,7987100.0
2010-01-07,119282800.0,5840600.0,50559700.0,12876600.0
2010-01-08,111902700.0,4197200.0,51197400.0,9483900.0
2010-01-11,115557400.0,5730400.0,68754700.0,14479800.0
2010-01-12,148614900.0,8081500.0,65912100.0,9742900.0
2010-01-13,151473000.0,6455400.0,51863500.0,13041800.0
2010-01-14,108223500.0,7111800.0,63228100.0,8511900.0


计算股价变动百分比

In [114]:
returns = price.pct_change()
returns.tail()

Unnamed: 0_level_0,AAPL,IBM,MSFT,GOOG
Date,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
2019-11-12,-0.000915,0.000886,0.00657,-0.0003
2019-11-13,0.009582,-0.008186,0.001632,-0.000616
2019-11-14,-0.006919,-0.003569,0.005091,0.01037
2019-11-15,0.011879,0.002985,0.0129,0.01785
2019-11-18,-0.001982,-0.002902,-0.003534,-0.008986


算了两列的相关性

In [116]:
returns['MSFT'].corr(returns['IBM'])

0.4906562644244645

算两列的协方差

In [117]:
returns['MSFT'].cov(returns['IBM'])

8.738668052033956e-05

也可以写成下面这种形式

In [118]:
returns.MSFT.corr(returns.IBM)

0.4906562644244645

返回四只股票价格变动之间的相关性矩阵

In [119]:
returns.corr()

Unnamed: 0,AAPL,IBM,MSFT,GOOG
AAPL,1.0,0.385371,0.457399,0.464563
IBM,0.385371,1.0,0.490656,0.406842
MSFT,0.457399,0.490656,1.0,0.540978
GOOG,0.464563,0.406842,0.540978,1.0


返回四只股票的协方差矩阵

In [120]:
returns.cov()

Unnamed: 0,AAPL,IBM,MSFT,GOOG
AAPL,0.000265,7.8e-05,0.000107,0.000117
IBM,7.8e-05,0.000153,8.7e-05,7.8e-05
MSFT,0.000107,8.7e-05,0.000207,0.00012
GOOG,0.000117,7.8e-05,0.00012,0.000239


如果想要每只股票与IBM股价的相关性

In [121]:
returns.corrwith(returns.IBM)

AAPL    0.385371
IBM     1.000000
MSFT    0.490656
GOOG    0.406842
dtype: float64

成交量与价格变化百分比的相关性

In [122]:
returns.corrwith(volume)

AAPL   -0.065362
IBM    -0.157569
MSFT   -0.090185
GOOG   -0.019751
dtype: float64

### 5.3.2 Unique Values, Value Counts, and Membership

唯一值，计数和成员属性

看看这几个方法就行

In [124]:
import pandas as pd

obj = pd.Series(['c', 'a', 'd', 'a', 'a', 'b', 'b', 'c', 'c'])
obj

0    c
1    a
2    d
3    a
4    a
5    b
6    b
7    c
8    c
dtype: object

In [125]:
# 去掉Series里面的重复值，每个元素留一个
uniques = obj.unique()
uniques

array(['c', 'a', 'd', 'b'], dtype=object)

In [126]:
# 计算包含值的个数，默认按数量由多到少排序
obj.value_counts()

a    3
c    3
b    2
d    1
dtype: int64

In [128]:
# 这个是没排序还是怎么着
pd.value_counts(obj.values, sort=True)

a    3
c    3
b    2
d    1
dtype: int64

In [129]:
# 判断，判断值是不是在这个位置
mask = obj.isin(['b', 'c'])
mask ## 返回布尔值

0     True
1    False
2    False
3    False
4    False
5     True
6     True
7     True
8     True
dtype: bool

In [131]:
obj[mask] # 使用布尔值索引

0    c
5    b
6    b
7    c
8    c
dtype: object

In [137]:
to_match = pd.Series(['c', 'a', 'b', 'b', 'c', 'a','d'])
to_match

0    c
1    a
2    b
3    b
4    c
5    a
6    d
dtype: object

In [138]:
unique_vals = pd.Series(['c', 'b', 'a'])
unique_vals

0    c
1    b
2    a
dtype: object

In [141]:
# Index.get_indexer方法，可以提供一个索引数组
# 将可能非唯一值的数组转换为另一个唯一值数组？？？
pd.Index(unique_vals).get_indexer(to_match)

array([ 0,  2,  1,  1,  0,  2, -1], dtype=int64)

这是个什么鬼？？呼叫场外救援！！！

N大佬：

In [140]:
l = list(unique_vals)
for x in to_match:
    if x in l:
        print(l.index(x))
    else:
        print(-1)

0
2
1
1
0
2
-1


[0 to_match[0]为c 在unique_vals索引为0 

 2 to_match[1]为a 在unique_vals索引为2 
 
 1 to_match[2]为b 在unique_vals索引为1 
 
 1 to_match[3]为b 在unique_vals索引为1 
 
 0 to_match[4]为c 在unique_vals索引为0 
 
 2 to_match[5]为a 在unique_vals索引为2 
 
要是元素不存在 比如unique_vals = pd.Series(['e'])
索引就为-1

### 表 5-9：唯一值、计数和集合成员属性方法

isin 值在不在，返回布尔值

match 计算数组每个值的索引，形成一个唯一值数组

unique 计算Series值中唯一值数组，按照观察顺序返回
 
valu_counts 返回一个Series，索引是唯一值序列，值是计数个数，按照个数降序排序


In [142]:
# 计算多个列的直方图
data = pd.DataFrame({'Qu1': [1, 3, 4, 3, 4],
                     'Qu2': [2, 3, 1, 2, 3],
                     'Qu3': [1, 5, 2, 4, 4]})
data

Unnamed: 0,Qu1,Qu2,Qu3
0,1,2,1
1,3,3,5
2,4,1,2
3,3,2,4
4,4,3,4


In [143]:
# 行标签，12345是各种不同的值
# 对应的值则是在某列出现的次数
# 如，1在Qu1里面出现了了一次
result = data.apply(pd.value_counts).fillna(0)
result

Unnamed: 0,Qu1,Qu2,Qu3
1,1.0,1.0,1.0
2,0.0,2.0,1.0
3,2.0,2.0,0.0
4,2.0,0.0,2.0
5,0.0,0.0,1.0


旋转，跳跃！耶第五章结束了哈哈哈哈！