# 第八讲 Pandas #


[Pandas](https://pandas.pydata.org/)是SciPy生态下的重要Python第三方库。

[发展简史](https://pandas.pydata.org/about/)

![](https://pandas.pydata.org/static/img/pandas.svg)

#### Library Highlights

- A fast and efficient **DataFrame** object for data manipulation with integrated indexing;

- Tools for **reading and writing data** between in-memory data structures and different formats: CSV and text files, Microsoft Excel, SQL databases, and the fast HDF5 format;

- Intelligent **data alignment** and integrated handling of **missing data**: gain automatic label-based alignment in computations and easily manipulate messy data into an orderly form;

- Flexible **reshaping** and pivoting of data sets;

- Intelligent label-based **slicing**, **fancy indexing**, and **subsetting** of large data sets;

- Columns can be inserted and deleted from data structures for **size mutability**;

- Aggregating or transforming data with a powerful **group by** engine allowing split-apply-combine operations on data sets;

- High performance **merging and joining** of data sets;

- **Hierarchical axis indexing** provides an intuitive way of working with high-dimensional data in a lower-dimensional data structure;

- **Time series**-functionality: date range generation and frequency conversion, moving window statistics, date shifting and lagging. Even create domain-specific time offsets and join time series without losing data;

- Highly **optimized for performance**, with critical code paths written in Cython or C.

- Python with pandas is in use in a wide variety of **academic and commercial** domains, including Finance, Neuroscience, Economics, Statistics, Advertising, Web Analytics, and more.

In [2]:
import numpy as np
import pandas as pd
import matplotlib
import seaborn

Pandas基于NumPy实现，常与Numpy和Matplotlib一同使用。

Pandas下有两个重要的数据类型，Series 、DataFrame，并支持基于Series和DataFrame的各类操作，包括基本操作，运算操作，特征类操作，关联类操作。

NumPy|Pandas
:--|:--
基础数据类型ndarray|基于np.array的扩展数据类型 Series 、DataFrame
关注数据的结构表达（即数据之间的维度表达）|关注数据的应用表达（如何提取、运算）
维度：数据之间|数据与索引间关系

## 第一部分 Series类型

Series类型由一组数据及与之相关的数据索引组成。

索引|————|数据
:--|-:-|--:
index_0|————|data_a
index_1|————|data_b
index_2|————|data_c
index_3|————|data_d



In [3]:
from pandas import Series

### 1. 基本概念

- Series可看成一个定长的有序字典，通过shape,size,index,values可得到其属性

- 可通过head(),tail()快速查看其对象样式

- 当索引没有对应值时，显示NaN

- 检测缺失数据：pd.isnull(),pd.notnull或自带的isnull(),notnull()

- Series对象本身及其索引都有一个name值

### 2. Series类型的创建

Series类型可以由如下类型创建(数据源的维度必须是一维）：

#### 2.1 列表

In [4]:
a = Series([1, 2, 3, 4, 5])  #自动索引和Numpy中的数据类型
print('shape: ', a.shape)
print('size: ', a.size)
print('index: ', a.index)
print('values: ', a.values)
print('name: ', a.name)
a

shape:  (5,)
size:  5
index:  RangeIndex(start=0, stop=5, step=1)
values:  [1 2 3 4 5]
name:  None


0    1
1    2
2    3
3    4
4    5
dtype: int64

In [8]:
b = Series([90,89,86,84, 82],index=['Python','Java','C','C#', 'Ruby']) #自定义索引
b.name = 'programme language'

print('shape: ', b.shape)
print('size: ', b.size)
print('index: ', b.index)
print('values: ', b.values)
print('name: ', b.name)


shape:  (5,)
size:  5
index:  Index(['Python', 'Java', 'C', 'C#', 'Ruby'], dtype='object')
values:  [90 89 86 84 82]
name:  programme language


#### 2.2 标量值

In [10]:
s = Series(25)  
s

0    25
dtype: int64

#### 2.3 字典

In [280]:
d = Series({'a':9,'b':8,'c':7})# 用字典创建，键变为原来值的索引
d

a    9
b    8
c    7
dtype: int64

In [11]:
e = Series({'a':9,'b':8,'c':7},index=['c','a','b','d'])#通过index指定Series结构
e

c    7.0
a    9.0
b    8.0
d    NaN
dtype: float64

#### 2.4 ndarray

In [12]:
n = Series(np.arange(5))
n

0    0
1    1
2    2
3    3
4    4
dtype: int32

In [283]:
m = Series(np.arange(5),index=np.arange(9,4,-1))
m

9    0
8    1
7    2
6    3
5    4
dtype: int32

#### 2.5 其他函数

如range()

In [284]:
o = Series(range(5),index=np.arange(9,4,-1))
o

9    0
8    1
7    2
6    3
5    4
dtype: int32

### 3. Series类型的基本操作

Series类型包括index和values(ndarray)两部分，其操作类似于np.ndarray类型和Python字典类型。

Series的基本操作包括索引、切片等。

#### 3.1 索引

In [13]:
b = Series([90,89,86,84, 82],index=['Python','Java','C','C#', 'Ruby']) #自定义索引
b

Python    90
Java      89
C         86
C#        84
Ruby      82
dtype: int64

In [14]:
b.index #获得索引

Index(['Python', 'Java', 'C', 'C#', 'Ruby'], dtype='object')

In [15]:
b.values #获得数据

array([90, 89, 86, 84, 82], dtype=int64)

Series类型实际上是将Numpy中的ndarray类型作为保留值，并在内部新建立index类型。

index类型和numpy中的ndarray类型结合到一起就是Series类型。

In [17]:
b['Python'] 

90

In [18]:
b[2]

86

**两套索引**

虽然用户自定义了索引，但Series自动生成的索引也存在。两套索引并存但不能混用。

自动索引|自定义索引|值
:--|:--|:--
0|'Python'|90
1|'Java'|89
2|'C'|86
3|'C#'|84
4|'Ruby'|82

In [290]:
b[['Python', 'C', 4]]  #多个索引要放在一个列表里

Python    90.0
C         86.0
4          NaN
dtype: float64

In [291]:
b[['C#', 'Java', 'C']]

C#      84
Java    89
C       86
dtype: int64

Series类型的操作类似ndarray类型

如：

    1. 索引方法相同，采用[]；
    2. NumPy中运算和操作可用于Series类型。
    3. 可以通过自定义索引的列表进行切片。
    4. 可以通过自动索引进行切片，如果存在自定义索引，则一同被切片。切片后仍然是Series类型

In [19]:
b = Series([90,89,86,84, 82],index=['Python','Java','C','C#', 'Ruby']) #自定义索引
b

Python    90
Java      89
C         86
C#        84
Ruby      82
dtype: int64

In [20]:
b[3]

84

In [294]:
b[:3]

Python    90
Java      89
C         86
dtype: int64

In [21]:
b[b>b.median()]    #中位数为86

Python    90
Java      89
dtype: int64

In [296]:
np.exp(b)

Python    1.220403e+39
Java      4.489613e+38
C         2.235247e+37
C#        3.025077e+36
Ruby      4.093997e+35
dtype: float64

Series类型的操作与Python字典类型也有类似之处

如：

    1. 通过自定义索引访问
    2. 保留字in操作。不会判断自动索引，只会判断自定义索引
    3. 使用.get()方法

In [297]:
b = Series([90,89,86,84, 82],index=['Python','Java','C','C#', 'Ruby']) #自定义索引
b

Python    90
Java      89
C         86
C#        84
Ruby      82
dtype: int64

In [298]:
b['C']

86

In [23]:
'Go' in b  #'Java'是否是b中索引的一部分

False

In [300]:
0 in b # 判断 0 是否在用户自定义索引中

False

In [301]:
b.get('Go',100) # 从b中提取索引‘f’ 对应的值，如果不存在就返回100

100

#### 3.2 对齐

数据对齐是数据清洗的重要过程，可以按索引对齐进行运算，如果没对齐的位置则补NaN，最后也可以填充NaN

实现方式：Series+Series

Series类型在运算中会自动对齐不同索引的数据，这种运算更加精确，更不容易出错。

In [24]:
s1 = Series(range(10, 20), index = range(10))
s2 = Series(range(20, 25), index = range(5))

print('s1: ')
print(s1)
print()
print('s2: ')
print(s2)

s1: 
0    10
1    11
2    12
3    13
4    14
5    15
6    16
7    17
8    18
9    19
dtype: int64

s2: 
0    20
1    21
2    22
3    23
4    24
dtype: int64


In [25]:
s1 + s2

0    30.0
1    32.0
2    34.0
3    36.0
4    38.0
5     NaN
6     NaN
7     NaN
8     NaN
9     NaN
dtype: float64

#### 3.3 Name属性

Series对象和索引都可以有一个名字，存在属性.name中

In [27]:
b.name='编程语言评分'  #可以认为是对象的名字，也可认为是对象对应值的名字
b.index.name='索引列'
b

索引列
Python    90
Java      89
C         86
C#        84
Ruby      82
Name: 编程语言评分, dtype: int64

#### 3.4 Series类型的修改

Series对象可以随时修改并即刻生效

In [28]:
b['Python']=15
b.name='Series'
b

索引列
Python    15
Java      89
C         86
C#        84
Ruby      82
Name: Series, dtype: int64

In [306]:
b.name='New series'
b['C','C#']=20
b

索引列
Python    15
Java      89
C         20
C#        20
Ruby      82
Name: New series, dtype: int64

## 第二部分 DataFrame类型

### 1. 基础知识

Series是Pandas库中的一维数据类型，DataFrame是Pandas库中的二维数据类型，是由共用相同索引的一组列组成，即索引加多列数据构成。

![](https://img-blog.csdnimg.cn/2019090815143997.png)

DataFrame是一个类似于关系型数据库的表格数据类型，每列值类型可以不同。

DataFrame既可以做行索引，也可以做列索引。

DataFrame常用于表达二维数据，也可以表达多维数据。

### 2. DataFrame类型的创建

#### 2.1 可以从二维ndarray对象创建

In [29]:
from pandas import DataFrame

In [30]:
d = DataFrame(np.arange(10).reshape(2,5))
d  #可以看出DataFrame是原始数据增加横向和纵向的索引构成。

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9


#### 2.2 可以从一维ndarray对象字典创建

In [309]:
dt = {'one':pd.Series([1,2,3],index=['a','b','c']),
    'two':pd.Series([9,8,7,6],index=['a','b','c','d'])}
d = DataFrame(dt)
d     #字典中的键自动成为了列索引

Unnamed: 0,one,two
a,1.0,9
b,2.0,8
c,3.0,7
d,,6


In [310]:
DataFrame(dt,index=['b','c','d'],columns=['two','three']) #three列不存在，自动补齐

Unnamed: 0,two,three
b,8,
c,7,
d,6,


#### 2.3 可以从列表类型字典创建

In [311]:
d1 = {'one':[1,2,3,4],'two':[9,8,7,6]}
d = DataFrame(d1,index = ['a','b','c','d'])
d

Unnamed: 0,one,two
a,1,9
b,2,8
c,3,7
d,4,6


【例】新冠疫情数据

In [32]:
d1 = {'疫情地区':['香港','湖北','台湾','上海','北京'],
    '新增':[24, 0, 10, 2, 0],
    '现有':[694, 518, 311, 143, 131],
    '累计':[914, 67803, 373, 538, 587],
    '治愈':[216, 64073, 57, 389, 448],
    '死亡':[4, 3212, 5, 6, 8]}
d = DataFrame(d1,index=['c1','c2','c3','c4','c5'])
d #字典是无序的，所以对象d中列之间的关系并不和字典给出的顺序相同

Unnamed: 0,疫情地区,新增,现有,累计,治愈,死亡
c1,香港,24,694,914,216,4
c2,湖北,0,518,67803,64073,3212
c3,台湾,10,311,373,57,5
c4,上海,2,143,538,389,6
c5,北京,0,131,587,448,8


In [33]:
d.index

Index(['c1', 'c2', 'c3', 'c4', 'c5'], dtype='object')

In [34]:
d.columns

Index(['疫情地区', '新增', '现有', '累计', '治愈', '死亡'], dtype='object')

In [35]:
d.values

array([['香港', 24, 694, 914, 216, 4],
       ['湖北', 0, 518, 67803, 64073, 3212],
       ['台湾', 10, 311, 373, 57, 5],
       ['上海', 2, 143, 538, 389, 6],
       ['北京', 0, 131, 587, 448, 8]], dtype=object)

In [36]:
d['现有']  #每一列是Series对象

c1    694
c2    518
c3    311
c4    143
c5    131
Name: 现有, dtype: int64

In [63]:
d['c1', axis=1]

SyntaxError: invalid syntax (<ipython-input-63-8e6fcfc38958>, line 1)

In [39]:
d.iloc[2]   #依据行列值，生成对应行列的Series对象，切片

疫情地区     台湾
新增       10
现有      311
累计      373
治愈       57
死亡        5
Name: c3, dtype: object

In [40]:
d.loc[:, '现有']   #依据行列名，生成对应行列的Series对象，切片

c1    694
c2    518
c3    311
c4    143
c5    131
Name: 现有, dtype: int64

In [41]:
d['现有']['c2']

518

### 3. 对Series和DataFrame的操作

如何改变Series和DataFrame对象？

#### 3.1 增加或重排：重新索引

方法： .reindex()能够改变或重排Series和DataFrame索引

In [47]:
c = d.reindex(index=['c3','c2','c4','c5','c1'])
c

Unnamed: 0,疫情地区,新增,现有,累计,治愈,死亡
c3,台湾,10,311,373,57,5
c2,湖北,0,518,67803,64073,3212
c4,上海,2,143,538,389,6
c5,北京,0,131,587,448,8
c1,香港,24,694,914,216,4


In [44]:
c = c.reindex(columns=['疫情地区','现有','死亡'])
c

Unnamed: 0,疫情地区,现有,死亡
c3,台湾,311,5
c2,湖北,518,3212
c4,上海,143,6
c5,北京,131,8
c1,香港,694,4


.reindex(index=None，columns=None,…)的参数

参数|说明
:--|:--
index, columns|新的行列自定义索引
fill_value|重新索引中，用于填充缺失位置的值
method|填充方法, ffill当前值向前填充，bfill向后填充
limit|最大填充量
copy|默认True，生成新的对象，False时，新旧相等不复制

In [51]:
#newc = c.columns.insert(4,'国别')  #行索引加一个
newc = d.reindex(columns=newc,fill_value='中国')
newc

Unnamed: 0,疫情地区,新增,现有,累计,国别,治愈,死亡
c1,香港,24,694,914,中国,216,4
c2,湖北,0,518,67803,中国,64073,3212
c3,台湾,10,311,373,中国,57,5
c4,上海,2,143,538,中国,389,6
c5,北京,0,131,587,中国,448,8


In [53]:
newc.index

Index(['c1', 'c2', 'c3', 'c4', 'c5'], dtype='object')

In [54]:
newc.columns

Index(['疫情地区', '新增', '现有', '累计', '国别', '治愈', '死亡'], dtype='object')

Series和DataFrame的索引是index类型

Index对象是不可修改的类型

索引类型的常用方法

方法|说明
:--|:--
.append(idx)|连接另一个Index对象，产生新的Index对象
.diff(idx)|计算差集，产生新的Index对象
.intersection(idx)|计算交集
.union(idx)|计算并集
.delete(loc)|删除loc位置处的元素
.insert(loc,e)|在loc位置增加一个元素e

In [324]:
c

Unnamed: 0,疫情地区,现有,死亡
c5,北京,131,8
c4,上海,143,6
c3,台湾,311,5
c2,湖北,518,3212
c1,香港,694,4


#### 3.2 删除指定索引对象

.drop()能够删除Series和DataFrame指定行或列索引

In [55]:
a = Series([1,3,5,7],index=['a','b','c','d'])
a

a    1
b    3
c    5
d    7
dtype: int64

In [56]:
a.drop(['b','c'])

a    1
d    7
dtype: int64

In [57]:
newc

Unnamed: 0,疫情地区,新增,现有,累计,国别,治愈,死亡
c1,香港,24,694,914,中国,216,4
c2,湖北,0,518,67803,中国,64073,3212
c3,台湾,10,311,373,中国,57,5
c4,上海,2,143,538,中国,389,6
c5,北京,0,131,587,中国,448,8


In [58]:
newc.drop('c5')

Unnamed: 0,疫情地区,新增,现有,累计,国别,治愈,死亡
c1,香港,24,694,914,中国,216,4
c2,湖北,0,518,67803,中国,64073,3212
c3,台湾,10,311,373,中国,57,5
c4,上海,2,143,538,中国,389,6


In [59]:
newc

Unnamed: 0,疫情地区,新增,现有,累计,国别,治愈,死亡
c1,香港,24,694,914,中国,216,4
c2,湖北,0,518,67803,中国,64073,3212
c3,台湾,10,311,373,中国,57,5
c4,上海,2,143,538,中国,389,6
c5,北京,0,131,587,中国,448,8


In [65]:
newc.drop('c1')  #如果没有axis=1，则默认操作0轴上的元素


Unnamed: 0,疫情地区,新增,现有,累计,国别,治愈,死亡
c2,湖北,0,518,67803,中国,64073,3212
c3,台湾,10,311,373,中国,57,5
c4,上海,2,143,538,中国,389,6
c5,北京,0,131,587,中国,448,8


## 第三部分 利用Pandas库进行数据分析

### 1. 基础知识

#### 1.1 数据分析流程与Pandas 

数据分析从流程上看，包括以下部分：
    1. 分析设计
    2. 数据收集
    3. 数据清洗
    4. 数据整理
    5. 描述统计
    6. 建模分析
    7. 可视化
    8. 形成结论

Pandas可以用于从数据清洗到建模分析的许多环节。

#### 1.2 对数据分析的理解

数据分析的过程是降维的过程。如一组数据：

a = {3.141, 3.1398, 3.1404, 3.1401, 3.1349, 3.1376}

一组数据表达一个或多个含义

统计分析的过程，也可以理解为“摘要”的过程，即从数据种抽象出一些特征，这个过程是有损的。

通过统计分析我们能获得数据的：

* 基本统计（含排序）
* 分布/累计统计
* 数据特征(相关性，周期性等)
* 数据挖掘（形成知识）

在这个过程中，我们经常使用的方法包括数据运算、排序、统计描述、相关、回归等。

In [330]:
import numpy as np
import pandas as pd

### 2. 数据运算

包括算术运算和比较运算两大类

#### 2.1 算术运算

算术运算根据行列索引，补齐后运算，运算默认产生浮点数。

补齐时缺项填充NaN（空值）

二维和一维、一维和零维间为广播运算

采用+ - * / 符号进行的二元运算产生新的对象

In [66]:
a = DataFrame(np.arange(12).reshape(3,4))
a

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [67]:
b = DataFrame(np.arange(20).reshape(4,5))
b

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
3,15,16,17,18,19


In [72]:
c = a + b   #一个矩阵缺项就补为NaN
print(c)
print(c.index)

      0     1     2     3   4
0   0.0   2.0   4.0   6.0 NaN
1   9.0  11.0  13.0  15.0 NaN
2  18.0  20.0  22.0  24.0 NaN
3   NaN   NaN   NaN   NaN NaN
Int64Index([0, 1, 2, 3], dtype='int64')


In [69]:
a * b

Unnamed: 0,0,1,2,3,4
0,0.0,1.0,4.0,9.0,
1,20.0,30.0,42.0,56.0,
2,80.0,99.0,120.0,143.0,
3,,,,,


数据类型的算术运算的方法

方法|说明
:--|:--
.add(d, \*\*argws)|类型间加法运算，可选参数
.sub(d, \*\*argws)|类型间减法运算，可选参数
.mul(d, \*\*argws)|类型间乘法运算，可选参数
.div(d, \*\*argws)|类型间除法运算，可选参数

In [335]:
a = DataFrame(np.arange(12).reshape(3,4))
a

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [336]:
b = DataFrame(np.arange(20).reshape(4,5))
b

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
3,15,16,17,18,19


In [337]:
b.add(a,fill_value=100)  # fill_value参数替代NaN，替代后参与运算，也就是缺值用100补

Unnamed: 0,0,1,2,3,4
0,0.0,2.0,4.0,6.0,104.0
1,9.0,11.0,13.0,15.0,109.0
2,18.0,20.0,22.0,24.0,114.0
3,115.0,116.0,117.0,118.0,119.0


In [338]:
a.mul(b,fill_value=0)  #相乘

Unnamed: 0,0,1,2,3,4
0,0.0,1.0,4.0,9.0,0.0
1,20.0,30.0,42.0,56.0,0.0
2,80.0,99.0,120.0,143.0,0.0
3,0.0,0.0,0.0,0.0,0.0


In [74]:
b= DataFrame(np.arange(20).reshape(4,5))
b

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,5,6,7,8,9
2,10,11,12,13,14
3,15,16,17,18,19


In [75]:
c = Series(np.arange(4))
c

0    0
1    1
2    2
3    3
dtype: int32

In [341]:
c - 10  #广播，不同维度间的运算会作用到高维的每一个元素上


0   -10
1    -9
2    -8
3    -7
dtype: int32

In [76]:
b - c   #同理，也是广播    b中每一行和c相减

Unnamed: 0,0,1,2,3,4
0,0.0,0.0,0.0,0.0,
1,5.0,5.0,5.0,5.0,
2,10.0,10.0,10.0,10.0,
3,15.0,15.0,15.0,15.0,


不同维度间为广播运算，一维Series默认在轴1参与运算

要在零轴参与运算，需指定axis=0

In [343]:
b.sub(c,axis=0)

Unnamed: 0,0,1,2,3,4
0,0,1,2,3,4
1,4,5,6,7,8
2,8,9,10,11,12
3,12,13,14,15,16


#### 2.2 比较运算

比较运算只能比较相同索引的元素，不进行补齐。 (只能同维度运算，尺寸一致)

二维和一维、一维和零维间为广播运算。默认在1轴。

采用> < >= <= == != 等符号进行的二元运算产生布尔对象。

In [77]:
a = DataFrame(np.arange(12).reshape(3,4)) 
a

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [78]:
d = DataFrame(np.arange(12,0,-1).reshape(3,4))
d

Unnamed: 0,0,1,2,3
0,12,11,10,9
1,8,7,6,5
2,4,3,2,1


In [79]:
a>d  #必须同维度，不进行填充

Unnamed: 0,0,1,2,3
0,False,False,False,False
1,False,False,False,True
2,True,True,True,True


In [80]:
a==d

Unnamed: 0,0,1,2,3
0,False,False,False,False
1,False,False,True,False
2,False,False,False,False


In [81]:
a = DataFrame(np.arange(12).reshape(3,4)) 
a

Unnamed: 0,0,1,2,3
0,0,1,2,3
1,4,5,6,7
2,8,9,10,11


In [82]:
c = Series(np.arange(4))
c

0    0
1    1
2    2
3    3
dtype: int32

In [83]:
a > c #不同维度，广播运算，默认在1轴

Unnamed: 0,0,1,2,3
0,False,False,False,False
1,True,True,True,True
2,True,True,True,True


In [84]:
c > 0

0    False
1     True
2     True
3     True
dtype: bool

### 3. 数据排序

#### 3.1 Pandas库的数据排序

- **按索引排序**

DataFrame.sort_index(axis=0,ascending=True) 

在指定轴上根据索引进行排序，默认升序,ascending指递增排序。

In [92]:
b = DataFrame(np.arange(20).reshape(4,5),index=['c','a','d','b'])
b

Unnamed: 0,0,1,2,3,4
c,0,1,2,3,4
a,5,6,7,8,9
d,10,11,12,13,14
b,15,16,17,18,19


In [90]:
c = b.sort_index()  #默认在0轴进行操作
c

Unnamed: 0,0,1,2,3,4
a,5,6,7,8,9
b,15,16,17,18,19
c,0,1,2,3,4
d,10,11,12,13,14


In [91]:
c = c.sort_index(axis=1 ,ascending=False)
c

Unnamed: 0,4,3,2,1,0
a,9,8,7,6,5
b,19,18,17,16,15
c,4,3,2,1,0
d,14,13,12,11,10


- **按值排序**

.sort_values()方法在指定轴上根据数值进行排序，默认升序

DataFrame.sort_values(by,axis=0,ascending=True)

by: axis轴上的某个索引或索引列表

Series.sort_values(axis=0,ascending=True)

In [93]:
c = b.sort_values(2,ascending=False) #按第二列数据降序排列
c

Unnamed: 0,0,1,2,3,4
b,15,16,17,18,19
d,10,11,12,13,14
a,5,6,7,8,9
c,0,1,2,3,4


In [94]:
c = c.sort_values('a',axis=1,ascending=False)
c

Unnamed: 0,4,3,2,1,0
b,19,18,17,16,15
d,14,13,12,11,10
a,9,8,7,6,5
c,4,3,2,1,0


In [95]:
a = DataFrame(np.arange(12).reshape(3, 4), index=['a', 'b', 'c'])
a

Unnamed: 0,0,1,2,3
a,0,1,2,3
b,4,5,6,7
c,8,9,10,11


In [96]:
b = DataFrame(np.arange(20).reshape(4, 5), index=['d', 'c', 'b', 'a'])
b

Unnamed: 0,0,1,2,3,4
d,0,1,2,3,4
c,5,6,7,8,9
b,10,11,12,13,14
a,15,16,17,18,19


In [97]:
c = a + b
c

Unnamed: 0,0,1,2,3,4
a,15.0,17.0,19.0,21.0,
b,14.0,16.0,18.0,20.0,
c,13.0,15.0,17.0,19.0,
d,,,,,


In [98]:
c.sort_values(axis=0, by=2, ascending=False) #NaN统一放到排序的末尾

Unnamed: 0,0,1,2,3,4
a,15.0,17.0,19.0,21.0,
b,14.0,16.0,18.0,20.0,
c,13.0,15.0,17.0,19.0,
d,,,,,


In [99]:
c.sort_values(axis=0, by=2, ascending=True) #NaN统一放到排序的末尾

Unnamed: 0,0,1,2,3,4
c,13.0,15.0,17.0,19.0,
b,14.0,16.0,18.0,20.0,
a,15.0,17.0,19.0,21.0,
d,,,,,


### 4. 基本统计分析

#### 4.1 基本的统计分析函数

适用于Series和DataFrame类型

方法|说明
:--|:--
.sum()|计算数据的总和，按0轴计算，下同
.count()|非NaN值的数量
.mean() .median()|计算数据的算术平均值、算术中位数
.var() .std()|计算数据的方差、标准差
.min() .max()|计算数据的最小值、最大值
.describe()|针对0轴（各列）的统计汇总

适用于Series类型

方法|说明
:--|:--
.argmin() .argmax()|计算数据最大值、最小值所在位置的索引位置（自动索引）
.idxmin() .idxmax()|计算数据最大值、最小值所在位置的索引（自定义索引）


In [100]:
a = Series([9,8,7,6],index=['a','b','c','d'])
a

a    9
b    8
c    7
d    6
dtype: int64

In [101]:
a.describe()

count    4.000000
mean     7.500000
std      1.290994
min      6.000000
25%      6.750000
50%      7.500000
75%      8.250000
max      9.000000
dtype: float64

In [102]:
type(a.describe())

pandas.core.series.Series

In [103]:
a.describe()['count']

4.0

In [104]:
a.describe()['max']

9.0

In [105]:
b = DataFrame(np.arange(20).reshape(4,5),index=['c','a','d','b'])
b.describe()

Unnamed: 0,0,1,2,3,4
count,4.0,4.0,4.0,4.0,4.0
mean,7.5,8.5,9.5,10.5,11.5
std,6.454972,6.454972,6.454972,6.454972,6.454972
min,0.0,1.0,2.0,3.0,4.0
25%,3.75,4.75,5.75,6.75,7.75
50%,7.5,8.5,9.5,10.5,11.5
75%,11.25,12.25,13.25,14.25,15.25
max,15.0,16.0,17.0,18.0,19.0


In [106]:
type(b.describe())

pandas.core.frame.DataFrame

In [107]:
b.describe().ix['max']  #  以Series对象返回

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#ix-indexer-is-deprecated
  """Entry point for launching an IPython kernel.


0    15.0
1    16.0
2    17.0
3    18.0
4    19.0
Name: max, dtype: float64

In [108]:
b.describe()[2]

count     4.000000
mean      9.500000
std       6.454972
min       2.000000
25%       5.750000
50%       9.500000
75%      13.250000
max      17.000000
Name: 2, dtype: float64

#### 4.2 累计统计分析

适用于Series 和 DataFrame类型

方法|说明
:--|:--
.cumsum()|依次给出前1、2、…、n个数的和
.cumprod()|依次给出前1、2、…、n个数的积
.cummax()|依次给出前1、2、…、n个数的最大值
.cummin()|依次给出前1、2、…、n个数的最小值

In [109]:
b = DataFrame(np.arange(20).reshape(4,5),index=['c','a','d','b'])
b

Unnamed: 0,0,1,2,3,4
c,0,1,2,3,4
a,5,6,7,8,9
d,10,11,12,13,14
b,15,16,17,18,19


In [112]:
b.cumsum(axis=0)  #以列为单位，计算每个元素前面的累加和

Unnamed: 0,0,1,2,3,4
c,0,1,2,3,4
a,5,7,9,11,13
d,15,18,21,24,27
b,30,34,38,42,46


In [113]:
b.cumprod()  #乘积

Unnamed: 0,0,1,2,3,4
c,0,1,2,3,4
a,0,6,14,24,36
d,0,66,168,312,504
b,0,1056,2856,5616,9576


In [114]:
b.cummin()

Unnamed: 0,0,1,2,3,4
c,0,1,2,3,4
a,0,1,2,3,4
d,0,1,2,3,4
b,0,1,2,3,4


In [115]:
b.cummax()

Unnamed: 0,0,1,2,3,4
c,0,1,2,3,4
a,5,6,7,8,9
d,10,11,12,13,14
b,15,16,17,18,19


适用于Series和DataFrame类型。

滚动计算（窗口计算），依次计算w相邻的元素的统计值

方法|说明
:--|:--
.rolling(w).sum()|依次计算相邻w个元素的和
.rolling(w).mean()|依次计算相邻w个元素的算术平均值
.rolling(w).var()|依次计算相邻w个元素的方差
.rolling(w).std()|依次计算相邻w个元素的标准差
.rolling(w).min() .max()|依次计算相邻w个元素的最小值和最大值

In [116]:
b = DataFrame(np.arange(20).reshape(4,5), index=['d', 'c', 'b', 'a'])
b

Unnamed: 0,0,1,2,3,4
d,0,1,2,3,4
c,5,6,7,8,9
b,10,11,12,13,14
a,15,16,17,18,19


In [117]:
b.rolling(2).sum()# 在纵向上以两个元素为单位，做相关的求和运算。

Unnamed: 0,0,1,2,3,4
d,,,,,
c,5.0,7.0,9.0,11.0,13.0
b,15.0,17.0,19.0,21.0,23.0
a,25.0,27.0,29.0,31.0,33.0


In [118]:
b.rolling(3).sum()

Unnamed: 0,0,1,2,3,4
d,,,,,
c,,,,,
b,15.0,18.0,21.0,24.0,27.0
a,30.0,33.0,36.0,39.0,42.0


#### 4.3 数据的相关分析

相关分析： 两个事物，表示为X,Y，如何判断他们之间存在相关性？

相关性
X增大，Y增大，两个变量正相关。
X增大，Y减小，两个变量负相关。
X增大，Y无视，两个变量不相关。

如何度量俩个变量的相关性?

协方差方法：

$$cov(X, Y) = \frac{\sum_{i=1}^{n}{(X_i - \overline{X})(Y_i - \overline{Y})}}{n-i}$$

协方差>0，X和Y正相关。
协方差<0，X和Y负相关。
协方差=0，X和Y独立无关。

Peason相关系数

$$r = \frac{\sum_{i=1}^{n}{(x_i - \overline{x})(y_i - \overline{y})}}{\sqrt{\sum_{i=1}^{n}{(x_i-\overline{x})^2}}\sqrt{\sum_{i=1}^{n}{(y_i-\overline{y})^2}}}$$

r的取值范围\[-1,1\].
|r|：
0.8-1.0 极强相关
0.6-0.8 强相关
0.4-0.6 中等程度相关
0.2-0.4 弱相关
0-0.2 极弱相关或不相关

相关分析函数

方法|说明
:--|:--
.cov()|计算协方差矩阵
.corr()|计算相关系数矩阵, Pearson、Spearman、Kendall等系数

【例】世界各国总储蓄与GDP是否相关？

总储蓄指可支配总收入用于最终消费后的余额。国民总储蓄指各部门的总储蓄之和。总储蓄和居民储蓄的概念不同，总储蓄是宏观的概念，是可支配收入减去最终消费后，用于一个国家或地区投资资金的主要来源。

GDP是国内生产总值, Gross Domestic Product的缩写。它指一个国家或地区在一定时期内生产活动(最终产品和服务)的总量,是衡量经济规模和发展水平最重要的方法之一。

In [119]:
saving = pd.Series([6.29, 3.82, 1.39, 1.16, 0.84] ,index=['中国','美国','日本','德国','印度'])

gdp = pd.Series([13.61, 20.54, 4.97, 3.95, 2.72],index=['中国','美国','日本','德国','印度'])

print('corr:', saving.corr(gdp))

print('cov:', saving.cov(gdp))

corr: 0.7585573365786231
cov: 13.55295
