In [4]:
import numpy as np
import pandas as pd

# 支持多行输出
from IPython.core.interactiveshell import InteractiveShell
InteractiveShell.ast_node_interactivity = "all"


几点说明：

* 管pandas采用了很多NumPy的代码风格，但最大的不同在于pandas是用来处理表格型或异质型数据的。而NumPy则相反，它更适合处理同质型的数值类数组数据。
* pandas 在2010年成为了开源项目，到目前已经逐渐成熟
* 导入方式：`import pandas as pd`

## pandas数据结构介绍

为了入门pandas，你需要熟悉两个常用的工具数据结构：`Series` 和 `DataFrame`。

### Series

Series 是一种一维的 **数组型对象（ndarray）**，它包含了一个值序列（与NumPy中的类型相似），并且包含了数据标签，称为 **索引**（**index**）。

* 索引不需要是唯一的，但必须是可以 hash 的
* 索引可以为整数，也可以是标签（文本？）

最简单的序列可以仅仅由一个数组形成：

In [2]:
obj = pd.Series([4, 7, -5, 3])
obj

0    4
1    7
2   -5
3    3
dtype: int64

上面在创建 Series 时，没有指定 `index`，默认生成的索引是从0到N-1（N是数据的长度）。

#### 常见属性

* `index`：索引
* `values`：值
* `shape`：行列数

In [8]:
obj.index  # 索引

obj.values  # 值

obj.shape  # 行列数

RangeIndex(start=0, stop=4, step=1)

array([ 4,  7, -5,  3], dtype=int64)

(4,)

#### 指定索引 `index`

通常需要创建一个索引序列，用标签标识每个数据

In [28]:
obj = pd.Series([4, 7, -5, 3], index=['d', 'b', 'a', 'c'])
obj

d    4
b    7
a   -5
c    3
dtype: int64

#### 用标签选取数据

可以使用标签进行索引，从数据中选取数据

In [15]:
obj['a']

obj[['a', 'c']]

-5

a   -5
c    3
dtype: int64

#### 数学运算

In [19]:
obj

obj * 2

d    4
b    7
a   -5
c    3
dtype: int64

d     8
b    14
a   -10
c     6
dtype: int64

In [20]:
obj

obj + obj

d    4
b    7
a   -5
c    3
dtype: int64

d     8
b    14
a   -10
c     6
dtype: int64

#### 用布尔数组过滤

In [18]:
obj

obj[obj > 0]

d    4
b    7
a   -5
c    3
dtype: int64

d    4
b    7
c    3
dtype: int64

In [22]:
obj

obj[(obj < 0) | (obj > 4)]

d    4
b    7
a   -5
c    3
dtype: int64

b    7
a   -5
dtype: int64

#### 应用 NumPy 数学函数

In [26]:
np.sum(obj)

np.mean(obj)

9

2.25

#### Series 也可认为是字典

从另一个角度考虑Series，可以认为它是一个长度固定且有序的字典，因为它 **将索引值和数据值按位置配对**。

在你可能会使用字典的上下文中，也可以使用Series：

In [31]:
obj

'a' in obj

'e' in obj

d    4
b    7
a   -5
c    3
dtype: int64

True

False

如果你已经有数据包含在Python字典中，你可以使用字典生成一个Series

In [32]:
data = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj = pd.Series(data)
obj

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

从上面可以看出，当把字典传递给Series构造函数时，产生的Series的索引将是排序好的字典键。

那如何指定索引的顺序呢？

可以将字典键按照你所想要的顺序，通过 `index` 传递给构造函数，从而使生成的Series的索引顺序符合你的预期：

In [33]:
states = ['California', 'Ohio', 'Oregon', 'Texas']

obj = pd.Series(data, index=states)
obj

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

上面的例子中，可以看出：

* `data` 中的三个值被放置在正确的位置
* 'Utah'并不在 `states` 中，它被排除在结果对象外
* 因为'California'没有出现在 `data` 的键中，它对应的值是 `NaN`（not a number），这是pandas中标记缺失值或NA值的方式。


**pandas中使用 `isnull` 和 `notnull` 函数来检查缺失数据**

使用 `pd` 顶层方法

In [35]:
obj

pd.isnull(obj)

pd.notnull(obj)

California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
dtype: float64

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

使用 `Series` 实例方法

In [36]:
obj.isnull()

obj.notnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

California    False
Ohio           True
Oregon         True
Texas          True
dtype: bool

#### `name` 属性

Series 对象自身和其索引都有 `name` 属性，这个特性与 pandas 其他重要功能集成在一起

In [38]:
obj.name = 'population'
obj.index.name = 'state'

obj

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Texas         71000.0
Name: population, dtype: float64

#### 修改索引

Series的索引可以通过按位置赋值的方式进行改变

In [39]:
obj.index = list('ABCD')

obj

A        NaN
B    35000.0
C    16000.0
D    71000.0
Name: population, dtype: float64

### DataFrame

* DataFrame 表示的是 **矩阵** 的数据表，它包含已排序的列集合，每一列可以是不同的值类型（数值、字符串、布尔值等）。
* DataFrame 既有 **行索引** 也有 **列索引**，它可以被视为一个共享相同索引的 Series 的字典

有多种方式可以构建DataFrame，其中最常用的方式是利用包含等长度列表或NumPy数组的字典来形成DataFrame

In [42]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002, 2003],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}
df = pd.DataFrame(data)

产生的DataFrame会自动为Sereies分配索引，并且列会按照排序的顺序排列

In [43]:
df

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


#### 查看/检查数据

* `index`：行索引
* `columns`：列索引
* `values`：值
* `shape`：行列数

In [47]:
df.index

df.columns

df.values

df.shape

RangeIndex(start=0, stop=6, step=1)

Index(['state', 'year', 'pop'], dtype='object')

array([['Ohio', 2000, 1.5],
       ['Ohio', 2001, 1.7],
       ['Ohio', 2002, 3.6],
       ['Nevada', 2001, 2.4],
       ['Nevada', 2002, 2.9],
       ['Nevada', 2003, 3.2]], dtype=object)

(6, 3)

* `info()`：索引、数据类型与内存信息
* `describe()`：对数值列的汇总统计

In [48]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6 entries, 0 to 5
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype  
---  ------  --------------  -----  
 0   state   6 non-null      object 
 1   year    6 non-null      int64  
 2   pop     6 non-null      float64
dtypes: float64(1), int64(1), object(1)
memory usage: 272.0+ bytes


In [49]:
df.describe()

Unnamed: 0,year,pop
count,6.0,6.0
mean,2001.5,2.55
std,1.048809,0.836062
min,2000.0,1.5
25%,2001.0,1.875
50%,2001.5,2.65
75%,2002.0,3.125
max,2003.0,3.6


* `head(n)`：开头 n 行数据
* `tail(n)`：最后 n 行数据

In [52]:
df.head()

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


In [50]:
df.head(3)

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6


In [51]:
df.tail(3)

Unnamed: 0,state,year,pop
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


#### 指定列的顺序

可以通过 `columns` 来指定列的顺序

In [54]:
data

pd.DataFrame(data, columns=['year', 'state', 'pop'])

{'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada', 'Nevada'],
 'year': [2000, 2001, 2002, 2001, 2002, 2003],
 'pop': [1.5, 1.7, 3.6, 2.4, 2.9, 3.2]}

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


如果你传的列不包含在字典中，将会在结果中出现缺失值

In [57]:
df2 = pd.DataFrame(data, 
                  columns=['year', 'state', 'pop', 'debt'],
                  index=['one', 'two', 'three', 'four', 'five', 'six'])
df2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


#### 选取数据

##### 选取列

In [60]:
df

df['state']

df.state

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

0      Ohio
1      Ohio
2      Ohio
3    Nevada
4    Nevada
5    Nevada
Name: state, dtype: object

In [61]:
df

df[['state', 'year']]

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


Unnamed: 0,state,year
0,Ohio,2000
1,Ohio,2001
2,Ohio,2002
3,Nevada,2001
4,Nevada,2002
5,Nevada,2003


##### 选取行

In [63]:
df.index = list('abcdef')
df

# 根据行的序号选取第 0 行
df.iloc[0]

# 根据行的标签选取第 0 行
df.loc['a']

Unnamed: 0,state,year,pop
a,Ohio,2000,1.5
b,Ohio,2001,1.7
c,Ohio,2002,3.6
d,Nevada,2001,2.4
e,Nevada,2002,2.9
f,Nevada,2003,3.2


state    Ohio
year     2000
pop       1.5
Name: a, dtype: object

state    Ohio
year     2000
pop       1.5
Name: a, dtype: object

In [65]:
# 选取前 3 行
df.iloc[:3]

Unnamed: 0,state,year,pop
a,Ohio,2000,1.5
b,Ohio,2001,1.7
c,Ohio,2002,3.6


In [70]:
df.iloc[0]

df.iloc[0, :]

df.iloc[0:1, :]

state    Ohio
year     2000
pop       1.5
Name: a, dtype: object

state    Ohio
year     2000
pop       1.5
Name: a, dtype: object

Unnamed: 0,state,year,pop
a,Ohio,2000,1.5


In [72]:
# 选取单个元素
df.iloc[0, 0]  # 第 1 元素

df.iloc[1, 2]

'Ohio'

1.7