[TOC]

# C5 Get started with pandas(pandas 入门)

In [1]:
from pandas import Series, DataFrame
import pandas as pd

In [2]:
from numpy.random import randn
import numpy as np
np.set_printoptions(precision = 4)
# 这句set_printoptons是确定numpy中的浮点数、数组、其他numpy的对象是如何显示的。precision浮点数的精度
np.random.seed(12345)
# seed( ) 用于指定随机数生成时所用算法开始的整数值，如果使用相同的seed( )值，则每次生成的随即数都相同，如果不设置这个值，则系统根据时间来自己选择这个值，此时每次生成的随机数因时间差异而不同。

In [3]:
%pwd

'C:\\workspace'

In [4]:
%cd .\pydata\ch06

C:\workspace\pydata\ch06


## 5.1 pandas 数据结构介绍(Introduction to pandas data structures)

Series 是一种类似于一维数组的对象， 由一组数据以及一组数据标签（索引）组成

In [5]:
obj = Series([4, 5, 8, -9])
obj

0    4
1    5
2    8
3   -9
dtype: int64

In [6]:
obj.values

array([ 4,  5,  8, -9], dtype=int64)

In [7]:
obj.index

Int64Index([0, 1, 2, 3], dtype='int64')

In [8]:
# 创建一个可以对各个数据点进行标记的索引
obj2 = Series([4, 5, 8, -9], index = ['d', 'b', 'c', 'a'])
obj2

d    4
b    5
c    8
a   -9
dtype: int64

In [9]:
# 可以通过索引对Series进行取值或者赋值
obj2['d'] = 6

In [11]:
obj2[['c', 'b','d']]

c    8
b    5
d    6
dtype: int64

In [12]:
np.exp(obj2)

d     403.428793
b     148.413159
c    2980.957987
a       0.000123
dtype: float64

In [16]:
'b' in obj2
#只能对索引

True

In [15]:
'8' in obj2

False

In [18]:
sdata = {'Ohio': 35000, 'Texas': 71000, 'Oregon': 16000, 'Utah': 5000}
obj3 = Series(sdata)
obj3

Ohio      35000
Oregon    16000
Texas     71000
Utah       5000
dtype: int64

In [19]:
states = ['California', 'Ohio', 'Oregon', 'Texas']
obj4 = Series(sdata, index = states)
obj4

California      NaN
Ohio          35000
Oregon        16000
Texas         71000
dtype: float64

In [20]:
# pandas 的isnull和notnull函数可用于检测缺失数据
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [21]:
# Series也有类似的实例方法
obj4.isnull()

California     True
Ohio          False
Oregon        False
Texas         False
dtype: bool

In [22]:
# Series 最重要的一个功能 ，  在算术运算中会自动对齐不同索引的数据
obj3 + obj4

California       NaN
Ohio           70000
Oregon         32000
Texas         142000
Utah             NaN
dtype: float64

### Series对象、其索引的 name属性

In [24]:
obj4.name = 'population'
obj4.index.name = 'state'
obj4

state
California      NaN
Ohio          35000
Oregon        16000
Texas         71000
Name: population, dtype: float64

In [25]:
# Series 可以通过赋值的方式修改
obj.index = ['Bob', 'Steve', 'Jeff', 'Ry']
obj

Bob      4
Steve    5
Jeff     8
Ry      -9
dtype: int64

## 5.2 DateFrame
表格型的数据结构，一组有序的列，列可以是不同的值类型。  
有 行索引 列索引  
以二维结构保存数据  
但是 高纬度数据的层次化索引的表格型结构的保存也很轻松  

In [27]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
        'year': [2000, 2001, 2002, 2001, 2002],
        'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
frame = DataFrame(data)
frame

Unnamed: 0,pop,state,year
0,1.5,Ohio,2000
1,1.7,Ohio,2001
2,3.6,Ohio,2002
3,2.4,Nevada,2001
4,2.9,Nevada,2002


In [28]:
# DataFrame 的索引是有序的，可以按照指定的列序列进行排列
DataFrame(data, columns = ['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9


- 和Series一样，如果传入的列在数据中无数据，就会产生NA值

In [29]:
frame2 = DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                   index=['one', 'two', 'three', 'four', 'five'])
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


In [31]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

In [36]:
# 字典标记 和属性的方法，都可以将DataFrame 的列获取为一个Series
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [37]:
frame2.state

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

- 行和列有些不一样，但可以通过位置或名称的方式获取
- 比如通过索引字段ix

In [40]:
frame2.ix['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

In [42]:
frame2.ix[2]

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

- 列可以通过赋值的方式修改

In [43]:
frame2['debt'] = 16.5
frame2
frame2['debt'] = np.arange(5.)
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0
two,2001,Ohio,1.7,1
three,2002,Ohio,3.6,2
four,2001,Nevada,2.4,3
five,2002,Nevada,2.9,4


In [44]:
# 当赋值出现空位时，空位将会填上缺失值(NaN)
val = Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt'] = val
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7


In [47]:
# 为不存在的列赋值会创建一个新列
l = frame2.state == 'Ohio'
frame2['eastern'] = l
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False


In [48]:
# 删除列 del 
del frame2['eastern']
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7


- **通过索引方式返回的列只是相应数据的视图，不是副本。因此，对返回的Series做的任何修改，都会反映到源DataFrame上。通过Series的copy方法可以显式的复制列**

### 嵌套字典
外层字典的键作为列  
内层字典的键作为行

In [49]:
pop = {'Nevada': {2001: 2.4, 2002: 2.9},
       'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}
frame3 = DataFrame(pop)
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [50]:
# 转置
frame3.T

Unnamed: 0,2000,2001,2002
Nevada,,2.4,2.9
Ohio,1.5,1.7,3.6


### 可以输入给DataFrame构造器的数据
书本123页

- DataFrame 的index 和 columns的name属性与 Series的差不多

### values属性
以二维ndarray的形式返回

In [51]:
frame3.values

array([[ nan,  1.5],
       [ 2.4,  1.7],
       [ 2.9,  3.6]])

### 索引对象(Index objects)

In [52]:
obj = Series(range(3), index = ['a', 'b', 'c'])
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [53]:
index[1:]

Index(['b', 'c'], dtype='object')

#### **Index对象是不可修改的(immutable)**

正是因为不可修改性，才能使Index对象在多个数据结构之间安全共享
Index类
P125

In [54]:
index[1] = 'd'

TypeError: Index does not support mutable operations

#### Index 的方法和属性

|方法|说明|
|-----|-----|
| append| 连接另一个Index对象，产生一个新的Index|

测试Markdown表格，其他见 126

## 5.3 Essential functionality（pandas 基本功能）

### Reindexing（重新索引）
*reindex*方法：创建一个适应新索引的新对象
- 重新排序
- method 选项

In [55]:
obj = Series([4.5, 7.2, -5.3, 3.6], index=['d', 'b', 'a', 'c'])
obj

d    4.5
b    7.2
a   -5.3
c    3.6
dtype: float64

In [57]:
# 调用reindex将会根据新索引进行冲排，如果某个索引值当前不存在，进入缺失值
obj2 = obj.reindex(['a', 'b', 'c', 'd', 'e'])
obj2

a   -5.3
b    7.2
c    3.6
d    4.5
e    NaN
dtype: float64

In [58]:
obj3 = Series(['blue', 'purple', 'yellow'], index=[0, 2, 4])
obj3.reindex(range(6), method='ffill')

0      blue
1      blue
2    purple
3    purple
4    yellow
5    yellow
dtype: object

|参数| 说明|  
|:-----:|:-----|  
|ffill 或 pad | 前向填充（或搬运）值|  
|bfill 或 backfill | 后向填充（或搬运）值|