In [30]:
import numpy as np
from pandas import Series, DataFrame
import pandas as pd


## Series
### 构造实例

In [2]:
obj = Series([4, -1, 2, 9, 0])
obj

0    4
1   -1
2    2
3    9
4    0
dtype: int64

In [3]:
obj2 = Series([4, 7, -5, 3], index=['d', 'b','a','c'])
obj2

d    4
b    7
a   -5
c    3
dtype: int64

### 获取值或索引（以数组形式）

In [4]:
obj.values

array([ 4, -1,  2,  9,  0])

In [5]:
obj2.index

Index(['d', 'b', 'a', 'c'], dtype='object')

### 通过索引方式选取单个或一组值

In [6]:
obj2['a']

-5

In [7]:
obj2['d']=6

In [8]:
obj2[['c', 'a', 'd']]

c    3
a   -5
d    6
dtype: int64

### 数组运算
* 根据布尔型数据进行过滤，标量乘法、应用数学函数等
* 会保留索引和值之间的链接

In [9]:
obj2[obj2>2]

d    6
b    7
c    3
dtype: int64

In [10]:
obj2*2

d    12
b    14
a   -10
c     6
dtype: int64

### 可以看成字典
* 可以将Series看成是一个**定长**的**有序**字典
* 它可以用在许多原本需要字典参数的函数中
* 如果数据存放在一个字典中，也可以直接通过这个字典来创建Series

In [11]:
sdata = {'Ohio':35000, 'Texas': 71000, 'Oregon':16000, 'Utah': 5000}
obj3=Series(sdata)

In [12]:
obj3

Ohio      35000
Texas     71000
Oregon    16000
Utah       5000
dtype: int64

* 在用字典进行构造的时候也可以指定索引，构造函数会将与index参数中指定的索引匹配的值找出来并放到相应的位置上
* 如果找不到对应的索引，就将值赋为NaN

In [13]:
states=['California', 'Ohio', 'Oregon']
obj4 = Series(sdata, index=states)
obj4

California        NaN
Ohio          35000.0
Oregon        16000.0
dtype: float64

### 检测缺失数据
* 可以用isnull和notnull函数来检测缺失数据

In [14]:
pd.isnull(obj4)

California     True
Ohio          False
Oregon        False
dtype: bool

* Series也有类似的实例方法

In [15]:
obj4.isnull()

California     True
Ohio          False
Oregon        False
dtype: bool

### 数据对齐
* 在算术运算的时候会自动对齐相同索引的值

In [16]:
obj3+obj4

California        NaN
Ohio          70000.0
Oregon        32000.0
Texas             NaN
Utah              NaN
dtype: float64

### name属性
* Series对象本身及其索引都有一个name属性
* 暂时我也不知道干嘛的

In [17]:
obj4.name='population'
obj4.index.name='state'

In [18]:
obj4

state
California        NaN
Ohio          35000.0
Oregon        16000.0
Name: population, dtype: float64

## DataFrame
* 一组表格型的数据结构
* 含有一组有序的列，每列可以是不同的值类型
* 既有行索引（index）也有列索引

### 构造DF
* 直接传入一个由等长列表或NumPy数组组成的字典

In [19]:
data = {'state': ['Ohio', 'Ohio', 'Ohio', 'Nevada', 'Nevada'],
       'year': [2000, 2001, 2002, 2001, 2002],
       'pop': [1.5, 1.7, 3.6, 2.4, 2.9]}
frame = DataFrame(data)

In [20]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


* 在构造的时候可以指定列序列

In [21]:
DataFrame(data, columns=['year', 'state', 'pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9


* 如果传入的列在数据中找不到，就会产生NaN

In [22]:
frame2 = DataFrame(data, columns=['year', 'state', 'pop', 'debt'],
                  index=['one','two','three','four','five'])

In [23]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,


In [24]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

#### 还可以用嵌套字典构造DF（也就是字典的字典）
* 外层的键作为列索引（即列名），内层的键则作为行索引
* 内层的键会被合并、排序以形成最终的行索引；也可以显式地指定索引

In [39]:
pop = {'Nevada':{2001: 2.4, 2002: 2.9},
      'Ohio': {2000: 1.5, 2001: 1.7, 2002: 3.6}}
frame3 = DataFrame(pop)

In [40]:
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


### 获取列
* 获取的列为一个Series 
* 会保留行索引，同时也会设置其name属性（为原列索引）

In [25]:
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
Name: state, dtype: object

In [26]:
frame2.year

one      2000
two      2001
three    2002
four     2001
five     2002
Name: year, dtype: int64

### 修改列
* 可以通过赋值的方式修改列
* 可以赋上一个值或一组值

In [27]:
frame2['debt']=16.6

In [28]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.6
two,2001,Ohio,1.7,16.6
three,2002,Ohio,3.6,16.6
four,2001,Nevada,2.4,16.6
five,2002,Nevada,2.9,16.6


In [31]:
frame2['debt']=np.arange(5.)

In [32]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0.0
two,2001,Ohio,1.7,1.0
three,2002,Ohio,3.6,2.0
four,2001,Nevada,2.4,3.0
five,2002,Nevada,2.9,4.0


* 将列表或数组赋值给某个列时，其长度必须跟DF的长度相匹配
* 如果赋值的是一个Series，就会精确匹配DF的索引，空位会被填充NaN
* 为不存在的列赋值会创建出一个新列

In [33]:
val = Series([-1.2, -1.5, -1.7], index=['two', 'four', 'five'])
frame2['debt']=val

In [34]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7


* 关键字del用于删除列

In [35]:
frame2['eastern']=(frame2.state=='Ohio')

In [36]:
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False


In [37]:
del frame2['eastern']

In [38]:
frame2.columns

Index(['year', 'state', 'pop', 'debt'], dtype='object')

### 索引对象
* 负责管理轴标签和其他元数据（如轴名称等）
* 是immutable的

## 基本功能
