In [2]:
import numpy as np
import pandas as pd

## 查看Series

In [5]:
# 创建pandas之Series
data = pd.Series([1.25,2,3.9,0.12],index = ['a','b','c','d'])
data

a    1.25
b    2.00
c    3.90
d    0.12
dtype: float64

### 将Series当做字典

In [7]:
# 获得Series的索引可以利用字典的方法keys()
data.index

Index(['a', 'b', 'c', 'd'], dtype='object')

In [12]:
data.keys()

Index(['a', 'b', 'c', 'd'], dtype='object')

In [19]:
# items()是方法，不是属性，记住是items()
list(data.items())

[('a', 1.25), ('b', 2.0), ('c', 3.9), ('d', 0.12)]

In [21]:
# 新增一个索引并赋值
data['e'] = 5
data

a    1.25
b    2.00
c    3.90
d    0.12
e    5.00
dtype: float64

### 将Series当做一维数组

将Series当做一维数组后，就具有了一维数组的特性，索引，切片，掩码，花俏的索引，索引器等方法

另外，特别重要的地方就是Series可以支持显示索引形式获取，并且切片的时候是支持最后一位的，如果是隐式索引则不包含最后一位。

In [22]:
# 索引
data[1]

2.0

In [23]:
# 隐式切片
data[0:2]

a    1.25
b    2.00
dtype: float64

In [24]:
# 显示切片
data['a':'c']

a    1.25
b    2.00
c    3.90
dtype: float64

In [26]:
# 掩码
data[(data < 3) & (data > 1)]

a    1.25
b    2.00
dtype: float64

#### 通过上面可以注意到，掩码形式是用元组

In [27]:
# 花俏的索引
data[['b','d']]

b    2.00
d    0.12
dtype: float64

#### 通过上面花俏的索引可以知道，花俏的索引是获取固定某几个值，这几个值是用List形式传递的

- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 
如果把Series的显示索引定义为数字，那么： 

取值data[1],走的是显示索引  

切片data[1:3],走的是隐式索引 

这样显示索引，隐式索引容易弄混，索引引入了 **索引器**

* loc 完全走显示索引
* iloc 完全走隐式索引
* ix 则是显示和隐式混合的形式


## 查看DataFrame

类似于Series，DataFrame也可以以字典和二维数组形式查看数据

In [30]:
# 以字典形式将两个Series创建为dataFrame
population_dict = {'California':456456,
                  'Texas':4685874,
                  'New York':754787}
population = pd.Series(population_dict)

area_dict = {'California':456,
                  'Texas':74,
                  'New York':787}
area = pd.Series(area_dict)

state = pd.DataFrame({'pop':population,'area':area})
state

Unnamed: 0,pop,area
California,456456,456
Texas,4685874,74
New York,754787,787


### DataFrame以字典形式查看数据

可以通过**属性**或者**索引**形式获取数据

In [31]:
# 属性
state.pop

<bound method NDFrame.pop of                 pop  area
California   456456   456
Texas       4685874    74
New York     754787   787>

In [32]:
# 索引
state['pop']

California     456456
Texas         4685874
New York       754787
Name: pop, dtype: int64

有时以**属性**形式获取数据并不通用，例如，列名非纯字符串，列名与现有方法函数同名，所以规范用索引形式获取数据

#### DataFrame与Series类似，以指定索引形式增加一列数据并赋值

In [34]:
state['density'] = state['pop'] / state['area']
state

Unnamed: 0,pop,area,density
California,456456,456,1001.0
Texas,4685874,74,63322.621622
New York,754787,787,959.068615


### 以二维数组形式查看数据

In [35]:
state.values

array([[4.56456000e+05, 4.56000000e+02, 1.00100000e+03],
       [4.68587400e+06, 7.40000000e+01, 6.33226216e+04],
       [7.54787000e+05, 7.87000000e+02, 9.59068615e+02]])

In [37]:
# 行列转换
state.T

Unnamed: 0,California,Texas,New York
pop,456456.0,4685874.0,754787.0
area,456.0,74.0,787.0
density,1001.0,63322.62,959.068615


**DataFrame 也同样支持（显示/隐式）索引，后面的必须依赖索引器：（显示/隐式）切片，花俏的索引，掩码，掩码+选列**

In [42]:
# 写法回忆
# DataFrame用索引形式只能获取一列，其他方式必须依赖索引器

state['pop']

California     456456
Texas         4685874
New York       754787
Name: pop, dtype: int64

In [44]:
# loc 以显示索引形式查看数据
# iloc以隐式索引形式查看数据
# ix以混合形式查看数据

# 注意 loc,iloc，ix都是以列表形式获取，先行后列

In [47]:
# 显示索引
state.loc[:'Texas',:'area']

Unnamed: 0,pop,area
California,456456,456
Texas,4685874,74


In [52]:
# 隐式索引
state.iloc[:1,:1]

Unnamed: 0,pop
California,456456


In [53]:
# 混合模式
state.ix[:2,:'area']

.ix is deprecated. Please use
.loc for label based indexing or
.iloc for positional indexing

See the documentation here:
http://pandas.pydata.org/pandas-docs/stable/indexing.html#ix-indexer-is-deprecated
  


Unnamed: 0,pop,area
California,456456,456
Texas,4685874,74


In [54]:
# 掩码+花俏的索引
state.loc[state.density>2000,['pop','area']]

Unnamed: 0,pop,area
Texas,4685874,74


#### DataFrame特殊注意点，对单标签操作是对列操作，对多标签操作则是对行标签操作,不能用单个隐式索引操作DataFrame