In [2]:
import pandas

pandas.__version__

'0.20.3'

In [1]:
import pandas as pd

# Series
Series 是由索引数据组成的一维数组, 可以从list或者array创建

In [2]:
data  = pd.Series([.25, .5, .75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

可以通过values和index属性访问值和索引:

In [3]:
data.values

array([ 0.25,  0.5 ,  0.75,  1.  ])

values就是numpy array.

In [4]:
data.index

RangeIndex(start=0, stop=4, step=1)

index是一种类似数组的对象, 类型是pd.Index

可以通过索引来访问数据:

In [7]:
print(data[1])
print(data[1:3])

0.5
1    0.50
2    0.75
dtype: float64


### Series作为广义的Numpy数组
Numpy数组有隐式定义的整数索引, 而Series有显式定义的索引. Series的索引不必是整数, 可以是任何类型的数据.

In [8]:
data = pd.Series([.25, .5, .75, 1.0], index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

In [9]:
data['b']

0.5

Series可以使用非连续数据作为索引:

In [10]:
data = pd.Series([.25, .5, .75, 1.0], index=[2, 5, 3, 7])
data

2    0.25
5    0.50
3    0.75
7    1.00
dtype: float64

### Series作为特殊的Dictionary
Series有点像特种的python dictionary:  
dictionary可以使用任意类型的key和任意类型的value.  
而Series是使用特定类型的key和特定类型的value. 这个类型是很重要的, 这也使得Series比dictionary在某些操作上快很多.  
可以直接从dictionary构建Series:

In [12]:
population_dict = {'California': 38332521, 'Texas': 26441893, 'New York': 19651127, 'Florida': 19552860, 'Illinois': 12882135}
population = pd.Series(population_dict)
population

California    38332521
Florida       19552860
Illinois      12882135
New York      19651127
Texas         26441893
dtype: int64

默认情况下, Series创建的时候, index来自sorted keys.  
针对上面的例子, 就可以使用dictionary style的方式来访问数据:

In [13]:
population['California']

38332521

与dictionary不同, Series还支持array-style的操作, 例如切割:

In [14]:
population['California': 'Illinois']

California    38332521
Florida       19552860
Illinois      12882135
dtype: int64

### 构建Series对象
各种创建方式大多是这个方法 pd.Series(data, index=index) 的变形.  
data可以是list或者numpy array, index默认是整数序列.

* data是标量, 重复填充特定索引:

In [15]:
pd.Series(5, index=[100, 200, 400])

100    5
200    5
400    5
dtype: int64

* data是dictionary, index默认是sorted dictionary keys:

In [16]:
pd.Series({2: 'a', 1: 'b', 3: 'c'})

1    b
2    a
3    c
dtype: object

* 索引可以被显式的设置, 如果期待的是不同的结果的话:

In [17]:
pd.Series({2: 'a', 1: 'b', 3: 'c'}, index=[3, 2])

3    c
2    a
dtype: object

# DataFrame 对象
可以把DataFrame认为是广义的numpy数组或者特种的python dictionary.

### DataFrame作为广义的numpy 数组
如果说Series像具有灵活索引的一维数组的话, 那么DataFrame就像是拥有灵活的行和列索引的二维数组.  
就像可以把二维数组想象成列对齐的一维数组一样, 可以把DataFrame想象成对齐的Series对象组成的序列. 这里"对齐"是指它们具有同样的索引.  

使用我们之前的population Series, 我们可以使用一个dictionary来构建二维对象:

In [18]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297, 'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
states = pd.DataFrame({'population': population, 'area': area})
states

Unnamed: 0,area,population
California,423967,38332521
Florida,170312,19552860
Illinois,149995,12882135
New York,141297,19651127
Texas,695662,26441893


DataFrame有一个index属性可以访问index labels:

In [19]:
states.index

Index(['California', 'Florida', 'Illinois', 'New York', 'Texas'], dtype='object')

DataFrame还有一个columns属性, 它的类型是Index对象, 它包含着列的label:

In [20]:
states.columns

Index(['area', 'population'], dtype='object')

### DataFrame作为特种的dictionary