Pandas是建立在Numpy之上的一个包，它提供了DataFrame的实现。DataFrame本质上是一个多维数组，并且为行和列提供了标签，它里面经常出现异构的类型和缺失的数据。它同样也为标签化的数据提供了存储的接口。Pandas同时也提供了一系列类似数据库和Excel的操作。

In [31]:
import pandas as pd
pd.__version__

'0.20.3'

# Series

Pandas的Series是一个拥有索引数据的一维数组.

In [3]:
data = pd.Series([0.25, 0.5, 0.75, 1.0])
data

0    0.25
1    0.50
2    0.75
3    1.00
dtype: float64

series包括了一串值和一串索引, 我们可以使用values和index属性去访问他们:

In [4]:
data.values

array([ 0.25,  0.5 ,  0.75,  1.  ])

In [5]:
data.index

RangeIndex(start=0, stop=4, step=1)

In [6]:
data[1] # 数据可以通过这种熟悉的方式进行访问

0.5

In [7]:
data[1:3]

1    0.50
2    0.75
dtype: float64

### Series作为广义的Numpy数组

numpy数组有一个隐式定义的整型索引, 它可以用来访问值. Pandas Series有一个显示定义的索引, 它和值有着关联.  
而且这个索引不必非得是整数, 它可以是任何类型的.

In [8]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=['a', 'b', 'c', 'd'])
data

a    0.25
b    0.50
c    0.75
d    1.00
dtype: float64

甚至可以使用非连续的索引:

In [10]:
data = pd.Series([0.25, 0.5, 0.75, 1.0], index=[2, 5, 4, 9])
data

2    0.25
5    0.50
4    0.75
9    1.00
dtype: float64

### Series作为特种的dictionary

Series是这种结构映射了固定类型的key和固定类型的value. 这个类型很重要.  
针对特定的操作, Pandas Series的类型信息使它比Python的dictionary更高效.

In [12]:
population_dict = {'California': 3833521, 'Texas': 26448193, 'New York': 19651127, 'Florida': 19552860, 'Illinois': 12882135}
population = pd.Series(population_dict)
population

California     3833521
Florida       19552860
Illinois      12882135
New York      19651127
Texas         26448193
dtype: int64

默认情况下, Series创建的时候它的索引来自于sorted keys. 所以, 典型的python dictionary样式的值访问可以被执行.

In [13]:
population['California']

3833521

Series同样支持数组样式的操作, 例如slicing(切割):

### 创建Series对象

pd.Series(data, index=index)  
data可以是一个list或者numpy数组, 这种情况下索引就是整数序列.

In [16]:
pd.Series([2, 4, 6])

0    2
1    4
2    6
dtype: int64

data也可以是一个标量, 它将重复的填满指定的索引:

In [17]:
pd.Series(4, index=[100, 200, 300])

100    4
200    4
300    4
dtype: int64

data也可以是一个dictionary, 这时索引就是sorted keys:

In [18]:
pd.Series({2: 'a', 1: 'b', 3: 'c'})

1    b
2    a
3    c
dtype: object

如果想要不同的结果, 可以指定具体的索引:

In [19]:
pd.Series({2: 'a', 1: 'b', 3: 'c'}, index=[3, 2])

3    c
2    a
dtype: object

# DataFrame

DataFrame可以被理解为广义的numpy数组或者特种的python dictionary.  
### DataFrame作为广义的Numpy数组
如果说Series像是一个具有灵活索引的一维数组, 那么DataFrame就像是一个二维数组, 它同时具有灵活的行索引和列名.  
就像你可以把二维数组想象为一个有序并且对齐的一维的列的集合, 你可以把DataFrame想象为一堆对齐的Series对象的序列. 这里的对齐是指拥有相同的index.

In [20]:
area_dict = {'California': 423967, 'Texas': 695662, 'New York': 141297, 'Florida': 170312, 'Illinois': 149995}
area = pd.Series(area_dict)
area

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
dtype: int64

可以使用dictionary来组建一个二维的对象, 它包含着这些信息

In [22]:
states = pd.DataFrame({'population': population, 'area': area})
states

Unnamed: 0,area,population
California,423967,3833521
Florida,170312,19552860
Illinois,149995,12882135
New York,141297,19651127
Texas,695662,26448193


DataFrame有一个index属性可以用来访问index标签:

In [23]:
states.index

Index(['California', 'Florida', 'Illinois', 'New York', 'Texas'], dtype='object')

DataFrame还有一个columns属性, 它是一个存着列标签的索引对象:

In [24]:
states.columns

Index(['area', 'population'], dtype='object')

### DataFrame作为特种的dictionary

DataFrame把列的名字映射到一个Sereis的列数据:

In [25]:
states['area']

California    423967
Florida       170312
Illinois      149995
New York      141297
Texas         695662
Name: area, dtype: int64

这里可能会有一个混淆: 二维的numpy数组data[0]将会返回第一行.  
而对于DataFrame来说, data['col0']将返回第一列.

### 组建DataFrame对象

**从一个Series对象**. DataFrame是一堆Series对象的集合, 一个单列的DataFrame可以从一个单独的Series创建:

In [26]:
pd.DataFrame(population, columns=['population'])

Unnamed: 0,population
California,3833521
Florida,19552860
Illinois,12882135
New York,19651127
Texas,26448193


**从一个由dictionary组成的list**. 任意由dictionary组成的list都可以毁成一个DataFrame.

In [27]:
data = [{'a': i, 'b': 2 * i} for i in range(3)]
pd.DataFrame(data)

Unnamed: 0,a,b
0,0,0
1,1,2
2,2,4


如果dictionary里面找不到相应的key, 那么Pandas会把它们自动填充为NaN:

In [28]:
pd.DataFrame([{'a': 1, 'b': 2}, {'b': 3, 'c': 4}])

Unnamed: 0,a,b,c
0,1.0,2,
1,,3,4.0


**从由Series对象组成的dictionary建立**:

In [29]:
pd.DataFrame({'population': population, 'area': area})

Unnamed: 0,area,population
California,423967,3833521
Florida,170312,19552860
Illinois,149995,12882135
New York,141297,19651127
Texas,695662,26448193


**从二维numpy数组建立**. 给定一个二维数组, 我们可以创建一个DataFrame, 并可以指定列和索引的名字. 如果没有指定的话, 将会使用整数索引:

In [32]:
import numpy as np
pd.DataFrame(np.random.rand(3, 2), columns=['foo', 'bar'], index=['a', 'b', 'c'])

Unnamed: 0,foo,bar
a,0.110461,0.496665
b,0.177446,0.120871
c,0.889511,0.478265


**从numpy结构化数组建立**. Pandas DataFrame操作起来很像一个结构化数组, 所以可以直接从一个结构化数组建立一个DataFrame:

In [33]:
A = np.zeros(3, dtype=[('A', 'i8'), ('B', 'f8')])
A

array([(0,  0.), (0,  0.), (0,  0.)],
      dtype=[('A', '<i8'), ('B', '<f8')])

In [34]:
pd.DataFrame(A)

Unnamed: 0,A,B
0,0,0.0
1,0,0.0
2,0,0.0


# Pandas Index 对象

Series和DataFrame对象都包含明确的索引可以用来引用和修改数据. 这个索引对象(Index)可以理解为不可变数组或者排序好的set(实际上是多set, Index对象可能含有重复的值).  
例如从一个整数list来组建索引:

In [37]:
ind = pd.Index([2, 3, 5, 7, 11])
ind

Int64Index([2, 3, 5, 7, 11], dtype='int64')

### Index作为不可变数组

Index对象操作起来很多方面都很像数组, 例如可以使用索引符号来获取值或者切片:

In [38]:
ind[1]

3

In [39]:
ind[::2]

Int64Index([2, 5, 11], dtype='int64')

Index对象还有很多numpy数组中类似的属性:

In [40]:
print(ind.size, ind.shape, ind.ndim, ind.dtype)

5 (5,) 1 int64


Index对象和numpy数组的一个区别是: Index索引是不可变的.   
这样做就报错了:

In [41]:
ind[1] = 0

TypeError: Index does not support mutable operations

### Index作为排序好的Set

Index对象遵从python内置的set数据结构的操作, 例如像并集union, 交集intersection, 差异difference等以及其它类似方式的合并操作.

In [43]:
indA = pd.Index([1, 3, 5, 7, 9])
indB = pd.Index([2, 3, 5, 7, 11])
indA & indB # 交集

Int64Index([3, 5, 7], dtype='int64')

In [44]:
indA | indB # 并集

Int64Index([1, 2, 3, 5, 7, 9, 11], dtype='int64')

In [45]:
indA ^ indB # 对称差

Int64Index([1, 2, 9, 11], dtype='int64')

这些操作也可以使用对象的方法来进行, 例如:

In [46]:
indA.intersection(indB)

Int64Index([3, 5, 7], dtype='int64')