pandas其中常用的两个类：
* Series
* DataFrame

## 5.1.1 Series
series是一种一维数组型对象，它包含了一个值序列（与Numpy的中类型相似），并且包含了数据标签，成为索引（index）。

In [96]:
# 最简单的序列可以仅仅有一个数据形成。
import pandas as pd
ex = pd.Series([4,5,6,7,8])

由于未给数组添加索引，所以默认生成的索引时从0开始到N-1（N数组的长度）。

In [97]:
ex

0    4
1    5
2    6
3    7
4    8
dtype: int64

In [98]:
ex1 = pd.Series([1,2,3,4],index=['d','b','a','c'])

In [99]:
ex1.index  # 通过index属性，获得数组的索引

Index(['d', 'b', 'a', 'c'], dtype='object')

In [100]:
ex1.values  # 通过值属性获得数组的值

array([1, 2, 3, 4], dtype=int64)

In [101]:
ex1.dtype  # 获得数组的数据类型

dtype('int64')

In [102]:
ex1*2

d    2
b    4
a    6
c    8
dtype: int64

也可以认为Series是一个长度固定且有序的字典，因为它将索引值和数据值按位置配对。可以通过和字典相同的判断来查看是否相应的索引

In [103]:
'a' in ex1

True

**如果已经有数据在字典中，可以使用一个字典生成一个Series。**

In [104]:
sdata = {'a':100,'b':200,'c':300,'d':400,'e':500}

In [105]:
ex2 = pd.Series(sdata)

In [106]:
ex2

a    100
b    200
c    300
d    400
e    500
dtype: int64

In [107]:
2 in ex1

False

**与numpy相比，可以通过使用标签来进行索引。**

In [108]:
ex1['b']

2

如果我们对于上述出现的数组排序不满意，那么我们可以自定义数据索引，再次进行排序。

In [109]:
ex2_index = ['b','c','d','a','f']

In [110]:
ex2_1 = pd.Series(sdata,index=ex2_index)

In [111]:
ex2_1

b    200.0
c    300.0
d    400.0
a    100.0
f      NaN
dtype: float64

In [112]:
ex2_1.values

array([200., 300., 400., 100.,  nan])

上面我们可以看到，数组的顺序完全按照我们的写的索引顺序重新排列。由于sdata是带有索引的，在重新赋予索引的时候，会将符合ex2_index中所对应的值，取出来，如果ex2_index中的值，在sdata中的索引中并未出现，这时就会出现**‘NaN’**
* NaN是pandas中标记缺失值或NA值的方法。
* pandas中使用isnull和notnull函数来检查缺失数据

In [37]:
pd.isnull(ex2_1)

b    False
c    False
d    False
a    False
f     True
dtype: bool

In [38]:
pd.notnull(ex2_1)

b     True
c     True
d     True
a     True
f    False
dtype: bool

In [39]:
# isnull 和 notnull也是Seires的实例方法
ex2_1.isnull

<bound method Series.isnull of b    200.0
c    300.0
d    400.0
a    100.0
f      NaN
dtype: float64>

In [40]:
ex2.name = 'number'

In [41]:
ex2

a    100
b    200
c    300
d    400
e    500
Name: number, dtype: int64

## 5.1.2 DataFrame
DataFrame表示的是矩阵的 数据表，它包含已排序的列集合，每一列可以是不同的值类型（数值，字符串，布尔值等）。DataFrame既有行索引，也有列索引，它可以被视为一个共享相同索引的Series字典。

最常用的构建DataFrame是利用包含等长度列表或Numpy数组的字典来形成DataFrame

In [2]:
import pandas as pd
data = {'state':['Ohio','Ohio','Ohio','Nevada','Nevada','Nevada'],
       'year':[2000,2001,2002,2001,2002,2003],
        'pop':[1.5,1.7,3.6,2.4,2.9,3.2]
       }

In [4]:
frame = pd.DataFrame(data)

In [5]:
frame

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9
5,Nevada,2003,3.2


In [8]:
frame.head()  # 对于大型的DataFrame，head方法将会只选出头部的5行

Unnamed: 0,state,year,pop
0,Ohio,2000,1.5
1,Ohio,2001,1.7
2,Ohio,2002,3.6
3,Nevada,2001,2.4
4,Nevada,2002,2.9


**可以给DataFrame指定的列排列顺序。**

In [10]:
pd.DataFrame(data,columns=['year','state','pop'])

Unnamed: 0,year,state,pop
0,2000,Ohio,1.5
1,2001,Ohio,1.7
2,2002,Ohio,3.6
3,2001,Nevada,2.4
4,2002,Nevada,2.9
5,2003,Nevada,3.2


In [12]:
frame2 = pd.DataFrame(data,columns=['year','state','pop','debt'],
                     index = ['one','two','three','four','five','six'])

In [13]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,
five,2002,Nevada,2.9,
six,2003,Nevada,3.2,


**上面看到，在debt中没有数据，会出现NaN，因为我们传的列在字典中不存在。**

In [14]:
frame2.index

Index(['one', 'two', 'three', 'four', 'five', 'six'], dtype='object')

In [15]:
frame2['state']

one        Ohio
two        Ohio
three      Ohio
four     Nevada
five     Nevada
six      Nevada
Name: state, dtype: object

DataFrame中的一列，可以按字典类型标记或属性那样检索为‘Series’

In [16]:
frame2.year

one      2000
two      2001
three    2002
four     2001
five     2002
six      2003
Name: year, dtype: int64

**请注意，返回的Series与原DataFrame有相同的索引，且Series的name属性也会被合理地设置。**

行可以通过为止或者特殊属性loc进行选取。

In [17]:
frame2.loc['three']

year     2002
state    Ohio
pop       3.6
debt      NaN
Name: three, dtype: object

**列的引用可以修改的。例如，空的‘Debt’列可以赋值为标量值或值数组

In [18]:
frame2['debt'] = 16.5

In [19]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,16.5
two,2001,Ohio,1.7,16.5
three,2002,Ohio,3.6,16.5
four,2001,Nevada,2.4,16.5
five,2002,Nevada,2.9,16.5
six,2003,Nevada,3.2,16.5


In [20]:
frame2['debt'] = range(6)  # frame2['debt'] = np.arange(6) 

In [21]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,0
two,2001,Ohio,1.7,1
three,2002,Ohio,3.6,2
four,2001,Nevada,2.4,3
five,2002,Nevada,2.9,4
six,2003,Nevada,3.2,5


**当你将列表或数组赋值给一列时，值的长度必须和DataFrame的长度相匹配。如果将Series赋值给一列时，Series的索引将会按照DataFrame的索引重新排序，并在空缺的地方填充缺失值。**

In [22]:
val = pd.Series([-1.2,-1.5,-1.7],index=['two','four','five'])

In [23]:
frame2['debt']=val

In [24]:
frame2

Unnamed: 0,year,state,pop,debt
one,2000,Ohio,1.5,
two,2001,Ohio,1.7,-1.2
three,2002,Ohio,3.6,
four,2001,Nevada,2.4,-1.5
five,2002,Nevada,2.9,-1.7
six,2003,Nevada,3.2,


如果被赋值的列不存在，则会生成一个新的列，del关键字可以像在字典中那样对DataFrame删除列

In [32]:
frame2['eastern'] =frame2.state=='Ohio'   # 新加了一列布尔值列

In [33]:
frame2

Unnamed: 0,year,state,pop,debt,eastern
one,2000,Ohio,1.5,,True
two,2001,Ohio,1.7,-1.2,True
three,2002,Ohio,3.6,,True
four,2001,Nevada,2.4,-1.5,False
five,2002,Nevada,2.9,-1.7,False
six,2003,Nevada,3.2,,False


In [34]:
del frame2['eastern']  # 使用del关键字删除相应得列

In [None]:
frame2

**从DataFrame中选取的列是数据的视图，而不是拷贝。因此，对Series的修改会映射到DataFrame中。如果需要复制，则应该显式的适应Series的copy方法**

**嵌套字典**

In [74]:
pop = {'Nevada':{2001:2.4,2002:2.9},
      'Ohio':{2000:1.5,2001:1.7,2002:3.6}}

In [75]:
frame3 = pd.DataFrame(pop)

In [76]:
frame3

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


上述嵌套情况中，pandas会将字典的键作为列，将内部字典的键作为行索引

In [77]:
frame3.T  # 可以使用类似于Numpy的语法，对DataFrame进行转置操作。

Unnamed: 0,2000,2001,2002
Nevada,,2.4,2.9
Ohio,1.5,1.7,3.6


In [78]:
index = [2001,2002,2003]

In [79]:
frame4= pd.DataFrame([i for i in range(6)])

In [80]:
frame4

Unnamed: 0,0
0,0
1,1
2,2
3,3
4,4
5,5


In [81]:
frame4 = pd.DataFrame([i for i in range(6)],index=[1,2,3,4,5,6])

In [82]:
frame4

Unnamed: 0,0
1,0
2,1
3,2
4,3
5,4
6,5


**书中关于显示指明索引，我在此和书上的顺序和代码相同的情况下，会出现错误。**

In [83]:
pd.DataFrame(pop,index=[2001,2002,2003])

AttributeError: 'list' object has no attribute 'astype'

### 可以向DataFrame构造函数传递的对象列表如下

* 2D ndarray     数据的矩阵，行和列的标签是可选参数
* 数组、列表和元祖构成的字典。   每个序列成为DataFrame的一列，所有的序列必须长度相等
* Numpy 结构化/记录化数组    与数组构成的字典一致
* Series构成的字典      每个值成为一列，每个Series的索引联合起来形成结果的行索引，也可以显示地传递索引
* 字典构成的字典    每一个内部字典成为一列，键联合起来形成结果的行索引
* 字典或Series构成的列表    列表中的一个元素形成DataFrame的一行，字典键或Series索引联合起来形成DataFrame的列标签
* 列表或元组构成的列表    与2D ndarray的情况一致
* 其他DataFrame    如果不是显示传递索引，则会使用远DataFrame的索引
* Numpy MaskedArray   与2D ndarray的情况类似，但隐蔽值会在结果DataFrame中成为NA/缺失值


包含Series的字典也可以用于构造DataFrame

In [88]:
pdata = pd.DataFrame({'Ohio':frame3['Ohio'][:-1],
                      'Nevada':frame3['Nevada'][:2]},columns=['Nevada','Ohio'])  # 在此同时制定了列的顺序。

In [89]:
pdata

Unnamed: 0,Nevada,Ohio
2000,,1.5
2001,2.4,1.7


如果DataFrame的索引和列拥有name属性，则这些name属性也会被显示。

In [92]:
frame3.index.name='year';frame3.columns.name='state'  

In [93]:
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [94]:
frame3.values

array([[nan, 1.5],
       [2.4, 1.7],
       [2.9, 3.6]])

和Series类似，DataFrame 的values属性会将包含在DataFrame中的数据以二维ndarray的形式返回

In [113]:
data = pd.Series([i for i in range(4)])

In [114]:
data.values

array([0, 1, 2, 3], dtype=int64)

In [115]:
frame2.values

array([[2000, 'Ohio', 1.5, nan],
       [2001, 'Ohio', 1.7, -1.2],
       [2002, 'Ohio', 3.6, nan],
       [2001, 'Nevada', 2.4, -1.5],
       [2002, 'Nevada', 2.9, -1.7],
       [2003, 'Nevada', 3.2, nan]], dtype=object)

如果 DataFrame的列时不同的dtype，则values的dtype会自动选择合适所有列的类型。

## 5.1.3 索引对象

pandas中的索引对象是用于 **存储轴标签和其他元数据的**。在构建Series和DataFrame时，你所使用的任意数组或标签序列都可以在内部转换为索引对象：

In [116]:
obj = pd.Series(range(3),index=['a','b','c'])

In [117]:
obj

a    0
b    1
c    2
dtype: int64

In [118]:
obj.index[1:]

Index(['b', 'c'], dtype='object')

In [120]:
index = obj.index

In [121]:
index

Index(['a', 'b', 'c'], dtype='object')

In [123]:
index[1] ='d'  # TypeError 索引对象不能修改

TypeError: Index does not support mutable operations

In [125]:
import numpy as np
labels = pd.Index(np.arange(3))

In [126]:
labels

Int64Index([0, 1, 2], dtype='int64')

In [127]:
obj2 =pd.Series([1.5,-2.5,0],index=labels)

In [128]:
obj2

0    1.5
1   -2.5
2    0.0
dtype: float64

In [129]:
obj2.index is labels

True

索引对象的其他形式：集合

In [130]:
frame3

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.5
2001,2.4,1.7
2002,2.9,3.6


In [132]:
frame3.columns

Index(['Nevada', 'Ohio'], dtype='object', name='state')

In [135]:
'Ohio' in frame3.columns

True

In [136]:
2002 in frame3.columns

False

**与python不同，pandas的索引对象可以包含重复标签**

In [137]:
dup_labels =pd.Index(['foo','foo','bar','bar'])

In [138]:
dup_labels

Index(['foo', 'foo', 'bar', 'bar'], dtype='object')

### 索引的一些方法和属性
* append   将额外的索引对象粘贴到原索引后，产生一个新的索引
* difference 计算连个索引的差集
* intersection  计算两个索引的交集
* union  计算两个索引的并集
* isin   计算表示每一个值是否在传值容器中的布尔数组
* delete  将位置i的元素删除，并产生新的索引
* drop    根据传参删除指定索引值，并产生新的索引
* insert 在位置i插入元素，并产生新的索引
* is_monotonic   如果索引序列递增则返回True
* is_unique  如果索引序列唯一则返回True
* unique  计算索引的唯一值序列

In [141]:
dup_labels.unique()

Index(['foo', 'bar'], dtype='object')

In [142]:
dup_labels.is_unique

False

In [146]:
dup_labels.delete(1)

Index(['foo', 'bar', 'bar'], dtype='object')