## DataFrame
表格型的数据结构，既有行索引也有列索引，可以看作由Series组成的共用一个索引的字典。
数据以一个或多个二维块存放，可以表示更高维度的数据。
- 建立DataFrame，常见方法是传入由等长列表或者Numpy数组组成的字典，并会自动生成行索引;
- 也可以输入列列表以指定列的顺序；
- 使用columns和index可以获取或者修改列索引或行索引（注：只是修改索引值，不影响数据顺序）；
- 使用字典标记或属性的方式将DataFrame的列获取为一个Series，索引值与DataFrame的行索引相同，得到的Series的name属性值为列名；
- 使用一个值或一组值或一个Series修改列的值，若使用列表或数组，长度必须匹配，若使用Series会精确匹配DataFrame的索引，不存在的索引对应值为NaN；
- 使用字典方式给不存在的列赋值，可以创建一个新列，但属性方法不支持创建新列；
- del删除列；

In [2]:
import pandas as pd
data={'colA':['d','c','b','a'],
     'colB':[20,9,13,2],
     'colC':[5.7,6.9,3.2,8.3]}
frame=pd.DataFrame(data)
frame # 自动生成了行索引

Unnamed: 0,colA,colB,colC
0,d,20,5.7
1,c,9,6.9
2,b,13,3.2
3,a,2,8.3


In [20]:
pd.DataFrame(data,columns=['colC','colB','colA','colD'],index=['A','B','C','D']) # 输入列表来指定列顺序，不存在的列对应的值为NaN，同时指定行索引名

Unnamed: 0,colC,colB,colA,colD
A,5.7,20,d,
B,6.9,9,c,
C,3.2,13,b,
D,8.3,2,a,


In [21]:
frame.columns=['colC','colB','colA'] # 使用属性方法修改索引值，不修改数据顺序
frame

Unnamed: 0,colC,colB,colA
B,d,20,5.7
D,c,9,6.9
A,b,13,3.2
C,a,2,8.3


In [22]:
frame['colA'] # 字典方式获取列得到Series，索引与frame的行索引相同，并且列名即为Series的name

B    5.7
D    6.9
A    3.2
C    8.3
Name: colA, dtype: float64

In [23]:
frame.colB # 属性方法获取列

B    20
D     9
A    13
C     2
Name: colB, dtype: int64

In [32]:
import numpy as np
frame['colA']=np.arange(4.) # 给列赋一组值
frame

Unnamed: 0,colC,colB,colA
B,d,20,0.0
D,c,9,1.0
A,b,13,2.0
C,a,2,3.0


In [33]:
obj=pd.Series(['a','b','x'],index=['A','B','X']) # 使用Series赋值，index精确匹配，不匹配的置NaN
frame['colC']=obj
frame

Unnamed: 0,colC,colB,colA
B,b,20,0.0
D,,9,1.0
A,a,13,2.0
C,,2,3.0


In [34]:
frame['colTMP']=frame['colB']>10 # 使用字典方式给不存在的列赋值，可以创建一个新列
frame

Unnamed: 0,colC,colB,colA,colTMP
B,b,20,0.0,True
D,,9,1.0,False
A,a,13,2.0,True
C,,2,3.0,False


In [35]:
del frame['colTMP'] # 删除列
frame

Unnamed: 0,colC,colB,colA
B,b,20,0.0
D,,9,1.0
A,a,13,2.0
C,,2,3.0
