## DataFrame

它是表格型的数据结构，有一组有序的列，每列可以是不同的值类型。既有行索引，又有列索引，是以二维结构保存数据的。

In [27]:
import pandas as pd
import numpy as np

+ 增

In [10]:
data = {'state': ['aaa','bbb','ccc','ddd','eee','fff'],
       'year':[2000,2001,2002,2003,2004,2005],
       'pop':[1.5,1.7,1.6,2.4,3.2,3.3]
       }
frame = pd.DataFrame(data)

In [11]:
frame

Unnamed: 0,state,year,pop
0,aaa,2000,1.5
1,bbb,2001,1.7
2,ccc,2002,1.6
3,ddd,2003,2.4
4,eee,2004,3.2
5,fff,2005,3.3


In [None]:
# 注： 对于特别大的DataFrame，head方法会选取前五行

In [12]:
frame.head()

Unnamed: 0,state,year,pop
0,aaa,2000,1.5
1,bbb,2001,1.7
2,ccc,2002,1.6
3,ddd,2003,2.4
4,eee,2004,3.2


In [13]:
pd.DataFrame(data,columns=['year','state','pop'])

Unnamed: 0,year,state,pop
0,2000,aaa,1.5
1,2001,bbb,1.7
2,2002,ccc,1.6
3,2003,ddd,2.4
4,2004,eee,3.2
5,2005,fff,3.3


In [22]:
frame2 = pd.DataFrame(data,columns=['year','state','pop','test'],index=['one','two','three','four','five','six'])

+ 查

In [18]:
frame2

Unnamed: 0,year,state,pop,test
one,2000,aaa,1.5,
two,2001,bbb,1.7,
three,2002,ccc,1.6,
four,2003,ddd,2.4,
five,2004,eee,3.2,
six,2005,fff,3.3,


In [19]:
frame2.columns

Index(['year', 'state', 'pop', 'test'], dtype='object')

In [None]:
# 通过类似字典标记或属性的方式，可以将DataFrame的列获取为一个Series

In [20]:
frame['year']

0    2000
1    2001
2    2002
3    2003
4    2004
5    2005
Name: year, dtype: int64

In [21]:
frame.year

0    2000
1    2001
2    2002
3    2003
4    2004
5    2005
Name: year, dtype: int64

In [None]:
# 行也可以通过位置或名称进行获取，如使用loc属性

In [23]:
frame2.loc['three']

year     2002
state     ccc
pop       1.6
test      NaN
Name: three, dtype: object

In [24]:
# 列可以通过赋值的方式进行修改，如下

In [25]:
frame2['test']=16

In [26]:
frame2

Unnamed: 0,year,state,pop,test
one,2000,aaa,1.5,16
two,2001,bbb,1.7,16
three,2002,ccc,1.6,16
four,2003,ddd,2.4,16
five,2004,eee,3.2,16
six,2005,fff,3.3,16


In [31]:
frame2['test']=np.array(6.)

In [32]:
frame2

Unnamed: 0,year,state,pop,test
one,2000,aaa,1.5,6.0
two,2001,bbb,1.7,6.0
three,2002,ccc,1.6,6.0
four,2003,ddd,2.4,6.0
five,2004,eee,3.2,6.0
six,2005,fff,3.3,6.0


In [57]:
frame2['bor']=frame2['pop'] >= 2.0

In [58]:
frame2

Unnamed: 0,year,state,pop,test,bor
one,2000,aaa,1.5,6.0,False
two,2001,bbb,1.7,6.0,False
three,2002,ccc,1.6,6.0,False
four,2003,ddd,2.4,6.0,True
five,2004,eee,3.2,6.0,True
six,2005,fff,3.3,6.0,True


In [59]:
type(frame2.test)

pandas.core.series.Series

In [None]:
#  如果上面的判断语句写成是frame2['bor'] = frame2.pop >=2.0则会报错，报错的内容是>=符号的左边是方法右边是数字，矛盾

+ 删

In [60]:
del frame2['bor']

In [62]:
frame2.columns

Index(['year', 'state', 'pop', 'test'], dtype='object')

In [65]:
# 注意：这里删除后的DataFrame不是副本而是直接数据，对返回的Series所做的任何修改会直接反映到源DataFrame上.

In [66]:
pop = {'aaa':{2000:1.5},'bbb':{2001:1.7},'ccc':{2002:1.6}}

In [68]:
frame3 = pd.DataFrame(pop)

In [70]:
frame3

Unnamed: 0,aaa,bbb,ccc
2000,1.5,,
2001,,1.7,
2002,,,1.6


In [71]:
# 如上例，如果传递嵌套字典给DataFrame，pandas会被解释为：外层字典的键作为列，内层键则作为行索引。

+ 改

In [72]:
# 如果要对DataFrame进行转置，则可使用类似Numpy数组的方法，如下：

In [74]:
frame3.T

Unnamed: 0,2000,2001,2002
aaa,1.5,,
bbb,,1.7,
ccc,,,1.6


DataFrame构造函数能接收的数据类型有：二维数据矩阵、由数组和列表或是元组组成的字典、由Series组成的字典等

## 索引对象

In [75]:
# 这个在日常数据处理的时候是基本操作，比如对df中的某一项进行处理，就需要索引

In [76]:
obj = pd.Series(range(3),index=['a','b','c'])

In [77]:
obj

a    0
b    1
c    2
dtype: int64

In [80]:
index = obj.index
index

Index(['a', 'b', 'c'], dtype='object')

In [82]:
index[1:]

Index(['b', 'c'], dtype='object')

index对象不可变，因此用户不能对其进行修改。由于不可变，所以使得index对象在多个数据结构之间安全共享

In [84]:
index[1] = 'd'

TypeError: Index does not support mutable operations

In [88]:
labels = pd.Index(np.arange(3))

In [90]:
labels

Int64Index([0, 1, 2], dtype='int64')

In [92]:
obj2 = pd.Series([1.5,-2.5,0],index = labels)

In [93]:
obj2

0    1.5
1   -2.5
2    0.0
dtype: float64

In [None]:
# index不经常被使用，但需要的时候也是必要了解的。比如，一些操作会生成包含被索引化的数据。

注意： 与python的集合不同的是，pandas的index可以包含重复的标签

一些index的方法和属性： append\difference\intersection\union\isin\delete\drop\insert\unique等

In [None]:
# 总结： 又熟悉了一遍基本操作，虽然在博客和一些网站看到过类似的东西，但总觉得是碎片化的，看书的唯一好处就是能够成体系，暂且学习一下