## DataFrame
表格型的数据结构，既有行索引也有列索引，可以看作由Series组成的共用一个索引的字典。
数据以一个或多个二维块存放，可以表示更高维度的数据。
- 建立DataFrame，常见方法是传入由等长列表或者Numpy数组组成的字典，并会自动生成行索引;
- 也可以输入列列表以指定列的顺序；
- 使用columns和index可以获取或者修改列索引或行索引（注：只是修改索引值，不影响数据顺序）；
- 使用字典标记或属性的方式将DataFrame的列获取为一个Series，索引值与DataFrame的行索引相同，得到的Series的name属性值为列名；
- 使用一个值或一组值或一个Series修改列的值，若使用列表或数组，长度必须匹配，若使用Series会精确匹配DataFrame的索引，不存在的索引对应值为NaN；
- 使用字典方式给不存在的列赋值，可以创建一个新列，但属性方法不支持创建新列；
- del删除列；

In [1]:
import pandas as pd
data={'colA':['d','c','b','a'],
     'colB':[20,9,13,2],
     'colC':[5.7,6.9,3.2,8.3]}
frame=pd.DataFrame(data)
frame # 自动生成了行索引

Unnamed: 0,colA,colB,colC
0,d,20,5.7
1,c,9,6.9
2,b,13,3.2
3,a,2,8.3


In [2]:
pd.DataFrame(data,columns=['colC','colB','colA','colD'],index=['A','B','C','D']) # 输入列表来指定列顺序，不存在的列对应的值为NaN，同时指定行索引名

Unnamed: 0,colC,colB,colA,colD
A,5.7,20,d,
B,6.9,9,c,
C,3.2,13,b,
D,8.3,2,a,


In [3]:
frame.columns=['colC','colB','colA'] # 使用属性方法修改索引值，不修改数据顺序
frame

Unnamed: 0,colC,colB,colA
0,d,20,5.7
1,c,9,6.9
2,b,13,3.2
3,a,2,8.3


In [4]:
frame['colA'] # 字典方式获取列得到Series，索引与frame的行索引相同，并且列名即为Series的name

0    5.7
1    6.9
2    3.2
3    8.3
Name: colA, dtype: float64

In [5]:
frame.colB # 属性方法获取列

0    20
1     9
2    13
3     2
Name: colB, dtype: int64

In [6]:
import numpy as np
frame['colA']=np.arange(4.) # 给列赋一组值
frame

Unnamed: 0,colC,colB,colA
0,d,20,0.0
1,c,9,1.0
2,b,13,2.0
3,a,2,3.0


In [7]:
obj=pd.Series(['a','b','x'],index=['A','B','X']) # 使用Series赋值，index精确匹配，不匹配的置NaN
frame['colC']=obj
frame

Unnamed: 0,colC,colB,colA
0,,20,0.0
1,,9,1.0
2,,13,2.0
3,,2,3.0


In [8]:
frame['colTMP']=frame['colB']>10 # 使用字典方式给不存在的列赋值，可以创建一个新列
frame

Unnamed: 0,colC,colB,colA,colTMP
0,,20,0.0,True
1,,9,1.0,False
2,,13,2.0,True
3,,2,3.0,False


In [9]:
del frame['colTMP'] # 删除列
frame

Unnamed: 0,colC,colB,colA
0,,20,0.0
1,,9,1.0
2,,13,2.0
3,,2,3.0


- 除了传入由等长列表或者Numpy数组组成的字典可以建立DataFrame外，还可以传入嵌套字典来建立DataFrame，其中外层字典的键为列，内层字典的键为行索引，行索引会根据索引值进行合并、排序，如果在建立DataFrame时明确指定了索引，这根据指定的索引值和顺序生成DataFrame；

In [10]:
pop = {'Nevada': {2002: 2.4, 2001: 2.9},'Ohio': {2001: 1.5, 2000: 1.7, 2002: 3.6}}
frame=pd.DataFrame(pop)
frame # 两个列有相同的行索引值2001，2002，分别合并为一行，有一列没有2000则显示NaN，最后按行索引值进行排序

Unnamed: 0,Nevada,Ohio
2000,,1.7
2001,2.9,1.5
2002,2.4,3.6


In [11]:
frame.T # T属性也可以用于DataFrame

Unnamed: 0,2000,2001,2002
Nevada,,2.9,2.4
Ohio,1.7,1.5,3.6


- DataFrame构造函数所能接受的各种数据:
![title](img/微信截图_20190109144919.png)
- DataFrame也可以设置index和columns的name属性
- DataFrame也有values属性，得到的是个二维ndarray数组

In [12]:
frame.index.name = 'year'
frame.columns.name = 'state'
frame

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,,1.7
2001,2.9,1.5
2002,2.4,3.6


In [13]:
frame.values

array([[nan, 1.7],
       [2.9, 1.5],
       [2.4, 3.6]])

## 索引对象
Series和DataFrame的所有索引都是Index索引对象

Index索引对象内部元素是禁止修改的，因此可以使用Index索引对象来保存数据结构

In [14]:
index=frame.index
index

Int64Index([2000, 2001, 2002], dtype='int64', name='year')

In [15]:
columns=frame.columns
columns

Index(['Nevada', 'Ohio'], dtype='object', name='state')

In [16]:
# 将frame数据结构使用Index保存，然后再建立一个相同数据结构的DataFrame
tmp=pd.DataFrame([[1,2],[3,4],[5,6]],columns=columns,index=index)
tmp

state,Nevada,Ohio
year,Unnamed: 1_level_1,Unnamed: 2_level_1
2000,1,2
2001,3,4
2002,5,6


In [17]:
index[1]=2005 # Index的内部元素是禁止修改的

TypeError: Index does not support mutable operations

### Index对象的方法和属性

In [18]:
a=pd.Index([1,2,3])
b=pd.Index([2,4,5])

In [19]:
a.append(b) # append连接另外一个Index，生成新的Index，保留重复元素

Int64Index([1, 2, 3, 2, 4, 5], dtype='int64')

In [20]:
a.difference(b) # difference，计算差集，得到一个Index

Int64Index([1, 3], dtype='int64')

In [21]:
a.intersection(b) # 交集

Int64Index([2], dtype='int64')

In [22]:
a.union(b) # 并集，不保留重复元素，与append有区别

Int64Index([1, 2, 3, 4, 5], dtype='int64')

In [23]:
a.isin([1,2,3,4,5]) # 判断各元素是否包含在参数集合中

array([ True,  True,  True])

In [24]:
a.delete(2) # 删除指定位置的元素，得到新Index，不影响源Index

Int64Index([1, 2], dtype='int64')

In [25]:
a.drop(2)  # 删除指定值的元素，得到新Index，不影响源Index

Int64Index([1, 3], dtype='int64')

In [26]:
a.insert(3,100) # 在指定索引位置3插入指定值100，得到新Index

Int64Index([1, 2, 3, 100], dtype='int64')

In [27]:
a.is_monotonic # 各元素均大于前一个元素，返回True

True

In [28]:
a.is_unique # 没有重复值，返回True

True

In [29]:
a.unique() # 计算Index中唯一值的数组

Int64Index([1, 2, 3], dtype='int64')

In [31]:
c=a.append(b)
c

Int64Index([1, 2, 3, 2, 4, 5], dtype='int64')

In [32]:
c.unique() # 得到没有重复的Index

Int64Index([1, 2, 3, 4, 5], dtype='int64')