# DataFrame类型
DataFrame是一个多维数据类型。因为通常使用二维数据，因此，我们可以将DataFrame理解成类似excel的表格型数据，由多列组成，每个列的类型可以不同。  
因为DataFrame是多维数据类型，因此，DataFrame既有行索引，也有列索引。
## 创建方式
我们可以使用如下的方式创建（初始化）DataFrame类型的对象（常用）：
* 二维数组结构（列表,ndarray数组，DataFrame等）类型。
* 字典类型，key为列名，value为一维数组结构（列表，ndarray数组,Series等）。

说明：
* 如果没有显式指定行与列索引，则会自动生成以0开始的整数值索引。我们可以在创建DataFrame对象时，通过index与columns参数指定。
* 可以通过head，tail访问前 / 后N行记录（数据）。

In [59]:
import numpy as np
import pandas as pd
from IPython.display import display

In [60]:
# 使用二维数据结构创建DataFrame
df = pd.DataFrame(np.random.rand(3, 5))
print(df)

          0         1         2         3         4
0  0.036476  0.890412  0.980921  0.059942  0.890546
1  0.576901  0.742480  0.630184  0.581842  0.020439
2  0.210027  0.544685  0.769115  0.250695  0.285896


In [61]:
# 使用字典来创建DataFrame。一个键值对为一列。key指定列索引，value指定该列的值。
df = pd.DataFrame({"北京":[100, 200, 125], "天津":[109, 203, 123], "上海":[39, 90, 300]})
display(df)

Unnamed: 0,北京,天津,上海
0,100,109,39
1,200,203,90
2,125,123,300


In [62]:
# 显示前（后）N条记录
display(df.head(2))
display(df.tail(2))

Unnamed: 0,北京,天津,上海
0,100,109,39
1,200,203,90


Unnamed: 0,北京,天津,上海
1,200,203,90
2,125,123,300


In [63]:
# 创建DataFrame，指定行，列索引。
df = pd.DataFrame(np.random.rand(3, 5), index=["地区1", "地区2", "地区3"], columns=["北京","天津", "上海","沈阳", "广州"])
display(df)

Unnamed: 0,北京,天津,上海,沈阳,广州
地区1,0.852395,0.975006,0.884853,0.359508,0.598859
地区2,0.354796,0.34019,0.178081,0.237694,0.044862
地区3,0.505431,0.376252,0.592805,0.629942,0.1426


## 相关属性
* index
* columns
* values
* shape
* ndim
* dtypes

说明：
* 可以通过index访问行索引，columns访问列索引，values访问数据，其中index与columns也可以进行设置（修改）。
* 可以为DataFrame的index与columns属性指定name属性值。
* DataFrame的数据不能超过二维。

In [64]:
df = pd.DataFrame(np.random.rand(3, 5), index=["地区1", "地区2", "地区3"], columns=["北京","天津", "上海","沈阳", "广州"])
display(df)
display(df.values)  # 返回DataFrame关联的ndarray数组
display(df.index)   # 返回行索引
display(df.columns)  # 返回列索引

Unnamed: 0,北京,天津,上海,沈阳,广州
地区1,0.933841,0.94638,0.602297,0.387766,0.363188
地区2,0.204345,0.276765,0.246536,0.173608,0.96661
地区3,0.957013,0.597974,0.731301,0.340385,0.092056


array([[0.9338413 , 0.94637988, 0.60229666, 0.38776628, 0.363188  ],
       [0.20434528, 0.27676506, 0.24653588, 0.173608  , 0.96660969],
       [0.9570126 , 0.59797368, 0.73130075, 0.34038522, 0.0920556 ]])

Index(['地区1', '地区2', '地区3'], dtype='object')

Index(['北京', '天津', '上海', '沈阳', '广州'], dtype='object')

In [65]:
# 返回形状
display(df.shape)
# 返回维度
display(df.ndim)
# 返回各列的类型信息。
display(df.dtypes)

(3, 5)

2

北京    float64
天津    float64
上海    float64
沈阳    float64
广州    float64
dtype: object

In [66]:
# df.index = ["r1", "r2", "r3"]
df.index.name = "index_name"
df.columns.name = "columns_name"
display(df)
# 错误，超过了2维。
# df_more_than2d = pd.DataFrame(np.random.rand(3, 3, 3))

columns_name,北京,天津,上海,沈阳,广州
index_name,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
地区1,0.933841,0.94638,0.602297,0.387766,0.363188
地区2,0.204345,0.276765,0.246536,0.173608,0.96661
地区3,0.957013,0.597974,0.731301,0.340385,0.092056


## DataFrame相关操作
假设df为DataFrame类型的对象。  
### 列操作
* 获取列【哪个更好些？】
 + df\[列索引\]
 + df.列索引
* 增加（修改）列：df\[列索引\] = 列数据
* 删除列
 + del df\[列索引\]
 + df.pop(列索引)
 + df.drop(列索引或数组)

### 行操作
* 获取行
 + df.loc 根据标签进行索引。
 + df.iloc 根据位置进行索引。
 + df.ix 混合索引。先根据标签索引，如果没有找到，则根据位置进行索引（前提是标签不是数值类型）。【已不建议使用】
* 增加行：append【多次使用append增加行会比连接计算量更大，可考虑使用pd.concat来代替。】
* 删除行
 + df.drop(行索引或数组)

### 行列混合操作：
* 先获取行，再获取列。
* 先获取列，在获取行。

说明：
* drop方法既可以删除行，也可以删除列，通过axis指定轴方向。【可以原地修改，也可以返回修改之后的结果。】
* 通过df\[索引\]访问是对列进行操作。
* 通过df\[切片\]访问是对行进行操作。【先按标签，然后按索引访问。如果标签是数值类型，则仅会按标签进行匹配。】
* 通过布尔索引是对行进行操作。
* 通过数组索引是对列进行操作。

## <font color="green">在对行或列进行操作时，如果针对多行（列）进行操作？如果是不连续的呢？</font>

In [10]:
df = pd.DataFrame(np.random.rand(5, 5), columns=list("abcde"), index=list("hijkl"))
display(df)
# 获取DataFrame的列。通过df[索引]的方式，永远是获取列，不会获取行。【索引永远被解析为是列索引。】
display(df["a"], type(df["a"]))
# 获取多个列（返回一个DataFrame，即使只选择一个列）
display(df[["a"]])

# 获取列的第二种方式：(建议大家使用前者，因为不受特殊名称的限制。)
# display(df.a)

# 增加 / 修改列
df["f"] = [1, 2, 3, 4, 5]
df["e"] = [6, 7, 8, 9, 10]
df["g"] = df["a"] + df["b"]
display(df)
# 删除列
# del df["e"]
# display(df.pop("e"))
#df.drop("e", inplace=True, axis=1)
# 可以指定标签数组，同时删除多列
df.drop(["a", "e"], inplace=True, axis=1)
display(df)

Unnamed: 0,a,b,c,d,e
h,0.724381,0.162695,0.758338,0.834515,0.215246
i,0.781026,0.819637,0.928551,0.709671,0.704519
j,0.067835,0.659427,0.14903,0.325434,0.935286
k,0.855434,0.693856,0.332076,0.858914,0.738961
l,0.361972,0.272546,0.626712,0.51891,0.289262


h    0.724381
i    0.781026
j    0.067835
k    0.855434
l    0.361972
Name: a, dtype: float64

pandas.core.series.Series

Unnamed: 0,a
h,0.724381
i,0.781026
j,0.067835
k,0.855434
l,0.361972


Unnamed: 0,a,b,c,d,e,f,g
h,0.724381,0.162695,0.758338,0.834515,6,1,0.887076
i,0.781026,0.819637,0.928551,0.709671,7,2,1.600663
j,0.067835,0.659427,0.14903,0.325434,8,3,0.727262
k,0.855434,0.693856,0.332076,0.858914,9,4,1.54929
l,0.361972,0.272546,0.626712,0.51891,10,5,0.634517


Unnamed: 0,b,c,d,f,g
h,0.162695,0.758338,0.834515,1,0.887076
i,0.819637,0.928551,0.709671,2,1.600663
j,0.659427,0.14903,0.325434,3,0.727262
k,0.693856,0.332076,0.858914,4,1.54929
l,0.272546,0.626712,0.51891,5,0.634517


In [23]:
np.random.seed(100)  # 固定生成的随机数不会随着每次运行变换一次
df = pd.DataFrame(np.random.rand(5, 5), index=list("abcde"), columns=list("yuiop"))
display(df)
# 先获取行，再获取列
display(df.loc["c"]["i"])
display(df.loc["c","i"])
display(df.loc["c"].loc["i"])
# 获取整行
display(df.loc["c"])
# 先获取列，在获取行。
# df["i"].loc["a"] = 3
display(df[["i", "o", "p"]].loc["b":"d"])

# 注意：df[索引]是对列进行操作。df[切片]是对行进行操作。
# 获取列，永远对列进行操作。
# df["a"] # 没有a列，报错
# df[切片]
# 说明：df[切片]既可以根据标签索引切片，也可以根据位置索引切片。【先按标签，再按索引，行为类似与ix，故不建议使用。】
# df["a":"c"]
# df[0:2]

# 通过布尔数组，是对行进行操作。
bool_array = [True, False, True, True, False]
display(df[bool_array])

# 通过标签数组，是对列进行操作。
# lable_array = ["y", "i", "p"]
# df[lable_array]
display(df)
# display(df > 0.5)
# 如果布尔数组是二维结构，则True对应的位置元素原样显示，False对应位置的元素置为空值（NaN）
# display(df[df > 0.5])
display(df["i"] > 0.5)
display(df[df["i"] > 0.5])

Unnamed: 0,y,u,i,o,p
a,0.543405,0.278369,0.424518,0.844776,0.004719
b,0.121569,0.670749,0.825853,0.136707,0.575093
c,0.891322,0.209202,0.185328,0.108377,0.219697
d,0.978624,0.811683,0.171941,0.816225,0.274074
e,0.431704,0.94003,0.817649,0.336112,0.17541


0.18532821955007506

0.18532821955007506

0.18532821955007506

y    0.891322
u    0.209202
i    0.185328
o    0.108377
p    0.219697
Name: c, dtype: float64

Unnamed: 0,i,o,p
b,0.825853,0.136707,0.575093
c,0.185328,0.108377,0.219697
d,0.171941,0.816225,0.274074


Unnamed: 0,y,u,i,o,p
a,0.543405,0.278369,0.424518,0.844776,0.004719
c,0.891322,0.209202,0.185328,0.108377,0.219697
d,0.978624,0.811683,0.171941,0.816225,0.274074


Unnamed: 0,y,u,i,o,p
a,0.543405,0.278369,0.424518,0.844776,0.004719
b,0.121569,0.670749,0.825853,0.136707,0.575093
c,0.891322,0.209202,0.185328,0.108377,0.219697
d,0.978624,0.811683,0.171941,0.816225,0.274074
e,0.431704,0.94003,0.817649,0.336112,0.17541


a    False
b     True
c    False
d    False
e     True
Name: i, dtype: bool

Unnamed: 0,y,u,i,o,p
b,0.121569,0.670749,0.825853,0.136707,0.575093
e,0.431704,0.94003,0.817649,0.336112,0.17541


In [30]:
df = pd.DataFrame(np.random.rand(5, 5), columns=list("abcde"), index=list("hijkl"))
display(df)
# DataFrame行操作
# 获取行 loc   iloc   ix
# loc 根据标签获取
# iloc 根据位置获取
# ix 混合索引  先根据标签，然后再根据位置（不建议使用）
display(df.loc["i"])
display(df.iloc[1])
# 不建议使用，因为非常容易造成混淆。
# display(df.ix["i"])
# display(df.ix[1])
# 增加一行
line = pd.Series([23, 33, 12., 334.22, 200], index=list("abcde"), name="p")
display(line)
df = df.append(line)
# 删除行
df = df.drop(["h", "j"])
display(df)

Unnamed: 0,a,b,c,d,e
h,0.837616,0.520161,0.218272,0.134919,0.97907
i,0.707043,0.859976,0.387173,0.250834,0.299438
j,0.856896,0.472984,0.663277,0.805729,0.252981
k,0.079573,0.732761,0.961397,0.953805,0.490499
l,0.632192,0.732995,0.90241,0.162247,0.405881


a    0.707043
b    0.859976
c    0.387173
d    0.250834
e    0.299438
Name: i, dtype: float64

a    0.707043
b    0.859976
c    0.387173
d    0.250834
e    0.299438
Name: i, dtype: float64

a     23.00
b     33.00
c     12.00
d    334.22
e    200.00
Name: p, dtype: float64

Unnamed: 0,a,b,c,d,e
i,0.707043,0.859976,0.387173,0.250834,0.299438
k,0.079573,0.732761,0.961397,0.953805,0.490499
l,0.632192,0.732995,0.90241,0.162247,0.405881
p,23.0,33.0,12.0,334.22,200.0


## DataFrame结构
DataFrame的一行或一列，都是Series类型的对象。对于行来说，Series对象的name属性值就是行索引名称，其内部元素的值，就是对应的列索引名称。对于列来说，Series对象的name属性值就是列索引名称，其内部元素的值，就是对应的行索引名称。

In [32]:
# DataFrame的每一行，或每一列，都是Series类型
df = pd.DataFrame([[1, 2], [3, 4]], columns=["a", "b"])
display(df)
display(type(df["a"]), df["a"])
display(type(df.loc[0]), df.loc[0])  # loc根据标签索引，行标签是0
display(type(df.iloc[0]), df.iloc[0])# iloc根据位置进行索引，第一个位置是0

Unnamed: 0,a,b
0,1,2
1,3,4


pandas.core.series.Series

0    1
1    3
Name: a, dtype: int64

pandas.core.series.Series

a    1
b    2
Name: 0, dtype: int64

pandas.core.series.Series

a    1
b    2
Name: 0, dtype: int64

## DataFrame运算
DataFrame的一行或一列都是Series类型的对象。因此，DataFrame可以近似看做是多行或多列Series构成的，Series对象支持的很多操作，对于DataFrame对象也同样适用，我们可以参考之前Series对象的操作。  
* 转置
* DataFrame进行运算时，会根据行索引与列索引进行对齐。当索引无法匹配时，产生空值（NaN）。如果不想产生空值，可以使用DataFrame提供的运算函数来代替运算符计算，通过fill_value参数来指定填充值。
* DataFrame与Series混合运算。【默认Series索引匹配DataFrame的列索引，然后进行行广播。可以通过DataFrame对象的运算方法的axis参数，指定匹配方式（匹配行索引还是列索引）。】

In [36]:
df = pd.DataFrame(np.arange(9).reshape(3, 3))
# 转置
display(df, df.T)
print('-'*100)
df2 = pd.DataFrame(np.arange(9, 18).reshape(3, 3))
display(df + df2)
print('-'*100)
df3 = pd.DataFrame(np.arange(9, 18).reshape(3, 3), index=[1, 2, 3], columns=[2, 3, 4])
display(df, df3)
print('-'*100)
# DataFrame进行计算时，会根据标签进行对齐，如果标签无法对齐，则会产生空值（NaN）。
display(df + df3)
# 如果不想结果为NaN，可以采用DataFrame提供的计算方法，来代替运算符的计算。
display(df.add(df3, fill_value=1000))

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8


Unnamed: 0,0,1,2
0,0,3,6
1,1,4,7
2,2,5,8


----------------------------------------------------------------------------------------------------


Unnamed: 0,0,1,2
0,9,11,13
1,15,17,19
2,21,23,25


----------------------------------------------------------------------------------------------------


Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8


Unnamed: 0,2,3,4
1,9,10,11
2,12,13,14
3,15,16,17


----------------------------------------------------------------------------------------------------


Unnamed: 0,0,1,2,3,4
0,,,,,
1,,,14.0,,
2,,,20.0,,
3,,,,,


Unnamed: 0,0,1,2,3,4
0,1000.0,1001.0,1002.0,,
1,1003.0,1004.0,14.0,1010.0,1011.0
2,1006.0,1007.0,20.0,1013.0,1014.0
3,,,1015.0,1016.0,1017.0


In [41]:
# Series与DataFrame混合运算，运算时会根据标签进行对齐。
df = pd.DataFrame(np.arange(9).reshape(3, 3))
s = pd.Series([1000, 2000, 3000])
display(df, s)
display(df + s)

# 当进行混合运算时，默认情况下，Series用自己的标签匹配DataFrame的列标签，然后进行运算。
# 如果需要匹配行标签，则可以使用axis进行设置。
# display(df.add(s, axis="index"))
s2 = pd.Series([1000, 2000, 3000], index=[1, 2, 3])
display(s2)
display(df.add(s2)) # 默认按列计算
display(df.add(s2,axis = 0))

Unnamed: 0,0,1,2
0,0,1,2
1,3,4,5
2,6,7,8


0    1000
1    2000
2    3000
dtype: int64

Unnamed: 0,0,1,2
0,1000,2001,3002
1,1003,2004,3005
2,1006,2007,3008


1    1000
2    2000
3    3000
dtype: int64

Unnamed: 0,0,1,2,3
0,,1001.0,2002.0,
1,,1004.0,2005.0,
2,,1007.0,2008.0,


Unnamed: 0,0,1,2
0,,,
1,1003.0,1004.0,1005.0
2,2006.0,2007.0,2008.0
3,,,


## 排序
### 索引排序
Series与DataFrame对象可以使用sort_index方法对索引进行排序。DataFrame对象在排序时，还可以通过axis参数来指定轴（行索引还是列索引）。也可以通过ascending参数指定升序还是降序。
### 值排序
Series与DataFrame对象可以使用sort_values方法对列或行的值进行排序。

In [70]:
df = pd.DataFrame(np.arange(9).reshape(3, 3), index=[3, 1, 2], columns=[6,4,5])
display(df)
# 默认根据行索引进行排序。
display('默认根据行索引进行排序:',df.sort_index())
# 根据列索引进行排序
display('根据列索引进行排序:',df.sort_index(1))
# 就地修改，不会返回修改后的结果。
# df.sort_index(inplace=True)
# 默认为升序排序，可以指定为降序排序。
display('默认为升序排序，可以指定为降序排序，按列索引：',df.sort_index(ascending=False, axis=1))

# 值排序
df = pd.DataFrame([[1, 3, 300], [0, 5, 100], [1, 3, 400]])
display(df)
display('按照第二列默认升序排序:',df.sort_values(1))  # 1代表第二列，按照第二列默认升序排序
display('按照第二列降序排序:',df.sort_values(1,ascending=False))

display('按照第三行降序排序:',df.sort_values(2,axis = 0,ascending = False))

Unnamed: 0,6,4,5
3,0,1,2
1,3,4,5
2,6,7,8


'默认根据行索引进行排序:'

Unnamed: 0,6,4,5
1,3,4,5
2,6,7,8
3,0,1,2


'根据列索引进行排序:'

Unnamed: 0,4,5,6
3,1,2,0
1,4,5,3
2,7,8,6


'默认为升序排序，可以指定为降序排序，按列索引：'

Unnamed: 0,6,5,4
3,0,2,1
1,3,5,4
2,6,8,7


Unnamed: 0,0,1,2
0,1,3,300
1,0,5,100
2,1,3,400


'按照第二列默认升序排序:'

Unnamed: 0,0,1,2
0,1,3,300
2,1,3,400
1,0,5,100


'按照第二列降序排序:'

Unnamed: 0,0,1,2
1,0,5,100
0,1,3,300
2,1,3,400


'按照第三行降序排序:'

Unnamed: 0,0,1,2
2,1,3,400
0,1,3,300
1,0,5,100


## 索引对象
Series(DataFrame)的index或者DataFrame的columns就是一个索引对象。
* 索引对象可以向数组那样进行索引访问。
* 索引对象是不可修改的。

In [76]:
ind = pd.Index([1, 2, 3])
display(ind[0])
# 索引对象的元素不支持修改。
#ind[0] = 30
#df.index = []

1

## 统计相关方法
* mean / sum / count
* max / min
* cumsum / cumprod
* argmax / argmin
* idxmax / idxmin
* var / std

In [80]:
df = pd.DataFrame(np.random.rand(3, 3), index=[0, 2, 3], columns=[8, 9, 7])
df[8].loc[0] = np.nan
display(df)
# count统计不包含nan。
display(df.count())

Unnamed: 0,8,9,7
0,,0.485414,0.966693
2,0.211348,0.411648,0.989666
3,0.028412,0.701327,0.025172


8    2
9    3
7    3
dtype: int64

## 其他
* unique
* value_counts

In [85]:
# Series unique 去掉重复的元素。（没有排序的功能）
s = pd.Series([3, 1, 2, 3])
display(s)
print('-----')
display(s.unique())
print('-----')
# 按Series的值进行分组，分别统计该值出现的数量。
display(s.value_counts())

0    3
1    1
2    2
3    3
dtype: int64

-----


array([3, 1, 2], dtype=int64)

-----


3    2
2    1
1    1
dtype: int64