In [1]:
import pandas as pd

#### DataFrame
由多个Series组成的DataFrame才是分析数据时最常打交道的数据结构

它的不同列可以是不同的数据类型

而不是像NumPy二维数组一样要求数据类型全部保持一致

Series的每个值都有自己的索引,DataFrame也是一样

不同的是DataFrame不只有索引,还有列名

DataFrame就像Series组成的字典

每个Series对应一个列名(也就是键名)

#### 创建DataFrame

方法一: 参数传入的字典

键:Series所对应的列名

值:Series

In [5]:
s_id = pd.Series(['01', '02', '03', '04', '05'])
s_class = pd.Series(['二班', '一班', '二班', '三班', '一班'])
s_grade = pd.Series([92,67,70, 88,76])

df1 = pd.DataFrame({'学号': s_id, '班级': s_class, '成绩': s_grade})
df1

Unnamed: 0,学号,班级,成绩
0,1,二班,92
1,2,一班,67
2,3,二班,70
3,4,三班,88
4,5,一班,76


传入字典的值,除了可以是Series,也可以是列表

In [8]:
l_id = ['01', '02', '03', '04', '05']
l_class = ['二班', '一班', '二班', '三班', '一班']
l_grade = [92,67,70, 88,76]

df2 = pd.DataFrame({'学号': l_id, '班级': l_class, '成绩': l_grade})
df2

Unnamed: 0,学号,班级,成绩
0,1,二班,92
1,2,一班,67
2,3,二班,70
3,4,三班,88
4,5,一班,76


如果我们传入的Series有标签索引的话,DataFrame的索引也会变成相应的标签

In [12]:
s_id = pd.Series(['01', '02', '03', '04', '05'], index = ['小明', '小红', '小杰', '小丽', '小华'])
s_class = pd.Series(['二班', '一班', '二班', '三班', '一班'], index = ['小明', '小红', '小杰', '小丽', '小华'])
s_grade = pd.Series([92,67,70, 88,76], index = ['小明', '小红', '小杰', '小丽', '小华'])

df3 = pd.DataFrame({'学号': s_id, '班级': s_class, '成绩': s_grade})
df3

Unnamed: 0,学号,班级,成绩
小明,1,二班,92
小红,2,一班,67
小杰,3,二班,70
小丽,4,三班,88
小华,5,一班,76


如果你想一次性创建出既有标签索引,也有列名的DataFrame,还可以传入一个嵌套字典
也就是字典包含字典

最外层的键仍然包括列名,而值则对应每列的Series

In [15]:
df4 = pd.DataFrame({'学号':{'小明':'01', '小红':'02', '小杰':'03', '小丽':'04', '小华':'05'},
                        '班级':{'小明':'二班', '小红':'一班', '小杰':'二班', '小丽':'三班', '小华':'一班'},
                        '成绩':{'小明':92, '小红':67, '小杰':70, '小丽':88, '小华':76}})
df4

Unnamed: 0,学号,班级,成绩
小明,1,二班,92
小红,2,一班,67
小杰,3,二班,70
小丽,4,三班,88
小华,5,一班,76


#### 获得DataFrame的索引和列名
索引 index

列名 columns

值 values 

返回的类型是NumPy数组,所有NumPy属性通用

In [16]:
df4.index

Index(['小明', '小红', '小杰', '小丽', '小华'], dtype='object')

In [17]:
df4.columns

Index(['学号', '班级', '成绩'], dtype='object')

In [18]:
df4.values

array([['01', '二班', 92],
       ['02', '一班', 67],
       ['03', '二班', 70],
       ['04', '三班', 88],
       ['05', '一班', 76]], dtype=object)

DataFrame实用属性T,他返回的结果会把列和行进行转置

In [19]:
df4.T

Unnamed: 0,小明,小红,小杰,小丽,小华
学号,01,02,03,04,05
班级,二班,一班,二班,三班,一班
成绩,92,67,70,88,76


#### 如何从DataFrame提取列

方括号/点

In [20]:
df4['学号']

小明    01
小红    02
小杰    03
小丽    04
小华    05
Name: 学号, dtype: object

In [21]:
df4['班级']

小明    二班
小红    一班
小杰    二班
小丽    三班
小华    一班
Name: 班级, dtype: object

In [22]:
df4['成绩']

小明    92
小红    67
小杰    70
小丽    88
小华    76
Name: 成绩, dtype: int64

但是如果列名有空格或特殊符号就不可以用.属性提取了!!!

In [23]:
df4.成绩

小明    92
小红    67
小杰    70
小丽    88
小华    76
Name: 成绩, dtype: int64

In [24]:
df4.班级

小明    二班
小红    一班
小杰    二班
小丽    三班
小华    一班
Name: 班级, dtype: object

In [25]:
df4.学号

小明    01
小红    02
小杰    03
小丽    04
小华    05
Name: 学号, dtype: object

如果想获取多个列,可以在放括号里放入列表

In [28]:
df4[['成绩','班级']]

Unnamed: 0,成绩,班级
小明,92,二班
小红,67,一班
小杰,70,二班
小丽,88,三班
小华,76,一班


#### 如何从DataFrame提取行
Series 索引 - loc & iloc

In [29]:
df4.loc['小丽']

学号    04
班级    三班
成绩    88
Name: 小丽, dtype: object

In [30]:
df4.iloc[3]

学号    04
班级    三班
成绩    88
Name: 小丽, dtype: object

切片 切片 位置索引做切片不包含索引值

In [31]:
df4.loc['小红':'小丽']

Unnamed: 0,学号,班级,成绩
小红,2,一班,67
小杰,3,二班,70
小丽,4,三班,88


In [32]:
df4.iloc[1:3]

Unnamed: 0,学号,班级,成绩
小红,2,一班,67
小杰,3,二班,70


想获得任意行做提取值

In [34]:
df4.loc[['小红','小丽']]

Unnamed: 0,学号,班级,成绩
小红,2,一班,67
小丽,4,三班,88


In [35]:
df4.iloc[[3,1]]

Unnamed: 0,学号,班级,成绩
小丽,4,三班,88
小红,2,一班,67


#### 提取某个DataFrame元素
df.loc/iloc[行,列]

In [36]:
df4.loc['小杰','学号']

'03'

In [37]:
df4.iloc[2,0]

'03'

#### 提取部分DataFrame

In [39]:
df4.loc['小红':'小杰', '班级':'成绩']

Unnamed: 0,班级,成绩
小红,一班,67
小杰,二班,70


In [41]:
df4.iloc[1:3,1:3]

Unnamed: 0,班级,成绩
小红,一班,67
小杰,二班,70


#### 保留所有行

In [42]:
df4.loc[:, '班级':'成绩']

Unnamed: 0,班级,成绩
小明,二班,92
小红,一班,67
小杰,二班,70
小丽,三班,88
小华,一班,76


In [43]:
df4.iloc[:,1:3]

Unnamed: 0,班级,成绩
小明,二班,92
小红,一班,67
小杰,二班,70
小丽,三班,88
小华,一班,76


#### 提取不相邻的行或列

In [44]:
df4.loc[['小红','小丽'],'学号':'班级']

Unnamed: 0,学号,班级
小红,2,一班
小丽,4,三班


In [45]:
df4.iloc[[1,3],0:2]

Unnamed: 0,学号,班级
小红,2,一班
小丽,4,三班


#### 根据条件筛选符合条件的行
一般每一行代表一个实例,比如一个城市,一个学生

而每一列,代表数据实例的属性,比如城市的人口,学生的身高

In [49]:
df4[df4['成绩'] > 80]

Unnamed: 0,学号,班级,成绩
小明,1,二班,92
小丽,4,三班,88


In [52]:
df4[df4.成绩 > 80]

Unnamed: 0,学号,班级,成绩
小明,1,二班,92
小丽,4,三班,88


In [54]:
df4[(df4['成绩'] > 80) & (df4['班级'] == '三班')]

Unnamed: 0,学号,班级,成绩
小丽,4,三班,88


#### 获得DataFrame的前三行
head

In [55]:
df4.head(2)

Unnamed: 0,学号,班级,成绩
小明,1,二班,92
小红,2,一班,67
