In [2]:
import numpy as np
import pandas as pd

# 三、Pandas数据结构-DataFrame
## DataFrame

DataFrame是一个【表格型】的数据结构，可以看做是【由Series组成的字典】（共用同一个索引）。DataFrame由按一定顺序排列的多列数据组成。设计初衷是将Series的使用场景从一维拓展到多维。DataFrame既有行索引，也有列索引。

- 行索引：index
- 列索引：columns
- 值：values（numpy的二维数组）

### 1）DataFrame的创建

最常用的方法是传递一个字典来创建。DataFrame以字典的键作为每一【列】的名称，以字典的值（一个数组）作为每一列。

此外，DataFrame会自动加上每一行的索引（和Series一样）。

同Series一样，若传入的列与字典的键不匹配，则相应的值为NaN

#### 字典方式创建DataFrame

In [4]:
# 字典方式创建DataFrame
data = {
    'name':['千锋', 'Python','Pandas'],
    'age':[11,30,20]
}
df = pd.DataFrame(data)
df

Unnamed: 0,name,age
0,千锋,11
1,Python,30
2,Pandas,20


#### DataFrame属性和方法

- values 值
- columns 列索引
- index 行索引
- shape 形状
- head() 查看前几行数据
- tail() 查看后几行数据
- describe() 相当于对数据集进行概览，会输出该数据集每一列数据的计数、最大值、最小值等

In [10]:
display(df)
df.values # Numpy的二维数组
df.columns # 列索引
df.index # 行索引
df.shape # 形状

Unnamed: 0,name,age
0,千锋,11
1,Python,30
2,Pandas,20


(3, 2)

In [12]:
df.head(2) # 获取DataFrame前几行数据，默认是前5行

Unnamed: 0,name,age
0,千锋,11
1,Python,30


In [14]:
df.tail(2) # 获取DataFrame后几行数据，默认是后5行

Unnamed: 0,name,age
1,Python,30
2,Pandas,20


In [16]:
df.describe()

Unnamed: 0,age
count,3.0
mean,20.333333
std,9.504385
min,11.0
25%,15.5
50%,20.0
75%,25.0
max,30.0


In [19]:
# 设置行索引
df.index = list('abc')
# 设置列索引
df.columns = ['name2','age2']
df

Unnamed: 0,name2,age2
a,千锋,11
b,Python,30
c,Pandas,20


In [20]:
# 创建时指定行索引
data = {
    'name':['千锋', 'Python','Pandas'],
    'age':[11,30,20]
}
df = pd.DataFrame(data, index=['A','B','C'])
df

Unnamed: 0,name,age
A,千锋,11
B,Python,30
C,Pandas,20


#### 创建DataFrame的其他方式

In [24]:
# 通过Numpy 二维数组创建 DataFrame
df = pd.DataFrame(
    data=np.random.randint(10,100,size=(4,6)),
    index=['小明','小红','小黄','小绿'],
    columns=['语文','数学','英语','化学','物理','生物']
)
df

Unnamed: 0,语文,数学,英语,化学,物理,生物
小明,55,36,13,36,24,48
小红,75,74,45,49,69,88
小黄,20,63,38,90,15,54
小绿,63,74,54,45,58,34


### 2）DataFrame的索引

#### (1) 对列进行索引

- 通过类似字典的方式
- 通过属性的方式

可以将DataFrame的列获取为一个Series。返回的Series拥有原DataFrame相同的索引，且name属性也已经设置好了，就是相应的列名。

In [25]:
df = pd.DataFrame(
    data=np.random.randint(10,100,size=(4,6)),
    index=['小明','小红','小黄','小绿'],
    columns=['语文','数学','英语','化学','物理','生物']
)
df

Unnamed: 0,语文,数学,英语,化学,物理,生物
小明,93,30,65,53,98,99
小红,84,17,13,64,18,77
小黄,66,57,36,69,39,31
小绿,28,74,74,56,47,31


In [30]:
df.语文,type(df.语文) # Series类型，name属性为列名
df['语文']

小明    93
小红    84
小黄    66
小绿    28
Name: 语文, dtype: int32

In [34]:
# 使用双中括号获取的数据，返回的类型为DataFrame
df[['语文','化学']]
df[['语文']],type(df[['语文']])

(    语文
 小明  93
 小红  84
 小黄  66
 小绿  28,
 pandas.core.frame.DataFrame)

#### (2) 对行进行索引

- 使用.loc[ ]加index来进行行索引
- 使用.iloc[ ]加整数来进行行索引

同样返回一个Series，index为原来的columns。

In [40]:
# 不能使用以下两种方式对行进行索引
# df['小明']
# df.小明

# 只能使用.loc[]或者.iloc[]，返回Series类型，name属性值为行的显示索引
df.loc['小明'] # 使用显示行索引（loc[]）
df.iloc[1] # 使用隐式行索引（iloc[]）

语文    84
数学    17
英语    13
化学    64
物理    18
生物    77
Name: 小红, dtype: int32

In [47]:
# 使用两个中括号，返回的数据类型为DataFrame
display(df.loc[['小明', '小绿']])
display(df.loc[['小明']])
# iloc[]：双中括号取值
display(df.iloc[[0,2]])
display(df.iloc[[1]])
display(df.iloc[[0,-1]])

Unnamed: 0,语文,数学,英语,化学,物理,生物
小明,93,30,65,53,98,99
小绿,28,74,74,56,47,31


Unnamed: 0,语文,数学,英语,化学,物理,生物
小明,93,30,65,53,98,99


Unnamed: 0,语文,数学,英语,化学,物理,生物
小明,93,30,65,53,98,99
小黄,66,57,36,69,39,31


Unnamed: 0,语文,数学,英语,化学,物理,生物
小红,84,17,13,64,18,77


Unnamed: 0,语文,数学,英语,化学,物理,生物
小明,93,30,65,53,98,99
小绿,28,74,74,56,47,31


#### (3) 对元素索引的方法

- 使用列索引
- 使用行索引(iloc[3,1]相当于两个参数;iloc[[3,3]] 里面的[3,3]看做一个参数)
- 使用values属性（二维numpy数组）

In [48]:
df

Unnamed: 0,语文,数学,英语,化学,物理,生物
小明,93,30,65,53,98,99
小红,84,17,13,64,18,77
小黄,66,57,36,69,39,31
小绿,28,74,74,56,47,31


In [56]:
# 先取列，再取行（取小明的语文成绩）
display(df['语文']['小明'])
display(df['语文'][0])
display(df.语文[0])
display(df.语文.小明)
display(df['语文'].loc['小明'])
display(df['语文'].iloc[0])

np.int32(93)

  display(df['语文'][0])


np.int32(93)

  display(df.语文[0])


np.int32(93)

np.int32(93)

np.int32(93)

np.int32(93)

In [67]:
# 先取行，再取列（取小明的语文成绩）
display(df.loc['小明'])
display(df.loc['小明']['语文'])
display(df.loc['小明'].loc['语文'])
display(df.loc['小明'][0])
display(df.loc['小明'].iloc[0])
display(df.iloc[0]['语文'])
display(df.iloc[0][0])
display(df.iloc[0].iloc[0])
# 使用逗号分隔
display(df.iloc[0, 0])
display(df.loc['小明', '语文'])

语文    93
数学    30
英语    65
化学    53
物理    98
生物    99
Name: 小明, dtype: int32

np.int32(93)

np.int32(93)

  display(df.loc['小明'][0])


np.int32(93)

np.int32(93)

np.int32(93)

  display(df.iloc[0][0])


np.int32(93)

np.int32(93)

np.int32(93)

np.int32(93)

### 3）DataFrame的切片

【注意】 直接用中括号时：

- 索引表示的是列索引
- 切片表示的是行切片

In [68]:
df

Unnamed: 0,语文,数学,英语,化学,物理,生物
小明,93,30,65,53,98,99
小红,84,17,13,64,18,77
小黄,66,57,36,69,39,31
小绿,28,74,74,56,47,31


In [74]:
# 行切片
display(df[1:3]) # 左闭右开，隐式行索引切切片
display(df['小红':'小绿']) # 左闭右闭，显式行索引切切片
# 使用loc、iloc
display(df.iloc[1:3]) # 左闭右开，隐式行索引切切片
display(df.loc['小红':'小绿']) # 左闭右闭，显式行索引切切片

Unnamed: 0,语文,数学,英语,化学,物理,生物
小红,84,17,13,64,18,77
小黄,66,57,36,69,39,31


Unnamed: 0,语文,数学,英语,化学,物理,生物
小红,84,17,13,64,18,77
小黄,66,57,36,69,39,31
小绿,28,74,74,56,47,31


Unnamed: 0,语文,数学,英语,化学,物理,生物
小红,84,17,13,64,18,77
小黄,66,57,36,69,39,31


Unnamed: 0,语文,数学,英语,化学,物理,生物
小红,84,17,13,64,18,77
小黄,66,57,36,69,39,31
小绿,28,74,74,56,47,31


In [77]:
# 列切片
# 对列做切片时，必须先对行做切片
display(df.iloc[:,1:4]) # 行列切片操作使用逗号分隔，隐式列索引切片，左闭右开
display(df.loc[:,'数学':'物理']) # 显式式列索引切片，左闭右闭

Unnamed: 0,数学,英语,化学
小明,30,65,53
小红,17,13,64
小黄,57,36,69
小绿,74,74,56


Unnamed: 0,数学,英语,化学,物理
小明,30,65,53,98
小红,17,13,64,18
小黄,57,36,69,39
小绿,74,74,56,47


In [83]:
# 练习：同时对行、列做切片（先对行切片，后对列切片）
# 获取小红到小黄的数学、英语、化学成绩
display(df.loc['小红':'小黄','数学':'化学']) # 左闭右闭
display(df.iloc[1:3,1:4]) # 左闭右开

Unnamed: 0,数学,英语,化学
小红,17,13,64
小黄,57,36,69


Unnamed: 0,数学,英语,化学
小红,17,13,64
小黄,57,36,69


In [89]:
# 获取小明、小绿的语文、化学成绩（获取不连续的多行、多列）
display(df.loc[['小明','小绿'],['语文','化学']])
display(df.iloc[[0,-1],[0,3]])

Unnamed: 0,语文,化学
小明,93,53
小绿,28,56


Unnamed: 0,语文,化学
小明,93,53
小绿,28,56


### 4）DataFrame的运算

#### （1） DataFrame之间的运算

- 在运算中自动对齐索引的数据 
- 如果索引不对应，则补NaN
- DataFrame没有广播机制 

##### 创建DataFrame df1 不同人员的各科目成绩，月考一

In [90]:
df1 = pd.DataFrame(
    data=np.random.randint(10,100,size=(3,3)),
    index=['小明','小红','小黄'],
    columns=['语文','数学','英语']
)
df1

Unnamed: 0,语文,数学,英语
小明,64,47,57
小红,34,33,53
小黄,18,27,46


In [91]:
df2 = pd.DataFrame(
    data=np.random.randint(10,100,size=(3,3)),
    index=['小明','小红','小黄'],
    columns=['语文','数学','英语']
)
df2

Unnamed: 0,语文,数学,英语
小明,31,35,69
小红,31,27,11
小黄,57,51,43


###### DataFrame和标量之间的计算

In [93]:
# 其他运算与加法一直被
df1 + 100

Unnamed: 0,语文,数学,英语
小明,164,147,157
小红,134,133,153
小黄,118,127,146


###### DataFrame之间的运算

In [96]:
df1+df2 # 对应索引的数据之和

Unnamed: 0,语文,数学,英语
小明,95,82,126
小红,65,60,64
小黄,75,78,89


In [98]:
df3 = pd.DataFrame(
    data=np.random.randint(10,100,size=(4,6)),
    index=['小明','小红','小黄','小绿'],
    columns=['语文','数学','英语','物理','化学','生物']
)
df3

Unnamed: 0,语文,数学,英语,物理,化学,生物
小明,22,59,30,96,73,90
小红,92,35,92,89,40,23
小黄,83,97,38,11,68,43
小绿,16,13,87,58,20,51


In [100]:
# 对应索引之和，如果其中一个df的索引位置在另一个df中没有或者为NaN，那么计算得到的值为NaN
df1 + df3

Unnamed: 0,化学,数学,物理,生物,英语,语文
小明,,106.0,,,87.0,86.0
小红,,68.0,,,145.0,126.0
小绿,,,,,,
小黄,,124.0,,,84.0,101.0


###### 使用.add()函数，填充数据

In [107]:
# 与Series一致，如果计算的某个df索引不存在或者值为NaN，那么填充为0（根据需要设置填充值），然后计算
df1.add(df3, fill_value=0) # 加法
df1.divide(df3, fill_value=2) # 除法
df1.multiply(df3, fill_value=1) # 乘法

Unnamed: 0,化学,数学,物理,生物,英语,语文
小明,73.0,2773.0,96.0,90.0,1710.0,1408.0
小红,40.0,1155.0,89.0,23.0,4876.0,3128.0
小绿,20.0,13.0,58.0,51.0,87.0,16.0
小黄,68.0,2619.0,11.0,43.0,1748.0,1494.0


创建DataFrame df2 不同人员的各科目成绩，月考二

#### （2）Series与DataFrame之间的运算

- 使用Python操作符：以行为单位操作（参数必须是行），对所有行都有效。

  - 类似于numpy中二维数组与一维数组的运算，但可能出现NaN

- 使用pandas操作函数：

  - axis=0：以列为单位操作（参数必须是列），对所有列都有效。
  - axis=1：以行为单位操作（参数必须是行），对所有行都有效。

In [108]:
df1

Unnamed: 0,语文,数学,英语
小明,64,47,57
小红,34,33,53
小黄,18,27,46


In [115]:
# 创建Series，索引为df1的列索引名称
s = pd.Series([100,10,1], index=df1.columns)
s

语文    100
数学     10
英语      1
dtype: int64

In [120]:
# 对应的列索引的所有行都会加（计算）对应的值
df1 + s # 列索引对应计算可以使用，行索引必须使用函数
# axis : {0 or 'index', 1 or 'columns'}，默认axis='columns'
df1.add(s, axis='columns')
df1.add(s, axis=1)

Unnamed: 0,语文,数学,英语
小明,164,57,58
小红,134,43,54
小黄,118,37,47


In [117]:
# 创建Series，索引为df1的行索引名称
s2 = pd.Series([100,10,1], index=df1.index)
s2

小明    100
小红     10
小黄      1
dtype: int64

In [124]:
# 对应的行索引的所有行都会加（计算）对应的值，行索引计算不能使用+、-、*、/、...，使用函数必须指定axis=0/axis='index'
# 计算规则：df1的行数据，每个元素都与对应索引的s2数据进行计算
df1.add(s2, axis=0)
df1.add(s2, axis='index')

Unnamed: 0,语文,数学,英语
小明,164,147,157
小红,44,43,63
小黄,19,28,47
