Pandas 的数据结构：Pandas 主要有 Series（一维数组），DataFrame（二维数组），Panel（三维数组），Panel4D（四维数组），PanelND（更多维数组）等数据结构。其中 Series 和 DataFrame 应用的最为广泛。

Series 是一维带标签的数组，它可以包含任何数据类型。包括整数，字符串，浮点数，Python 对象等。Series 可以通过标签来定位。
DataFrame 是二维的带标签的数据结构。我们可以通过标签来定位数据。这是 NumPy 所没有的。


In [93]:
import pandas as pd
print(pd.__version__)

0.22.0


创建 Series 数据类型
Pandas 中，Series 可以被看作由 1 列数据组成的数据集。

创建 Series 语法：s = pd.Series(data, index=index)，可以通过多种方式进行创建，以下介绍了 3 个常用方法

In [4]:
# 从列表创建 Series
arr = [0, 1, 2, 3, 4]
s1 = pd.Series(arr)  # 如果不指定索引，则默认从 0 开始
s1

0    0
1    1
2    2
3    3
4    4
dtype: int64

In [94]:
# 从 Ndarray 创建 Series
import numpy as np
n = np.random.randn(5)  # 创建一个随机 Ndarray 数组

index = ['a', 'b', 'c', 'd', 'e']
s2 = pd.Series(n, index=index)
s2

a    0.649016
b   -1.105235
c    0.086498
d    1.453642
e   -2.327893
dtype: float64

In [6]:
# 从字典创建 Series
d = {'a': 1, 'b': 2, 'c': 3, 'd': 4, 'e': 5}
s3 = pd.Series(d)
s3

a    1
b    2
c    3
d    4
e    5
dtype: int64

Series 基本操作

In [7]:
# 修改 Series 索引
print(s1)  # 以 s1 为例

s1.index = ['A', 'B', 'C', 'D', 'E']  # 修改后的索引
s1

0    0
1    1
2    2
3    3
4    4
dtype: int64


A    0
B    1
C    2
D    3
E    4
dtype: int64

In [8]:
# Series 纵向拼接
s4 = s3.append(s1)  # 将 s1 拼接到 s3
s4

a    1
b    2
c    3
d    4
e    5
A    0
B    1
C    2
D    3
E    4
dtype: int64

In [9]:
# Series 按指定索引删除元素
print(s4)
s4 = s4.drop('e')  # 删除索引为 e 的值
s4

a    1
b    2
c    3
d    4
e    5
A    0
B    1
C    2
D    3
E    4
dtype: int64


a    1
b    2
c    3
d    4
A    0
B    1
C    2
D    3
E    4
dtype: int64

In [10]:
# Series 修改指定索引元素
s4['A'] = 6  # 修改索引为 A 的值 = 6
s4

a    1
b    2
c    3
d    4
A    6
B    1
C    2
D    3
E    4
dtype: int64

In [11]:
# Series 按指定索引查找元素
s4['B']

1

In [12]:
# Series 切片操作
# 例如对s4的前 3 个数据访问
s4[:3]

a    1
b    2
c    3
dtype: int64

Series 运算

Series 加法运算
Series 的加法运算是按照索引计算，如果索引不同则填充为 NaN（空值）

In [13]:
s4.add(s3)

A    NaN
B    NaN
C    NaN
D    NaN
E    NaN
a    2.0
b    4.0
c    6.0
d    8.0
e    NaN
dtype: float64

Series 减法运算
Series的减法运算是按照索引对应计算，如果不同则填充为 NaN（空值）

In [14]:
s4.sub(s3)

A    NaN
B    NaN
C    NaN
D    NaN
E    NaN
a    0.0
b    0.0
c    0.0
d    0.0
e    NaN
dtype: float64

In [15]:
# 类似乘法，除法运算也一样
s4.mul(s3)  # 乘法运算
s4.div(s3)  # 除法运算


A    NaN
B    NaN
C    NaN
D    NaN
E    NaN
a    1.0
b    1.0
c    1.0
d    1.0
e    NaN
dtype: float64

Series 求中位数


In [16]:
s4.median()

3.0

In [17]:
# Series 求和
s4.sum()

26

In [18]:
# Series 求最大值 最小值
s4.max()
s4.min()

1

创建 DataFrame 数据类型

与 Sereis 不同，DataFrame 可以存在多列数据。一般情况下，DataFrame 也更加常用。

In [19]:
# 通过numpy数组创建DataFrame
dates = pd.date_range('today',periods=6)  #  定义时间序列作为index
num_arr = np.random.randn(6,4) #  传入numpy随机数组
columns = ['A','B','C','D'] #  将列表作为列名
df1 = pd.DataFrame(num_arr,index=dates,columns=columns)
df1



Unnamed: 0,A,B,C,D
2019-02-16 09:55:30.432911,0.00845,-0.709988,-1.22487,1.556299
2019-02-17 09:55:30.432911,1.044454,-0.4335,0.21579,0.264296
2019-02-18 09:55:30.432911,-0.373,-1.468636,1.88419,1.03678
2019-02-19 09:55:30.432911,-0.80438,-0.61121,-0.839068,-1.977996
2019-02-20 09:55:30.432911,0.804378,0.293552,-0.20677,-0.935427
2019-02-21 09:55:30.432911,0.234864,-1.24239,-0.341239,-0.888837


In [20]:
# 通过字典数组创建DataFrame
data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}
labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
df2 = pd.DataFrame(data,index=labels)
df2


Unnamed: 0,age,animal,priority,visits
a,2.5,cat,yes,1
b,3.0,cat,yes,3
c,0.5,snake,no,2
d,,dog,yes,3
e,5.0,dog,no,2
f,2.0,cat,no,3
g,4.5,snake,no,1
h,,cat,yes,1
i,7.0,dog,no,2
j,3.0,dog,no,1


In [21]:
 # 查看 DataFrame 的数据类型
df2.dtypes

age         float64
animal       object
priority     object
visits        int64
dtype: object

DataFrame基本操作

In [22]:
#  预览 DataFrame 的前5行数据,此方法对快速了解陌生数据集结构十分有用
df2.head()
#  查看DataFrame 的后3行数据
df2.tail(3)

Unnamed: 0,age,animal,priority,visits
h,,cat,yes,1
i,7.0,dog,no,2
j,3.0,dog,no,1


In [31]:
# 查看DataFrame的索引
df2.index
# 查看DataFrame的列名
df2.columns
# 查看DataFrame的数值
df2.values

array([[2.5, 'cat', 'yes', 1],
       [3.0, 'cat', 'yes', 3],
       [0.5, 'snake', 'no', 2],
       [nan, 'dog', 'yes', 3],
       [5.0, 'dog', 'no', 2],
       [2.0, 'cat', 'no', 3],
       [4.5, 'snake', 'no', 1],
       [nan, 'cat', 'yes', 1],
       [7.0, 'dog', 'no', 2],
       [3.0, 'dog', 'no', 1]], dtype=object)

查看DataFrame的统计数据


In [None]:
df2.describe()

In [None]:
# DataFrame转置
df2.T

In [None]:
# 对DataFrame 进行按列排序
df2.sort_values(by='age',ascending=True) # 按age升序排列,默认升序排列，将ascending置为False

In [None]:
# 对 DataFrame 通过标签查询（多列）
df2[['age','animal']] # 传入一个列名组成的列表

In [None]:
# 对DataFrame进行位置查询
df2.iloc[1:3]  # 查询2,3行

DataFrame 副本拷贝

In [25]:
# 生成 DataFrame 副本，方便数据集被多个不同流程使用
df3 = df2.copy()
df3

Unnamed: 0,age,animal,priority,visits
a,2.5,cat,yes,1
b,3.0,cat,yes,3
c,0.5,snake,no,2
d,,dog,yes,3
e,5.0,dog,no,2
f,2.0,cat,no,3
g,4.5,snake,no,1
h,,cat,yes,1
i,7.0,dog,no,2
j,3.0,dog,no,1


In [26]:
# 根据 DataFrame 的下标值进行更改
# 修改第 2 行与第 1 列对应的值 3.0 → 2.0
df3.iat[1, 0] = 2  # 索引序号从 0 开始，这里为 1, 0
df3

Unnamed: 0,age,animal,priority,visits
a,2.5,cat,yes,1
b,2.0,cat,yes,3
c,0.5,snake,no,2
d,,dog,yes,3
e,5.0,dog,no,2
f,2.0,cat,no,3
g,4.5,snake,no,1
h,,cat,yes,1
i,7.0,dog,no,2
j,3.0,dog,no,1


In [None]:
# 根据 DataFrame 的标签对数据进行修改
df3.loc['f', 'age'] = 1.5
df3

In [27]:
# DataFrame 求平均值操作
df3.mean()

age       3.3125
visits    1.9000
dtype: float64

In [28]:
# 对DataFrame中任意列做求和操作
df3['age'].sum()

26.5

In [30]:
#  字符串操作
string = pd.Series(['A', 'B', 'C', 'Aaba', 'Baca',
                    np.nan, 'CABA', 'dog', 'cat'])
print(string)
string.str.upper()

0       A
1       B
2       C
3    Aaba
4    Baca
5     NaN
6    CABA
7     dog
8     cat
dtype: object


0       A
1       B
2       C
3    AABA
4    BACA
5     NaN
6    CABA
7     DOG
8     CAT
dtype: object

DataFrame缺失值操作

In [36]:
df4 = df3.copy()
print(df4)
df4.fillna(value=3,inplace=False)  # 将缺失值用3填充，若将inplace置为True,则会将df4也改变

   age animal priority  visits
a  2.5    cat      yes       1
b  2.0    cat      yes       3
c  0.5  snake       no       2
d  NaN    dog      yes       3
e  5.0    dog       no       2
f  2.0    cat       no       3
g  4.5  snake       no       1
h  NaN    cat      yes       1
i  7.0    dog       no       2
j  3.0    dog       no       1


Unnamed: 0,age,animal,priority,visits
a,2.5,cat,yes,1
b,2.0,cat,yes,3
c,0.5,snake,no,2
d,3.0,dog,yes,3
e,5.0,dog,no,2
f,2.0,cat,no,3
g,4.5,snake,no,1
h,3.0,cat,yes,1
i,7.0,dog,no,2
j,3.0,dog,no,1


In [39]:
# 删除存在缺失值的行
df5 = df3.copy()
print(df5)
df5.dropna(how='any')  # 任何存在 NaN 的行都将被删除

   age animal priority  visits
a  2.5    cat      yes       1
b  2.0    cat      yes       3
c  0.5  snake       no       2
d  NaN    dog      yes       3
e  5.0    dog       no       2
f  2.0    cat       no       3
g  4.5  snake       no       1
h  NaN    cat      yes       1
i  7.0    dog       no       2
j  3.0    dog       no       1


Unnamed: 0,age,animal,priority,visits
a,2.5,cat,yes,1
b,2.0,cat,yes,3
c,0.5,snake,no,2
e,5.0,dog,no,2
f,2.0,cat,no,3
g,4.5,snake,no,1
i,7.0,dog,no,2
j,3.0,dog,no,1



pandas的拼接操作

pandas的拼接分为两种：

级联：pd.concat, pd.append
合并：pd.merge, pd.join

In [47]:
#  DataFrame 按指定列对齐
left = pd.DataFrame({'key': ['foo1', 'foo2'], 'one': [1, 2]})
right = pd.DataFrame({'key': ['foo2', 'foo3'], 'two': [4, 5]})

print(left)
print(right)

# 按照 key 列对齐连接，只存在 foo2 相同，所以最后变成一行
pd.merge(left, right, on='key',how='inner',indicator=True) # 默认inner内连接，可以将how置为left，right，outer,
# indicator=True会将合并的记录放在新的一列

    key  one
0  foo1    1
1  foo2    2
    key  two
0  foo2    4
1  foo3    5


Unnamed: 0,key,one,two,_merge
0,foo2,2,4,both


In [None]:
# pandas使用pd.concat函数，与np.concatenate函数类似，只是多了一些参数：
pd.concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False,
          keys=None, levels=None, names=None, verify_integrity=False,
          copy=True)

In [53]:
# 简单级联，和np.concatenate一样，优先增加行数（默认axis=0）
df1 = pd.DataFrame(np.random.randint(0,150,size = (4,3)),columns=['Python','Math','En'],index=list('abcd'))
df2 = pd.DataFrame(np.random.randint(0,150,size = (5,3)),columns=['Python','Math','En'],index=list('efghi'))
display(df1,df2)


Unnamed: 0,Python,Math,En
a,141,81,45
b,94,126,25
c,61,83,126
d,49,8,60


Unnamed: 0,Python,Math,En
e,146,75,28
f,95,84,76
g,90,138,82
h,110,71,25
i,8,6,113


In [55]:
pd.concat([df1,df2],axis=0) # 将axis=1,则按列拼接

Unnamed: 0,Python,Math,En
a,141,81,45
b,94,126,25
c,61,83,126
d,49,8,60
e,146,75,28
f,95,84,76
g,90,138,82
h,110,71,25
i,8,6,113


In [60]:
# 注意index在级联时可以重复，也可以选择忽略ignore_index，重新索引
# df4 = pd.concat([df1,df3],ignore_index=True)
# # df4 重新设置索引
# df4.index = list('abcdefgh')
# df4
# 或者使用多层索引 keys
# 期中
df1 = pd.DataFrame(np.random.randint(0,150,size = (4,3)),columns=['Python','Math','En'],index = list('ABCD'))
# 期末
df2 = pd.DataFrame(np.random.randint(0,150,size = (4,3)),columns=['Python','Math','En'],index = list('ABCD'))
display(df1,df2)

Unnamed: 0,Python,Math,En
A,59,103,22
B,100,68,17
C,142,116,50
D,79,94,40


Unnamed: 0,Python,Math,En
A,74,40,120
B,129,142,5
C,144,22,41
D,38,126,58


In [63]:
pd.concat([df1,df2],ignore_index=True)
df3 = pd.concat([df1,df2],keys = ['期中','期末'])  #  使用多层索引keys
df3

Unnamed: 0,Unnamed: 1,Python,Math,En
期中,A,59,103,22
期中,B,100,68,17
期中,C,142,116,50
期中,D,79,94,40
期末,A,74,40,120
期末,B,129,142,5
期末,C,144,22,41
期末,D,38,126,58


In [70]:
df3.unstack(level=0).stack() 

Unnamed: 0,Unnamed: 1,Python,Math,En
A,期中,59,103,22
A,期末,74,40,120
B,期中,100,68,17
B,期末,129,142,5
C,期中,142,116,50
C,期末,144,22,41
D,期中,79,94,40
D,期末,38,126,58


不匹配级联

不匹配指的是级联的维度的索引不一致。例如纵向级联时列索引不一致，横向级联时行索引不一致

有3种连接方式：

外连接：补NaN（默认模式）

In [72]:
df4 = pd.DataFrame(np.random.randint(0,150,size=(4,3)),columns=['Python','Math','Chinese'],index=list('BCDE'))
pd.concat((df1,df4),join='outer')

Unnamed: 0,Chinese,En,Math,Python
A,,22.0,103,59
B,,17.0,68,100
C,,50.0,116,142
D,,40.0,94,79
B,93.0,,29,141
C,117.0,,126,98
D,22.0,,104,138
E,18.0,,41,135


内连接：只连接匹配的项

In [79]:
# inner 将共同的列，进行合并
pd.concat((df1,df4),join='inner',axis=0)

Unnamed: 0,Python,Math
A,59,103
B,100,68
C,142,116
D,79,94
B,141,29
C,98,126
D,138,104
E,135,41


连接指定轴 join_axes

In [84]:
# df1.columns
# output：
# Index(['Python', 'Math', 'En'], dtype='object')
 
# df4.columns
# output：
# Index(['Python', 'Math', 'Chinese'], dtype='object')
 
# axis
pd.concat((df1,df4),join_axes=[df1.columns])  # 按照axes合并
pd.concat((df1,df4),join_axes=[df4.columns])

Unnamed: 0,Python,Math,Chinese
A,59,103,
B,100,68,
C,142,116,
D,79,94,
B,141,29,93.0
C,98,126,117.0
D,138,104,22.0
E,135,41,18.0


使用append()函数添加

由于在后面级联的使用非常普遍，因此有一个函数append专门用于在后面添加

In [90]:
# append追加
df2.index = list('EFGH')
df1.append(df2)

Unnamed: 0,Python,Math,En
A,59,103,22
B,100,68,17
C,142,116,50
D,79,94,40
E,74,40,120
F,129,142,5
G,144,22,41
H,38,126,58


使用pd.merge()合并
merge的参数

on：列名，join用来对齐的那一列的名字，用到这个参数的时候一定要保证左表和右表用来对齐的那一列都有相同的列名。
left_on：左表对齐的列，可以是列名，也可以是和dataframe同样长度的arrays。
right_on：右表对齐的列，可以是列名，也可以是和dataframe同样长度的arrays。
left_index/ right_index: 如果是True的haunted以index作为对齐的key
how：数据融合的方法。
sort：根据dataframe合并的keys按字典顺序排序，默认是，如果置false可以提高表现。


result = pd.merge(left, right, on=['key1', 'key2'])
 
#left
#只保留左表的所有数据
result = pd.merge(left, right, how='left', on=['key1', 'key2'])
 
#right
#保留右表的所有数据
result = pd.merge(left, right, how='right', on=['key1', 'key2'])
 
#outer
#保留两个表的所有信息
result = pd.merge(left, right, how='outer', on=['key1', 'key2'])
 
#inner
#只保留两个表中公共部分的信息
result = pd.merge(left, right, how='inner', on=['key1', 'key2'])


In [None]:
# suffix后缀参数
# 如果和表合并的过程中遇到有一列两个表都同名，但是值不同，合并的时候又都想保留下来，就可以用suffixes给每个表的重复列名增加后缀
result = pd.merge(left, right, on='k', suffixes=['_l', '_r'])

组合多个dataframe

In [None]:
result = left.join([right, right2])

merge与concat的区别在于，merge需要依据某一共同的行或列来进行合并

使用pd.merge()合并时，会自动根据两者相同column名称的那一列，作为key来进行合并。

注意每一列元素的顺序不要求一致

In [None]:
# 一对一合并，merge 默认情况下，列增加了
df1.merge(df2)

key的规范化

In [None]:
# 使用on=显式指定哪一列为key,当有多个key相同时使用
# 指明on根据那一列进行融合，不指名，根据根据所有的共同的列名进行融合
# 不指名的时候，语文和id都是共同列
df2.merge(df3,on = 'id',suffixes=('_期中','_期末') )
# df2 左边
# df4 右边
df2.merge(df4,left_on='id',right_on='Id')
# 使用left_on和right_on指定左右两边的列作为key，当左右两边的key都不想等时使用
df2.merge(df5,left_on='id',right_index=True)

DataFrame 文件操作

In [None]:
# CSV 文件写入
# df3.to_csv('animal.csv')
print("写入成功.")
# CSV 文件读取
df_animal = pd.read_csv('animal.csv')
df_animal

In [None]:
# Excel 写入操作
df3.to_excel('animal.xlsx', sheet_name='Sheet1')
print("写入成功.")
# Excel 读取操作
pd.read_excel('animal.xlsx', 'Sheet1', index_col=None, na_values=['NA'])

进阶部分
时间序列索引

In [100]:
# 建立一个以 2018 年每一天为索引，值为随机数的 Series
dti = pd.date_range(start='2018-01-01', end='2018-12-31', freq='D')
s = pd.Series(np.random.rand(len(dti)), index=dti)
s
# 统计s 中每一个周三对应值的和, s.index.weekday 可以显示每一天的属于周几
# 周一从 0 开始
s[s.index.weekday == 2].sum()


26.090860397242917

In [107]:
# 统计s中每个月值的平均值
s.resample('M').mean()
# 统计s中每周的平均值
s.resample('W').sum()

2018-01-31    0.488072
2018-02-28    0.403334
2018-03-31    0.522561
2018-04-30    0.651926
2018-05-31    0.474132
2018-06-30    0.448783
2018-07-31    0.440539
2018-08-31    0.501840
2018-09-30    0.484004
2018-10-31    0.540604
2018-11-30    0.441876
2018-12-31    0.510264
Freq: M, dtype: float64

In [117]:
# 将 Series 中的时间进行转换（秒转分钟）
s = pd.date_range('today', periods=100, freq='S')

ts = pd.Series(np.random.randint(0, 500, len(s)), index=s)
ts.resample('Min').sum()


2019-02-16 17:52:00     8794
2019-02-16 17:53:00    14822
2019-02-16 17:54:00     1325
Freq: T, dtype: int32

In [118]:
# UTC 世界时间标准
s = pd.date_range('today', periods=1, freq='D')  # 获取当前时间
ts = pd.Series(np.random.randn(len(s)), s)  # 随机数值
ts_utc = ts.tz_localize('UTC')  # 转换为 UTC 时间
ts_utc
# 转换为上海所在时区
ts_utc.tz_convert('Asia/Shanghai')

2019-02-17 01:54:00.667433+08:00    0.620698
Freq: D, dtype: float64

In [119]:
# 不同时间表示方式的转换
rng = pd.date_range('1/1/2018', periods=5, freq='M')
ts = pd.Series(np.random.randn(len(rng)), index=rng)
print(ts)
ps = ts.to_period()
print(ps)
ps.to_timestamp()

2018-01-31    0.187489
2018-02-28   -0.241673
2018-03-31    2.765857
2018-04-30   -0.208813
2018-05-31   -0.195036
Freq: M, dtype: float64
2018-01    0.187489
2018-02   -0.241673
2018-03    2.765857
2018-04   -0.208813
2018-05   -0.195036
Freq: M, dtype: float64


2018-01-01    0.187489
2018-02-01   -0.241673
2018-03-01    2.765857
2018-04-01   -0.208813
2018-05-01   -0.195036
Freq: MS, dtype: float64

Series 多重索引 [选学]

创建多重索引 Series¶
构建一个 letters = ['A', 'B', 'C'] 和 numbers = list(range(10))为索引，值为随机数的多重索引 Series。

In [120]:
letters = ['A', 'B', 'C']
numbers = list(range(10))

mi = pd.MultiIndex.from_product([letters, numbers])  # 设置多重索引
s = pd.Series(np.random.rand(30), index=mi)  # 随机数
s

A  0    0.952241
   1    0.683205
   2    0.436227
   3    0.934933
   4    0.215862
   5    0.672577
   6    0.566413
   7    0.759623
   8    0.890583
   9    0.927766
B  0    0.466171
   1    0.031277
   2    0.518895
   3    0.613070
   4    0.926318
   5    0.751667
   6    0.528786
   7    0.976287
   8    0.730694
   9    0.084857
C  0    0.583142
   1    0.175618
   2    0.991799
   3    0.118714
   4    0.314814
   5    0.892941
   6    0.844621
   7    0.442738
   8    0.486233
   9    0.364461
dtype: float64

In [124]:
# 多重索引 Series 查询
# 查询索引为 1，3，6 的值
s.loc[:,[1,3,6]]

A  1    0.683205
   3    0.934933
   6    0.566413
B  1    0.031277
   3    0.613070
   6    0.528786
C  1    0.175618
   3    0.118714
   6    0.844621
dtype: float64

In [125]:
# 多重索引 Series 切片
s.loc[pd.IndexSlice[:'B', 5:]]

A  5    0.672577
   6    0.566413
   7    0.759623
   8    0.890583
   9    0.927766
B  5    0.751667
   6    0.528786
   7    0.976287
   8    0.730694
   9    0.084857
dtype: float64

DataFrame 多重索引 [选学]

 根据多重索引创建 DataFrame
创建一个以 letters = ['A', 'B'] 和 numbers = list(range(6))为索引，值为随机数据的多重索引 DataFrame。

In [126]:
frame = pd.DataFrame(np.arange(12).reshape(6, 2),
                     index=[list('AAABBB'), list('123123')],
                     columns=['hello', 'shiyanlou'])
frame

Unnamed: 0,Unnamed: 1,hello,shiyanlou
A,1,0,1
A,2,2,3
A,3,4,5
B,1,6,7
B,2,8,9
B,3,10,11


In [127]:
# 多重索引设置列名称
frame.index.names = ['first', 'second']
frame

Unnamed: 0_level_0,Unnamed: 1_level_0,hello,shiyanlou
first,second,Unnamed: 2_level_1,Unnamed: 3_level_1
A,1,0,1
A,2,2,3
A,3,4,5
B,1,6,7
B,2,8,9
B,3,10,11


In [128]:
# DataFrame 多重索引分组求和
frame.groupby('first').sum()

Unnamed: 0_level_0,hello,shiyanlou
first,Unnamed: 1_level_1,Unnamed: 2_level_1
A,6,9
B,24,27


In [129]:
# DataFrame 行列名称转换
print(frame)
frame.stack()

              hello  shiyanlou
first second                  
A     1           0          1
      2           2          3
      3           4          5
B     1           6          7
      2           8          9
      3          10         11


first  second           
A      1       hello         0
               shiyanlou     1
       2       hello         2
               shiyanlou     3
       3       hello         4
               shiyanlou     5
B      1       hello         6
               shiyanlou     7
       2       hello         8
               shiyanlou     9
       3       hello        10
               shiyanlou    11
dtype: int32

In [133]:
# DataFrame 索引转换
print(frame)
frame.unstack()

              hello  shiyanlou
first second                  
A     1           0          1
      2           2          3
      3           4          5
B     1           6          7
      2           8          9
      3          10         11


Unnamed: 0_level_0,hello,hello,hello,shiyanlou,shiyanlou,shiyanlou
second,1,2,3,1,2,3
first,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2
A,0,2,4,1,3,5
B,6,8,10,7,9,11


DataFrame 条件查找

In [134]:
# 示例数据

data = {'animal': ['cat', 'cat', 'snake', 'dog', 'dog', 'cat', 'snake', 'cat', 'dog', 'dog'],
        'age': [2.5, 3, 0.5, np.nan, 5, 2, 4.5, np.nan, 7, 3],
        'visits': [1, 3, 2, 3, 2, 3, 1, 1, 2, 1],
        'priority': ['yes', 'yes', 'no', 'yes', 'no', 'no', 'no', 'yes', 'no', 'no']}

labels = ['a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j']
df = pd.DataFrame(data, index=labels)

In [135]:
# 查找age>3的全部信息
df[df['age'] > 3]

Unnamed: 0,age,animal,priority,visits
e,5.0,dog,no,2
g,4.5,snake,no,1
i,7.0,dog,no,2


In [136]:
# 根据行列索引切片
df.iloc[2:4, 1:3]

Unnamed: 0,animal,priority
c,snake,no
d,dog,yes


 DataFrame 多重条件查询
查找 age<3 且为 cat 的全部数据

In [137]:
df = pd.DataFrame(data, index=labels)

df[(df['animal'] == 'cat') & (df['age'] < 3)]

Unnamed: 0,age,animal,priority,visits
a,2.5,cat,yes,1
f,2.0,cat,no,3


In [None]:
# DataFrame 按关键字查询
df3[df3['animal'].isin(['cat', 'dog'])]
# DataFrame 按标签及列名查询
df.loc[df2.index[[3, 4, 8]], ['animal', 'age']]

DataFrame 多条件排序
按照 age 降序，visits 升序排列

In [138]:
df.sort_values(by=['age', 'visits'], ascending=[False, True])

Unnamed: 0,age,animal,priority,visits
i,7.0,dog,no,2
e,5.0,dog,no,2
g,4.5,snake,no,1
j,3.0,dog,no,1
b,3.0,cat,yes,3
a,2.5,cat,yes,1
f,2.0,cat,no,3
c,0.5,snake,no,2
h,,cat,yes,1
d,,dog,yes,3


DataFrame 多值替换
将 priority 列的 yes 值替换为 True，no 值替换为 False

In [139]:
df['priority'].map({'yes': True, 'no': False})

a     True
b     True
c    False
d     True
e    False
f    False
g    False
h     True
i    False
j    False
Name: priority, dtype: bool

In [None]:
# DataFrame 分组求和
df4.groupby('animal').sum()

使用列表拼接多个 DataFrame

In [None]:
temp_df1 = pd.DataFrame(np.random.randn(5, 4))  # 生成由随机数组成的 DataFrame 1
temp_df2 = pd.DataFrame(np.random.randn(5, 4))  # 生成由随机数组成的 DataFrame 2
temp_df3 = pd.DataFrame(np.random.randn(5, 4))  # 生成由随机数组成的 DataFrame 3

print(temp_df1)
print(temp_df2)
print(temp_df3)

pieces = [temp_df1, temp_df2, temp_df3]
pd.concat(pieces)

In [None]:
# 找出 DataFrame 表中和最小的列
df = pd.DataFrame(np.random.random(size=(5, 10)), columns=list('abcdefghij'))
print(df)
df.sum().idxmin()  # idxmax(), idxmin() 为 Series 函数返回最大最小值的索引值

In [None]:
# DataFrame 中每个元素减去每一行的平均值
df = pd.DataFrame(np.random.random(size=(5, 3)))
print(df)
df.sub(df.mean(axis=1), axis=0)

In [None]:
# DataFrame 分组，并得到每一组中最大三个数之和
df = pd.DataFrame({'A': list('aaabbcaabcccbbc'),
                   'B': [12, 345, 3, 1, 45, 14, 4, 52, 54, 23, 235, 21, 57, 3, 87]})
print(df)
df.groupby('A')['B'].nlargest(3).sum(level=0)

透视表 [选学]
当分析庞大的数据时，为了更好的发掘数据特征之间的关系，且不破坏原数据，就可以利用透视表 pivot_table 进行操作。

In [None]:
# 新建表将 A, B, C 列作为索引进行聚合。
df = pd.DataFrame({'A': ['one', 'one', 'two', 'three'] * 3,
                   'B': ['A', 'B', 'C'] * 4,
                   'C': ['foo', 'foo', 'foo', 'bar', 'bar', 'bar'] * 2,
                   'D': np.random.randn(12),
                   'E': np.random.randn(12)})

print(df)

pd.pivot_table(df, index=['A', 'B'])

In [None]:
# 透视表按指定行进行聚合
# 将该 DataFrame 的 D 列聚合，按照 A,B 列为索引进行聚合，聚合的方式为默认求均值
pd.pivot_table(df, values=['D'], index=['A', 'B'])

In [None]:
# 透视表聚合方式定义
# 上一题中 D 列聚合时，采用默认求均值的方法，若想使用更多的方式可以在 aggfunc 中实现
pd.pivot_table(df, values=['D'], index=['A', 'B'], aggfunc=[np.sum, len])

In [None]:
# 透视表利用额外列进行辅助分割
# D 列按照 A,B 列进行聚合时，若关心 C 列对 D 列的影响，可以加入 columns 值进行分析
pd.pivot_table(df, values=['D'], index=['A', 'B'],
               columns=['C'], aggfunc=np.sum)

In [None]:
#  透视表的缺省值处理
# 在透视表中由于不同的聚合方式，相应缺少的组合将为缺省值，可以加入 fill_value 对缺省值处理
pd.pivot_table(df, values=['D'], index=['A', 'B'],
               columns=['C'], aggfunc=np.sum, fill_value=0)

绝对类型 [选学]
在数据的形式上主要包括数量型和性质型，数量型表示着数据可数范围可变，而性质型表示范围已经确定不可改变，绝对型数据就是性质型数据的一种。

In [None]:
df = pd.DataFrame({"id": [1, 2, 3, 4, 5, 6], "raw_grade": [
                  'a', 'b', 'b', 'a', 'a', 'e']})
df["grade"] = df["raw_grade"].astype("category")
df

In [None]:
# 对绝对型数据重命名
df["grade"].cat.categories = ["very good", "good", "very bad"]
df

In [None]:
# 重新排列绝对型数据并补充相应的缺省值
df["grade"] = df["grade"].cat.set_categories(
    ["very bad", "bad", "medium", "good", "very good"])
df
# 对绝对型数据进行排序
df.sort_values(by="grade")
# 对绝对型数据进行分组
df.groupby("grade").size()

数据清洗 [选学]
常常我们得到的数据是不符合我们最终处理的数据要求，包括许多缺省值以及坏的数据，需要我们对数据进行清洗。

In [None]:
#  缺失值拟合
# 在FilghtNumber中有数值缺失，其中数值为按 10 增长，补充相应的缺省值使得数据完整，并让数据为 int 类型。
df = pd.DataFrame({'From_To': ['LoNDon_paris', 'MAdrid_miLAN', 'londON_StockhOlm',
                               'Budapest_PaRis', 'Brussels_londOn'],
                   'FlightNumber': [10045, np.nan, 10065, np.nan, 10085],
                   'RecentDelays': [[23, 47], [], [24, 43, 87], [13], [67, 32]],
                   'Airline': ['KLM(!)', '<Air France> (12)', '(British Airways. )',
                               '12. Air France', '"Swiss Air"']})
df['FlightNumber'] = df['FlightNumber'].interpolate().astype(int)
df

In [None]:
# 数据列拆分
# 其中From_to应该为两独立的两列From和To，将From_to依照_拆分为独立两列建立为一个新表。
temp = df.From_To.str.split('_', expand=True)
temp.columns = ['From', 'To']
temp

In [None]:
#  字符标准化
# 其中注意到地点的名字都不规范（如：londON应该为London）需要对数据进行标准化处理。
temp['From'] = temp['From'].str.capitalize()
temp['To'] = temp['To'].str.capitalize()

In [None]:
#删除坏数据加入整理好的数据将最开始的From_to列删除，加入整理好的From和to列。
df = df.drop('From_To', axis=1)
df = df.join(temp)
print(df)

In [None]:
# 去除多余字符  如同 airline 列中许多数据有许多其他字符，会对后期的数据分析有较大影响，需要对这类数据进行修正
df['Airline'] = df['Airline'].str.extract(
    '([a-zA-Z\s]+)', expand=False).str.strip()
df

In [None]:
#格式规范
#在 RecentDelays 中记录的方式为列表类型，由于其长度不一，这会为后期数据分析造成很大麻烦。这里将 RecentDelays 的列表拆开，取出列表中的相同位置元素作为一列，若为空值即用 NaN 代替。
delays = df['RecentDelays'].apply(pd.Series)

delays.columns = ['delay_{}'.format(n)
                  for n in range(1, len(delays.columns)+1)]

df = df.drop('RecentDelays', axis=1).join(delays)
df

数据预处理 [选学]

信息区间划分
班级一部分同学的数学成绩表，如下图所示

df=pd.DataFrame({'name':['Alice','Bob','Candy','Dany','Ella','Frank','Grace','Jenny'],'grades':[58,83,79,65,93,45,61,88]})

In [None]:
df = pd.DataFrame({'name': ['Alice', 'Bob', 'Candy', 'Dany', 'Ella',
                            'Frank', 'Grace', 'Jenny'], 'grades': [58, 83, 79, 65, 93, 45, 61, 88]})


def choice(x):
    if x > 60:
        return 1
    else:
        return 0


df.grades = pd.Series(map(lambda x: choice(x), df.grades))
df

数据去重


In [None]:
df = pd.DataFrame({'A': [1, 2, 2, 3, 4, 5, 5, 5, 6, 7, 7]})
df.loc[df['A'].shift() != df['A']]

Pandas 绘图操作
为了更好的了解数据包含的信息，最直观的方法就是将其绘制成图。

In [None]:
# Series 可视化
%matplotlib inline
ts = pd.Series(np.random.randn(100), index=pd.date_range('today', periods=100))
ts = ts.cumsum()
ts.plot()

In [None]:
# DataFrame 折线图
df = pd.DataFrame(np.random.randn(100, 4), index=ts.index,
                  columns=['A', 'B', 'C', 'D'])
df = df.cumsum()
df.plot()

In [None]:
#  DataFrame 散点图
df = pd.DataFrame({"xs": [1, 5, 2, 8, 1], "ys": [4, 2, 1, 9, 6]})
df = df.cumsum()
df.plot.scatter("xs", "ys", color='red', marker="*")

In [None]:
# DataFrame 柱形图
df = pd.DataFrame({"revenue": [57, 68, 63, 71, 72, 90, 80, 62, 59, 51, 47, 52],
                   "advertising": [2.1, 1.9, 2.7, 3.0, 3.6, 3.2, 2.7, 2.4, 1.8, 1.6, 1.3, 1.9],
                   "month": range(12)
                   })

ax = df.plot.bar("month", "revenue", color="yellow")
df.plot("month", "advertising", secondary_y=True, ax=ax)