# Pandas中Series和DataFrame基础功能详解

## 概述
### Series和DataFrame公有的一些重要的基础功能

## 重新索引排列

In [1]:
# 重新索引排列是指：可以将索引重新排列，若给出的新索引在旧索引中不存在时，会引入缺失值NaN。

# 重新索引排列不会改变原来的对象，而是会生成一个重新排列索引的对象。

# 使用Series和DataFrame的reindex()方法即可。
import pandas as pd

ser_res = pd.Series(['z1','z2','z3','z4'])
ser_res.reindex([4,3,2,1])

4    NaN
3     z4
2     z3
1     z2
dtype: object

In [2]:
ser_res

0    z1
1    z2
2    z3
3    z4
dtype: object

In [3]:
# 有时重新排列时，若新增一个之前没有的索引时值会自动填充NaN，若不想填充NaN，可以使用参数method= ‘ffill’，这时填充值会跟前面的值一样
ser_res.reindex([4,3,2,1], method='ffill')

4    z4
3    z4
2    z3
1    z2
dtype: object

In [4]:
# 同时也可以使用参数 fill_value 来自己指定值，如下
ser_res.reindex([4,3,2,1], fill_value=666)

4    666
3     z4
2     z3
1     z2
dtype: object

### DataFrame

In [5]:
# DataFrame也是一样的，若不指定，默认是重新排列行，若指定列，也可重新排序列。
dd = {
    'name' : ['bird_1', 'bird_2', 'bird_3'],
    'age' : [18, 19, 20]
}

pd_res = pd.DataFrame(dd)
pd_res

Unnamed: 0,name,age
0,bird_1,18
1,bird_2,19
2,bird_3,20


In [6]:
pd_res.reindex([2,1,0,3])

Unnamed: 0,name,age
2,bird_3,20.0
1,bird_2,19.0
0,bird_1,18.0
3,,


In [7]:
# 若需要重新排序列，只需指定参数columns即可
pd_res.reindex(columns=['age', 'name', 'sex'])

Unnamed: 0,age,name,sex
0,18,bird_1,
1,19,bird_2,
2,20,bird_3,


In [8]:
pd_res

Unnamed: 0,name,age
0,bird_1,18
1,bird_2,19
2,bird_3,20


### 删除指定索引

In [9]:
# Series
# 删除指定的一个或多个索引及其对应的值，使用drop()方法，默认是产生一个新的对象，不会改变原有对象。

# 删除多个索引时传入一个列表

# 注意：若指定的索引不存在时，会报错

ser_res = pd.Series(['z1','z2','z3','z4'])
ser_res.drop(0)

1    z2
2    z3
3    z4
dtype: object

In [10]:
ser_res.drop([0, 1])

2    z3
3    z4
dtype: object

In [11]:
# 上面使用drop后都会产生一个新的对象，不会改变原对象。若想直接在原对象上进行删除，可以使用参数 inplace= True （慎用！！！）
ser_res.drop([0, 1], inplace=True)
ser_res

2    z3
3    z4
dtype: object

In [12]:
# DadaFrame

# 同样，默认是删除行，若要删除列索引及值，使用axis参数，axis默认为0代表行，1代表列

dd = {
    'name' : ['bird_1', 'bird_2', 'bird_3'],
    'age' : [18, 19, 20]
}

pd_res = pd.DataFrame(dd)
pd_res

Unnamed: 0,name,age
0,bird_1,18
1,bird_2,19
2,bird_3,20


In [13]:
pd_res.drop([0, 2])

Unnamed: 0,name,age
1,bird_2,19


In [14]:
pd_res.drop(2, axis=0)

Unnamed: 0,name,age
0,bird_1,18
1,bird_2,19


In [15]:
pd_res.drop('name', axis=1)

Unnamed: 0,age
0,18
1,19
2,20


In [16]:
pd_res.drop('name', axis=1, inplace=True)

In [17]:
pd_res

Unnamed: 0,age
0,18
1,19
2,20


### 相同数据结构间的算术运算
#### 相同的数据结构（Series和DataFrame）间的算术运算，跟并集的思想类似，也就是没有对应的索引时，会自动填充NaN

In [18]:
# Series
res_1 = pd.Series([2,'z2','z3','z4'])

res_2 = pd.Series([3,'w2','w3','w4','w5'])

res_1_2 = res_1 + res_2
res_1_2

0       5
1    z2w2
2    z3w3
3    z4w4
4     NaN
dtype: object

In [19]:
# 若想填充自己指定的值时，可以使用add方法，参数fill_value
res_1 = pd.Series([2,5,3,7])

res_2 = pd.Series([3,3,4,4,5])

res_1_2 = res_1.add(res_2, fill_value=666)
res_1_2

0      5.0
1      8.0
2      7.0
3     11.0
4    671.0
dtype: float64

In [20]:
# DataFrame
# DataFrame数据结构算术运算时就比较刁钻了，必须是行和列索引都相同时才能相加，若有一个不同就是NaN
dd = {
    'name' : ['bird_1', 'bird_2', 'bird_3'],
    'age' : [18, 19, 20]
}

pd_res_1 = pd.DataFrame(dd)
pd_res_2 = pd.DataFrame([['x1','x2','x3'], ['y1','y2','y3'], ['z1','z2','z3']], index= [0,'b','c'], columns= ['name','az','sex'])

In [21]:
pd_res_1

Unnamed: 0,name,age
0,bird_1,18
1,bird_2,19
2,bird_3,20


In [22]:
pd_res_2

Unnamed: 0,name,az,sex
0,x1,x2,x3
b,y1,y2,y3
c,z1,z2,z3


In [23]:
pd_res_1+pd_res_2

Unnamed: 0,age,az,name,sex
0,,,bird_1x1,
1,,,,
2,,,,
b,,,,
c,,,,


In [24]:
# 其他的一些算术运算
# add, radd  +
# sub, rsub  -
# div, rdiv  /
# floordiv, rfloordiv  //
# mul, rmul  *
# pow, rpow  **

### Series与DataFrame之间的运算

In [25]:
# 这两者间的运算会广播到所有元素。

# 若互相都没有相同的索引时，同样会产生NaN
import numpy as np

df_res = pd.DataFrame(np.arange(12).reshape((4,3)), index= ['a','b','c','d'], columns= ['x','y','z'])

ser_res = pd.Series([1,2,3], index= ['x','y','z'])

In [26]:
df_res

Unnamed: 0,x,y,z
a,0,1,2
b,3,4,5
c,6,7,8
d,9,10,11


In [27]:
ser_res

x    1
y    2
z    3
dtype: int64

In [28]:
df_res - ser_res

Unnamed: 0,x,y,z
a,-1,-1,-1
b,2,2,2
c,5,5,5
d,8,8,8


### 排序

In [29]:
"""
索引排序：

行或列索引排序，使用sort_index()函数，默认是行索引排序，且默认是升序

值排序：

也可对值排序，使用函数sort_values()函数
"""

'\n索引排序：\n\n行或列索引排序，使用sort_index()函数，默认是行索引排序，且默认是升序\n\n值排序：\n\n也可对值排序，使用函数sort_values()函数\n'

In [30]:
# Series
# index 排序
ser_res = pd.Series([1,20,18,4], index= ['x','y','z','a'])
ser_res.sort_index()

a     4
x     1
y    20
z    18
dtype: int64

In [31]:
# 值排序
ser_res.sort_values()

x     1
a     4
z    18
y    20
dtype: int64

In [32]:
# DataFrame
pd_res = pd.DataFrame(np.arange(12).reshape((4,3)), index= [4,1,2,3], columns= ['z','x','y'])
pd_res

Unnamed: 0,z,x,y
4,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


In [33]:
# 索引排序：
pd_res.sort_index()

Unnamed: 0,z,x,y
1,3,4,5
2,6,7,8
3,9,10,11
4,0,1,2


In [34]:
# 默认为行索引排序，若需要列索引排序，只需指定axis=1 即可
pd_res.sort_index(axis=1)

Unnamed: 0,x,y,z
4,1,2,0
1,4,5,3
2,7,8,6
3,10,11,9


In [35]:
# 值排序：
# 由于DataFrame是行和列组成，值排序是列的由上到下的排序，可指定一列或多列，通过by参数
pd_res.sort_values(by='z', ascending=False)

Unnamed: 0,z,x,y
3,9,10,11
2,6,7,8
1,3,4,5
4,0,1,2


In [36]:
pd_res.sort_values(by='z', ascending=True)

Unnamed: 0,z,x,y
4,0,1,2
1,3,4,5
2,6,7,8
3,9,10,11


In [37]:
# 也可以进行多列排序，只需传入参数by一个列表即可。根据by指定的顺序优先排列
pd_res.sort_values(by=['z', 'x'], ascending=False)

Unnamed: 0,z,x,y
3,9,10,11
2,6,7,8
1,3,4,5
4,0,1,2


### 统计

In [38]:
# 求和
# 使用函数sum()，默认是每一列求和，可以通过参数axis来设置行或列，DataFrame的结果是一个Series对象

# Series
ser_res = pd.Series([1,2,3,4], index= ['x','y','z','a'])
ser_res.sum()

10

In [39]:
# DataFrame
df_res = pd.DataFrame(np.arange(12).reshape((4,3)), index= [4,1,2,3], columns= ['z','x','y'])
df_res.sum()  # 默认每列求和

z    18
x    22
y    26
dtype: int64

In [40]:
# 需要每行求和，可使用参数axis= 1
df_res.sum(axis=1)

4     3
1    12
2    21
3    30
dtype: int64

In [41]:
# 还有其他参数，如：若存在NaN时，默认结果会剔除NaN，可通过参数skipna设置。
# 其他参数说明：
# axis  0代表列，1代表行
# skipna  排除缺省值，默认为True
# level  轴是层次化索引的(MultiIndex)，则根据level分组简约

In [42]:
# 其他统计方法

# 比如比较常用的describe()函数，一次可以统计出多方面的信息

df_res.describe()

Unnamed: 0,z,x,y
count,4.0,4.0,4.0
mean,4.5,5.5,6.5
std,3.872983,3.872983,3.872983
min,0.0,1.0,2.0
25%,2.25,3.25,4.25
50%,4.5,5.5,6.5
75%,6.75,7.75,8.75
max,9.0,10.0,11.0


In [43]:
# count : 计数（此列的总个数）

# mean :平均值

# std :标准差

# min :最小值

# 25% :下四分位

# 50% :中位数

# 75% :上四分位

# max :最大值

#### 其他统计函数如下

In [44]:
# count    非NA值得数量
# describe    针对series或个DataFrame列计算汇总统计
# min、max    计算最小值和最大值
# argmin、argmax    计算能够获取到最小值和最大值的索引位置(整数) Deprecated since version 0.21.0.
# idxmin、idxmax    计算能够获取到最小值和最大值的索引值
# quantile    计算样本的分位数(0-1)
# sum    求和
# mean    平均值
# median    中位数
# mad    根据平均值计算平均绝对离差
# var    样本值的方差
# std    样本值的标准差
# skew    样本值的偏度(三阶矩)
# kurt    样本值的峰度(四阶矩)
# cumsum    样本值的累计和
# cummin、cummax    样本值的累计最大值和累计最小值
# cumprod    样本值的累计积
# diff    计算一阶差分(对时间序列很有用)
# pct_change    计算百分数变化
# 参考官网API文档：https://pandas.pydata.org/pandas-docs/stable/reference/frame.html#constructor
# https://pandas.pydata.org/pandas-docs/stable/reference/series.html#constructor

In [45]:
df_res.idxmin(), df_res.idxmax()

(z    4
 x    4
 y    4
 dtype: int64, z    3
 x    3
 y    3
 dtype: int64)

In [46]:
df_res.quantile()

z    4.5
x    5.5
y    6.5
Name: 0.5, dtype: float64

In [47]:
df_res.mad()

z    3.0
x    3.0
y    3.0
dtype: float64

In [48]:
df_res.var()

z    15.0
x    15.0
y    15.0
dtype: float64

In [49]:
df_res.std()

z    3.872983
x    3.872983
y    3.872983
dtype: float64

In [50]:
df_res.skew()

z    0.0
x    0.0
y    0.0
dtype: float64

In [51]:
df_res.kurt()

z   -1.2
x   -1.2
y   -1.2
dtype: float64

In [52]:
df_res.cumsum()

Unnamed: 0,z,x,y
4,0,1,2
1,3,5,7
2,9,12,15
3,18,22,26
