# 🔖三、数据处理、合并与分组

In [4]:
#导包
import pandas as pd
import numpy as np

In [5]:
# 读取pandas120数据文件
df = pd.read_excel('/home/mw/input/pandas1206855/pandas120.xlsx')
df.head()

Unnamed: 0,createTime,education,salary
0,2020-03-16 11:30:18,本科,20k-35k
1,2020-03-16 10:58:48,本科,20k-40k
2,2020-03-16 10:46:39,不限,20k-35k
3,2020-03-16 10:45:44,本科,13k-20k
4,2020-03-16 10:20:41,本科,10k-20k


In [6]:
import random
df['value'] = [random.randint(1,100) for i in range(len(df))]
df.loc[[2,10,45,87], 'value'] = np.nan

# 1. 缺失值处理

## 1.1 判断缺失值

In [18]:
# 检查数据中是否含有任何缺失值：
df.isnull().values.any()

True

In [19]:
# 查看每列数据缺失值：
df.isnull().sum()

createTime    0
education     0
salary        0
value         4
dtype: int64

In [20]:
# 查看每列非缺失值数：
df.notnull().sum()
df.shape[0] - df.isnull().sum()

createTime    135
education     135
salary        135
value         131
dtype: int64

## 1.2 缺失值填充

In [21]:
# 用上下平均值填充value列：
df['value'] = df['value'].fillna(df['value'].interpolate())
df.head()
# df  (注意赋值，如果不赋值，原始序列未改变)

Unnamed: 0,createTime,education,salary,value
0,2020-03-16 11:30:18,本科,20k-35k,38.0
1,2020-03-16 10:58:48,本科,20k-40k,9.0
2,2020-03-16 10:46:39,不限,20k-35k,39.5
3,2020-03-16 10:45:44,本科,13k-20k,70.0
4,2020-03-16 10:20:41,本科,10k-20k,88.0


In [22]:
# 将value列缺失值全部替换为1.0：
df.fillna(value =1.0, inplace = True)

## 1.3 更改缺失值

In [23]:
# 将value列第10行到13行设置为缺失值：
df.loc[9:12,'value'] = np.nan

# 将第三行设置为缺失值：
df.loc[:2] = np.nan

## 1.4 删除缺失值

In [24]:
# 删除所有存在缺失值的行：
df.dropna(axis=0, how='any', inplace=True)
# 删除所有有缺失值的行
df.dropna() # -- 默认axis=0
# 删除所有有缺失值的列
df.dropna(axis='columns')
df.dropna(axis=1)
# 删除所有值缺失的行
df.dropna(how='all')
# 删除至少有两个非缺失值的行
df.dropna(thresh=2)
# 指定判断缺失值的列范围
df.dropna(subset=['education', 'value'])
# 使删除和的结果生效
df.dropna(inplace=True)
# 指定列的缺失值删除
df.value.dropna()

3       70.0
4       88.0
5       28.0
6       90.0
7       72.0
8       33.0
13      44.0
14      52.0
15      30.0
16      82.0
17      16.0
18      48.0
19      24.0
20      28.0
21      87.0
22      80.0
23      70.0
24      89.0
25      51.0
26      52.0
27      92.0
28      32.0
29      10.0
30      17.0
31      13.0
32      96.0
33      55.0
34       8.0
35      16.0
36      39.0
       ...  
105     25.0
106     93.0
107     74.0
108     28.0
109     50.0
110     80.0
111     90.0
112     19.0
113     21.0
114      3.0
115     71.0
116     48.0
117     22.0
118     80.0
119     86.0
120     68.0
121     33.0
122     35.0
123     40.0
124     39.0
125    100.0
126     27.0
127      8.0
128      9.0
129      8.0
130     90.0
131     83.0
132     22.0
133     35.0
134     75.0
Name: value, Length: 128, dtype: float64

# 2. 数据去重

In [25]:
# drop_duplicates()
df.drop_duplicates(['createTime'])

Unnamed: 0,createTime,education,salary,value
3,2020-03-16 10:45:44,本科,13k-20k,70.0
4,2020-03-16 10:20:41,本科,10k-20k,88.0
5,2020-03-16 10:33:48,本科,10k-18k,28.0
6,2020-03-16 10:11:54,硕士,16k-30k,90.0
7,2020-03-16 09:49:12,本科,10k-15k,72.0
8,2020-03-16 09:25:48,不限,6k-8k,33.0
13,2020-03-16 10:54:56,本科,20k-30k,44.0
14,2020-03-15 12:14:45,本科,25k-35k,52.0
15,2020-03-16 10:52:14,硕士,10k-15k,30.0
16,2020-03-16 10:36:57,本科,25k-50k,82.0


# 3. 添加/删除数据

## 3.1 添加一行数据['2020-03-16 10:48:36', '硕士', '20k-40k', '43.0']

In [26]:
# 方法一：字典
df2 = pd.DataFrame({
    'createTime':['2020-03-16 10:48:36'],
    'education':['硕士'],
    'salary':['20k-40k'],
    'value':[43.0]
})
df = df.append(df2, ignore_index=True)
df.tail()

Unnamed: 0,createTime,education,salary,value
124,2020-03-16 09:54:47,硕士,25k-50k,83.0
125,2020-03-16 10:48:32,本科,20k-40k,22.0
126,2020-03-16 10:46:31,本科,15k-23k,35.0
127,2020-03-16 11:19:38,本科,20k-40k,75.0
128,2020-03-16 10:48:36,硕士,20k-40k,43.0


In [27]:
# 方法二：loc
df.loc[len(df)] = ['2020-03-16 11:20:41', '硕士', '25k-45k', 29.0]
df.tail()

Unnamed: 0,createTime,education,salary,value
125,2020-03-16 10:48:32,本科,20k-40k,22.0
126,2020-03-16 10:46:31,本科,15k-23k,35.0
127,2020-03-16 11:19:38,本科,20k-40k,75.0
128,2020-03-16 10:48:36,硕士,20k-40k,43.0
129,2020-03-16 11:20:41,硕士,25k-45k,29.0


## 3.2 删除最后两行数据

In [28]:
df.drop(index=[len(df)-1,len(df)-2], inplace=True)

# 4. 数据排序

In [29]:
# 按照value列值大小进行排序
df.sort_values(by=['value'], ascending=True)  #注：ascending：True升序，False降序

Unnamed: 0,createTime,education,salary,value
86,2020-03-16 10:44:41,本科,25k-35k,1.0
49,2020-03-16 11:01:07,本科,15k-30k,1.0
43,2020-03-16 11:28:48,本科,9k-18k,1.0
72,2020-03-16 11:30:10,本科,25k-40k,3.0
107,2020-03-16 10:43:46,本科,10k-18k,3.0
84,2020-03-16 10:27:10,硕士,12k-16k,4.0
56,2020-03-16 10:41:19,本科,20k-30k,6.0
91,2020-03-16 11:19:03,本科,10k-18k,6.0
46,2020-03-16 11:30:17,本科,30k-60k,8.0
122,2020-03-16 09:46:26,本科,15k-25k,8.0


# 5. 数据类型转换

## 5.1 设置value2列保留两位小数

In [30]:
# 随机生成一列0.01到1之间的浮点数
df['value2'] = [random.uniform(0.01, 1) for i in range(len(df))] # 注:uniform产生1到100之间的随机浮点数,区间可以不是整数

In [31]:
# 方法一：round()函数
df['value2'].round(2)

0      0.13
1      0.62
2      0.21
3      0.47
4      0.37
5      0.79
6      0.75
7      0.33
8      0.11
9      0.32
10     0.89
11     0.37
12     0.83
13     0.55
14     0.07
15     0.33
16     0.44
17     0.14
18     0.09
19     0.20
20     0.87
21     0.22
22     0.05
23     0.81
24     0.01
25     0.57
26     0.99
27     0.20
28     0.50
29     0.69
       ... 
98     0.72
99     0.10
100    0.30
101    0.41
102    0.72
103    0.31
104    0.02
105    0.26
106    0.91
107    0.95
108    0.40
109    0.90
110    0.42
111    0.91
112    0.91
113    0.84
114    0.91
115    0.49
116    0.42
117    0.62
118    0.41
119    0.08
120    0.30
121    0.16
122    0.08
123    0.71
124    0.30
125    0.46
126    0.46
127    0.15
Name: value2, Length: 128, dtype: float64

In [32]:
 # 方法二：map + lambda
df['value2'].map(lambda x : ('%.2f') % x)

0      0.13
1      0.62
2      0.21
3      0.47
4      0.37
5      0.79
6      0.75
7      0.33
8      0.11
9      0.32
10     0.89
11     0.37
12     0.83
13     0.55
14     0.07
15     0.33
16     0.44
17     0.14
18     0.09
19     0.20
20     0.87
21     0.22
22     0.05
23     0.81
24     0.01
25     0.57
26     0.99
27     0.20
28     0.50
29     0.69
       ... 
98     0.72
99     0.10
100    0.30
101    0.41
102    0.72
103    0.31
104    0.02
105    0.26
106    0.91
107    0.95
108    0.40
109    0.90
110    0.42
111    0.91
112    0.91
113    0.84
114    0.91
115    0.49
116    0.42
117    0.62
118    0.41
119    0.08
120    0.30
121    0.16
122    0.08
123    0.71
124    0.30
125    0.46
126    0.46
127    0.15
Name: value2, Length: 128, dtype: object

In [33]:
# 方法三：map + lambda + format
df['value2'] = df['value2'].map(lambda x : format(x, '.2f'))
df.head()

Unnamed: 0,createTime,education,salary,value,value2
0,2020-03-16 10:45:44,本科,13k-20k,70.0,0.13
1,2020-03-16 10:20:41,本科,10k-20k,88.0,0.62
2,2020-03-16 10:33:48,本科,10k-18k,28.0,0.21
3,2020-03-16 10:11:54,硕士,16k-30k,90.0,0.47
4,2020-03-16 09:49:12,本科,10k-15k,72.0,0.37


## 5.2 将value2列小数转换为百分数

In [34]:
#由于value2上一步转换为小数时，会自动将浮点类型变为object类型，
df['value2'] = df['value2'].astype('float')

In [35]:
# 方法一：style + 格式化处理
df.style.format({'value2' : '{0:.2%}'.format})

Unnamed: 0,createTime,education,salary,value,value2
0,2020-03-16 10:45:44,本科,13k-20k,70.0,13.00%
1,2020-03-16 10:20:41,本科,10k-20k,88.0,62.00%
2,2020-03-16 10:33:48,本科,10k-18k,28.0,21.00%
3,2020-03-16 10:11:54,硕士,16k-30k,90.0,47.00%
4,2020-03-16 09:49:12,本科,10k-15k,72.0,37.00%
5,2020-03-16 09:25:48,不限,6k-8k,33.0,79.00%
6,2020-03-16 10:54:56,本科,20k-30k,44.0,75.00%
7,2020-03-15 12:14:45,本科,25k-35k,52.0,33.00%
8,2020-03-16 10:52:14,硕士,10k-15k,30.0,11.00%
9,2020-03-16 10:36:57,本科,25k-50k,82.0,32.00%


In [36]:
# 方法二：自定义函数+格式化处理
df['value2'] = df['value2'].map(lambda x : format(x, '.2%'))
df.head()

Unnamed: 0,createTime,education,salary,value,value2
0,2020-03-16 10:45:44,本科,13k-20k,70.0,13.00%
1,2020-03-16 10:20:41,本科,10k-20k,88.0,62.00%
2,2020-03-16 10:33:48,本科,10k-18k,28.0,21.00%
3,2020-03-16 10:11:54,硕士,16k-30k,90.0,47.00%
4,2020-03-16 09:49:12,本科,10k-15k,72.0,37.00%


## 5.3 将value2列数据转换为浮点类型

In [37]:
# 方法一：
df['value2'].str.strip('%').astype('float') # 如果该列存在%符号

0      13.0
1      62.0
2      21.0
3      47.0
4      37.0
5      79.0
6      75.0
7      33.0
8      11.0
9      32.0
10     89.0
11     37.0
12     83.0
13     55.0
14      7.0
15     33.0
16     44.0
17     14.0
18      9.0
19     20.0
20     87.0
21     22.0
22      5.0
23     81.0
24      1.0
25     57.0
26     99.0
27     20.0
28     50.0
29     69.0
       ... 
98     72.0
99     10.0
100    30.0
101    41.0
102    72.0
103    31.0
104     2.0
105    26.0
106    91.0
107    95.0
108    40.0
109    90.0
110    42.0
111    91.0
112    91.0
113    84.0
114    91.0
115    49.0
116    42.0
117    62.0
118    41.0
119     8.0
120    30.0
121    16.0
122     8.0
123    71.0
124    30.0
125    46.0
126    46.0
127    15.0
Name: value2, Length: 128, dtype: float64

In [38]:
# 方法二：
df['value2'].apply(lambda x : float(x[:-1]))

0      13.0
1      62.0
2      21.0
3      47.0
4      37.0
5      79.0
6      75.0
7      33.0
8      11.0
9      32.0
10     89.0
11     37.0
12     83.0
13     55.0
14      7.0
15     33.0
16     44.0
17     14.0
18      9.0
19     20.0
20     87.0
21     22.0
22      5.0
23     81.0
24      1.0
25     57.0
26     99.0
27     20.0
28     50.0
29     69.0
       ... 
98     72.0
99     10.0
100    30.0
101    41.0
102    72.0
103    31.0
104     2.0
105    26.0
106    91.0
107    95.0
108    40.0
109    90.0
110    42.0
111    91.0
112    91.0
113    84.0
114    91.0
115    49.0
116    42.0
117    62.0
118    41.0
119     8.0
120    30.0
121    16.0
122     8.0
123    71.0
124    30.0
125    46.0
126    46.0
127    15.0
Name: value2, Length: 128, dtype: float64

## 5.4 Series类型转list

In [39]:
# 将value列转换为List类型，只显示10条数据
df['value'].tolist()[:10] # 或者to_list()

[70.0, 88.0, 28.0, 90.0, 72.0, 33.0, 44.0, 52.0, 30.0, 82.0]

## 5.5 将时间戳类型转换为datatime类型

- 注：采用Timestamp.to_pydatetime()函数将给定的时间戳转换为本地python datetime对象; strftime()用来格式化datetime 对象

In [40]:
# 将createTime（第一列）列时间转换为月-日:
for i in range(len(df)):
    df.iloc[i,0] = df.iloc[i,0].to_pydatetime().strftime("%m-%d")
df.head()

Unnamed: 0,createTime,education,salary,value,value2
0,03-16,本科,13k-20k,70.0,13.00%
1,03-16,本科,10k-20k,88.0,62.00%
2,03-16,本科,10k-18k,28.0,21.00%
3,03-16,硕士,16k-30k,90.0,47.00%
4,03-16,本科,10k-15k,72.0,37.00%


# 6. 数据拆分

## 6.1 将salary列按照'-'拆分

In [41]:
df['salary'].str.split('-')

0      [13k, 20k]
1      [10k, 20k]
2      [10k, 18k]
3      [16k, 30k]
4      [10k, 15k]
5        [6k, 8k]
6      [20k, 30k]
7      [25k, 35k]
8      [10k, 15k]
9      [25k, 50k]
10     [10k, 15k]
11     [30k, 40k]
12     [15k, 25k]
13      [8k, 15k]
14     [20k, 40k]
15     [15k, 25k]
16     [15k, 30k]
17     [15k, 20k]
18     [10k, 20k]
19     [20k, 40k]
20     [20k, 40k]
21     [15k, 25k]
22     [15k, 20k]
23     [15k, 30k]
24     [15k, 30k]
25     [15k, 30k]
26     [25k, 35k]
27     [18k, 30k]
28     [12k, 20k]
29     [15k, 30k]
          ...    
98     [18k, 25k]
99     [10k, 20k]
100    [12k, 20k]
101    [10k, 15k]
102      [4k, 6k]
103      [3k, 5k]
104    [12k, 20k]
105    [18k, 35k]
106      [3k, 4k]
107    [10k, 18k]
108     [7k, 10k]
109    [15k, 25k]
110    [20k, 40k]
111    [20k, 40k]
112    [15k, 22k]
113     [8k, 15k]
114      [4k, 6k]
115    [12k, 20k]
116      [3k, 6k]
117    [15k, 25k]
118    [10k, 15k]
119      [3k, 5k]
120    [10k, 15k]
121    [15k, 30k]
122    [15

## 6.2 删除salary列开头和结尾的任何字符，默认为空格

In [42]:
df['salary'].str.strip()

0      13k-20k
1      10k-20k
2      10k-18k
3      16k-30k
4      10k-15k
5        6k-8k
6      20k-30k
7      25k-35k
8      10k-15k
9      25k-50k
10     10k-15k
11     30k-40k
12     15k-25k
13      8k-15k
14     20k-40k
15     15k-25k
16     15k-30k
17     15k-20k
18     10k-20k
19     20k-40k
20     20k-40k
21     15k-25k
22     15k-20k
23     15k-30k
24     15k-30k
25     15k-30k
26     25k-35k
27     18k-30k
28     12k-20k
29     15k-30k
        ...   
98     18k-25k
99     10k-20k
100    12k-20k
101    10k-15k
102      4k-6k
103      3k-5k
104    12k-20k
105    18k-35k
106      3k-4k
107    10k-18k
108     7k-10k
109    15k-25k
110    20k-40k
111    20k-40k
112    15k-22k
113     8k-15k
114      4k-6k
115    12k-20k
116      3k-6k
117    15k-25k
118    10k-15k
119      3k-5k
120    10k-15k
121    15k-30k
122    15k-25k
123    10k-18k
124    25k-50k
125    20k-40k
126    15k-23k
127    20k-40k
Name: salary, Length: 128, dtype: object

# 7. 将value列数据开根号

In [43]:
# 方法一：apply() + np.sqrt()
df[['value']].apply(np.sqrt)

Unnamed: 0,value
0,8.366600
1,9.380832
2,5.291503
3,9.486833
4,8.485281
5,5.744563
6,6.633250
7,7.211103
8,5.477226
9,9.055385


In [44]:
# 方法二：map + math.sqrt()
import math
pd.DataFrame(df['value'].map(lambda x : math.sqrt(x)))

Unnamed: 0,value
0,8.366600
1,9.380832
2,5.291503
3,9.486833
4,8.485281
5,5.744563
6,6.633250
7,7.211103
8,5.477226
9,9.055385


# 8.  数据合并:concat, merge, append, join

In [45]:
# 创建两个dataframe
data1 = {"course":['Python', 'C', 'Java', 'R', 'SQL'],
       "grade":[6, 2, 6, 4, 5], 
       "cycle":[4, 2, 6, 2, 1]}
data2 = {'course':['Python', 'C', 'PHP', 'R', 'SQL'],
         "grade":[6, 2, 6, 4, 5],
        'count':[30, 25, 14, 20, 29]}
df = pd.DataFrame(data1)
df1 = pd.DataFrame(data2)

## 8.1 DataFrame.concat()

- 语法：
 - concat(objs, axis=0, join='outer', join_axes=None, ignore_index=False, keys=None, levels=None, names=None, verify_integrity=False, copy=True)
- 参数：
 - objs: series，dataframe或者是panel构成的序列lsit
 - axis：需要合并链接的轴，0是行，1是列
 - join：连接的方式 inner，或者outer
- 只是单纯的把两个表拼接在一起，参数axis是关键，它用于指定合并的轴是行还是列，axis默认是0。

In [46]:
# 将第一行与最后一行拼接：
pd.concat([df[:1], df[-2:-1]])

Unnamed: 0,course,grade,cycle
0,Python,6,4
3,R,4,2


In [47]:
# 将两个dataframe按列合并：
list_ = [random.randint(1, 100) for i in range(len(df))]
df2 = pd.DataFrame(list_, columns=['value'])
pd.concat([df,df2], axis=1) # 按行合并，则axis=0

Unnamed: 0,course,grade,cycle,value
0,Python,6,4,52
1,C,2,2,100
2,Java,6,6,49
3,R,4,2,13
4,SQL,5,1,46


## 8.2 DataFrame.merge()
- df = pd.merge(left, right, how = "inner",on = "None")
- 参数：
    - left: 左表。也就是第一个df。
    - right：右表。也就是第二个df。
    - how: 和concat里面的"join"类似，表示“如何合并两表。
        - 1）left: 只使用左表的键。
        - 2）right：只使用右表的键。
        - 3）inner: 使用左右表键的交集。
        - 4）outer：使用左右表键的并集。
    - on: 表示按照哪一个键来进行合并。
- 类似于关系型数据库的连接方式，可以根据一个或多个键将不同的DatFrame连接起来。该函数的典型应用场景是，针对同一个主键存在两张不同字段的表，根据主键整合到一张表里面。

In [48]:
# 按照单列合并数据：
pd.merge(df, df1, on='course')

Unnamed: 0,course,grade_x,cycle,grade_y,count
0,Python,6,4,6,30
1,C,2,2,2,25
2,R,4,2,4,20
3,SQL,5,1,5,29


In [49]:
# 按照多列合并数据：多列用列表
pd.merge(df, df1, how='left', on=['course', 'grade'])

Unnamed: 0,course,grade,cycle,count
0,Python,6,4,30.0
1,C,2,2,25.0
2,Java,6,6,
3,R,4,2,20.0
4,SQL,5,1,29.0


In [50]:
#内外连接合并：
pd.merge(df, df1, how='outer', on='course') # inner内连接，outer外连接

Unnamed: 0,course,grade_x,cycle,grade_y,count
0,Python,6.0,4.0,6.0,30.0
1,C,2.0,2.0,2.0,25.0
2,Java,6.0,6.0,,
3,R,4.0,2.0,4.0,20.0
4,SQL,5.0,1.0,5.0,29.0
5,PHP,,,6.0,14.0


## 8.3 DataFrame.append()
- 语法：
    - DataFrame.append(other,ignore_index=False, verify_integrity=False, sort=None)
- 参数：
    - other: DataFrame、series、dict、list这样的数据结构
    - ignore_index:默认值为False，如果为True则不使用index标签
    - verify_integrity :默认值为False，如果为True当创建相同的index时会抛出ValueError的异常o sort: boolean，默认是None，该属性在pandas的0.23.0的版本才存在。
- 功能说明:
    - 向dataframe对象中添加新的行，如果添加的列名不在dataframe对象中，将会被当作新的列进行添加

In [51]:
# 将第3行数据添加至末尾：
df.append(df.iloc[2])

Unnamed: 0,course,grade,cycle
0,Python,6,4
1,C,2,2
2,Java,6,6
3,R,4,2
4,SQL,5,1
2,Java,6,6


## 8.4 DataFrame.join()
- 语法：
    - DataFrame.join(other, on=None, how=’left’, lsuffix=”, rsuffix=”, sort=False)
- 参数：
    - other:【DataFrame，或者带有名字的Series，或者DataFrame的list】如果传递的是Series，那么其name属性应当是一个集合，并且该集合将会作为结果DataFrame的列名
    - on:【列名称，或者列名称的list/tuple，或者类似形状的数组】连接的列，默认使用索引连接
    - how:【{‘left’, ‘right’, ‘outer’, ‘inner’}, default:‘left’】连接的方式，默认为左连接
    - lsuffix:【string】左DataFrame中重复列的后缀
    - rsuffix:【string】右DataFrame中重复列的后缀
    - sort:【boolean, default:False】按照字典顺序对结果在连接键上排序。如果为False，连接键的顺序取决于连接类型（关键字）。
- 主要用于索引上的合并，其参数的意义与merge方法中的参数意义基本一样。该方法最为简单，主要用于索引上的合并

In [52]:
df.join(df1, lsuffix='_left', rsuffix='_right')

Unnamed: 0,course_left,grade_left,cycle,course_right,grade_right,count
0,Python,6,4,Python,6,30
1,C,2,2,C,2,25
2,Java,6,6,PHP,6,14
3,R,4,2,R,4,20
4,SQL,5,1,SQL,5,29


## 8.5 总结
- join 最简单，主要用于基于索引的横向合并拼接
- merge 最常用，主要用于基于指定列的横向合并拼接
- concat最强大，可用于横向和纵向合并拼接
- append，主要用于纵向追加

# 9. 常见统计函数

In [53]:
print('grade列均值:',df['grade'].mean()) # 均值
print('全体平均数:',df.mean().mean()) # 全体平均数
print('grade列中位数:',df['grade'].median()) # 中位数
print('grade列方差:',df['grade'].var()) # 方差
print('grade列标准差:',df['grade'].std()) # 标准差
print('grade列最大值:',df['grade'].max()) # 最大值
print('grade列最小值:',df['grade'].min()) # 最小值

grade列均值: 4.6
全体平均数: 3.8
grade列中位数: 5.0
grade列方差: 2.8
grade列标准差: 1.6733200530681511
grade列最大值: 6
grade列最小值: 2


# 10. diff()函数:计算上下行差值

In [54]:
# 方法一：Series.diff()
df['grade'].diff()

0    NaN
1   -4.0
2    4.0
3   -2.0
4    1.0
Name: grade, dtype: float64

In [55]:
# 方法二：shift(1)
diff = df['grade'] - df['grade'].shift(1)
diff

0    NaN
1   -4.0
2    4.0
3   -2.0
4    1.0
Name: grade, dtype: float64

# 11. pct_change()函数:计算上下行变化率

In [56]:
# 方法一：Series.pct_change()
df['grade'].pct_change()

0         NaN
1   -0.666667
2    2.000000
3   -0.333333
4    0.250000
Name: grade, dtype: float64

In [57]:
# 方法二：shift(1)
df['grade']/df['grade'].shift(1) - 1

0         NaN
1   -0.666667
2    2.000000
3   -0.333333
4    0.250000
Name: grade, dtype: float64

# 12. shift()函数:将数据往后(前)移动x天

In [58]:
df['grade'].shift(2) # 往前移2
df['grade'].shift(-2) # 往后移2

0    6.0
1    4.0
2    5.0
3    NaN
4    NaN
Name: grade, dtype: float64

# 13. rolling()函数：以2个数据作为滑动窗口，取均值/总和

In [59]:
df['grade'].rolling(2).mean()
df['grade'].rolling(2).sum()

0     NaN
1     8.0
2     8.0
3    10.0
4     9.0
Name: grade, dtype: float64

# 14. expanding()函数
- DataFrame.expanding(min_periods = 1，center = False，axis = 0)
    - rolling()函数，是固定窗口大小，进行滑动计算；
    - expanding()函数只设置最小的观测值数量，不固定窗口大小，实现累计计算，即不断扩展；

In [60]:
# 计算某列的移动窗口均值：
df['grade'].expanding(min_periods = 1).mean()

0    6.000000
1    4.000000
2    4.666667
3    4.500000
4    4.600000
Name: grade, dtype: float64

# 15. agg()函数
- 聚合函数，对分组后数据进行聚合，默认情况对分组后其他列进行聚合；

## 15.1 同时对grade, cycle两列进行计算总和、均值、中位数、最小/大值，标准差、方差

In [61]:
# 方法一：
df[['grade', 'cycle']].agg([np.sum, np.mean, np.median, np.min, np.max, np.std, np.var])

Unnamed: 0,grade,cycle
sum,23.0,15.0
mean,4.6,3.0
median,5.0,2.0
amin,2.0,1.0
amax,6.0,6.0
std,1.67332,2.0
var,2.8,4.0


In [62]:
# 方法二：
df[['grade', 'cycle']].agg(['sum', 'mean', 'median', 'min', 'max', 'std', 'var'])

Unnamed: 0,grade,cycle
sum,23.0,15.0
mean,4.6,3.0
median,5.0,2.0
min,2.0,1.0
max,6.0,6.0
std,1.67332,2.0
var,2.8,4.0


## 15.2 对grade列求平均，对cycle列求和

In [63]:
# 方法一：分开再汇总
grade_mean = df['grade'].mean()
cycle_sum = df['cycle'].sum()
grade_mean, cycle_sum

(4.6, 15)

In [64]:
# 方法二：agg()函数
df.agg({'grade' : np.mean, 'cycle' : np.sum})

grade     4.6
cycle    15.0
dtype: float64

# 16. 分组计算
- 主要的作用是进行数据的分组以及分组后地组内运算；

## 16.1 根据course列元素分组后计算平均值/中位数

In [65]:
df.groupby('course').mean()
df.groupby('course').median()

Unnamed: 0_level_0,grade,cycle
course,Unnamed: 1_level_1,Unnamed: 2_level_1
C,2,2
Java,6,6
Python,6,4
R,4,2
SQL,5,1


## 16.2 按course列分组后，grade列元素最多的是？

In [66]:
# 方法一：head()取行
df[['course', 'grade']].groupby('course').sum().sort_values(by='grade', ascending=False).head(1)

Unnamed: 0_level_0,grade
course,Unnamed: 1_level_1
Java,6


In [67]:
# 方法二：iloc取行
pd.DataFrame(df[['course', 'grade']].groupby('course').sum().sort_values(by='grade', ascending=False).iloc[0,:])

Unnamed: 0,Java
grade,6


In [68]:
# 方法三：分组后采用agg函数求和
df[['course', 'grade']].groupby('course').agg({'grade':'sum'}).sort_values(by='grade', ascending=False).head(1)

Unnamed: 0_level_0,grade
course,Unnamed: 1_level_1
Java,6


# 17. query()函数：使用布尔表达式查询帧的列
- 语法：
    - df.query(expr，inplace = False，** kwargs)
- 参数：
    - expr：str要评估的查询字符串。你可以在环境中引用变量，在它们前面添加一个'@'字符 。@a + b
    - inplace=False：是否修改数据或返回副本
    - kwargs：dict关键字参数

In [7]:
df = pd.read_excel('/home/mw/input/pandas1206855/pandas120.xlsx')
df['value'] = [random.randint(1, 100) for i in range(len(df))]
df.head()

Unnamed: 0,createTime,education,salary,value
0,2020-03-16 11:30:18,本科,20k-35k,24
1,2020-03-16 10:58:48,本科,20k-40k,57
2,2020-03-16 10:46:39,不限,20k-35k,27
3,2020-03-16 10:45:44,本科,13k-20k,22
4,2020-03-16 10:20:41,本科,10k-20k,15


## 17.1 计算三月份('month ==3')的平均值

In [70]:
df['year'] = df['createTime'].apply(lambda x: x.year)
df['month'] = df['createTime'].apply(lambda x: x.month)
df['day'] = df['createTime'].apply(lambda x: x.day)
 
january_df = df.query('month==3')  #query等同于df[df.month==3]    
january_df.mean()

value      52.02963
year     2020.00000
month       3.00000
day        15.97037
dtype: float64

## 17.2 按年为频率取样

In [71]:
df.query('month == 3 and day == 16')

Unnamed: 0,createTime,education,salary,value,year,month,day
0,2020-03-16 11:30:18,本科,20k-35k,52,2020,3,16
1,2020-03-16 10:58:48,本科,20k-40k,23,2020,3,16
2,2020-03-16 10:46:39,不限,20k-35k,44,2020,3,16
3,2020-03-16 10:45:44,本科,13k-20k,3,2020,3,16
4,2020-03-16 10:20:41,本科,10k-20k,89,2020,3,16
5,2020-03-16 10:33:48,本科,10k-18k,17,2020,3,16
6,2020-03-16 10:11:54,硕士,16k-30k,41,2020,3,16
7,2020-03-16 09:49:12,本科,10k-15k,13,2020,3,16
8,2020-03-16 09:25:48,不限,6k-8k,96,2020,3,16
9,2020-03-16 09:35:50,本科,12k-20k,73,2020,3,16


## 17.3 按月为频率取样

In [72]:
df.query('day == 16')

Unnamed: 0,createTime,education,salary,value,year,month,day
0,2020-03-16 11:30:18,本科,20k-35k,52,2020,3,16
1,2020-03-16 10:58:48,本科,20k-40k,23,2020,3,16
2,2020-03-16 10:46:39,不限,20k-35k,44,2020,3,16
3,2020-03-16 10:45:44,本科,13k-20k,3,2020,3,16
4,2020-03-16 10:20:41,本科,10k-20k,89,2020,3,16
5,2020-03-16 10:33:48,本科,10k-18k,17,2020,3,16
6,2020-03-16 10:11:54,硕士,16k-30k,41,2020,3,16
7,2020-03-16 09:49:12,本科,10k-15k,13,2020,3,16
8,2020-03-16 09:25:48,不限,6k-8k,96,2020,3,16
9,2020-03-16 09:35:50,本科,12k-20k,73,2020,3,16


# ✍作业

## STEP1: 根据要求计算下列题目

In [20]:
# 读取pandas120数据文件
df = pd.read_excel('/home/mw/input/pandas1206855/pandas120.xlsx')
df.head()

Unnamed: 0,createTime,education,salary
0,2020-03-16 11:30:18,本科,20k-35k
1,2020-03-16 10:58:48,本科,20k-40k
2,2020-03-16 10:46:39,不限,20k-35k
3,2020-03-16 10:45:44,本科,13k-20k
4,2020-03-16 10:20:41,本科,10k-20k


### 1. 将salary列数据转换为最大值与最小值的平均值

In [23]:
# apply + 自定义函数

df =  
df.head()

![Image Name](https://cdn.kesci.com/upload/image/r3qan39ggz.png)

答案格式请参考

### 2. 计算salary列最大最小值之差（极差），设置列名为ptp

计算的是：上一步求出来的salary平均值这一列的最大值与最小值之差，最终算出来这一列的极差其实是同一个数；

In [None]:
# 方法一：max()，min()
# 方法二：apply + lambda
# 方法三：numpy.ptp()函数

![Image Name](https://cdn.kesci.com/upload/image/r3qaod3nfd.png?imageView2/0/w/640/h/640)

答案格式请参考

### 3. 新增一列根据salary列数值大小划分为三个层次['低', '中', '高']，列名命名category；

低：(0, 5000]
中：(5000, 20000]
高：(20000, 50000]

提示：使用pd.cut(df['salary'], bins, labels=group_names)

In [None]:
df['category'] = 
df.head()
# 注：pandas.cut用来把一组数据分割成离散的区间

![Image Name](https://cdn.kesci.com/upload/image/r3qaq1mm3s.png?imageView2/0/w/640/h/640)

答案格式请参考

### 4. 根据createTime列，拆分两列字段:日期(年-月-日格式)、小时，分别命名date，hour；

In [None]:
df =  
df.head()

![Image Name](https://cdn.kesci.com/upload/image/r3qas26ton.png?imageView2/0/w/640/h/640)

答案格式请参考

### 5. 统计在2020-03-16这一天，每个小时的平均工资、平均极差(每行数据极差都是41500)、本科和硕士学历个数，薪资层次中高中低的个数，数据框展示的列分别有date，hour，mean_salary，mean_ptp，count_college，count_master，count_low，count_meddle，count_high；并将平均工资保留两位小数，最后按照date，hour升序排序；

**⚠️mean_salary 平均工资保留两位小数**
**⚠️按照date，hour升序排序**
**⚠️请注意按照要求输出答案**

In [None]:
import datetime
# 筛选出2020-03-16这一天的数据


# 对education和category进行dummy处理

# 按照date和hour分组统计

df2 = 
# 将df2的列名修改成题目要求的列名
df2.columns = ['date', 'hour', 'mean_salary', 'mean_ptp', 'count_college', 'count_master', 'count_low', 'count_meddle', 'count_high']
df2['mean_salary'] = df2['mean_salary'].round(2)
df2.head()

👆的输出结果如图

![Image Name](https://cdn.kesci.com/upload/image/r3qdgbqn4p.png?imageView2/0/w/960/h/960)

### 6. 将三列数据合并成一列，并设置列名为answer，同时设置索引列为id

In [None]:
data = pd.concat([df2.iloc[:,0],df2.iloc[:,1],df2.iloc[:,2],df2.iloc[:,3],df2.iloc[:,4],df2.iloc[:,5],df2.iloc[:,6],df2.iloc[:,7],df2.iloc[:,8]])
df3 = pd.DataFrame(data, columns=['answer'])
df3['id'] = range(len(df3))
df3 = df3[['id', 'answer']]
df3

## STEP2: 将结果保存为 csv 文件

In [18]:
# 保存文件到本地
df3.to_csv('answer_3.csv', index=False, encoding='utf-8-sig')#代码自动补全的快捷键是 tab；运行完成后，左侧文件树刷新下，可以找到这份文件

⚠️ df为**27 rows  x  2 columns**
请在提交前检查行数，不然评审将报错

## STEP3: 提交 csv 文件，获取分数结果
现在你的答案文件已经准备完毕了，怎么提交得到评分呢？

1、拷贝提交 token

去活动[提交页面](https://www.heywhale.com/home/competition/6154198bc270e400182b11f9/submit)，找到对应关卡，看到了你的 token 嘛？

拷贝到下方 cell 里（替换掉 XXXXXXX），右上角保证Kernel类型为Python3哈；

记得：每个关卡的 token 不一样。

2、找到你的答案文件路径

左侧文件树，刷新，在 project 下找到答案文件，右键点击可复制路径。

路径为 /home/mw/project/answer_3.csv，你可以再仔细查看一下哦

本关标准答案如👇下图，大家可以自己检查下

![Image Name](https://cdn.kesci.com/upload/image/r3h9x7b45h.png?imageView2/0/w/960/h/960)


In [None]:
# 运行这个 cell 前记得一定要保证右上角 kernel为 Python 3 的噢
# 下载提交工具
!wget -nv -O heywhale_submit https://cdn.kesci.com/submit_tool/v4/heywhale_submit&&chmod +x heywhale_submit

# 运行提交工具
# 把下方 XXXXXXX 替换为你的 Token，submit_file 为要提交的文件名路径
# 文件名路径去左侧文件树下，刷新，找到对应的 csv 文件，右键复制路径
!./heywhale_submit -token XXXXXXX -file /home/mw/project/answer_3.csv

运行成功、显示提交完成后，即可去[提交页面](https://www.heywhale.com/home/competition/6154198bc270e400182b11f9/submit)-- 看成绩。满分即可进入下一关。


![Image Name](https://cdn.kesci.com/upload/image/r2yivjtjan.png?imageView2/0/w/960/h/960)


没有成功也不怕，看下报错信息，对照排查下，改完重新提交咯。

祝好运 🐳