# 🔖二、Pandas数据框操作及数据提取

In [2]:
#导包
import pandas as pd
import numpy as np

# 1. 数据框行列操作

## 1.1 创建DataFrame

In [2]:
data = {"col1":['Python', 'C', 'Java', 'R', 'SQL', 'PHP', 'Python', 'Java', 'C', 'Python'],
       "col2":[6, 2, 6, 4, 2, 5, 8, 10, 3, 4], 
       "col3":[4, 2, 6, 2, 1, 2, 2, 3, 3, 6]}
df = pd.DataFrame(data)
df

Unnamed: 0,col1,col2,col3
0,Python,6,4
1,C,2,2
2,Java,6,6
3,R,4,2
4,SQL,2,1
5,PHP,5,2
6,Python,8,2
7,Java,10,3
8,C,3,3
9,Python,4,6


##  1.2 设置索引

In [3]:
df['new_index'] = range(1,11)
df.set_index('new_index')

Unnamed: 0_level_0,col1,col2,col3
new_index,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
1,Python,6,4
2,C,2,2
3,Java,6,6
4,R,4,2
5,SQL,2,1
6,PHP,5,2
7,Python,8,2
8,Java,10,3
9,C,3,3
10,Python,4,6


## 1.3 重置索引(行号)

In [4]:
df.reset_index(drop = True, inplace = True) # drop = True：原有索引就不会成为新的列
df

Unnamed: 0,col1,col2,col3,new_index
0,Python,6,4,1
1,C,2,2,2
2,Java,6,6,3
3,R,4,2,4
4,SQL,2,1,5
5,PHP,5,2,6
6,Python,8,2,7
7,Java,10,3,8
8,C,3,3,9
9,Python,4,6,10


## 1.4 更改列名

In [5]:
#方法一：直接法
df.columns = ['grammer', 'score', 'cycle', 'id']
 
#方法二：(使用rename()函数：修改指定修改某列或某几列名字)
df.rename(columns={'col1':'grammer', 'col2':'score', 'col3':'cycle','new_index':'id'}, inplace=True)

In [6]:
df.head()

Unnamed: 0,grammer,score,cycle,id
0,Python,6,4,1
1,C,2,2,2
2,Java,6,6,3
3,R,4,2,4
4,SQL,2,1,5


## 1.5 调整列顺序

### (1) 将所有列倒序排列

In [7]:
#方法一：
df.iloc[:, ::-1]
 
#方法二
df.iloc[:, [-1,-2,-3,-4]]

Unnamed: 0,id,cycle,score,grammer
0,1,4,6,Python
1,2,2,2,C
2,3,6,6,Java
3,4,2,4,R
4,5,1,2,SQL
5,6,2,5,PHP
6,7,2,8,Python
7,8,3,10,Java
8,9,3,3,C
9,10,6,4,Python


### (2) 交换两列位置

In [8]:
temp = df['grammer']
df.drop(labels=['grammer'], axis=1, inplace=True)
df.insert(1, 'grammer', temp)
df

Unnamed: 0,score,grammer,cycle,id
0,6,Python,4,1
1,2,C,2,2
2,6,Java,6,3
3,4,R,2,4
4,2,SQL,1,5
5,5,PHP,2,6
6,8,Python,2,7
7,10,Java,3,8
8,3,C,3,9
9,4,Python,6,10


### (3) 更改全部列顺序

In [9]:
order = df.columns[[0, 3, 1, 2]] # 或者order = ['xx', 'xx',...] 具体列名
df = df[order]
df

Unnamed: 0,score,id,grammer,cycle
0,6,1,Python,4
1,2,2,C,2
2,6,3,Java,6
3,4,4,R,2
4,2,5,SQL,1
5,5,6,PHP,2
6,8,7,Python,2
7,10,8,Java,3
8,3,9,C,3
9,4,10,Python,6


## 1.6 删除行列

### (1) 删除id这一列 

In [10]:
# 法一：
del df['id']
# 法二：
df['id'] = range(1,11)
df.drop('id',axis=1, inplace=True) #columns=['xxx']

### (2) 添加一行grammer='css'数据，并删除该行

In [11]:
df.loc[len(df)] = [2, 'css', 3]

In [12]:
index = df[df['grammer'] == 'css'].index[0]
df.drop(labels=[index], inplace=True)

## 1.7 将grammer列和score列合并成新的一列

In [13]:
df['new_col'] = df['grammer'] + df['score'].map(str) # score为int类型，需转换为字符串类型；
df

Unnamed: 0,score,grammer,cycle,new_col
0,6,Python,4,Python6
1,2,C,2,C2
2,6,Java,6,Java6
3,4,R,2,R4
4,2,SQL,1,SQL2
5,5,PHP,2,PHP5
6,8,Python,2,Python8
7,10,Java,3,Java10
8,3,C,3,C3
9,4,Python,6,Python4


## 1.8 将数据按行的方式逆序输出

In [14]:
df.iloc[::-1, :]
# [::-1]表示步长为-1, 从后往前倒序输出

Unnamed: 0,score,grammer,cycle,new_col
9,4,Python,6,Python4
8,3,C,3,C3
7,10,Java,3,Java10
6,8,Python,2,Python8
5,5,PHP,2,PHP5
4,2,SQL,1,SQL2
3,4,R,2,R4
2,6,Java,6,Java6
1,2,C,2,C2
0,6,Python,4,Python6


# 2. 数据读取与保存

## 2.1 读取excel文件

In [9]:
excel = pd.read_excel('/home/mw/input/pandas1206855/pandas120.xlsx')
excel.head()

Unnamed: 0,createTime,education,salary
0,2020-03-16 11:30:18,本科,20k-35k
1,2020-03-16 10:58:48,本科,20k-40k
2,2020-03-16 10:46:39,不限,20k-35k
3,2020-03-16 10:45:44,本科,13k-20k
4,2020-03-16 10:20:41,本科,10k-20k


## 2.2 读取csv文件

In [10]:
csv = pd.read_csv('/home/mw/input/pandas_exercise/pandas_exercise/exercise_data/drinks.csv')
csv.head()

Unnamed: 0,country,beer_servings,spirit_servings,wine_servings,total_litres_of_pure_alcohol,continent
0,Afghanistan,0,0,0,0.0,AS
1,Albania,89,132,54,4.9,EU
2,Algeria,25,0,14,0.7,AF
3,Andorra,245,138,312,12.4,EU
4,Angola,217,57,45,5.9,AF


## 2.3 读取tsv文件

In [11]:
tsv = pd.read_csv('/home/mw/input/pandas_exercise/pandas_exercise/exercise_data/chipotle.tsv', sep = '\t')
tsv.head()

Unnamed: 0,order_id,quantity,item_name,choice_description,item_price
0,1,1,Chips and Fresh Tomato Salsa,,$2.39
1,1,1,Izze,[Clementine],$3.39
2,1,1,Nantucket Nectar,[Apple],$3.39
3,1,1,Chips and Tomatillo-Green Chili Salsa,,$2.39
4,2,2,Chicken Bowl,"[Tomatillo-Red Chili Salsa (Hot), [Black Beans...",$16.98


## 2.4 dataframe保存为csv文件

In [18]:
df.to_csv('course.csv')

## 2.5 读取时设置显示行列的参数：pd.set_option()

### (1) 显示所有列

In [19]:
pd.set_option('display.max_columns', None)
pd.set_option('display.max_columns', 5) #最多显示5列

### (2) 显示所有行

In [20]:
pd.set_option('display.max_rows', None)
pd.set_option('display.max_rows', 10)#最多显示10行

### (3) 显示小数位数

In [21]:
pd.set_option('display.float_format',lambda x: '%.2f'%x) #两位

### (4) 显示宽度

In [22]:
pd.set_option('display.width', 100)

### (5) 设置小数点后的位数

In [23]:
pd.set_option('precision', 1)

### (6) 是否换行显示

In [24]:
pd.set_option('expand_frame_repr', False)
# True就是可以换行显示。设置成False的时候不允许换行

# 3.  提取指定行列的数据

In [31]:
# 读取pandas120数据文件
df = pd.read_excel('/home/mw/input/pandas1206855/pandas120.xlsx')
df.head()

Unnamed: 0,createTime,education,salary
0,2020-03-16 11:30:18,本科,20k-35k
1,2020-03-16 10:58:48,本科,20k-40k
2,2020-03-16 10:46:39,不限,20k-35k
3,2020-03-16 10:45:44,本科,13k-20k
4,2020-03-16 10:20:41,本科,10k-20k


## 3.1 提取第32行数据

In [32]:
# 方法一：
df.loc[32]
# 方法二：
df.iloc[32,:] # df.iloc[32] 也可

createTime    2020-03-16 10:07:25
education                      硕士
salary                    15k-30k
Name: 32, dtype: object

## 3.2 提取education这一列数据

In [33]:
df['education']

0      本科
1      本科
2      不限
3      本科
4      本科
       ..
130    本科
131    硕士
132    本科
133    本科
134    本科
Name: education, Length: 135, dtype: object

## 3.3 提取后两列(education, salary)数据

In [34]:
# 方法一：
df[['education', 'salary']]
# 方法二：
df.iloc[:, 1:]

Unnamed: 0,education,salary
0,本科,20k-35k
1,本科,20k-40k
2,不限,20k-35k
3,本科,13k-20k
4,本科,10k-20k
...,...,...
130,本科,10k-18k
131,硕士,25k-50k
132,本科,20k-40k
133,本科,15k-23k


## 3.4 提取第一列位置在1,10,15上的值

In [35]:
# 方法一：
df.iloc[[1,10,15], 0]
# 方法二：
df['createTime'][[1,10,15]]
# 方法三：
df['createTime'].take([1,10,15])

1    2020-03-16 10:58:48
10   2020-03-16 10:34:19
15   2020-03-16 10:52:14
Name: createTime, dtype: datetime64[ns]

# 4. 提取重复值所在的行列数据

## 4.1 判断createTime列数据是否重复

In [36]:
df.createTime.duplicated()

0      False
1      False
2      False
3      False
4      False
       ...  
130    False
131    False
132    False
133     True
134     True
Name: createTime, Length: 135, dtype: bool

## 4.2 判断数据框中所有行是否存在重复

In [37]:
df.duplicated()

0      False
1      False
2      False
3      False
4      False
       ...  
130    False
131    False
132    False
133    False
134     True
Length: 135, dtype: bool

## 4.3 判断education列和salary列数据是否重复(多列组合查询)

In [38]:
df.duplicated(subset = ['education','salary'])

0      False
1      False
2      False
3      False
4      False
       ...  
130     True
131    False
132     True
133    False
134     True
Length: 135, dtype: bool

## 4.4 判断重复索引所在行列数据

In [39]:
df.index.duplicated()

array([False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False, False, False, False, False, False, False, False,
       False, False,

# 5. 按指定条件提取元素值

这里为了运行后续代码，通过random函数随机添加一列数据；

In [40]:
import random
df['value'] = [random.randint(1,100) for i in range(len(df))]
df.head()

Unnamed: 0,createTime,education,salary,value
0,2020-03-16 11:30:18,本科,20k-35k,2
1,2020-03-16 10:58:48,本科,20k-40k,86
2,2020-03-16 10:46:39,不限,20k-35k,19
3,2020-03-16 10:45:44,本科,13k-20k,85
4,2020-03-16 10:20:41,本科,10k-20k,58


## 5.1 提取value列元素值大于90的行

In [41]:
df[df['value'] > 90]

Unnamed: 0,createTime,education,salary,value
8,2020-03-16 09:25:48,不限,6k-8k,100
11,2020-03-16 09:30:40,本科,8k-12k,94
15,2020-03-16 10:52:14,硕士,10k-15k,96
38,2020-03-16 11:01:58,不限,25k-35k,100
51,2020-03-16 11:32:46,本科,10k-20k,97
...,...,...,...,...
59,2020-03-16 10:46:50,本科,15k-30k,94
79,2020-03-16 11:30:10,本科,25k-40k,96
102,2020-03-16 10:21:52,大专,10k-20k,91
103,2020-03-16 11:21:24,本科,12k-20k,94


## 5.2 提取value列元素值大于60小于70的行

In [42]:
df[(df['value'] > 60) & (df['value'] < 70)]

Unnamed: 0,createTime,education,salary,value
5,2020-03-16 10:33:48,本科,10k-18k,67
6,2020-03-16 10:11:54,硕士,16k-30k,66
22,2020-03-16 11:30:15,本科,15k-25k,62
43,2020-03-16 11:16:49,本科,20k-40k,63
44,2020-03-16 10:59:08,本科,8k-16k,69
...,...,...,...,...
100,2020-03-16 11:10:42,本科,15k-25k,64
104,2020-03-16 10:26:12,大专,4k-6k,66
111,2020-03-16 10:52:45,本科,12k-20k,67
120,2020-03-16 10:09:18,本科,8k-15k,68


## 5.3 提取某列最大值所在的行

In [43]:
df[df['value'] == df['value'].max()]

Unnamed: 0,createTime,education,salary,value
8,2020-03-16 09:25:48,不限,6k-8k,100
38,2020-03-16 11:01:58,不限,25k-35k,100


## 5.4 提取value和value1之和大于150的最后三行

In [44]:
# 再随机生成一列1到100内的随机数
df['value1'] = [random.randint(1,100) for i in range(135)]

In [45]:
df[(df['value'] + df['value1']) > 150].tail(3)

Unnamed: 0,createTime,education,salary,value,value1
116,2020-03-16 11:30:02,本科,15k-25k,86,69
117,2020-03-16 11:19:36,本科,20k-40k,89,82
132,2020-03-16 10:48:32,本科,20k-40k,88,93


# 6. 提取含空值的行列

为了演示代码，这里设置一些值;

In [46]:
df.loc[[2,10,45,87], 'value'] = np.nan
df.loc[[19,30,55,97,114], 'value1'] = np.nan
df.loc[[24,52,67,120], 'education'] = 111
df.loc[[8,26,84], 'salary'] = '--'

## 6.1 提取value列含有空值的行

In [47]:
df[df['value'].isnull()]

Unnamed: 0,createTime,education,salary,value,value1
2,2020-03-16 10:46:39,不限,20k-35k,,45.0
10,2020-03-16 10:34:19,本科,15k-25k,,28.0
45,2020-03-16 11:01:58,不限,25k-35k,,21.0
87,2020-03-16 10:26:50,本科,10k-20k,,69.0


## 6.2 提取每列缺失值的具体行数

In [48]:
for columname in df.columns: #遍历每一列 
    if df[columname].count()  != len(df): #判断缺失行条件：所在列的值数等于总数据的长度
        #将存在缺失值的行的索引转换成列表储存
        loc = df[columname][df[columname].isnull().values == True].index.tolist()
        print('列名："{}",第{}行位置有缺失值'.format(columname, loc))

列名："value",第[2, 10, 45, 87]行位置有缺失值
列名："value1",第[19, 30, 55, 97, 114]行位置有缺失值


# 7. 提取某列不是数值或(包含)字符串的行

## 7.1 提取education列数值类型不是字符串的行

In [49]:
temp = pd.DataFrame()
for i in range(len(df)):
    if type(df['education'][i]) != str: #df['xxx'][i]或写成df.iloc[i,j]
        temp = temp.append(df.loc[i])
temp

Unnamed: 0,createTime,education,salary,value,value1
24,2020-03-16 11:01:22,111.0,15k-20k,51.0,52.0
52,2020-03-16 11:33:00,111.0,13k-20k,98.0,18.0
67,2020-03-16 10:43:47,111.0,10k-18k,6.0,98.0
120,2020-03-16 10:09:18,111.0,8k-15k,68.0,31.0


## 7.2 提取salary列包含字符串('--')的行

In [50]:
# 方法一：isin()
df[df['salary'].isin(['--'])]
# 方法二：contains()
df[df["salary"].str.contains("--")]

Unnamed: 0,createTime,education,salary,value,value1
8,2020-03-16 09:25:48,不限,--,100.0,25.0
26,2020-03-16 11:04:45,本科,--,32.0,83.0
84,2020-03-16 10:43:46,本科,--,40.0,18.0


## 7.3 提取education列值为'硕士'的行

In [51]:
# 方法一：
df[df['education'] == '硕士']
 
# 方法二：
results = df['education'].str.contains('硕士')
results.fillna(value=False, inplace=True)
df[results]

Unnamed: 0,createTime,education,salary,value,value1
6,2020-03-16 10:11:54,硕士,16k-30k,66.0,1.0
15,2020-03-16 10:52:14,硕士,10k-15k,96.0,44.0
30,2020-03-16 10:43:58,硕士,15k-30k,74.0,
32,2020-03-16 10:07:25,硕士,15k-30k,39.0,82.0
91,2020-03-16 10:27:10,硕士,12k-16k,25.0,2.0
127,2020-03-16 09:44:05,硕士,10k-15k,87.0,46.0
131,2020-03-16 09:54:47,硕士,25k-50k,52.0,55.0


# 8. 其他提取操作

## 8.1 提取学历为本科和硕士的数据，只显示学历和薪资两列

In [52]:
# 方法一：isin()
df[df['education'].isin(['本科', '硕士'])] [['education', 'salary']]

# 方法二：loc提取
df.loc[df['education'].isin(['本科', '硕士']), ['education', 'salary']]

Unnamed: 0,education,salary
0,本科,20k-35k
1,本科,20k-40k
3,本科,13k-20k
4,本科,10k-20k
5,本科,10k-18k
...,...,...
130,本科,10k-18k
131,硕士,25k-50k
132,本科,20k-40k
133,本科,15k-23k


## 8.2 提取salary列以'25k'开头的行

In [53]:
# 方法一：match函数
df[df['salary'].str.match('25k')]

# 方法二：startswith函数
df[df['salary'].str.startswith('25k')]

Unnamed: 0,createTime,education,salary,value,value1
14,2020-03-15 12:14:45,本科,25k-35k,52.0,20.0
16,2020-03-16 10:36:57,本科,25k-50k,81.0,35.0
33,2020-03-16 11:04:00,本科,25k-35k,38.0,10.0
38,2020-03-16 11:01:58,不限,25k-35k,100.0,11.0
39,2020-03-16 11:35:36,本科,25k-35k,53.0,84.0
45,2020-03-16 11:01:58,不限,25k-35k,,21.0
79,2020-03-16 11:30:10,本科,25k-40k,96.0,52.0
83,2020-03-16 10:43:49,本科,25k-35k,85.0,89.0
93,2020-03-16 10:44:41,本科,25k-35k,30.0,47.0
131,2020-03-16 09:54:47,硕士,25k-50k,52.0,55.0


## 8.3 提取value列中不在value1列出现的数字

In [54]:
df['value'][~df['value'].isin(df['value1'])] #~取反

5      67.00
8     100.00
11     94.00
12     70.00
15     96.00
       ...  
119     9.00
127    87.00
128    49.00
133    49.00
134    63.00
Name: value, Length: 36, dtype: float64

## 8.4 提取value列和value1列出现频率最高的数字

In [55]:
# 先将两列使用append()按行合并，再用计数函数：
temp = df['value'].append(df['value1'])
temp.value_counts(ascending=False)#不加index，返回的是一个Series
temp.value_counts(ascending=False).index[:5] #返回一个数组

Float64Index([52.0, 85.0, 26.0, 69.0, 78.0], dtype='float64')

## 8.5 提取value列中可以整除10的数字位置

In [56]:
#方法一：
df[df['value'] % 10 == 0].index
#方法二：np.argwhere
np.argwhere(np.array(df['value'] % 10 == 0))

array([[  8],
       [ 12],
       [ 13],
       [ 28],
       [ 35],
       [ 37],
       [ 38],
       [ 50],
       [ 68],
       [ 84],
       [ 93],
       [101],
       [113],
       [125]])

# ✍作业

## STEP1: 按照下列要求完成各题目

In [66]:
# 由于随机数的存在会影响最终提交的文件，所以这里重新读取数据
# 读取pandas120数据文件
df = pd.read_excel('/home/mw/input/pandas1206855/pandas120.xlsx')
df.head()

Unnamed: 0,createTime,education,salary
0,2020-03-16 11:30:18,本科,20k-35k
1,2020-03-16 10:58:48,本科,20k-40k
2,2020-03-16 10:46:39,不限,20k-35k
3,2020-03-16 10:45:44,本科,13k-20k
4,2020-03-16 10:20:41,本科,10k-20k


### 1. 提取学历为本科，工资在25k-35k的数据

In [None]:
df1 = 

### 2. 提取salary列中以'40k'结尾的数据

In [None]:
df2 = 

### 3. 提取薪资区间中最低薪资与最高薪资的平均值大于30k的行，只需提取原始字段('createTime', 'education', 'salary')即可

In [None]:
df3 = 

### 4. 将以上三题提取出来的行按照相同列进行合并，汇总到一个数据框中；

In [None]:
answer_2 = pd.concat([df1, df2, df3], axis=0)
answer_2

### 5. 将三列数据合并成一列，并设置列名为answer，最后保留id(数据行数、answer)

In [None]:
data = pd.concat([answer_2.iloc[:,0],answer_2.iloc[:,1],answer_2.iloc[:,2]])
df = pd.DataFrame(data, columns=['answer'])
df['id'] = range(len(df))
df = df[['id', 'answer']]
df

##  STEP2: 将结果保存为 csv 文件

In [72]:
# 保存文件到本地
df.to_csv('answer_2.csv', index=False, encoding='utf-8-sig')#代码自动补全的快捷键是 tab；运行完成后，左侧文件树刷新下，可以找到这份文件

## STEP3: 提交 csv 文件，获取分数结果
现在你的答案文件已经准备完毕了，怎么提交得到评分呢？

1、拷贝提交 token

去活动[提交页面](https://www.heywhale.com/home/competition/6154198bc270e400182b11f9/submit)，找到对应关卡，看到了你的 token 嘛？

拷贝到下方 cell 里（替换掉 XXXXXXX），右上角保证Kernel类型为Python3哈；

记得：每个关卡的 token 不一样。

2、找到你的答案文件路径

右侧文件树，刷新，在 project 下找到答案文件，右键点击可复制路径。

路径为 /home/mw/project/answer_2.csv，你可以再仔细查看一下哦

⚠️答案为 90 rows × 2 columns


![Image Name](https://cdn.kesci.com/upload/image/r4ic8nw6zd.png?imageView2/0/w/960/h/960)


In [73]:
# 运行这个 cell 前记得一定要保证右上角 kernel为 Python 3 的噢
# 下载提交工具
!wget -nv -O heywhale_submit https://cdn.kesci.com/submit_tool/v4/heywhale_submit&&chmod +x heywhale_submit

# 运行提交工具
# 把下方 XXXXXXX 替换为你的 Token，submit_file 为要提交的文件名路径
# 文件名路径去左侧文件树下，刷新，找到对应的 csv 文件，右键复制路径
!./heywhale_submit -token XXXXXXX -file /home/mw/project/answer_2.csv

wget: /opt/conda/lib/libcrypto.so.1.0.0: no version information available (required by wget)
wget: /opt/conda/lib/libssl.so.1.0.0: no version information available (required by wget)
wget: /opt/conda/lib/libssl.so.1.0.0: no version information available (required by wget)
2021-11-18 09:55:08 URL:https://cdn.kesci.com/submit_tool/v4/heywhale_submit [7357446/7357446] -> "heywhale_submit" [1]
Heywhale Submit Tool 4.0.0

> 已验证Token
> 提交文件 /home/mw/project/answer_2.csv (1.29 KiB), Target Qiniu
> 已上传 100 %
> 文件已上传        
> 服务器响应: 200 提交成功，请等待评审完成
> 提交完成


运行成功、显示提交完成后，即可去[提交页面](https://www.heywhale.com/home/competition/6154198bc270e400182b11f9/submit) -- 看成绩。满分即可进入下一关。


![Image Name](https://cdn.kesci.com/upload/image/r2rie8zano.png?imageView2/0/w/960/h/960)


没有成功也不怕，看下报错信息，对照排查下，改完重新提交咯。

祝好运 🐳