# Pandas数据框操作及数据提取  

在心理学研究中，我们的实验结果经常以表格的形式回收，因此我们的处理对象也通常是数据框(dataframe)，在python中，我们通常使用pandas这个库中的一些函数来对数据框进行处理。  

🎈在本节中，我们关注如何读取数据框，以及数据框中行列的提取。

In [1]:
#导包
import pandas as pd
import numpy as np

## 通过字典来创建DataFrame  

首先，我们手动创建一个简单的数据框，一列为被试姓名，一列为年龄，一列为快乐得分

In [2]:
data = {"subID":['tom', 'jerry', 'elsa', 'white', 'kim', 'greg', 'alice', 'yeri', 'mary', 'david'],
       "age":[26, 20, 26, 24, 22, 25, 28, 20, 30, 24], 
       "happiness":[4, 2, 6, 2, 1, 2, 2, 3, 3, 6]}
df_handy = pd.DataFrame(data)
df_handy

Unnamed: 0,subID,age,happiness
0,tom,26,4
1,jerry,20,2
2,elsa,26,6
3,white,24,2
4,kim,22,1
5,greg,25,2
6,alice,28,2
7,yeri,20,3
8,mary,30,3
9,david,24,6


## 使用读取特定文件的方式来获取数据框  

但更多时候，我们的数据通常都以xlxs，csv的形式存在excel表中，因此我们需要读取这些文件，例如我们读取“pandas120.xlsx”这个文件  

（注：不同的文件格式有各自对应的读取函数，大家可以自行搜索）

In [3]:
df = pd.read_excel('/home/mw/input/pandas1206855/pandas120.xlsx')
df.head()

Unnamed: 0,createTime,education,salary
0,2020-03-16 11:30:18,本科,20k-35k
1,2020-03-16 10:58:48,本科,20k-40k
2,2020-03-16 10:46:39,不限,20k-35k
3,2020-03-16 10:45:44,本科,13k-20k
4,2020-03-16 10:20:41,本科,10k-20k


# Dataframe 的索引操作

## 设置索引  
在 Pandas 中，DataFrame 是一个二维的、带有行和列标签的表格数据结构。列标签即是常见的列名，在 DataFrame 中，可以通过设置索引来指定行的标签。这样可以更方便地访问、操作和分析数据

我们先查看df_handy这个数据框，此时我们难以通过行标签来对行进行索引

In [4]:
df_handy

Unnamed: 0,subID,age,happiness
0,tom,26,4
1,jerry,20,2
2,elsa,26,6
3,white,24,2
4,kim,22,1
5,greg,25,2
6,alice,28,2
7,yeri,20,3
8,mary,30,3
9,david,24,6


我们将‘subID’设置成索引列

In [5]:
df_handy = df_handy.set_index('subID')
df_handy

Unnamed: 0_level_0,age,happiness
subID,Unnamed: 1_level_1,Unnamed: 2_level_1
tom,26,4
jerry,20,2
elsa,26,6
white,24,2
kim,22,1
greg,25,2
alice,28,2
yeri,20,3
mary,30,3
david,24,6


## 重置索引(行号)  
重置索引，即将索引列转化为普通列

In [6]:
# 在reset_index中，默认drop = False，如果drop = True：原有索引就不会成为新的列
df_handy = df_handy.reset_index() 
df_handy

Unnamed: 0,subID,age,happiness
0,tom,26,4
1,jerry,20,2
2,elsa,26,6
3,white,24,2
4,kim,22,1
5,greg,25,2
6,alice,28,2
7,yeri,20,3
8,mary,30,3
9,david,24,6


# 数据提取  

在处理数据时，我们经常需要提取符合特定条件的数据，我们可以通过loc, iloc, 以及布尔值来提取数据  

我们以刚刚的df这个数据集为例，来练习数据提取的方法  

> 关于数据提取的更多内容可参考：https://pandas.pydata.org/docs/getting_started/intro_tutorials/03_subset_data.html  
> 关于loc与iloc用法区别的更多文字介绍：  
https://blog.csdn.net/RPG_Zero/article/details/109190053  
https://blog.csdn.net/Bigboss7/article/details/118597351

## loc 用法  

In [7]:
df = pd.read_excel('/home/mw/input/pandas1206855/pandas120.xlsx')
df

Unnamed: 0,createTime,education,salary
0,2020-03-16 11:30:18,本科,20k-35k
1,2020-03-16 10:58:48,本科,20k-40k
2,2020-03-16 10:46:39,不限,20k-35k
3,2020-03-16 10:45:44,本科,13k-20k
4,2020-03-16 10:20:41,本科,10k-20k
...,...,...,...
130,2020-03-16 11:36:07,本科,10k-18k
131,2020-03-16 09:54:47,硕士,25k-50k
132,2020-03-16 10:48:32,本科,20k-40k
133,2020-03-16 10:46:31,本科,15k-23k


In [8]:
#行标签为“1”的行，行标签指的是第一列为012345...的行
df.loc[1]
#也可以这么写：
#data.loc[1] == data.loc[1,:]

createTime    2020-03-16 10:58:48
education                      本科
salary                    20k-40k
Name: 1, dtype: object

In [9]:
#行标签为“1”，“2”，“5”，“6”的行
df.loc[[1,2,5,6]]

Unnamed: 0,createTime,education,salary
1,2020-03-16 10:58:48,本科,20k-40k
2,2020-03-16 10:46:39,不限,20k-35k
5,2020-03-16 10:33:48,本科,10k-18k
6,2020-03-16 10:11:54,硕士,16k-30k


In [10]:
#选取“education”列
df["education"] 

0      本科
1      本科
2      不限
3      本科
4      本科
       ..
130    本科
131    硕士
132    本科
133    本科
134    本科
Name: education, Length: 135, dtype: object

In [11]:
#读取标签为“1”的行，“col1”列对应的值
df.loc[1,"education"]

'本科'

In [12]:
#使用切片，读取某个区域
df.loc[1:3, "createTime":"salary"]

Unnamed: 0,createTime,education,salary
1,2020-03-16 10:58:48,本科,20k-40k
2,2020-03-16 10:46:39,不限,20k-35k
3,2020-03-16 10:45:44,本科,13k-20k


* 除了使用数字和列名，也可以使用条件（布尔值=True）对行列进行选取

In [13]:
#运行下面的代码，会发现返回的是一系列True或False值，在loc中，会返回那些判断为True的行
#df["education"] == '本科'

In [14]:
df.loc[df["education"] == '本科']

Unnamed: 0,createTime,education,salary
0,2020-03-16 11:30:18,本科,20k-35k
1,2020-03-16 10:58:48,本科,20k-40k
3,2020-03-16 10:45:44,本科,13k-20k
4,2020-03-16 10:20:41,本科,10k-20k
5,2020-03-16 10:33:48,本科,10k-18k
...,...,...,...
129,2020-03-16 09:46:26,本科,15k-25k
130,2020-03-16 11:36:07,本科,10k-18k
132,2020-03-16 10:48:32,本科,20k-40k
133,2020-03-16 10:46:31,本科,15k-23k


## iloc用法  


In [15]:
#在iloc中，取值或切片都是从0开始，左闭右开区间
#第二行
df.iloc[1]

createTime    2020-03-16 10:58:48
education                      本科
salary                    20k-40k
Name: 1, dtype: object

In [16]:
df.iloc[[1,2,5,6]]

Unnamed: 0,createTime,education,salary
1,2020-03-16 10:58:48,本科,20k-40k
2,2020-03-16 10:46:39,不限,20k-35k
5,2020-03-16 10:33:48,本科,10k-18k
6,2020-03-16 10:11:54,硕士,16k-30k


In [17]:
#第三列
df.iloc[:,2]

0      20k-35k
1      20k-40k
2      20k-35k
3      13k-20k
4      10k-20k
        ...   
130    10k-18k
131    25k-50k
132    20k-40k
133    15k-23k
134    20k-40k
Name: salary, Length: 135, dtype: object

In [18]:
#第二行第二列的数值
df.iloc[1,1]

'本科'

In [19]:
#切片操作
#可以对比一下在df.loc和df.iloc中[1:3]所取到的行，再次感受一下二者差异
df.iloc[1:3,0:2]
#df.loc[1:3, "createTime":"salary"]

Unnamed: 0,createTime,education
1,2020-03-16 10:58:48,本科
2,2020-03-16 10:46:39,不限


In [20]:
#iloc不能直接使用布尔值
#df.iloc[df['education']=="本科"]

## 直接使用布尔值来提取符合特定条件的数据

In [21]:
#生成一列新的名为“value”的列
import random
df['value'] = [random.randint(1,100) for i in range(len(df))]
df.head()

Unnamed: 0,createTime,education,salary,value
0,2020-03-16 11:30:18,本科,20k-35k,26
1,2020-03-16 10:58:48,本科,20k-40k,86
2,2020-03-16 10:46:39,不限,20k-35k,96
3,2020-03-16 10:45:44,本科,13k-20k,76
4,2020-03-16 10:20:41,本科,10k-20k,58


In [22]:
df[df['value'] > 90]

Unnamed: 0,createTime,education,salary,value
2,2020-03-16 10:46:39,不限,20k-35k,96
12,2020-03-16 11:30:17,本科,20k-40k,96
22,2020-03-16 11:30:15,本科,15k-25k,98
27,2020-03-16 11:04:49,本科,20k-40k,94
29,2020-03-16 10:27:11,本科,15k-20k,96
35,2020-03-13 18:01:31,本科,12k-20k,96
39,2020-03-16 11:35:36,本科,25k-35k,95
45,2020-03-16 11:01:58,不限,25k-35k,98
57,2020-03-16 10:57:55,本科,15k-25k,100
59,2020-03-16 10:46:50,本科,15k-30k,92


In [23]:
df[(df['value'] > 60) & (df['value'] < 70)]

Unnamed: 0,createTime,education,salary,value
5,2020-03-16 10:33:48,本科,10k-18k,62
30,2020-03-16 10:43:58,硕士,15k-30k,62
98,2020-03-16 11:19:03,本科,10k-18k,68
103,2020-03-16 11:21:24,本科,12k-20k,69
118,2020-03-16 11:19:38,本科,20k-40k,69


In [24]:
df[df['value'] == df['value'].max()]

Unnamed: 0,createTime,education,salary,value
57,2020-03-16 10:57:55,本科,15k-25k,100
131,2020-03-16 09:54:47,硕士,25k-50k,100


# 其他提取操作(特殊条件)  


## 提取education列数值类型不是字符串的行

In [25]:
temp = pd.DataFrame()
for i in range(len(df)):
    if type(df['education'][i]) != str: #df['xxx'][i]或写成df.iloc[i,j]
        temp = temp.append(df.loc[i])
temp

## 提取education列包含字符串('硕士')的行

In [26]:
# 方法一：
df[df['education'] == '硕士']
 
# 方法二：
df['education'].str.contains('硕士')

# 方法三
df[df['education'].isin(['硕士'])]

Unnamed: 0,createTime,education,salary,value
6,2020-03-16 10:11:54,硕士,16k-30k,12
15,2020-03-16 10:52:14,硕士,10k-15k,1
30,2020-03-16 10:43:58,硕士,15k-30k,62
32,2020-03-16 10:07:25,硕士,15k-30k,11
91,2020-03-16 10:27:10,硕士,12k-16k,22
127,2020-03-16 09:44:05,硕士,10k-15k,29
131,2020-03-16 09:54:47,硕士,25k-50k,100


## 提取学历为本科和硕士的数据，只显示学历和薪资两列

In [27]:
# 方法一：isin()
df[df['education'].isin(['本科', '硕士'])] [['education', 'salary']]

# 方法二：loc提取
df.loc[df['education'].isin(['本科', '硕士']), ['education', 'salary']]

Unnamed: 0,education,salary
0,本科,20k-35k
1,本科,20k-40k
3,本科,13k-20k
4,本科,10k-20k
5,本科,10k-18k
...,...,...
130,本科,10k-18k
131,硕士,25k-50k
132,本科,20k-40k
133,本科,15k-23k


## 提取salary列以'25k'开头的行

In [28]:
# 方法一：match函数
df[df['salary'].str.match('25k')]

# 方法二：startswith函数
df[df['salary'].str.startswith('25k')]

Unnamed: 0,createTime,education,salary,value
14,2020-03-15 12:14:45,本科,25k-35k,37
16,2020-03-16 10:36:57,本科,25k-50k,3
33,2020-03-16 11:04:00,本科,25k-35k,42
38,2020-03-16 11:01:58,不限,25k-35k,47
39,2020-03-16 11:35:36,本科,25k-35k,95
45,2020-03-16 11:01:58,不限,25k-35k,98
79,2020-03-16 11:30:10,本科,25k-40k,7
83,2020-03-16 10:43:49,本科,25k-35k,21
93,2020-03-16 10:44:41,本科,25k-35k,70
131,2020-03-16 09:54:47,硕士,25k-50k,100


> 🔔本节的内容到这里就结束了，请前往下一节：5. pandas 数据处理、合并与分组