In [1]:
'''
@Author: Haihui Pan
@Date: 2021-12-22
@Ref: https://pandas.pydata.org/docs/user_guide/10min.html
'''
import pandas as pd

## DataFrame数据选取&分组&修改
* 数据选取
  * 选取列&行数据
  * 布尔索引（按指定条件）
  * 位置索引(df.icol)
* 数据分组
  * sum,average
  * max,min
  * count
* 数据修改
  * 修改选取数据(df.loc)

## 数据选取

### 选取行&列数据

In [5]:
#读取数据
df_student=pd.read_csv('student.csv')

#选取多列数据
df_student[['name','sex']]

Unnamed: 0,name,sex
0,Tom,M
1,Mike,M
2,Mary,F
3,Jack,M
4,Tim,M
5,Jim,M


In [6]:
#选取前5行数据
df_student[:5]

Unnamed: 0,name,age,sex
0,Tom,8,M
1,Mike,7,M
2,Mary,8,F
3,Jack,9,M
4,Tim,7,M


In [9]:
#选取前5行的2列数据
df_student[:5][['name','age']]

Unnamed: 0,name,age
0,Tom,8
1,Mike,7
2,Mary,8
3,Jack,9
4,Tim,7


### 布尔索引

* 布尔索引是DataFrame提供的一种灵活的选取数据方式，是有满足指定条件的行数据才会被保留下来

In [11]:
#选取age=8,sex=M的学生
df_select=df_student[(df_student['age']==8)&(df_student['sex']=='M')]
df_select

Unnamed: 0,name,age,sex
0,Tom,8,M
5,Jim,8,M


### 位置索引

* Pandas中提供的位置索引(df.icol),其功能类似与numpy中的切片效果

In [12]:
#取第一行数据的前两列
df_select=df_student.iloc[0:1, 0:2]
df_select

Unnamed: 0,name,age
0,Tom,8


## 数据分组

* Pandas中提供了类似SQL中Group by的操作，即按照指定列（可以是多列）进行分组。在分组之后，通过会对各个分组的小组进行某种聚合操作.如取max,sum,count...

In [21]:
# 按照sex进行分组，并统计各个性别取值的数量
df_student.groupby(['sex']).count()

Unnamed: 0_level_0,name,age
sex,Unnamed: 1_level_1,Unnamed: 2_level_1
F,1,1
M,5,5


In [22]:
#按照sex进行分组,并计算每个分组的年龄
df_student.groupby(['sex'])[['age']].mean()

Unnamed: 0_level_0,age
sex,Unnamed: 1_level_1
F,8.0
M,7.8


In [24]:
# 按照多组进行group
df_student.groupby(['sex','age']).count()

Unnamed: 0_level_0,Unnamed: 1_level_0,name
sex,age,Unnamed: 2_level_1
F,8,1
M,7,2
M,8,2
M,9,1


In [25]:
# 除了直接调用函数之外，还可以使用agg聚合函数来实现相同功能
df_student.groupby(['sex','age']).agg('count')

Unnamed: 0_level_0,Unnamed: 1_level_0,name
sex,age,Unnamed: 2_level_1
F,8,1
M,7,2
M,8,2
M,9,1


## 数据修改

* 在某些情况下收集到的原始数据是会存在错误值的，例如，年龄直接超过100。这时候需要按照指定条件来筛选数据，并对筛选的数据进行修改
* df.loc[condition,'column']=value来进行数值修正

In [26]:
#查看原始数据
df_student.head(6)

Unnamed: 0,name,age,sex
0,Tom,8,M
1,Mike,7,M
2,Mary,8,F
3,Jack,9,M
4,Tim,7,M
5,Jim,8,M


In [27]:
# 将年龄超过9岁的，修改为8岁
df_student.loc[df_student['age']==9,'age']=8

#可以发现jack的年龄已经被修改为8
df_student.head(6)

Unnamed: 0,name,age,sex
0,Tom,8,M
1,Mike,7,M
2,Mary,8,F
3,Jack,8,M
4,Tim,7,M
5,Jim,8,M
