### 1.概要
内容主要涉及读取数据和保存数据、数据详情信息、数据处理、数据切片、筛选、排序、分组、统计、表格样式等几部分内容

In [2]:
import numpy as np
import pandas as pd

### 2.读取数据&保存数据

#### 读取csv，编码‘utf-8’

In [3]:
pd.read_csv('test1.csv', encoding='utf-8')

Unnamed: 0,姓名,年龄,身高
0,张三,24,167
1,李四,25,180
2,王五,28,176
3,赵六,24,167
4,周武,66,180
5,张叶,28,176
6,张器,24,167
7,李咯,25,180
8,王根,28,176
9,张灯,24,167


#### 读取前几行

In [4]:
csv_data = pd.read_csv('test1.csv')
pd.read_csv('test1.csv', encoding='utf-8', nrows = 3)

Unnamed: 0,姓名,年龄,身高
0,张三,24,167
1,李四,25,180
2,王五,28,176


#### 第一列作为行索引,忽略列索引

In [5]:
# 让第一列作索引 让第一行作数据不作标题
pd.read_csv('test1.csv', encoding = 'utf-8', index_col = 0, header = None)

Unnamed: 0_level_0,1,2
0,Unnamed: 1_level_1,Unnamed: 2_level_1
姓名,年龄,身高
张三,24,167
李四,25,180
王五,28,176
赵六,24,167
周武,66,180
张叶,28,176
张器,24,167
李咯,25,180
王根,28,176


#### 读取时忽略指定行

In [6]:
# 忽略一二两行和最后两行
pd.read_csv('test1.csv', skiprows = [1, 2], skipfooter = 2, engine = 'python')

Unnamed: 0,姓名,年龄,身高
0,王五,28,176
1,赵六,24,167
2,周武,66,180
3,张叶,28,176
4,张器,24,167
5,李咯,25,180
6,王根,28,176
7,张灯,24,167


#### 从限定分隔符逗号的文件或文本中读取数据

In [7]:
df = pd.read_table('test1.csv', sep = ',')

#### 保存数据

In [8]:
#df.to_excel('test1.xlsx')#默认会带索引列
df.to_excel('test1.xlsx', index = False)

In [9]:
df.to_json('test1.json')

### 3.查看数据信息

#### 查看前n行

In [10]:
df.head(3)

Unnamed: 0,姓名,年龄,身高
0,张三,24,167
1,李四,25,180
2,王五,28,176


#### 查看后n行

In [11]:
df.tail(3)

Unnamed: 0,姓名,年龄,身高
9,张灯,24,167
10,李放,25,180
11,王润,35,176


#### 查看行数和列数

In [12]:
df.shape#包含标题行

(12, 3)

#### 查看索引、数据类型和内存信息

In [13]:
df.columns #列索引

Index(['姓名', ' 年龄', ' 身高'], dtype='object')

In [14]:
df.index #行索引

RangeIndex(start=0, stop=12, step=1)

In [15]:
df.info() #查看索引、数据类型和内存信息

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 12 entries, 0 to 11
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype 
---  ------  --------------  ----- 
 0   姓名      12 non-null     object
 1    年龄     12 non-null     int64 
 2    身高     12 non-null     int64 
dtypes: int64(2), object(1)
memory usage: 416.0+ bytes


#### 查看数值型列的汇总统计

In [16]:
df.describe()

Unnamed: 0,年龄,身高
count,12.0,12.0
mean,29.666667,174.333333
std,11.873066,5.678241
min,24.0,167.0
25%,24.0,167.0
50%,25.0,176.0
75%,28.0,180.0
max,66.0,180.0


#### 查看每一列的唯一值和计数

In [17]:
pd.read_json('test1.json').apply(pd.Series.value_counts)
# 第一列为唯一值是什么 后面有数字代表有几个

Unnamed: 0,姓名,年龄,身高
周武,1.0,,
张三,1.0,,
张叶,1.0,,
张器,1.0,,
张灯,1.0,,
李咯,1.0,,
李四,1.0,,
李放,1.0,,
王五,1.0,,
王根,1.0,,


#### apply
参考 &gt; https://zhuanlan.zhihu.com/p/344835017

遍历DataFrame的元素（一行数据或者一列数据）

dataframe.apply(function,axis)对一行或一列做出一些操作（axis=1遍历行，axis=0遍历列）

### 4.数据处理

#### 重命名列名

In [18]:
df.columns = ['name', 'age', 'height']

#### 选择性更改列名

In [19]:
df.rename(columns = {'name' : '姓名', 'age' : '年龄'}, inplace = True)
df

Unnamed: 0,姓名,年龄,height
0,张三,24,167
1,李四,25,180
2,王五,28,176
3,赵六,24,167
4,周武,66,180
5,张叶,28,176
6,张器,24,167
7,李咯,25,180
8,王根,28,176
9,张灯,24,167


#### 批量更新索引

DataFrame.rename（mapper = None，index = None，columns = None，axis = None，copy = True，inplace = False，level = None ）

参数介绍：
mapper，index，columns：可以任选其一使用，可以是将index和columns结合使用。index和column直接传入mapper或者字典的形式。
axis：int或str，与mapper配合使用。可以是轴名称（‘index’，‘columns’）或数字（0,1）。默认为’index’。
copy：boolean，默认为True，是否复制基础数据。
inplace：布尔值，默认为False，是否返回新的DataFrame。如果为True，则忽略复制值。

In [20]:
df1 = df.rename(lambda x : x + 10)
df1

Unnamed: 0,姓名,年龄,height
10,张三,24,167
11,李四,25,180
12,王五,28,176
13,赵六,24,167
14,周武,66,180
15,张叶,28,176
16,张器,24,167
17,李咯,25,180
18,王根,28,176
19,张灯,24,167


#### 批量更新列名

In [21]:
df2 = df.rename(columns = lambda x : 'T-' + x)
df2

Unnamed: 0,T-姓名,T-年龄,T-height
0,张三,24,167
1,李四,25,180
2,王五,28,176
3,赵六,24,167
4,周武,66,180
5,张叶,28,176
6,张器,24,167
7,李咯,25,180
8,王根,28,176
9,张灯,24,167


#### 设置姓名列为行索引

In [22]:
df21 = df2.set_index('T-姓名')
df21

Unnamed: 0_level_0,T-年龄,T-height
T-姓名,Unnamed: 1_level_1,Unnamed: 2_level_1
张三,24,167
李四,25,180
王五,28,176
赵六,24,167
周武,66,180
张叶,28,176
张器,24,167
李咯,25,180
王根,28,176
张灯,24,167


#### 检查哪些列包含缺失值

In [23]:
df2.isnull().any()

T-姓名        False
T-年龄        False
T-height    False
dtype: bool

#### 统计各列空值数

In [24]:
df.isnull().sum()

姓名        0
年龄        0
height    0
dtype: int64

In [25]:
df_data = pd.DataFrame([['张三', 23], ['李四', 25], [None, 27], ['王五', None]], columns = ['姓名', '年龄'])
df_data

Unnamed: 0,姓名,年龄
0,张三,23.0
1,李四,25.0
2,,27.0
3,王五,


#### 删除某列中空值的行

In [26]:
df_data1 = df_data[df_data['姓名'].notnull()]
df_data1

Unnamed: 0,姓名,年龄
0,张三,23.0
1,李四,25.0
3,王五,


In [27]:
df_data2 = df_data[~df_data['姓名'].isnull()]
df_data2

Unnamed: 0,姓名,年龄
0,张三,23.0
1,李四,25.0
3,王五,


#### 去掉某行

In [28]:
df_data3 = df_data2.drop(0, axis = 0)
df_data3

Unnamed: 0,姓名,年龄
1,李四,25.0
3,王五,


#### 去掉某列

In [29]:
df_data3.drop('年龄', axis = 1)

Unnamed: 0,姓名
1,李四
3,王五


#### 删除所有包含空值的行

In [30]:
print(df_data.to_string())
df_data.dropna()

     姓名    年龄
0    张三  23.0
1    李四  25.0
2  None  27.0
3    王五   NaN


Unnamed: 0,姓名,年龄
0,张三,23.0
1,李四,25.0


#### 删除行里全是空值的行

In [31]:
df_data.dropna(how = 'all')

Unnamed: 0,姓名,年龄
0,张三,23.0
1,李四,25.0
2,,27.0
3,王五,


#### 删除所有包含空值的列

In [32]:
df_data.dropna(axis = 1)

0
1
2
3


#### 至少保留几个非空值的行

In [33]:
df_data.dropna(thresh = 2)

Unnamed: 0,姓名,年龄
0,张三,23.0
1,李四,25.0


#### 至少保留几个非空值的列

In [34]:
df_data4 = df_data.dropna(axis = 1, thresh = 1)
df_data4

Unnamed: 0,姓名,年龄
0,张三,23.0
1,李四,25.0
2,,27.0
3,王五,


#### 行数据向下填充

In [35]:
df_data4.fillna(method = 'ffill') # 空值复制上面

Unnamed: 0,姓名,年龄
0,张三,23.0
1,李四,25.0
2,李四,27.0
3,王五,27.0


#### 列数据向右填充

In [36]:
df_data4.fillna(method = 'ffill', axis = 1) # 空值复制左边

Unnamed: 0,姓名,年龄
0,张三,23.0
1,李四,25.0
2,,27.0
3,王五,王五


#### 用0替换所有空值

In [37]:
df_data4.fillna(0)

Unnamed: 0,姓名,年龄
0,张三,23.0
1,李四,25.0
2,0,27.0
3,王五,0.0


#### 强制转换数据类型

In [38]:
df['年龄'].astype('int')
df

Unnamed: 0,姓名,年龄,height
0,张三,24,167
1,李四,25,180
2,王五,28,176
3,赵六,24,167
4,周武,66,180
5,张叶,28,176
6,张器,24,167
7,李咯,25,180
8,王根,28,176
9,张灯,24,167


#### 查看某列有多少唯一值

In [39]:
df['年龄'].unique()

array([24, 25, 28, 66, 35], dtype=int64)

#### 单值替换

In [40]:
df_dj = df.replace('张灯', '王天宇')

In [41]:
df.replace(24, 34)

Unnamed: 0,姓名,年龄,height
0,张三,34,167
1,李四,25,180
2,王五,28,176
3,赵六,34,167
4,周武,66,180
5,张叶,28,176
6,张器,34,167
7,李咯,25,180
8,王根,28,176
9,张灯,34,167


#### 多值替换

In [42]:
df.replace({'张三' : '张三2', '王根' : '王根2', 180 : 181})

Unnamed: 0,姓名,年龄,height
0,张三2,24,167
1,李四,25,181
2,王五,28,176
3,赵六,24,167
4,周武,66,181
5,张叶,28,176
6,张器,24,167
7,李咯,25,181
8,王根2,28,176
9,张灯,24,167


In [43]:
df.replace(['张三', '王五', '张叶'], ['张三2', '王五2', '张叶2'])

Unnamed: 0,姓名,年龄,height
0,张三2,24,167
1,李四,25,180
2,王五2,28,176
3,赵六,24,167
4,周武,66,180
5,张叶2,28,176
6,张器,24,167
7,李咯,25,180
8,王根,28,176
9,张灯,24,167


#### 多值替换单值

In [44]:
df.replace(['张三', '王五'], '张三王五')

Unnamed: 0,姓名,年龄,height
0,张三王五,24,167
1,李四,25,180
2,张三王五,28,176
3,赵六,24,167
4,周武,66,180
5,张叶,28,176
6,张器,24,167
7,李咯,25,180
8,王根,28,176
9,张灯,24,167


#### 替换某列, 显示需要添加inplace=True

In [45]:
# 重命名
df.rename(columns = {'height' : '身高'}, inplace = True)
# 添加一列
df.insert(loc = 3, column = '城市', value = '上海')  # 在最后一列后，插入值全为3的c列
df

Unnamed: 0,姓名,年龄,身高,城市
0,张三,24,167,上海
1,李四,25,180,上海
2,王五,28,176,上海
3,赵六,24,167,上海
4,周武,66,180,上海
5,张叶,28,176,上海
6,张器,24,167,上海
7,李咯,25,180,上海
8,王根,28,176,上海
9,张灯,24,167,上海


In [46]:
df['年龄'] = df['年龄'].replace(24, 29)
df

Unnamed: 0,姓名,年龄,身高,城市
0,张三,29,167,上海
1,李四,25,180,上海
2,王五,28,176,上海
3,赵六,29,167,上海
4,周武,66,180,上海
5,张叶,28,176,上海
6,张器,29,167,上海
7,李咯,25,180,上海
8,王根,28,176,上海
9,张灯,29,167,上海


#### 拆分某列成新的DataFrame

In [47]:
df1 = df.replace('上海', '上海-浦东-三林')
df2 = df1['城市'].str.split('-', expand = True)
df2.columns = ['城市', '地区', '乡镇']
df2

Unnamed: 0,城市,地区,乡镇
0,上海,浦东,三林
1,上海,浦东,三林
2,上海,浦东,三林
3,上海,浦东,三林
4,上海,浦东,三林
5,上海,浦东,三林
6,上海,浦东,三林
7,上海,浦东,三林
8,上海,浦东,三林
9,上海,浦东,三林


#### 某一列类型转换,注意该列类型要一致,包括NaN

In [48]:
df['身高'] = df['身高'].apply(float)
df

Unnamed: 0,姓名,年龄,身高,城市
0,张三,29,167.0,上海
1,李四,25,180.0,上海
2,王五,28,176.0,上海
3,赵六,29,167.0,上海
4,周武,66,180.0,上海
5,张叶,28,176.0,上海
6,张器,29,167.0,上海
7,李咯,25,180.0,上海
8,王根,28,176.0,上海
9,张灯,29,167.0,上海


### 5.数据切片、筛选

#### 筛选年龄=25的

In [49]:
df[df['年龄'] == 25]

Unnamed: 0,姓名,年龄,身高,城市
1,李四,25,180.0,上海
7,李咯,25,180.0,上海
10,李放,25,180.0,上海


#### 筛选年龄在某个区间的

In [50]:
df[df['年龄'].isin([25, 29])]

Unnamed: 0,姓名,年龄,身高,城市
0,张三,29,167.0,上海
1,李四,25,180.0,上海
3,赵六,29,167.0,上海
6,张器,29,167.0,上海
7,李咯,25,180.0,上海
9,张灯,29,167.0,上海
10,李放,25,180.0,上海


#### like查询

In [51]:
# 包含
df[df['姓名'].str.contains('张', na = False)]

Unnamed: 0,姓名,年龄,身高,城市
0,张三,29,167.0,上海
5,张叶,28,176.0,上海
6,张器,29,167.0,上海
9,张灯,29,167.0,上海


In [52]:
# 以什么开头
df[df['姓名'].str.startswith('李', na = False)]

Unnamed: 0,姓名,年龄,身高,城市
1,李四,25,180.0,上海
7,李咯,25,180.0,上海
10,李放,25,180.0,上海


In [53]:
# 以什么结尾
df[df['姓名'].str.endswith('五', na = False)]

Unnamed: 0,姓名,年龄,身高,城市
2,王五,28,176.0,上海


#### 输出所有姓名,缺失值用指定值填充

In [54]:
df_data['姓名'].str.cat(sep = '、', na_rep = '空值')

'张三、李四、空值、王五'

#### 重置索引

In [55]:
df_data.set_index('姓名')

Unnamed: 0_level_0,年龄
姓名,Unnamed: 1_level_1
张三,23.0
李四,25.0
,27.0
王五,


#### 读前几行

In [56]:
df[:3]

Unnamed: 0,姓名,年龄,身高,城市
0,张三,29,167.0,上海
1,李四,25,180.0,上海
2,王五,28,176.0,上海


#### 读后几行

In [57]:
df[-3:]

Unnamed: 0,姓名,年龄,身高,城市
9,张灯,29,167.0,上海
10,李放,25,180.0,上海
11,王润,35,176.0,上海


#### 读几行到几行

In [58]:
df[2:5]#左闭右开 注意:是从0行开始的

Unnamed: 0,姓名,年龄,身高,城市
2,王五,28,176.0,上海
3,赵六,29,167.0,上海
4,周武,66,180.0,上海


#### 每隔几行读取

In [59]:
df[::2]

Unnamed: 0,姓名,年龄,身高,城市
0,张三,29,167.0,上海
2,王五,28,176.0,上海
4,周武,66,180.0,上海
6,张器,29,167.0,上海
8,王根,28,176.0,上海
10,李放,25,180.0,上海


#### 几行到几行按指定步长读

In [60]:
df[2:6:2]

Unnamed: 0,姓名,年龄,身高,城市
2,王五,28,176.0,上海
4,周武,66,180.0,上海


#### 选取其中几列

In [61]:
df[['姓名','城市']]

Unnamed: 0,姓名,城市
0,张三,上海
1,李四,上海
2,王五,上海
3,赵六,上海
4,周武,上海
5,张叶,上海
6,张器,上海
7,李咯,上海
8,王根,上海
9,张灯,上海


#### loc

In [62]:
# df.loc[]只能使用标签索引，不能使用整数索引，通过便签索引切边进行筛选时，前闭后闭
# 0行，所有列
df.loc[0, :]

姓名       张三
年龄       29
身高    167.0
城市       上海
Name: 0, dtype: object

In [63]:
# 0 2 3行 所有列
df.loc[[0, 2, 3], :]

Unnamed: 0,姓名,年龄,身高,城市
0,张三,29,167.0,上海
2,王五,28,176.0,上海
3,赵六,29,167.0,上海


In [64]:
# 0-4行 所有列
df.loc[0 : 4, :]#左闭右闭

Unnamed: 0,姓名,年龄,身高,城市
0,张三,29,167.0,上海
1,李四,25,180.0,上海
2,王五,28,176.0,上海
3,赵六,29,167.0,上海
4,周武,66,180.0,上海


In [65]:
# 列索引为'姓名'，所有行
df.loc[:, '姓名']

0     张三
1     李四
2     王五
3     赵六
4     周武
5     张叶
6     张器
7     李咯
8     王根
9     张灯
10    李放
11    王润
Name: 姓名, dtype: object

In [66]:
# 列索引从姓名到城市
df.loc[:, '姓名' : '城市']

Unnamed: 0,姓名,年龄,身高,城市
0,张三,29,167.0,上海
1,李四,25,180.0,上海
2,王五,28,176.0,上海
3,赵六,29,167.0,上海
4,周武,66,180.0,上海
5,张叶,28,176.0,上海
6,张器,29,167.0,上海
7,李咯,25,180.0,上海
8,王根,28,176.0,上海
9,张灯,29,167.0,上海


In [67]:
# 年龄大于28的姓名身高
df.loc[df['年龄'] > 28, ['姓名', '身高']]


Unnamed: 0,姓名,身高
0,张三,167.0
3,赵六,167.0
4,周武,180.0
6,张器,167.0
9,张灯,167.0
11,王润,176.0


In [68]:
df.loc[lambda x : x['年龄'] > 28]

Unnamed: 0,姓名,年龄,身高,城市
0,张三,29,167.0,上海
3,赵六,29,167.0,上海
4,周武,66,180.0,上海
6,张器,29,167.0,上海
9,张灯,29,167.0,上海
11,王润,35,176.0,上海


In [69]:
# 筛选指定行的指定列
df.loc[df['姓名'].isin(['张三', '李四']), '姓名':'城市']

Unnamed: 0,姓名,年龄,身高,城市
0,张三,29,167.0,上海
1,李四,25,180.0,上海


#### iloc
iloc[]只能使用整数索引，不能使用标签索引，
通过整数索引切边进行筛选时，前闭后开


In [70]:
# 前3行
df.iloc[:3]

Unnamed: 0,姓名,年龄,身高,城市
0,张三,29,167.0,上海
1,李四,25,180.0,上海
2,王五,28,176.0,上海


In [71]:
# 最后一行
df.iloc[-1:]

Unnamed: 0,姓名,年龄,身高,城市
11,王润,35,176.0,上海


In [72]:
# 第二列
df.iloc[:, 1]

0     29
1     25
2     28
3     29
4     66
5     28
6     29
7     25
8     28
9     29
10    25
11    35
Name: 年龄, dtype: int64

In [73]:
# 选取几行
df.iloc[[1, 3, 5], :]

Unnamed: 0,姓名,年龄,身高,城市
1,李四,25,180.0,上海
3,赵六,29,167.0,上海
5,张叶,28,176.0,上海


In [74]:
# 选取某个值 
print(df.to_string())
df.iloc[2, 2]#索引值(2,2)对应第3行3列

    姓名  年龄     身高  城市
0   张三  29  167.0  上海
1   李四  25  180.0  上海
2   王五  28  176.0  上海
3   赵六  29  167.0  上海
4   周武  66  180.0  上海
5   张叶  28  176.0  上海
6   张器  29  167.0  上海
7   李咯  25  180.0  上海
8   王根  28  176.0  上海
9   张灯  29  167.0  上海
10  李放  25  180.0  上海
11  王润  35  176.0  上海


176.0

In [75]:
# 读取几列
df.iloc[:, [0, 2, 3]]

Unnamed: 0,姓名,身高,城市
0,张三,167.0,上海
1,李四,180.0,上海
2,王五,176.0,上海
3,赵六,167.0,上海
4,周武,180.0,上海
5,张叶,176.0,上海
6,张器,167.0,上海
7,李咯,180.0,上海
8,王根,176.0,上海
9,张灯,167.0,上海


In [76]:
# 读取某几行几列
df.iloc[[0, 2], [0, 2, 3]]

Unnamed: 0,姓名,身高,城市
0,张三,167.0,上海
2,王五,176.0,上海


In [77]:
# 前三行三列
df.iloc[:3, :3]

Unnamed: 0,姓名,年龄,身高
0,张三,29,167.0
1,李四,25,180.0
2,王五,28,176.0


### 6.数据排序

#### 重置索引

In [78]:
# 设置索引
df3 = df.set_index('姓名')
df3

Unnamed: 0_level_0,年龄,身高,城市
姓名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
张三,29,167.0,上海
李四,25,180.0,上海
王五,28,176.0,上海
赵六,29,167.0,上海
周武,66,180.0,上海
张叶,28,176.0,上海
张器,29,167.0,上海
李咯,25,180.0,上海
王根,28,176.0,上海
张灯,29,167.0,上海


In [79]:
# 重置索引
df4 = df3.reset_index()
df4

Unnamed: 0,姓名,年龄,身高,城市
0,张三,29,167.0,上海
1,李四,25,180.0,上海
2,王五,28,176.0,上海
3,赵六,29,167.0,上海
4,周武,66,180.0,上海
5,张叶,28,176.0,上海
6,张器,29,167.0,上海
7,李咯,25,180.0,上海
8,王根,28,176.0,上海
9,张灯,29,167.0,上海


In [80]:
# 重置索引并删除原索引列
df5 = df3.reset_index(drop = True)
df5

Unnamed: 0,年龄,身高,城市
0,29,167.0,上海
1,25,180.0,上海
2,28,176.0,上海
3,29,167.0,上海
4,66,180.0,上海
5,28,176.0,上海
6,29,167.0,上海
7,25,180.0,上海
8,28,176.0,上海
9,29,167.0,上海


#### 按某列排序(默认升序)

In [81]:
df.sort_values('年龄')#升序
df.sort_values('年龄', ascending = False)#降序

Unnamed: 0,姓名,年龄,身高,城市
4,周武,66,180.0,上海
11,王润,35,176.0,上海
0,张三,29,167.0,上海
3,赵六,29,167.0,上海
6,张器,29,167.0,上海
9,张灯,29,167.0,上海
2,王五,28,176.0,上海
5,张叶,28,176.0,上海
8,王根,28,176.0,上海
1,李四,25,180.0,上海


#### 组合排序

In [82]:
#先按年龄升序 再按身高降序
df.sort_values(['年龄', '身高'], ascending = [True, False])

Unnamed: 0,姓名,年龄,身高,城市
1,李四,25,180.0,上海
7,李咯,25,180.0,上海
10,李放,25,180.0,上海
2,王五,28,176.0,上海
5,张叶,28,176.0,上海
8,王根,28,176.0,上海
0,张三,29,167.0,上海
3,赵六,29,167.0,上海
6,张器,29,167.0,上海
9,张灯,29,167.0,上海


#### 条件查询

In [83]:
# 身高175以上
df.query('身高 > 175')
df[df['身高'] > 175]

Unnamed: 0,姓名,年龄,身高,城市
1,李四,25,180.0,上海
2,王五,28,176.0,上海
4,周武,66,180.0,上海
5,张叶,28,176.0,上海
7,李咯,25,180.0,上海
8,王根,28,176.0,上海
10,李放,25,180.0,上海
11,王润,35,176.0,上海


In [84]:
# 身高180及以上且年龄30以下
df.query('身高 >= 180 & 年龄 < 30')

Unnamed: 0,姓名,年龄,身高,城市
1,李四,25,180.0,上海
7,李咯,25,180.0,上海
10,李放,25,180.0,上海


In [85]:
# 身高180及以上或年龄30以下
df.query('身高 >= 180 | 年龄 < 30')

Unnamed: 0,姓名,年龄,身高,城市
0,张三,29,167.0,上海
1,李四,25,180.0,上海
2,王五,28,176.0,上海
3,赵六,29,167.0,上海
4,周武,66,180.0,上海
5,张叶,28,176.0,上海
6,张器,29,167.0,上海
7,李咯,25,180.0,上海
8,王根,28,176.0,上海
9,张灯,29,167.0,上海


#### 输出某个值的行和列号

In [86]:
row, col = np.where(df.values == 28)# 左边是行索引 右边是列索引
print(row)
print(col)

[2 5 8]
[1 1 1]


#### 增加一列

In [87]:
df['地区'] = '浦东'
df['地址'] = df['城市'] + '-' + df['地区']
df

Unnamed: 0,姓名,年龄,身高,城市,地区,地址
0,张三,29,167.0,上海,浦东,上海-浦东
1,李四,25,180.0,上海,浦东,上海-浦东
2,王五,28,176.0,上海,浦东,上海-浦东
3,赵六,29,167.0,上海,浦东,上海-浦东
4,周武,66,180.0,上海,浦东,上海-浦东
5,张叶,28,176.0,上海,浦东,上海-浦东
6,张器,29,167.0,上海,浦东,上海-浦东
7,李咯,25,180.0,上海,浦东,上海-浦东
8,王根,28,176.0,上海,浦东,上海-浦东
9,张灯,29,167.0,上海,浦东,上海-浦东


In [88]:
df['资产:万'] = np.random.randint(20, 100, 12)
df

Unnamed: 0,姓名,年龄,身高,城市,地区,地址,资产:万
0,张三,29,167.0,上海,浦东,上海-浦东,79
1,李四,25,180.0,上海,浦东,上海-浦东,42
2,王五,28,176.0,上海,浦东,上海-浦东,93
3,赵六,29,167.0,上海,浦东,上海-浦东,89
4,周武,66,180.0,上海,浦东,上海-浦东,77
5,张叶,28,176.0,上海,浦东,上海-浦东,61
6,张器,29,167.0,上海,浦东,上海-浦东,53
7,李咯,25,180.0,上海,浦东,上海-浦东,42
8,王根,28,176.0,上海,浦东,上海-浦东,65
9,张灯,29,167.0,上海,浦东,上海-浦东,58


In [89]:
# 增加一列财富评级
def get_level(assets):
    if assets > 90:
        return '富有'
    return '一般' if assets < 50 else '中等' 
df['财富等级'] = df['资产:万'].apply(lambda x : get_level(x))
df

Unnamed: 0,姓名,年龄,身高,城市,地区,地址,资产:万,财富等级
0,张三,29,167.0,上海,浦东,上海-浦东,79,中等
1,李四,25,180.0,上海,浦东,上海-浦东,42,一般
2,王五,28,176.0,上海,浦东,上海-浦东,93,富有
3,赵六,29,167.0,上海,浦东,上海-浦东,89,中等
4,周武,66,180.0,上海,浦东,上海-浦东,77,中等
5,张叶,28,176.0,上海,浦东,上海-浦东,61,中等
6,张器,29,167.0,上海,浦东,上海-浦东,53,中等
7,李咯,25,180.0,上海,浦东,上海-浦东,42,一般
8,王根,28,176.0,上海,浦东,上海-浦东,65,中等
9,张灯,29,167.0,上海,浦东,上海-浦东,58,中等


#### 删除行列
注意：（1）、删除列的操作时，axis参数不可省，因为axis默认为0（行）；

（2）、没有加入inplace参数，默认不会对原来数据进行修改，需要将结果赋值给新的变量。

In [90]:
# 删除某行
df6 = df.drop(labels = 0)
df6

Unnamed: 0,姓名,年龄,身高,城市,地区,地址,资产:万,财富等级
1,李四,25,180.0,上海,浦东,上海-浦东,42,一般
2,王五,28,176.0,上海,浦东,上海-浦东,93,富有
3,赵六,29,167.0,上海,浦东,上海-浦东,89,中等
4,周武,66,180.0,上海,浦东,上海-浦东,77,中等
5,张叶,28,176.0,上海,浦东,上海-浦东,61,中等
6,张器,29,167.0,上海,浦东,上海-浦东,53,中等
7,李咯,25,180.0,上海,浦东,上海-浦东,42,一般
8,王根,28,176.0,上海,浦东,上海-浦东,65,中等
9,张灯,29,167.0,上海,浦东,上海-浦东,58,中等
10,李放,25,180.0,上海,浦东,上海-浦东,69,中等


In [91]:
# 删除列
df7 = df.drop(labels = ['城市', '地区'], axis = 1)
df7

Unnamed: 0,姓名,年龄,身高,地址,资产:万,财富等级
0,张三,29,167.0,上海-浦东,79,中等
1,李四,25,180.0,上海-浦东,42,一般
2,王五,28,176.0,上海-浦东,93,富有
3,赵六,29,167.0,上海-浦东,89,中等
4,周武,66,180.0,上海-浦东,77,中等
5,张叶,28,176.0,上海-浦东,61,中等
6,张器,29,167.0,上海-浦东,53,中等
7,李咯,25,180.0,上海-浦东,42,一般
8,王根,28,176.0,上海-浦东,65,中等
9,张灯,29,167.0,上海-浦东,58,中等


In [92]:
del df7['身高']
df7

Unnamed: 0,姓名,年龄,地址,资产:万,财富等级
0,张三,29,上海-浦东,79,中等
1,李四,25,上海-浦东,42,一般
2,王五,28,上海-浦东,93,富有
3,赵六,29,上海-浦东,89,中等
4,周武,66,上海-浦东,77,中等
5,张叶,28,上海-浦东,61,中等
6,张器,29,上海-浦东,53,中等
7,李咯,25,上海-浦东,42,一般
8,王根,28,上海-浦东,65,中等
9,张灯,29,上海-浦东,58,中等


### 7.数据分组

#### 一列分组

In [93]:
df.groupby('财富等级').groups

{'一般': [1, 7], '中等': [0, 3, 4, 5, 6, 8, 9, 10, 11], '富有': [2]}

#### 多列分组

In [94]:
df.groupby(['年龄', '财富等级']).groups

{(25, '一般'): [1, 7], (25, '中等'): [10], (28, '中等'): [5, 8], (28, '富有'): [2], (29, '中等'): [0, 3, 6, 9], (35, '中等'): [11], (66, '中等'): [4]}

#### 每组的统计数据（横向显示）

In [95]:
df.groupby('财富等级').describe()

Unnamed: 0_level_0,年龄,年龄,年龄,年龄,年龄,年龄,年龄,年龄,身高,身高,身高,身高,身高,资产:万,资产:万,资产:万,资产:万,资产:万,资产:万,资产:万,资产:万
Unnamed: 0_level_1,count,mean,std,min,25%,50%,75%,max,count,mean,...,75%,max,count,mean,std,min,25%,50%,75%,max
财富等级,Unnamed: 1_level_2,Unnamed: 2_level_2,Unnamed: 3_level_2,Unnamed: 4_level_2,Unnamed: 5_level_2,Unnamed: 6_level_2,Unnamed: 7_level_2,Unnamed: 8_level_2,Unnamed: 9_level_2,Unnamed: 10_level_2,Unnamed: 11_level_2,Unnamed: 12_level_2,Unnamed: 13_level_2,Unnamed: 14_level_2,Unnamed: 15_level_2,Unnamed: 16_level_2,Unnamed: 17_level_2,Unnamed: 18_level_2,Unnamed: 19_level_2,Unnamed: 20_level_2,Unnamed: 21_level_2
一般,2.0,25.0,0.0,25.0,25.0,25.0,25.0,25.0,2.0,180.0,...,180.0,180.0,2.0,42.0,0.0,42.0,42.0,42.0,42.0,42.0
中等,9.0,33.111111,12.604012,25.0,28.0,29.0,29.0,66.0,9.0,172.888889,...,176.0,180.0,9.0,68.777778,11.300197,53.0,61.0,68.0,77.0,89.0
富有,1.0,28.0,,28.0,28.0,28.0,28.0,28.0,1.0,176.0,...,176.0,176.0,1.0,93.0,,93.0,93.0,93.0,93.0,93.0


#### 每组的统计数据（纵向显示）

In [96]:
df.groupby('财富等级').describe().unstack()

             财富等级
年龄    count  一般       2.000000
             中等       9.000000
             富有       1.000000
      mean   一般      25.000000
             中等      33.111111
                       ...    
资产:万  75%    中等      77.000000
             富有      93.000000
      max    一般      42.000000
             中等      89.000000
             富有      93.000000
Length: 72, dtype: float64

####  查看指定列的统计信息

In [97]:
df.groupby('财富等级').describe()['年龄']

Unnamed: 0_level_0,count,mean,std,min,25%,50%,75%,max
财富等级,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
一般,2.0,25.0,0.0,25.0,25.0,25.0,25.0,25.0
中等,9.0,33.111111,12.604012,25.0,28.0,29.0,29.0,66.0
富有,1.0,28.0,,28.0,28.0,28.0,28.0,28.0


#### 分组大小

In [98]:
df.groupby('财富等级').count()
df.groupby('年龄').count()
df.groupby('财富等级').agg(np.size)

Unnamed: 0_level_0,姓名,年龄,身高,城市,地区,地址,资产:万
财富等级,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
一般,2,2,2,2,2,2,2
中等,9,9,9,9,9,9,9
富有,1,1,1,1,1,1,1


#### 分组最大值

In [99]:
df.groupby('年龄').max()
df.groupby('年龄').agg(np.max)

Unnamed: 0_level_0,姓名,身高,城市,地区,地址,资产:万,财富等级
年龄,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
25,李放,180.0,上海,浦东,上海-浦东,69,中等
28,王根,176.0,上海,浦东,上海-浦东,93,富有
29,赵六,167.0,上海,浦东,上海-浦东,89,中等
35,王润,176.0,上海,浦东,上海-浦东,68,中等
66,周武,180.0,上海,浦东,上海-浦东,77,中等


#### 分组最小值

In [100]:
df.groupby('身高').min()

Unnamed: 0_level_0,姓名,年龄,城市,地区,地址,资产:万,财富等级
身高,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
167.0,张三,29,上海,浦东,上海-浦东,53,中等
176.0,张叶,28,上海,浦东,上海-浦东,61,中等
180.0,周武,25,上海,浦东,上海-浦东,42,一般


#### 分组求和

In [101]:
df8 = pd.DataFrame([['一月', 340], ['一月', 440], ['二月', 55], ['二月', 66]], columns = ['月份', '开销'])
print(df8.to_string())
df8.groupby('月份').sum()

   月份   开销
0  一月  340
1  一月  440
2  二月   55
3  二月   66


Unnamed: 0_level_0,开销
月份,Unnamed: 1_level_1
一月,780
二月,121


#### 分组求平均

In [102]:
df8.groupby('月份').mean()

Unnamed: 0_level_0,开销
月份,Unnamed: 1_level_1
一月,390.0
二月,60.5


#### 同时计算求和和平均

In [103]:
df8.groupby('月份').agg([np.sum, np.mean])

Unnamed: 0_level_0,开销,开销
Unnamed: 0_level_1,sum,mean
月份,Unnamed: 1_level_2,Unnamed: 2_level_2
一月,780,390.0
二月,121,60.5


#### 不同列不同的计算方法

In [104]:
df8['收入'] = np.random.randint(7000, 9000, 4)
df8

Unnamed: 0,月份,开销,收入
0,一月,340,8940
1,一月,440,7944
2,二月,55,8309
3,二月,66,7168


In [105]:
df8.groupby('月份').agg({'开销' : 'count', '收入' : 'sum'})

Unnamed: 0_level_0,开销,收入
月份,Unnamed: 1_level_1,Unnamed: 2_level_1
一月,2,16884
二月,2,15477


#### 值映射

In [106]:
df8['月份'] = df8['月份'].map({'一月' : 1, '二月' : 2})
df8

Unnamed: 0,月份,开销,收入
0,1,340,8940
1,1,440,7944
2,2,55,8309
3,2,66,7168


#### 增加一列分组求出的值

In [107]:
df8['平均收入'] = df8.groupby('月份')['收入'].transform('mean')
df8

Unnamed: 0,月份,开销,收入,平均收入
0,1,340,8940,8442.0
1,1,440,7944,8442.0
2,2,55,8309,7738.5
3,2,66,7168,7738.5


#### 输出月份分组收入最高（groupby默认会去掉空值）

In [108]:
def get_max(g):
    df = g.sort_values('收入', ascending = True)
    return df.iloc[-1, :]
df8.groupby('月份').apply(get_max)

Unnamed: 0_level_0,月份,开销,收入,平均收入
月份,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
1,1.0,340.0,8940.0,8442.0
2,2.0,55.0,8309.0,7738.5


#### 准备示例数据

In [109]:
# 数据准备
columns = ['姓名','性别','语文','数学','英语','城市','省份/市']
df9 = pd.DataFrame(columns = columns)

def random_name():
    # 删减部分小众姓氏
    firstName = "赵钱孙李周吴郑王冯陈褚卫蒋沈韩杨朱秦尤许何吕施张孔曹严华金魏陶姜戚谢邹喻水云苏潘葛奚范彭郎鲁韦昌马苗凤花方俞任袁柳鲍史唐费岑薛雷贺倪汤滕殷罗毕郝邬安常乐于时傅卞齐康伍余元卜顾孟平" \
                "黄和穆萧尹姚邵湛汪祁毛禹狄米贝明臧计成戴宋茅庞熊纪舒屈项祝董粱杜阮席季麻强贾路娄危江童颜郭梅盛林刁钟徐邱骆高夏蔡田胡凌霍万柯卢莫房缪干解应宗丁宣邓郁单杭洪包诸左石崔吉" \
                "龚程邢滑裴陆荣翁荀羊甄家封芮储靳邴松井富乌焦巴弓牧隗山谷车侯伊宁仇祖武符刘景詹束龙叶幸司韶黎乔苍双闻莘劳逄姬冉宰桂牛寿通边燕冀尚农温庄晏瞿茹习鱼容向古戈终居衡步都耿满弘国文东殴沃曾关红游盖益桓公晋楚闫"
    # 百家姓姓氏
    # firstName = "赵钱孙李周吴郑王冯陈褚卫蒋沈韩杨朱秦尤许何吕施张孔曹严华金魏陶姜戚谢邹喻柏水窦章云苏潘葛奚范彭郎鲁韦昌马苗凤花方俞任袁柳酆鲍史唐费廉岑薛雷贺倪汤滕殷罗毕郝邬安常乐于时傅皮卞齐康伍余元卜顾孟平" \
    #             "黄和穆萧尹姚邵湛汪祁毛禹狄米贝明臧计伏成戴谈宋茅庞熊纪舒屈项祝董粱杜阮蓝闵席季麻强贾路娄危江童颜郭梅盛林刁钟徐邱骆高夏蔡田樊胡凌霍虞万支柯昝管卢莫经房裘缪干解应宗丁宣贲邓郁单杭洪包诸左石崔吉钮" \
    #             "龚程嵇邢滑裴陆荣翁荀羊於惠甄麴家封芮羿储靳汲邴糜松井段富巫乌焦巴弓牧隗山谷车侯宓蓬全郗班仰秋仲伊宫宁仇栾暴甘钭厉戎祖武符刘景詹束龙叶幸司韶郜黎蓟薄印宿白怀蒲邰从鄂索咸籍赖卓蔺屠蒙池乔阴欎胥能苍" \
    #             "双闻莘党翟谭贡劳逄姬申扶堵冉宰郦雍舄璩桑桂濮牛寿通边扈燕冀郏浦尚农温别庄晏柴瞿阎充慕连茹习宦艾鱼容向古易慎戈廖庾终暨居衡步都耿满弘匡国文寇广禄阙东殴殳沃利蔚越夔隆师巩厍聂晁勾敖融冷訾辛阚那简饶空" \
    #             "曾毋沙乜养鞠须丰巢关蒯相查後荆红游竺权逯盖益桓公晋楚闫法汝鄢涂钦归海帅缑亢况后有琴梁丘左丘商牟佘佴伯赏南宫墨哈谯笪年爱阳佟言福百家姓终"
    # 百家姓中双姓氏
    firstName2="万俟司马上官欧阳夏侯诸葛闻人东方赫连皇甫尉迟公羊澹台公冶宗政濮阳淳于单于太叔申屠公孙仲孙轩辕令狐钟离宇文长孙慕容鲜于闾丘司徒司空亓官司寇仉督子颛孙端木巫马公西漆雕乐正壤驷公良拓跋夹谷宰父谷梁段干百里东郭南门呼延羊舌微生梁丘左丘东门西门南宫南宫"
    # 女孩名字
    girl = '秀娟英华慧巧美娜静淑惠珠翠雅芝玉萍红娥玲芬芳燕彩春菊兰凤洁梅琳素云莲真环雪荣爱妹霞香月莺媛艳瑞凡佳嘉琼勤珍贞莉桂娣叶璧璐娅琦晶妍茜秋珊莎锦黛青倩婷姣婉娴瑾颖露瑶怡婵雁蓓纨仪荷丹蓉眉君琴蕊薇菁梦岚苑婕馨瑗琰韵融园艺咏卿聪澜纯毓悦昭冰爽琬茗羽希宁欣飘育滢馥筠柔竹霭凝晓欢霄枫芸菲寒伊亚宜可姬舒影荔枝思丽'
    # 男孩名字
    boy = '伟刚勇毅俊峰强军平保东文辉力明永健世广志义兴良海山仁波宁贵福生龙元全国胜学祥才发武新利清飞彬富顺信子杰涛昌成康星光天达安岩中茂进林有坚和彪博诚先敬震振壮会思群豪心邦承乐绍功松善厚庆磊民友裕河哲江超浩亮政谦亨奇固之轮翰朗伯宏言若鸣朋斌梁栋维启克伦翔旭鹏泽晨辰士以建家致树炎德行时泰盛雄琛钧冠策腾楠榕风航弘'
    # 名
    name = '中笑贝凯歌易仁器义礼智信友上都卡被好无九加电金马钰玉忠孝'
 
    # 10%的机遇生成双数姓氏
    if np.random.choice(range(100))>10:
        firstName_name =firstName[np.random.choice(range(len(firstName)))]
    else:
        i = np.random.choice(range(len(firstName2)))
        firstName_name =firstName2[i:i+2]
 
    sex = np.random.choice(range(2))
    name_1 = ""
    # 生成并返回一个名字
    if sex > 0:
        girl_name = girl[np.random.choice(range(len(girl)))]
        if np.random.choice(range(2)) > 0:
            name_1 = name[np.random.choice(range(len(name)))]
        return firstName_name + name_1 + girl_name
    else:
        boy_name = boy[np.random.choice(range(len(boy)))]
        if np.random.choice(range(2)) > 0:
            name_1 = name[np.random.choice(range(len(name)))]
        return firstName_name + name_1 + boy_name
# 随机获得n个姓名
def get_peoples(n):
    peoples = []
    for i in range(n):
        peoples.append(random_name())
    return peoples
# 随机获得n个性别
def get_genders(n):
    genders = []
    for i in range(n):
        genders.append('男' if np.random.random() < 0.4 else '女')
    return genders
# 随机获得n个成绩
def get_scores(n):
    return np.random.randint(40, 100, n)

city = ['安徽-合肥', '安徽-滁州', '安徽-蚌埠', '安徽-芜湖' ,\
        '上海-浦东', '上海-徐汇', '上海-闵行', '上海-松江']
# 从上面随机获得n个城市
def get_citys(n):
    citys = []
    for i in range(n):
        citys.append(city[np.random.randint(0, 7)])
    return citys

In [110]:
# '姓名','性别','语文','数学','英语','城市','省份/市'
nums = 30
df9['姓名'] = get_peoples(nums)
df9['性别'] = get_genders(nums)
df9['语文'] = get_scores(nums)
df9['数学'] = get_scores(nums)
df9['英语'] = get_scores(nums)
df9['省份/市'] = get_citys(nums)
df9

Unnamed: 0,姓名,性别,语文,数学,英语,城市,省份/市
0,彭芸,女,88,43,49,,安徽-芜湖
1,薛加娟,男,81,77,70,,上海-浦东
2,萧忠峰,男,45,43,79,,安徽-芜湖
3,国礼涛,女,65,45,46,,上海-浦东
4,乔忠之,女,55,62,40,,安徽-蚌埠
5,束被永,男,45,50,97,,安徽-蚌埠
6,罗孝翔,女,89,50,97,,上海-闵行
7,赵秀,男,87,41,71,,上海-闵行
8,彭姣,女,53,94,80,,安徽-滁州
9,路笑娣,男,61,95,61,,上海-闵行


In [113]:
# 提取信息
df9['城市'] = df9['省份/市'].str.extract(r'-(.*)', expand = False)
df9['省份/市'] = df9['省份/市'].str.extract(r'(.*)-', expand = False)
df9

Unnamed: 0,姓名,性别,语文,数学,英语,城市,省份/市
0,彭芸,女,88,43,49,芜湖,安徽
1,薛加娟,男,81,77,70,浦东,上海
2,萧忠峰,男,45,43,79,芜湖,安徽
3,国礼涛,女,65,45,46,浦东,上海
4,乔忠之,女,55,62,40,蚌埠,安徽
5,束被永,男,45,50,97,蚌埠,安徽
6,罗孝翔,女,89,50,97,闵行,上海
7,赵秀,男,87,41,71,闵行,上海
8,彭姣,女,53,94,80,滁州,安徽
9,路笑娣,男,61,95,61,闵行,上海


In [114]:
df10 = pd.DataFrame(df9, columns = ['姓名','性别','语文','数学','英语','省份/市','城市'])
df10

Unnamed: 0,姓名,性别,语文,数学,英语,省份/市,城市
0,彭芸,女,88,43,49,安徽,芜湖
1,薛加娟,男,81,77,70,上海,浦东
2,萧忠峰,男,45,43,79,安徽,芜湖
3,国礼涛,女,65,45,46,上海,浦东
4,乔忠之,女,55,62,40,安徽,蚌埠
5,束被永,男,45,50,97,安徽,蚌埠
6,罗孝翔,女,89,50,97,上海,闵行
7,赵秀,男,87,41,71,上海,闵行
8,彭姣,女,53,94,80,安徽,滁州
9,路笑娣,男,61,95,61,上海,闵行


In [115]:
# 7.16 输出语文成绩最高的男生和女生（groupby默认会去掉空值）
def get_max(g):
    df = g.sort_values('语文',ascending=True)
    print(df)
    return df.iloc[-1,:]
df10.groupby('性别').apply(get_max)

      姓名 性别  语文  数学  英语 省份/市  城市
15   鲍卡东  女  41  71  44   上海  闵行
16   公羊芸  女  42  67  84   上海  徐汇
21   黄金琳  女  42  91  95   上海  浦东
14    燕欣  女  49  43  91   安徽  蚌埠
28    粱仪  女  50  46  68   安徽  蚌埠
20   丁信娜  女  50  46  69   安徽  蚌埠
8     彭姣  女  53  94  80   安徽  滁州
4    乔忠之  女  55  62  40   安徽  蚌埠
23    季海  女  57  46  55   安徽  滁州
18    卞荣  女  63  49  65   上海  浦东
3    国礼涛  女  65  45  46   上海  浦东
29    都婷  女  67  62  90   安徽  芜湖
13   燕器伦  女  76  50  47   安徽  芜湖
0     彭芸  女  88  43  49   安徽  芜湖
22    弘叶  女  89  84  80   上海  浦东
6    罗孝翔  女  89  50  97   上海  闵行
17  侯诸好亮  女  93  54  55   上海  浦东
     姓名 性别  语文  数学  英语 省份/市  城市
19  于九倩  男  40  82  80   安徽  芜湖
2   萧忠峰  男  45  43  79   安徽  芜湖
5   束被永  男  45  50  97   安徽  蚌埠
10  骆贝静  男  48  59  79   安徽  合肥
9   路笑娣  男  61  95  61   上海  闵行
24   危凡  男  64  57  53   安徽  滁州
27   幸婷  男  78  92  43   上海  闵行
12  孟被良  男  79  53  58   安徽  蚌埠
1   薛加娟  男  81  77  70   上海  浦东
11   劳刚  男  82  94  90   上海  闵行
26   苗元  男  82  77  51   安徽  合肥
7    赵秀  男  87  41  71

Unnamed: 0_level_0,姓名,性别,语文,数学,英语,省份/市,城市
性别,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1
女,侯诸好亮,女,93,54,55,上海,浦东
男,贝笑黛,男,88,70,45,安徽,蚌埠


#### 透视表

按列省份、城市进行分组，计算语文、数学、英语成绩最大值的透视表

In [116]:
df10.pivot_table(index= ['省份/市', '城市'], values = ['语文', '数学', '英语'], aggfunc = max)

Unnamed: 0_level_0,Unnamed: 1_level_0,数学,英语,语文
省份/市,城市,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
上海,徐汇,67,84,42
上海,浦东,91,95,93
上海,闵行,95,97,89
安徽,合肥,77,79,82
安徽,滁州,94,80,64
安徽,芜湖,82,90,88
安徽,蚌埠,70,97,88


### 8.数据统计

#### 数据汇总统计

In [117]:
df10.describe()#数字类型的各个常用指标

Unnamed: 0,语文,数学,英语
count,30.0,30.0,30.0
mean,64.966667,63.1,67.733333
std,17.796713,18.295185,18.250996
min,40.0,41.0,40.0
25%,49.25,46.75,51.5
50%,63.5,58.0,68.5
75%,81.75,77.0,80.0
max,93.0,95.0,97.0


#### 各个列非空值的个数

In [118]:
df10.count()

姓名      30
性别      30
语文      30
数学      30
英语      30
省份/市    30
城市      30
dtype: int64

#### 最值/均值/中位数/列间相关系数/列的标准差/方差

In [124]:
# 最小
df10.min()#各个列的最小值
df10['语文'].min()#某个列的最小值
# 最大
df10.max()
# 均值
df10['语文'].mean()
# 中位数
df10['语文'].median()

63.5

In [131]:
# 列间相关系数
df11 = pd.DataFrame(df10, columns = ['语文', '数学', '英语'])
df11.corr()

Unnamed: 0,语文,数学,英语
语文,1.0,0.007742,-0.277009
数学,0.007742,1.0,0.093646
英语,-0.277009,0.093646,1.0


In [135]:
# 标准差
df11.std()
# 方差
df11.var()
# 求和
df11.sum()

语文    1949
数学    1893
英语    2032
dtype: int64

In [138]:
# 8.10 三个科目的指标
mean = df11[['语文','数学','英语']].mean()
var  = df11[['语文','数学','英语']].var()
total = df11[['语文','数学','英语']].sum()
std = df11[['语文','数学','英语']].std()
rows = [total,mean,var,std]
# 索引列表
index = ['总分','平均分','方差','标准差']
# 根据指定索引和行构造 DataFrame 对象
df_tmp = pd.DataFrame(rows, index = index)
df_tmp

Unnamed: 0,语文,数学,英语
总分,1949.0,1893.0,2032.0
平均分,64.966667,63.1,67.733333
方差,316.722989,334.713793,333.098851
标准差,17.796713,18.295185,18.250996


### 9.表格样式

#### 设置空值背景为红色

In [142]:
df_data.style.highlight_null(color = 'red')

Unnamed: 0,姓名,年龄
0,张三,23.0
1,李四,25.0
2,,27.0
3,王五,


#### 最大数据高亮

In [144]:
df10.style.highlight_max(color = 'green')

Unnamed: 0,姓名,性别,语文,数学,英语,省份/市,城市
0,彭芸,女,88,43,49,安徽,芜湖
1,薛加娟,男,81,77,70,上海,浦东
2,萧忠峰,男,45,43,79,安徽,芜湖
3,国礼涛,女,65,45,46,上海,浦东
4,乔忠之,女,55,62,40,安徽,蚌埠
5,束被永,男,45,50,97,安徽,蚌埠
6,罗孝翔,女,89,50,97,上海,闵行
7,赵秀,男,87,41,71,上海,闵行
8,彭姣,女,53,94,80,安徽,滁州
9,路笑娣,男,61,95,61,上海,闵行


#### 部分列最大数据高亮

In [156]:
# 9.7 部分列数据高亮（Dataframe全为数据）
# df3 = df[['语文','数学','英语']]
def highlight_max(s):
    is_max = s == s.max()
    return ['background-color: yellow' if v else '' for v in is_max]

df11.style.apply(highlight_max)

Unnamed: 0,语文,数学,英语
0,88,43,49
1,81,77,70
2,45,43,79
3,65,45,46
4,55,62,40
5,45,50,97
6,89,50,97
7,87,41,71
8,53,94,80
9,61,95,61


#### 最小数据高亮

In [145]:
df10.style.highlight_min(color = 'yellow')

Unnamed: 0,姓名,性别,语文,数学,英语,省份/市,城市
0,彭芸,女,88,43,49,安徽,芜湖
1,薛加娟,男,81,77,70,上海,浦东
2,萧忠峰,男,45,43,79,安徽,芜湖
3,国礼涛,女,65,45,46,上海,浦东
4,乔忠之,女,55,62,40,安徽,蚌埠
5,束被永,男,45,50,97,安徽,蚌埠
6,罗孝翔,女,89,50,97,上海,闵行
7,赵秀,男,87,41,71,上海,闵行
8,彭姣,女,53,94,80,安徽,滁州
9,路笑娣,男,61,95,61,上海,闵行


#### 85分以上显示红色

In [164]:
def color_negative_red(val):
    color = 'red' if val > 85.0 else 'white'
    return 'color: %s' % color
df11.style.applymap(color_negative_red)

Unnamed: 0,语文,数学,英语
0,88,43,49
1,81,77,70
2,45,43,79
3,65,45,46
4,55,62,40
5,45,50,97
6,89,50,97
7,87,41,71
8,53,94,80
9,61,95,61


#### 上面两个功能混合

In [165]:
df11.style.applymap(color_negative_red).apply(highlight_max)

Unnamed: 0,语文,数学,英语
0,88,43,49
1,81,77,70
2,45,43,79
3,65,45,46
4,55,62,40
5,45,50,97
6,89,50,97
7,87,41,71
8,53,94,80
9,61,95,61


#### 显示热度图

In [171]:
# 9.13 显示热度图
import seaborn as sns
cm = sns.light_palette("green", as_cmap=True)
df11.style.background_gradient(cmap=cm)

Unnamed: 0,语文,数学,英语
0,88,43,49
1,81,77,70
2,45,43,79
3,65,45,46
4,55,62,40
5,45,50,97
6,89,50,97
7,87,41,71
8,53,94,80
9,61,95,61
