# pandas 常见运算

包括函数:

* pandas.DataFrame.apply() 将一个自定义函数或者lambda 函数应用到数据帧的行或列上，实现数据的转换和处理
* pandas.DataFrame.corr() 计算DataFrame 中列之间Pearson 相关系数 (样本)
* pandas.DataFrame.count() 计算DataFrame 每列的非缺失值的数量
* pandas.DataFrame.cov() 计算DataFrame 中列之间的协方差矩阵 (样本)
* pandas.DataFrame.describe() 计算DataFrame 中数值列的基本描述统计信息，如平均值、标准差、分位数等
* pandas.DataFrame.groupby() 在分组后的数据上执行聚合、转换和其他操作，从而对数据进行更深入的分析和处理
* pandas.DataFrame.kurt() 计算DataFrame 中列的峰度 (四阶矩)
* pandas.DataFrame.kurtosis() 计算DataFrame 中列的峰度 (四阶矩)
* pandas.DataFrame.max() 计算DataFrame 中每列的最大值
* pandas.DataFrame.mean() 计算DataFrame 中每列的平均值
* pandas.DataFrame.median() 计算DataFrame 中每列的中位数
* pandas.DataFrame.min() 计算DataFrame 中每列的最小值
* pandas.DataFrame.mode() 计算DataFrame 中每列的众数
* pandas.DataFrame.nunique() 计算DataFrame 中每列中的唯一值数量
* pandas.DataFrame.quantile() 计算DataFrame 中每列的指定分位数值，如四分位数、特定百分位等
* pandas.DataFrame.rank() 计算DataFrame 中每列元素的排序排名
* pandas.DataFrame.skew() 计算DataFrame 中列的偏度 (三阶矩)
* pandas.DataFrame.std() 计算DataFrame 中列的标准差 (样本)
* pandas.DataFrame.sum() 计算DataFrame 中每列元素的总和
* pandas.DataFrame.var() 计算DataFrame 中列的方差 (样本)

## 四则运算

pandas 可以通过简单的语法实现 df 各列之间的四则运算.

In [1]:
import seaborn as sns
import pandas as pd

iris_df = sns.load_dataset("iris")
# 从Seaborn中导入鸢尾花数据帧
X_df = iris_df.copy()
X_df.rename(columns = {'sepal_length':'X1', 'sepal_width':'X2'}, inplace = True)
X_df_ = X_df[['X1','X2', 'species']]
# 数据转换
X_df_['X1 - E(X1)'] = X_df_['X1'].sub(X_df_['X1'].mean()) # 添加一个新的列, 用于存储X1 - E(X1). 其中 mean() 返回的是一个值
print(X_df_.head())

X_df_['X1 - X2'] = X_df_['X1'] - X_df_['X2'] # 运算的两个都是列, 返回的是一个列
print(type(X_df_['X1 - X2'])) # 类型是 Series

    X1   X2 species  X1 - E(X1)
0  5.1  3.5  setosa   -0.743333
1  4.9  3.0  setosa   -0.943333
2  4.7  3.2  setosa   -1.143333
3  4.6  3.1  setosa   -1.243333
4  5.0  3.6  setosa   -0.843333
<class 'pandas.core.series.Series'>


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  X_df_['X1 - E(X1)'] = X_df_['X1'].sub(X_df_['X1'].mean()) # 添加一个新的列, 用于存储X1 - E(X1). 其中 mean() 返回的是一个值


## 统计运算

统计运算,也称为**聚合操作**

聚合操作 (aggregation) 通常用于从大量数据中提取出有意义的摘要信息，以便更好地理解数据的特征和行为

常见的聚合操作包括计算平均值、求和、计数、标准差、方差、相关性等.这些操作可以帮助我们了解数据的集中趋势,离散程度,相关性等特征,从而做出更准确的分析和决策.

pandas.DataFrame.cov() 计算可以得到的鸢尾花前四列协方差矩阵热图.当然，在计算协方差时，我们也可以考虑到数据标签

此外，pandas.DataFrame.agg() 方法用于对 DataFrame 中的数据进行自定义聚合操作。该方法按照指定的函数对数据进行聚合，可以是内置的统计函数，也可以是自定义的函数。比如，iris_df.iloc[:,0:4].agg(['sum', 'min', 'max', 'std', 'var', 'mean']) 对鸢尾花数据帧前四列进行各种统计计算。

常用统计运算方法汇总如下:
1. pandas.DataFrame.corr()      计算DataFrame 中列之间 Pearson 相关系数 (样本)
2. pandas.DataFrame.count()     计算DataFrame 每列的非缺失值的数量
3. pandas.DataFrame.cov()       计算DataFrame 中列之间的协方差矩阵 (样本)
4. pandas.DataFrame.describe()  计算DataFrame 中数值列的基本描述统计信息，如平均值、标准差、分位数等
5. pandas.DataFrame.kurt()      计算DataFrame 中列的峰度 (四阶矩)
6. pandas.DataFrame.kurtosis()  计算DataFrame 中列的峰度 (四阶矩)
7. pandas.DataFrame.max()       计算DataFrame 中每列的最大值
8. pandas.DataFrame.mean()      计算DataFrame 中每列的平均值
9. pandas.DataFrame.median()    计算DataFrame 中每列的中位数
10. pandas.DataFrame.min()      计算DataFrame 中每列的最小值
11. pandas.DataFrame.mode()     计算DataFrame 中每列的众数
12. pandas.DataFrame.quantile() 计算DataFrame 中每列的指定分位数值，如四分位数、特定百分位等
13. pandas.DataFrame.rank()     计算DataFrame 中每列元素的排序排名
14. pandas.DataFrame.skew()     计算DataFrame 中列的偏度 (三阶矩)
15. pandas.DataFrame.sum()      计算DataFrame 中每列元素的总和
16. pandas.DataFrame.std()      计算DataFrame 中列的标准差 (样本)
17. pandas.DataFrame.var()      计算DataFrame 中列的方差 (样本)
18. pandas.DataFrame.nunique()  计算DataFrame 中每列中的唯一值数量
> 通常关于数值的运算都会去掉 NaN

## groupby() 分组聚合

groupby() 是一种非常有用的数据分组聚合计算方法。groupby() 按照某个或多个列的值对数据进行分组，然后对每个分组进行聚合操作。

groupby() 可以结合 mean() std() var() cov() 和 corr() 对分组后的数据进行聚合操作

In [1]:
import seaborn as sns
import pandas as pd

iris_df = sns.load_dataset('iris')
print(iris_df.head())

print("see after groupby(['species'])\n", iris_df.groupby(['species']))
## 从这个输出可以看出,groupby 以后得到的是一个 pandas 的类,不能输出值,需要配合其他聚类函数才能获取相关值

# 分组计算统计量
groupby_mean = iris_df.groupby(['species']).mean()
print("\n mean:\n", groupby_mean)

groupby_std = iris_df.groupby(['species']).std()
print("\n std:\n", groupby_std)

groupby_var = iris_df.groupby(['species']).var()
print("\n var:\n", groupby_var)

groupby_cov = iris_df.groupby(['species']).cov()
print("\n cov:\n", groupby_cov)

groupby_corr = iris_df.groupby(['species']).corr()
print("\n corr:\n", groupby_corr)

   sepal_length  sepal_width  petal_length  petal_width species
0           5.1          3.5           1.4          0.2  setosa
1           4.9          3.0           1.4          0.2  setosa
2           4.7          3.2           1.3          0.2  setosa
3           4.6          3.1           1.5          0.2  setosa
4           5.0          3.6           1.4          0.2  setosa
see after groupby(['species'])
 <pandas.core.groupby.generic.DataFrameGroupBy object at 0x105649b70>

 mean:
             sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa             5.006        3.428         1.462        0.246
versicolor         5.936        2.770         4.260        1.326
virginica          6.588        2.974         5.552        2.026

 std:
             sepal_length  sepal_width  petal_length  petal_width
species                                                         
setosa          0.352490     0.379064      

In [3]:
import pandas as pd
import numpy as np
# 还有一个例子,给出如何使用 groupbu() 汇总学生成绩

# 创建班级、学号和科目的所有可能组合
classes = ['A', 'B']
stu_ids = [1, 2, 3, 4]
subjects = ['Art', 'Math', 'Science']

# 使用随机数生成成绩数据
np.random.seed(0)
length = len(classes ) * len(stu_ids) * len(subjects)
data = np.random.randint(3, 6, size=(length))

# 创建多行标签数据帧
index = pd.MultiIndex.from_product([classes, stu_ids, subjects],
                                    names=['Class', 'Student Id', 'Subject'])
## from_product() 用于创建多行标签数据帧, names 用于指定每一层索引的名称

df = pd.DataFrame(data, index=index, columns=['Score'])

print("at first:\n", df)

# 1) 每个班级各个科目平均成绩
class_subject_avg = df.groupby(['Class', 'Subject'])['Score'].mean()
print("\n class_subject_avg:\n", class_subject_avg) # 这是一个 Series 啊!!!

# 2) 每个班级各个学生的平均成绩
class_student_avg = df.groupby(['Class', 'Student Id'])['Score'].mean()
print("\n class_student_avg:\n", class_student_avg)

# 3) 两个班级放在一起各个科目的平均成绩
both_class_avg = df.groupby(['Subject'])['Score'].mean()
print("\n both_class_avg:\n", both_class_avg)

# 4) 两个班级每个同学总成绩,并排名
student_total_score = df.groupby(['Class', 'Student Id'])['Score'].sum().sort_values(ascending=False)
print("\n student_total_score:\n", student_total_score)

at first:
                           Score
Class Student Id Subject       
A     1          Art          3
                 Math         4
                 Science      3
      2          Art          4
                 Math         4
                 Science      5
      3          Art          3
                 Math         5
                 Science      3
      4          Art          3
                 Math         3
                 Science      5
B     1          Art          4
                 Math         5
                 Science      5
      2          Art          3
                 Math         4
                 Science      4
      3          Art          4
                 Math         4
                 Science      3
      4          Art          4
                 Math         3
                 Science      3

 class_subject_avg:
 Class  Subject
A      Art        3.25
       Math       4.00
       Science    4.00
B      Art        3.75
       Math       4.00
     

## apply() 自定义函数

可以使用 apply() 方法对 DataFrame 的行或列进行自定义函数的运算。

apply() 方法是 Pandas 中最重要和最有用的方法之一，它可以实现 DataFrame 数据的处理和转换，也可以实现计算和数据清洗等功能。

apply() 方法的参数有三个，分别是 func、axis 和 raw。其中，func 是自定义函数，axis 是指定函数应用的轴，raw 是指定是否将数据转换为 Series 对象。

In [5]:
import seaborn as sns
import pandas as pd

iris_df = sns.load_dataset('iris')

# 定义函数将花萼长度映射为等级
def map_fnc(speal_length):
    if speal_length < 5:
        return 'D'
    elif 5 <= speal_length < 6:
        return 'C'
    elif 6 <= speal_length < 7:
        return 'B'
    else:
        return 'A'
    
#  使用 apply() 函数将 speal_length 映射为等级并添加新列
iris_df['ctg'] = iris_df['sepal_length'].apply(map_fnc)
print(iris_df.head())

   sepal_length  sepal_width  petal_length  petal_width species ctg
0           5.1          3.5           1.4          0.2  setosa   C
1           4.9          3.0           1.4          0.2  setosa   D
2           4.7          3.2           1.3          0.2  setosa   D
3           4.6          3.1           1.5          0.2  setosa   D
4           5.0          3.6           1.4          0.2  setosa   C


如上所示:

apply() 方法可以接受一个函数作为参数，这个函数将会被应用到 DataFrame 的每一行或每一列上。在这个函数中，我们可以对数据进行任意的处理和转换，然后返回处理后的数据。

In [None]:
iris_df = sns.load_dataset('iris')

print(iris_df.groupby('species')['speal_length'].apply(lambda x: x.min()))


In [None]:
import seaborn as sns
import pandas as pd

iris_df = sns.load_dataset('iris')

# 计算鸢尾花各类花瓣平均宽度
mean_X2_by_species = iris_df.groupby('species')['petal_width'].mean()

# 定义映射函数
def map_petal_width(petal_width, species):
    if petal_width > mean_X2_by_species[species]:
        return 'YES'
    else:
        return 'NO'