# pandas 常见运算

包括函数:

* pandas.DataFrame.apply() 将一个自定义函数或者lambda 函数应用到数据帧的行或列上，实现数据的转换和处理
* pandas.DataFrame.corr() 计算DataFrame 中列之间Pearson 相关系数 (样本)
* pandas.DataFrame.count() 计算DataFrame 每列的非缺失值的数量
* pandas.DataFrame.cov() 计算DataFrame 中列之间的协方差矩阵 (样本)
* pandas.DataFrame.describe() 计算DataFrame 中数值列的基本描述统计信息，如平均值、标准差、分位数等
* pandas.DataFrame.groupby() 在分组后的数据上执行聚合、转换和其他操作，从而对数据进行更深入的分析和处理
* pandas.DataFrame.kurt() 计算DataFrame 中列的峰度 (四阶矩)
* pandas.DataFrame.kurtosis() 计算DataFrame 中列的峰度 (四阶矩)
* pandas.DataFrame.max() 计算DataFrame 中每列的最大值
* pandas.DataFrame.mean() 计算DataFrame 中每列的平均值
* pandas.DataFrame.median() 计算DataFrame 中每列的中位数
* pandas.DataFrame.min() 计算DataFrame 中每列的最小值
* pandas.DataFrame.mode() 计算DataFrame 中每列的众数
* pandas.DataFrame.nunique() 计算DataFrame 中每列中的唯一值数量
* pandas.DataFrame.quantile() 计算DataFrame 中每列的指定分位数值，如四分位数、特定百分位等
* pandas.DataFrame.rank() 计算DataFrame 中每列元素的排序排名
* pandas.DataFrame.skew() 计算DataFrame 中列的偏度 (三阶矩)
* pandas.DataFrame.std() 计算DataFrame 中列的标准差 (样本)
* pandas.DataFrame.sum() 计算DataFrame 中每列元素的总和
* pandas.DataFrame.var() 计算DataFrame 中列的方差 (样本)

## 四则运算



In [8]:
import seaborn as sns
import pandas as pd

iris_df = sns.load_dataset("iris")
# 从Seaborn中导入鸢尾花数据帧
X_df = iris_df.copy()
X_df.rename(columns = {'sepal_length':'X1', 'sepal_width':'X2'}, inplace = True)
X_df_ = X_df[['X1','X2', 'species']]
# 数据转换
X_df_['X1 - E(X1)'] = X_df_['X1'].sub(X_df_['X1'].mean()) # 添加一个新的列, 用于存储X1 - E(X1). 其中 mean() 返回的是一个值
print(X_df_.head())

X_df_['X1 - X2'] = X_df_['X1'] - X_df_['X2'] # 运算的两个都是列, 返回的是一个列
print(type(X_df_['X1 - X2'])) # 类型是 Series

    X1   X2 species  X1 - E(X1)
0  5.1  3.5  setosa   -0.743333
1  4.9  3.0  setosa   -0.943333
2  4.7  3.2  setosa   -1.143333
3  4.6  3.1  setosa   -1.243333
4  5.0  3.6  setosa   -0.843333
<class 'pandas.core.series.Series'>


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  X_df_['X1 - E(X1)'] = X_df_['X1'].sub(X_df_['X1'].mean()) # 添加一个新的列, 用于存储X1 - E(X1). 其中 mean() 返回的是一个值


## 统计运算

统计运算,也称为**聚合操作**

聚合操作 (aggregation) 通常用于从大量数据中提取出有意义的摘要信息，以便更好地理解数据的特征和行为

常见的聚合操作包括计算平均值、求和、计数、标准差、方差、相关性等