# DataFrame 的统计运算和 DataFrame 的逻辑运算

## 统计运算

### mean()——求均值

方法：mean(axis)，axis 表示轴向，axis=0 表示按列进行统计，axis=1 表示按行进行统计。

In [1]:
import pandas as pd
Score=pd.read_csv("../data/score.csv")
Score.set_index(['姓名'],inplace=True)
print(Score.mean(axis=0))

语文    80.75
数学    72.25
英语    69.00
物理    68.75
生物    69.50
化学    71.00
dtype: float64


### Max()——求最大值

方法：max(axis)，axis 表示轴向，axis=0 表示按列进行统计，axis=1 表示按行进行统计。



In [2]:
print(Score.max(axis=0))


语文    93.0
数学    98.0
英语    81.0
物理    90.0
生物    76.0
化学    79.0
dtype: float64


###  Min()——查看最小值


In [3]:
print(Score.min(axis=0))


语文    59.0
数学    46.0
英语    48.0
物理    39.0
生物    62.0
化学    59.0
dtype: float64


### Var()——求方差、Std()——求标准差



In [4]:
print(Score.var(axis=0))  
print(Score.std(axis=0))

语文    250.916667
数学    470.916667
英语    236.666667
物理    490.250000
生物     33.000000
化学     88.666667
dtype: float64
语文    15.840349
数学    21.700614
英语    15.383974
物理    22.141590
生物     5.744563
化学     9.416298
dtype: float64


### Cov 方法——求两组数据之间的协方差

协方差是用来描述两个变量之间的线性相关性的统计量，它度量了两个变量同时变化的程度。如果协方差越大，说明两个变量同时变化的程度越大，反之则说明两个变量同时变化的程度越小。



In [5]:
print(Score['数学'].cov(Score['物理']))


-414.91666666666663


### nunique()——统计有多少不同的值


In [6]:
print(Score['数学'].nunique())


4


### value_counts()——对每种值进行计数

value_counts(values,sort=True,ascending=False,normalize=False,bins=None,dropna=True)

- sort=True：是否要进行排序，默认进行排序。
- ascending=False：默认降序排列。
- normalize=False：是否要对计算结果进行标准化并显示标准化后的结果，默认是 False。
- bins=None：可以自定义分组区间，默认是否。
- dropna=True：是否删除缺失值 nan，默认删除。



In [7]:
print(Score['数学'].value_counts())


数学
67.0    1
78.0    1
98.0    1
46.0    1
Name: count, dtype: int64


### describe()——整体统计描述


In [8]:
print(Score.describe())


              语文         数学         英语        物理         生物         化学
count   4.000000   4.000000   4.000000   4.00000   4.000000   4.000000
mean   80.750000  72.250000  69.000000  68.75000  69.500000  71.000000
std    15.840349  21.700614  15.383974  22.14159   5.744563   9.416298
min    59.000000  46.000000  48.000000  39.00000  62.000000  59.000000
25%    74.000000  61.750000  62.250000  59.25000  68.000000  65.750000
50%    85.500000  72.500000  73.500000  73.00000  70.000000  73.000000
75%    92.250000  83.000000  80.250000  82.50000  71.500000  78.250000
max    93.000000  98.000000  81.000000  90.00000  76.000000  79.000000


```text
df.count()          #非空元素计算
df.min()            #最小值
df.max()            #最大值
df.idxmin()         #最小值的位置
df.idxmax()         #最大值的位置
df.sum()            #求和
df.mean()           #均值
df.median()         #中位数
df.mode()           #众数
df.var()            #方差
df.std()            #标准差
df.mad()            #平均绝对偏差
df.describe()       #一次性输出多个描述性统计指标
df.abs()            #求绝对值
df.prod             #元素乘积
df.cumsum           #累计和
```


## DataFrame 的逻辑运算

DataFrame 支持的逻辑运算符有：<、>、==、!==、<=、>=、|、&、~。

```text
逻辑运算符	含义与作用
< 	小于
> 	大于
==	判断是否相等
!==	判断是否不相等
<=	小于等于
>=	大于等于
|	或运算
&	与运算
~	非运算
```

In [9]:
print((Score["数学"]<=50) & (Score["物理"]<=50))
Score_shuwu = Score[(Score["数学"]<=50) & (Score["物理"]<=50)]
print(Score_shuwu)

姓名
张飞    False
关羽    False
赵云    False
貂蝉    False
dtype: bool
Empty DataFrame
Columns: [语文, 数学, 英语, 物理, 生物, 化学]
Index: []


### 逻辑运算函数

DataFrame 主要提供了三个逻辑函数，分别为 query()、isin() 和 between() 这三个方法。

In [10]:
# 要找出数学低于 50 分并且物理低于 50 分的同学
Score_shuwu = Score.query("数学<=50 & 物理<=50")
print(Score_shuwu)

Empty DataFrame
Columns: [语文, 数学, 英语, 物理, 生物, 化学]
Index: []


### isin() 函数

isin() 函数，可以帮助我们判断 DataFrame 中是否含有某个值或某些值。

In [11]:
Score_100 = Score.isin([100])
print(Score_100)

       语文     数学     英语     物理     生物     化学
姓名                                          
张飞  False  False  False  False  False  False
关羽  False  False  False  False  False  False
赵云  False  False  False  False  False  False
貂蝉  False  False  False  False  False  False


In [22]:
Score_math = Score["数学"].isin([98,80])
print(Score_math)
print(Score[Score_math])
# 行索引
Score.loc[Score_math,:]

姓名
张飞    False
关羽    False
赵云     True
貂蝉    False
Name: 数学, dtype: bool
    语文    数学  英语  物理  生物  化学
姓名                          
赵云  79  98.0  48  39  70  68


Unnamed: 0_level_0,语文,数学,英语,物理,生物,化学
姓名,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
赵云,79,98.0,48,39,70,68


### between() 函数

between: 左闭右闭区间。

In [20]:
Score_shuwu = Score[Score["数学"].between(0,50)&Score["物理"].between(0,50)]
print(Score_shuwu)

Empty DataFrame
Columns: [语文, 数学, 英语, 物理, 生物, 化学]
Index: []
