In [1]:
import pandas as pd
import numpy as np
from math import sqrt

# 计算女生血清蛋白含量的数字特征

In [2]:
filename = 'SerumProteinComponents.xls'
data = pd.read_excel(filename, header = None)
Data = data.values.flatten()
# 均值
xbar =  np.mean(Data)
# 分位数
M = np.median(Data)
Q1 = np.quantile(Data, 0.25, interpolation='midpoint')
Q3 = np.quantile(Data, 0.75, interpolation='midpoint')
M099 = np.quantile(Data, 0.99, interpolation='midpoint')
M095 = np.quantile(Data, 0.95, interpolation='midpoint')
M090 = np.quantile(Data, 0.90, interpolation='midpoint')
M090 = np.quantile(Data, 0.90, interpolation='midpoint')
M090 = np.quantile(Data, 0.90, interpolation='midpoint')
M010 = np.quantile(Data, 0.10, interpolation='midpoint')
M005 = np.quantile(Data, 0.05, interpolation='midpoint')
M001 = np.quantile(Data, 0.01, interpolation='midpoint')
# 三均值
xbar3 = Q1/4 + M/2 + Q3/4
 
print(f"均值为{xbar:.2f}")
print(f"中位数为{M:.2f}")
print(f"下四分位数为{Q1:.2f}")
print(f"上四分位数位{Q3:.2f}")
print(f"M0.99 = {M099:.2f}")
print(f"M0.95 = {M095:.2f}")
print(f"M0.90 = {M090:.2f}")
print(f"M0.10 = {M010:.2f}")
print(f"M0.05 = {M005:.2f}")
print(f"M0.01 = {M001:.2f}")

均值为73.66
中位数为73.50
下四分位数为71.20
上四分位数位75.80
M0.99 = 82.95
M0.95 = 80.50
M0.90 = 79.15
M0.10 = 68.40
M0.05 = 67.30
M0.01 = 64.65


# 求方差、标准差、变异系数、极差、四分位差

In [3]:
n = len(Data)

# 方差
X = np.array([xbar]*n)
s_2 = sum((Data-X)**2)/(n-1)

# 标准差
s = sqrt(s_2)

# 极差
ran = max(Data) - min(Data)

# 四分位极差
R1 = Q3 - Q1

# 变异系数
k = s/xbar

print(f"方差为{s_2:.2f}")
print(f"标准差为{s:.2f}")
print(f"变异系数为{k:.2f}")
print(f"极差为{ran:.2f}")
print(f"四分位极差为{R1:.2f}")

# 判断是否有异常值
ab_value = []
norm1 = Q1 - 1.5*R1
norm2 = Q3 + 1.5*R1
for i in Data:
    if i < norm1 or i > norm2:
        ab_value.append(i)
if len(ab_value) == 0:
    print("没有异常值")
else:
    print(f"异常值个数位：{len(ab_value)},其值如下")
    print(ab_value)

方差为15.52
标准差为3.94
变异系数为0.05
极差为20.00
四分位极差为4.60
异常值个数位：2,其值如下
[64.3, 84.3]


# 数据集

## 函数statas

In [4]:
import numpy as np
from math import sqrt

In [5]:
# 最大值，最小值，均值，中位数，上四分位数，下四分位数，极差，四分位差，方差，标准差
def stats(x):
    n = len(x)
    xmax = max(x) # 最大值
    xmin = min(x) # 最小值
    xbar = np.mean(x) # 均值
    M = np.quantile(x, 0.5, interpolation='midpoint') # 中位数
    Q3 = np.quantile(x, 0.75, interpolation='midpoint') # 上四分位数
    Q1 = np.quantile(x, 0.25, interpolation='midpoint') # 下四分位数
    R = xmax - xmin # 极差
    R1 = Q3 - Q1 # 四分位差
    s2 = sum((x-np.array([xbar]*n))**2)/(n-1) # 方差
    s = sqrt(s2) # 标准差
    return xmax, xmin, xbar, M, Q3, Q1, R, R1, s2, s

## 1、分类数据数据集
> - 下载地址：https://archive.ics.uci.edu/dataset/53/iris
> - 这是一个关于鸢尾花信息的数据集，数据中包含了3个类，每个类都代表了一种鸢尾花。一个类与其他两个类线性科分，后者彼此之间不是线性可分的。

In [6]:
filename1 = 'iris.data'
data1 = pd.read_csv(filename1, header=None)
x1 = data1.loc[:, 0:3].values.flatten()
xmax, xmin, xbar, M, Q3, Q1, R, R1, s2, s = stats(x1)
print("该数据集的数字特侦如下")
print(f"最大值为{xmax:.2f}，最小值{xmin:.2f}")
print(f"均值为{xbar:.2f}，中位数{M:.2f}")
print(f"上四分位数为{Q3:.2f}，下四分位数{Q1:.2f}")
print(f"极差为{R:.2f}，四分位差{R1:.2f}")
print(f"方差为{s2:2f}，标准差{s:.2f}")
print()

该数据集的数字特侦如下
最大值为7.90，最小值0.10
均值为3.46，中位数3.20
上四分位数为5.10，下四分位数1.70
极差为7.80，四分位差3.40
方差为3.903185，标准差1.98



Users of the modes 'nearest', 'lower', 'higher', or 'midpoint' are encouraged to review the method they used. (Deprecated NumPy 1.22)
  xmax, xmin, xbar, M, Q3, Q1, R, R1, s2, s = stats(x1)


## 2、回归数据数据集
> - 下载地址：https://archive.ics.uci.edu/dataset/186/wine+quality
> - 在网站下载的数据集种包含了两组数据，一组是关于红葡萄酒的，另一组是关于白葡萄酒的，以下代码选取了白葡萄酒进行分析。其中数据又分了多组变量，包括品牌、售价、pH值等等。

In [7]:
filename2 = 'winequality-white.csv'
data2 = pd.read_csv(filename2, sep='[;]')
for element in data2.columns:
    x = data2[element].values
    xmax, xmin, xbar, M, Q3, Q1, R, R1, s2, s = stats(x)
    print(f"{element}的数据特征如下")
    print("该数据集的数字特侦如下")
    print(f"最大值为{xmax:.2f}，最小值{xmin:.2f}")
    print(f"均值为{xbar:.2f}，中位数{M:.2f}")
    print(f"上四分位数为{Q3:.2f}，下四分位数{Q1:.2f}")
    print(f"极差为{R:.2f}，四分位差{R1:.2f}")
    print(f"方差为{s2:2f}，标准差{s:.2f}")
    print()

"fixed acidity"的数据特征如下
该数据集的数字特侦如下
最大值为14.20，最小值3.80
均值为6.85，中位数6.80
上四分位数为7.30，下四分位数6.30
极差为10.40，四分位差1.00
方差为0.712114，标准差0.84

"volatile acidity"的数据特征如下
该数据集的数字特侦如下
最大值为1.10，最小值0.08
均值为0.28，中位数0.26
上四分位数为0.32，下四分位数0.21
极差为1.02，四分位差0.11
方差为0.010160，标准差0.10

"citric acid"的数据特征如下
该数据集的数字特侦如下
最大值为1.66，最小值0.00
均值为0.33，中位数0.32
上四分位数为0.39，下四分位数0.27
极差为1.66，四分位差0.12
方差为0.014646，标准差0.12

"residual sugar"的数据特征如下
该数据集的数字特侦如下
最大值为65.80，最小值0.60
均值为6.39，中位数5.20
上四分位数为9.90，下四分位数1.70
极差为65.20，四分位差8.20
方差为25.725770，标准差5.07

"chlorides"的数据特征如下
该数据集的数字特侦如下
最大值为0.35，最小值0.01
均值为0.05，中位数0.04
上四分位数为0.05，下四分位数0.04
极差为0.34，四分位差0.01
方差为0.000477，标准差0.02

"free sulfur dioxide"的数据特征如下
该数据集的数字特侦如下
最大值为289.00，最小值2.00
均值为35.31，中位数34.00
上四分位数为46.00，下四分位数23.00
极差为287.00，四分位差23.00
方差为289.242720，标准差17.01

"total sulfur dioxide"的数据特征如下
该数据集的数字特侦如下
最大值为440.00，最小值9.00
均值为138.36，中位数134.00
上四分位数为167.00，下四分位数108.00
极差为431.00，四分位差59.00
方差为1806.085491，标准差42.50

"density"的数据特征如下
该数据集的数字特侦如下
最大值为1.04，最小值0.99
均值为0.99，中位数0.99
上四分位

  data2 = pd.read_csv(filename2, sep='[;]')
Users of the modes 'nearest', 'lower', 'higher', or 'midpoint' are encouraged to review the method they used. (Deprecated NumPy 1.22)
  xmax, xmin, xbar, M, Q3, Q1, R, R1, s2, s = stats(x)
