In [1]:
import numpy as np
import pandas as pd

# 创建DataFrame对象
- 生成100行3列[60,100)的随机整数

In [10]:
data = np.random.randint(60, 100, [100, 3])
index = range(1, 101)
columns = ['语文', '数学', '英语']
df = pd.DataFrame(
    data=data,
    index=index,
    columns=columns)
df

Unnamed: 0,语文,数学,英语
1,65,98,86
2,82,98,87
3,67,88,71
4,78,87,84
5,71,98,92
...,...,...,...
96,67,79,67
97,88,71,79
98,86,62,88
99,63,83,76


# 计算总成绩
- 增加一列数据

In [11]:
df['总成绩'] = df.sum(axis=1)
df.head()

Unnamed: 0,语文,数学,英语,总成绩
1,65,98,86,249
2,82,98,87,267
3,67,88,71,226
4,78,87,84,249
5,71,98,92,261


# 计算各科均值
- 增加一行数据

In [13]:
df.loc['均值'] = df.mean(axis=0)
df.tail(5)

Unnamed: 0,语文,数学,英语,总成绩
97,88.0,71.0,79.0,238.0
98,86.0,62.0,88.0,236.0
99,63.0,83.0,76.0,222.0
100,94.0,89.0,99.0,282.0
均值,80.19,81.7,79.72,241.61


# 求每科的最大值

In [16]:
df.max()

语文      99.0
数学      99.0
英语      99.0
总成绩    285.0
dtype: float64

# 求每科的最小值

In [17]:
df.min()

语文      60.0
数学      60.0
英语      61.0
总成绩    197.0
dtype: float64

# 求每科的中位数

In [18]:
df.median()

语文      82.00
数学      82.00
英语      80.00
总成绩    241.61
dtype: float64

# 求每科的众数

In [19]:
df.mode()

Unnamed: 0,语文,数学,英语,总成绩
0,87.0,90.0,98.0,236.0
1,,92.0,,


# 求数学的众数
- 如存在多个众数，则求它们的均值

In [24]:
type(df['数学'])
df['数学'].mode().mean()

91.0

# 方差和标准差
- 生成2行10列[60,100)的随机整数

In [35]:
# 量纲一致,可对比其标准差和方差的大小,观测其波动大小
# np.random.seed(6)
# data = np.random.randint(60, 100, [2, 10])
# columns = [f'第{i}次测试' for i in range(1, 11)]
# df = pd.DataFrame(data, index=['小明', '小花'], columns=columns)
# df

Unnamed: 0,第1次测试,第2次测试,第3次测试,第4次测试,第5次测试,第6次测试,第7次测试,第8次测试,第9次测试,第10次测试
小明,70,69,95,80,75,76,85,61,71,73
小花,86,93,64,93,68,62,72,80,87,91


In [63]:
# 量纲不一致,不可对比其标准差和方差的大小,观测其波动大小
# 必须使用变异系数衡量波动大小
np.random.seed(9)
data1 = np.random.randint(60, 100, [1, 10])
data2 = np.random.randint(100, 110, [1, 10])
data = np.vstack((data1, data2))

columns = [f'第{i}次测试' for i in range(1, 11)]
df = pd.DataFrame(data, index=['小明', '小花'], columns=columns)
df

Unnamed: 0,第1次测试,第2次测试,第3次测试,第4次测试,第5次测试,第6次测试,第7次测试,第8次测试,第9次测试,第10次测试
小明,88,82,61,82,87,93,89,88,60,84
小花,108,108,102,106,108,101,108,103,105,103


# 求方差、标准差和变异系数

In [64]:
df['方差'] = df.iloc[:, 0:10].var(axis=1)
df['标准差'] = df.iloc[:, 0:10].std(axis=1)
df['均值'] = df.iloc[:, 0:10].mean(axis=1)
df['变异系数'] = df['标准差'] / df['均值']

# 分位数
- 随机生成指定均值及标准差的数组
- 均值为90，标准差为2000，100个元素

In [123]:
np.random.seed(10)
data = np.random.normal(loc=90, scale=3000, size=100)
columns = ['利润']
df = pd.DataFrame(data=data, columns=columns)
df.head()

Unnamed: 0,利润
0,4084.759512
1,2235.836923
2,-4546.200876
3,64.84845
4,1954.007922


In [124]:
df.to_excel('test.xlsx')

- 计算25%的分位数，Q1，下四分位数

In [125]:
Q1 = df['利润'].quantile(0.25)
Q1

-1361.7124750433163

- 计算75%的分位数，Q3，上四分位数

In [126]:
Q3 = df['利润'].quantile(0.75)
Q3

2106.641005204157

- 计算四分位距，Q3-Q1

In [127]:
# 检测异常值
IQR = Q3-Q1
IQR

3468.3534802474733

- 异常值检测
- 设定上限值和下限值

In [128]:
# 上限值=Q3+1.5*IQR
# 下限值=Q1-1.5*IQR
upper = min(Q3+1.5*IQR, df['利润'].max())
lower = max(Q1-1.5*IQR, df['利润'].min())
# upper\lower有可能依然是离群值

- 异常值筛选

In [129]:
a = df['利润'] > upper
b = df['利润'] < lower
df[a | b]

Unnamed: 0,利润
75,7492.953169


- 异常值处理
- 如高于上限值，则使用上限值替换
- 如低于下限值，则使用下限值替换

In [131]:
df['利润'] = df['利润'].clip(lower=lower, upper=upper)

In [132]:
a = df['利润'] > upper
b = df['利润'] < lower
df[a | b]

Unnamed: 0,利润


In [134]:
df.to_excel('test1.xlsx')