# 利用Numpy进行统计分析

In [None]:
import numpy as np

## 读\写文件

### 将数组保存到文件

此处默认的保存文件是*.npz；npz文件是numpy自带的一个压缩文件，可以集成多个文件，方便数据处理。

In [None]:
arr = np.arange(100).reshape(10, 10)  # 创建一个数组
print(arr)
np.save('./tmp/save_arr',arr)  #使用save将数组保存为二进制文件

In [None]:
arr1 = np.array([[1, 2, 3], [4, 5, 6]])
arr2 = np.arange(0, 1.0, 0.1)
print(arr1)
print('\n')
print(arr2)
np.savez('./tmp/savez_arr', arr1, arr2)  #使用savez将多个数组保存到一个文件里


In [None]:
loaded_data = np.load('./tmp/save_arr.npy')  #读取含有单个数组的文件
print(loaded_data)

In [None]:
loaded_data1 = np.load('./tmp/savez_arr.npz') #读取含有多个数组的文件

In [None]:
print(loaded_data1)
#NpzFile './tmp/savez_arr.npz' with keys: arr_0, arr_1

In [None]:
print(loaded_data1['arr_0'])

In [None]:
print(loaded_data1['arr_1'])

In [None]:
arr = np.arange(0, 12, 0.5).reshape(4, -1)
print(arr)

In [None]:
np.savetxt('./tmp/arr1.txt', arr, fmt='%.2f', delimiter=',')
#常见格式：'%d'：整数格式。'%f'：浮点数格式。 '%.2f'：保留两位小数的浮点数。 '%e'：科学计数法

In [None]:
loaded_data = np.loadtxt('./tmp/arr.txt', delimiter=',') 
print(loaded_data)

In [None]:
loaded_data = np.genfromtxt('./tmp/arr1.txt', delimiter=',')  #使用genformtxt读取整数数组
print(loaded_data)

loadtxt：适合简单、无缺失值的文件，效率高。

genfromtxt：功能更强大，适合复杂文件，支持缺失值处理。
|特性|loadtxt|genfromtxt|
|-|-|-|
|处理缺失值|不支持|自动填充或忽略缺失值|
|数据类型推断|需要手动指定|可以自动推断每列的数据类型|
|灵活性|较低，只适合结构规整的数据|高，适合处理复杂或不规则的数据|
|性能|更快，适合大规模规整数据|稍慢，但功能更强|
|常用场景|快速读取整齐的数值型数据|读取含空值、注释、混合类型的复杂数据文件|

如果处理的是干净的 CSV 或 TXT 文件，loadtxt 是更快的选择；但如果处理的是带缺失值、注释或混合类型的复杂数据，genfromtxt 更好。


## 使用函数进行简单的统计分析

### 排序

In [None]:
np.random.seed(42)  # 设置随机种子
arr = np.random.randint(1, 10, size=10)  # 生成随机数组
print(arr)

In [None]:
arr.sort()  # 直接排序
print( arr)

In [None]:
np.random.seed(42)  # 设置随机种子
arr = np.random.randint(1, 10, size=(3, 3))  # 生成3行3列的随机数组
print(arr)

In [None]:
arr.sort(axis=1)  # 沿着横轴排序
print(arr)

In [None]:

arr.sort(axis=0)  # 沿着纵轴排序
print(arr)

In [None]:
arr = np.array([2, 3 , 6, 8, 0, 7])
print(arr)

In [None]:
print(arr.argsort())  # 返回值为重新排序值的下标

In [None]:
a = np.array([3, 2, 6, 4, 5])
b = np.array([50, 30, 40, 20, 10])
c = np.array([400, 300, 600, 100, 200])
d = np.lexsort((a, b, c))  # lexsort函数只接受一个参数，即（a,b,c）
# 多个键值排序是按照最后一个传入数据计算的
print('排序后数组为：\n', list(zip(a[d], b[d], c[d])))

延伸：其他常见 NumPy 类型转换
| numpy类型 | python类型 | 
|-|-|
| np.int32/np.int64 | int(x) | 
| np.float64 | float(x) | 
| np.str_ | str(x) | 
| np.bool_ | bool(x) | 


In [None]:
names = np.array(['Alice', 'Bob', 'Charlie', 'David'])
ages = np.array([25, 30, 25, 30])
scores = np.array([90, 85, 95, 80])


In [None]:
idx = np.lexsort((scores, ages))
print(names[idx])

## 去重与重复

In [None]:
names = np.array(['小明', '小黄', '小花', '小明', '小花', '小兰', '小白','小明'])
print(names)


In [None]:
print(np.unique(names))

In [None]:
print(sorted(set(names))) #不借助np实现unique函数的效果，但是由于numpy版本更新，python官方的常用函数不匹配np数组

为什么会出现 np.str_ 而不是普通字符串？
这是因为：
- names 是一个 NumPy 数组，元素类型是 np.str_（NumPy 的 Unicode 字符串类型）。
- 当你对 set(names) 去重时，集合中仍然保留的是 np.str_ 类型。
- sorted() 对集合排序后，返回的是一个列表，但元素类型没有改变，仍然是 np.str_。
所以你看到的结果是：
[np.str_('小兰'), np.str_('小明'), np.str_('小白'), np.str_('小花'), np.str_('小黄')]

In [None]:
ints = np.array([1, 2, 3, 4, 4, 5, 6, 6, 7, 8, 8, 9, 10])
print(ints)

In [None]:
print(np.unique(ints))

In [None]:
arr = np.arange(5)
print(arr)

In [None]:
print(np.tile(arr, 3))  # 对数组进行重复

In [None]:
np.random.seed(42)  # 设置随机种子
arr = np.random.randint(0, 10,size=(3, 3))
print(arr)

In [None]:
print(arr.repeat(2, axis=0))  # 按行进行元素重复

In [None]:
print(arr.repeat(2, axis=1))  # 按列进行元素重复

### 常用统计函数

In [None]:
arr = np.arange(20).reshape(4, 5)
print(arr)

In [None]:
print(np.sum(arr))  # 计算数组的和

In [None]:
print(arr.sum(axis=0))  # 沿着横轴计算求和

In [None]:
print(arr.sum(axis=1))  # 沿着纵轴计算求和

In [None]:
print(np.mean(arr))  # 计算数组均值

In [None]:
print(arr.mean(axis=0))  # 沿着横轴计算数组均值

In [None]:
print(arr.mean(axis=1))  # 沿着纵轴计算数组均值

In [None]:
print(np.std(arr))  # 计算数组标准差

In [None]:
print(np.var(arr))  # 计算数组方差

In [None]:
print(np.min(arr))  # 计算数组最小值

In [None]:
print(np.max(arr))  # 计算数组最大值

argmin和argmax会将索引扁平化处理

In [None]:
print(np.argmin(arr))  # 返回数组最小元素的索引

In [None]:
print(np.argmax(arr))  # 返回数组最大元素的索引

In [None]:
arr = np.arange(2, 10)
print(arr)


In [None]:
print('数组元素的累计和为：', np.cumsum(arr))  # 计算所有元素的累计和

- 计算累计和：每个位置的值是该位置及之前所有元素的和。
- 示例：[2, 3, 4] → [2, 2+3=5, 2+3+4=9]

In [None]:
print('数组元素的累计积为：\n', np.cumprod(arr))  # 计算所有元素的累计积

- 计算累计积：每个位置的值是该位置及之前所有元素的乘积。
- 示例：[2, 3, 4] → [2, 2×3=6, 2×3×4=24]