# 聚合操作
- max() 最大值
- min() 最小值
- mean() 平均值
- sum()  计算总合
- std()  标准差

In [2]:
import numpy as np  # 数组计算
import pandas as pd  # 数据分析的工具

In [10]:
def mean(*args):
    """
    计算给定所有元素的平均值
    axis = 0, 1, 2
    [
     [[], [], []],
     [[], [], []],
     [[], [], []]
    ]
    """
    ary = np.array(list(args))  # ndarray类型
    if ary.ndim == 1:
        return np.mean(ary)  # numpy的求平均的函数
    elif ary.ndim == 2:
        return np.mean(ary, axis=1)

In [3]:
mean(1,2,3,4,5,6,7,8,9)

5.0

In [4]:
mean(10, 20)

15.0

In [11]:
mean([1,2],[3,4],[5,6],[7,8],[9,10])

array([ 1.5,  3.5,  5.5,  7.5,  9.5])

In [13]:
# 每一个一维数组表示一位同学的语文、数学 和英语的成绩
# 一维数组中的下标： 0 语文， 1数学, 2 英语
scores = [
    [100, 98, 99],
    [90, 100, 80],
    [91, 98, 95.5],
    [70, 75,  90]
]

sa = np.array(scores)
sa1 = np.mean(sa, axis=0)  # 计算每门课的平均成绩
print('数学的平均成绩:', sa1[1])

sa2 = np.mean(sa, axis=1)
print('第一位同学的平均成绩:', sa2[0])

数学的平均成绩: 92.75
第一位同学的平均成绩: 99.0


In [14]:
sa

array([[ 100. ,   98. ,   99. ],
       [  90. ,  100. ,   80. ],
       [  91. ,   98. ,   95.5],
       [  70. ,   75. ,   90. ]])

In [15]:
# 计算全班的总成绩
np.sum(sa)

1086.5

In [18]:
# 计算每个学科的总成绩
# np.sum(sa, axis=0).max()
np.sum(sa, axis=0)

array([ 351. ,  371. ,  364.5])

In [19]:
# 计算每人的总成绩
np.sum(sa, axis=1)

array([ 297. ,  270. ,  284.5,  235. ])

练习1: 计算每个人的最高成绩，最低成绩

In [20]:
display(np.max(sa,axis=1), sa.min(axis=1))

array([ 100.,  100.,   98.,   90.])

array([ 98.,  80.,  91.,  70.])

练习2: 计算每个学科的最高成绩，最低成绩

In [21]:
display(np.max(sa,axis=0), sa.min(axis=0))

array([ 100.,  100.,   99.])

array([ 70.,  75.,  80.])

扩展： 读取csv文件

In [6]:
data = pd.read_csv('heights.csv')
hs = np.array(data['height(cm)'])
display(data)
display(hs)
display(hs.min(), hs.max(), hs.mean(), hs.sum(), hs.std())

Unnamed: 0,name,age,height(cm),weight(kg)
0,disen,20,188,100
1,jack,19,187,99
2,lucy,18,167,67
3,judy,19,175,80


array([188, 187, 167, 175])

167

188

179.25

717

8.7285451250480453

In [7]:
# data是否可以转为二维数组
data_a = np.array(data)

In [8]:
data_a

array([['disen', 20, 188, 100],
       ['jack', 19, 187, 99],
       ['lucy', 18, 167, 67],
       ['judy', 19, 175, 80]], dtype=object)

# 矩阵操作
- 算术运算 +、-、*、/、%
- 矩阵积 np.dot(a1, a2)

In [15]:
a = np.random.randint(1, 10,size=(2,3))
a

array([[11,  3, 19],
       [ 1,  7, 15]])

In [10]:
a + 10  # 每个元素都加上10

array([[13, 15, 19],
       [14, 14, 14]])

In [11]:
a - 1 # 每个元素都减去1

array([[2, 4, 8],
       [3, 3, 3]])

In [12]:
a % 2

array([[1, 1, 1],
       [0, 0, 0]])

In [13]:
a / 3

array([[ 1.        ,  1.66666667,  3.        ],
       [ 1.33333333,  1.33333333,  1.33333333]])

In [15]:
a = np.random.randint(1, 20,size=(2,3))
a

array([[11,  3, 19],
       [ 1,  7, 15]])

In [16]:
# 矩阵积： 要求 矩阵1的列数 == 矩阵2的行数
b = np.random.randint(1, 15, size=(3, 2))
b

array([[ 5, 11],
       [11,  8],
       [ 4, 10]])

In [17]:
np.dot(a, b)  # a的每一列和b的每一行进行乘积的和运算

array([[164, 335],
       [142, 217]])

# numpy的广播机制
【重要】ndarray广播机制的两条规则

- 规则一：为缺失的维度补1
- 规则二：假定缺失元素用已有值填充

In [20]:
a = np.ones(shape=(2, 3))  #  二维
b = np.ones(shape=3)  # 一维
b += 5
display(a, b)

array([[ 1.,  1.,  1.],
       [ 1.,  1.,  1.]])

array([ 6.,  6.,  6.])

In [19]:
a + b

array([[ 2.,  2.,  2.],
       [ 2.,  2.,  2.]])

In [22]:
# 注意： 维度少的，自动补，但是两个数组列数保持一致【无法填充】
a = np.array([1, 2, 3])
b = np.array([[4,5,5], [6,7,7]])
a + b 

array([[ 5,  7,  8],
       [ 7,  9, 10]])

In [23]:
a*b  # 乘法运算，不属于矩阵积

array([[ 4, 10, 15],
       [ 6, 14, 21]])

In [26]:
a = np.array([[1,2,3], [4,5,6]]) 
b = np.array([
    [[10,11,12], [13,15,16]],
    [[21,22,23], [34,35,36]]])
a + b # a自动补成3维, 且增加一个二维数组填充现有的值

array([[[11, 13, 15],
        [17, 20, 22]],

       [[22, 24, 26],
        [38, 40, 42]]])

# 排序
- np.sort()  # 不会改变数组原有顺序,副本排序
- ary.sort() # 会改变数组的顺序，原数据排序

In [30]:
a = np.random.randint(1, 100, size=10)
a

array([87, 79, 45, 20, 71, 28, 73, 19, 90, 78])

In [31]:
# a.sort() # in-place 会改变原有顺序, 无返回
# 默认排序算法：快速排序quicksort，可先归并mergesort和堆排序heapsort
np.sort(a)  # 不会改变a的原有顺序，返回一个已排序的a的副本

array([19, 20, 28, 45, 71, 73, 78, 79, 87, 90])

In [32]:
a

array([87, 79, 45, 20, 71, 28, 73, 19, 90, 78])

In [33]:
# 二维或多维的数组排序
b = np.random.randint(1, 100, size=(3,4,3))
b

array([[[98, 49, 94],
        [80,  1, 90],
        [74, 96, 65],
        [74, 18, 38]],

       [[44, 29,  8],
        [98, 98, 45],
        [ 9, 57, 49],
        [84, 56, 53]],

       [[19,  7, 99],
        [93, 71, 32],
        [46, 35, 21],
        [27, 52, 81]]])

In [43]:
# 计算b的三维中每个二维的总和
display(np.sum(b,axis=2).sum(axis=1))

array([777, 630, 583])

In [45]:
# 按坐标轴0,排序
display(np.sort(b, axis=0))

array([[[19,  7,  8],
        [80,  1, 32],
        [ 9, 35, 21],
        [27, 18, 38]],

       [[44, 29, 94],
        [93, 71, 45],
        [46, 57, 49],
        [74, 52, 53]],

       [[98, 49, 99],
        [98, 98, 90],
        [74, 96, 65],
        [84, 56, 81]]])

In [48]:
# 按坐标轴1,排序
np.sort(b, axis=1)  # 每一个二维中一维对应位置的元素进行排序（列排）

array([[[74,  1, 38],
        [74, 18, 65],
        [80, 49, 90],
        [98, 96, 94]],

       [[ 9, 29,  8],
        [44, 56, 45],
        [84, 57, 49],
        [98, 98, 53]],

       [[19,  7, 21],
        [27, 35, 32],
        [46, 52, 81],
        [93, 71, 99]]])

In [47]:
# 按坐标轴2,排序
np.sort(b, axis=2)  # 每一个一维中的所有元素进行排序（行排）

array([[[74,  1, 38],
        [74, 18, 65],
        [80, 49, 90],
        [98, 96, 94]],

       [[ 9, 29,  8],
        [44, 56, 45],
        [84, 57, 49],
        [98, 98, 53]],

       [[19,  7, 21],
        [27, 35, 32],
        [46, 52, 81],
        [93, 71, 99]]])

# python内置的排序函数
- sorted()
- listObj.sort()

In [49]:
def get_sorted_value(person):
    print(person)  # 规定： person是dict, {'id':1, 'age':10}
    if isinstance(person, dict):
        return person.get('age')
    raise TypeError('传入的person类型必须是dict')

In [51]:
persons = [{'id':1, 'age':10}, 
           {'id':2, 'age':5},
           {'id':3, 'age':8},
           {'id':4, 'age':9}]

In [52]:
# 按age年龄排序
sorted(persons, key=get_sorted_value)

{'id': 1, 'age': 10}
{'id': 2, 'age': 5}
{'id': 3, 'age': 8}
{'id': 4, 'age': 9}


[{'age': 5, 'id': 2},
 {'age': 8, 'id': 3},
 {'age': 9, 'id': 4},
 {'age': 10, 'id': 1}]

In [53]:
sorted(persons, key=lambda item:item['age'])

[{'age': 5, 'id': 2},
 {'age': 8, 'id': 3},
 {'age': 9, 'id': 4},
 {'age': 10, 'id': 1}]

In [54]:
p = {}
p.setdefault('name', 'disen')

# 设置默认值时，如果key存在，则不做任何操作
# 如果key不存在，则增加key和value
p.setdefault('name', 'jack')  
display(p)

{'name': 'disen'}

In [55]:
p2 = {'id':1, 'age':20, 'name':'jack'}
p.update(p2)  # 使用p2的字典更新p的字典
p

{'age': 20, 'id': 1, 'name': 'jack'}