# numpy 教程

In [1]:
# 导入 numpy 模块，取别名为 np
import numpy as np


python的列表和numpy的数组区别
1. 相同点：都是有序的，都可以根据索引访问
2. 不同之处：
   数值型数组可以直接进行四则运算，列表不可以。
   列表可以存方不同类型的数据，数组存放同类型数据
   

In [2]:
## ndarray的创建

In [3]:
data  = [[11, 22, 33], [44, 55, 66]]

In [4]:
type(data)

list

In [5]:
# 用已有的数据创建数组
arr1= np.array(data)
print(arr1)

[[11 22 33]
 [44 55 66]]


### 创建等差数列的一维数组

In [6]:
# 从2开始，30结束，步长尾4的一维的等差数组
# 前闭后开区间
np.arange(2,30,4)

array([ 2,  6, 10, 14, 18, 22, 26])

In [7]:
# 1,10生成等差数组，并显示间距
np.linspace(1,10,3,retstep=True)

(array([ 1. ,  5.5, 10. ]), np.float64(4.5))

### 利用随机函数创建数组


In [8]:
# 随机种子，要求是整数
# 作用：固定一组随机结果，数字随便取
# 一个数字代表一个固定的结果
np.random.seed(123)

In [9]:
# 创建 10 个 0～1 之间均匀分布的随机小数
np.random.rand(10)

array([0.69646919, 0.28613933, 0.22685145, 0.55131477, 0.71946897,
       0.42310646, 0.9807642 , 0.68482974, 0.4809319 , 0.39211752])

In [10]:
np.random.seed(123)
# np.round() 小数位数保留几位，针对浮点型
# rand默认0，1之间
np.round(np.random.rand(10),2)



array([0.7 , 0.29, 0.23, 0.55, 0.72, 0.42, 0.98, 0.68, 0.48, 0.39])

In [11]:
#10-20之间的随机数
np.random.rand(10)*10+10

array([13.43178016, 17.29049707, 14.38572245, 10.59677897, 13.98044255,
       17.37995406, 11.8249173 , 11.75451756, 15.31551374, 15.31827587])

In [12]:
#10-20之间的随机整数
np.random.randint(10,21,size=10)

array([18, 10, 17, 19, 13, 14, 16, 11, 15, 16])

In [13]:
# 标准正态分布 (均值为0,标准差为1）
np.random.seed(123)
data1 = np.random.randn(10000)
# 验证均值
print(data1.mean())
# 验证标准差
print(data1.std())

0.00971189229159596
0.9981138545901473


In [14]:
# 生成 [low, hight) 的随机整数
# 模拟十次掷骰子的结果
np.random.randint(1,7,10)


array([3, 6, 5, 4, 5, 4, 3, 2, 2, 4])

In [15]:
# 生成一定范围内，
# 均匀分布的1~7内的10个浮点数
np.random.uniform(1,7,10)

array([4.83536403, 2.22268593, 2.3234091 , 3.05126745, 4.43396177,
       5.1006446 , 6.55426691, 1.68901819, 5.18878795, 6.05038769])

In [16]:
# 生成期望值为 loc, 标准差为scale 的正态分布的随机数
# 模拟生成平均分 70,  准差为5分10个的学生成绩
np.random.normal(loc=70,scale=5,size=10)
# np.random.normal(loc=70,scale=5,size=(4,5))

array([65.27575276, 70.2524402 , 66.45123525, 76.19615877, 70.01954605,
       68.9828752 , 70.11657447, 72.85888586, 78.43349496, 71.83872588])

## ndarray数组的属性

In [17]:
arr3 = np.array([(1, 2, 3), (4, 5, 6)])

In [18]:
print('数组形状',arr3.shape)
print('数组维度',arr3.ndim)
print('数组类型',arr3.dtype)
print('数组元素个数',arr3.size)

数组形状 (2, 3)
数组维度 2
数组类型 int64
数组元素个数 6


## ndarray数组类型

In [19]:
arrr4 = arr3.astype(float)
print('数组类型',arrr4.dtype)

数组类型 float64


## 修改数组的维度

In [20]:
# 用arr3 生成新的3行2列的数组
arr3_res = arr3.reshape(3,2)
print(arr3_res)

[[1 2]
 [3 4]
 [5 6]]


In [21]:
# 用arr3生成一个一维数组
arr3_ravel = arr3.ravel()
arr3_ravel2 = np.ravel(arr3)
print(arr3_ravel,arr3_ravel2)

[1 2 3 4 5 6] [1 2 3 4 5 6]


## ndarray的运算

In [22]:
arr4 = np.array([[1, 2, 3], [4, 5, 6]])
arr4

array([[1, 2, 3],
       [4, 5, 6]])

In [23]:
arr5 = np.array([[6, 5, 4], [3, 2, 1]])
arr5

array([[6, 5, 4],
       [3, 2, 1]])

In [24]:
arr4+arr5
arr4-arr5
arr4*arr5
arr4/arr5
arr4//arr5
# arr4%arr5
# arr4**arr5

array([[0, 0, 0],
       [1, 2, 6]])

## ndarray的广播运算

In [25]:
arr4 * 2


array([[ 2,  4,  6],
       [ 8, 10, 12]])

## ndarray的索引和切片运算

In [26]:
# 一维的数组
arr1d = np.array([1, 2, 3, -1, 5])
arr1d

array([ 1,  2,  3, -1,  5])

In [27]:
arr1d[0::2]

array([1, 3, 5])

In [43]:
# 得到-1
arr1d[3]
arr1d[-2]
# 得到[5,3,1]
arr1d[-1::-2]

array([5, 3, 1])

In [28]:
# 二维的数组
arr2d = np.array([[1, -2, -3, 4],
                  [5, 6, 7, 8],
                  [9, -1, -11, 12]])
arr2d

array([[  1,  -2,  -3,   4],
       [  5,   6,   7,   8],
       [  9,  -1, -11,  12]])

In [45]:
arr2d[1][2]
arr2d[1,2]

np.int64(7)

In [46]:
# 取出第二行起的第二、第三列
arr2d[1:,1:3]

array([[  6,   7],
       [ -1, -11]])

In [50]:
# [[1,4],
#  [9,12]]

arr2d[::2,::3]

array([[ 1,  4],
       [ 9, 12]])

In [55]:
# [[-2,-3],
#  [6,7]]
arr2d[:2,1:3]
# 只有行[5,6,7,8],逗号后面可以省略
arr2d[1]
arr2d[1:]
# 只有列[4,8,12]，逗号前面不  可以省略
arr2d[:,3]

array([ 4,  8, 12])

## ndarray的掩码数组

In [56]:
# 学生成绩
scores = np.array([99, 61, 28, 81, 59])

In [57]:
mask1 = np.array([True, True, False, True, False])
mask1

array([ True,  True, False,  True, False])

In [60]:
# 把及格的成绩筛选出来
scores[mask1]

# 生成的掩码数据
scores[scores>60] 

array([99, 61, 81])

## numpy 数组中的布尔操作
- &  与操作
- |  或操作
- ~  非操作

In [32]:
mask1 = np.array([True, True, False, False])
mask2 = np.array([True, False, True, False])
print(mask1 & mask2)  # 与运算
print(mask1 | mask2)  # 或运算
print(~mask1)  # 非运算

[ True False False False]
[ True  True  True False]
[False False  True  True]


In [33]:
#  练习:  取出下列成绩中成绩在[60~90] 
# 之间所有的成绩
# 学生成绩
scores = np.array([99, 61, 28, 81, 59])
scores[(60 <= scores) & (scores <= 90)]

array([61, 81])

## Numpy常用函数


In [68]:
arr11 = np.array([1.2, 3.4, 5.6, 7.8, 9.0])
arr12 = np.array([2, 3, 4, 5, 6])

In [71]:
# np.floor(arr11) # 向下取整
# np.ceil(arr11) # 向上取整
np.modf(arr11) # 区分小数部分和整数部分
np.around(arr11) # 四舍五入

array([1., 3., 6., 8., 9.])

## 统计函数

In [75]:
arr13 = np.array([1, 2, 3, 4, 5])
arr13

# 整体求和
np.sum(arr13)
arr13.sum()
# 中位数
np.median(arr13)

np.float64(3.0)

In [81]:
arr14 = np.array([[1, 2, 3],
                  [4, 5, 6],
                  [7, 8, 9],
                  [10, 11, 12]])
arr14

# 每一行的和
np.sum(arr14,axis=1) # 沿X轴方向

# 每一列的和
np.sum(arr14,axis=0) # 沿Y轴方向
# 每一行的最大值
np.max(arr14,axis=1) 
# 每一列的最小值
np.min(arr14,axis=0) 

array([1, 2, 3])

1.  统计函数：概括性的计算
- 集中趋势：中位数 均值 众数
- 离散程度：极差 标准差 方差
2. 推断统计
3. 方差：衡量一组数据距离均值的差异程度
4. 标准差：衡量一组数据距离均值的平均差异程度


In [83]:
## 其他函数

In [37]:
np.random.seed(123)
class1_score = np.random.normal(70, 10, 10).astype(int)
class1_score

array([59, 79, 72, 54, 64, 86, 45, 65, 82, 61])

In [85]:
# 小于 60 的 设置为不及格，其他为及格
np.where(class1_score<60,'不及格','及格')


array(['不及格', '及格', '及格', '不及格', '及格', '及格', '不及格', '及格', '及格', '及格'],
      dtype='<U3')

In [86]:
# 小于 60 的 设置为不及格，[60,79]及格 80及以上优秀
np.where(class1_score<60,'不及格',np.where(class1_score<80,'及格','优秀'))

array(['不及格', '及格', '及格', '不及格', '及格', '优秀', '不及格', '及格', '优秀', '及格'],
      dtype='<U3')