## 机器学习入门

In [1]:
# 导入numpy模块
import numpy as np
# 将整数列表转换为NumPy数组
a = np.array([1,2,3])
# 查看数组对象
a

array([1, 2, 3])

In [2]:
# 查看整数数组对象类型
a.dtype

dtype('int32')

In [3]:
# 将浮点数列表转换为NumPy数组
b = np.array([1.2, 2.3, 3.4])
# 查看浮点数数组对象类型
b.dtype

dtype('float64')

In [4]:
# 将两个整数列表转换为二维NumPy数组
c = np.array([[1,2,3], [4,5,6]])
c

array([[1, 2, 3],
       [4, 5, 6]])

In [5]:
# 生成2×3的全0数组
np.zeros((2, 3))

array([[0., 0., 0.],
       [0., 0., 0.]])

In [16]:
# 生成3×4的全1数组
np.ones((3, 4), dtype=np.int16)

array([[1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1]], dtype=int16)

用例:
numpy.empty(shape, dtype=float, order=‘C’)

功能:
根据给定的维度和数值类型返回一个新的数组，其元素不进行初始化。


In [22]:
np.empty((2,3))

array([[0.06478944, 0.20860158, 0.09347663],
       [0.30442017, 0.53248268, 0.8340962 ]])

In [23]:
np.empty([2,3])

array([[0.06478944, 0.20860158, 0.09347663],
       [0.30442017, 0.53248268, 0.8340962 ]])

In [24]:
# arange方法用于创建给定范围内的数组
np.arange(10, 30, 5 )

array([10, 15, 20, 25])

In [25]:
# 生成3×2的符合(0,1)均匀分布的随机数数组
np.random.rand(3, 2)

array([[0.20112569, 0.31841029],
       [0.62885608, 0.52018257],
       [0.57307856, 0.95298278]])

In [26]:
# 生成0到2范围内长度为5的数组
np.random.randint(3, size=5)

array([2, 2, 0, 1, 0])

In [27]:
# 生成一组符合标准正态分布的随机数数组
np.random.randn(3)

array([-0.25506959, -1.34661405, -0.47458443])

In [28]:
# 创建一个一维数组 
a = np.arange(10)**2
a

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81])

In [29]:
# 获取数组的第3个元素
a[2]

4

In [30]:
# 获取第2个到第4个数组元素
a[1:4]

array([1, 4, 9])

In [31]:
# 一维数组翻转
a[::-1]

array([81, 64, 49, 36, 25, 16,  9,  4,  1,  0])

In [32]:
# 创建一个多维数组
b = np.random.random((3,3))
b

array([[0.29977845, 0.61278414, 0.48384441],
       [0.04822037, 0.46615819, 0.05470603],
       [0.82537936, 0.52091249, 0.71440752]])

In [33]:
# 获取第2行第3列的数组元素
b[1,2]

0.05470602716876638

In [34]:
# 获取第2列数据
b[:,1]

array([0.61278414, 0.46615819, 0.52091249])

In [35]:
# 获取第3列前两行数据
b[:2, 2]

array([0.48384441, 0.05470603])

In [36]:
# 创建两个不同的数组
a = np.arange(4)
b = np.array([5,10,15,20])
# 两个数组做减法运算
b-a

array([ 5,  9, 13, 17])

In [37]:
# 计算数组的平方
b**2

array([ 25, 100, 225, 400])

In [38]:
# 计算数组的正弦值
np.sin(a)

array([0.        , 0.84147098, 0.90929743, 0.14112001])

In [39]:
# 数组的逻辑运算
b<20

array([ True,  True,  True, False])

In [40]:
# 数组求均值和方差
np.mean(b)

12.5

In [41]:
# 数组求方差
np.var(b)

31.25

In [42]:
# 创建两个不同的数组
A = np.array([[1,1],
              [0,1]])
B = np.array([[2,0],
              [3,4]])
# 矩阵元素乘积
A * B

array([[2, 0],
       [0, 4]])

In [43]:
# 矩阵点乘
A.dot(B)

array([[5, 4],
       [3, 4]])

In [44]:
# 矩阵求逆
np.linalg.inv(A)

array([[ 1., -1.],
       [ 0.,  1.]])

In [45]:
# 矩阵求行列式
np.linalg.det(A)

1.0

In [46]:
# 创建一个3×4的数组
a = np.floor(10*np.random.random((3,4)))
a

array([[3., 7., 5., 8.],
       [6., 9., 7., 3.],
       [4., 6., 3., 9.]])

In [49]:
# 查看数组维度
a.shape

(3, 4)

In [50]:
# 数组展平
a.ravel()

array([3., 7., 5., 8., 6., 9., 7., 3., 4., 6., 3., 9.])

In [51]:
# 将数组变换为2×6数组
a.reshape(2,6)

array([[3., 7., 5., 8., 6., 9.],
       [7., 3., 4., 6., 3., 9.]])

In [52]:
# 求数组的转置
a.T

array([[3., 6., 4.],
       [7., 9., 6.],
       [5., 7., 3.],
       [8., 3., 9.]])

In [53]:
a.T.shape

(4, 3)

In [54]:
# -1维度表示NumPy会自动计算该维度
a.reshape(3,-1)

array([[3., 7., 5., 8.],
       [6., 9., 7., 3.],
       [4., 6., 3., 9.]])

In [55]:
# 按行合并代码清单1-7中的A数组和B数组
np.hstack((A,B))

array([[1, 1, 2, 0],
       [0, 1, 3, 4]])

In [56]:
# 按列合并A数组和B数组
np.vstack((A,B))

array([[1, 1],
       [0, 1],
       [2, 0],
       [3, 4]])

In [57]:
# 创建一个新数组
C = np.arange(16.0).reshape(4, 4)
C

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.],
       [12., 13., 14., 15.]])

In [58]:
# 按水平方向将数组C切分为两个数组
np.hsplit(C, 2)

[array([[ 0.,  1.],
        [ 4.,  5.],
        [ 8.,  9.],
        [12., 13.]]),
 array([[ 2.,  3.],
        [ 6.,  7.],
        [10., 11.],
        [14., 15.]])]

In [59]:
# 按垂直方向将数组C切分为两个数组
np.vsplit(C, 2)

[array([[0., 1., 2., 3.],
        [4., 5., 6., 7.]]),
 array([[ 8.,  9., 10., 11.],
        [12., 13., 14., 15.]])]

In [63]:
# 导入iris数据集和逻辑回归算法模块
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
# 导入数据
X, y = load_iris(return_X_y=True)
# 拟合模型
clf = LogisticRegression(random_state=0).fit(X, y)
# 预测
clf.predict(X[:20, :])

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0])

In [64]:
# 概率预测
clf.predict_proba(X[:2, :])

array([[9.81809094e-01, 1.81908913e-02, 1.43731129e-08],
       [9.71742003e-01, 2.82579674e-02, 3.00642423e-08]])

In [65]:
# 模型准确率
clf.score(X, y)

0.9733333333333334