# 机器学习入门

## NumPy必学必会

> [NumPy API Reference](https://numpy.org/doc/stable/reference/index.html)

In [1]:
# 导入numpy模块
import numpy as np

# 查看numpy版本
np.__version__

'1.20.1'

### 创建数组

#### array方法

In [2]:
# 将整数列表转换为NumPy数组
a = np.array([1, 2, 3])
# 查看数组对象
a

array([1, 2, 3])

In [3]:
# 查看整数数组对象类型
a.dtype

dtype('int32')

In [4]:
# 将浮点数列表转换为NumPy数组
b = np.array([1.2, 2.3, 3.4])
# 查看浮点数数组对象类型
b.dtype

dtype('float64')

#### 转换多维数组

In [5]:
# 将两个整数列表转换为二维NumPy数组
c = np.array([[1, 2, 3], [4, 5, 6]])
c

array([[1, 2, 3],
       [4, 5, 6]])

#### 其他生成数组的方法

In [6]:
# 生成2×3的全0数组
np.zeros((2, 3))

array([[0., 0., 0.],
       [0., 0., 0.]])

In [7]:
# 生成3×4的全1数组
np.ones((3, 4), dtype=np.int16)

array([[1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1]], dtype=int16)

In [8]:
# 生成2×3未初始化的随机数数组
np.empty([2, 3])

array([[0., 0., 0.],
       [0., 0., 0.]])

In [9]:
# arange方法用于创建给定范围内的数组
np.arange(10, 30, 5)

array([10, 15, 20, 25])

#### 生成随机数数组的方法

In [10]:
# 生成3×2的符合(0,1)均匀分布的随机数数组
np.random.rand(3, 2)

array([[0.14583155, 0.25835829],
       [0.02360814, 0.85878377],
       [0.61943456, 0.76460098]])

In [17]:
# 生成3×2的符合(0,1)均匀分布的随机数数组
np.random.random((3, 2))

array([[0.09879975, 0.85034106],
       [0.54900801, 0.61308535],
       [0.51306781, 0.96573502]])

In [11]:
# 生成0到2范围内长度为5的数组
np.random.randint(3, size=5)

array([0, 0, 1, 2, 1])

In [12]:
# 生成一组符合标准正态分布的随机数数组
np.random.randn(3)

array([-0.36396301, -0.0047031 ,  0.5990036 ])

### 数组的索引与切片

In [13]:
# 创建一个一维数组 
a = np.arange(10) ** 2
a

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81], dtype=int32)

In [14]:
# 获取数组的第3个元素
a[2]

4

In [15]:
# 获取第2个到第4个数组元素
a[1:4]

array([1, 4, 9], dtype=int32)

In [16]:
# 一维数组翻转
a[::-1]

array([81, 64, 49, 36, 25, 16,  9,  4,  1,  0], dtype=int32)

In [18]:
# 创建一个多维数组
b = np.random.random((3, 3))
b

array([[0.9309853 , 0.47609733, 0.56485898],
       [0.64522684, 0.67451375, 0.86636894],
       [0.4841479 , 0.71359915, 0.3471861 ]])

In [19]:
# 获取第2行第3列的数组元素
b[1, 2]

0.8663689422697298

In [20]:
# 获取第2列数据
b[:, 1]

array([0.47609733, 0.67451375, 0.71359915])

In [21]:
# 获取第3列前两行数据
b[:2, 2]

array([0.56485898, 0.86636894])

### 数组的基础运算

#### 基础数学运算

In [22]:
# 创建两个不同的数组
a = np.arange(4)
b = np.array([5, 10, 15, 20])

In [23]:
# 两个数组做减法运算
b - a

array([ 5,  9, 13, 17])

In [24]:
# 计算数组的平方
b ** 2

array([ 25, 100, 225, 400], dtype=int32)

In [25]:
# 计算数组的正弦值
np.sin(a)

array([0.        , 0.84147098, 0.90929743, 0.14112001])

In [26]:
# 数组的逻辑运算
b < 20

array([ True,  True,  True, False])

In [27]:
# 数组求均值
np.mean(b)

12.5

In [28]:
# 数组求方差
np.var(b)

31.25

#### 线性代数运算

In [29]:
# 创建两个不同的数组
A = np.array([[1, 1],
              [0, 1]])
B = np.array([[2, 0],
              [3, 4]])

In [30]:
# 矩阵元素乘积
A * B

array([[2, 0],
       [0, 4]])

In [31]:
# 矩阵乘法（点乘）
A.dot(B)

array([[5, 4],
       [3, 4]])

In [32]:
# 矩阵求逆
np.linalg.inv(A)

array([[ 1., -1.],
       [ 0.,  1.]])

In [33]:
# 矩阵求行列式
np.linalg.det(A)

1.0

### 数组维度变换

In [34]:
# 创建一个3×4的数组
a = np.floor(10 * np.random.random((3, 4)))
a

array([[4., 5., 5., 7.],
       [7., 8., 1., 4.],
       [0., 4., 3., 3.]])

In [35]:
# 查看数组维度
a.shape

(3, 4)

In [36]:
# 数组展平
a.ravel()

array([4., 5., 5., 7., 7., 8., 1., 4., 0., 4., 3., 3.])

In [37]:
# 将数组变换为2×6数组
a.reshape(2, 6)

array([[4., 5., 5., 7., 7., 8.],
       [1., 4., 0., 4., 3., 3.]])

In [38]:
# 将数组变换为6×2数组
a.reshape((6, 2))

array([[4., 5.],
       [5., 7.],
       [7., 8.],
       [1., 4.],
       [0., 4.],
       [3., 3.]])

In [39]:
# 将数组变换为4×3数组
np.reshape(a, (4, 3))

array([[4., 5., 5.],
       [7., 7., 8.],
       [1., 4., 0.],
       [4., 3., 3.]])

In [40]:
# 求数组的转置
a.T

array([[4., 7., 0.],
       [5., 8., 4.],
       [5., 1., 3.],
       [7., 4., 3.]])

In [41]:
a.T.shape

(4, 3)

In [42]:
# -1维度表示NumPy会自动计算该维度
a.reshape(3, -1)

array([[4., 5., 5., 7.],
       [7., 8., 1., 4.],
       [0., 4., 3., 3.]])

### 数组合并与切分

In [43]:
# 创建两个不同的数组
A = np.array([[1, 1],
              [0, 1]])
B = np.array([[2, 0],
              [3, 4]])

In [44]:
# 按行合并A数组和B数组
np.hstack((A, B))

array([[1, 1, 2, 0],
       [0, 1, 3, 4]])

In [45]:
# 按列合并A数组和B数组
np.vstack((A, B))

array([[1, 1],
       [0, 1],
       [2, 0],
       [3, 4]])

In [46]:
# 创建一个新数组
C = np.arange(16.0).reshape(4, 4)
C

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.],
       [12., 13., 14., 15.]])

In [47]:
# 按水平方向将数组C切分为两个数组
np.hsplit(C, 2)

[array([[ 0.,  1.],
        [ 4.,  5.],
        [ 8.,  9.],
        [12., 13.]]),
 array([[ 2.,  3.],
        [ 6.,  7.],
        [10., 11.],
        [14., 15.]])]

In [48]:
# 按垂直方向将数组C切分为两个数组
np.vsplit(C, 2)

[array([[0., 1., 2., 3.],
        [4., 5., 6., 7.]]),
 array([[ 8.,  9., 10., 11.],
        [12., 13., 14., 15.]])]

## sklearn简介
> [scikit-learn API Reference](https://scikit-learn.org/stable/modules/classes.html)

In [49]:
# 导入iris数据集和逻辑回归算法模块
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression

In [54]:
# 忽略一切警告
import warnings
warnings.filterwarnings("ignore")

In [50]:
# 导入数据
X, y = load_iris(return_X_y=True)
X.shape

(150, 4)

In [55]:
# 拟合模型
clf = LogisticRegression(random_state=0).fit(X, y)
# 预测
clf.predict(X[:2, :])

array([0, 0])

In [56]:
# 概率预测
clf.predict_proba(X[:2, :])

array([[9.81798885e-01, 1.82011004e-02, 1.43499227e-08],
       [9.71721788e-01, 2.82781823e-02, 3.00194617e-08]])

In [57]:
# 模型准确率
clf.score(X, y)

0.9733333333333334