## 机器学习入门

# 机器学习基础实验一：NumPy与scikit-learn入门

---

## **实验目标**  
1. 掌握**NumPy数组**的创建方法与核心属性  
2. 理解**数组运算**与**广播机制**的原理与应用  
3. 熟练使用**数组索引、切片**及**形状变换**操作  
4. 应用**数学函数**与**统计方法**完成数据分析  
5. 实现**矩阵运算**与**线性代数**基础操作  
6. 初步掌握**scikit-learn**机器学习流程（数据加载→模型训练→预测评估）

---

## **实验内容**  

### **任务1：数组创建与属性验证**  
- 创建一维数组和二维数组
- 生成全0数组（2×3）、全1数组（3×4，int16类型）  
- 使用`arange`创建等差数组  
- 验证数组的 `shape`, `dtype`, `ndim` 属性  

### **任务2：数组操作与运算**  
- 对数组实现：  
  - 获取第3个元素  
  - 提取第2-4个元素  
  - 数组反向输出  
- 计算两个数组的逐元素乘法和矩阵乘法  

### **任务3：统计与随机数生成**  
- 对随机生成的5×5整数矩阵计算：  
  - 列均值  
  - 行最大值  
  - 总体标准差  
- 生成符合标准正态分布的3个随机数  
- 生成3×2的均匀分布随机矩阵  

### **任务4：矩阵操作与形状变换**  
- 对3×4矩阵：  
  - 展平为一维数组  
  - 变形为2×6矩阵  
  - 计算转置矩阵  
- 实现矩阵合并：  
  - 水平合并两个2×2矩阵  
  - 垂直合并两个2×2矩阵  
- 对4×4矩阵进行水平/垂直拆分  

### **任务5：机器学习实践（鸢尾花分类）**  
1. 加载鸢尾花数据集，查看数据维度  
2. 使用逻辑回归模型完成训练  
3. 对前两个样本进行类别预测  
4. 输出预测概率分布  
5. 计算模型整体准确率  

---

**实验要求**  
1. 所有NumPy操作需通过代码实现并验证结果  
2. 矩阵运算需对比`*`与`@`的差异  
3. 对`reshape(3,-1)`的自动维度计算给出解释  
4. 记录模型预测结果与准确率数值  


In [2]:
# 导入numpy模块
import numpy as np
# 将整数列表转换为NumPy数组
a = np.array([1,2,3])
# 查看数组对象
a

array([1, 2, 3])

In [3]:
# 查看整数数组对象类型
a.dtype

dtype('int32')

In [4]:
# 将浮点数列表转换为NumPy数组
b = np.array([1.2, 2.3, 3.4])
# 查看浮点数数组对象类型
b.dtype

dtype('float64')

In [5]:
# 将两个整数列表转换为二维NumPy数组
c = np.array([[1,2,3], [4,5,6]])
c

array([[1, 2, 3],
       [4, 5, 6]])

In [6]:
# 生成2×3的全0数组
np.zeros((2, 3))

array([[0., 0., 0.],
       [0., 0., 0.]])

In [7]:
# 生成3×4的全1数组
np.ones((3, 4), dtype=np.int16)

array([[1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1]], dtype=int16)

In [8]:
# 生成2×3的随机数数组
np.empty([2, 3])

array([[0., 0., 0.],
       [0., 0., 0.]])

In [9]:
# arange方法用于创建给定范围内的数组
np.arange(10, 30, 5 )

array([10, 15, 20, 25])

In [10]:
# 生成3×2的符合(0,1)均匀分布的随机数数组
np.random.rand(3, 2)

array([[0.27234532, 0.52554344],
       [0.56643794, 0.24444051],
       [0.49114217, 0.57183507]])

In [11]:
# 生成0到2范围内长度为5的数组
np.random.randint(3, size=5)

array([2, 1, 2, 2, 0])

In [12]:
# 生成一组符合标准正态分布的随机数数组
np.random.randn(3)

array([-0.30279928,  2.16066253, -1.78223637])

In [13]:
# 创建一个一维数组 
a = np.arange(10)**2
a

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81])

In [14]:
# 获取数组的第3个元素
a[2]

4

In [15]:
# 获取第2个到第4个数组元素
a[1:4]

array([1, 4, 9])

In [16]:
# 一维数组翻转
a[::-1]

array([81, 64, 49, 36, 25, 16,  9,  4,  1,  0])

In [17]:
# 创建一个多维数组
b = np.random.random((3,3))
b

array([[0.19141368, 0.99343652, 0.34277288],
       [0.86027008, 0.64000873, 0.57515153],
       [0.75864138, 0.24474649, 0.54450401]])

In [18]:
# 获取第2行第3列的数组元素
b[1,2]

0.5751515267309877

In [19]:
# 获取第2列数据
b[:,1]

array([0.99343652, 0.64000873, 0.24474649])

In [20]:
# 获取第3列前两行数据
b[:2, 2]

array([0.34277288, 0.57515153])

In [21]:
# 创建两个不同的数组
a = np.arange(4)
b = np.array([5,10,15,20])
# 两个数组做减法运算
b-a

array([ 5,  9, 13, 17])

In [22]:
# 计算数组的平方
b**2

array([ 25, 100, 225, 400])

In [23]:
# 计算数组的正弦值
np.sin(a)

array([0.        , 0.84147098, 0.90929743, 0.14112001])

In [24]:
# 数组的逻辑运算
b<20

array([ True,  True,  True, False])

In [25]:
# 数组求均值和方差
np.mean(b)

12.5

In [26]:
# 数组求方差
np.var(b)

31.25

In [27]:
# 创建两个不同的数组
A = np.array([[1,1],
              [0,1]])
B = np.array([[2,0],
              [3,4]])
# 矩阵元素乘积
A * B

array([[2, 0],
       [0, 4]])

In [28]:
# 矩阵点乘
A.dot(B)

array([[5, 4],
       [3, 4]])

In [29]:
# 矩阵求逆
np.linalg.inv(A)

array([[ 1., -1.],
       [ 0.,  1.]])

In [30]:
# 矩阵求行列式
np.linalg.det(A)

1.0

In [31]:
# 创建一个3×4的数组
a = np.floor(10*np.random.random((3,4)))
a

array([[7., 5., 3., 6.],
       [9., 7., 4., 0.],
       [2., 4., 6., 5.]])

In [32]:
# 查看数组维度
a.shape

(3, 4)

In [33]:
# 数组展平
a.ravel()

array([7., 5., 3., 6., 9., 7., 4., 0., 2., 4., 6., 5.])

In [34]:
# 将数组变换为2×6数组
a.reshape(2,6)

array([[7., 5., 3., 6., 9., 7.],
       [4., 0., 2., 4., 6., 5.]])

In [35]:
# 求数组的转置
a.T

array([[7., 9., 2.],
       [5., 7., 4.],
       [3., 4., 6.],
       [6., 0., 5.]])

In [36]:
a.T.shape

(4, 3)

In [37]:
# -1维度表示NumPy会自动计算该维度
a.reshape(3,-1)

array([[7., 5., 3., 6.],
       [9., 7., 4., 0.],
       [2., 4., 6., 5.]])

In [38]:
# 按行合并代码清单1-7中的A数组和B数组
np.hstack((A,B))

array([[1, 1, 2, 0],
       [0, 1, 3, 4]])

In [39]:
# 按列合并A数组和B数组
np.vstack((A,B))

array([[1, 1],
       [0, 1],
       [2, 0],
       [3, 4]])

In [40]:
# 创建一个新数组
C = np.arange(16.0).reshape(4, 4)
C

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.],
       [12., 13., 14., 15.]])

In [41]:
# 按水平方向将数组C切分为两个数组
np.hsplit(C, 2)

[array([[ 0.,  1.],
        [ 4.,  5.],
        [ 8.,  9.],
        [12., 13.]]),
 array([[ 2.,  3.],
        [ 6.,  7.],
        [10., 11.],
        [14., 15.]])]

In [42]:
# 按垂直方向将数组C切分为两个数组
np.vsplit(C, 2)

[array([[0., 1., 2., 3.],
        [4., 5., 6., 7.]]),
 array([[ 8.,  9., 10., 11.],
        [12., 13., 14., 15.]])]

In [43]:
# 导入iris数据集和逻辑回归算法模块
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
# 导入数据
X, y = load_iris(return_X_y=True)
# 拟合模型
clf = LogisticRegression(random_state=0).fit(X, y)
# 预测
clf.predict(X[:2, :])

STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


array([0, 0])

In [44]:
# 概率预测
clf.predict_proba(X[:2, :])

array([[9.81806865e-01, 1.81931206e-02, 1.44258943e-08],
       [9.71743357e-01, 2.82566128e-02, 3.01647766e-08]])

In [45]:
# 模型准确率
clf.score(X, y)

0.9733333333333334