## 机器学习入门

#### 基础知识
名词：样本/实例、特征/属性、样本的数量、特征的数量/特征维度  
机器学习三要素：模型、策略、算法  
模型，要学习的决策函数或者条件概率分布，一般用假设空间来描述所有的决策函数或条件概率分布  
策略，损失函数，模型的输出值与真实值之间的误差  
算法，学习模型的具体优化方法  
过拟合：指在机器学习模型训练的过程中，模型对训练数据学习过度，将数据中包含的噪声和误差也学习了，使得模型在训练机上表现很好，而在测试集上表现很差的一种现象。  
训练集的经验误差项（训练误差），加上正则化项（惩罚项）。[正则化参数]的同时最小化经验误差。  
平方损失（线性回归）、指数损失（AdaBoost）、合页损失（SVM）  

#### 机器学习基本流程
需求分析：产品与技术调研，业务需求分析  
数据采集：自有数据源，公开数据集/爬虫  
数据清洗：耗费70%的时间  
数据分析与可视化：探索性数据分析，统计绘图  
建模调优：各种模型，各种调试  
特征工程：建立在数据清洗基础上，特征选择与特征组合  
模型结果展示与报告输出：基于结果的业务决策分析  
模型部署与上线反馈：落地到生产环境  

#### 数组的基本操作
创建数组，array方法  
数组的索引与切片  
数组的基础运算  
数组维度变换  
数组合并与切分  

#### sklearn简单介绍
6大核心模块：分类、回归、聚类、降维、模型选择、预处理  

In [1]:
# 导入numpy模块
import numpy as np
# 将整数列表转换为NumPy数组
a = np.array([1,2,3])
# 查看数组对象
a

array([1, 2, 3])

In [2]:
# 查看整数数组对象类型
a.dtype

dtype('int32')

In [3]:
# 将浮点数列表转换为NumPy数组
b = np.array([1.2, 2.3, 3.4])
# 查看浮点数数组对象类型
b.dtype

dtype('float64')

In [4]:
# 将两个整数列表转换为二维NumPy数组
c = np.array([[1,2,3], [4,5,6]])
c

array([[1, 2, 3],
       [4, 5, 6]])

In [5]:
# 生成2×3的全0数组
np.zeros((2, 3))

array([[0., 0., 0.],
       [0., 0., 0.]])

In [6]:
# 生成3×4的全1数组
np.ones((3, 4), dtype=np.int16)

array([[1, 1, 1, 1],
       [1, 1, 1, 1],
       [1, 1, 1, 1]], dtype=int16)

In [7]:
# 生成2×3的随机数数组
np.empty([2, 3])

array([[0., 0., 0.],
       [0., 0., 0.]])

In [8]:
# arange方法用于创建给定范围内的数组
np.arange(10, 30, 5 )

array([10, 15, 20, 25])

In [9]:
# 生成3×2的符合(0,1)均匀分布的随机数数组
np.random.rand(3, 2)

array([[0.68178476, 0.57804601],
       [0.23715662, 0.56062945],
       [0.89987318, 0.88608853]])

In [10]:
# 生成0到2范围内长度为5的数组
np.random.randint(3, size=5)

array([1, 1, 2, 2, 2])

In [11]:
# 生成一组符合标准正态分布的随机数数组
np.random.randn(3)

array([ 0.96324941, -1.13907332,  1.16520205])

In [12]:
# 创建一个一维数组 
a = np.arange(10)**2
a

array([ 0,  1,  4,  9, 16, 25, 36, 49, 64, 81], dtype=int32)

In [13]:
# 获取数组的第3个元素
a[2]

4

In [14]:
# 获取第2个到第4个数组元素
a[1:4]

array([1, 4, 9], dtype=int32)

In [15]:
# 一维数组翻转
a[::-1]

array([81, 64, 49, 36, 25, 16,  9,  4,  1,  0], dtype=int32)

In [16]:
# 创建一个多维数组
b = np.random.random((3,3))
b

array([[0.71962336, 0.44692011, 0.15251867],
       [0.61599029, 0.18877546, 0.26761891],
       [0.98856043, 0.55442031, 0.48966532]])

In [17]:
# 获取第2行第3列的数组元素
b[1,2]

0.2676189056292472

In [18]:
# 获取第2列数据
b[:,1]

array([0.44692011, 0.18877546, 0.55442031])

In [19]:
# 获取第3列前两行数据
b[:2, 2]

array([0.15251867, 0.26761891])

In [20]:
# 创建两个不同的数组
a = np.arange(4)
b = np.array([5,10,15,20])
# 两个数组做减法运算
b-a

array([ 5,  9, 13, 17])

In [21]:
# 计算数组的平方
b**2

array([ 25, 100, 225, 400], dtype=int32)

In [22]:
# 计算数组的正弦值
np.sin(a)

array([0.        , 0.84147098, 0.90929743, 0.14112001])

In [23]:
# 数组的逻辑运算
b<20

array([ True,  True,  True, False])

In [24]:
# 数组求均值和方差
np.mean(b)

12.5

In [25]:
# 数组求方差
np.var(b)

31.25

In [26]:
# 创建两个不同的数组
A = np.array([[1,1],
              [0,1]])
B = np.array([[2,0],
              [3,4]])
# 矩阵元素乘积
A * B

array([[2, 0],
       [0, 4]])

In [27]:
# 矩阵点乘
A.dot(B)

array([[5, 4],
       [3, 4]])

In [28]:
# 矩阵求逆
np.linalg.inv(A)

array([[ 1., -1.],
       [ 0.,  1.]])

In [29]:
# 矩阵求行列式
np.linalg.det(A)

1.0

In [30]:
# 创建一个3×4的数组
a = np.floor(10*np.random.random((3,4)))
a

array([[8., 2., 7., 7.],
       [7., 3., 4., 1.],
       [8., 3., 6., 5.]])

In [31]:
# 查看数组维度
a.shape

(3, 4)

In [32]:
# 数组展平
a.ravel()

array([8., 2., 7., 7., 7., 3., 4., 1., 8., 3., 6., 5.])

In [33]:
# 将数组变换为2×6数组
a.reshape(2,6)

array([[8., 2., 7., 7., 7., 3.],
       [4., 1., 8., 3., 6., 5.]])

In [34]:
# 求数组的转置
a.T

array([[8., 7., 8.],
       [2., 3., 3.],
       [7., 4., 6.],
       [7., 1., 5.]])

In [35]:
a.T.shape

(4, 3)

In [36]:
# -1维度表示NumPy会自动计算该维度
a.reshape(3,-1)

array([[8., 2., 7., 7.],
       [7., 3., 4., 1.],
       [8., 3., 6., 5.]])

In [37]:
# 按行合并代码清单1-7中的A数组和B数组
np.hstack((A,B))

array([[1, 1, 2, 0],
       [0, 1, 3, 4]])

In [38]:
# 按列合并A数组和B数组
np.vstack((A,B))

array([[1, 1],
       [0, 1],
       [2, 0],
       [3, 4]])

In [39]:
# 创建一个新数组
C = np.arange(16.0).reshape(4, 4)
C

array([[ 0.,  1.,  2.,  3.],
       [ 4.,  5.,  6.,  7.],
       [ 8.,  9., 10., 11.],
       [12., 13., 14., 15.]])

In [40]:
# 按水平方向将数组C切分为两个数组
np.hsplit(C, 2)

[array([[ 0.,  1.],
        [ 4.,  5.],
        [ 8.,  9.],
        [12., 13.]]),
 array([[ 2.,  3.],
        [ 6.,  7.],
        [10., 11.],
        [14., 15.]])]

In [41]:
# 按垂直方向将数组C切分为两个数组
np.vsplit(C, 2)

[array([[0., 1., 2., 3.],
        [4., 5., 6., 7.]]),
 array([[ 8.,  9., 10., 11.],
        [12., 13., 14., 15.]])]

In [42]:
# 导入iris数据集和逻辑回归算法模块
from sklearn.datasets import load_iris
from sklearn.linear_model import LogisticRegression
# 导入数据
X, y = load_iris(return_X_y=True)
# 拟合模型
clf = LogisticRegression(random_state=0, max_iter=1000).fit(X, y)  # 添加参数赋值max_iter=1000

In [43]:
# 预测
clf.predict(X[:2, :])

array([0, 0])

In [44]:
# 概率预测
clf.predict_proba(X[:2, :])

array([[9.81585039e-01, 1.84149468e-02, 1.44657173e-08],
       [9.71340116e-01, 2.86598535e-02, 3.01230064e-08]])

In [45]:
# 模型准确率
res = clf.score(X, y)
print(round(res,2))

0.97
