# 面向公司的机器学习入门讲义

## [0x01] 环境准备
- python 3.6+
- jupyterlab 2.1.2
- matplotlib 3.2.1
- tensorflow 2.2.0
- sklearn 0.23.1

In [None]:
%matplotlib inline

## [0x02] 环境启动方法
```sh
jupyter notebook --no-browser --port=8086 --ip=<YOUR IP>
```

## [1x01] 当我们说AI时，我们是在谈论什么？

一张鸟瞰图，找准我们的位置
![00001](asset/00001.png)

- <b>人工智能</b>  非常宽泛的领域，通常不能准确的表述所要讨论的问题
- <b>机器学习</b>  泛指传统机器学习，特点：
    - 不包含神经网络
    - 提出时间相对较早
    - 代表性算法：支持向量机(SVM) / 决策树等
- <b>深度学习</b>  针包含神经网络构成的机器学习算法的总称。特点：
    - <span style='color:red;'>由神经网络构成</span>
    - 随着算力的不断加强，可训练的层数比较深

## [1x02] 什么是机器学习算法

### 什么是 ~传统~ 算法?

算法是利用计算机解决问题的处理步骤，简而言之，<b>算法就是解决问题的步骤</b>。

算法不仅仅用于计算机的数据处理，现实世界中的各种问题也需要结合算法的概念来解决，其中，具有代表性的就是烹饪中用到的食谱，食谱是各种美味料理的制作方法，需要用一定的步骤表示出来。

![00003](asset/00003.jpg)

多说无益，上干货。

想想以下我们要烹饪一道美食：
- 材料
- 菜谱
- 工具

已经全部就为

![00002](asset/00002.jpg)

分析之下，我们会精心设计一个可控的流程，环环相扣，从输入开始一步一步得到结果。

![00004](asset/00004.jpg)

这是我们正常处理事情的方法，也是学校里老师所教授的。

敲黑板复习一下：
- 排序算法
- 树
  - 二叉
  - 红黑 ~面试树~
  - 深度优先
  - 广度优先
- 图
- 动态规划

![00005](asset/00005.jpg)

机器学习算法完全不是这个套路。

### 机器学习算法

机器学习算法与传统算法最大的不同点在于：**机器学习算法是根据数据反推规则**

想一想人类是如何学习新事物的？
- 读书
- 思考
- 技能

机器学习仿照人的学习方式来工作：
- 输入数据
- 挖掘关系、总结规律
- 输出模型

![00006](asset/00006.jpg)

装X版
![00007](asset/00007.jpg)

### 机器学习 VS 深度学习

机器学习与深度学习最大的区别在于，深度学习依靠**神经网络**作为模型的载体。

神经网络长什么样子？
![00009](asset/00009.jpg)

![00010](asset/00010.jpg)

很酷是吧？

下面看一下几个颠覆性的结论：
- 无法预判最终会得到什么样的模型
- 同样的数据，同样的算法，还是会得到不同的模型
  - 这些模型有的可用，有的却完全无效
- 超参数都是百万级别起步的，无法手工调整
- 现阶段对于模型的整个训练过程，无法解释
- 遵循GIGO原则 Garbage In Garbage Out

## [1x03] 3W问题 - When?What?Why?

听到这里你也许会感觉有些空洞和混乱
![00017](asset/00017.jpg)

没关系，我这里有一份3W快速指南，“干货”的干活

### “传统”机器学习

适用于哪些问题：
- 线性回归
  - 能够抽象成线性函数表征的问题
- 决策树
- 分类问题
  - 垃圾邮件检测。垃圾邮件或广告短信自动屏蔽。
- 聚类
- 简单推荐算法

什么时候考虑使用传统机器学习？
- 硬件资源有限，时间有限
- 要求精度不高，能用即可
- 要求强解释性的场合

入门方法 - sklearn

### 深度学习

适用于哪些问题：
- 处理海量高纬度数据
  - 天气预报
  - 推荐预测
  - GAN
- 完全无法依靠人工来进行规则制定的任务
  - 人脸识别
  - 自动翻译
  - 语音识别
  - 智能驾驶

什么时候考虑用深度学习?
- 至少拥有一块GPU/TPU/NPU或者类似专用芯片的时候
- 对结果精度有较高要求的时候
- 拥有海量高质量数据
- 不要求解释，只看效果的

## [2x01] Demo

先来看一个机器学习的典型事例。

**鸢尾花的分类**
由Fisher在1936年整理，包含4个特征:
- Sepal.Length（花萼长度）
- Sepal.Width（花萼宽度）
- Petal.Length（花瓣长度）
- Petal.Width（花瓣宽度）

特征值都为正浮点数，单位为厘米。

目标值为鸢尾花的分类
- Iris Setosa(山鸢尾)
- Iris Versicolor(杂色鸢尾)
- Iris Virginica(维吉尼亚鸢尾)

![00008_1](asset/00008_1.jpg)
![00008_2](asset/00008_2.jpg)
![00008_3](asset/00008_3.jpg)

In [None]:
from sklearn import datasets
iris = datasets.load_iris()
print("The iris' target names: ", iris.target_names)

X = iris.data[:, :2]  # we only take the first two features.
Y = iris.target

iris.data.shape

In [None]:
# 数据长什么样(前10条)
iris.data[:10]

In [None]:
# 完整代码
# Code source: Gaël Varoquaux
# Modified for documentation by Jaques Grobler
# License: BSD 3 clause

import numpy as np
import matplotlib.pyplot as plt
from sklearn.linear_model import LogisticRegression
from sklearn import datasets

# import some data to play with
iris = datasets.load_iris()
X = iris.data[:, :2]  # we only take the first two features.
Y = iris.target

logreg = LogisticRegression(C=1e5)

# Create an instance of Logistic Regression Classifier and fit the data.
logreg.fit(X, Y)

# Plot the decision boundary. For that, we will assign a color to each
# point in the mesh [x_min, x_max]x[y_min, y_max].
x_min, x_max = X[:, 0].min() - .5, X[:, 0].max() + .5
y_min, y_max = X[:, 1].min() - .5, X[:, 1].max() + .5
h = .02  # step size in the mesh
xx, yy = np.meshgrid(np.arange(x_min, x_max, h), np.arange(y_min, y_max, h))
Z = logreg.predict(np.c_[xx.ravel(), yy.ravel()])

# Put the result into a color plot
Z = Z.reshape(xx.shape)
plt.figure(1, figsize=(12, 9))
plt.pcolormesh(xx, yy, Z, cmap=plt.cm.Paired)

# Plot also the training points
plt.scatter(X[:, 0], X[:, 1], c=Y, edgecolors='k', cmap=plt.cm.Paired)
plt.xlabel('Sepal length')
plt.ylabel('Sepal width')

plt.xlim(xx.min(), xx.max())
plt.ylim(yy.min(), yy.max())
plt.xticks(())
plt.yticks(())

plt.show()

## [2x02] Demo

再来看一个使用**神经网络**的例子

**线性回归** 用一条线，来描述一种趋势
很多时候，如果把业务数据画在一张图标上，我们往往可以看出其发展的规律；

如果把这些数据“放到”一个预先定义好结构的神经网络里，那么我们就得到一个包含了这种规律的“模型”

In [None]:
import matplotlib.pyplot as plt
import numpy as np
import tensorflow as tf
from tensorflow import keras
from sklearn.preprocessing import PolynomialFeatures

# parameter
degree_n = 3


def dataset(show=True):
    X = np.arange(-25, 25, 0.1)
    # Try changing y to a different function
    y = X**3 + 20 + np.random.randn(500)*1000
    if show:
        plt.scatter(X, y)
        plt.show()
    return X, y


def create_model():
    model = tf.keras.Sequential([keras.layers.Dense(units=1, input_shape=[degree_n+1])])
    # you can also define optimizers in this way, so you can change parameters like lr.
    optimizer = tf.keras.optimizers.Adam(learning_rate=1e-3)
    model.compile(optimizer=optimizer, loss='mean_squared_error')

    return model


def create_polynomial_features(x, n):
    poly = PolynomialFeatures(degree=n)
    _x_n = poly.fit_transform(x.reshape(-1, 1))
    print(_x_n.shape)
    print(_x_n[0])
    return _x_n


X, y = dataset(show=False)
X_scaled = X/max(X)
y_scaled = y/max(y)

X_2 = create_polynomial_features(X_scaled, degree_n)


model = create_model()

tf_history = model.fit(X_2, y_scaled, epochs=500, verbose=True)


# plt.plot(tf_history.history['loss'])
# plt.xlabel('Epochs')
# plt.ylabel('MSE Loss')
# plt.show()

mse = tf_history.history['loss'][-1]
y_hat = model.predict(X_2)

plt.figure(figsize=(12,7))
plt.title('TensorFlow Model')
plt.scatter(X_2[:, 1], y_scaled, label='Data $(X, y)$')
plt.plot(X_2[:, 1], y_hat, color='red', label='Predicted Line $y = f(X)$',linewidth=4.0)
plt.xlabel('$X$', fontsize=20)
plt.ylabel('$y$', fontsize=20)
plt.text(0,0.70,'MSE = {:.3f}'.format(mse), fontsize=20)
plt.grid(True)
plt.legend(fontsize=20)
plt.show()

这一根红色的曲线，就是神经网络，通过输入的数据所“找到”的“规律”。

## [2x03] Demo

使用神经网络可以解决图像领域的很多问题。下面介绍经典的手写数字识别。

手写识别数据库 MNIST

TODO: 数据库介绍

In [None]:
from __future__ import print_function

import tensorflow.keras
from tensorflow.keras.datasets import mnist
from tensorflow.keras.models import Sequential
from tensorflow.keras.layers import Dense, Dropout
from tensorflow.keras.optimizers import RMSprop

batch_size = 128
num_classes = 10
epochs = 20

# the data, split between train and test sets
(x_train, y_train), (x_test, y_test) = mnist.load_data()

print(x_train.shape[0], 'train samples')
print(x_test.shape[0], 'test samples')

OK，OK，数据长什么样子？

In [None]:
# The first training data
x_train[1:]

鹅，好像不太好理解。。。。。

![00015](asset/00015.jpg)

别急，转换成人类看的懂的形势

In [None]:
# preview the images first
plt.figure(figsize=(12,10))
x, y = 10, 4
for i in range(40):
    plt.subplot(y, x, i+1)
    plt.imshow(x_train[i].reshape((28,28)),interpolation='nearest')
plt.show()

下面来构建网络

In [None]:
x_train = x_train.reshape(60000, 784)
x_test = x_test.reshape(10000, 784)
x_train = x_train.astype('float32')
x_test = x_test.astype('float32')
x_train /= 255
x_test /= 255

# convert class vectors to binary class matrices
y_train = keras.utils.to_categorical(y_train, num_classes)
y_test = keras.utils.to_categorical(y_test, num_classes)

model = Sequential()
model.add(Dense(512, activation='relu', input_shape=(784,)))
model.add(Dropout(0.2))
model.add(Dense(512, activation='relu'))
model.add(Dropout(0.2))
model.add(Dense(num_classes, activation='softmax'))

model.summary()

超参数 大概是 67万个

In [None]:
model.compile(loss='categorical_crossentropy',
              optimizer=RMSprop(),
              metrics=['accuracy'])

history = model.fit(x_train, y_train,
                    batch_size=batch_size,
                    epochs=epochs,
                    verbose=1,
                    validation_data=(x_test, y_test))
score = model.evaluate(x_test, y_test, verbose=0)
print('Test loss:', score[0])
print('Test accuracy:', score[1])

正确率大概98%，不够直观？

那就来看图说话：

In [None]:
def show_result(in_history):

#     print(in_history.history.keys())

    loss = in_history.history['loss']
    val_loss = in_history.history['val_loss']
    acc = in_history.history['accuracy']
    val_acc = in_history.history['val_accuracy']
    epochs = range(1, len(loss) + 1)

    plt.figure(num='Data logistic', figsize=(10, 5))

    plt.subplot(1, 2, 1)
    plt.plot(epochs, loss, 'bo', label='Training loss')
    plt.plot(epochs, val_loss, 'b', label='Validation loss')
    plt.xlabel('Epochs')
    plt.ylabel('Loss')
    plt.title('Loss')
    plt.legend()

    plt.subplot(1, 2, 2)
    plt.plot(epochs, acc, 'bo', label='Training accuracy')
    plt.plot(epochs, val_acc, 'b', label='Validation accuracy')
    plt.xlabel('Epochs')
    plt.ylabel('Accuracy')
    plt.title('Accuracy')
    plt.legend()

    plt.show()

show_result(history)

## [2x04] Demo

来看一个分类的例子。

如果我有了模型，那我应该如何使用？

**大象的故事**

世界上存在着两个最大的种群
- 非洲象
- 亚洲象

[非洲象和亚洲象的区别岂止是耳朵](https://www.sohu.com/a/131947296_121289)

现在我们就来利用一个已经训练好的模型来给大想做一个分类

先来看一看本次的主角长什么样子？

In [None]:
import matplotlib.pyplot as plt
import matplotlib.image as mpimg

plt.figure(figsize=(12,10))
img=mpimg.imread('asset/African-savanna-elephant.jpg')
imgplot = plt.imshow(img)
plt.show()

然后，我们进行推断

In [None]:
import numpy as np
from tensorflow.keras.applications.vgg16 import (
    VGG16, preprocess_input, decode_predictions)
from tensorflow.keras.preprocessing import image


def load_image(img_path):
    # img_path = sys.argv[1]
    img = image.load_img(img_path, target_size=(224, 224))
    x = image.img_to_array(img)
    x = np.expand_dims(x, axis=0)
    x = preprocess_input(x)
    return x


preprocessed_input = load_image('asset/African-savanna-elephant.jpg')

model = VGG16(weights='imagenet')

predictions = model.predict(preprocessed_input)
top_1 = decode_predictions(predictions)[0][0]
print('Predicted class:')
print('%s (%s) with probability %.2f' % (top_1[1], top_1[0], top_1[2]))

从结果上我们可以看到，模型推断说这是一只非洲象，根据我们 **人工的智能** 推断正确。

★★★注意★★★ 如果你是第一次运行以上代码，程序会自动到谷歌的网站上下载模型文件，非常耗时。因此，请参考另一份文档，手动将已经下载好的模型Copy到本地，避免漫长的等待。

## [2x05] Demo

深度学习在落地的时候，不一定要跑在牛X的机器上。相反，如果廉价的硬件和解决方案如果能实现类似的效果，那将必然大大的推动AI落地的速度。
业界经常讨论的一个名词叫做“边缘计算”。

这里演示一下边缘计算的一个典型场景，人脸识别。

Up这里使用一款开源的硬件，烧入人脸识别的网络模型。

![00018](asset/00018.jpg)

![00020](asset/00020.png)

## [2x06] Demo

对于生成对抗网络(GAN, Generative Adversarial Networks)相比大家也是有所耳闻的。这里就有一个有趣的网站可以让大家尝试“生成人脸”

![00021](asset/00021.png)

等不及尝试了？
- 点这里 -> https://thispersondoesnotexist.com/
- 懒得点？扫一扫 ![00022](asset/00022.png)

## [2x07] Demo

数字孪生和智慧城市。

数字孪生城市已成为各地政府推进智慧城市建设的主流模式选择。

产业界也将其视为技术创新的风向标，发展的新机遇，数字孪生应用已在部分领域率先展开。数字孪生城市理念自提出以来，在国内政产学研用各界引起广泛关注，掀起研究和建设热潮。理念引领，各地纷纷提出建设数字孪生城市。

引自 《数字孪生城市:智慧城市建设主流模式》 作者：高艳丽，陈才，张育雄  CNKI:SUN:ZGJS.0.2019-21-005

这里仅介绍一家国内比较著名的公司: 51WORLD

点击[这里](http://www.51hitech.com/technology/smart-park)或者 扫描下面的QR Code看一看他们对于“智慧园区”的定义和产品形态.

![00023](asset/00023.png)

# [3x01] 法律风险

俗话说“任何技术都是一把双刃剑”，在大家看到AI带来的巨大潜力的同时，其建立的基础——“数据”以及应用场景，却存在巨大的法律风险！

![0001](asset/0001.gif)
![0002](asset/0002.gif)
![00024](asset/00024.jpg)
![00025](asset/00025.jpg)
![00026](asset/00026.jpg)

国外:
- 美国多个城市立法禁止面部识别软件，警察也不可以
- 中新网1月19日电 据欧联社报道，根据欧洲议会的一项立法草案，欧盟正在考虑在未来五年内禁止公共场所使用人脸识别技术。

国内：
- 10月26日，《杭州市物业管理条例（修订草案）》（以下简称“修订草案”）被提请至杭州市第十三届人大常委会审议。草案拟规定，物业服务人不得强制业主通过指纹、人脸识别等生物信息方式使用共用设施设备。
- **如果别人用你的人脸数据，开通相关账户用于违法犯罪，比如洗钱、涉黑、恐怖主义，你可能会因此而卷入刑事诉讼之中。像利用换脸技术，将你的人脸信息用于淫秽色情等视频中，由此造成的恶劣影响，根本不是抓到相关的违法犯罪分子就可以消除的。**
- 杭州一动物园因启用人脸识别技术被起诉至法院
- 央视再曝AI黑产！2块能买上千人脸照，轻松「换脸」仙人跳

![00027](asset/00027.jpg)

# 总结

**总结**一下，对于一个深度学习问题：
- 投喂的是“数据”
- 建立的是“网络”
- 产出的是“模型”（规律）

![00011](asset/00011.jpg)

## [Nx01] 如何从入门到放弃

最后来看一看如何从入门到 ~专家~ 放弃

也许你眼中的机器学习工程师是这样的
![00012](asset/00012.jpg)

情况大体不差，通过上面的代码来看，使用其实不是太难，概念也可以理解。
然鹅，如何选择合适的切入点是个技术活儿。

目前市面上有很多关于AI的书籍，内容和质量参差不全。

下面两本书虽是经典，但不是切入的好方法

![00016](asset/00016.jpg)

尽量找一些可视化的教材入手会比较容易理解



https://www.bilibili.com/video/BV1F7411D7R7/

总结
- 入门和应用不可怕
- 深度研究要有强悍的数学作为基本功

![00014](asset/00014.jpg)

最后是广告时间：欢迎大家加入用友AI技术人员的家

![00017](asset/00017.png)