Skip to content

Commit

Permalink
update for practice
Browse files Browse the repository at this point in the history
  • Loading branch information
llinjupt committed Mar 27, 2019
1 parent 0b2bd25 commit 540fe52
Showing 1 changed file with 25 additions and 7 deletions.
32 changes: 25 additions & 7 deletions practice.rst
Original file line number Diff line number Diff line change
Expand Up @@ -143,14 +143,20 @@ Google Tensorflow -> Android
加速:cython or OpenMP https://www.openmp.org/
关于"AI"的歪思考
~~~~~~~~~~~~~~~~~
关于"AI应用"的歪思考
~~~~~~~~~~~~~~~~~~~~
使用模型训练(深度学习神经网络)的流程:采集数据,尽可能多的采集广泛的数据(采集范围根据需求确定,根据需要进行精确处理:数据清洗),并准确标注。训练,可以多模型调参,并对比性能,导出模型。在实际应用环境,采集到的数据必须进行同样的精确预处理,通过模型进行识别,大体流程:
使用模型训练(深度学习神经网络)的流程:采集数据,尽可能多的采集广泛的数据(采集范围根据需求确定,根据需要进行精确处理),并准确标注。训练,可以多模型调参,并对比性能,导出模型。在实际应用环境,采集到的数据必须进行同样的精确预处理,通过模型进行识别。关键点有几点:1.数据采集,通常由程序自动完成,比如从大量不同类型的视频中采集人脸,然后通过人工剔除错误信息(否则再多数据都白给),关键点标注(关键点也可以由程序完成,但需要人工进行后期的精确调整)2.数据处理,采集到的样本可能大小,颜色,所占图片位置不同,所以要进行精确处理。3.选择合适的模型,或者多个模型以进行效果对比 4. 实际应用场景进行验证,性能,效果,然后把错误数据继续反馈到模型继续训练,提高模型的鲁棒性。
- 数据采集,通常由程序自动完成,比如从大量不同类型的视频中采集人脸,然后通过人工剔除错误信息(否则再多数据都白给),关键点标注(关键点也可以由程序完成,但需要人工进行后期的精确调整)
- 数据处理,采集到的样本可能大小,颜色,所占图片位置不同,所以要进行精确处理。
- 选择合适的模型,或者多个模型以进行效果对比
- 实际应用场景进行验证,性能,效果,然后把错误数据继续反馈到模型继续训练,提高模型的鲁棒性。
性能不达标:
a. 错误率高 1.软调节:数据是否准确,规模是否足够大到能满足需求,训练数据够好,则更新算法 2.硬调节,更换更高更好的传感器,提高分辨率和响应速度
b. 速度慢 1.软调节:升级模型算法(需要有所突破)或者根据具体场景,来缩小图片尺寸,代价是距离远了,识别率变差;或者并行改串行,多线程处理 2.硬调节,增加多传感器,对应多线程处理;升级CPU,升级GPU,升级DSP,升级FPGA,根据SOC厂家解决方案来定(工程量不小,开始原型预研就要估计好数据量,莫盲目乐观)。
- 错误率高 1.软调节:数据是否准确,规模是否足够大到能满足需求,训练数据够好,则更新算法 2.硬调节,更换更高更好的传感器,提高分辨率和响应速度
- 速度慢 1.软调节:升级模型算法(需要有所突破)或者根据具体场景,来缩小图片尺寸,代价是距离远了,识别率变差;或者并行改串行,多线程处理;硬调节,增加多传感器,对应多线程处理;升级CPU,升级GPU,升级DSP,升级FPGA,根据SOC厂家解决方案来定(工程量不小,开始原型预研就要估计好数据量,莫盲目乐观)。
这看起来很有趣,但是有什么实际用处呢?这是一个好问题,一个关键问题! 但是 Data talks!
Expand Down Expand Up @@ -192,6 +198,18 @@ b. 速度慢 1.软调节:升级模型算法(需要有所突破)或者根
Google 发布的 Inception 或 VGG16 这样成熟的物品分类的网络,只训练最后的 softmax 层,你只需要几千张图片,使用普通的 CPU 就能完成,而且模型的准确性不差。
Apple Turicreate 也是基于迁移学习,从而可以快速训练 CoreML 模型并部署到 iOS 上。
opencv
---------
尽管如此,一堆所谓的有向无环图的“节点”(神圣地被称为“神经元”)组成的网络离真正意义上的“智能”还差得太远。
如果最终高效的人工智能算法模型被少数大公司垄断,只提供一些 API 接口(基本上这是一个趋势),那么人工智能的未来又该如何发展?
一些有趣的实践
~~~~~~~~~~~~~~~~~~
尽管机器学习和深度学习被大多应用于计算机视觉和自然语言(NLP)领域,但是如果把它放在其它领域其结果也会令人感到不可思议:
最近在从某网抽取数据来分析招聘信息,只从非常宏观的角度,就可以明显看出一个地区的产业分布(企业),人才层次分布,从这一分布就不难预测未来该地区的发展趋势。(政策层面如何量化?这确实是一个很大的变数,从各大官媒新闻报道中提及某些关键词频率入手?)。稍微细致分析,就可以看出某些公司的发展方向,人才储备的趋势变化。跟踪特定地区和公司的招聘变化相信将会有更大的发现。
再从雪球网抽取证券相关的评论信息(个人认为对于金融相关的预测过于关心过去的指数变化意义不大,反而可能从人的言行情绪上是一个不错的切入点),发现在负面情绪(负面分词占比很大)非常严重时,市场就开始具有不错的参与度(在不就的将来的收益很可能是超预期的),当然还要结合实际的宏观经济数据模型,不过至少它可以作为一个不错的特征指标,来衡量市场的冷热度。
当前阶段,人工智能领域最应该关注的趋势就是,算法模型向实际应用场景的落地。过多资源流向了算法研究,耗费在一堆参数上,而这些算法模型如何应用在各行各业,各个细分领域来产生实际的价值?

0 comments on commit 540fe52

Please sign in to comment.