Skip to content

ouriris/ml-course

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

66 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Machine Learning course for internal use

Lesson outline (还需要细化)

  1. CH.0 Overview
    • 课程背景简介
    • Data scientist roadmap
    • 机器学习实践流程
  2. CH.1 Python basic skills (PPT)
    • 背景(优点、生态链)
    • 环境搭建
      • Anaconda使Python2/3共存(Conda的使用)
      • Jupyter Notebook(可分享的交互式编程环境)
      • PyCharm(IDE)
    • 语法特点(主要集中于Python与其它语言不同的特点上)
      • 数据类型(空值None、没有定义常量的办法、List和Tuple、集合运算)
      • 流程控制(没有花括号、靠缩进、作用域)
      • Dict & Set
      • 函数定义(默认参数、可变参数、命名参数、多返回值)
      • 高级特性(Slice、生成器)
      • 函数式编程(高阶函数)
      • OOP(如何定义class、构造函数、一般函数、私有变量、静态变量、继承、枚举)
      • 异常处理(try-except-finally、自定义异常)
      • Unittest
    • Code Samples
  3. CH.2 ML basic models + basic math
    • 机器学习评价方法及性能度量
      • 留出法
      • 交叉验证法
      • 自助法
      • 错误率和精度
      • 查准率、查全率与F1
      • ROC与AUC
      • 代价敏感错误率与代价曲线
    • 监督学习模型(理论 + Demo, 引入sk-learn)
      • 回归
        • 线性回归
          • 应用场景
          • 算法原理 (预测函数, 成本函数, 梯度下降算法)
          • 算法示例: 线性归回算法拟合正弦函数
          • scikit-learn demo: 房价预测
      • 决策树
        • 决策树介绍
          • 分类问题
          • 分类方法
          • 决策树的优缺点
          • 决策树算法的代表
          • 随机森林
        • 如何构建决策树
          • 基本算法
          • 划分属性的选择策略
          • 剪枝
          • 连续属性值如何划分
          • 缺失值
          • 多变量决策树
      • 朴素贝叶斯
        • 背景(先验概率、后验概率)
        • 贝叶斯公式
        • 朴素贝叶斯的原理公式解释(结合例子)(为什么要假设特征之间独立?特征空间巨大、数据的稀疏性很容易导致统计到0)
        • 朴素贝叶斯Naive在哪
          • 优点:算法逻辑简单,易于实现、分类过程中时空开销小、可以应用在数据量大的情况
          • 缺点:朴素贝叶斯模型假设属性之间相互独立,这个假设在实际应用中往往是不成立的,在属性个数比较多或者属性之间相关性较大时,分类效果不好
        • 朴素贝叶斯的优点与缺点
        • 朴素贝叶斯与LR的区别
      • ...
    • 非监督学习模型(理论 + Demo, 引入sk-learn)
      • 聚类
        • Kmeans
        • Kmeans++
        • DBSCAN
          • DBSCAN 介绍(基于密度的聚类算法)
          • DBSCAN 算法关键属性(邻域,密度,最小密度阈值minpts,核心点,边界点,噪音点,直接密度可达,密度可达,密度相连)
          • 算法流程 & sklearn demo
          • 优缺点
  4. CH.3 Feature engineering
    • Introduction
      • 什么是特征
      • 什么是特征工程
      • 特征工程的重要性
    • Data cleaning
      • 清除异常数据
      • 采样
    • Data preprocessing and Feature extraction
      • 无量纲化
        • 标准化
          • z-score法
        • 归一化
          • 区间缩放法
      • 离散化
      • 定性特征转化成定量特征
        • oneHot编码
      • 缺失值处理
      • 数据转换
    • Feature selection
      • 特征选择标准
        • 特征是否发散
        • 特征与目标的相关性
      • 特征选择方法
        • 过滤法
        • 包装法
        • 嵌入法
    • Dimensionality reduction
      • 主成分分析法(PCA)
      • 线性判别分析(LDA)
  5. CH.4 Advanced tech
    • Bagging
    • Boosting
    • Stacking
    • 欠拟合和过拟合
  6. CH.5 Real Project sharing
    • // from ITA?
  7. CH.6 Deep learning(未确定)
    • What is DL
    • 神经网络
    • CNN/RNN/LSTM...
    • Demo

Members

当前TODO List

  1. 分组如下, 各组人员请细化自己负责那个item的outline(yellow@2018-6-22)
    • Yellow + Tmac: CH.0 & CH.1 (Completed)  - Diana + Jonas: CH.2回归模型  - Will + Aaron: CH.2决策树模型
  • Yellow + Tmac: CH.2朴素贝叶斯

Rules

  1. 每个章节放在对应子目录下, 章节目录下需要有README.MD文件.
  2. 更新了课件要一起更新README.MD.
  3. 讨论请去Issues.

Releases

No releases published

Packages

No packages published