Skip to content
master
Switch branches/tags
Code

Data Science Introduction with R logo

Release License Issues


简介 - Introduction

  1. 本项目是一套以 R 为分析语言的数据科学入门教程。
  2. 托管网站: https://ds-r.leovan.tech
  3. Git 仓库目录结构:
    • base 目录:幻灯片相关配置文件
    • docs 目录:其他资料
    • 其他一级目录:
    • 二级目录:
      • *.pdf:本节课程幻灯片
      • data:本节课程所需数据文件
      • slide:本节课程幻灯片源代码
  4. 本项目遵守 CC BY-NC-SA 4.0 协议。

准备 - Preparation

  1. 操作系统: Windows 10+ (x64),macOS 10.12+,Ubuntu 16.04+
  2. R 最新版本 (下载地址)
  3. RStudio: 最新 Preview 版本 (下载地址,Preview 版本有些新特性比较实用)
  4. Visual Studio Code: 最新版本 (下载地址,用于代码浏览和编辑)
  5. Python: 最新版本 Anaconda Python 3 (下载地址,用于 Jupyter 基础环境)
  6. Visual Studio Code: 最新版本 (下载地址,用于代码浏览和编辑)
  7. Typora: 最新版本 (下载地址,用于 Markdown 浏览)

参考书籍 - Reference

  1. 《R语言实战》(R in Action),Robert I. Kabacoff 著,王小宁、刘撷芯、黄俊文 等 译
  2. 《R数据科学》(R for Data Science),Hadley Wickham & Garrett Grolemund 著,陈光欣 译
  3. 《高级R语言编程指南》(Advanced R),Hadley Wickham 著,潘文捷、许金炜、李洪成 译
  4. 《基于R语言的机器学习》(Introduction to Machine Learning with R),Scott V. Burger 著,马晶慧 译
  5. 《机器学习与R语言》(Machine Learning with R),Brett Lantz 著,李洪成、许金炜、李舰译 译
  6. 《统计学习方法》李航 著
  7. 《机器学习》周志华 著
  8. 《深度学习》(Deep Learning),Ian Goodfellow, Yoshua Bengio & Aaron Courville 著,赵申剑、黎彧君、符天凡、李凯 译

数据科学简介 - Data Science Introduction

  1. 数据科学概念
    • 数据科学
    • 数据产品
    • 跨界
  2. 数据科学工具箱
    • 数据科学常用工具
    • 数据科学之战:R 和 Python
    • 选择哪种语言
  3. 数据科学分工与流程
    • 数据科学分工
    • 数据分析和挖掘流程

R 语言简介 - R Language Introduction

  1. R 相关环境配置
  2. R 基础语法
  3. R 对象,函数和扩展包
  4. R 数据结构
  5. R 语言编码风格

数据分析基础 (上) - Data Analytics Introduction - Part 1

  1. 大神的工具箱
  2. 数据导入和导出
  3. 数据转换和规整

数据分析基础 (下) - Data Analytics Introduction - Part 2

  1. 关系数据处理
  2. 不同类型数据处理
  3. 函数式编程

数据可视化 - Data Visualization

  1. 数据可视化
  2. ggplot2
  3. 基于 Web 的绘图库

统计分析基础 - Statistical Analytics Introduction

  1. 探索性分析
    • 描述性统计量
    • 常用分布
  2. 实验设计
    • 假设检验概念
    • 常用假设检验
  3. 线性回归
    • 一元线性回归
    • 多元线性回归
    • 广义线性回归
    • 最小二乘法与梯度下降

特征工程 - Feature Engineering

  1. 数据预处理
    • 数据清洗
    • 缺失值,重复值,异常值处理
    • 数据采样,数据集分割
  2. 特征变换和编码
    • 无量纲化
    • 分箱
    • 哑变量化
  3. 特征提取,选择和监控
    • 特征提取
    • 特征选择
    • 特征监控

模型评估 & 超参数优化 - Model Evaluation & Hyperparameter Optimization

  1. 模型性能评估
    • 回归问题
    • 分类问题
    • 聚类问题
  2. 模型生成和选择
    • 过拟合问题
    • 评估方法
    • 偏差和方差
  3. 超参数优化
    • 搜索算法
    • 进化和群体算法
    • 贝叶斯优化

分类算法 (上) - Classification Algorithms - Part 1

  1. 逻辑回归
  2. 决策树

分类算法 (下) - Classification Algorithms - Part 2

  1. Bagging
  2. Boosting
  3. Stacking

时间序列算法 - Time Series Algorithms

  1. 时间序列
  2. ARIMA 模型
  3. 季节性分析
  4. Prophet

聚类算法 - Clustering Algorithms

  1. K-means
  2. 层次聚类
  3. 基于密度的聚类

可重复性研究 - Reproducible Research

  1. 可重复性研究
  2. Markdown
  3. R Markdown
  4. Jupyter
  5. 版本控制

深度学习算法 - Deep Learning Algorithms

  1. 人工神经网络
  2. 卷积神经网络
  3. 循环神经网络
  4. 深度学习框架