Data Science Introduction With R
Clone or download
Fetching latest commit…
Cannot retrieve the latest commit at this time.
Permalink
Type Name Latest commit message Commit time
Failed to load latest commit information.
classification-algorithms-part-1
classification-algorithms-part-2
clustering-algorithms
data-analytics-introduction
data-science-introduction
extra-materials/envs-preparation
feature-engineering
model-evaluation-and-hyperparameter-optimization
other-algorithms
r-language-introduction
reproducible-research
statistical-analytics-introduction
time-series-algorithms
.gitignore
README.md

README.md

Data Science Introduction With R

简介 - Introduction

  1. 本课程是一套以R为分析语言的数据科学入门教程。

  2. Github地址:https://github.com/leovan/data-science-introduction-with-r

  3. Git仓库目录结构:

    • 一级目录为一个专题
    • 二级目录:
      • Data:数据文件目录,包含本节所需数据文件
      • Notebooks:练习笔记目录,包含本节使用的笔记
      • Scripts:代码脚本目录,包含本节所需的代码脚本
    • 幻灯片:一级目录下的PDF文件即为本节课程的幻灯片
    • extra-materials一级目录,包含配置手册等其他资料

准备 - Preparation

  1. 操作系统:Windows x64 7+,OSX 10.10+,Ubuntu 14.04+
  2. R:Microsoft R Open最新版本(下载地址,该版本各平台安装包均有,容易配置安装,自带MKL矩阵运算加速)
  3. RStudio:最新Preview版本(下载地址,Preview版本有些新特性比较实用)
  4. Python:最新版本Anaconda Python 3(下载地址,用于Jupyter基础环境)
  5. nteract:最新版本(下载地址,用于Notebook浏览和编辑)
  6. Typora:最新版本(下载地址,用于Markdown浏览)

数据科学简介 - Data Science Introduction

  1. 数据科学概念
    • 数据科学(Data Science)
    • 数据产品(Data Product)
    • 跨界
  2. 数据科学工具箱
    • 数据科学常用工具
    • 数据科学之战:R和Python
    • 为什么选择R语言
  3. 数据科学分工与流程
    • 数据科学分工
    • 数据分析和挖掘流程

R语言简介 - R Language Introduction

  1. R相关环境配置
  2. R基础语法
  3. R对象,函数和扩展包
  4. R数据结构
  5. R语言编码风格

数据分析基础 - Data Analytics Introduction

  1. 大神的工具箱
  2. R基础数据处理
    • 文件读取和保存
    • 数据变换
    • apply函数族及其扩展
  3. R可视化
    • ggplot2
    • Plotly

统计分析基础 - Statistical Analytics Introduction

  1. 探索性分析
    • 描述性统计量
    • 常用分布
  2. 实验设计
    • 假设检验概念
    • 常用假设检验
  3. 线性回归
    • 一元线性回归
    • 多元线性回归
    • 广义线性回归
    • 最小二乘法与梯度下降

特征工程 - Feature Engineering

  1. 数据预处理
    • 数据清洗
    • 采样
  2. 特征变换和编码
    • 无量纲化
    • 离散化
    • 哑变量化
  3. 特征提取,选择和监控
    • 特征提取
    • 特征选择
    • 特征监控

模型评估 & 超参数优化 - Model Evaluation & Hyperparameter Optimization

  1. 模型性能评估
    • 回归问题
    • 分类问题
    • 聚类问题
  2. 模型生成和选择
    • 过拟合问题
    • 评估方法
    • 偏差和方差
  3. 超参数优化

分类算法(上) - Classification Algorithms Part 1

  1. 逻辑回归
  2. 决策树

分类算法(下) - Classification Algorithms Part 2

  1. Bagging
  2. Boosting
  3. Stacking

时间序列算法 - Time Series Algorithms

  1. 时间序列
  2. ARIMA模型
  3. 季节性分析

聚类算法 - Clustering Algorithms

  1. K-means
  2. 层次聚类
  3. 基于密度的聚类

可重复性研究 - Reproducible Research

  1. Markdown
  2. R Markdown
  3. 报告和幻灯片
  4. R Notebook

其他算法 - Other Algorithms

  1. 自然语言处理
  2. 异常检测

说明

  1. 本项目遵守 CC BY-NC-SA 4.0 协议。