# Data Science Notes 数据科学笔记

## 1. Introduction 介绍

### 1.1 Data and Dataset 数据与数据集

#### 1.1.1 What is Data? 什么是数据？
Data refers to facts, statistics, or values that convey information. It can be structured (tables, databases) or unstructured (slides, documentation).  
数据是事实、统计数据或数值，能够传达信息，可以是**结构化**（表格、数据库）或**非结构化**（幻灯片、文档）。

#### 1.1.2 What is a Dataset? 什么是数据集？
A dataset consists of rows and columns:  
数据集由行和列组成：
- **Rows (observations, 观察值)**: Represent individual cases or instances (e.g., each customer in a dataset).  
- **Columns (variables, 变量)**: Represent features describing the observations.

#### 1.1.3 Types of Data 数据类型
- **Categorical (分类数据)**: Data divided into distinct groups (e.g., colors, cities).  
- **Numerical (数值数据)**: Data expressed as numbers (e.g., age, temperature).

#### 1.1.4 Levels of Measurement 测量水平
- **Nominal (名义变量)**: Categories without a meaningful order (e.g., gender, country).  
- **Ordinal (序数变量)**: Ordered categories without meaningful differences (e.g., satisfaction levels).  
- **Interval (区间变量)**: Ordered categories with meaningful differences but no true zero (e.g., temperature in Celsius).  
- **Ratio (比率变量)**: Like interval data but with a true zero (e.g., height, weight).

### 1.2 CRISP-DM (Cross Industry Standard Process for Data Mining) 数据挖掘标准流程
A structured framework for conducting data science projects.  
用于执行数据科学项目的标准框架：
1. **Business Understanding (业务理解)** - Define the project goal and understand business needs.
2. **Data Understanding (数据理解)** - Explore, visualize, and analyze data.
3. **Data Preparation (数据准备)** - Clean and transform data.
4. **Modeling (建模)** - Develop predictive models.
5. **Evaluation (评估)** - Assess model performance.
6. **Deployment (部署)** - Implement the model in a real-world scenario.

## 2. Business Understanding 业务理解
- **Business Objective (商业目标)**: Understanding what the organization aims to achieve.
- **Data Mining Goal (数据挖掘目标)**: Define what data scientists can do to support business objectives.
- **Success Criteria (成功标准)**: Establish measurable criteria to assess model effectiveness.

---

## 3. Data Understanding 数据理解

### 3.1 Descriptive Statistics 描述性统计
#### Central Tendency 中心趋势
- **Mean (均值)**: Uses all data points but **sensitive to outliers**.
- **Median (中位数)**: Robust to outliers.
- **Mode (众数)**: Useful for categorical data.

#### Variability 变异性
- **Variance (方差, σ²)**: Measures spread of data 衡量数据的离散程度
  1. 计算数据点与均值的差异；
  2. 平方并求平均值（即方差）。
- **Standard Deviation (标准差, σ)**: Square root of variance 方差的平方根，表示数据点偏离均值的程度。
  - **标准差较低** → 数据集中在均值附近。
  - **标准差较高** → 数据分布更分散。

### 3.2 Outliers 异常值
- **Detection Methods:** 
  - Z-score：适用于正态分布。Z = (x - 均值) / 标准差，表示一个数据点偏离均值多少个标准差。通常Z-score > 3 或 < -3 被认为是异常值。
  - IQR：适用于偏态分布。Q1 = 第25百分位，Q3 = 第75百分位，IQR = Q3 - Q1。异常值范围: < Q1 - 1.5×IQR 或 > Q3 + 1.5×IQR。
  - Boxplot(箱线图)：适合任何分布。用图形展示IQR方法的结果，超出上下限的点即为异常值。
- **Handling:** Remove, adjust（替换成均值、中位数等）, or analyze business impact（单独分析异常值的影响）.

### 3.3 Distributions 分布
数据点在不同范围内的集中或分散情况。
#### 3.3.1 Normal Distribution 正态分布
- 呈 **对称钟形曲线**，中间高，两边低。
- 特点：**均值 = 中位数 = 众数**。
- 68-95-99.7规则：约 **68%**数据落在 **均值 ± 1个标准差** 之间，**95%** 落在 **均值 ± 2个标准差** 之间，**99.7%** 落在 **均值 ± 3个标准差** 之间。

#### 3.3.2 Skewed Distribution 偏态分布
- **非对称分布**，均值、中位数、众数不再相等，它们的相对位置展示了数据偏向哪一边。
- **正偏态 (右偏, Positive Skew)**: 左边陡峭，右边有个长尾巴，**均值 > 中位数 > 众数**。
- **负偏态 (左偏, Negative Skew)**: 右边陡峭，左边有个长尾巴，**均值 < 中位数 < 众数**。


### 3.4 Correlation 相关性分析
**Measures the strength and direction of relationships between two variables**
- Values range from -1 to +1: **Positive correlation (+), Negative correlation (-), No correlation (≈ 0)**
- **Correlation ≠ Causation**

#### 3.4.1 Pearson Correlation (皮尔逊相关系数)
- Measures **linear** relationships.
- **Assumptions:** Linear relationship, continuous variables, no significant outliers, normal distribution (for hypothesis testing).
- **Strength Interpretation Guidelines:**
  - 0.00-0.19: Very weak
  - 0.20-0.39: Weak
  - 0.40-0.59: Moderate
  - 0.60-0.79: Strong
  - 0.80-1.00: Very strong
- **Statistical Significance:**
  - p-value < 0.05: Significant (5% chance of false positive)
  - p-value < 0.01: Highly significant (1% chance of false positive)
  - p-value < 0.001: Very highly significant (0.1% chance of false positive)

#### 3.4.2 Spearman’s Rank (斯皮尔曼秩相关系数)
- Measures **monotonic** relationships (both linear and non-linear).
- **Use cases:**
  - Data may have non-linear relationships
  - Working with ordinal data
  - Dealing with outliers
  - When normality assumptions are violated

#### 3.4.3 Correlation Matrices (相关矩阵) & Heatmaps (热图)
- **Visualize relationships between variables.**
- **Feature Redundancy (特征冗余)**: Identify highly correlated features to reduce model complexity.
- **Multicollinearity (多重共线性)**: When features are too correlated, it can affect model performance.

### 3.5 Data Visualization 数据可视化
可视化的作用：
- **揭示模式、趋势和相关性**（Reveal patterns, trends, and correlations）。  
- **对大型数据集进行可视化总结**（Visually summarize large datasets）。  
- **识别异常值或离群点**（Identify outliers or anomalies）。  
- **有效传达研究发现**（Help communicate findings effectively）。

#### 3.5.1 常见数据可视化方法
- **Histogram (直方图)**: Displays numerical distributions.
- **Bar Plot (条形图)**: Compares categorical values.
- **Scatter Plot (散点图)**: Shows relationships between numerical variables.
- **Line Graph (折线图)**: Tracks changes over time.

| 图表类型 | 适用数据类型 | 作用 |
|----------|------------|------|
| **直方图 (Histogram)** | 数值数据 | 查看数值分布（如身高是否呈正态分布）。数据分入不同区间（Bins），柱子代表该区间的数据数量（频率），柱子无间隔（连续）。 |
| **条形图 (Bar Plot)** | 分类数据 | 比较不同类别的计数或均值（如各年龄段人数）。柱子之间有间隔（分离）。 |
| **散点图 (Scatter Plot)** | 两个数值变量 | 观察变量之间的关系（如身高与体重的关系），用于识别相关性、聚类或趋势。 |
| **折线图 (Line Graph)** | 时间序列或有序类别 | 跟踪随时间变化的趋势（如体重随年龄变化），适用于比较多个数据集。 |


---

## 4. Data Preparation 数据准备
让数据干净、可靠、适合后续使用。
### 4.1 Data Cleaning 数据清理
数据清理的目标是让数据“完整”和“一致”。
- **Typos (拼写错误):** 用 `.unique()` 查看变量的所有唯一值，找出拼写问题，用 `.replace()` 替换错误值。
- **Handling Missing Values (处理缺失值):**数据中有些值可能是空的（NaN）
  - **Forward Fill (正向填充, ffill)**: Fills missing values with the last observed value. 适用于数据有连续性时，比如温度记录。
  - **Backward Fill (反向填充, bfill)**: Fills missing values with the next observed value. 适用于数据趋势向后延续时。
  - **Mean/Median Imputation (均值/中位数填充)**: 适用于数值数据，尤其是分布均匀时（中位数对偏态数据更好）。
- **Impact of Missing Data (缺失数据的影响)**: Can introduce bias（比如用均值填充偏态数据会拉低结果） and reduce model accuracy（如果直接删除缺失行，会减少样本量，影响模型准确性）.

### 4.2 Independence & Representativity 独立性 & 代表性
- **Independence (独立性)**: Each observation should not influence another. 据点（行）或特征（列）之间互不影响。不独立会导致模型偏倚或过拟合，可以尝试删除重复行。
- **Representativity (代表性)**: Ensure dataset reflects the broader population. 数据应当反映目标总体。可以检查模型是否有缺失子群体、分布不匹配或特征选择偏差的问题。缺乏代表性会造成偏见，应当按比例采样、加权、补充数据。

---

## 5. Modeling 建模

### 5.1 Benchmark Models 基准模型
- **Baseline comparison (基准比较)**: Helps measure improvement from complex models. 分类问题全猜“否”，回归问题直接用均值或众数。基准模型是一个简单、容易理解的模型，用它来作为起点，衡量更复杂模型的表现。

### 5.2 Training & Testing 训练与测试
评估模型在未见过数据上的表现。
- **Train-Test Split (训练-测试拆分)**: Common splits (70%-30%, 80%-20%). 数据分 训练集（发现模式）和 测试集（检查泛化）。训练集指标应该大于测试集指标。
- **Cross-validation (交叉验证)**: K-fold validation to assess model generalizability. 数据分 K 份（常见 K = 5 或 10），比如数据 100 条，K = 5，每份 20 条。第 1 次用 1-20 测试，21-100 训练；第 2 次用 21-40 测试，1-20 和 41-100 训练。最后平均 5 次的准确率，得到模型的泛化能力评估。

### 5.3 Regression & Classification 回归与分类
#### Regression Model (回归模型)
回归模型用于预测连续数值变量（如房价、气温）。其核心目标是找到输入特征与输出变量之间的映射关系。<br>

创建步骤：处理缺失值、异常值、特征选择和工程、数据集划分、选择合适的回归算法、训练模型并调整超参数、计算误差<br>

**Linear Regression (线性回归)**: 预测连续数值目标，寻找特征与目标之间的线性关系。<br>

特点：适用于线性关系、连续数据，它的可解释性强、计算高效，但是需要假设线性关系，并且对异常值敏感。

#### Classification Model (分类模型)
分类模型用于预测离散类别标签（如垃圾邮件分类、肿瘤类型判断）。目标是找到数据输入与类别输出的对应关系。<br>

创建步骤：和回归模型一样，只是需要选择合适的分类算法。<br>

**Decision Trees (决策树)**: Uses feature-based splits. 基于特征划分数据，适用于非线性关系和类别数据。递归生成子节点，直到满足停止条件。<br>

特点：适用于非线性关系、类别数据，它易解释、可处理非线性，但是容易过拟合，对数据敏感。<br>
---

## 6. Model Evaluation 模型评估
### 6.1 Regression Metrics 回归指标
- **R² (决定系数)**: Measures how well the model explains variance in the target. 评估模型解释目标变量方差的能力。
- **MAE (平均绝对误差)**: Measures average error.
- **MSE (均方误差)**: Penalizes large errors.
- **RMSE (均方根误差)**: Square root of MSE.

优化:<br>
特征选择（相关性分析、前向/后向选择）。<br>
处理多重共线性（移除高度相关特征）。<br>
特征工程（非线性关系转换）。
**Ordinary Least Squares (普通最小二乘法, OLS)**: Minimizes the sum of squared residuals. 通过最小化残差平方和来优化模型。

### 6.2 Classification Metrics 分类指标
- **Confusion Matrix (混淆矩阵)**:
  - **True Positive (TP, 真阳性)**: Correctly predicted positive cases.
  - **True Negative (TN, 真阴性)**: Correctly predicted negative cases.
  - **False Positive (FP, 假阳性)**: Incorrectly predicted positive cases.
  - **False Negative (FN, 假阴性)**: Incorrectly predicted negative cases.

- **Accuracy (准确率)**: (TP + TN) / (TP + TN + FP + FN)
- **Precision (精确率)**: TP / (TP + FP)
- **Recall (召回率)**: TP / (TP + FN)
- **F1 Score**: Harmonic mean of precision & recall. 精确率和召回率的调和平均值。

优化：<br>
**Overfitting (过拟合)**: When a model learns training data too well and fails to generalize. 训练集准确率高但测试集准确率低，树结构过于复杂。可以通过控制最大深度、最大特征数、最小分割样本数和最小叶节点样本数来解决。