# Kaggle房价预测项目目标变量分析和处理

## 目标变量分析
- 从数据角度出发，考虑数据分布及统计特征

### **分布分析：** 查看目标变量的分布，了解它是否符合正态分布。
- 正态分布的目标变量可能更适合基于正态假设的模型。
- 较多统计方法和机器学习算法基于对数据分布的假设，最常用的假设为正态分布。
- 当样本量足够大时，正态分布的假设通常合理。

### **描述性统计：** 获取目标变量的基本统计信息，以了解其整体特征。
- 包括均值、标准差、最小值、最大值、峰度、偏度等

## 目标变量处理



### 特征工程——值处理：去除异常值、处理缺失值
#### 去除异常值
- 检查目标变量中的异常值，考虑删除或修正这些异常值，以避免对模型产生负面影响。
- 去除：避免对性能的影响
- 保留：保留适量噪声，提升模型鲁棒性
#### 处理缺失值
- 如果目标变量存在缺失值，需要考虑删除这些样本或使用适当的方法进行缺失值填充。

### 特征工程——特征缩放：标准化/归一化：
- 在某些模型中，将目标变量标准化或归一化可能有助于提高模型性能。
- 标准化：减均值，除标准差
- 归一化：缩至0-1范围内

### 噪声处理
#### 平滑化（类似滤波）
- 受噪声影响或其他细节影响，目标变量的值存在波动。可以考虑进行平滑化处理，在保留趋势和关键信息的同时，削弱不必要的波动和噪声。
- 移动平均法：时间序列常用，窗口内多阶段取均值。
- 指数平滑法：适用于时间序列较平稳、趋势较线性。平滑值_t = α * 观测值_t + (1 - α) * 平滑值_t-1


### 特征工程——特征编码
- 将分类变量转化为模型可接受的数值形式，例如独热编码（One-Hot Encoding）、标签编码（Label Encoding）等。
#### 处理分类目标变量——独热编码
- 如果目标变量是分类变量，需要进行编码。二分类问题可以使用0和1进行编码，多分类问题可以使用独热编码等方式进行处理。
- 独热编码：每个分类变量的取值映射到一个唯一的二进制编码，使得每个编码只有一个元素为1，其余元素为0。如A：100，B：010，C：001。

### 特征工程——特征衍生
- 通过对已有特征进行组合、变换或构造新的特征，以提高模型对数据的拟合能力。
#### 多项式特征。特征之间存在非线性关系时可用。
#### 交互特征。特征组合对目标变量有重要影响时使用。
#### 数值变换。分布处理：偏度和峰度———常用！！
- 如果目标变量不是正态分布，可以尝试转换，如对数转换、平方根转换等，使其更接近正态分布。
- 对数转换：拉伸大于1的值，压缩小于1的值。因为原值越大，对数值增速越慢。
- 平方根转换：同对数转换。
#### 离散化处理：分箱（Binning）
- 对连续型目标变量进行分箱，将其转换为离散型，有助于简化模型、处理非线性关系或提高模型的鲁棒性。
- 常用方法为等宽分箱（直方图？）、等频分箱、基于业务规则的分箱。
#### 降维
- 减少数据维度，保留最重要的特征。
- 主成分分析PCA 、 t-分布邻域嵌入t-SNE。



### 特征工程——相关性分析 
- 衡量两个变量之间关系强度的方法，帮助了解变量之间的线性关系以及它们对彼此的影响
#### 方法
- 假设检验、皮尔逊相关系数、斯皮尔曼相关系数。
#### 图形化展示： 热图
- 热图：颜色变化来展示数据矩阵的可视化方法，主要用于呈现数据的相对大小、趋势、模式和关系

#### 处理：
- 分析目标变量与其他特征之间的相关性，以选择合适的特征进行建模。
- 强相关：只将一个纳入模型；弱相关：均纳入。
