# 常用Python数据科学库简明指南

## 基础数据处理库

### 1. `numpy` (np)
- **名称含义**: Numerical Python
- **记忆方法**: "num" + "py" → 数字Python
- **作用**: 提供高性能的多维数组对象和数学函数，是Python科学计算的基础

### 2. `pandas` (pd)
- **名称含义**: Panel Data（面板数据）
- **记忆方法**: 熊猫(panda) → "盘"数据
- **作用**: 提供DataFrame和Series数据结构，用于数据清洗、分析和处理

## 数据可视化库

### 3. `matplotlib.pyplot` (plt)
- **名称含义**: 绘图库
- **记忆方法**: "mat plot lib" → 数学绘图库
- **作用**: Python最基础的绘图库，功能强大但语法稍复杂

### 4. `seaborn` (sns)
- **名称含义**: 基于matplotlib的统计可视化库
- **记忆方法**: 海豹(seaborn) → 海洋主题可视化
- **作用**: 提供更美观、更简单的统计图表接口

## Scikit-learn机器学习库

### 5. `sklearn.linear_model` - 线性模型
- **LinearRegression**: 普通线性回归
- **Ridge**: 岭回归（L2正则化）
- **Lasso**: Lasso回归（L1正则化）
- **ElasticNet**: 弹性网络（L1+L2正则化）
- **记忆方法**: 
  - Ridge(岭) → L2 → 避免过拟合
  - Lasso(套索) → L1 → 特征选择
  - Elastic(弹性) → 结合两者

### 6. `sklearn.tree` - 树模型
- **DecisionTreeRegressor**: 决策树回归

### 7. `sklearn.ensemble` - 集成方法
- **RandomForestRegressor**: 随机森林回归
- **GradientBoostingRegressor**: 梯度提升回归
- **记忆方法**: 
  - Forest(森林) → 多棵树 → 随机森林
  - Boosting(提升) → 逐步改进 → 梯度提升

### 8. 预处理和流程工具
- **ColumnTransformer**: 列转换器（对不同列应用不同处理）
- **Pipeline**: 流水线（将多个步骤串联）
- **SimpleImputer**: 简单填充器（处理缺失值）
- **OneHotEncoder**: 独热编码（分类变量编码）
- **RobustScaler**: 鲁棒缩放（对异常值不敏感的标准化）

### 9. 模型选择和评估
- **KFold**: K折交叉验证
- **RandomizedSearchCV**: 随机搜索交叉验证
- **train_test_split**: 训练测试分割
- **mean_squared_error**: 均方误差
- **mean_absolute_error**: 平均绝对误差
- **r2_score**: R²分数

## 高性能梯度提升库

### 10. `XGBoost` (XGBRegressor)
- **名称含义**: eXtreme Gradient Boosting
- **记忆方法**: X → eXtreme(极限) + GBoost(梯度提升)
- **作用**: 优化的梯度提升算法，速度快、效果好

### 11. `LightGBM` (LGBMRegressor)
- **名称含义**: Light Gradient Boosting Machine
- **记忆方法**: Light(轻量) + GBM(梯度提升机)
- **作用**: 微软开发的轻量级梯度提升框架，速度快、内存占用少

### 12. `CatBoost` (CatBoostRegressor)
- **名称含义**: Categorical Boosting
- **记忆方法**: Cat → Categorical(分类) + Boost(提升)
- **作用**: 专门处理分类特征，自动处理类别变量，无需独热编码

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.linear_model import LinearRegression,Ridge,Lasso,ElasticNet
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import RandomForestRegressor,GradientBoostingRegressor
from sklearn.compose import ColumnTransformer
from sklearn.pipeline import Pipeline
from sklearn.impute import SimpleImputer
from sklearn.model_selection import KFold, RandomizedSearchCV,train_test_split
from sklearn.metrics import mean_squared_error, mean_absolute_error,r2_score
from sklearn.preprocessing import RobustScaler, OneHotEncoder
from xgboost import XGBRegressor
from catboost import CatBoostRegressor
from lightgbm import LGBMRegressor


import warnings
warnings.filterwarnings('ignore')

In [None]:
train = pd.read_csv('projects/2-HousePrice/data/train.csv')
test = pd.read_csv('projects/2-HousePrice/data/test.csv')

In [None]:
target = 'SalePrice'

- sns：seaborn 库的缩写，专门用来画美观的统计图表；
- histplot：是 seaborn 的直方图绘制函数，作用是统计train[target]中不同数值出现的频次，并用柱状图展示；
- train[target]：train是你的数据集（比如 pandas 的 DataFrame），target是你要分析的目标变量名（比如房价、销量等），合起来就是取数据集中目标变量的所有值；
- kde=True：kde是核密度估计（简单理解为 “平滑曲线”），设置为True会在直方图上叠加一条连续的曲线，更清晰地展示数值的分布趋势。

In [None]:
sns.histplot(train[target], kde=True)
plt.title("Target Value Distribution")
plt.show()