# Models based on sklearn

Referring to  
[Python Data Science Handbook](https://jakevdp.github.io/PythonDataScienceHandbook)  
[Official Document](https://scikit-learn.org/stable/user_guide.html)  

---

## basic sklearn commands 

- datasets

In [None]:
from sklearn import datasets
iris = datasets.load_iris()

In [None]:
iris.target

In [None]:
iris.data

- multiclass classifier

## Supervised learning


### Regression -- continuous

- 判断线性or非线性
  - 残差图
  - 散点图
  - 训练多个模型看准确率
- 回归指标  
  **损失函数常用 MAE、MSE、RMSE**   
  **性能评估指标常用R-square**（R-square就是在用均值预测的标准下衡量模型的预测性能）
  - 越接近0越好
    - SSE (残差平方和)  $$\sum{|y_i-\hat{y_i}|^2}$$
    - MAE (平均绝对误差)  $$\sum{\frac{|y_i-\hat{y_i}|}{n}}$$
    - MSE (均方误差)  $$\frac{SSE}{n}=\sum{\frac{|y_i-\hat{y_i}|^2}{n}}$$
    - RMSE (均方根误差) $$\sum{\sqrt{\frac{|y_i-\hat{y_i}|^2}{n}}}$$
  - 越接近1越好 
    - R-squared (确定系数)
      - SSR：预测数据与原始均值的平方和
      - SST（残差）：原始数据与原始均值的平方和
      - SSE：预测数据与原始数据的平方和
    - Adjusted R-squared  (调整R方)  

    只要增加了更多的变量，R-squared 要么保持不变，要么增加。  
    如果增加更多无意义的变量，Adjusted R-squared 会下降；如果加入的特征值是显著的，则adjusted R-squared也会上升。  
    在单变量线性回归中，R-squared和adjusted R-squared是一致的。  

    **结论**：如果单变量线性回归，则使用 R-squared评估；多变量，则使用adjusted R-squared。


In [None]:
from sklearn.metrics import mean_squared_error , r2_score

#### Linear Regression  
[sklearn线性回归示例代码](https://zhuanlan.zhihu.com/p/165493873)
- 标准线性回归
  - 特征之间相互独立 --> or, 多重共线性
- 岭回归
  - 可以解决特征数>样本量的问题，有效防止过拟合
  - 可以处理高度相关的数据，变量间存在共线性（最小二乘回归得到的系数不稳定，方差很大）
- lasso回归  
    lasso 容易使得部分权重取 0，所以可以用其做 feature selection，lasso 的名字so即为 selection operator。权重为 0 的 feature 对回归问题没有贡献，直接去掉权重为 0 的 feature，模型的输出值不变。（参考[lasso回归和岭回归](https://www.cnblogs.com/wuliytTaotao/p/10837533.html)）  
    lasso 更容易使得权重变为 0，而 ridge 更容易使得权重接近 0。



##### 标准线性回归
- 语法：
    ```python
    from sklearn.linear_model import LinearRegression
    ```
- Parameters:  

    **fit_intercept**：有无截距  
    **copy_X**：True赋值，False覆写  
    **normalize**：是否归一化  
    **n_jobs**：default=1，使用CPU数，-1为使用所有CPU  

- Attributes:  

    **coef_**：如果label有两个，即y值有两列，那么是一个2D的array  
    **intercept_**：截距  

- Methods:

    **fit(X, y, sample_weight)**: 训练模型  
    **get_params(X, y, sample_weight)**: 获取参数  
    **set_params(para)**: 设置参数  
    **predict(X)**：预测数据  
    **score(X)**：评估，得到R方  


##### Ridge Regression & Lasso Regression
- 语法：
    ```python
    from sklearn.linear_model import Ridge
    from sklearn.linear_model import Lasso
    from sklearn.linear_model import RidgeCV
    from sklearn.linear_model import LassoCV
    ```
- Parameters:  

    **alpha/alphas(CV)**：正则项系数，初始值为1，数值越大，则对复杂模型的惩罚力度越大。 
    **cv**： cross-validation generator，默认留一。
    **max_iter**：最大迭代次数。  
    **fit_intercept**：有无截距  
    **copy_X**：True赋值，False覆写  
    **normalize**：是否归一化  
    **n_jobs**：default=1，使用CPU数，-1为使用所有CPU  

    更多参数见[sklearn线性回归参数](https://blog.csdn.net/VariableX/article/details/107166602)

- 调参方法：  

  1. 给定alpha较小的值，例如0.1。
  2. 根据验证集准确率以10倍为单位增大或者减小参数值。[0.001, 0.01, 0.1, 1, 10, 100]
  3. 在找到合适的数量级后，在此数量级上微调。  
    <br>
- Attributes (CV)  
    **alpha_**  
    **best_score_**

#### 

### Classification -- discrete