### 案例背景

投资商经常会通过多个不同渠道投放广告，以此来获得经济利益。在本案例中我们选取公司在电视、广播和报纸上的投入，来预测广告收益，这对公司策略的制定是有较重要的意义。

### 加载数据

In [18]:
# 读取数据
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split
df = pd.read_excel('广告收益数据.xlsx')
display(df.head())
# 1.提取特征变量和目标变量
X = df.drop(columns='收益') 
y = df['收益'] 

Unnamed: 0,电视,广播,报纸,收益
0,230.1,37.8,69.2,331.5
1,44.5,39.3,45.1,156.0
2,17.2,45.9,69.3,139.5
3,151.5,41.3,58.5,277.5
4,180.8,10.8,58.4,193.5


### 模型搭建

In [2]:
from sklearn.linear_model import LinearRegression,ElasticNet,ElasticNetCV
from sklearn.svm import SVR
from sklearn.tree import DecisionTreeRegressor
from sklearn.ensemble import AdaBoostRegressor,GradientBoostingRegressor,ExtraTreesRegressor
from lightgbm import LGBMRegressor
from xgboost import XGBRegressor
from sklearn.model_selection import GridSearchCV,RandomizedSearchCV
from sklearn.metrics import r2_score

#### 线性回归

In [19]:
model = LinearRegression()
# 2.划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=64)
model.fit(X_train,y_train)

y_pred = model.predict(X_test)
print('测试数据算法预测结果：',y_pred[:10].round(1))
print('广告收益的真实数据是：',y_test[:10].values)

r2 = r2_score(y_test,y_pred)
print('普通线性回归得分是：',r2)

测试数据算法预测结果： [221.4 265.4 212.9 135.  239.3 232.3 107.8 323.5 197.6 141.8]
广告收益的真实数据是： [211.5 232.5 204.  129.  201.  234.  166.5 339.  192.  160.5]
普通线性回归得分是： 0.8218538964779601


#### 弹性网络

In [20]:
model = ElasticNet()

# 2.划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=64)
model.fit(X_train,y_train)

y_pred = model.predict(X_test)
print('测试数据算法预测结果：',y_pred[:10].round(1))
print('广告收益的真实数据是：',y_test[:10].values)
r2 = r2_score(y_test,y_pred)
print('弹性网络算法得分是：',r2)

测试数据算法预测结果： [221.4 265.4 212.8 135.1 239.4 232.  108.  323.4 197.5 142. ]
广告收益的真实数据是： [211.5 232.5 204.  129.  201.  234.  166.5 339.  192.  160.5]
弹性网络算法得分是： 0.8219253422813386


#### 支持向量机

In [21]:
%%time
model = SVR()

# 2.划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=64)
model.fit(X_train,y_train)

y_pred = model.predict(X_test)
print('测试数据算法预测结果：',y_pred[:10].round(1))
print('广告收益的真实数据是：',y_test[:10].values)
r2 = r2_score(y_test,y_pred)
print('支持向量机算法得分是：',r2)

测试数据算法预测结果： [239.2 259.9 192.2 156.7 265.9 177.5 163.2 283.3 176.8 186. ]
广告收益的真实数据是： [211.5 232.5 204.  129.  201.  234.  166.5 339.  192.  160.5]
支持向量机算法得分是： 0.6289191684949812
CPU times: total: 46.9 ms
Wall time: 46.9 ms


#### 决策树算法

In [22]:
model = DecisionTreeRegressor()
# 2.划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=64)

model.fit(X_train,y_train)
y_pred = model.predict(X_test)
print('测试数据算法预测结果：',y_pred[:10].round(1))
print('广告收益的真实数据是：',y_test[:10].values)
r2 = r2_score(y_test,y_pred)
print('决策树算法得分是：',r2)

测试数据算法预测结果： [220.5 259.5 189.  144.  220.5 204.  136.5 354.  177.  175.5]
广告收益的真实数据是： [211.5 232.5 204.  129.  201.  234.  166.5 339.  192.  160.5]
决策树算法得分是： 0.9197118140784102


#### 极限森林算法

In [23]:
model = ExtraTreesRegressor()
# 2.划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=64)
model.fit(X_train,y_train)
y_pred = model.predict(X_test)
print('测试数据算法预测结果：',y_pred[:10].round(1))
print('广告收益的真实数据是：',y_test[:10].values)
r2 = r2_score(y_test,y_pred)
print('极限森林得分是：',r2)

测试数据算法预测结果： [211.1 254.4 194.6 144.  218.7 215.8 136.  347.3 179.5 154.5]
广告收益的真实数据是： [211.5 232.5 204.  129.  201.  234.  166.5 339.  192.  160.5]
极限森林得分是： 0.9478871129462589


#### 梯度提升树算法

In [24]:
model = GradientBoostingRegressor()
# 2.划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=64)
model.fit(X_train,y_train)
y_pred = model.predict(X_test)
print('测试数据算法预测结果：',y_pred[:10].round(1))
print('广告收益的真实数据是：',y_test[:10].values)
r2 = r2_score(y_test,y_pred)
print('梯度提升树算法得分是：',r2)

测试数据算法预测结果： [225.  272.7 220.7 133.1 209.3 202.3 135.4 343.1 183.6 165.8]
广告收益的真实数据是： [211.5 232.5 204.  129.  201.  234.  166.5 339.  192.  160.5]
梯度提升树算法得分是： 0.9391766631355474


#### Adaboost算法

In [25]:
model = AdaBoostRegressor()
# 2.划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=64)
model.fit(X_train,y_train)
y_pred = model.predict(X_test)
print('测试数据算法预测结果：',y_pred[:10].round(1))
print('广告收益的真实数据是：',y_test[:10].values)
r2 = r2_score(y_test,y_pred)
print('Adaboost算法得分是：',r2)

测试数据算法预测结果： [227.8 271.3 214.9 140.1 222.3 202.2 158.4 352.5 198.4 167.7]
广告收益的真实数据是： [211.5 232.5 204.  129.  201.  234.  166.5 339.  192.  160.5]
Adaboost算法得分是： 0.922201773419464


#### Xgboost算法

In [26]:
model = XGBRegressor()
# 2.划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=64)
model.fit(X_train,y_train)
y_pred = model.predict(X_test)
print('测试数据算法预测结果：',y_pred[:10].round(1))
print('广告收益的真实数据是：',y_test[:10].values)
r2 = r2_score(y_test,y_pred)
print('Xgboost算法得分是：',r2)

测试数据算法预测结果： [208.7 281.1 212.  139.4 210.6 207.4 135.8 339.8 178.7 174. ]
广告收益的真实数据是： [211.5 232.5 204.  129.  201.  234.  166.5 339.  192.  160.5]
Xgboost算法得分是： 0.9386144939626786


#### LightGBM

In [27]:
# 微软公司开发的
# 优化的梯度提升算法
# 和Xgboost算法类似
# 各有千秋
# light：点亮、轻量级
model = LGBMRegressor()
# 2.划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=64)
model.fit(X_train,y_train)

y_pred = model.predict(X_test)
print('测试数据算法预测结果：',y_pred[:10].round(1))
print('广告收益的真实数据是：',y_test[:10].values)
r2 = r2_score(y_test,y_pred)
print('LightGBM算法得分是：',r2)

测试数据算法预测结果： [222.3 263.7 203.3 129.4 209.5 201.4 133.6 341.4 180.  156.7]
广告收益的真实数据是： [211.5 232.5 204.  129.  201.  234.  166.5 339.  192.  160.5]
LightGBM算法得分是： 0.9398123585452471


###  模型参数调优

#### 弹性网络

In [28]:
%%time
# 设置alpha和l1_ratio的候选值
l1_ratios = [0.1, 0.5, 0.7,0.9, 0.95, 0.99, 1]

model = ElasticNetCV(n_alphas=100,l1_ratio=l1_ratios,cv = 5)

# 2.划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2,random_state=64)
model.fit(X_train,y_train)

y_pred = model.predict(X_test)
print('测试数据算法预测结果：',y_pred[:10].round(1))
print('广告收益的真实数据是：',y_test[:10].values)
r2 = r2_score(y_test,y_pred)
print('弹性网络CV算法得分是：',r2)
# 输出最佳的 alpha 和 l1_ratio
print("Best alpha: ", model.alpha_)
print("Best l1_ratio: ", model.l1_ratio_)

测试数据算法预测结果： [221.8 265.4 212.6 135.3 239.4 232.  108.4 323.1 197.5 142.3]
广告收益的真实数据是： [211.5 232.5 204.  129.  201.  234.  166.5 339.  192.  160.5]
弹性网络CV算法得分是： 0.8225585423221857
Best alpha:  5.342325237656253
Best l1_ratio:  1.0
CPU times: total: 172 ms
Wall time: 196 ms


#### 支持向量机

`SVR()` 或者称为支持向量回归，是一种常见的回归算法，它有几个主要的超参数，包括 `C`、`epsilon`、`gamma`（如果使用 'rbf', 'poly' 或 'sigmoid' 核函数）和 `degree`（如果使用 'poly' 核函数）。

- `C` 是错误项的惩罚参数，C 越大模型容忍错误的程度就越低，越小则容忍错误的程度越高。
- `epsilon` 控制模型预测结果与真实结果之间允许的最大误差值。
- `gamma` 用于 'rbf', 'poly' 和 'sigmoid' 核函数，影响了样本的影响范围，gamma 值越大样本影响范围越小，反之越大。
- `degree` 是 'poly' 核函数的多项式次数。


In [30]:
%%time
model = SVR()
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=64)
# 定义参数网格
param_grid = {
    'C': [0.1,0.2,0.5, 1],
    'epsilon': [0.01, 0.5],
    'kernel': ['rbf', 'poly', 'sigmoid','linear']}

gridSearchCV = GridSearchCV(model,
                            param_grid  = param_grid,
                            cv = 5,
                            n_jobs=-1)

gridSearchCV.fit(X_train,y_train)
print('最佳的参数组合是：',gridSearchCV.best_params_)
print('最佳验证数据得分',gridSearchCV.best_score_)
y_pred = gridSearchCV.predict(X_test)
print('测试数据算法预测结果：',y_pred[:10].round(1))
print('广告收益的真实数据是：',y_test[:10].values)
r2 = r2_score(y_test,y_pred)
print('支持向量机算法得分是：',r2)

最佳的参数组合是： {'C': 0.1, 'epsilon': 0.01, 'kernel': 'linear'}
最佳验证数据得分 0.8577940349561782
测试数据算法预测结果： [224.  267.4 218.1 143.2 235.6 243.3 112.2 324.3 205.2 144.7]
广告收益的真实数据是： [211.5 232.5 204.  129.  201.  234.  166.5 339.  192.  160.5]
支持向量机算法得分是： 0.8260892149370843
CPU times: total: 406 ms
Wall time: 4.77 s


#### Xgboost算法

XGBoost 是一个非常强大的梯度提升决策树模型，有很多可以调整的超参数。以下是在使用 GridSearchCV 时，可能会调整的一些常见超参数：

1. `n_estimators`: 这是要构造的树的数量。增加这个值可以使模型更复杂，可能会提高模型的性能，但同时也会增加计算时间和可能导致过拟合。

2. `max_depth`: 这是树的最大深度。增加这个值可以使模型更复杂，可能会提高模型的性能，但同时也可能导致过拟合。

3. `learning_rate`: 也被称为步长，每次迭代时模型的改进幅度。较低的学习率可能需要更多的树(n_estimators)来获得良好的性能。

4. `subsample`: 这是用于训练每个树的样本比例。这可以帮助防止过拟合。

5. `colsample_bytree`: 这是用于构建每棵树的列的子样本比率。这是一种形式的特征采样，有助于模型的泛化。

6. `gamma`: 在树的叶节点进一步划分所需的最小损失减少。这个参数的值越大，算法越保守。

7. `reg_alpha` 和 `reg_lambda`: 这些是 L1（Lasso）和 L2（Ridge）正则化权重，可以用来防止过拟合。


In [34]:
%%time
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=64)
# 参数调优
parameters = {'n_estimators': [100, 200, 300],
              'learning_rate': [0.01, 0.05, 0.1],
              'max_depth': [4, 6, 8],
              'subsample': [0.7, 0.8, 0.9],
              'colsample_bytree': [0.3,0.5, 0.9,1.0],
              'gamma':[0.1,0.5,1.0]}

model = XGBRegressor()  # 构建模型
gridSearchCV = GridSearchCV(model, 
                           parameters,
                            scoring='r2',
                            cv=5,n_jobs=-1) # cv=5表示交叉验证5次，scoring='r2'表示以R-squared作为模型评价准则

# 输出参数最优值
gridSearchCV.fit(X_train, y_train)  # 传入数据
print('最佳的参数组合是：',gridSearchCV.best_params_)
print('最佳验证数据得分',gridSearchCV.best_score_)

y_pred = gridSearchCV.predict(X_test)
print('测试数据算法预测结果：',y_pred[:10].round(1))
print('广告收益的真实数据是：',y_test[:10].values)
r2 = r2_score(y_test,y_pred)
print('Xgboost机算法得分是：',r2)

最佳的参数组合是： {'colsample_bytree': 1.0, 'gamma': 0.1, 'learning_rate': 0.05, 'max_depth': 8, 'n_estimators': 300, 'subsample': 0.7}
最佳验证数据得分 0.959347602068411
测试数据算法预测结果： [220.8 260.2 198.8 141.3 207.6 209.1 135.  346.7 181.5 164.7]
广告收益的真实数据是： [211.5 232.5 204.  129.  201.  234.  166.5 339.  192.  160.5]
Xgboost机算法得分是： 0.9467862224318433
CPU times: total: 17.3 s
Wall time: 1min 17s


In [33]:
best = gridSearchCV.best_estimator_
best

#### LightGBM

LightGBM 是一个非常灵活且强大的梯度提升决策树模型。在使用 GridSearchCV 进行超参数调优时，以下是一些你可能会调整的超参数：

1. `n_estimators`：这是要构造的树的数量。增加这个值可以使模型更复杂，可能会提高模型的性能，但同时也会增加计算时间和可能导致过拟合。

2. `learning_rate`：这是学习率，即每次迭代时模型的改进幅度。较低的学习率可能需要更多的树(n_estimators)来获得良好的性能。

3. `max_depth`：这是树的最大深度。增加这个值可以使模型更复杂，可能会提高模型的性能，但同时也可能导致过拟合。

4. `num_leaves`：LightGBM 使用的是基于叶子的决策树算法，所以这个参数是树上最大的叶子数量。

5. `min_data_in_leaf`：叶子节点上所需的最小数据数量。过小的值可能导致过拟合。

6. `feature_fraction`：每次迭代中随机选择的特征的比例，有助于防止过拟合。


请注意，这只是一些常见参数的示例，LightGBM 还有许多其他可以调整的参数。  
在选择要调整的参数和参数值时，你可能需要根据你的问题和数据来做出决定。  
这可能需要一些试验和经验，以及对 LightGBM 和你的数据的理解。

In [35]:
%%time
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=64)
# 参数调优
parameters = {
    'n_estimators': [100, 200, 300],
    'learning_rate': [0.01, 0.05, 0.1],
    'max_depth': [4, 6, 8],
    'num_leaves': [20, 30, 40],
    'min_data_in_leaf': [15, 20, 25],
    'feature_fraction': [0.6, 0.7, 0.8]}

model = LGBMRegressor()  # 构建模型
gridSearchCV = GridSearchCV(model, 
                           parameters,scoring='r2',
                           cv=5,n_jobs=-1) # cv=5表示交叉验证5次，scoring='r2'表示以R-squared作为模型评价准则

# 输出参数最优值
gridSearchCV.fit(X_train, y_train)  # 传入数据
print('最佳的参数组合是：',gridSearchCV.best_params_)
print('最佳验证数据得分',gridSearchCV.best_score_)
y_pred = gridSearchCV.predict(X_test)
print('测试数据算法预测结果：',y_pred[:10].round(1))
print('广告收益的真实数据是：',y_test[:10].values)
r2 = r2_score(y_test,y_pred)
print('LightGBM机算法得分是：',r2)

最佳的参数组合是： {'feature_fraction': 0.6, 'learning_rate': 0.1, 'max_depth': 4, 'min_data_in_leaf': 20, 'n_estimators': 300, 'num_leaves': 20}
最佳验证数据得分 0.9441639735433995
测试数据算法预测结果： [209.5 271.6 204.8 137.9 209.6 202.9 137.2 329.5 188.  172.5]
广告收益的真实数据是： [211.5 232.5 204.  129.  201.  234.  166.5 339.  192.  160.5]
LightGBM机算法得分是： 0.9307404287359162
CPU times: total: 8.84 s
Wall time: 36.2 s


### 最佳收益率组合

In [36]:
model_best = gridSearchCV.best_estimator_
model_best

In [37]:
best_income = {}
income_init = 100
total = 200 # 广告投放总预算：200W

for i in range(1,201):
    tv = i # 电视投放 金额
    for j in range(1,total - i + 1):
        broadcast = j # 广播 投放的金额
        paper = total - i -j # 报纸投放金额
        
        # 收益
        income = model_best.predict(np.array([[tv,broadcast,paper]]))

        if income > income_init:
            best_income.clear()
            best_income['电视'] = tv
            best_income['广播'] = broadcast
            best_income['报纸'] = paper
            best_income['收益'] = income
            income_init = income

print(best_income)

{'电视': 124, '广播': 54, '报纸': 22, '收益': array([329.50372651])}
