In [1]:
# 某大型牙膏制造企业为了更好地拓展产品市场，有效地管理库存，公司董事会要求销售部门根据市场调查，
# 找出公司生产的牙膏销售量与销售价格，广告投入等之间的关系，从而预测出在不同价格和广告费用下销售量。
# 为此，销售部门的研究人员收集了过去30个销售周期（每个销售周期为4周）公司生产的牙膏的销售量、销售价格、投入的广告费用，
# 以及周期其他厂家生产同类牙膏的市场平均销售价格，如表‘Advertising.xlsx’所示。
# 试根据这些数据建立一个数学模型，分析牙膏销售量与其他因素的关系，为制订价格策略和广告投入策略提供数量依据。(25分)

In [2]:
import pandas as pd

In [3]:
data = pd.read_excel('Advertising.xlsx')

In [4]:
data.head()

Unnamed: 0,销售周期,公司销售价格（元）,其他厂家平均价格（元）,价格差（元）,广告费用（百万元）,销售量（百万支）
0,1,3.85,3.8,-0.05,5.5,7.38
1,2,3.75,4.0,0.25,6.75,8.51
2,3,3.7,4.3,0.6,7.25,9.52
3,4,3.7,3.7,0.0,5.5,7.5
4,5,3.6,3.85,0.25,7.0,9.33


In [7]:
# 检查缺失值
data.isnull().sum()

销售周期           0
公司销售价格（元）      0
其他厂家平均价格（元）    0
价格差（元）         0
广告费用（百万元）      0
销售量（百万支）       0
dtype: int64

In [8]:
# 数据概览
data.describe()

Unnamed: 0,销售周期,公司销售价格（元）,其他厂家平均价格（元）,价格差（元）,广告费用（百万元）,销售量（百万支）
count,30.0,30.0,30.0,30.0,30.0,30.0
mean,15.5,3.731667,3.948333,0.216667,6.453333,8.382667
std,8.803408,0.085585,0.215952,0.227934,0.571889,0.681241
min,1.0,3.55,3.65,-0.15,5.25,7.1
25%,8.25,3.7,3.75,0.0125,6.0625,7.9
50%,15.5,3.75,3.95,0.2,6.625,8.39
75%,22.75,3.8,4.1,0.4,6.8,8.8925
max,30.0,3.9,4.3,0.6,7.25,9.52


In [9]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score

In [11]:
# 提取特征和目标变量
X = data[['公司销售价格（元）', '广告费用（百万元）', '其他厂家平均价格（元）']]
y = data['销售量（百万支）']

In [12]:
# 划分训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

In [13]:
# 建立并训练模型
model = LinearRegression()
model.fit(X_train, y_train)

In [14]:
# 预测
y_pred = model.predict(X_test)

In [15]:
# 模型评估
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

In [16]:
print(f'Mean Squared Error: {mse}')
print(f'R^2 Score: {r2}')

Mean Squared Error: 0.015547939894094615
R^2 Score: 0.9655663519250821


In [17]:
# 模型系数
coefficients = pd.DataFrame(model.coef_, X.columns, columns=['Coefficient'])
print(coefficients)

             Coefficient
公司销售价格（元）      -2.372672
广告费用（百万元）       0.531382
其他厂家平均价格（元）     1.469143


In [18]:
# 定义不同价格和广告投入的组合
new_data = pd.DataFrame({
    '公司销售价格（元）': [10, 12, 14],
    '广告费用（百万元）': [1000, 1500, 2000],
    '其他厂家平均价格（元）': [11, 13, 15]
})

[ 531.82039945  795.70455373 1059.58870802]


In [19]:
# 预测销售量
predicted_sales = model.predict(new_data)
print(predicted_sales)

[ 531.82039945  795.70455373 1059.58870802]
