```{=typst}
#set text(
  font: ("Times New Roman", "LXGW WenKai"),
  size: 11pt,
)

= 题目

#h(2em) 社会学家认为犯罪与收人低、失业及人口规模有关，对 20 个城市的犯罪率 $y$（每 10 万人中犯罪的人数）与年收人低于 5000 美元家庭的百分比 $x_1$、失业率 $x_2$ 和人口总数 $x_3$ （千人）进行了调查，结果如表 13.26 所示。

#image("Chapter10_1_1.png")

#h(2em) （1）若 $x_1 ～ x_3$ 中至多只许选择 2 个变量，最好的模型是什么？

#h(2em) （2）包含3个自变量的模型比上面的模型好吗？确定最终模型.

#h(2em) （3）对最终模型观察残差，有无异常点，若有，剔除后如何。

= 思路

#h(2em) 使用 scikit-learn 库中的线性回归模型进行建模，也可以使用 statsmodels 库中的线性回归模型进行建模。

#h(2em) 下面是代码实现：
```


In [None]:
import numpy as np
import matplotlib.pyplot as plt
import statsmodels.api as sm

In [None]:
# 导入数据
data = np.loadtxt('Chapter10_1_1.csv', delimiter=',', skiprows=1)

N = len(data)
y = data[:, 1]
x1 = data[:, 2]
x2 = data[:, 3]
x3 = data[:, 4]

# 数据可视化
plt.plot(x1, y, '+', label='x1')
plt.legend()
plt.show()

plt.plot(x2, y, '+', label='x2')
plt.legend()
plt.show()

plt.plot(x3, y, '+', label='x3')
plt.legend()
plt.show()

由图像可知，$y$ 与 $x_1$ 和 $x_2$ 呈现线性关系，因此选择 $x_1$ 和 $x_2$ 与 $y$ 构建二元线性回归模型。

In [None]:
# 第一问
_x = np.c_[x1, x2]
x = sm.add_constant(_x)
model1 = sm.OLS(y, x).fit()

print(model1.summary())

```{=typst}
$
  y = -34.0725 + 1.2239 x_1 + 4.3989 x_2 \
  R^2 = 0.802 \
  F = 34.43 \
$
```

In [None]:
# 第二问
_xn = np.c_[x1, x2, x3]
xn = sm.add_constant(_xn)
model2 = sm.OLS(y, xn).fit()

print(model2.summary())

```{=typst}
$x_3$ 的置信区间为 $(-0.0001, 0.0001)$，因此 $x_3$ 对 $y$ 的影响不显著，可以剔除。

$
  y = -36.7649 + 1.1922 x_1 + 4.7198 x_2 + 0.0008 x_3 \
  R^2 = 0.818 \
  F = 24.02 \
$

F 值降低，预测效果下降。

```

In [None]:
# 第三问
# 复用第一问的模型
residuals = model1.resid

std_resid = residuals / np.std(residuals)

for index, item in enumerate(std_resid):
  if abs(item) > 2:
    print(f'异常值第{index}号:', item)
    pass
  pass

plt.plot(x1, std_resid, '.', label='std_resid')
plt.legend()
plt.show()

有两个异常值第 7 号和第 19 号，可以剔除。

In [None]:
xm = np.delete(x, [7, 19], axis=0)
ym = np.delete(y, [7, 19])

model1m = sm.OLS(ym, xm).fit()

print(model1m.summary())

```{=typst}

$
  y = -35.7095 + 1.6023 x_1 + 3.3926 x_2 \
  R^2 = 0.913 \
  F = 78.39
$

```