# 关于数据集
## 问题陈述
一家中国汽车公司吉利汽车渴望进入美国市场，在美利建立制造工厂并在当地生产汽车，以与美国和欧洲同行竞争。

他们与一家汽车咨询公司签订了合同，以了解汽车定价所依赖的因素。具体来说，他们希望了解影响美国市场汽车定价的因素，因为这些因素可能与中国市场有很大不同。

公司想知道：

哪些变量在预测汽车价格方面具有重要意义 这些变量对汽车
价格的描述程度 根据各种市场调查，该咨询公司收集了美国市场上不同类型汽车的大量数据集。

## 业务目标
我们需要使用可用的自变量对汽车价格进行建模。管理层将使用它来了解价格如何随自变量而变化。因此，他们可以操纵汽车的设计、商业战略等，以满足一定的价格水平。此外，该模型将是管理层了解新市场定价动态的好方法。

请注意：提供的数据集仅供学习之用。请不要用现实世界的场景进行任何推断。

# 一般步骤
* 问题定义：
明确研究目标，确定因变量（响应变量）和自变量（预测变量）。
* 数据收集：
收集相关的数据集，包括因变量和所有自变量的观测值。
* 数据预处理：
清洗数据，处理缺失值和异常值。
对分类数据进行编码（例如，使用独热编码）。
标准化或归一化数值数据，以消除不同量纲的影响。
* 探索性数据分析：
通过可视化（如散点图、箱线图）和统计测试（如相关系数）来探索数据特征和关系。
* 模型选择：
确定回归模型的形式，是否需要包含交互项、多项式项等。
选择合适的统计方法来估计模型参数，通常是普通最小二乘法（OLS）。
* 模型拟合：
使用选定的方法来拟合模型，得到参数估计值。
* 模型诊断：
检验模型假设，包括线性、独立性、同方差性、正态性等。
使用统计测试（如 F-检验）和诊断图（如残差图）来评估模型。
* 模型优化：
根据模型诊断结果，可能需要返回到前面的步骤，进行模型调整。
可能包括添加或删除变量、变换变量、处理共线性问题等。
* 模型验证：
使用留出法、交叉验证等方法来评估模型的预测能力。
比较不同模型的性能指标，如均方误差（MSE）、决定系数（R²）等。
结果解释：
解释模型参数的意义，包括回归系数、截距等。
根据模型结果提出结论和建议。

In [6]:
# 导入数据
import pandas as pd
data = pd.read_csv(r"D:\ALL_code\al_study_file\al_study\MachineLearning\线性回归\car-price-prediction\CarPrice_Assignment.csv")
data.head()

Unnamed: 0,car_ID,symboling,CarName,fueltype,aspiration,doornumber,carbody,drivewheel,enginelocation,wheelbase,...,enginesize,fuelsystem,boreratio,stroke,compressionratio,horsepower,peakrpm,citympg,highwaympg,price
0,1,3,alfa-romero giulia,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,13495.0
1,2,3,alfa-romero stelvio,gas,std,two,convertible,rwd,front,88.6,...,130,mpfi,3.47,2.68,9.0,111,5000,21,27,16500.0
2,3,1,alfa-romero Quadrifoglio,gas,std,two,hatchback,rwd,front,94.5,...,152,mpfi,2.68,3.47,9.0,154,5000,19,26,16500.0
3,4,2,audi 100 ls,gas,std,four,sedan,fwd,front,99.8,...,109,mpfi,3.19,3.4,10.0,102,5500,24,30,13950.0
4,5,2,audi 100ls,gas,std,four,sedan,4wd,front,99.4,...,136,mpfi,3.19,3.4,8.0,115,5500,18,22,17450.0


In [7]:
data.shape

(205, 26)

In [8]:
data.describe()

Unnamed: 0,car_ID,symboling,wheelbase,carlength,carwidth,carheight,curbweight,enginesize,boreratio,stroke,compressionratio,horsepower,peakrpm,citympg,highwaympg,price
count,205.0,205.0,205.0,205.0,205.0,205.0,205.0,205.0,205.0,205.0,205.0,205.0,205.0,205.0,205.0,205.0
mean,103.0,0.834146,98.756585,174.049268,65.907805,53.724878,2555.565854,126.907317,3.329756,3.255415,10.142537,104.117073,5125.121951,25.219512,30.75122,13276.710571
std,59.322565,1.245307,6.021776,12.337289,2.145204,2.443522,520.680204,41.642693,0.270844,0.313597,3.97204,39.544167,476.985643,6.542142,6.886443,7988.852332
min,1.0,-2.0,86.6,141.1,60.3,47.8,1488.0,61.0,2.54,2.07,7.0,48.0,4150.0,13.0,16.0,5118.0
25%,52.0,0.0,94.5,166.3,64.1,52.0,2145.0,97.0,3.15,3.11,8.6,70.0,4800.0,19.0,25.0,7788.0
50%,103.0,1.0,97.0,173.2,65.5,54.1,2414.0,120.0,3.31,3.29,9.0,95.0,5200.0,24.0,30.0,10295.0
75%,154.0,2.0,102.4,183.1,66.9,55.5,2935.0,141.0,3.58,3.41,9.4,116.0,5500.0,30.0,34.0,16503.0
max,205.0,3.0,120.9,208.1,72.3,59.8,4066.0,326.0,3.94,4.17,23.0,288.0,6600.0,49.0,54.0,45400.0


In [14]:
headers = data.columns.tolist()
train_data = data[headers[1:-1]]
test_data = data["price"]
train_data, test_data

(     symboling                   CarName fueltype aspiration doornumber  \
 0            3        alfa-romero giulia      gas        std        two   
 1            3       alfa-romero stelvio      gas        std        two   
 2            1  alfa-romero Quadrifoglio      gas        std        two   
 3            2               audi 100 ls      gas        std       four   
 4            2                audi 100ls      gas        std       four   
 ..         ...                       ...      ...        ...        ...   
 200         -1           volvo 145e (sw)      gas        std       four   
 201         -1               volvo 144ea      gas      turbo       four   
 202         -1               volvo 244dl      gas        std       four   
 203         -1                 volvo 246   diesel      turbo       four   
 204         -1               volvo 264gl      gas      turbo       four   
 
          carbody drivewheel enginelocation  wheelbase  carlength  ...  \
 0    conver

In [16]:
# 分离数据集
from sklearn.model_selection import train_test_split
x_feature, x_label, y_feature, y_label = train_test_split(train_data, test_data, random_state=2, test_data=0.2)

TypeError: got an unexpected keyword argument 'test_data'