In [7]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import mean_squared_error
from sklearn.feature_extraction import DictVectorizer

In [8]:
data=pd.read_csv('../Data/players_info/players_info.csv')

data=data.dropna(how='any')
data=data.drop_duplicates()
data=data.query("Position!='GK'")
data.head()

Unnamed: 0,Name,Nation,Club,Position,Age,Birth,Height,Weight,Jersey number,Strong feet,...,long shots,aggression,interceptions,positioning,vision,penalties,composure,defensive_awareness,standing_tackle,sliding_tackle
0,Lionel Andrés Messi Cuccittini,Argentina,FC Barcelona,RW,33,1987-06-24,170,72,10.0,Left,...,94,44,40,93,95,75,96.0,32,35,24
1,Robert Lewandowski,Poland,FC Bayern München,ST,31,1988-08-21,185,81,9.0,Right,...,87,81,49,95,81,90,88.0,35,42,19
2,Cristiano Ronaldo dos Santos Aveiro,Portugal,Juventus,ST,35,1985-02-05,187,83,7.0,Right,...,93,63,29,95,82,84,95.0,28,32,24
3,Kevin De Bruyne,Belgium,Manchester City,CM,29,1991-06-28,180,69,17.0,Right,...,91,76,66,88,94,83,91.0,68,65,53
4,Neymar da Silva Santos Júnior,Brazil,Paris Saint-Germain,LW,28,1992-02-05,175,68,10.0,Right,...,84,51,36,87,90,92,93.0,35,30,29


In [13]:
# 划分特征集与标签集
x = data.loc[:,['Position','PACE', 'SHOOTING', 'PASSING', 'DRIBBLING', 'DEFENCE',
         'PHYSICAL','Age','Value','Wage']].to_dict(orient='records')
y = data['Rating']
# 划分数据集
x_train, x_test, y_train, y_test = train_test_split(x, y, random_state=78)
# 字典特征提取
transfer_dict = DictVectorizer(sparse=False)
x_train=transfer_dict.fit_transform(x_train)
x_test=transfer_dict.transform(x_test)
# 标准化
transfer_std =  StandardScaler()
x_train=transfer_std.fit_transform(x_train)
x_test=transfer_std.transform(x_test)
# 开始训练
estimator = LinearRegression()
estimator.fit(x_train, y_train)

print("正规方程_权重系数为: ", estimator.coef_)
print("正规方程_偏置为:", estimator.intercept_)

y_predict = estimator.predict(x_test)
error = mean_squared_error(y_test, y_predict)
# print("正规方程_能力值预测:", y_predict)
print("正规方程_均分误差:", error)
print('测试数据')
y_test_list=y_test.to_list()
for i in range(50):
    print('预测值：',int(y_predict[i]),'，测试值：',y_test_list[i],'，误差：',int(y_predict[i])-y_test_list[i])

正规方程_权重系数为:  [ 4.60470509e-01  1.94105155e+00  3.09680765e+00  2.53072641e-02
  1.64304911e+00  1.45437506e+00 -1.98500406e+12 -3.12976653e+12
 -2.32525124e+12 -6.73185161e+11 -2.65276005e+12 -2.15364987e+12
 -1.85529053e+12 -1.23939613e+12 -7.00456887e+11 -2.17775464e+12
 -1.88470603e+12 -1.26816136e+12 -6.92777959e+11 -2.80216252e+12
  6.67706162e-01  8.24557487e-01  4.38687169e-01]
正规方程_偏置为: 65.77413325595825
正规方程_均分误差: 6.435665581272612
测试数据
预测值： 56 ，测试值： 58 ，误差： -2
预测值： 66 ，测试值： 66 ，误差： 0
预测值： 64 ，测试值： 67 ，误差： -3
预测值： 63 ，测试值： 67 ，误差： -4
预测值： 60 ，测试值： 63 ，误差： -3
预测值： 68 ，测试值： 70 ，误差： -2
预测值： 64 ，测试值： 67 ，误差： -3
预测值： 57 ，测试值： 58 ，误差： -1
预测值： 63 ，测试值： 61 ，误差： 2
预测值： 66 ，测试值： 66 ，误差： 0
预测值： 69 ，测试值： 71 ，误差： -2
预测值： 66 ，测试值： 71 ，误差： -5
预测值： 57 ，测试值： 60 ，误差： -3
预测值： 62 ，测试值： 61 ，误差： 1
预测值： 66 ，测试值： 68 ，误差： -2
预测值： 64 ，测试值： 64 ，误差： 0
预测值： 71 ，测试值： 72 ，误差： -1
预测值： 68 ，测试值： 64 ，误差： 4
预测值： 65 ，测试值： 63 ，误差： 2
预测值： 71 ，测试值： 70 ，误差： 1
预测值： 63 ，测试值： 65 ，误差： -2
预测值： 61 ，测试值： 64 ，误差： -3
预测值： 64 