# **「car_sales.csv」を読み込んで、線形回帰 のモデルを作成しましょう。**

目的変数「Sales_in_thousands」(売上高(千円))を求める例


In [None]:
# pandasのライブラリ
import pandas as pd
# 機械学習ライブラリ
import sklearn

# データの読み込み
car = pd.read_csv("car_sales.csv")

# データのデータ内容を確認
car.head()

Unnamed: 0,Price_in_thousands,Engine_size,Horsepower,Wheelbase,Width,Length,Curb_weight,Fuel_capacity,Fuel_efficiency,Power_perf_factor,Sales_in_thousands
0,21.5,1.8,140,101.2,67.3,172.4,2.639,13.2,28,58.28015,16.919
1,28.4,3.2,225,108.1,70.3,192.9,3.517,17.2,25,91.370778,39.384
2,42.0,3.5,210,114.6,71.4,196.6,3.85,18.0,22,91.389779,8.588
3,23.99,1.8,150,102.6,68.2,178.0,2.998,16.4,27,62.777639,20.397
4,33.95,2.8,200,108.7,76.1,192.0,3.561,18.5,22,84.565105,18.78


In [None]:
# 列ごとの欠損値の確認
car.isnull().sum()

Price_in_thousands    0
Engine_size           0
Horsepower            0
Wheelbase             0
Width                 0
Length                0
Curb_weight           0
Fuel_capacity         0
Fuel_efficiency       0
Power_perf_factor     0
Sales_in_thousands    0
dtype: int64

In [None]:
# LinearRegression(線形回帰)のライブラリを読み込む
from sklearn.linear_model import LinearRegression

# 学習データとテストデータを分けるライブラリの読み込み
from sklearn.model_selection import train_test_split

# yに目的変数：「Sales_in_thousands」の列を代入する
# locを使ってもできる
y = car["Sales_in_thousands"]
# yに何が入っているか確認する
y

0      16.919
1      39.384
2       8.588
3      20.397
4      18.780
5       1.380
6      19.747
7       9.231
8      17.527
9      91.561
10     39.350
11     27.851
12     83.257
13     63.729
14      6.536
15     11.185
16     14.785
17    145.519
18    135.126
19     24.629
20     42.593
21     26.402
22     17.947
23     32.299
24     21.855
25    107.995
26      7.854
27     32.775
28     31.148
29     32.306
30     13.462
31     30.696
32     76.034
33      4.734
34     71.186
35      0.916
36    227.061
37     16.767
38     31.038
39    111.313
40     66.692
41     29.450
42     23.713
43     15.467
44     55.557
45     80.556
46    157.040
47     24.072
48     12.698
49      3.334
Name: Sales_in_thousands, dtype: float64

In [None]:
# Xに説明変数の列を代入する
#  以下は「Sales_in_thousands」列を削除して、それ以外のデータをyに代入している axis=1→列方向
X = car.drop(["Sales_in_thousands"], axis = 1)

# Xに何が入っているか確認
X.head()

Unnamed: 0,Price_in_thousands,Engine_size,Horsepower,Wheelbase,Width,Length,Curb_weight,Fuel_capacity,Fuel_efficiency,Power_perf_factor
0,21.5,1.8,140,101.2,67.3,172.4,2.639,13.2,28,58.28015
1,28.4,3.2,225,108.1,70.3,192.9,3.517,17.2,25,91.370778
2,42.0,3.5,210,114.6,71.4,196.6,3.85,18.0,22,91.389779
3,23.99,1.8,150,102.6,68.2,178.0,2.998,16.4,27,62.777639
4,33.95,2.8,200,108.7,76.1,192.0,3.561,18.5,22,84.565105


In [None]:
# 学習データとテストデータに分割する
# test_size = 0.4 ,random_state = 10 とする
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size = 0.4, random_state = 10)

In [None]:
# 線形回帰のインスタンス化
lr = LinearRegression()

# 学習データを使った学習（ fit : trainデータを使って、学習）
lr.fit(X_train, y_train)

trainscore = lr.score(X_train, y_train)
# 作成したモデルに対し、テストデータを使って精度を確かめる
test_score = lr.score(X_test, y_test)

print('学習データの学習結果：',trainscore)

print('テストデータの学習結果：',test_score)

学習データの学習結果： 0.72553744721978
テストデータの学習結果： -1.0360653907462751


In [None]:
car.shape

(50, 11)

予測と実測の相関係数を加工したモデル評価方法が「決定係数によるモデル評価」です。予測と実測が完全に一致している場合、予測と実測の相関係数が1になるため、1に近いほど、性能が良いことを意味します。
相関係数の2乗から算出しているわけではないので、計算結果がマイナスになることもあります（マイナスはあまり性能がよくないモデルであることを意味します）。　　　　　　　　　　　　　　　　　　学習に使用するデータが少ない場合にも表れる数字です。