# **# 回帰の手法を学ぼう#1**

**機械学習を活用した回帰の流れは以下の通り**

1.課題把握とゴールの設定

2.必要なライブラリのインポート

3.データセットの準備

4.予測モデルの学習

5.予測モデルの評価

6.予測

**1.課題把握とゴールの設定**

*課題*

・カリフォルニアにある住宅に関するデータから、住宅価格を予測したい。

・住宅価格は、主にどの要素から影響を受けているか知りたい。

*ゴール*

・住宅価格を予測する計算式を決定する。

・住宅に関する各要素が、住宅価格に与える影響度合いについても見解を述べる。

**2.必要なライブラリーのインポート**

In [11]:
import numpy as np
import pandas as pd
import seaborn as sns
!pip install japanize-matplotlib
import japanize_matplotlib



**3.データセットの準備**

In [12]:
df = pd.read_csv('/content/california_housing_cleansing.csv')
df.head()

Unnamed: 0.1,Unnamed: 0,所得,築年数,地域人口,緯度,経度,住宅価格,部屋数/人,寝室数/人
0,0,8.3252,41.0,322.0,37.88,-122.23,4.526,2.732919,0.400621
1,1,8.3014,21.0,2401.0,37.86,-122.22,3.585,2.956685,0.460641
2,8,2.0804,42.0,1206.0,37.84,-122.26,2.267,2.118574,0.55141
3,15,2.125,50.0,697.0,37.85,-122.26,1.4,1.606887,0.406026
4,18,1.9911,50.0,990.0,37.84,-122.26,1.587,2.261616,0.459596


In [13]:
#取り込むデータの列名がブランクの場合、その列は自動的にunnnamed:数字の列名が割り振られる。
#不要なのでunnamed:0の列を消去する
df = df.drop(columns = ['Unnamed: 0'])
df.head()

Unnamed: 0,所得,築年数,地域人口,緯度,経度,住宅価格,部屋数/人,寝室数/人
0,8.3252,41.0,322.0,37.88,-122.23,4.526,2.732919,0.400621
1,8.3014,21.0,2401.0,37.86,-122.22,3.585,2.956685,0.460641
2,2.0804,42.0,1206.0,37.84,-122.26,2.267,2.118574,0.55141
3,2.125,50.0,697.0,37.85,-122.26,1.4,1.606887,0.406026
4,1.9911,50.0,990.0,37.84,-122.26,1.587,2.261616,0.459596


In [14]:
df.shape

(18572, 8)

今回の課題は、カリフォルニアの住宅に関するいくつかのデータから住宅価格を予測すること。

したがって、予測モデルにインプットするものは

**説明変数X**　＝　住宅価格以外の全列のデータ

**目的変数y**　＝　住宅価格のデータ

In [15]:
X = df.drop(columns=['住宅価格']).to_numpy()
y = df['住宅価格'].to_numpy()

このXとyをそれぞれ、学習データとテストデータに分割する。

In [16]:
#train_test_split関数をインポート
from sklearn.model_selection import train_test_split

#学習データ：テストデータ　＝　7 : 3 に分割する。
#実行ごとに配分されるデータが変わるのを避けたい場合はrandom_stateを指定する。

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=0)

#データが7:3に分割されたかデータ数を確認する。
print(X_train.shape, X_test.shape, y_train.shape, y_test.shape)

(13000, 7) (5572, 7) (13000,) (5572,)


**4.予測モデルの学習**

重回帰で分析を行う場合、scikit-learnのLinearRegressionクラスを活用できる。

In [17]:
#linear_modelモジュールのLinearRegressionクラスをインポート
from sklearn.linear_model import LinearRegression

#インポートしたLinerRegressionクラスをインスタンス化してmodelという変数に代入
model = LinearRegression()

#学習データで学習を実行
model.fit(X_train, y_train)

**5.予測モデルの評価**

決定係数を用いて予測モデルの評価を行う。

決定係数は回帰予測モデルに対する評価指標の１つ。

最大値を１とし、予測大に対して実際の値の当てはまりが良いほど高い値となる。

また、決定係数によって過学習を察知することも可能。

学習データで算出した決定係数と、テストデータで算出した決定係数を比較し、後者が著しく低い場合は過学習の疑いがある。

In [18]:
#scoreメソッドを利用し決定係数を出力する。

#学習データを用いた決定係数の算出
model.score(X_train, y_train)

0.5967954005117011

In [19]:
#テストデータを用いた決定係数の算出
model.score(X_test, y_test)

0.5752388860477959

学習データ0.59

テストデータ0.57

大きな乖離は見られない。過学習も発生していないと判断できる。


---



# **＝＝＝＝＝＝＝＝＝＝＝＝＝＝乖離があると判断される数値は？**

# **＝＝＝＝＝＝＝＝＝＝＝＝＝＝過学習が発生した状況とは？**

**6.予測**

In [20]:
#ndarray形式でX_newという変数に保持させる。
X_new = np.array([[8, 41, 500, 37, -120, 1, 0.2],
                  [2, 10, 2000, 38, -122, 1.5, 0.5],
                  [1, 25, 1000, 38, -121, 2, 1]])

#予測モデルを利用して、X_newから予測値を算出する。
model.predict(X_new)

array([3.2387497 , 1.42228534, 1.43428255])

それぞれの住宅価格だ出力され予測が完了



---
# **＝＝＝＝＝＝＝＝＝＝＝＝＝＝ここで何をしているのか分かりません。**


＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝A.　予測値を用意して、試しているだけ。

**7.設定したゴールに対する考察**

・住宅価格を予測する計算式を決定する。

・住宅に関する各要素が、住宅価格に与える影響度合いについても見解を述べる。

In [21]:
#住宅価格を予測する計算式の作成
#重回帰予測モデル

#重み
print(model.coef_)
#切片
print(model.intercept_)

[ 4.08110906e-01  6.92312594e-03  1.70628946e-05 -4.04061927e-01
 -4.10380169e-01 -2.08486703e-01  1.69589529e+00]
-34.74453851952332


したがって、住宅かかっくを予測する計算式は

住宅価格

≒所得×0.4081　＋　築年数×0.006923　＋　地域人口×0.00001706　＋　緯度×(-0.4041)　＋　経度×(-0.4104)　＋部屋数/人×(-0.2085)　＋　寝室数×1.696 －　34.74

**予測と同じ結果が得られるかどうか**

In [22]:
X_new = pd.DataFrame(X_new, columns=['所得', '築年数', '地域人口', '緯度', '経度', '部屋数/人', '寝室数/人'])

# DataFrameを表示
X_new

Unnamed: 0,所得,築年数,地域人口,緯度,経度,部屋数/人,寝室数/人
0,8.0,41.0,500.0,37.0,-120.0,1.0,0.2
1,2.0,10.0,2000.0,38.0,-122.0,1.5,0.5
2,1.0,25.0,1000.0,38.0,-121.0,2.0,1.0


In [23]:
ex_price = 8.0 * 0.4081 + 41.0 * 0.006923 + 500.0 * 0.00001706 + 37.0 * (-0.4041) + (-120.0) * (-0.4104) + 1.0 * (-0.2085) + 0.2 * 1.696 - 34.74
print(ex_price)

#予測と同じ結果になった！

3.2441729999999893


# **＝＝＝＝＝＝＝＝＝＝＝＝＝＝関数で表せるかやってみたけれどできませんでした。関数の使い方、locの使い方が間違っていますか？**

In [24]:
'''
def housing_prices(num):
  X_new.loc[num, '所得'] * 0.4081 + X_new.loc[num, '築年数'] * 0.006923 + X_new.loc[num, '地域人口'] * 0.00001706 + X_new.loc[num, '緯度'] * (-0.4041) + X_new.loc[num, '経度'] * (-0.4104) + X_new.loc[num, '部屋数/人'] * (-0.2085) + X_new.loc[num, '寝室数/人'] * 1.696 - 34.74

print(housing_prices(0))
'''

"\ndef housing_prices(num):\n  X_new.loc[num, '所得'] * 0.4081 + X_new.loc[num, '築年数'] * 0.006923 + X_new.loc[num, '地域人口'] * 0.00001706 + X_new.loc[num, '緯度'] * (-0.4041) + X_new.loc[num, '経度'] * (-0.4104) + X_new.loc[num, '部屋数/人'] * (-0.2085) + X_new.loc[num, '寝室数/人'] * 1.696 - 34.74\n\nprint(housing_prices(0))\n"

In [25]:
'''
X_new.loc[0, '所得'] * 2
'''

"\nX_new.loc[0, '所得'] * 2\n"

＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝＝A

In [27]:
def housing_prices(df, num):
  y = df.loc[num, '所得'] * 0.4081 + df.loc[num, '築年数'] * 0.006923 + df.loc[num, '地域人口'] * 0.00001706 + df.loc[num, '緯度'] * (-0.4041) + df.loc[num, '経度'] * (-0.4104) + df.loc[num, '部屋数/人'] * (-0.2085) + df.loc[num, '寝室数/人'] * 1.696 - 34.74
  return y

y = housing_prices(X_new, 0)
print(y)

3.2441729999999893


できた！

**各要素が住宅価格に与える影響度合い**

In [None]:
sns.barplot(x = ['所得', '築年数', '地域人口', '緯度', '経度', '部屋数/人', '寝室数/人'], y=model.coef_)


In [None]:
#住宅データの各指標を確認する
df.describe()

地域人口はスケールが大きい値
寝室数/人はスケールの小さい値

計算式の重みと重要度が必ずしも一致しないことを意味する。
重回帰の計算式の重みから重要度を比較したい場合は、各要素のスケールを統一する必要がある。

事象にてスケール統一による回帰手法の改善に挑戦する。



---
# **＝＝＝＝＝＝＝＝＝＝＝＝＝＝つまり影響度合いってどういうことなのか分かりません。**
# **＝＝＝＝＝＝＝＝＝＝＝＝＝＝3.データセットの前処理で変数dfのUnnamed: 0を削除したはずなのに何故でてくるのだろうか。**