# the California housing dataset

## Google Colabolaratoryの使い方

- 上のメニューの「ランタイム」のの「すべてのセルを実行する」を押すと、以下のコードが実行されます。また、自分でコードを書いて実行することもできます。

In [None]:
from sklearn.datasets import fetch_california_housing
california = fetch_california_housing(as_frame=True)
frame = california.frame

- データを取得しています。

- 詳しい説明は[公式ドキュメント](https://scikit-learn.org/stable/datasets/real_world.html#california-housing-dataset)に書いてあります。

- as_frame=Trueにすると、DataFrame形式で読み込め、それがframeに代入されています。

In [None]:
frame.head()

- データをざっと見ています。

In [None]:
X = frame.drop('MedHouseVal', axis=1)
y = frame['MedHouseVal']

- dropメソッドを使って、目的変数の'MedHouseVal'を取り出して、yに代入しています。

In [None]:
from sklearn.model_selection import train_test_split

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

- データを全て学習データにしてしまうと、モデルの評価ができないので、学習データとテストデータに分けています。

- データを分けるには、train_test_split関数を使います。

- test_size=0.2とすると、テストデータの割合が20%になります。

- random_stateは、乱数のシードを指定しています。乱数を固定することで、モデルの再現性を担保しています。

In [None]:
from sklearn.linear_model import LinearRegression
model = LinearRegression()
model.fit(X_train, y_train)

- sklearnのLinearRegressionクラスを使って、モデルを作成しています。

- model = LinearRegression()とすると、インスタンスが作成されます。

- model.fit(X_train, y_train)とすると、学習が行われます。

実は、fitを呼び出すと、モデルのパラメータが決定されます。このパラメータは、model.coef_とmodel.intercept_で確認できます。
coef_は、係数を表しています。intercept_は、切片を表しています。

In [None]:
print(f"線形モデルの係数: {model.coef_}  \n線形モデルの切片: {model.intercept_}")

In [None]:
y_pred = model.predict(X_test)

- 学習したモデルを使って、予測を行います。

- model.predict(X_test)とすると、予測値が返ってきます。

In [None]:
y_pred[:5]

次にモデルの評価をしてみましょう。

In [None]:
from sklearn.metrics import r2_score
print(r2_score(y_test,y_pred))

- 決定係数という指標を使って、モデルの評価をしています。

In [None]:
print(model.score(X_test, y_test))