# Local environment version
The parts specific to the Google Colab version are commented out with #=#.<br>
The parts added in the local environment have #++ at the end of the line.<br>
original: https://github.com/TMDU-AI/AI-yodosha<br>
modified by H.Nishiyama, Niigata-Univ.<br>

# **2章　機械学習のしくみを理解しよう**

# 2-3　線形回帰を実践してみよう

 **STEP0　事前準備**

コード 2-3-1　利用するライブラリをインポートする

In [None]:
#!pip install japanize-matplotlib
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import japanize_matplotlib

**STEP1　データの用意**

コード2-3-2　糖尿病のデータセットを読み込む

In [None]:
from sklearn.datasets import load_diabetes
dm = load_diabetes(as_frame=True, scaled=False)

コード2-3-3　糖尿病のデータセットの内容を確認（変数dmの型の確認）

In [None]:
type(dm)

コード2-3-4　糖尿病のデータセットの内容を確認（dmの出力）

In [None]:
dm

コード2-3-5　糖尿病のデータセットの内容を確認（dmのキーDESCRの出力）

In [None]:
print(dm.DESCR)

コード2-3-6　y_dmに正解値をデータフレームとして格納

In [None]:
y_dm = dm.target
y_dm.head()

コード2-3-7　y_dmの配列の形状の確認

In [None]:
y_dm.shape

コード2-3-8　y_dmのデータ型の確認

In [None]:
type(y_dm)

コード2-3-9　y_dmの記述統計量を確認

In [None]:
y_dm.describe()

コード2-3-10　x_dmに特徴量をデータフレームとして格納

In [None]:
x_dm = dm.data
x_dm.head()

コード2-3-11　x_dmの配列の形状の確認


In [None]:
x_dm.shape

コード2-3-12　x_dmのデータ型の確認

In [None]:
type(x_dm)

コード2-3-13　x_dmの記述統計量を確認

In [None]:
x_dm.describe()

コード2-3-14　x_dmの特徴量のうち，bmiだけをx_bmiに格納

In [None]:
x_bmi = x_dm[['bmi']]
x_bmi

コード2-3-15　x_bmiの配列の形状の確認

In [None]:
x_bmi.shape

コード2-3-16　x_bmiのデータ型の確認

In [None]:
type(x_bmi)

コード2-3-17　x_dmの特徴量のうち，bmiだけをx_bmi1に格納（一重角括弧にした場合）

In [None]:
x_bmi1 = x_dm['bmi']
print(x_bmi1.shape)
print(type(x_bmi1))

**STEP2　学習モデルの選択**

コード2-3-18　線形回帰を学習モデルとして選択する

In [None]:
from sklearn.linear_model import LinearRegression
model_bmi = LinearRegression()

**STEP3　データを入れて学習**

コード2-3-19　線形回帰にデータを指定して学習させる

In [None]:
model_bmi.fit(x_bmi, y_dm)

**STEP4　傾き（偏回帰係数）と切片（定数項）を推定**

コード2-3-20　学習したモデルの偏回帰係数と定数項を出力する

In [None]:
print(model_bmi.coef_)
print(model_bmi.intercept_)

**STEP5　未知の特徴量xで予測**

コード2-3-21　BMIが20の値をデータフレームとして格納

In [None]:
pre = pd.DataFrame([[20]], columns=['bmi'])
print(pre)
print(pre.shape)
print(type(pre))

コード2-3-22　BMIが20の場合の糖尿病進行度を予測

In [None]:
print(model_bmi.predict(pre))

コード2-3-23　線形回帰線を描出

In [None]:
plt.scatter(x_bmi, y_dm, color='black')
plt.plot(x_bmi, model_bmi.predict(x_bmi))
plt.show()

コード2-3-24　線形回帰線を描出（タイトルや軸名をつける）

In [None]:
plt.figure()
plt.title('BMIと1年後の糖尿病の進行度')
plt.xlabel('BMI')
plt.ylabel('糖尿病進行度')
plt.scatter(x_bmi, y_dm, color='black')
plt.plot(x_bmi, model_bmi.predict(x_bmi))
plt.show()

**STEP6　モデルの評価**

コード2-3-25　モデルの性能評価を行う

In [None]:
print(model_bmi.score(x_bmi, y_dm))

コード2-3-26　10個の特徴量での線形回帰（学習モデルの選択と学習）

In [None]:
model_dm10 = LinearRegression()
model_dm10.fit(x_dm, y_dm)

コード2-3-27　10個の特徴量での線形回帰（偏回帰係数と定数項の出力）

In [None]:
print(model_dm10.coef_)
print(model_dm10.intercept_)

コード2-3-28　10個の特徴量での線形回帰（モデルの性能評価）

In [None]:
print(model_dm10.score(x_dm, y_dm))

# 2-4　学習用データと検証用データの分割

コード2-4-1　学習用データと検証用データに分割

In [None]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(
    x_dm, y_dm, test_size=0.3, random_state=0)

コード2-4-2　学習用データ（x_trainとy_train）を用いてmodel_dmで学習させる

In [None]:
from sklearn.linear_model import LinearRegression
model_dm = LinearRegression()
model_dm.fit(x_train, y_train)

コード2-4-3　検証用データ（x_test）を用いて，学習済みモデルで予測する

In [None]:
print(model_dm.predict(x_test)) # x_testから予測した予測値yを出力
print(np.array(y_test))         # 実際の正解値y_testを出力

コード2-4-4　ホールドアウト法で学習用データと検証用データに分けた場合のモデルの性能評価

In [None]:
print(model_dm.score(x_test, y_test))

# 2-5　ロジスティック回帰を実践してみよう

**STEP0　事前準備**

コード2-5-1　利用するライブラリをインポートする

In [None]:
import numpy as np
import pandas as pd

**STEP1　データの用意**

コード2-5-2　乳がんのデータセットを読み込む

In [None]:
from sklearn.datasets import load_breast_cancer
bc = load_breast_cancer(as_frame=True)
bc

コード2-5-3　乳がんのデータセットの内容を確認（変数bcの型の確認）

In [None]:
type(bc)

コード2-5-4　乳がんのデータセットの内容を確認（bcのキーDESCRの出力）

In [None]:
print(bc.DESCR)

コード2-5-5　y_bcに正解値をデータフレームとして格納

In [None]:
y_bc = bc.target
y_bc.head()

コード2-5-6　y_bcの配列の形状とデータ型の確認

In [None]:
print(y_bc.shape)
print(type(y_bc))

コード2-5-7　y_bcの取りうる値と頻度の確認

In [None]:
y_bc.value_counts()

コード2-5-8　x_bcに特徴量をデータフレームとして格納

In [None]:
x_bc = bc.data
x_bc.head()

コード2-5-9　x_bcから10個の特徴量をx_bc10として格納

In [None]:
x_bc10 = x_bc.iloc[:, 0:10]
x_bc10.head()

コード2-5-10　x_bc10の配列の形状とデータ型の確認

In [None]:
print(x_bc10.shape)
print(type(x_bc10))

コード2-5-11　学習用データと検証用データに分割

In [None]:
from sklearn.model_selection import train_test_split
x_train, x_test, y_train, y_test = train_test_split(
    x_bc10, y_bc, test_size=0.3, random_state=0)

**STEP2　学習モデルの選択**

コード2-5-12　ロジスティック回帰モデルを選択

In [None]:
from sklearn.linear_model import LogisticRegression
model_bc = LogisticRegression()

**STEP3　学習用データを用いて学習**

コード2-5-13　学習用データ（x_trainとy_train）を用いてmodel_bcで学習させる

In [None]:
model_bc.fit(x_train, y_train)

**STEP4　傾き（偏回帰係数）と切片（定数項）を推定**

コード2-5-14　model_bcの傾きと切片を出力する

In [None]:
print(model_bc.coef_)
print(model_bc.intercept_)

**STEP5　新しい変数で予測**

コード2-5-15　model_bcに検証用データ（x_test）を入れて予測する

In [None]:
print(model_bc.predict(x_test)) # x_testから予測した予測値yを出力
print(np.array(y_test))         # 実際の正解値y_testを出力

コード2-5-16　model_bcに検証用データ（x_test）を入れて，y=0，y=1となる確率を予測する

In [None]:
print(model_bc.predict_proba(x_test))

**STEP6　モデルの評価**

コード2-5-17　モデルの性能評価を行う

In [None]:
print(model_bc.score(x_test, y_test))
print(model_bc.score(x_train, y_train))