# **データ・AI利活用のための情報リテラシー入門**
## **第6章 AIプログラミング演習**
このノートブックは「データ・AI利活用のための情報リテラシー入門」（培風館刊, ISBN978-4-563-01624-1）第6章に対応したものです。

### **6.2 AIプログラミング演習ー機械学習の基礎**

#### **6.2.2 演習（機械学習）**

##### **a. ライブラリのインポート**

**ソースコード6.23** ライブラリのインポート

In [None]:
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import numpy as np

##### **b. サンプルデータの生成**

**ソースコード6.24** サンプルデータ生成

In [None]:
# サンプルデータ生成（シンプルな線形関係を持つデータ）
# 乱数生成のシードを設定
np.random.seed(0)

# x の値 0 から 2 の範囲でランダムな 100 個のデータ点を生成
X = 2 * np.random.rand(100, 1)

# y = 3x + 4 の線形関係に基づき，各 X 値に対する y 値を計算し，ノイズを加える
y = 3 * X + 4 + np.random.randn(100, 1)

##### **c．データの分割**

**ソースコード6.25** データの分割

⚠️ 教科書では紙面の都合上、改行コード（``\``）を入れていますが、以下のサンプルコードでは含めていません。

In [None]:
# データを 80% の学習データセットと 20% のテストデータセットに分割

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

##### **d．線形回帰モデル**

**ソースコード6.26** 線形回帰モデル

In [None]:
# 線形回帰モデルをインスタンス化
model = LinearRegression()

##### **e. モデル学習**

**ソースコード6.27** 学習データにモデルを適合

In [None]:
# fit関数を使用して，学習データにモデルを適合
model.fit(X_train, y_train)

##### **f. データに対する予測の実行**

**ソースコード6.28** テストデータの予測

In [None]:
# predict関数を使用して，テストデータのX値に基づいてy値を予測
y_pred = model.predict(X_test)

##### **g. 予測結果の視覚化**

**ソースコード6.29** 実際のデータと予測をプロット

In [None]:
# 実際のデータと予測をプロット
plt.scatter(X_test, y_test, color='black', label='Actual Data')
plt.plot(X_test, y_pred, color='blue', linewidth=3, label='Regression line')
plt.xlabel('X(Input)')
plt.ylabel('y(Output)')
plt.title('Simple Linear Regression')
plt.legend()
plt.show()

**ソースコード6.30** 学習済みのパラメータを表示

In [None]:
# 学習済みのパラメータを表示
print("学習済みの係数:", model.coef_[0])
print("学習済みの切片:", model.intercept_)

##### **h．評価指標の計算**

**● 平均二乗誤差（MSE: Mean Squared Error）**

**ソースコード6.31** モデルの評価

In [None]:
from sklearn.metrics import mean_squared_error, mean_absolute_error

# モデルの評価（MSE: Mean Squared Errorを計算）
mse = mean_squared_error(y_test, y_pred)
print("Mean Squared Error: ", mse)

**● 平均絶対誤差（MAE: Mean Absolute Error）**

**ソースコード6.32** 誤差の表示

In [None]:
# Mean Absolute Error (MAE) 実際の値と予測値の絶対値の平均。値が小さいほど良い。
mae = mean_absolute_error(y_test, y_pred)
print("Mean Absolute Error:", mae)

### **本演習で利用したコード**

**ソースコード6.33** 機械学習演習のコード全体

In [None]:
### ライブラリのインポート
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
import matplotlib.pyplot as plt
import numpy as np

### サンプルデータの生成
# 乱数生成のシードを設定
np.random.seed(0)

# xの値0 から2 の範囲でランダムな100個のデータ点を生成
X = 2 * np.random.rand(100, 1)

#  y = 3x + 4 の線形関係に基づき，各X 値に対するy 値を計算し，ノイズを加える
y = 3 * X + 4 + np.random.randn(100, 1)

### データを80% の学習データセットと20% のテストデータセットに分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=0)

### 線形回帰モデルをインスタンス化
model = LinearRegression()

### fit関数を使用して，学習データにモデルを適合
model.fit(X_train, y_train)

### predict関数を使用して，テストデータのX値に基づいてy値を予測
y_pred = model.predict(X_test)

### 実際のデータと予測をプロット
plt.scatter(X_test, y_test, color='black', label='Actual data')
plt.plot(X_test, y_pred, color='blue', linewidth=3, label='Regression line')
plt.xlabel('X')
plt.ylabel('y')
plt.title('Simple Linear Regression')
plt.legend()
plt.show()

### 学習済みのパラメータを表示
print("学習済みの係数 :", model.coef_[0])
print("学習済みの切片:", model.intercept_)

### 評価指標の計算
from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score

# モデルの評価（MSE: Mean Squared Errorを計算）
mse = mean_squared_error(y_test, y_pred)
print("Mean Squared Error:", mse)

# Mean Absolute Error (MAE) 実際の値と予測値の絶対値の平均。値が小さいほど良い。
mae = mean_absolute_error(y_test, y_pred)
print("Mean Absolute Error:", mae)
