<a href="https://colab.research.google.com/github/yajima-yasutoshi/DataMinig/blob/main/20231122/%E5%9B%9E%E5%B8%B0%E5%88%86%E6%9E%90.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

# データマイニング第9回（2023/11/22）

#本日の講義の目的

回帰分析に関する説明を行う。



## 準備

In [1]:
# インストール
!pip install japanize-matplotlib

Collecting japanize-matplotlib
  Downloading japanize-matplotlib-1.1.3.tar.gz (4.1 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m4.1/4.1 MB[0m [31m9.5 MB/s[0m eta [36m0:00:00[0m
[?25h  Preparing metadata (setup.py) ... [?25l[?25hdone
Building wheels for collected packages: japanize-matplotlib
  Building wheel for japanize-matplotlib (setup.py) ... [?25l[?25hdone
  Created wheel for japanize-matplotlib: filename=japanize_matplotlib-1.1.3-py3-none-any.whl size=4120257 sha256=6c6166d5cb371dc62428a8e850b32d234b451773beaed89c2b51331f326872d9
  Stored in directory: /root/.cache/pip/wheels/61/7a/6b/df1f79be9c59862525070e157e62b08eab8ece27c1b68fbb94
Successfully built japanize-matplotlib
Installing collected packages: japanize-matplotlib
Successfully installed japanize-matplotlib-1.1.3


In [2]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import japanize_matplotlib
import seaborn as sns

In [3]:
# 読み込むファイルを指定する
file_path = '/content/drive/MyDrive/周南公立大学/講義/データマイニング/データ/回帰.xlsx'

# 今回は、df という変数に読み込むことにする
df = pd.read_excel(file_path)
df

Unnamed: 0,日付,最高気温,来店人数
0,2023-05-10,24.1,690
1,2023-05-11,27.2,640
2,2023-05-12,20.0,510
3,2023-05-13,23.0,560
4,2023-05-14,21.4,600
5,2023-05-15,20.9,420
6,2023-05-16,21.8,530
7,2023-05-17,23.4,560
8,2023-05-18,23.9,650
9,2023-05-19,25.3,570



**明日の最高気温が 24.5 度である場合に、来店者数は何名くらいか予測したい**

In [None]:
df.sort_values(by='最高気温')

In [None]:
# データのプロット
# 元のデータをプロットします。
sns.scatterplot(data=df, x = '最高気温', y = '来店人数')
plt.title('データのプロット')
plt.xlabel('最高気温')
plt.ylabel('来店人数')
plt.show()

### 変数

予測の対象となる項目を特に**目的変数**と呼ぶ。上の例では来店人数が目的変数となる。また、最高気温の項目は**説明変数**と呼ぶ。回帰分析では、説明変数から
目的変数を計算するための**計算式**が得られる。この計算式は、**モデル** とも呼ばれる。

また、予測の対象（目的変数）は一つであるが、それを説明するための説明変数は複数設定されることがほとんどである。

## 回帰を行うPythonコード

### 学習部分

モデルを作成する工程を**学習**と呼ぶ。
また、モデル作成で用いるデータを***学習（用）データ***と呼ぶ。

学習を行うためには fit 関数を用いる。


In [None]:
from sklearn.linear_model import LinearRegression

# 学習ステップ
# 線形回帰モデルを作成し、データにフィットさせます。
# 説明変数をXに設定し、目的変数を Y に設定する。
X = df[['最高気温']]
Y = df[['来店人数']]

# 回帰モデルの算出
model = LinearRegression()
model.fit(X,Y)

In [None]:
# 学習したパラメータを出力
print(f"Coefficient: {model.coef_}")
print(f"Intercept: {model.intercept_}")

# 学習結果のプロット
# 学習によって得られた線をプロットします。
sns.scatterplot(data=df, x = '最高気温', y = '来店人数')
plt.plot(x, model.predict(x), color='red', label='回帰直線')
plt.title('データの散布図と回帰直線')
plt.xlabel('気温')
plt.ylabel('人数')
plt.show()

In [None]:
# 学習したパラメータを出力
a = model.coef_
b = model.intercept_

In [None]:
a[0]

In [None]:
b

### 推論部分

モデルを使って。説明変数から目的変数の値を予測する工程を**推論**と呼ぶ。


推論には predict 関数を用いる。

In [None]:
# 予測ステップ
# 新しいデータに対する予測計算する。
new_X = pd.DataFrame(
    data={'最高気温': [24.5]})

new_Y = model.predict(new_X)

In [None]:
# 新しいデータ点と予測結果をプロット
plt.scatter(X, Y, label='学習データ')
plt.scatter(new_X, new_Y, color='red', label='予測', s=150)  # sパラメータでサイズを調整
plt.plot(X, model.predict(X), color='red', label='回帰直線')

plt.title('予測')
plt.xlabel('気温')
plt.ylabel('人数')
plt.legend()
plt.show()


predict 関数は、複数のデータに対応した予測を行うことが可能。説明変数を項目とした表を用いる。

In [None]:
# 新しいデータに対する予測計算する。
new_X = pd.DataFrame(
    data={'最高気温': [22, 23, 24, 25]})
new_X

In [None]:
new_Y = model.predict(new_X)
new_Y

### 精度の評価

作ったモデルの精度を評価する。
仮に、モデルを使った予測を5回（5日間）実施したとする。
5日分の最高気温と実際の客数をファイルから読み込む。

In [None]:
# 読み込むファイルを指定する
file_path = '/content/drive/MyDrive/周南公立大学/講義/データマイニング/データ/回帰テスト.xlsx'

# df2 という変数に読み込むことにする
df2 = pd.read_excel(file_path)
df2

In [None]:
X_test = df2[['最高気温']]
y_pred = model.predict(X_test)

In [None]:
# 予測値
y_pred

In [None]:
# 実績値と比較する
df2['予測人数'] = y_pred
df2

### 平均二乗誤差

予測と実績との差の二乗を平均したものを**平均二乗誤差**と呼ぶ。
平均二乗誤差が小さいほど、誤差の少ない予測となっていることになる。

In [None]:
from sklearn.metrics import mean_squared_error
# 評価（MSE）
y_test = df2['人数']
mse = mean_squared_error(y_test, y_pred)
mse

# Tips データを用いた回帰の例

In [None]:
import numpy as np
import pandas as pd
import seaborn as sns

# データセットを読み込む（ここではSeabornの内蔵データセット'tips'を使用）
df = sns.load_dataset('tips')
df.info()

### データの説明
あるレストランでのチップ金額のデータ。

主な項目は以下の通り。

項目 | 説明
-- | --
total_bill | 総額（食事代+チップ）
tip        | チップの額
sex        | 性別
smoker     | 喫煙者かどうか
day        | 曜日
time       | 時間帯が昼か夜か
size       | 顧客の人数

以下では説明のため、tip, total_bill, size の3項目を使い、
total_bill と sizeから tip を予測することを行います。

In [None]:
# データの先頭を表示して確認
df.head()

## 回帰モデルの作成

In [None]:
# 回帰分析に必要なライブラリをインポート
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# 特徴量と目的変数を選択（ここではtotal_bill と size を特徴量、tipを目的変数とする）
X = df[['total_bill','size']]
y = df['tip']

# 線形回帰モデルを作成
model = LinearRegression()

# モデルを訓練
model.fit(X, y)

# y_pred = model.predict(X_test)


In [None]:
# 学習したパラメータを出力
a = model.coef_
b = model.intercept_


In [None]:
a

In [None]:
b

In [None]:
# 予測したいデータを入力
new_df = pd.DataFrame( data =
                      { 'total_bill' : [30.0, 50],
                        'size'       : [3,    2]}
                       )
new_df

In [None]:
# テストデータで予測
new_df['tip'] = model.predict( new_df )
new_df

# カテゴリ変数を使った回帰


In [None]:
import seaborn as sns
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import OneHotEncoder

In [None]:
# データの読み込み
df = sns.load_dataset('tips')

In [None]:
df.info()

In [None]:
df.describe()

In [None]:
df.describe(include='all')

### One-Hot エンコーディング

In [None]:
df['day'].unique()

項目「day」はカテゴリ型の変数で、'Sun', 'Sat', 'Thur', 'Fri' の4個のカテゴリがある。
このままでは数値でないため、回帰の説明変数に用いることができない。
そこで、4個のカテゴリに対応した4つの項目
'day_Thur', 'day_Fri', 'day_Sat', 'day_Sun' を用意して、
以下の表のように0か1の数値をデータとしてセットする。


元の項目の値 | day_Thur	| day_Fri	| day_Sat	| day_Sun
-- | -- | -- | -- | --
Thur | 1 | 0 | 0 | 0
Fri | 0 | 1 | 0 | 0
Sat | 0 | 0 | 1 | 0
Sun | 0 | 0 | 0 | 1


このようにカテゴリ型の項目を数値型に変換する方法を
**one-hot エンコーディング**
と呼ぶ。

In [None]:
df_day = pd.get_dummies(df[['day']])
df_day

元のデータと比較するため、2つのデータフレームを concat 関数で繋げる。

AとBを繋げる場合には、以下のように実行する。

```
pd.concat([A, B], axis=1)
```




In [None]:
pd.concat([df, df_day], axis=1).head(10)

複数のカテゴリ項目を指定して、one-hotエンコーディングを行うこともできる。

```
pd.get_dummies(df[['sex', 'smoker', 'day', 'time']], drop_first=True)
```



In [None]:
# データの読み込み
df = sns.load_dataset('tips')

# カテゴリ変数をOne-Hotエンコーディング
# encoded_df = pd.get_dummies(df[['sex', 'smoker', 'day', 'time']], drop_first=True)
encoded_df = pd.get_dummies(df[['sex', 'smoker', 'day', 'time']])

# エンコードされたデータと元のデータを結合
df = pd.concat([df, encoded_df], axis=1)

In [None]:
df

In [None]:
# 特徴量とターゲット変数を選択
X = df[['total_bill', 'size', 'sex_Male', 'sex_Female', 'smoker_Yes', 'smoker_No', 'day_Thur', 'day_Fri', 'day_Sat', 'day_Sun', 'time_Lunch', 'time_Dinner']]
y = df['tip']

# 線形回帰モデルの作成と訓練
model = LinearRegression()
model.fit(X, y)


In [None]:
# 特徴量とターゲット変数を選択
X = df[['total_bill', 'size', 'sex_Male', 'sex_Female', 'smoker_Yes', 'smoker_No', 'day_Thur', 'day_Fri', 'day_Sat', 'day_Sun', 'time_Lunch', 'time_Dinner']]
y = df['tip']

# データを訓練セットとテストセットに分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 線形回帰モデルの作成と訓練
model = LinearRegression()
model.fit(X_train, y_train)

# テストデータで予測
y_pred = model.predict(X_test)

# 評価（MSE）
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse}')


In [None]:
# 特徴量とターゲット変数を選択
X = df[['total_bill', 'size', 'sex_Female', 'smoker_No', 'time_Dinner']]
y = df['tip']

# データを訓練セットとテストセットに分割
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# 線形回帰モデルの作成と訓練
model = LinearRegression()
model.fit(X_train, y_train)

# テストデータで予測
y_pred = model.predict(X_test)

# 評価（MSE）
mse = mean_squared_error(y_test, y_pred)
print(f'Mean Squared Error: {mse}')

In [None]:
# 説明変数を変化させて、精度が向上する様子をグラフで示す
features = ['total_bill','size', 'sex_Female', 'smoker_No', 'day_Fri', 'day_Sat', 'day_Sun', 'time_Dinner']
accuracies = []

for feature in features:
    X_temp = X.drop(feature, axis=1)
    X_train, X_test, y_train, y_test = train_test_split(X_temp, y, test_size=0.2, random_state=0)
    model.fit(X_train, y_train)
    y_pred = model.predict(X_test)
    accuracies.append(mean_squared_error(y_test, y_pred))

# グラフを描画
plt.figure(figsize=(10, 6))
sns.barplot(x=features, y=accuracies)
plt.xlabel('Dropped Feature')
plt.ylabel('Accuracy')
plt.title('Accuracy after Dropping Each Feature')
plt.show()