# 課題1：デーブルデータ

## 課題

covertypeデータセットを使って、  
気候や標高などの環境条件から、  
森林を占める木の種類を予測する多クラス分類問題を解いてください。

### 問1

##### インポート

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
import japanize_matplotlib

plt.style.use('seaborn-whitegrid')
plt.rcParams['font.family'] = 'IPAexGothic'
plt.rcParams['font.size'] = 15

##### データ読み取り

In [None]:
# データセットの読み込み
from sklearn.datasets import fetch_covtype
covtype = fetch_covtype()

#説明変数
X_array = covtype.data
#結果変数
y_array = covtype.target

###### データ確認

In [None]:
for i in (0,-1,1000):
    print(X_array[i])

In [None]:
for i in (0,-1,1000):
    print(y_array[i])

##### 説明変数、目的変数を統合してDataFrame化

In [None]:
import pandas as pd
import numpy as np
from pandas import DataFrame

df = DataFrame(X_array, columns = covtype.feature_names).assign(TYPE=np.array(y_array))

###### ヘッダ出力で確認

In [None]:
# ヘッダ出力
df.head

##### 線形回帰

In [None]:
import pandas as pd
import numpy as np
from pandas import DataFrame
from sklearn.datasets import fetch_covtype
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import KFold
from sklearn.metrics import r2_score

# データセットの読み込み
covtype = fetch_covtype()

#説明変数
X_array = covtype.data
#目的変数
y_array = covtype.target

df = DataFrame(X_array, columns=covtype.feature_names).assign(TYPE=np.array(y_array))

# 線形回帰モデルを作成
model = LinearRegression()

# K-分割交差検証法のパラメータ設定
k = 5
kf = KFold(n_splits=k, shuffle=True, random_state=42)

# 予測精度を格納するリスト
scores = []

# K-分割交差検証法の実行
for train_index, test_index in kf.split(X_array, y_array):
    X_train, X_test = X_array[train_index], X_array[test_index]
    y_train, y_test = y_array[train_index], y_array[test_index]

    # モデルを学習
    model.fit(X_train, y_train)

    # テストデータを用いて予測
    y_pred = model.predict(X_test)

    # 予測精度を計算 (決定係数 R^2)
    score = r2_score(y_test, y_pred)

    # 予測精度をリストに追加
    scores.append(score)

# リスト表示
print(scores)
# 予測精度の平均値を表示
print(f"R^2(決定係数)の平均値: {np.mean(scores)}")


##### 決定木回帰

In [None]:
import pandas as pd
import numpy as np
from pandas import DataFrame
from sklearn.datasets import fetch_covtype
from sklearn.tree import DecisionTreeRegressor  # 決定木回帰のインポート
from sklearn.model_selection import KFold
from sklearn.metrics import r2_score

# データセットの読み込み
covtype = fetch_covtype()

#説明変数
X_array = covtype.data
#目的変数
y_array = covtype.target

df = DataFrame(X_array, columns=covtype.feature_names).assign(TYPE=np.array(y_array))

# 決定木回帰モデルを作成
model = DecisionTreeRegressor(random_state=42)  # 線形回帰から決定木回帰に変更

# K-分割交差検証法のパラメータ設定
k = 5
kf = KFold(n_splits=k, shuffle=True, random_state=42)

# 予測精度を格納するリスト
scores = []

# K-分割交差検証法の実行
for train_index, test_index in kf.split(X_array, y_array):
    X_train, X_test = X_array[train_index], X_array[test_index]
    y_train, y_test = y_array[train_index], y_array[test_index]

    # モデルを学習
    model.fit(X_train, y_train)

    # テストデータを用いて予測
    y_pred = model.predict(X_test)

    # 予測精度を計算 (決定係数 R^2)
    score = r2_score(y_test, y_pred)

    # 予測精度をリストに追加
    scores.append(score)

# リスト表示
print(scores)
# 予測精度の平均値を表示
print(f"R^2(決定係数)の平均値: {np.mean(scores)}")

###### 決定木の可視化

In [None]:
# 決定木をテキストで表示
tree_text = export_text(model, feature_names=covtype.feature_names)
print(tree_text)

##### ランダムフォレスト(長いため動かさず)

In [1]:
import pandas as pd
import numpy as np
from pandas import DataFrame
from sklearn.datasets import fetch_covtype
from sklearn.ensemble import RandomForestRegressor  # ランダムフォレストのインポート
from sklearn.model_selection import KFold
from sklearn.metrics import r2_score

# データセットの読み込み
covtype = fetch_covtype()

#説明変数
X_array = covtype.data
#目的変数
y_array = covtype.target

df = DataFrame(X_array, columns=covtype.feature_names).assign(TYPE=np.array(y_array))

# ランダムフォレスト回帰モデルを作成
model = RandomForestRegressor(random_state=42)  # 決定木回帰からランダムフォレストに変更

# K-分割交差検証法のパラメータ設定
k = 5
kf = KFold(n_splits=k, shuffle=True, random_state=42)

# 予測精度を格納するリスト
scores = []

# K-分割交差検証法の実行
for train_index, test_index in kf.split(X_array, y_array):
    X_train, X_test = X_array[train_index], X_array[test_index]
    y_train, y_test = y_array[train_index], y_array[test_index]

    # モデルを学習
    model.fit(X_train, y_train)

    # テストデータを用いて予測
    y_pred = model.predict(X_test)

    # 予測精度を計算 (決定係数 R^2)
    score = r2_score(y_test, y_pred)

    # 予測精度をリストに追加
    scores.append(score)

# リスト表示
print(scores)
# 予測精度の平均値を表示
print(f"R^2(決定係数)の平均値: {np.mean(scores)}")

KeyboardInterrupt: 

###### 特徴量の重要度(テキスト型)

In [None]:
import pandas as pd
import numpy as np
from sklearn.datasets import fetch_covtype
from sklearn.ensemble import RandomForestRegressor

# データセットの読み込み
covtype = fetch_covtype()

#説明変数
X_array = covtype.data
#目的変数
y_array = covtype.target

# ランダムフォレストモデルの作成
model = RandomForestRegressor()
model.fit(X_array, y_array)
importances = model.feature_importances_

# 特徴量名と重要度を組み合わせたデータフレームを作成
importance_df = pd.DataFrame({'feature': covtype.feature_names, 'importance': importances})

# 重要度の降順でソート
importance_df_sorted = importance_df.sort_values(by='importance', ascending=False)

# 特徴量の重要度をテキスト形式で表示
print(importance_df_sorted)

###### 特徴量の重要度(図示)

In [None]:
from sklearn.ensemble import RandomForestRegressor

model = RandomForestRegressor()
model.fit(X_array, y_array)
importances = model.feature_importances_

# 特徴量の重要度をプロット
plt.bar(covtype.feature_names, importances)
plt.xlabel("Features")
plt.ylabel("Importance")
plt.show()

##### k-近傍回帰(k-Nearest Neighbors Regression, kNN)

In [None]:
import pandas as pd
import numpy as np
from pandas import DataFrame
from sklearn.datasets import fetch_covtype
from sklearn.neighbors import KNeighborsRegressor  # k-近傍回帰のインポート
from sklearn.model_selection import KFold
from sklearn.metrics import r2_score

# データセットの読み込み
covtype = fetch_covtype()

#説明変数
X_array = covtype.data
#目的変数
y_array = covtype.target

df = DataFrame(X_array, columns=covtype.feature_names).assign(TYPE=np.array(y_array))

# k-近傍回帰モデルを作成
model = KNeighborsRegressor(n_neighbors=5)  # 決定木回帰からk-近傍回帰に変更

# K-分割交差検証法のパラメータ設定
k = 5
kf = KFold(n_splits=k, shuffle=True, random_state=42)

# 予測精度を格納するリスト
scores = []

# K-分割交差検証法の実行
for train_index, test_index in kf.split(X_array, y_array):
    X_train, X_test = X_array[train_index], X_array[test_index]
    y_train, y_test = y_array[train_index], y_array[test_index]

    # モデルを学習
    model.fit(X_train, y_train)

    # テストデータを用いて予測
    y_pred = model.predict(X_test)

    # 予測精度を計算 (決定係数 R^2)
    score = r2_score(y_test, y_pred)

    # 予測精度をリストに追加
    scores.append(score)

# リスト表示
print(scores)
# 予測精度の平均値を表示
print(f"R^2(決定係数)の平均値: {np.mean(scores)}")

##### ニューラルネットワーク(Neural Networks)

In [None]:
import pandas as pd
import numpy as np
from pandas import DataFrame
from sklearn.datasets import fetch_covtype
from sklearn.neural_network import MLPRegressor  # ニューラルネットワークのインポート
from sklearn.model_selection import KFold
from sklearn.metrics import r2_score
from sklearn.preprocessing import StandardScaler  # データの標準化のためのインポート

# データセットの読み込み
covtype = fetch_covtype()

#説明変数
X_array = covtype.data
#目的変数
y_array = covtype.target

df = DataFrame(X_array, columns=covtype.feature_names).assign(TYPE=np.array(y_array))

# ニューラルネットワークモデルを作成
model = MLPRegressor(hidden_layer_sizes=(100,), random_state=42)  # k-近傍回帰からニューラルネットワークに変更

# K-分割交差検証法のパラメータ設定
k = 5
kf = KFold(n_splits=k, shuffle=True, random_state=42)

# 予測精度を格納するリスト
scores = []

# データの標準化
scaler = StandardScaler()
X_array = scaler.fit_transform(X_array)

# K-分割交差検証法の実行
for train_index, test_index in kf.split(X_array, y_array):
    X_train, X_test = X_array[train_index], X_array[test_index]
    y_train, y_test = y_array[train_index], y_array[test_index]

    # モデルを学習
    model.fit(X_train, y_train)

    # テストデータを用いて予測
    y_pred = model.predict(X_test)

    # 予測精度を計算 (決定係数 R^2)
    score = r2_score(y_test, y_pred)

    # 予測精度をリストに追加
    scores.append(score)

# リスト表示
print(scores)
# 予測精度の平均値を表示
print(f"R^2(決定係数)の平均値: {np.mean(scores)}")


# 一部、特徴量の削除

### 上のランダムフォレストの所で特徴量の重要度を直接取得したことを利用

##### k-近傍回帰

In [1]:
import pandas as pd
import numpy as np
from pandas import DataFrame
from sklearn.datasets import fetch_covtype
from sklearn.neighbors import KNeighborsRegressor  # k-近傍回帰のインポート
from sklearn.model_selection import KFold
from sklearn.metrics import r2_score

# データセットの読み込み
covtype = fetch_covtype()

# 説明変数
X_array = covtype.data
# 目的変数
y_array = covtype.target

df = DataFrame(X_array, columns=covtype.feature_names).assign(TYPE=np.array(y_array))

# 削除する説明変数を指定
columns_to_remove = ["Soil_Type_6", "Soil_Type_14", "Soil_Type_17", "Soil_Type_7", "Soil_Type_35", "Soil_Type_8", "Soil_Type_24", "Soil_Type_27", "Soil_Type_25", "Soil_Type_11", "Soil_Type_20", "Soil_Type_18", "Soil_Type_15", "Soil_Type_0", "Soil_Type_33", "Soil_Type_2", "Soil_Type_26", "Soil_Type_13",]

# 説明変数を削除
df.drop(columns_to_remove, axis=1, inplace=True)

# 新しい説明変数のデータを取得
X_array = df.drop("TYPE", axis=1).values

# k-近傍回帰モデルを作成
model = KNeighborsRegressor()  # 決定木回帰からk-近傍回帰に変更

# K-分割交差検証法のパラメータ設定
k = 5
kf = KFold(n_splits=k, shuffle=True, random_state=42)

# 予測精度を格納するリスト
scores = []

# K-分割交差検証法の実行
for train_index, test_index in kf.split(X_array, y_array):
    X_train, X_test = X_array[train_index], X_array[test_index]
    y_train, y_test = y_array[train_index], y_array[test_index]

    # モデルを学習
    model.fit(X_train, y_train)

    # テストデータを用いて予測
    y_pred = model.predict(X_test)

    # 予測精度を計算 (決定係数 R^2)
    score = r2_score(y_test, y_pred)

    # 予測精度をリストに追加
    scores.append(score)

# リスト表示
print(scores)
# 予測精度の平均値を表示
print(f"R^2(決定係数)の平均値: {np.mean(scores)}")


[0.9377386728906056, 0.9381648497237275, 0.9351349393795284, 0.9376362397952525, 0.9370177830120379]
R^2(決定係数)の平均値: 0.9371384969602303


# 以下、特になし

###### 多項式回帰(Polynomial Regression)==遅いため行わず

In [1]:
import pandas as pd
import numpy as np
from pandas import DataFrame
from sklearn.datasets import fetch_covtype
from sklearn.linear_model import LinearRegression
from sklearn.preprocessing import PolynomialFeatures  # 多項式回帰のインポート
from sklearn.pipeline import make_pipeline  # パイプラインのインポート
from sklearn.model_selection import KFold
from sklearn.metrics import r2_score

# データセットの読み込み
covtype = fetch_covtype()

#説明変数
X_array = covtype.data
#目的変数
y_array = covtype.target

df = DataFrame(X_array, columns=covtype.feature_names).assign(TYPE=np.array(y_array))

# 多項式回帰モデルを作成
degree = 2  # 多項式の次数を指定
model = make_pipeline(PolynomialFeatures(degree), LinearRegression())  # ニューラルネットワークから多項式回帰に変更

# K-分割交差検証法のパラメータ設定
k = 5
kf = KFold(n_splits=k, shuffle=True, random_state=42)

# 予測精度を格納するリスト
scores = []

# K-分割交差検証法の実行
for train_index, test_index in kf.split(X_array, y_array):
    X_train, X_test = X_array[train_index], X_array[test_index]
    y_train, y_test = y_array[train_index], y_array[test_index]

    # モデルを学習
    model.fit(X_train, y_train)

    # テストデータを用いて予測
    y_pred = model.predict(X_test)

    # 予測精度を計算 (決定係数 R^2)
    score = r2_score(y_test, y_pred)

    # 予測精度をリストに追加
    scores.append(score)

# リスト表示
print(scores)
# 予測精度の平均値を表示
print(f"R^2(決定係数)の平均値: {np.mean(scores)}")

# 1