In [None]:
# Googleドライブマウント
from google.colab import drive
drive.mount('/content/drive')

Drive already mounted at /content/drive; to attempt to forcibly remount, call drive.mount("/content/drive", force_remount=True).


# データの読み込みと確認

In [None]:
# ライブラリのインポート
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns

from sklearn.linear_model import LinearRegression
from sklearn.svm import SVR
from sklearn.feature_selection import RFE
from sklearn.preprocessing import StandardScaler

# データの読み込み
train = pd.read_csv('/content/drive/MyDrive/pm/data/input/train.csv')

In [None]:
# データ型の確認
print(train.dtypes)

id                   int64
year                 int64
month                int64
day                  int64
Country             object
City                object
lat                float64
lon                float64
co_cnt               int64
co_min             float64
co_mid             float64
co_max             float64
co_var             float64
o3_cnt               int64
o3_min             float64
o3_mid             float64
o3_max             float64
o3_var             float64
so2_cnt              int64
so2_min            float64
so2_mid            float64
so2_max            float64
so2_var            float64
no2_cnt              int64
no2_min            float64
no2_mid            float64
no2_max            float64
no2_var            float64
temperature_cnt      int64
temperature_min    float64
temperature_mid    float64
temperature_max    float64
temperature_var    float64
humidity_cnt         int64
humidity_min       float64
humidity_mid       float64
humidity_max       float64
h

In [None]:
# 不要なカラムを削除する
del_columns = ['id', 'year', 'month', 'day', 'Country', 'City', 'pm25_mid']
X_train = train.drop(del_columns, axis=1)

In [None]:
# 説明変数の標準化
sc = StandardScaler()
sc.fit(X_train)
X_train_std = sc.transform(X_train)

# 目的変数
y = train['pm25_mid']

# 再帰的特徴量削減（ロジスティック回帰）

In [None]:
# 初期化
model = LinearRegression()

# 再帰的特徴量削減用のクラスの初期化
rfe = RFE(
    estimator=model,
    n_features_to_select=20
)

# モデルの学習
rfe.fit(X_train_std, y)

# 結果の確認（input: 特徴量、selected: 特徴量として選択されたかどうか）
selection_result = pd.DataFrame({'input': X_train.columns, 'selected': list(rfe.support_)})
print(selection_result)

              input  selected
0               lat     False
1               lon      True
2            co_cnt     False
3            co_min     False
4            co_mid      True
5            co_max      True
6            co_var      True
7            o3_cnt     False
8            o3_min     False
9            o3_mid     False
10           o3_max      True
11           o3_var     False
12          so2_cnt      True
13          so2_min     False
14          so2_mid     False
15          so2_max      True
16          so2_var      True
17          no2_cnt      True
18          no2_min      True
19          no2_mid      True
20          no2_max      True
21          no2_var     False
22  temperature_cnt     False
23  temperature_min      True
24  temperature_mid     False
25  temperature_max     False
26  temperature_var      True
27     humidity_cnt     False
28     humidity_min     False
29     humidity_mid     False
30     humidity_max     False
31     humidity_var     False
32     pre