In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt

In [None]:
from google.colab import drive
drive.mount('/content/drive')

In [None]:
# サンプルデータ読み込み
df = pd.read_csv(filepath_or_buffer="/content/drive/My Drive/ensyu3/bike.csv")
#データの確認
display(df.head())

In [None]:
#統計情報
display(df.describe())

In [None]:
# 年、月、日、曜日、時間の列を追加
df['datetimeobj'] = pd.to_datetime(df['datetime'])
df['year'] = df['datetimeobj'].dt.year
df['month'] = df['datetimeobj'].dt.month
df['day'] = df['datetimeobj'].dt.day
df['dayofweek'] = df['datetimeobj'].dt.dayofweek # 曜日：月曜日が0、日曜日が6
df['hour'] = df['datetimeobj'].dt.hour
display(df.head())

In [None]:
# 貸し出し数の推移
df.plot(x='datetime', y='count')

In [None]:
# 月ごとの貸し出し数（合計）
df.groupby('month')['count'].sum().plot(kind='bar')

In [None]:
# 月ごとの貸し出し数（平均）
df.groupby('month')['count'].mean().plot(kind='bar')

In [None]:
# 季節ごとの貸し出し数（合計）
plt.figure(figsize=(14,4))
plt.subplot(1,2,1)
df.groupby('season')['count'].sum().plot(kind='bar')
# 季節ごとの貸し出し数（平均）
plt.subplot(1,2,2)
df.groupby('season')['count'].mean().plot(kind='bar')

In [None]:
# 日ごとの貸し出し数（合計）
plt.figure(figsize=(14,4))
plt.subplot(1,2,1)
df.groupby('day')['count'].sum().plot(kind='bar')
# 日ごとの貸し出し数（平均）
plt.subplot(1,2,2)
df.groupby('day')['count'].mean().plot(kind='bar')

In [None]:
# 曜日ごとの貸し出し数（合計）
plt.figure(figsize=(14,4))
plt.subplot(1,2,1)
df.groupby('dayofweek')['count'].sum().plot(kind='bar')
# 曜日ごとの貸し出し数（平均）
plt.subplot(1,2,2)
df.groupby('dayofweek')['count'].mean().plot(kind='bar')

In [None]:
# 時間ごとの貸し出し数（合計）
plt.figure(figsize=(14,4))
plt.subplot(1,2,1)
df.groupby('hour')['count'].sum().plot(kind='bar')
# 時間ごとの貸し出し数（平均）
plt.subplot(1,2,2)
df.groupby('hour')['count'].mean().plot(kind='bar')

In [None]:
# holidayかどうか時間ごと平均
plt.figure()
df.query('holiday == 1').groupby('hour')['count'].mean().plot(label='holiday')
df.query('holiday == 0').groupby('hour')['count'].mean().plot(label='not holiday')
plt.legend(fontsize=12)

In [None]:
# workingdayかどうか時間ごと平均
plt.figure()
df.query('workingday == 1').groupby('hour')['count'].mean().plot(label='workingday')
df.query('workingday == 0').groupby('hour')['count'].mean().plot(label='not workingday')
plt.legend(fontsize=12)

In [None]:
# 季節による変化
plt.figure()
df.query('season == 1').groupby('hour')['count'].mean().plot(label='Spring')
df.query('season == 2').groupby('hour')['count'].mean().plot(label='Summer')
df.query('season == 3').groupby('hour')['count'].mean().plot(label='Fall')
df.query('season == 4').groupby('hour')['count'].mean().plot(label='Winter')
plt.legend(fontsize=12)

In [None]:
# 天候ごとの貸し出し数（合計）
plt.figure(figsize=(14,4))
plt.subplot(1,2,1)
df.groupby('weather')['count'].sum().plot(kind='bar')
# 天候ごとの貸し出し数（平均）
plt.subplot(1,2,2)
df.groupby('weather')['count'].mean().plot(kind='bar')

In [None]:
# 大雨のデータ件数
print(len(df.query('weather == 4')))

In [None]:
# 天気による変化
plt.figure()
df.query('weather == 1').groupby('hour')['count'].mean().plot(label='Clear')
df.query('weather == 2').groupby('hour')['count'].mean().plot(label='Cloud')
df.query('weather == 3').groupby('hour')['count'].mean().plot(label='Rain')
plt.legend(fontsize=12)

In [None]:
# 温度、体感温度、湿度、風、貸し出し数
plt.figure()
sns.pairplot(data=df[['temp', 'atemp', 'humidity', 'windspeed', 'count']])
# 相関係数をヒートマップで表示
plt.figure()
sns.heatmap(df[['temp', 'atemp', 'humidity', 'windspeed', 'count']].corr())

In [None]:
# 温度と体感温度の関係
plt.figure()
df.plot(x='temp', y='atemp', kind='scatter')

In [None]:
# 会員、非会員
plt.figure(figsize=(14,8))
plt.subplot(2,2,1)
df.groupby('hour')['casual'].mean().plot(label='casual')
df.groupby('hour')['registered'].mean().plot(label='registered')
plt.legend(fontsize=12)
# 会員、非会員
plt.subplot(2,2,3)
df.groupby('workingday')['casual'].mean().plot(label='casual', kind='bar')
plt.legend(fontsize=12)
plt.subplot(2,2,4)
df.groupby('workingday')['registered'].mean().plot(label='registered', kind='bar')
plt.legend(fontsize=12)

In [None]:
# 会員、非会員(平日)
plt.figure(figsize=(14,8))
plt.subplot(2,2,1)
df.query('workingday == 0').groupby('hour')['casual'].mean().plot(label='casual')
df.query('workingday == 0').groupby('hour')['registered'].mean().plot(label='registered')
plt.legend(fontsize=12)

# 会員、非会員(休日)
plt.subplot(2,2,2)
df.query('workingday == 1').groupby('hour')['casual'].mean().plot(label='casual')
df.query('workingday == 1').groupby('hour')['registered'].mean().plot(label='registered')
plt.legend(fontsize=12)

In [None]:
drop_col = ['datetime', 'datetimeobj','count']
df_X = df.drop(drop_col,axis = 1)
df_y = df['count']

# トレーニングデータとテストデータに分ける
(train_X, test_X, train_y, test_y) = train_test_split(
    df_X, df_y, test_size=0.3, random_state=0)

# ランダムフォレストモデルを生成
# n_estimators 決定木をいくつ生成するか（デフォルトは10）
clf = RandomForestClassifier(random_state=4, n_estimators=20)
clf = clf.fit(train_X, train_y)

# 結果検証
pred = clf.predict(test_X)
df_pred = pd.DataFrame(pred)
#誤差の平均を求める
test_y_reset = test_y.reset_index().drop('index',axis=1)
err_sum = (df_pred[0] - test_y_reset['count']).abs().mean()
print(err_sum)

In [None]:
#特徴量の重要度を表示
clf = clf.fit(train_X, train_y)

default_imp=pd.DataFrame(data={'importance':clf.feature_importances_,'features':train_X.columns})
default_imp=default_imp.set_index('features')
default_imp=default_imp.sort_values('importance',ascending=False)
default_imp=default_imp[:30]
default_imp.plot(kind='bar',figsize=(15,5))
plt.show()