<a href="https://colab.research.google.com/github/yutoshima/kobe-subway-prediction/blob/main/%E6%9C%80%E7%B5%82%E8%AA%B2%E9%A1%8C.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import pandas as pd
import numpy as np
from sklearn.linear_model import LinearRegression

# CSVファイルのURL
url = "https://www.city.kobe.lg.jp/documents/33478/subwaydata.csv"

# CSVファイルを読み込み
df = pd.read_csv(url, encoding='shift_jis')

# 不要な列を削除
df = df.iloc[:, :7]

# 欠損値を削除
df = df.dropna()

# 日付列をdatetime型に変換
df['日付'] = pd.to_datetime(df['日付'])

# 曜日、駅をカテゴリカル変数に変換
df['曜日'] = df['曜日'].astype('category')
df['駅'] = df['駅'].astype('category')

# カテゴリカル変数をダミー変数に変換
df = pd.get_dummies(df, columns=['曜日', '駅'])

# 説明変数と目的変数を定義
X = df.drop(["日付", "定期（通勤）", "定期（通学）", "IC大人", "IC小児"], axis=1)
y = df["定期（通勤）"] + df["定期（通学）"] + df["IC大人"] + df["IC小児"]

# モデルの定義と学習
model = LinearRegression()
model.fit(X, y)

# 学習結果の表示
print("Coefficients:", model.coef_)
print("Intercept:", model.intercept_)

# 予測用データの定義
X_new = pd.DataFrame({"日付": ["2024-01-08"], "曜日": ["月"], "駅": ["三宮"]})

# 予測用データを整形
X_new['日付'] = pd.to_datetime(X_new['日付'])
X_new['曜日'] = X_new['曜日'].astype('category')
X_new['駅'] = X_new['駅'].astype('category')
X_new = pd.get_dummies(X_new, columns=['曜日', '駅'])

# 学習に使用した説明変数の列名を取得
columns = X.columns

# 予測に使用する説明変数に適用
X_new = X_new.reindex(columns=columns, fill_value=0)

# 予測
y_pred = model.predict(X_new)
print("予想された乗車数:", y_pred)


Coefficients: [1.69798718e+17 1.69798718e+17 1.69798718e+17 1.69798718e+17
 1.69798718e+17 1.69798718e+17 1.69798718e+17 1.69798718e+17
 7.19733079e+16 7.19733079e+16]
Intercept: -2.417720260445749e+17
予想された乗車数: [30912.]
