# 환경 세팅

## 한글폰트 설치 (런타임 재시작 필요)

In [None]:
!sudo apt-get install -y fonts-nanum
!sudo fc-cache -fv
!rm ~/.cache/matplotlib -rf

Reading package lists... Done
Building dependency tree... Done
Reading state information... Done
The following NEW packages will be installed:
  fonts-nanum
0 upgraded, 1 newly installed, 0 to remove and 16 not upgraded.
Need to get 10.3 MB of archives.
After this operation, 34.1 MB of additional disk space will be used.
Get:1 http://archive.ubuntu.com/ubuntu jammy/universe amd64 fonts-nanum all 20200506-1 [10.3 MB]
Fetched 10.3 MB in 1s (9,630 kB/s)
debconf: unable to initialize frontend: Dialog
debconf: (No usable dialog-like program is installed, so the dialog based frontend cannot be used. at /usr/share/perl5/Debconf/FrontEnd/Dialog.pm line 78, <> line 1.)
debconf: falling back to frontend: Readline
debconf: unable to initialize frontend: Readline
debconf: (This frontend requires a controlling tty.)
debconf: falling back to frontend: Teletype
dpkg-preconfigure: unable to re-open stdin: 
Selecting previously unselected package fonts-nanum.
(Reading database ... 120831 files and dire

## lightgbm 버전 다운그레이드 (런타임 재시작 필요)
- lightgbm 3.3.2 버전

In [None]:
!pip install lightgbm==3.3.2

Collecting lightgbm==3.3.2
  Downloading lightgbm-3.3.2-py3-none-manylinux1_x86_64.whl (2.0 MB)
[2K     [90m━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━[0m [32m2.0/2.0 MB[0m [31m12.2 MB/s[0m eta [36m0:00:00[0m
Installing collected packages: lightgbm
  Attempting uninstall: lightgbm
    Found existing installation: lightgbm 4.0.0
    Uninstalling lightgbm-4.0.0:
      Successfully uninstalled lightgbm-4.0.0
Successfully installed lightgbm-3.3.2


- 런타임 재시작 (crtl+M.) 후 버전 확인

In [None]:
import lightgbm
lightgbm.__version__

'3.3.2'

## 모델 학습 후 파일로 저장하는 joblib 설치

In [None]:
!pip install joblib

## 구글 드라이브 연동

In [None]:
from google.colab import drive
drive.mount("/content/drive")

Mounted at /content/drive


# 머신러닝 코드

## 단순선형회귀 (sklearn.linear_model.LinearRegression)

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import MinMaxScaler
import joblib  # joblib 라이브러리를 추가합니다

# CSV 파일을 로드합니다. 데이터 형식에 따라 파일 경로 및 구조를 조정해야 할 수 있습니다.
data = pd.read_csv("subway_congestion_data.csv")

# '시간' 열을 독립 변수 X로, '혼잡도' 열을 종속 변수 y로 설정합니다.
X = data['시간'].values.reshape(-1, 1)
y = data['혼잡도'].values

# 학습 데이터와 테스트 데이터로 데이터를 나눕니다.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Pipeline을 정의합니다.
pipeline = Pipeline([
    ('scaler', MinMaxScaler()),  # MinMaxScaler로 변경
    ('regressor', LinearRegression())  # 선형 회귀 모델
])

# Pipeline을 사용하여 모델을 학습합니다.
pipeline.fit(X_train, y_train)

# 학습된 모델을 파일로 저장합니다.
joblib.dump(pipeline, 'linear_regression_model.pkl')

# 테스트 데이터를 사용하여 예측을 수행합니다.
y_pred = pipeline.predict(X_test)

# 선형 회귀 모델의 성능을 평가합니다.
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# 결과를 출력합니다.
print("Mean Squared Error:", mse)
print("R-squared:", r2)

# 예측 결과와 실제 데이터를 시각화합니다.
plt.scatter(X_test, y_test, color='blue', label='실제 데이터')
plt.plot(X_test, y_pred, color='red', linewidth=2, label='선형 회귀 예측')
plt.xlabel('시간')
plt.ylabel('혼잡도')
plt.legend()
plt.show()

## 단순선형회귀 (lightgbm.LGBMRegressor)

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from lightgbm import LGBMRegressor  # LightGBM 회귀 모델을 추가합니다
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import MinMaxScaler
import joblib

# CSV 파일을 로드합니다. 데이터 형식에 따라 파일 경로 및 구조를 조정해야 할 수 있습니다.
data = pd.read_csv("subway_congestion_data.csv")

# '시간' 열을 독립 변수 X로, '혼잡도' 열을 종속 변수 y로 설정합니다.
X = data['시간'].values.reshape(-1, 1)
y = data['혼잡도'].values

# 학습 데이터와 테스트 데이터로 데이터를 나눕니다.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Pipeline을 정의합니다. 여기서는 MinMaxScaler를 사용하여 데이터 스케일링합니다.
pipeline = Pipeline([
    ('scaler', MinMaxScaler()),
    ('regressor', LGBMRegressor())  # LightGBM 회귀 모델
])

# Pipeline을 사용하여 모델을 학습합니다.
pipeline.fit(X_train, y_train)

# 학습된 모델을 파일로 저장합니다.
joblib.dump(pipeline, 'lightgbm_regression_model.pkl')

# 테스트 데이터를 사용하여 예측을 수행합니다.
y_pred = pipeline.predict(X_test)

# LightGBM 회귀 모델의 성능을 평가합니다.
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# 결과를 출력합니다.
print("Mean Squared Error:", mse)
print("R-squared:", r2)

# 예측 결과와 실제 데이터를 시각화합니다.
plt.scatter(X_test, y_test, color='blue', label='실제 데이터')
plt.plot(X_test, y_pred, color='red', linewidth=2, label='LightGBM 회귀 예측')
plt.xlabel('시간')
plt.ylabel('혼잡도')
plt.legend()
plt.show()

## 다중선형회귀 (시간, 강수량) (sklearn.linear_model.LinearRegression)

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import MinMaxScaler
import joblib

# CSV 파일을 로드합니다. 데이터 형식에 따라 파일 경로 및 구조를 조정해야 할 수 있습니다.
data = pd.read_csv("subway_congestion_data.csv")

# '시간'과 '강수량' 열을 독립 변수 X로, '혼잡도' 열을 종속 변수 y로 설정합니다.
X = data[['시간', '강수량']]
y = data['혼잡도']

# 학습 데이터와 테스트 데이터로 데이터를 나눕니다.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Pipeline을 정의합니다. 여기서는 MinMaxScaler를 사용하여 데이터 스케일링합니다.
pipeline = Pipeline([
    ('scaler', MinMaxScaler()),
    ('regressor', LinearRegression())  # 다중 선형 회귀 모델
])

# Pipeline을 사용하여 모델을 학습합니다.
pipeline.fit(X_train, y_train)

# 학습된 모델을 파일로 저장합니다.
joblib.dump(pipeline, 'multiple_linear_regression_model.pkl')

# 테스트 데이터를 사용하여 예측을 수행합니다.
y_pred = pipeline.predict(X_test)

# 다중 선형 회귀 모델의 성능을 평가합니다.
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# 결과를 출력합니다.
print("Mean Squared Error:", mse)
print("R-squared:", r2)

## 다중선형회귀 (시간, 강수량) (lightgbm.LGBMRegressor)

In [None]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
from sklearn.model_selection import train_test_split
from lightgbm import LGBMRegressor
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import MinMaxScaler
import joblib

# CSV 파일을 로드합니다. 데이터 형식에 따라 파일 경로 및 구조를 조정해야 할 수 있습니다.
data = pd.read_csv("subway_congestion_data.csv")

# '시간'과 '강수량' 열을 독립 변수 X로, '혼잡도' 열을 종속 변수 y로 설정합니다.
X = data[['시간', '강수량']]
y = data['혼잡도']

# 학습 데이터와 테스트 데이터로 데이터를 나눕니다.
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Pipeline을 정의합니다. 여기서는 MinMaxScaler를 사용하여 데이터 스케일링합니다.
pipeline = Pipeline([
    ('scaler', MinMaxScaler()),
    ('regressor', LGBMRegressor())  # LightGBM 회귀 모델
])

# Pipeline을 사용하여 모델을 학습합니다.
pipeline.fit(X_train, y_train)

# 학습된 모델을 파일로 저장합니다.
joblib.dump(pipeline, 'lightgbm_multiple_regression_model.pkl')

# 테스트 데이터를 사용하여 예측을 수행합니다.
y_pred = pipeline.predict(X_test)

# LightGBM 회귀 모델의 성능을 평가합니다.
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

# 결과를 출력합니다.
print("Mean Squared Error:", mse)
print("R-squared:", r2)