In [2]:
import pandas as pd

file_path = '../data/collected_weather_data.csv'

df = pd.read_csv(file_path)

print(df.head())
print(df.columns)


                  측정시간  현재기온  현재습도  현재풍속  1시간뒤기온
0  2025-05-26 17:05:09  22.9  45.0   2.0    21.0
1  2025-05-26 17:05:14  22.9  45.0   2.0    21.0
2  2025-05-26 17:05:19  22.9  45.0   2.0    21.0
Index(['측정시간', '현재기온', '현재습도', '현재풍속', '1시간뒤기온'], dtype='object')


In [3]:
print(df.isnull().sum())
print(df.describe())

측정시간      0
현재기온      0
현재습도      0
현재풍속      0
1시간뒤기온    0
dtype: int64
               현재기온  현재습도  현재풍속  1시간뒤기온
count  3.000000e+00   3.0   3.0     3.0
mean   2.290000e+01  45.0   2.0    21.0
std    4.351168e-15   0.0   0.0     0.0
min    2.290000e+01  45.0   2.0    21.0
25%    2.290000e+01  45.0   2.0    21.0
50%    2.290000e+01  45.0   2.0    21.0
75%    2.290000e+01  45.0   2.0    21.0
max    2.290000e+01  45.0   2.0    21.0


## 머신러닝 학습 준비

In [4]:
# 측정시간 데이터 타입을 날짜 형식으로 수정
if df['측정시간'].dtype == 'object':
    df['측정시간'] = pd.to_datetime(df['측정시간'])
    print("Converted '측정시간' to datetime format.")
    print(df.info())

Converted '측정시간' to datetime format.
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 3 entries, 0 to 2
Data columns (total 5 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   측정시간    3 non-null      datetime64[ns]
 1   현재기온    3 non-null      float64       
 2   현재습도    3 non-null      float64       
 3   현재풍속    3 non-null      float64       
 4   1시간뒤기온  3 non-null      float64       
dtypes: datetime64[ns](1), float64(4)
memory usage: 252.0 bytes
None


In [7]:
# 피쳐 추가: 시각

df['시각'] = df['측정시간'].dt.hour
print("added 시각 feature")
print(df[['측정시간','시각']].head())

added 시각 feature
                 측정시간  시각
0 2025-05-26 17:05:09  17
1 2025-05-26 17:05:14  17
2 2025-05-26 17:05:19  17


In [8]:
df

Unnamed: 0,측정시간,현재기온,현재습도,현재풍속,1시간뒤기온,시각
0,2025-05-26 17:05:09,22.9,45.0,2.0,21.0,17
1,2025-05-26 17:05:14,22.9,45.0,2.0,21.0,17
2,2025-05-26 17:05:19,22.9,45.0,2.0,21.0,17


In [9]:
feature_cols = ['현재기온', '현재습도', '현재풍속', '시각']

target_col = '1시간뒤기온'
required_cols = feature_cols + [target_col]

X = df[feature_cols]
y = df[target_col]

print("입력 피쳐 X: ")
print(X.head())
print("타겟 피쳐 y: ")
print(y.head())



입력 피쳐 X: 
   현재기온  현재습도  현재풍속  시각
0  22.9  45.0   2.0  17
1  22.9  45.0   2.0  17
2  22.9  45.0   2.0  17
타겟 피쳐 y: 
0    21.0
1    21.0
2    21.0
Name: 1시간뒤기온, dtype: float64


In [11]:
# 데이터가 3줄밖에 안되니까 데이터 누수 생각 안하고 선형회귀 돌려보기

from sklearn.linear_model import LinearRegression
import pickle

model = LinearRegression()

model.fit(X, y)
print("모델 학습 완료")

predictions = model.predict(X)
print("예측 결과:")
print(predictions)

model_filename = 'temperature_model.pkl'
with open(model_filename, 'wb') as f:
    pickle.dump(model, f)
print(f"모델이 {model_filename}에 저장되었습니다.")


모델 학습 완료
예측 결과:
[21. 21. 21.]
모델이 temperature_model.pkl에 저장되었습니다.
