In [44]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
from sklearn.compose import ColumnTransformer
from sklearn.impute import SimpleImputer
import numpy as np

In [51]:
import pandas as pd

# 파일 경로 리스트
air_quality_files = [
    '서울교통공사_지하역사_공기질_측정_정보_20171231_cleaned_v2.csv',
    '서울교통공사_지하역사_공기질_측정_정보_20181231_cleaned_v2.csv',
    '서울교통공사_지하역사_공기질_측정_정보_20191231_cleaned_v2.csv',
    '서울교통공사_지하역사_공기질_측정_정보_20201231_cleaned_v2.csv',
    '서울교통공사_지하역사_공기질_측정_정보_20211231_cleaned_v2.csv',
    '서울교통공사_지하역사_공기질_측정_정보_20221231_cleaned_v2.csv'
]

# 승하차 인원수 데이터 파일 경로 리스트
passenger_files = [
    '서울교통공사_승하차_인원수20171231_cleaned_v2.csv',
    '서울교통공사_승하차_인원수20181231_cleaned_v2.csv',
    '서울교통공사_승하차_인원수20191231_cleaned_v2.csv',
    '서울교통공사_승하차_인원수20201231_cleaned_v2.csv',
    '서울교통공사_승하차_인원수20211231_cleaned_v2.csv',
    '서울교통공사_승하차_인원수20221231_cleaned_v2.csv'
]

# 결합된 데이터프레임들을 저장할 리스트
combined_dataframes = []

# 각 파일을 읽어 결합
for air_quality_file, passenger_file in zip(air_quality_files, passenger_files):
    # 공기질 데이터 읽기
    air_quality_df = pd.read_csv(air_quality_file)
    
    # 승하차 인원수 데이터 읽기
    passenger_df = pd.read_csv(passenger_file)
    passenger_df.rename(columns={'승하차_인원수': '총 승객수'}, inplace=True)
    
    # 데이터프레임 결합
    combined_df = pd.merge(air_quality_df, passenger_df[['역명', '총 승객수']], on='역명', how='left')
    
    # 총 승객수가 NaN인 행 제거
    combined_df = combined_df.dropna(subset=['총 승객수'])
    
    # 결합된 데이터프레임을 리스트에 추가
    combined_dataframes.append(combined_df)
    
    # 결과를 새로운 CSV 파일로 저장
    output_file = air_quality_file.replace('공기질_측정_정보', '공기질_승하차_정보_병합')
    combined_df.to_csv(output_file, index=False, encoding='utf-8-sig')
    
    print(f"{output_file} 파일을 성공적으로 처리하고 저장했습니다.")

# 확인 (예시: 첫 번째 결합된 데이터프레임 출력)
combined_dataframes[0]

서울교통공사_지하역사_공기질_승하차_정보_병합_20171231_cleaned_v2.csv 파일을 성공적으로 처리하고 저장했습니다.
서울교통공사_지하역사_공기질_승하차_정보_병합_20181231_cleaned_v2.csv 파일을 성공적으로 처리하고 저장했습니다.
서울교통공사_지하역사_공기질_승하차_정보_병합_20191231_cleaned_v2.csv 파일을 성공적으로 처리하고 저장했습니다.
서울교통공사_지하역사_공기질_승하차_정보_병합_20201231_cleaned_v2.csv 파일을 성공적으로 처리하고 저장했습니다.
서울교통공사_지하역사_공기질_승하차_정보_병합_20211231_cleaned_v2.csv 파일을 성공적으로 처리하고 저장했습니다.
서울교통공사_지하역사_공기질_승하차_정보_병합_20221231_cleaned_v2.csv 파일을 성공적으로 처리하고 저장했습니다.


Unnamed: 0,역명,미세먼지,이산화탄소,폼알데하이드,일산화탄소,총 승객수
0,서울,86.9,676.0,25.7,0.6,137657.0
1,시청,102.0,535.0,33.7,0.5,58210.0
2,종각,79.4,562.0,35.0,0.6,85411.0
5,동대문,89.4,566.0,28.5,0.7,62261.0
6,동묘앞,93.6,606.0,32.0,0.5,40550.0
...,...,...,...,...,...,...
249,남한산성입구,75.1,530.0,23.0,0.9,15118.0
250,단대오거리,69.8,450.0,21.0,0.8,13931.0
251,신흥,82.1,514.0,23.0,0.6,7802.0
252,수진,75.8,512.0,30.5,1.0,8433.0


## ARIMA

In [58]:
import pandas as pd
import numpy as np
from statsmodels.tsa.arima.model import ARIMA
import warnings
warnings.filterwarnings('ignore')

# 결합된 데이터 파일 리스트
combined_files = [
    '서울교통공사_지하역사_공기질_승하차_정보_병합_20171231_cleaned_v2.csv',
    '서울교통공사_지하역사_공기질_승하차_정보_병합_20181231_cleaned_v2.csv',
    '서울교통공사_지하역사_공기질_승하차_정보_병합_20191231_cleaned_v2.csv',
    '서울교통공사_지하역사_공기질_승하차_정보_병합_20201231_cleaned_v2.csv',
    '서울교통공사_지하역사_공기질_승하차_정보_병합_20211231_cleaned_v2.csv',
    '서울교통공사_지하역사_공기질_승하차_정보_병합_20221231_cleaned_v2.csv'
]

# 모든 결합된 데이터를 하나의 데이터프레임으로 병합
dataframes = []
for file in combined_files:
    df = pd.read_csv(file)
    df['연도'] = int(file[-20:-16])  # 파일명에서 연도 추출
    dataframes.append(df)

# 전체 데이터프레임 결합
all_data = pd.concat(dataframes)

# '역명'을 기준으로 그룹화하여 시계열 데이터 생성
stations = all_data['역명'].unique()

# 예측 결과를 저장할 데이터프레임 생성
prediction_results = []

# 각 역명별로 시계열 예측
for station in stations:
    station_data = all_data[all_data['역명'] == station]
    station_data.set_index('연도', inplace=True)
    
    station_prediction = {'역명': station}
    
    # 각 지표에 대해 ARIMA 모델을 적용하여 예측
    for column in ['미세먼지', '이산화탄소', '폼알데하이드', '일산화탄소', '총 승객수']:
        ts = station_data[column].astype(float)
        
        # 데이터가 충분한지 확인 (최소 3개 이상의 데이터 포인트가 필요)
        if len(ts) < 3:
            print(f"{station}의 {column} 데이터가 충분하지 않습니다. 건너뜁니다.")
            station_prediction[column] = np.nan
            continue
        
        try:
            model = ARIMA(ts, order=(1, 1, 1))  # ARIMA(1,1,1) 모델 사용
            model_fit = model.fit()
            forecast = model_fit.forecast(steps=1)  # 1년 예측
            
            # 예측 결과 저장
            station_prediction[column] = forecast[0] if isinstance(forecast, (list, np.ndarray)) else forecast
        except Exception as e:
            print(f"{station}의 {column} 데이터 예측 중 오류 발생: {e}")
            station_prediction[column] = np.nan
    
    # 예측 결과를 리스트에 추가
    prediction_results.append(station_prediction)

# 결과를 데이터프레임으로 변환
prediction_results_df = pd.DataFrame(prediction_results)

# 기존 데이터 형식에 맞추어 '연도' 컬럼 추가
prediction_results_df['연도'] = 2023  # 예측 연도를 2023으로 설정

# 기존 데이터와 예측 데이터를 결합
final_results = pd.concat([all_data.reset_index(), prediction_results_df], ignore_index=True)

# 결과를 새로운 CSV 파일로 저장
final_results.to_csv('지하역사_공기질_승하차_정보_예측.csv', index=False, encoding='utf-8-sig')
print("지하역사_공기질_승하차_정보_예측.csv 파일을 성공적으로 처리하고 저장했습니다.")


홍대입구의 총 승객수 데이터 예측 중 오류 발생: LU decomposition error.
경찰병원의 총 승객수 데이터 예측 중 오류 발생: LU decomposition error.
답십리의 총 승객수 데이터 예측 중 오류 발생: LU decomposition error.
마포구청의 이산화탄소 데이터 예측 중 오류 발생: LU decomposition error.
안암의 이산화탄소 데이터 예측 중 오류 발생: LU decomposition error.
중화의 총 승객수 데이터 예측 중 오류 발생: LU decomposition error.
청담의 이산화탄소 데이터 예측 중 오류 발생: LU decomposition error.
학동의 총 승객수 데이터 예측 중 오류 발생: LU decomposition error.
남성의 총 승객수 데이터 예측 중 오류 발생: LU decomposition error.
장승배기의 총 승객수 데이터 예측 중 오류 발생: LU decomposition error.
신대방삼거리의 총 승객수 데이터 예측 중 오류 발생: LU decomposition error.
가산디지털단지의 총 승객수 데이터 예측 중 오류 발생: LU decomposition error.
강동구청의 총 승객수 데이터 예측 중 오류 발생: LU decomposition error.
문정의 총 승객수 데이터 예측 중 오류 발생: LU decomposition error.
미사의 미세먼지 데이터가 충분하지 않습니다. 건너뜁니다.
미사의 이산화탄소 데이터가 충분하지 않습니다. 건너뜁니다.
미사의 폼알데하이드 데이터가 충분하지 않습니다. 건너뜁니다.
미사의 일산화탄소 데이터가 충분하지 않습니다. 건너뜁니다.
미사의 총 승객수 데이터가 충분하지 않습니다. 건너뜁니다.
하남풍산의 미세먼지 데이터가 충분하지 않습니다. 건너뜁니다.
하남풍산의 이산화탄소 데이터가 충분하지 않습니다. 건너뜁니다.
하남풍산의 폼알데하이드 데이터가 충분하지 않습니다. 건너뜁니다.
하남풍산의 일산화탄

In [3]:
# 'index' 열 제거

import pandas as pd

final_df = pd.read_csv('지하역사_공기질_승하차_정보_예측.csv')
final_df.drop(columns=['index'], inplace=True)
final_df.to_csv('지하역사_공기질_승하차_정보_예측.csv', index=False, encoding='utf-8-sig')