In [None]:
import pandas as pd

# 여러 인코딩을 자동으로 시도
def read_csv_auto(file_path):
    encodings = ['utf-8', 'utf-8-sig', 'cp949', 'euc-kr', 'latin1']
    
    for encoding in encodings:
        try:
            df = pd.read_csv(file_path, encoding=encoding)
            print(f"{file_path} 성공! 사용된 인코딩: {encoding}")
            return df
        except UnicodeDecodeError:
            continue
    
    print(f"❌ {file_path} 읽기 실패")
    return None

# 사용 예시
df_1 = read_csv_auto('data/BUS_STATION_BOARDING_MONTH_202507.csv')
df_2 = read_csv_auto('data/BUS_STATION_BOARDING_MONTH_202508.csv')
df_3 = read_csv_auto('data/BUS_STATION_BOARDING_MONTH_202509.csv')
df_4 = read_csv_auto('data/BUS_STATION_BOARDING_MONTH_202510.csv')
df_5 = read_csv_auto('data/BUS_STATION_BOARDING_MONTH_202511.csv')

# 데이터 확인
if df_1 is not None:
    display(df_1.head())

✅ data/BUS_STATION_BOARDING_MONTH_202507.csv 성공! 사용된 인코딩: cp949
✅ data/BUS_STATION_BOARDING_MONTH_202508.csv 성공! 사용된 인코딩: cp949
✅ data/BUS_STATION_BOARDING_MONTH_202509.csv 성공! 사용된 인코딩: cp949
✅ data/BUS_STATION_BOARDING_MONTH_202510.csv 성공! 사용된 인코딩: cp949
✅ data/BUS_STATION_BOARDING_MONTH_202511.csv 성공! 사용된 인코딩: cp949


Unnamed: 0,사용일자,노선번호,노선명,표준버스정류장ID,버스정류장ARS번호,역명,승차총승객수,하차총승객수,등록일자
0,20250701,100,100번(하계동~용산구청),100000002,1002,창경궁.서울대학교병원(00031),129,171,20250704
1,20250701,7017,7017번(은평공영차고지~롯데백화점),112000147,13230,명지대사거리.우리은행(00020),113,120,20250704
2,20250701,7017,7017번(은평공영차고지~롯데백화점),112000146,13229,백련시장(00073),73,110,20250704
3,20250701,7017,7017번(은평공영차고지~롯데백화점),112000145,13228,백련시장(00021),93,46,20250704
4,20250701,7017,7017번(은평공영차고지~롯데백화점),112000138,13221,명지전문대.충암중고등학교(00078),201,117,20250704


In [6]:
import glob

# 모든 CSV 파일을 자동으로 찾아서 읽기
file_list = sorted(glob.glob('data/BUS_STATION_BOARDING_MONTH_*.csv'))

dataframes = []
for file in file_list:
    try:
        df = pd.read_csv(file, encoding='cp949')
        print(f"{file} 읽기 성공 - 행 개수: {len(df)}")
        dataframes.append(df)
    except Exception as e:
        print(f"{file} 읽기 실패: {e}")

print(f"\n총 {len(dataframes)}개 파일을 읽었습니다.")

data\BUS_STATION_BOARDING_MONTH_202507.csv 읽기 성공 - 행 개수: 1268713
data\BUS_STATION_BOARDING_MONTH_202508.csv 읽기 성공 - 행 개수: 1227662
data\BUS_STATION_BOARDING_MONTH_202509.csv 읽기 성공 - 행 개수: 1190942
data\BUS_STATION_BOARDING_MONTH_202510.csv 읽기 성공 - 행 개수: 1267242
data\BUS_STATION_BOARDING_MONTH_202511.csv 읽기 성공 - 행 개수: 1188598

총 5개 파일을 읽었습니다.


In [None]:
# 세로로 쌓아서 병합 (concat = concatenate의 약자)
merged_df = pd.concat(dataframes, ignore_index=True)

print(f"\n병합 완료")
print(f"전체 행 개수: {len(merged_df)}")
print(f"전체 열 개수: {len(merged_df.columns)}")
print(f"\n컬럼 목록:")
print(merged_df.columns.tolist())


병합 완료!
전체 행 개수: 6143157
전체 열 개수: 9

컬럼 목록:
['사용일자', '노선번호', '노선명', '표준버스정류장ID', '버스정류장ARS번호', '역명', '승차총승객수', '하차총승객수', '등록일자']


In [8]:
# UTF-8로 저장
merged_df.to_csv('data/bus_station_merged_202507_202511.csv', 
                 encoding='utf-8-sig', 
                 index=False)

print("병합된 파일이 저장되었습니다")

병합된 파일이 저장되었습니다


In [9]:
df = pd.read_csv('data/bus_station_merged_202507_202511.csv')

# 데이터 구조 살펴보기
print(df.info())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 6143157 entries, 0 to 6143156
Data columns (total 9 columns):
 #   Column      Dtype 
---  ------      ----- 
 0   사용일자        int64 
 1   노선번호        object
 2   노선명         object
 3   표준버스정류장ID   int64 
 4   버스정류장ARS번호  object
 5   역명          object
 6   승차총승객수      int64 
 7   하차총승객수      int64 
 8   등록일자        int64 
dtypes: int64(5), object(4)
memory usage: 421.8+ MB
None


In [10]:
# 통계 정보 확인하기 
print(df.describe())

               사용일자     표준버스정류장ID        승차총승객수        하차총승객수          등록일자
count  6.143157e+06  6.143157e+06  6.143157e+06  6.143157e+06  6.143157e+06
mean   2.025091e+07  1.240605e+08  1.151870e+02  1.129087e+02  2.025092e+07
std    1.416627e+02  6.214061e+07  1.618809e+02  1.465547e+02  1.431791e+02
min    2.025070e+07  1.000000e+08  0.000000e+00  0.000000e+00  2.025070e+07
25%    2.025081e+07  1.079001e+08  1.600000e+01  1.900000e+01  2.025081e+07
50%    2.025092e+07  1.140001e+08  6.600000e+01  7.100000e+01  2.025092e+07
75%    2.025102e+07  1.210000e+08  1.540000e+02  1.530000e+02  2.025103e+07
max    2.025113e+07  9.998000e+08  6.886000e+03  5.101000e+03  2.025120e+07


In [15]:
# 결측지 개수 확인하기 
print(df.isnull().sum())

사용일자          0
노선번호          0
노선명           0
표준버스정류장ID     0
버스정류장ARS번호    0
역명            0
승차총승객수        0
하차총승객수        0
등록일자          0
dtype: int64


In [19]:
# 의심스러운 값 찾기
suspect_values = ['~', '-', '?', 'N/A', 'NA', 'nan', '없음', '미상', '']
for col in merged_df.columns:
    for value in suspect_values:
        count = (merged_df[col] == value).sum()
        if count > 0:
            print(f"{col}: {value} {count:,}개")

버스정류장ARS번호: ~ 25,017개


In [17]:
# 각 컬럼별로 상위 5개 값과 고유값 개수 출력
for col in merged_df.columns:
    print(f"\n[ {col} ]")
    print(merged_df[col].value_counts().head(5))
    print(f"고유값 개수: {merged_df[col].nunique()}")


[ 사용일자 ]
사용일자
20250925    41404
20251031    41402
20250904    41388
20250926    41387
20251024    41384
Name: count, dtype: int64
고유값 개수: 150

[ 노선번호 ]
노선번호
N61    55592
N75    49904
N72    47101
N62    46901
N64    46300
Name: count, dtype: int64
고유값 개수: 663

[ 노선명 ]
노선명
N61번(상계동차고지~양천공영차고지)       27825
N61번(양천공영차고지~상계동차고지)       27767
N75번(진관공영차고지~신림2동차고지)      25054
N75번(신림2동차고지~진관공영차고지)      24850
N72은평 (은평공영차고지~중랑공영차고지)    23718
Name: count, dtype: int64
고유값 개수: 696

[ 표준버스정류장ID ]
표준버스정류장ID
113000422    4519
113000421    4500
100000367    4350
100000389    4300
100000388    4300
Name: count, dtype: int64
고유값 개수: 12549

[ 버스정류장ARS번호 ]
버스정류장ARS번호
~        25017
14015     4519
14061     4500
01044     4350
01013     4300
Name: count, dtype: int64
고유값 개수: 12372

[ 역명 ]
역명
덕은교.은평차고지앞(00002)     2515
은평공영차고지(00001)        2496
양천공영차고지(00001)        2059
중랑공영차고지.신내역(00002)    2005
진관공영차고지(00001)        1742
Name: count, dtype: int64
고유값 개수: 40686

[ 승차총승객수 ]
승차총승객수
0    289476
1    1895

In [None]:
#버스정류장ARS번호: ~ 25,017개
#버스정류장ARS번호에서 25개정도의 ~값이 존재함
#~ -> NaN으로 변환 필요

In [20]:
#~를 NaN으로 변환
merged_df['버스정류장ARS번호'] = merged_df['버스정류장ARS번호'].replace('~', pd.NA)

#변환 확인 
print(merged_df['버스정류장ARS번호'].isnull().sum())  # NaN 개수 출력

25017


In [None]:
# 버스정류장ARS번호 결측치 처리

# 처리 전 저장
df_backup = merged_df.copy()

# 버스정류장ARS번호 결측치 비율 확인
ars_missing_ratio = (merged_df['버스정류장ARS번호'].isnull().sum() / len(merged_df) * 100)

print(f"버스정류장ARS번호 결측치: {ars_missing_ratio:.2f}%")

if ars_missing_ratio < 5:
    # 5% 미만: 해당 행 삭제
    before_rows = len(merged_df)
    merged_df = merged_df.dropna(subset=['버스정류장ARS번호'])
    after_rows = len(merged_df)
    
    
else:
    # 5% 이상: 대체값 사용 또는 별도 처리
    merged_df['버스정류장ARS번호'].fillna('미등록', inplace=True)

# 최종 결측치 확인
print("\n최종 결측치 확인:")
final_missing = merged_df.isnull().sum()
final_missing = final_missing[final_missing > 0]

버스정류장ARS번호 결측치: 0.00%
→ 전략: 결측치 행 삭제
  삭제 전: 6,118,140행
  삭제 후: 6,118,140행
  삭제됨: 0행 (0.00%)

최종 결측치 확인:


In [26]:
print(merged_df.dtypes)

사용일자           int64
노선번호          object
노선명           object
표준버스정류장ID      int64
버스정류장ARS번호    object
역명            object
승차총승객수         int64
하차총승객수         int64
등록일자           int64
dtype: object


In [41]:
#컬럼별 샘플 데이터 확인 
for col in merged_df.columns:
    print(f"\n[ {col} - {merged_df[col].dtype}]: ")
    print(merged_df[col].head(3).values)


[ 사용일자 - datetime64[ns]]: 
['2025-07-01T00:00:00.000000000' '2025-07-01T00:00:00.000000000'
 '2025-07-01T00:00:00.000000000']

[ 노선번호 - object]: 
['100' '7017' '7017']

[ 노선명 - object]: 
['100번(하계동~용산구청)' '7017번(은평공영차고지~롯데백화점)' '7017번(은평공영차고지~롯데백화점)']

[ 표준버스정류장ID - int64]: 
[100000002 112000147 112000146]

[ 버스정류장ARS번호 - object]: 
['01002' '13230' '13229']

[ 역명 - object]: 
['창경궁.서울대학교병원(00031)' '명지대사거리.우리은행(00020)' '백련시장(00073)']

[ 승차총승객수 - int64]: 
[129 113  73]

[ 하차총승객수 - int64]: 
[171 120 110]

[ 등록일자 - datetime64[ns]]: 
['2025-07-04T00:00:00.000000000' '2025-07-04T00:00:00.000000000'
 '2025-07-04T00:00:00.000000000']

[ 년도 - int32]: 
[2025 2025 2025]

[ 월 - int32]: 
[7 7 7]

[ 일 - int32]: 
[1 1 1]

[ 요일 - int32]: 
[1 1 1]

[ 요일명 - object]: 
['Tuesday' 'Tuesday' 'Tuesday']

[ 총승하차인원 - int64]: 
[300 233 183]

[ 승하차비율 - float64]: 
[0.75 0.93 0.66]

[ 주중주말 - object]: 
['주중' '주중' '주중']

[ 분기 - object]: 
['3분기' '3분기' '3분기']


In [None]:
# 날짜 형식 변환

# 사용일자, 등록일자 → datetime 형식으로 변환
date_columns = ['사용일자', '등록일자']

for col in date_columns:
    if col in merged_df.columns:
        print(f"  변환 전: {merged_df[col].dtype}")
        
        # 문자열 → datetime 변환
        merged_df[col] = pd.to_datetime(merged_df[col], format='%Y%m%d', errors='coerce')
        
        print(f"  변환 후: {merged_df[col].dtype}")
        print(f"  샘플: {merged_df[col].head(3).values}")

# 파생 변수 생성 (분석용)
if '사용일자' in merged_df.columns:
    merged_df['년도'] = merged_df['사용일자'].dt.year
    merged_df['월'] = merged_df['사용일자'].dt.month
    merged_df['일'] = merged_df['사용일자'].dt.day
    merged_df['요일'] = merged_df['사용일자'].dt.dayofweek  # 0=월요일, 6=일요일
    merged_df['요일명'] = merged_df['사용일자'].dt.day_name()

    print("완료")


날짜 컬럼 변환:

처리 중: 사용일자
  변환 전: int64
  변환 후: datetime64[ns]
  샘플: ['2025-07-01T00:00:00.000000000' '2025-07-01T00:00:00.000000000'
 '2025-07-01T00:00:00.000000000']

처리 중: 등록일자
  변환 전: int64
  변환 후: datetime64[ns]
  샘플: ['2025-07-04T00:00:00.000000000' '2025-07-04T00:00:00.000000000'
 '2025-07-04T00:00:00.000000000']

날짜 파생 변수 생성 완료:
  - 년도, 월, 일, 요일, 요일명


In [None]:
# 이상치 분석 (IQR 방식)


def detect_outliers_iqr(data, column):

    Q1 = data[column].quantile(0.25)  # 25번째 백분위수
    Q3 = data[column].quantile(0.75)  # 75번째 백분위수
    IQR = Q3 - Q1  # 사분위수 범위
    
    # 이상치 기준: Q1 - 1.5*IQR 보다 작거나 Q3 + 1.5*IQR 보다 큰 값
    lower_bound = Q1 - 1.5 * IQR
    upper_bound = Q3 + 1.5 * IQR
    
    outliers = data[(data[column] < lower_bound) | (data[column] > upper_bound)]

    outlier_ratio = len(outliers) / len(data) * 100
    
    return {
        'Q1': Q1,
        'Q3': Q3,
        'IQR': IQR,
        '하한선': lower_bound,
        '상한선': upper_bound,
        '이상치_개수': len(outliers),
        '이상치_비율(%)': round(outlier_ratio, 2)
    }

# 승하차 인원 이상치 분석
print("승차총승객수 이상치 분석:")
boarding_outliers = detect_outliers_iqr(merged_df, '승차총승객수')

for key, value in boarding_outliers.items():
    print(f"  {key}: {value}")

print("하차총승객수 이상치 분석:")
alighting_outliers = detect_outliers_iqr(merged_df, '하차총승객수')

for key, value in alighting_outliers.items():
    print(f"  {key}: {value}")


3단계: 이상치 탐지

승차총승객수 이상치 분석:
  Q1: 17.0
  Q3: 154.0
  IQR: 137.0
  하한선: -188.5
  상한선: 359.5
  이상치_개수: 366754
  이상치_비율(%): 5.99

하차총승객수 이상치 분석:
  Q1: 20.0
  Q3: 154.0
  IQR: 134.0
  하한선: -181.0
  상한선: 355.0
  이상치_개수: 321451
  이상치_비율(%): 5.25


In [42]:
# 분석용 파생 변수 생성

merged_df['총승하차인원'] = merged_df['승차총승객수'] + merged_df['하차총승객수']
merged_df['승하차비율'] = (merged_df['승차총승객수'] / 
                        (merged_df['하차총승객수'] + 1)).round(2)

merged_df['주중주말'] = merged_df['요일'].apply(lambda x: '주말' if x >= 5 else '주중')
merged_df['분기'] = merged_df['월'].apply(lambda x: f'{(x-1)//3 + 1}분기')

print(merged_df[['총승하차인원', '승하차비율', '주중주말', '분기']].head())

   총승하차인원  승하차비율 주중주말   분기
0     300   0.75   주중  3분기
1     233   0.93   주중  3분기
2     183   0.66   주중  3분기
3     139   1.98   주중  3분기
4     318   1.70   주중  3분기


In [None]:
# 정류장별 집계

station_stats = merged_df.groupby('역명').agg({
    '승차총승객수': ['sum', 'mean', 'std', 'count'],
    '하차총승객수': ['sum', 'mean', 'std', 'count'],
    '총승하차인원': ['sum', 'mean']
}).round(2)

station_stats.columns = ['승차_총합', '승차_평균', '승차_표준편차', '승차_데이터수',
                         '하차_총합', '하차_평균', '하차_표준편차', '하차_데이터수',
                         '총승하차_총합', '총승하차_평균']

station_stats = station_stats.sort_values('총승하차_총합', ascending=False)
print(station_stats.head(10))

station_stats.to_csv('statistical_data/정류장별_통계.csv', encoding='utf-8-sig')

                     승차_총합    승차_평균  승차_표준편차  승차_데이터수   하차_총합    하차_평균  \
역명                                                                       
회기역(00001)          703963  2346.54  1853.75      300  323785  1079.28   
수유역(00016)          436112  1453.71   377.20      300  389421  1298.07   
구로디지털단지역(중)(00016)  380206  2534.71   592.18      150  433468  2889.79   
당산역.지하철2호선(00019)   438683  2924.55   694.35      150  335857  2239.05   
경희대의료원(00004)       401380  2675.87  1306.89      150  362565  2417.10   
신림역4번출구(00015)      376875  2512.50   567.02      150  335585  2237.23   
낙성대역(00039)         309946  2052.62   611.13      151  372003  2463.60   
수유역.강북구청(00013)     348518   387.24   276.72      900  322516   358.35   
신대방역(00013)         321125  2140.83   365.42      150  298980  1993.20   
신림역(00012)          332820  2218.80   314.31      150  268111  1787.41   

                    하차_표준편차  하차_데이터수  총승하차_총합  총승하차_평균  
역명                                                    

In [None]:
# 노선별 통계
route_stats = merged_df.groupby('노선번호').agg({
    '승차총승객수': ['sum', 'mean', 'max'],
    '하차총승객수': ['sum', 'mean', 'max'],
    '역명': 'nunique'
}).round(2)

route_stats.columns = ['승차_총합', '승차_평균', '승차_최대',
                       '하차_총합', '하차_평균', '하차_최대', '정류장수']

print(route_stats.sort_values('승차_총합', ascending=False).head(10))
route_stats.to_csv('statistical_data/노선별_통계.csv', encoding='utf-8-sig')

        승차_총합   승차_평균  승차_최대    하차_총합   하차_평균  하차_최대  정류장수
노선번호                                                      
143   5412802  319.34   2344  5281359  311.58   2161   115
272   4648353  329.67   1741  4559477  323.37   1363    99
271   4569526  247.67   1241  4456555  241.55   1136   131
160   4530221  251.68   1392  4434497  246.36   1496   123
130   4290614  328.78   1484  4219986  323.37   1726    89
150   4203608  227.84   1014  4117321  223.16   1360   125
152   4162011  211.81   1333  4073784  207.32   1930   139
273   4157037  247.50   1230  4067529  242.17   1172   114
163   3925813  233.68   1731  3857802  229.63   1361   114
147   3903024  226.26   1366  3828875  221.96   1078   123


In [None]:
# 시간대별 통계

if '사용일자' in merged_df.columns:
    daily_stats = merged_df.groupby('사용일자').agg({
        '승차총승객수': 'sum',
        '하차총승객수': 'sum',
        '총승하차인원': 'sum'
    }).round(2)
    daily_stats.to_csv('data/일별_통계.csv', encoding='utf-8-sig')

if '월' in merged_df.columns:
    monthly_stats = merged_df.groupby('월').agg({
        '승차총승객수': ['sum', 'mean'],
        '하차총승객수': ['sum', 'mean']
    }).round(2)
    monthly_stats.columns = ['승차_총합', '승차_평균', '하차_총합', '하차_평균']
    monthly_stats.to_csv('data/월별_통계.csv', encoding='utf-8-sig')

if '요일명' in merged_df.columns:
    weekday_stats = merged_df.groupby('요일명').agg({
        '승차총승객수': ['sum', 'mean'],
        '하차총승객수': ['sum', 'mean']
    }).round(2)
    weekday_stats.columns = ['승차_총합', '승차_평균', '하차_총합', '하차_평균']
    
    weekday_order = ['Monday', 'Tuesday', 'Wednesday', 'Thursday', 
                     'Friday', 'Saturday', 'Sunday']
    weekday_stats = weekday_stats.reindex(weekday_order)
    weekday_stats.to_csv('statistical_data/요일별_통계.csv', encoding='utf-8-sig')

일별 통계 저장 완료 (150일)
월별 통계 저장 완료
요일별 통계 저장 완료


In [25]:
from sqlalchemy import create_engine

db_connection_str = 'postgresql://postgres:1234@localhost:5432/bus_data'
db_connection = create_engine(db_connection_str)

try:
    with db_connection.connect() as conn:
        print("DB 연결 성공")
except Exception as e:
    print("연결 실패", e)

DB 연결 성공


In [26]:
# 노선 테이블용 데이터 (중복 제거)
df_routes = df[['노선코드', '노선명']].drop_duplicates(subset='노선코드').copy()

# 노선명이 비어있거나 이상한 값이 들어가 있다면 노선코드로 채움
df_routes['노선명'] = df_routes['노선명'].fillna(df_routes['노선코드'])

# 컬럼명 매핑 
df_routes.columns = ['route_id', 'route_name']

# DB 저장 
df_routes.to_sql(name='routes', con=db_connection, if_exists='append', index=False)

print("데이터 저장 완료")


데이터 저장 완료


In [29]:
# 정류장 테이블용 데이터 (중복 제거)
df_stations = df[['정류장코드', '정류장명', 'ARS_ID']].drop_duplicates(subset='정류장코드').copy()

# 정류장명이 비어있거나 이상한 값이 들어가 있다면 정류장코드로 채움
df_stations['정류장명'] = df_stations['정류장명'].fillna(df_stations['정류장코드'])

# 컬럼명 매핑 
df_stations.columns = ['station_id', 'station_name', 'ars_id']

# DB 저장 
df_stations.to_sql(name='stations', con=db_connection, if_exists='append', index=False)

print("데이터 저장 완료")


데이터 저장 완료


In [30]:
df_logs = df[['일자', '시간', '노선코드', '정류장코드', '승하차', '거래건수', '거래금액']].copy()


# 컬럼명 매핑 
df_logs.columns = ['usage_date', 'usage_time', 'route_id', 'station_id', 'type', 'count', 'amount']

# DB 저장 (chunksize=1000 -> 데이터가 많을 경우 100개씩 끊어서 저장)
df_logs.to_sql(name="df_logs", con=db_connection, if_exists='append', index=False, chunksize=1000)

print("데이터 저장 완료")


데이터 저장 완료


In [32]:
check_query = "SELECT * FROM df_logs LIMIT 5;"
result = pd.read_sql(check_query, db_connection)

display(result)

Unnamed: 0,usage_date,usage_time,route_id,station_id,type,count,amount
0,20250201,5,33,1061,승차,2,2500
1,20250201,5,33,25,승차,1,1250
2,20250201,5,33,2847,하차,1,0
3,20250201,5,33,2991,승차,2,2500
4,20250201,5,33,2991,하차,1,0
