In [None]:
import pandas as pd
import seaborn as sns
import matplotlib.pyplot as plt
import folium

import glob

# 1. CSV 파일 목록 가져오기
file_list = glob.glob('../data/bike_rent_*.csv')
file_list.sort()  # 숫자 순서대로 정렬

print(f"총 {len(file_list)}개 파일을 찾았습니다.")
print("파일 목록:", file_list)

# 2. 각 파일 읽기 (한글 인코딩 처리 + 날짜 컬럼 변환)
df_list = [pd.read_csv(f, encoding='utf-8', parse_dates=['대여일시']) for f in file_list]

# 3. 병합 및 중복 제거
if df_list:
    df_all = pd.concat(df_list, ignore_index=True)
    print(f"병합된 총 행 수 (중복 제거 전): {df_all.shape[0]}")

    df_all.drop_duplicates(inplace=True)
    print(f"중복 제거 후 총 행 수: {df_all.shape[0]}")

    # 4. CSV 저장 (Excel 호환 인코딩)
    df_all.to_csv('bike_rent_combined.csv', index=False, encoding='utf-8-sig')
    print("CSV 파일로 저장 완료: bike_rent_combined.csv")

    # 5. 확인용 출력
    print(df_all.head())
else:
    print("CSV 파일을 찾을 수 없습니다.")

총 6개 파일을 찾았습니다.
파일 목록: ['../data\\bike_rent_1.csv', '../data\\bike_rent_2.csv', '../data\\bike_rent_3.csv', '../data\\bike_rent_4.csv', '../data\\bike_rent_5.csv', '../data\\bike_rent_6.csv']
병합된 총 행 수 (중복 제거 전): 2215632
중복 제거 후 총 행 수: 2215583
CSV 파일로 저장 완료: bike_rent_combined.csv
       자전거번호                대여일시  대여 대여소번호            대여 대여소명  이용시간  이용거리
0  SPB-22040 2019-06-03 08:49:00       646  장한평역 1번출구 (국민은행앞)    27  1330
1  SPB-07446 2019-06-03 08:33:00       526           용답토속공원 앞    54  1180
2  SPB-20387 2019-06-05 08:27:00       646  장한평역 1번출구 (국민은행앞)    12  1930
3  SPB-16794 2019-06-05 08:46:00       646  장한평역 1번출구 (국민은행앞)     6  1340
4  SPB-18266 2019-06-10 08:27:00       529       장한평역 8번 출구 앞     5  1230


In [None]:
bikes = df_all
bikes.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2215583 entries, 0 to 2215631
Data columns (total 6 columns):
 #   Column    Dtype         
---  ------    -----         
 0   자전거번호     object        
 1   대여일시      datetime64[ns]
 2   대여 대여소번호  int64         
 3   대여 대여소명   object        
 4   이용시간      int64         
 5   이용거리      int64         
dtypes: datetime64[ns](1), int64(3), object(2)
memory usage: 118.3+ MB


In [None]:
bikes.describe()

Unnamed: 0,대여일시,대여 대여소번호,이용시간,이용거리
count,2215583,2215583.0,2215583.0,2215583.0
mean,2019-06-16 08:40:07.242464768,1226.148,27.16996,3912.936
min,2019-06-01 00:00:00,3.0,1.0,0.0
25%,2019-06-08 22:04:00,505.0,8.0,1220.0
50%,2019-06-16 15:14:00,1159.0,17.0,2270.0
75%,2019-06-23 20:22:00,1846.0,37.0,4670.0
max,2019-06-30 23:59:00,9998.0,3133.0,232310.0
std,,849.9153,29.08103,5145.499


In [None]:
bikes.describe( include=[ 'object', 'datetime64' ] )

Unnamed: 0,자전거번호,대여일시,대여 대여소명
count,2215583,2215583,2215583
unique,19029,,1543
top,SPB-17237,,뚝섬유원지역 1번출구 앞
freq,292,,12617
mean,,2019-06-16 08:40:07.242464768,
min,,2019-06-01 00:00:00,
25%,,2019-06-08 22:04:00,
50%,,2019-06-16 15:14:00,
75%,,2019-06-23 20:22:00,
max,,2019-06-30 23:59:00,


In [None]:
bikes.isnull()

Unnamed: 0,자전거번호,대여일시,대여 대여소번호,대여 대여소명,이용시간,이용거리
0,False,False,False,False,False,False
1,False,False,False,False,False,False
2,False,False,False,False,False,False
3,False,False,False,False,False,False
4,False,False,False,False,False,False
...,...,...,...,...,...,...
2215627,False,False,False,False,False,False
2215628,False,False,False,False,False,False
2215629,False,False,False,False,False,False
2215630,False,False,False,False,False,False


In [20]:
bikes.isnull().sum()

자전거번호       0
대여일시        0
대여 대여소번호    0
대여 대여소명     0
이용시간        0
이용거리        0
dtype: int64

In [22]:
bikes.head()

Unnamed: 0,자전거번호,대여일시,대여 대여소번호,대여 대여소명,이용시간,이용거리
0,SPB-22040,2019-06-03 08:49:00,646,장한평역 1번출구 (국민은행앞),27,1330
1,SPB-07446,2019-06-03 08:33:00,526,용답토속공원 앞,54,1180
2,SPB-20387,2019-06-05 08:27:00,646,장한평역 1번출구 (국민은행앞),12,1930
3,SPB-16794,2019-06-05 08:46:00,646,장한평역 1번출구 (국민은행앞),6,1340
4,SPB-18266,2019-06-10 08:27:00,529,장한평역 8번 출구 앞,5,1230
