In [None]:
# 📦 따릉이 데이터 분석 Colab 템플릿 (모든 제공 파일 반영)

# 1. 기본 라이브러리 불러오기
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from scipy.stats import skew, kurtosis, shapiro

# 2. 파일 업로드 (여러 파일 지원)
from google.colab import files
uploaded = files.upload()

# 3. 파일별 읽기
main_df, summary_df, station_df, region_df = None, None, None, None
for fname in uploaded:
    if 'tpss_bcycl' in fname:
        for enc in ['cp949', 'utf-8', 'euc-kr']:
            try:
                main_df = pd.read_csv(fname, encoding=enc)
                break
            except:
                continue
    elif 'rent_summary' in fname:
        summary_df = pd.read_csv(fname, encoding='cp949')
    elif 'stations' in fname:
        station_df = pd.read_excel(fname)
    elif '자치구' in fname:
        region_df = pd.read_excel(fname)

# 4. 컬럼 정리 (메인 분석 데이터)
df = main_df.copy()
df.rename(columns={
    '기준_날짜': 'RENT_DATE',
    '기준_시간대': 'RENT_TIME',
    '시작_대여소명': 'RENT_STATION_NAME',
    '종료_대여소명': 'RETURN_STATION_NAME',
    '전체_건수': 'RENT_COUNT',
    '전체_이용_분': 'RENT_DURATION_MIN',
    '전체_이용_거리': 'RENT_DISTANCE_METER'
}, inplace=True)

# 날짜/시간 처리
df['RENT_DATE'] = pd.to_datetime(df['RENT_DATE'], format='%Y%m%d')
df['hour'] = df['RENT_TIME'].astype(str).str.zfill(4).str[:2].astype(int)
df['weekday'] = df['RENT_DATE'].dt.dayofweek

# 파생 변수 생성
day_name = ['Mon', 'Tue', 'Wed', 'Thu', 'Fri', 'Sat', 'Sun']
df['day_name'] = df['weekday'].apply(lambda x: day_name[x])
df['month'] = df['RENT_DATE'].dt.month
df['season'] = df['month'].map({1:'Winter',2:'Winter',3:'Spring',4:'Spring',5:'Spring',6:'Summer',7:'Summer',8:'Summer',9:'Fall',10:'Fall',11:'Fall',12:'Winter'})
df['is_weekend'] = df['weekday'] >= 5

# 이상치 제거
df.dropna(subset=['RENT_DURATION_MIN', 'RENT_DISTANCE_METER'], inplace=True)
df = df[(df['RENT_DURATION_MIN'] > 0) & (df['RENT_DISTANCE_METER'] > 0)]

# 분석 1: 기초 통계
print("\n[기초 통계 요약]")
print(df[['RENT_COUNT', 'RENT_DURATION_MIN', 'RENT_DISTANCE_METER']].describe())

# 분석 2: 시간대/요일/월별 시각화
df['time_slot'] = pd.cut(df['hour'], bins=[0,6,9,12,15,18,21,24], right=False,
                         labels=['00~06','06~09','09~12','12~15','15~18','18~21','21~24'])
df['time_slot'].value_counts().sort_index().plot(kind='bar', title='시간대별 대여/반납 분포')
plt.xlabel('시간대'); plt.ylabel('건수'); plt.show()

df['day_name'].value_counts().reindex(day_name).plot(kind='bar', title='요일별 대여량')
plt.show()
df['month'].value_counts().sort_index().plot(kind='bar', title='월별 대여량')
plt.show()

# 분석 3: 분포 + 정규성 검정
print("\n[이용시간 정규성 검정]")
print("왜도:", skew(df['RENT_DURATION_MIN']))
print("첨도:", kurtosis(df['RENT_DURATION_MIN']))
print("Shapiro-Wilk p-value:", shapiro(df['RENT_DURATION_MIN'].sample(500, random_state=42)).pvalue)
sns.histplot(df['RENT_DURATION_MIN'], bins=100, kde=True)
plt.title('이용 시간 분포')
plt.show()

# 분석 4: 이상치 시각화
sns.boxplot(x=df['RENT_DURATION_MIN'])
plt.title('이용 시간 이상치')
plt.show()

# 분석 5: 주말/계절 분석
sns.barplot(x='is_weekend', y='RENT_COUNT', data=df)
plt.xticks([0,1], ['평일', '주말'])
plt.title('주말 vs 평일 대여량')
plt.show()
sns.boxplot(x='season', y='RENT_DURATION_MIN', data=df)
plt.title('계절별 이용 시간')
plt.show()

# 분석 6: 인기 대여소
popular = df.groupby('RENT_STATION_NAME')['RENT_COUNT'].sum().sort_values(ascending=False).head(10)
popular.plot(kind='barh', title='인기 대여소 TOP 10', color='green')
plt.gca().invert_yaxis()
plt.show()

# 분석 7: 보조 데이터 확인
if region_df is not None:
    print("\n[자치구별 대여건수 요약]")
    print(region_df.head())

if summary_df is not None:
    print("\n[대여소 시간대 요약] 파일 불러오기 완료")
    print(summary_df.head())

if station_df is not None:
    print("\n[인기 대여소 정렬 결과] 파일 불러오기 완료")
    print(station_df.head())

# 끝!
