# 01. 따릉이 데이터 탐색 (Data Exploration)

## 목적
- 서울시 공공자전거 신규가입자 정보 데이터 로딩 및 기본 탐색
- 데이터 구조, 타입, 결측치, 기초 통계량 확인
- 초기 데이터 품질 체크

## 1. 라이브러리 Import

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
from pathlib import Path
import warnings

warnings.filterwarnings('ignore')

# 한글 폰트 설정 (Windows)
plt.rcParams['font.family'] = 'Malgun Gothic'
plt.rcParams['axes.unicode_minus'] = False

# 시각화 스타일
sns.set_style('whitegrid')
plt.rcParams['figure.figsize'] = (12, 6)

print("라이브러리 로딩 완료!")

## 2. 데이터 로딩

**참고**: 데이터 파일은 `data/raw/` 폴더에 위치해야 합니다.

In [None]:
# 데이터 경로 설정
data_path = Path('../data/raw/서울시 공공자전거 신규가입자 정보(월별).csv')

# 데이터 로딩 (cp949 인코딩)
df = pd.read_csv(data_path, encoding='cp949')

print(f"데이터 로딩 완료!")
print(f"데이터 크기: {df.shape[0]:,}행 x {df.shape[1]}열")

## 3. 데이터 구조 확인

In [None]:
# 컬럼명 확인
print("\n=== 컬럼명 ===")
print(df.columns.tolist())

In [None]:
# 상위 5개 행 확인
print("\n=== 데이터 미리보기 ===")
df.head(10)

In [None]:
# 데이터 타입 및 결측치 확인
print("\n=== 데이터 정보 ===")
df.info()

## 4. 기초 통계량

In [None]:
# 수치형 컬럼 기초 통계량
print("\n=== 기초 통계량 ===")
df.describe()

In [None]:
# 범주형 컬럼 확인
print("\n=== 성별 분포 ===")
print(df['성별'].value_counts())

print("\n=== 연령대 분포 ===")
print(df['연령대코드'].value_counts())

## 5. 데이터 전처리

### 5.1 날짜 변환

In [None]:
# 대여월을 datetime 형식으로 변환
df['대여월_dt'] = pd.to_datetime(df['대여월'], format='%Y%m')

print("날짜 변환 완료!")
print(df[['대여월', '대여월_dt']].head())

### 5.2 컬럼명 정리 (선택적)

In [None]:
# 컬럼명 영문 매핑 (선택적)
column_mapping = {
    '대여월': 'rental_month',
    '이용권코드': 'subscription_type',
    '성별': 'gender',
    '연령대코드': 'age_group',
    '신규가입자수': 'new_subscribers'
}

# df_en = df.rename(columns=column_mapping)
# print(df_en.columns.tolist())

## 6. 간단한 시각화

In [None]:
# 월별 신규 가입자 수 추이
monthly_total = df.groupby('대여월_dt')['신규가입자수'].sum()

plt.figure(figsize=(12, 6))
monthly_total.plot(kind='line', marker='o', linewidth=2, markersize=8, color='#4A90E2')
plt.title('월별 신규 가입자 수 추이', fontsize=16, fontweight='bold', pad=20)
plt.xlabel('월', fontsize=12)
plt.ylabel('신규 가입자 수', fontsize=12)
plt.grid(True, alpha=0.3)
plt.tight_layout()
plt.show()

print(f"\n총 신규 가입자 수: {monthly_total.sum():,}명")

## 7. 데이터 저장 (Processed)

전처리된 데이터를 저장합니다.

In [None]:
# 전처리된 데이터 저장
output_path = Path('../data/processed/cleaned_seoulbike_newusers.csv')
df.to_csv(output_path, index=False, encoding='utf-8-sig')

print(f"전처리된 데이터 저장 완료: {output_path}")

## 8. 탐색 결과 요약

### 발견 사항
- 데이터 기간: YYYY년 MM월 ~ YYYY년 MM월
- 총 레코드 수: XXX건
- 결측치: 없음/있음
- 주요 특징: (여기에 기록)

### 다음 단계
- 02_trend_analysis.ipynb: 월별 추이 및 성장률 분석
- 03_demographic_analysis.ipynb: 성별/연령대별 심층 분석