# 1. Imports
- 데이터 분석과 시각화를 위한 라이브러리 불러오기
- 경고 메시지 무시, 한글 폰트 설정

In [2]:
import pandas as pd
import matplotlib.pyplot as plt
import numpy as np

import warnings
warnings.filterwarnings("ignore")

plt.rc('font', family='Apple SD Gothic Neo')

# 2. Data 불러오기

## 2-1. station_df : 따릉이 대여소 정보
- 대여소 ID, 이름, 위경도 좌표 등 정적 메타데이터

In [14]:
station_df = pd.read_csv('../Data/station_data.csv', index_col=0)
station_df

Unnamed: 0,rackTotCnt,stationName,parkingBikeTotCnt,shared,stationLatitude,stationLongitude,stationId
0,15,102. 망원역 1번출구 앞,21,140,37.555649,126.910629,ST-4
1,14,103. 망원역 2번출구 앞,24,171,37.554951,126.910835,ST-5
2,13,104. 합정역 1번출구 앞,4,31,37.550739,126.915085,ST-6
3,5,105. 합정역 5번출구 앞,0,0,37.550007,126.914825,ST-7
4,12,106. 합정역 7번출구 앞,7,58,37.548645,126.912827,ST-8
...,...,...,...,...,...,...,...
2694,10,6178. 마스터밸류에이스 지식산업센터,23,230,37.558750,126.859917,ST-3337
2695,9,6180.양천향교역 3번출구,6,67,37.569782,126.841751,ST-3365
2696,10,6182.오스템임플란트비전타워,43,430,37.571434,126.828850,ST-3370
2697,10,6183.K스퀘어 마곡,51,510,37.562695,126.827080,ST-3371


In [9]:
station_df.info()

<class 'pandas.core.frame.DataFrame'>
Index: 2699 entries, 0 to 2698
Data columns (total 7 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   rackTotCnt         2699 non-null   int64  
 1   stationName        2699 non-null   object 
 2   parkingBikeTotCnt  2699 non-null   int64  
 3   shared             2699 non-null   int64  
 4   stationLatitude    2699 non-null   float64
 5   stationLongitude   2699 non-null   float64
 6   stationId          2699 non-null   object 
dtypes: float64(2), int64(3), object(2)
memory usage: 168.7+ KB


- `stationId` 컬럼이 object 타입으로 불러와짐
- 실제 값 예시: `ST-4` → 문자/숫자 혼합이므로 string으로 처리

In [11]:
station_df.head() # ST-4 -> object 타입 확인

Unnamed: 0,rackTotCnt,stationName,parkingBikeTotCnt,shared,stationLatitude,stationLongitude,stationId
0,15,102. 망원역 1번출구 앞,21,140,37.555649,126.910629,ST-4
1,14,103. 망원역 2번출구 앞,24,171,37.554951,126.910835,ST-5
2,13,104. 합정역 1번출구 앞,4,31,37.550739,126.915085,ST-6
3,5,105. 합정역 5번출구 앞,0,0,37.550007,126.914825,ST-7
4,12,106. 합정역 7번출구 앞,7,58,37.548645,126.912827,ST-8


## 2-2. break_df : 23년도 1~6월 따릉이 고장신고 내역
- 자전거별 고장 등록일시, 고장 유형 등 포함

In [15]:
break_df = pd.read_excel('../Data/서울시 공공자전거 고장신고 내역_23.1-6.xlsx', engine='openpyxl')
break_df

Unnamed: 0,자전거번호,등록일시,구분
0,SPB-62819,2023-01-01 00:01:00,안장
1,SPB-62819,2023-01-01 00:01:00,페달
2,SPB-32382,2023-01-01 00:24:00,타이어
3,SPB-81126,2023-01-01 01:20:00,단말기
4,SPB-45763,2023-01-01 01:49:00,체인
...,...,...,...
83729,SPB-33647,2023-06-30 23:38:00,기타
83730,SPB-41454,2023-06-30 23:51:00,체인
83731,SPB-48643,2023-06-30 23:53:00,체인
83732,SPB-52223,2023-06-30 23:56:00,기타


In [16]:
break_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 83734 entries, 0 to 83733
Data columns (total 3 columns):
 #   Column  Non-Null Count  Dtype         
---  ------  --------------  -----         
 0   자전거번호   83734 non-null  object        
 1   등록일시    83734 non-null  datetime64[ns]
 2   구분      83734 non-null  object        
dtypes: datetime64[ns](1), object(2)
memory usage: 1.9+ MB


- `등록일시` 컬럼은 현재 datetime 형식 아님
- → 추후 `pd.to_datetime`으로 변환하여 날짜만 남길 예정

In [13]:
break_df.head() # 등록일시는 년월일 만 나오도록 datatype으로 변경예정

Unnamed: 0,자전거번호,등록일시,구분
0,SPB-62819,2023-01-01 00:01:00,안장
1,SPB-62819,2023-01-01 00:01:00,페달
2,SPB-32382,2023-01-01 00:24:00,타이어
3,SPB-81126,2023-01-01 01:20:00,단말기
4,SPB-45763,2023-01-01 01:49:00,체인


## 2-3. office_df : 따릉이 대여소별 이용정보(월별)
- 대여소 단위로 월별 이용 횟수, 반납 횟수 등의 집계 데이터

In [17]:
office_df = pd.read_excel('../Data/서울특별시 공공자전거 대여소별 이용정보(월별)_23.1-6.xlsx', engine='openpyxl')
office_df

Unnamed: 0,자치구,대여소명,기준년월,대여건수,반납건수
0,강남구,2301. 현대고등학교 건너편,202301,383,439
1,강남구,2302. 교보타워 버스정류장(신논현역 3번출구 후면),202301,433,446
2,강남구,2303. 논현역 10번출구,202301,648,508
3,강남구,2304. 대현그린타워,202301,76,55
4,강남구,2305. MCM 본사 직영점 앞,202301,172,179
...,...,...,...,...,...
16301,중랑구,4837. 양원지구 힐데스하임 앞,202306,853,827
16302,중랑구,4838.동원사거리 행복오피스텔 앞,202306,900,669
16303,중랑구,4840. 서울시 북부병원 앞,202306,875,897
16304,중랑구,4841. 중화수경공원,202306,1886,2147


## 2-4. history_df : 따릉이 대여이력 정보 (2023년 1월)
- 개별 이용자의 실제 대여·반납 기록 데이터
- 데이터 크기가 가장 크며, 날짜/성별/이용시간 등의 컬럼 포함

In [18]:
history_df = pd.read_csv('../Data/서울특별시 공공자전거 대여이력 정보_2301.csv', encoding='cp949')
history_df

Unnamed: 0,자전거번호,대여일시,대여 대여소번호,대여 대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간(분),이용거리(M),생년,성별,이용자종류,대여대여소ID,반납대여소ID
0,SPB-39194,2023-01-01 00:02:13,1554,번동사거리,0,2023-01-01 00:02:43,01554,번동사거리,0,0,0.00,1977,\N,내국인,ST-2127,ST-2127
1,SPB-43457,2023-01-01 00:01:20,1653,노원역1번출구,0,2023-01-01 00:03:28,04003,상계초교 입구 교차로 명주빌딩 앞,0,2,0.00,1998,\N,내국인,ST-1121,ST-2699
2,SPB-44383,2023-01-01 00:04:01,2601,석촌호수 아뜰리에,0,2023-01-01 00:04:21,02601,석촌호수 아뜰리에,0,0,0.00,1993,M,내국인,ST-1590,ST-1590
3,SPB-37186,2023-01-01 00:02:09,1080,엘웨딩,0,2023-01-01 00:04:59,03668,성내삼성아파트,0,2,0.00,1965,M,내국인,ST-1841,ST-2740
4,SPB-59440,2023-01-01 00:02:24,1351,안암2교 옆,0,2023-01-01 00:05:02,01308,안암로터리 버스정류장 앞,0,2,780.00,1986,M,내국인,ST-1215,ST-827
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1635591,SPB-31308,2023-01-31 18:41:47,262,영문초등학교 사거리,0,2023-02-01 12:44:01,\N,\N,\N,20,0.00,1971,M,내국인,ST-416,\N
1635592,SPB-38409,2023-01-31 07:39:04,3786,강서힐스테이트 상가 앞,0,2023-02-01 12:59:45,\N,\N,\N,810,0.00,2005,F,내국인,ST-2558,\N
1635593,SPB-35885,2023-01-31 20:55:25,756,목동주차장,0,2023-02-01 22:11:01,00756,목동주차장,0,1515,22355.17,1996,\N,내국인,ST-1497,ST-1497
1635594,SPB-44656,2023-01-31 17:58:30,426,서울신용보증재단,0,2023-02-02 13:11:03,\N,\N,\N,870,0.00,1989,M,내국인,ST-992,\N


In [21]:
history_df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1635596 entries, 0 to 1635595
Data columns (total 16 columns):
 #   Column    Non-Null Count    Dtype  
---  ------    --------------    -----  
 0   자전거번호     1635596 non-null  object 
 1   대여일시      1635596 non-null  object 
 2   대여 대여소번호  1635596 non-null  int64  
 3   대여 대여소명   1635596 non-null  object 
 4   대여거치대     1635596 non-null  int64  
 5   반납일시      1635596 non-null  object 
 6   반납대여소번호   1635596 non-null  object 
 7   반납대여소명    1635596 non-null  object 
 8   반납거치대     1635596 non-null  object 
 9   이용시간(분)   1635596 non-null  int64  
 10  이용거리(M)   1635596 non-null  float64
 11  생년        1635596 non-null  object 
 12  성별        1580454 non-null  object 
 13  이용자종류     1635596 non-null  object 
 14  대여대여소ID   1635596 non-null  object 
 15  반납대여소ID   1635596 non-null  object 
dtypes: float64(1), int64(3), object(12)
memory usage: 199.7+ MB


- 모든 컬럼 데이터 수는 동일하지만 **성별** 값에 결측치 가능성이 있음
- 추후 결측치 전처리 필요

In [24]:
history_df['성별'].unique()

array(['\\N', 'M', 'F', nan, 'f', 'm'], dtype=object)

- 성별 추후 전처리 필요

In [22]:
history_df.head()

Unnamed: 0,자전거번호,대여일시,대여 대여소번호,대여 대여소명,대여거치대,반납일시,반납대여소번호,반납대여소명,반납거치대,이용시간(분),이용거리(M),생년,성별,이용자종류,대여대여소ID,반납대여소ID
0,SPB-39194,2023-01-01 00:02:13,1554,번동사거리,0,2023-01-01 00:02:43,1554,번동사거리,0,0,0.0,1977,\N,내국인,ST-2127,ST-2127
1,SPB-43457,2023-01-01 00:01:20,1653,노원역1번출구,0,2023-01-01 00:03:28,4003,상계초교 입구 교차로 명주빌딩 앞,0,2,0.0,1998,\N,내국인,ST-1121,ST-2699
2,SPB-44383,2023-01-01 00:04:01,2601,석촌호수 아뜰리에,0,2023-01-01 00:04:21,2601,석촌호수 아뜰리에,0,0,0.0,1993,M,내국인,ST-1590,ST-1590
3,SPB-37186,2023-01-01 00:02:09,1080,엘웨딩,0,2023-01-01 00:04:59,3668,성내삼성아파트,0,2,0.0,1965,M,내국인,ST-1841,ST-2740
4,SPB-59440,2023-01-01 00:02:24,1351,안암2교 옆,0,2023-01-01 00:05:02,1308,안암로터리 버스정류장 앞,0,2,780.0,1986,M,내국인,ST-1215,ST-827


- `반납일시`, `대여일시` 컬럼은 현재 object → datetime 변환 예정