# 프로젝트명: 따릉이 인기 대여소 및 대여기간 파악

## Ⅰ 문제 및 프로젝트 정의 

### 1. 배경
2015년에 시작된 서울의 공공 자전거 공유 프로그램인 따릉이는 현재 서울 전역에 2,000개가 넘는 대여소를 운영하고 있습니다. 따릉이는 시민과 관광객 모두에게 인기 있는 교통수단으로 자리 잡았으며, 자동차와 대중교통을 대체하는 친환경적인 대안을 제시하고 있습니다다.

그러나 시스템이 확장됨에 따라 몇 가지 과제가 발생했습니다.

공급 불균형: 일부 대여소는 출퇴근 시간에 자전거가 부족한 경우가 많고, 다른 대여소는 활용도가 낮습니다.

긴 대여 기간: 특정 지역의 자전거 대여 기간이 길어 자전거 또는 대여 시설에 대한 잠재적 수요가 있음을 시사합니다.

### 2. 목표 설정
자전거 유통 및 대여소 관리를 최적화하기 위한 실행 가능한 인사이트를 제공합니다.

- 대여 건수를 기준으로 가장 인기 있는 대여소를 파악

- 각 대여소의 대여 기간을 분석하여 사용 패턴을 파악

### 이를 통해 다음과 같은 산출물을 제작합니다.

- 데이터 분석 보고서, 배경 및 목표 설정 등(README.md)

- 데이터 탐색 및 시각화를 위한 Python 코드가 포함된 데이터 전처리 스크립트 및 EDA 노트북(Python script)

- 시각화(정적 및 대화형): 막대 차트, 상자 그림, 히트맵, 지도(Jupyter Notebook)

- 통계 분석 기반 가설 검정 결과(Python script)

- 자전거 배포 및 정류장 관리 최적화를 위한 실행 가능한 인사이트 및 권장 사항(README.md or insights_and_recommendations.pdf)

- 모든 코드, 노트북 및 문서가 포함된 GitHub 저장소

### 3. 가설 설정
가설 1:

"중심가 및 교통량이 많은 지역(예: 강남, 이태원)에 위치한 자전거 대여소가 가장 많을 것이다."

근거: 인구 밀도가 높고 상업 활동이 활발한 중심가에서 자전거 대여량이 더 많을 가능성이 높다. 본 연구의 목표는 이러한 추세를 구체적인 데이터로 확인하는 것이다.

가설 2:

"주거 지역의 자전거 대여소는 상업 지역의 자전거 대여소보다 평균 대여 기간이 더 길 것이다."

근거: 주거 지역의 사람들은 출퇴근이나 심부름과 같은 장거리 이동을 위해 자전거를 대여할 수 있다. 반면, 상업 지역의 자전거 대여소는 주로 단거리 이동동에 사용되어 대여 시간이 더 짧을 수 있다.

가설 3:

"주중 출퇴근 시간(오전 7시~9시, 오후 5시~7시)에는 대여 활동이 더 많고 주말과 야간에는 더 적을 것이다."

근거: 데이터는 평일 아침과 저녁 러시아워에 자전거 대여량이 급증하고, 야간과 주말에는 이용률이 낮아질 것으로 예상된다.

가설 4:

"대여 건수가 가장 많은 정류장은 다양한 이용자 집단(빠른 통근자와 일반 자전거 이용자 모두)을 대상으로 하기 때문에 대여 기간의 변동성이 더 클 것이다."

근거: 인기 정류장은 단기 및 장기 대여가 혼합되어 있을 가능성이 높으므로 대여 기간이 더 다양할 것이다.


## ⅠⅠ 데이터 수집 및 가공

판다스, 넘파이, 맷플롯립, 시본, 폴리움, 사이파이, 오픈엑셀 설치

In [21]:
pip install pandas numpy matplotlib seaborn folium scipy openpyxl

Note: you may need to restart the kernel to use updated packages.


### 1. 기존 데이터 파악 및 concat

In [7]:
# Import necessary libraries
import pandas as pd
import numpy as np

# Load the datasets (replace with your file paths)
bike_rent_1 = pd.read_csv('C:/Users/EL76/sesac/py313/sesac125/Tasks/sesac/bike/data/bike_rent_1.csv')
bike_rent_2 = pd.read_csv('C:/Users/EL76/sesac/py313/sesac125/Tasks/sesac/bike/data/bike_rent_2.csv')
bike_rent_location = pd.read_excel('C:/Users/EL76/sesac/py313/sesac125/Tasks/sesac/bike/data/bike_rent_location.xlsx')

# Check the first few rows of each dataset to understand the structure
print(bike_rent_1.head())
print(bike_rent_location.head())

       자전거번호             대여일시  대여 대여소번호            대여 대여소명  이용시간  이용거리
0  SPB-22040  2019-06-03 8:49       646  장한평역 1번출구 (국민은행앞)    27  1330
1  SPB-07446  2019-06-03 8:33       526           용답토속공원 앞    54  1180
2  SPB-20387  2019-06-05 8:27       646  장한평역 1번출구 (국민은행앞)    12  1930
3  SPB-16794  2019-06-05 8:46       646  장한평역 1번출구 (국민은행앞)     6  1340
4  SPB-18266  2019-06-10 8:27       529       장한평역 8번 출구 앞     5  1230
    구분  대여소번호              대여소명         위도          경도  거치대수
0  마포구    101  101. (구)합정동 주민센터  37.549561  126.905754     5
1  마포구    102   102. 망원역 1번출구 앞  37.556000  126.910454    20
2  마포구    103   103. 망원역 2번출구 앞  37.554951  126.910835    14
3  마포구    104   104. 합정역 1번출구 앞  37.550629  126.914986    13
4  마포구    105   105. 합정역 5번출구 앞  37.550007  126.914825     5


In [None]:
# 자료들이 같은 구조이며 따라서 merge할 수 있는지 파악

file_paths = [
    "C:/Users/EL76/sesac/py313/sesac125/Tasks/sesac/bike/data/bike_rent_1.csv",
    "C:/Users/EL76/sesac/py313/sesac125/Tasks/sesac/bike/data/bike_rent_2.csv",
    "C:/Users/EL76/sesac/py313/sesac125/Tasks/sesac/bike/data/bike_rent_3.csv",
    "C:/Users/EL76/sesac/py313/sesac125/Tasks/sesac/bike/data/bike_rent_4.csv",
    "C:/Users/EL76/sesac/py313/sesac125/Tasks/sesac/bike/data/bike_rent_5.csv",
    "C:/Users/EL76/sesac/py313/sesac125/Tasks/sesac/bike/data/bike_rent_6.csv",
]

for i, path in enumerate(file_paths, 1):
    df = pd.read_csv(path, nrows=5)  # You can check the structure even if you read only these parts





    print(f"--- bike_rent_{i}.csv ---")
    print("Columns:", df.columns.tolist())
    print("Dtypes:")
    print(df.dtypes)
    print()

--- bike_rent_1.csv ---
Columns: ['자전거번호', '대여일시', '대여 대여소번호', '대여 대여소명', '이용시간', '이용거리']
Dtypes:
자전거번호       object
대여일시        object
대여 대여소번호     int64
대여 대여소명     object
이용시간         int64
이용거리         int64
dtype: object

--- bike_rent_2.csv ---
Columns: ['자전거번호', '대여일시', '대여 대여소번호', '대여 대여소명', '이용시간', '이용거리']
Dtypes:
자전거번호       object
대여일시        object
대여 대여소번호     int64
대여 대여소명     object
이용시간         int64
이용거리         int64
dtype: object

--- bike_rent_3.csv ---
Columns: ['자전거번호', '대여일시', '대여 대여소번호', '대여 대여소명', '이용시간', '이용거리']
Dtypes:
자전거번호       object
대여일시        object
대여 대여소번호     int64
대여 대여소명     object
이용시간         int64
이용거리         int64
dtype: object

--- bike_rent_4.csv ---
Columns: ['자전거번호', '대여일시', '대여 대여소번호', '대여 대여소명', '이용시간', '이용거리']
Dtypes:
자전거번호       object
대여일시        object
대여 대여소번호     int64
대여 대여소명     object
이용시간         int64
이용거리         int64
dtype: object

--- bike_rent_5.csv ---
Columns: ['자전거번호', '대여일시', '대여 대여소번호', '대여 대여소명', '이용시간', '이용거리']
Dt

In [22]:
# 1. 여러 CSV 파일을 하나로 합치기 
csv_files = [
    "sesac/bike/data/bike_rent_1.csv",
    "sesac/bike/data/bike_rent_2.csv",
    "sesac/bike/data/bike_rent_3.csv",
    "sesac/bike/data/bike_rent_4.csv",
    "sesac/bike/data/bike_rent_5.csv",
    "sesac/bike/data/bike_rent_6.csv",
]

bike_data = pd.concat([pd.read_csv(f) for f in csv_files], ignore_index=True)

# bike_data 상, 하위 5개 행 출력
print(bike_data.head())

# bike_data의 describe 정보 출력
print(bike_data.describe(include='all'))


       자전거번호             대여일시  대여 대여소번호            대여 대여소명  이용시간  이용거리
0  SPB-22040  2019-06-03 8:49       646  장한평역 1번출구 (국민은행앞)    27  1330
1  SPB-07446  2019-06-03 8:33       526           용답토속공원 앞    54  1180
2  SPB-20387  2019-06-05 8:27       646  장한평역 1번출구 (국민은행앞)    12  1930
3  SPB-16794  2019-06-05 8:46       646  장한평역 1번출구 (국민은행앞)     6  1340
4  SPB-18266  2019-06-10 8:27       529       장한평역 8번 출구 앞     5  1230
            자전거번호              대여일시      대여 대여소번호        대여 대여소명  \
count     2215632           2215632  2.215632e+06        2215632   
unique      19029             42853           NaN           1543   
top     SPB-17237  2019-06-03 18:07           NaN  뚝섬유원지역 1번출구 앞   
freq          292               266           NaN          12617   
mean          NaN               NaN  1.226154e+03            NaN   
std           NaN               NaN  8.499197e+02            NaN   
min           NaN               NaN  3.000000e+00            NaN   
25%           NaN             

### ②결측치 처리

In [12]:
print(bike_data.info())
print(bike_data.isnull().sum())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2215632 entries, 0 to 2215631
Data columns (total 6 columns):
 #   Column    Dtype 
---  ------    ----- 
 0   자전거번호     object
 1   대여일시      object
 2   대여 대여소번호  int64 
 3   대여 대여소명   object
 4   이용시간      int64 
 5   이용거리      int64 
dtypes: int64(3), object(3)
memory usage: 101.4+ MB
None
자전거번호       0
대여일시        0
대여 대여소번호    0
대여 대여소명     0
이용시간        0
이용거리        0
dtype: int64


In [14]:
# 'null', 'NULL', ''(빈 문자열) 등 문자열 결측치 체크 
# NaN, None은 isnull로 이미 확인
for col in bike_data.columns:
    print(f"{col} - 'null':", (bike_data[col] == 'null').sum())
    print(f"{col} - 'NULL':", (bike_data[col] == 'NULL').sum())
    print(f"{col} - 빈 문자열:", (bike_data[col] == '').sum())

자전거번호 - 'null': 0
자전거번호 - 'NULL': 0
자전거번호 - 빈 문자열: 0
대여일시 - 'null': 0
대여일시 - 'NULL': 0
대여일시 - 빈 문자열: 0
대여 대여소번호 - 'null': 0
대여 대여소번호 - 'NULL': 0
대여 대여소번호 - 빈 문자열: 0
대여 대여소명 - 'null': 0
대여 대여소명 - 'NULL': 0
대여 대여소명 - 빈 문자열: 0
이용시간 - 'null': 0
이용시간 - 'NULL': 0
이용시간 - 빈 문자열: 0
이용거리 - 'null': 0
이용거리 - 'NULL': 0
이용거리 - 빈 문자열: 0


### ③시간 정보 추가

In [34]:
bike_data = bike_data.drop(columns=['hour', 'weekday', 'month', 'weekend', '주말'], errors='ignore')

In [32]:
bike_data['대여일시'] = pd.to_datetime(bike_data['대여일시'])

# '대여일시' 컬럼에서 연도 범위 확인
print("최소 연도:", bike_data['대여일시'].dt.year.min())
print("최대 연도:", bike_data['대여일시'].dt.year.max())

최소 연도: 2019
최대 연도: 2019


In [35]:
# 시간 관련 컬럼을 추가
bike_data['월'] = bike_data['대여일시'].dt.month
bike_data['일'] = bike_data['대여일시'].dt.day
bike_data['시간'] = bike_data['대여일시'].dt.hour

# '대여일시'에서 요일 추출 (월:0, 화:1, ..., 일:6)
bike_data['요일'] = bike_data['대여일시'].dt.dayofweek

# 결측치 확인
print(bike_data.isnull().sum())

자전거번호       0
대여일시        0
대여 대여소번호    0
대여 대여소명     0
이용시간        0
이용거리        0
시간          0
요일          0
월           0
일           0
dtype: int64


In [None]:
# '이용시간' 컬럼(분 단위)을 시간 단위로 변환 및 결과 확인인
bike_data['이용시간(시간)'] = bike_data['이용시간'].apply(lambda x: x / 60)

print(bike_data[['이용시간', '이용시간(시간)']].head())

   이용시간  이용시간(시간)
0    27  0.450000
1    54  0.900000
2    12  0.200000
3     6  0.100000
4     5  0.083333


In [37]:
# bike_rent_location.xlsx 읽어들이기
bike_shop = pd.read_excel(bike_rent_location.xlsx)

bike_shop.head()

AttributeError: 'DataFrame' object has no attribute 'xlsx'