## 서울 자전거 데이터 분석

In [1]:
# 파일 읽기 (상대 경로로 파일 위치 입력)
with open('../0_data/SeoulBikeData.csv','r') as f:
    data = f.readlines()

In [3]:
data[0] # 컬럼명

'Date,Rented Bike Count,Hour,Temperature,Humidity(%),Wind speed (m/s),Visibility (10m),Dew point temperature,Solar Radiation (MJ/m2),Rainfall(mm),Snowfall (cm),Seasons,Holiday,Functioning Day\n'

- 1단계: 첫 행(컬럼명 있는 행) 없애기(8761개 -> 8760개로) 

In [3]:
data = data[1:]  
assert len(data) == 8760 # 개수 8760 맞는지 체크

In [4]:
# 데이터 잘 들어갔는지 앞에랑 뒤에 확인
print('첫줄 확인:', data[0])
print('마지막줄 확인:', data[-1])

첫줄 확인: 01/12/2017,254,0,-5.2,37,2.2,2000,-17.6,0,0,0,Winter,No Holiday,Yes

마지막줄 확인: 30/11/2018,584,23,1.9,43,1.3,1909,-9.3,0,0,0,Autumn,No Holiday,Yes



- 2단계: Date 원소가 있는 컬럼만 추출 ['01/12/2017','01/12/2017','01/12/2017',....,'DD/MM/YYYY'] v
- 3단계 : Rented Bike Count 컬럼만 추출 ['254','300', .... '250'] v
- 4단계 : Date 컬럼에서 월만 추출하여 정수로 변환 => [12,12,...,1,1,...,11,11,...,MM] (정수 변환 없이 문자열로도 해결 가능)
- 5단계 : Rented Bike Count 컬럼의 값을 정수로 변경 [254,300, .... 250])

In [5]:
# 한 줄에 있는 문자열을 원소별로 구분하는 것 확인
# 콤마(,)로 구분되어 있으므로 문자열의 split() 함수 사용. 인수로 콤마(,)를 입력해야 함
# 예시 -> 각 행 마다 date와 rented bike count 를 가지고 와서 따로 저장해야 함
data[0].split(',')

['01/12/2017',
 '254',
 '0',
 '-5.2',
 '37',
 '2.2',
 '2000',
 '-17.6',
 '0',
 '0',
 '0',
 'Winter',
 'No Holiday',
 'Yes\n']

| 단계별 접근 (2단계 -> 3단계 -> 4단계 -> 5단계)
- 2~3단계

In [6]:
# 2단계와 3단계 
date_list = []
bike_cnt_list = []

for row in data:
    splited_row = row.split(',')  # ['01/12/2017', '254', '0', ...] (각 행의 원소가 리스트에 들어감)
    date = splited_row[0] # 날짜 있는 원소만 인덱싱
    bike_cnt = splited_row[1] # 자전거 대여량 있는 원소만 인덱싱

    date_list.append(date) # 날짜만 포함시킬 리스트에 더하기
    bike_cnt_list.append(bike_cnt) # 자전거 대여량만 포함시킬 리스트에 더하기

print('각 리스트 원소 개수 확인:', len(date_list), len(bike_cnt_list))

각 리스트 원소 개수 확인: 8760 8760


- 4단계

In [7]:
# 앞에 5개 내용 확인
date_list[0:5]

['01/12/2017', '01/12/2017', '01/12/2017', '01/12/2017', '01/12/2017']

In [8]:
# 4단계: 날짜 리스트에서 월만 추출 후 정수 변환
# 한 개의 원소를 통해 어떻게 할지 확인 (첫번째 방식)
print(date_list[0])
print(date_list[0].split('/')) # split 함수 사용
print(date_list[0].split('/')[1]) # 1번째 원소 인덱싱 (인덱싱은 0부터 시작)
print(int(date_list[0].split('/')[1])) # 데이터 타입 정수로 변경

01/12/2017
['01', '12', '2017']
12
12


In [9]:
# 한 개의 원소를 통해 어떻게 할지 확인 (두번째 방식)
print(date_list[0])
print(date_list[0][3:5]) # 슬라이싱 활용
print(int(date_list[0][3:5])) # 데이터 타입 정수로 변경

01/12/2017
12
12


In [10]:
# 리스트 안에 for 문 사용 + 두번째 방식 사용
month_list = [int(date[3:5]) for date in date_list]
len(month_list)

8760

In [11]:
# 5개만 확인
month_list[:5]

[12, 12, 12, 12, 12]

- 5단계

In [12]:
# 자전거 대여량 앞에 5개 내용 확인
bike_cnt_list[:5]

['254', '204', '173', '107', '78']

In [13]:
# 리스트 안에 for 문 사용 + int 함수 사용하여 정수로 변환
bike_cnt_int_list = [int(bike_cnt) for bike_cnt in bike_cnt_list]
len(bike_cnt_int_list)

8760

In [14]:
# 5개만 확인
bike_cnt_int_list[:5]

[254, 204, 173, 107, 78]

In [15]:
# 4단계 잘 되었는지 체크 (개수와 원소 타입 확인)
assert len(month_list) == 8760 and type(month_list[0]) == int
# 5단계 잘 되었는지 체크 (개수와 원소 타입 확인)
assert len(bike_cnt_int_list) == 8760 and type(bike_cnt_int_list[0]) == int


- 6 단계: 반복문과 조건문을 적절히 활용하여, Date에 있는 원소가 1월인 것끼리 Rented Bike Count 더하고 개수로 나누고, 2월도, 3월도 같은 작업 반복, ... 

In [16]:
# 딕셔너리를 활용하여 월별로 자전거 대여량을 리스트에 더하기
# {1: [123,321,100, ...], 2: [234,567,123, ...], ... 12: [10,123,333] } (임의 숫자 포함)
month_bike_cnt_list_dict = {i: [] for i in range(1,13)}
month_bike_cnt_list_dict

{1: [],
 2: [],
 3: [],
 4: [],
 5: [],
 6: [],
 7: [],
 8: [],
 9: [],
 10: [],
 11: [],
 12: []}

In [17]:
# zip을 통해 한 번에 월, 자전거대여량을 튜플로 받을 수 있도록 함
next(zip(month_list, bike_cnt_int_list))

(12, 254)

In [18]:
for month, bike_cnt_int in zip(month_list, bike_cnt_int_list):
    # 딕셔너리의 key의 value는 딕셔너리[key]로 접근 가능
    # value가 리스트이므로 append함수를 함수를 사용하여 더할 수 있음
    month_bike_cnt_list_dict[month].append(bike_cnt_int)

In [19]:
# 각 월마다 10개씩 내용 확인
for i in month_bike_cnt_list_dict.keys():
    print(f'{i}월: {month_bike_cnt_list_dict[i][:10]}')

1월: [206, 230, 178, 119, 62, 61, 65, 81, 89, 121]
2월: [122, 149, 103, 81, 37, 51, 95, 244, 459, 259]
3월: [71, 147, 180, 92, 28, 11, 33, 61, 148, 160]
4월: [579, 453, 322, 221, 147, 96, 110, 169, 342, 485]
5월: [782, 705, 534, 343, 187, 166, 306, 614, 1067, 1024]
6월: [963, 776, 554, 366, 265, 306, 672, 1421, 2149, 1219]
7월: [865, 740, 586, 368, 211, 54, 60, 25, 20, 9]
8월: [875, 724, 501, 362, 250, 315, 622, 1061, 1550, 853]
9월: [1075, 975, 785, 514, 338, 260, 362, 511, 812, 925]
10월: [680, 402, 262, 179, 143, 246, 632, 1429, 2101, 1106]
11월: [584, 524, 362, 242, 147, 154, 433, 1055, 1899, 1011]
12월: [254, 204, 173, 107, 78, 100, 181, 460, 930, 490]


- 월별 자전거 대여량 평균!

In [20]:
for i in month_bike_cnt_list_dict.keys():
    print('{}월: {:.2f}'.format(i, sum(month_bike_cnt_list_dict[i]) / len(month_bike_cnt_list_dict[i])))

1월: 201.62
2월: 225.94
3월: 511.55
4월: 728.09
5월: 950.39
6월: 1245.68
7월: 987.18
8월: 876.19
9월: 935.57
10월: 874.56
11월: 646.83
12월: 249.10


## 부록
다른 접근 (2+3+4+5단계 동시에) 

In [21]:
with open('data/SeoulBikeData.csv','r') as f:
    data = f.readlines()
data = data[1:]
len(data)

8760

In [22]:
month_list = []
bike_cnt_int_list = []

for row in data:
    splited_row = row.split(',')
    month = int(splited_row[0][3:5]) # 한 번에 월 추출
    bike_cnt_int = int(splited_row[1]) # 한 번에 정수형으로 변환

    month_list.append(month)
    bike_cnt_int_list.append(bike_cnt_int)

print('각 리스트 원소 개수 확인:', len(month_list), len(bike_cnt_int_list))

각 리스트 원소 개수 확인: 8760 8760


In [23]:
# month_list, bike_cnt_int_list 원소 10개씩 확인
print('month_list:', month_list[:10])
print('bike_cnt_int_list', bike_cnt_int_list[:10])

month_list: [12, 12, 12, 12, 12, 12, 12, 12, 12, 12]
bike_cnt_int_list [254, 204, 173, 107, 78, 100, 181, 460, 930, 490]


In [24]:
month_bike_cnt_list_dict = {i: [] for i in range(1,13)}
for month, bike_cnt_int in zip(month_list, bike_cnt_int_list):
    month_bike_cnt_list_dict[month].append(bike_cnt_int)

In [25]:
for i in month_bike_cnt_list_dict.keys():
    print('{}월: {:.2f}'.format(i, sum(month_bike_cnt_list_dict[i]) / len(month_bike_cnt_list_dict[i])))

1월: 201.62
2월: 225.94
3월: 511.55
4월: 728.09
5월: 950.39
6월: 1245.68
7월: 987.18
8월: 876.19
9월: 935.57
10월: 874.56
11월: 646.83
12월: 249.10


- 더 간단한 코드 

In [26]:
with open('data/SeoulBikeData.csv','r') as f:
    data = f.readlines()
data = data[1:]
len(data)

8760

In [28]:
# 2~5 단계
month_list = [int(row.split(',')[0][3:5]) for row in data]
bike_cnt_int_list = [int(row.split(',')[1]) for row in data]

print('각 리스트 원소 개수 확인:', len(month_list), len(bike_cnt_int_list))

각 리스트 원소 개수 확인: 8760 8760


In [29]:
month_bike_cnt_list_dict = {i: [] for i in range(1,13)}
for month, bike_cnt_int in zip(month_list, bike_cnt_int_list):
    month_bike_cnt_list_dict[month].append(bike_cnt_int)

In [30]:
for i in month_bike_cnt_list_dict.keys():
    print('{}월: {:.2f}'.format(i, sum(month_bike_cnt_list_dict[i]) / len(month_bike_cnt_list_dict[i])))

1월: 201.62
2월: 225.94
3월: 511.55
4월: 728.09
5월: 950.39
6월: 1245.68
7월: 987.18
8월: 876.19
9월: 935.57
10월: 874.56
11월: 646.83
12월: 249.10
