#  데이터 로드 & 전처리
## 모듈 임포트

In [1]:
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
import seaborn as sns
import numpy as np
import warnings

warnings.filterwarnings('ignore')

mpl.rcParams['axes.unicode_minus'] = False
plt.rcParams["font.family"] = 'AppleGothic'

## 따릉이 데이터 로드
### 따릉이 데이터 불러오기

In [9]:
import os
import glob

input_file = r'/Users/dongwoo/seoul_bike-Sharing_demand/data' # csv파일들이 있는 디렉토리 위치
output_file = r'/Users/dongwoo/seoul_bike-Sharing_demand/data/공공자전거 이용정보(시간대별)_20.csv' # 병합하고 저장하려는 파일명

allFile_list = sorted(glob.glob(os.path.join(input_file, '공공자전거 이용정보(시간대별)_*'))) # glob함수로 sales_로 시작하는 파일들을 모은다
print(allFile_list) # sorted()를 통해서 파일명 순으로 정렬한다.

allData = [] # 읽어 들인 csv파일 내용을 저장할 빈 리스트를 하나 만든다

for file in allFile_list:
    df = pd.read_csv(file,encoding='cp949') # for구문으로 csv파일들을 읽어 들인다
    allData.append(df) # 빈 리스트에 읽어 들인 내용을 추가한다

['/Users/dongwoo/seoul_bike-Sharing_demand/data/공공자전거 이용정보(시간대별)_19.12_20.056.csv', '/Users/dongwoo/seoul_bike-Sharing_demand/data/공공자전거 이용정보(시간대별)_20.06.csv', '/Users/dongwoo/seoul_bike-Sharing_demand/data/공공자전거 이용정보(시간대별)_20.07.csv', '/Users/dongwoo/seoul_bike-Sharing_demand/data/공공자전거 이용정보(시간대별)_20.08.csv', '/Users/dongwoo/seoul_bike-Sharing_demand/data/공공자전거 이용정보(시간대별)_20.09.csv', '/Users/dongwoo/seoul_bike-Sharing_demand/data/공공자전거 이용정보(시간대별)_20.10.csv', '/Users/dongwoo/seoul_bike-Sharing_demand/data/공공자전거 이용정보(시간대별)_20.11.csv', '/Users/dongwoo/seoul_bike-Sharing_demand/data/공공자전거 이용정보(시간대별)_20.12.csv']


### 데이터 파일 병합하기

In [10]:
dataCombine = pd.concat(allData, axis=0, ignore_index=True) # concat함수를 이용해서 리스트의 내용을 병합
# axis=0은 수직으로 병합함. axis=1은 수평. ignore_index=True는 인데스 값이 기존 순서를 무시하고 순서대로 정렬되도록 한다.

dataCombine.to_csv(output_file, index=False) # to_csv함수로 저장한다. 인데스를 빼려면 False로 설정

### 2019년 일자 제거하기

In [86]:
df = pd.read_csv("/Users/dongwoo/seoul_bike-Sharing_demand/data/공공자전거 이용정보(시간대별)_20.csv")
df['대여일자'] = df['대여일자'].astype('datetime64[ns]')
df.set_index('대여일자', inplace=True) # 대여 일자를 인덱스를 설정하기
df = df.loc['2020-01-01':'2020-12-31'] 
df = df.reset_index() #인덱스 정수형으로 초기화
df.head(5)

Unnamed: 0.1,대여일자,Unnamed: 0,대여시간,대여소번호,대여소명,대여구분코드,성별,연령대코드,이용건수,운동량,탄소량,이동거리,사용시간
0,2020-01-01,0,0,1044,1044. 굽은다리역,정기권,,~10대,1,33.96,0.3,1280.0,6
1,2020-01-01,1,0,1656,1656. 중앙하이츠 아파트 입구,정기권,,~10대,1,40.15,0.39,1690.0,6
2,2020-01-01,2,0,1337,1337. 돈암성당 옆,정기권,,~10대,1,80.88,0.5,2150.0,12
3,2020-01-01,3,0,1984,1984. 구로구청,정기권,,~10대,1,47.36,0.43,1840.0,25
4,2020-01-01,4,0,2601,2601. 석촌호수 서호사거리,정기권,,~10대,1,29.34,0.26,1140.0,5


### 데이터 자료형 변경하기
-  대여소와 연령대, 성별이 `object`로 되어 있기 때문에 `category`로 변경한다.
-  운동량과 탄소량이 `object`로 되어 있기 때문에 `float64`로 변경한다.

In [87]:
df.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18906636 entries, 0 to 18906635
Data columns (total 13 columns):
 #   Column      Dtype         
---  ------      -----         
 0   대여일자        datetime64[ns]
 1   Unnamed: 0  int64         
 2   대여시간        int64         
 3   대여소번호       int64         
 4   대여소명        object        
 5   대여구분코드      object        
 6   성별          object        
 7   연령대코드       object        
 8   이용건수        int64         
 9   운동량         float64       
 10  탄소량         float64       
 11  이동거리        float64       
 12  사용시간        int64         
dtypes: datetime64[ns](1), float64(3), int64(5), object(4)
memory usage: 7.1 GB


In [117]:
df['대여일자'] = df['대여일자'].astype('datetime64[ns]')
df['대여소명'] = df['대여소명'].astype('category')
df['대여구분코드'] = df['대여구분코드'].astype('category')
df['성별'] = df['성별'].astype('category')
df['연령대코드'] = df['연령대코드'].astype('category')
df.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 331907 entries, 0 to 331906
Data columns (total 13 columns):
 #   Column  Non-Null Count   Dtype         
---  ------  --------------   -----         
 0   대여일자    331907 non-null  datetime64[ns]
 1   대여시간    331907 non-null  int64         
 2   대여소번호   331907 non-null  int64         
 3   대여소명    331907 non-null  category      
 4   대여구분코드  331907 non-null  category      
 5   성별      156913 non-null  category      
 6   연령대코드   331907 non-null  category      
 7   이용건수    331907 non-null  int64         
 8   운동량     331907 non-null  float64       
 9   탄소량     331907 non-null  float64       
 10  이동거리    331907 non-null  float64       
 11  사용시간    331907 non-null  int64         
 12  number  331907 non-null  int64         
dtypes: category(4), datetime64[ns](1), float64(3), int64(5)
memory usage: 24.1 MB


In [118]:

df['운동량'].replace('\\N',np.nan, inplace=True)
df.dropna(subset=['운동량'], axis=0, inplace=True)
df['운동량'] = df['운동량'].astype('float64')

df['탄소량'].replace('\\N',np.nan, inplace=True)
df.dropna(subset=['탄소량'], axis=0, inplace=True)
df['탄소량'] = df['탄소량'].astype('float64')

df.info(memory_usage='deep')

<class 'pandas.core.frame.DataFrame'>
Int64Index: 331907 entries, 0 to 331906
Data columns (total 13 columns):
 #   Column  Non-Null Count   Dtype         
---  ------  --------------   -----         
 0   대여일자    331907 non-null  datetime64[ns]
 1   대여시간    331907 non-null  int64         
 2   대여소번호   331907 non-null  int64         
 3   대여소명    331907 non-null  category      
 4   대여구분코드  331907 non-null  category      
 5   성별      156913 non-null  category      
 6   연령대코드   331907 non-null  category      
 7   이용건수    331907 non-null  int64         
 8   운동량     331907 non-null  float64       
 9   탄소량     331907 non-null  float64       
 10  이동거리    331907 non-null  float64       
 11  사용시간    331907 non-null  int64         
 12  number  331907 non-null  int64         
dtypes: category(4), datetime64[ns](1), float64(3), int64(5)
memory usage: 26.6 MB


### 저장하기

In [25]:
df.to_csv("/Users/dongwoo/seoul_bike-Sharing_demand/data/공공자전거 이용정보(시간대별)_20.csv")

## 금천구만 불러오기

In [33]:
rental = pd.read_csv("/Users/dongwoo/seoul_bike-Sharing_demand/data/공공자전거 대여소 정보(21.01.31 기준).csv")
rental.tail()

Unnamed: 0,대여소\n번호,보관소(대여소)명,소재지(위치),상세주소,위도,경도,설치\n시기,LCD,QR,운영\n방식
2149,1085,래미안 솔베뉴(고덕로),강동구,양재대로1650,37.554569,127.145874,2020-01-13,,20.0,QR
2150,1086,래미안 솔베뉴(구천면로),강동구,양재대로1650,37.550598,127.145454,2020-01-10,,10.0,QR
2151,1088,풍납사거리(강동),강동구,성내동451-3,37.528122,127.119522,2020-01-14,,12.0,QR
2152,1089,고덕 래미안힐스테이트(201동),강동구,고덕동 675,37.5606,127.146698,2020-01-13,,10.0,QR
2153,1090,상일동역 2번출구 앞,강동구,고덕로 333,37.556789,127.166145,2020-01-13,,10.0,QR


### 금천구에 해당하는 대여소 번호만 추출한다.

In [34]:
rental_no = rental.groupby('소재지(위치)')['대여소\n번호'].unique().loc['금천구']
rental_no

array([1804, 1805, 1806, 1808, 1809, 1812, 1814, 1816, 1819, 1820, 1821,
       1822, 1823, 1824, 1825, 1826, 1827, 1828, 1829, 1830, 1831, 1833,
       1834, 1835, 1836, 1839, 1840, 1841, 1842, 1843, 1845, 1846, 1847,
       1848, 1849, 1850, 1851, 1852, 1853, 1854, 1855, 1856, 1857, 1858,
       1859, 1861, 1862, 1863, 1864, 1865, 1866, 1867, 1868, 1869, 1870])

### 따릉이 데이터에서 해당하는 대여소 번호만 추출한다.

In [108]:
df = pd.read_csv("/Users/dongwoo/seoul_bike-Sharing_demand/data/공공자전거 이용정보(시간대별)_20.csv")
df = df[df['대여소번호'].isin(rental_no)]
df.shape

(331907, 13)

In [115]:
# df = df.reset_index()
df['number'] = df['index']
df = df.drop(['level_0','index'], axis=1)
df.head()

Unnamed: 0,대여일자,대여시간,대여소번호,대여소명,대여구분코드,성별,연령대코드,이용건수,운동량,탄소량,이동거리,사용시간,number
0,2020-01-01,0,1821,1821. 홈플러스 시흥점 맞은편 다비치안경 앞,정기권,,20대,1,57.11,0.48,2090.0,19,0
1,2020-01-01,0,1824,1824. 독산근린공원 입구,정기권,,20대,1,0.0,0.0,0.0,6,1
2,2020-01-01,0,1829,1829. 홈플러스 금천점 앞,정기권,,20대,1,56.73,0.44,1910.0,14,2
3,2020-01-01,0,1827,1827. 독산보도육교 앞 자전거 보관소,정기권,,20대,1,383.5,3.62,15620.0,82,3
4,2020-01-01,0,1824,1824. 독산근린공원 입구,정기권,,30대,1,223.11,2.18,9390.0,34,4


In [119]:
df.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 331907 entries, 0 to 331906
Data columns (total 13 columns):
 #   Column  Non-Null Count   Dtype         
---  ------  --------------   -----         
 0   대여일자    331907 non-null  datetime64[ns]
 1   대여시간    331907 non-null  int64         
 2   대여소번호   331907 non-null  int64         
 3   대여소명    331907 non-null  category      
 4   대여구분코드  331907 non-null  category      
 5   성별      156913 non-null  category      
 6   연령대코드   331907 non-null  category      
 7   이용건수    331907 non-null  int64         
 8   운동량     331907 non-null  float64       
 9   탄소량     331907 non-null  float64       
 10  이동거리    331907 non-null  float64       
 11  사용시간    331907 non-null  int64         
 12  number  331907 non-null  int64         
dtypes: category(4), datetime64[ns](1), float64(3), int64(5)
memory usage: 26.6 MB


## 날씨 데이터 불러오기

필요없는 열은 제거해준다.

In [120]:
weather = pd.read_csv('/Users/dongwoo/seoul_bike-Sharing_demand/data/금천구 기온.csv', encoding='cp949')
weather = weather.drop(['현지기압(hPa)','해면기압(hPa)','습도(%)'], axis=1)
weather.tail()

Unnamed: 0,지점,지점명,일시,기온(°C),풍향(deg),풍속(m/s),강수량(mm)
19,417,금천,2020-12-01 20:00,4.1,304.1,1.1,0
20,417,금천,2020-12-01 21:00,3.8,311.6,0.6,0
21,417,금천,2020-12-01 22:00,3.7,333.5,1.3,0
22,417,금천,2020-12-01 23:00,3.3,340.9,1.3,0
23,417,금천,2020-12-02 00:00,3.0,327.8,1.4,0


### 시계열 데이터의 날짜를 분리한다.

In [121]:
weather.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 24 entries, 0 to 23
Data columns (total 7 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   지점       24 non-null     int64  
 1   지점명      24 non-null     object 
 2   일시       24 non-null     object 
 3   기온(°C)   24 non-null     float64
 4   풍향(deg)  24 non-null     float64
 5   풍속(m/s)  24 non-null     float64
 6   강수량(mm)  24 non-null     int64  
dtypes: float64(3), int64(2), object(2)
memory usage: 1.4+ KB


In [122]:
weather['일시'] = weather['일시'].astype('datetime64[ns]')
weather['월'] = weather['일시'].dt.month
weather['일'] = weather['일시'].dt.day
weather['대여시간'] = weather['일시'].dt.hour

In [123]:
weather.head()

Unnamed: 0,지점,지점명,일시,기온(°C),풍향(deg),풍속(m/s),강수량(mm),월,일,대여시간
0,417,금천,2020-12-01 01:00:00,0.3,317.3,1.3,0,12,1,1
1,417,금천,2020-12-01 02:00:00,0.0,353.8,1.5,0,12,1,2
2,417,금천,2020-12-01 03:00:00,-0.5,22.0,0.9,0,12,1,3
3,417,금천,2020-12-01 04:00:00,-0.5,5.4,1.2,0,12,1,4
4,417,금천,2020-12-01 05:00:00,-0.9,6.9,2.3,0,12,1,5


In [124]:
df['월'] = df['대여일자'].dt.month
df['일'] = df['대여일자'].dt.day
df['요일'] = df['대여일자'].dt.dayofweek
df.head()

Unnamed: 0,대여일자,대여시간,대여소번호,대여소명,대여구분코드,성별,연령대코드,이용건수,운동량,탄소량,이동거리,사용시간,number,월,일,요일
0,2020-01-01,0,1821,1821. 홈플러스 시흥점 맞은편 다비치안경 앞,정기권,,20대,1,57.11,0.48,2090.0,19,0,1,1,2
1,2020-01-01,0,1824,1824. 독산근린공원 입구,정기권,,20대,1,0.0,0.0,0.0,6,1,1,1,2
2,2020-01-01,0,1829,1829. 홈플러스 금천점 앞,정기권,,20대,1,56.73,0.44,1910.0,14,2,1,1,2
3,2020-01-01,0,1827,1827. 독산보도육교 앞 자전거 보관소,정기권,,20대,1,383.5,3.62,15620.0,82,3,1,1,2
4,2020-01-01,0,1824,1824. 독산근린공원 입구,정기권,,30대,1,223.11,2.18,9390.0,34,4,1,1,2


### 따릉이 데이터와 날씨 데이터를 Merge 시킨다.

In [125]:
df = df.merge(weather, on=['월', '일', '대여시간'])
df.head()

Unnamed: 0,대여일자,대여시간,대여소번호,대여소명,대여구분코드,성별,연령대코드,이용건수,운동량,탄소량,...,월,일,요일,지점,지점명,일시,기온(°C),풍향(deg),풍속(m/s),강수량(mm)
0,2020-12-01,1,1816,1816. 금천폭포공원 앞,정기권,,~10대,1,0.0,0.0,...,12,1,1,417,금천,2020-12-01 01:00:00,0.3,317.3,1.3,0
1,2020-12-01,1,1812,1812. 갑을그레이트밸리 앞,정기권,,20대,1,0.0,0.0,...,12,1,1,417,금천,2020-12-01 01:00:00,0.3,317.3,1.3,0
2,2020-12-01,1,1859,1859. 대륭테크노타운 18차,정기권,,30대,1,32.72,0.25,...,12,1,1,417,금천,2020-12-01 01:00:00,0.3,317.3,1.3,0
3,2020-12-01,1,1822,1822. 서울 시흥동우체국 앞,정기권,,40대,1,0.0,0.0,...,12,1,1,417,금천,2020-12-01 01:00:00,0.3,317.3,1.3,0
4,2020-12-01,1,1848,1848. 벽산 디지털밸리 5차,정기권,,50대,1,0.0,0.0,...,12,1,1,417,금천,2020-12-01 01:00:00,0.3,317.3,1.3,0


In [126]:
df.columns.values

array(['대여일자', '대여시간', '대여소번호', '대여소명', '대여구분코드', '성별', '연령대코드', '이용건수',
       '운동량', '탄소량', '이동거리', '사용시간', 'number', '월', '일', '요일', '지점',
       '지점명', '일시', '기온(°C)', '풍향(deg)', '풍속(m/s)', '강수량(mm)'],
      dtype=object)

In [129]:
df_s = df.sort_values(by=["number"], ascending=[True])
df_s.head()

Unnamed: 0,대여일자,대여시간,대여소번호,대여소명,대여구분코드,성별,연령대코드,이용건수,운동량,탄소량,...,월,일,요일,지점,지점명,일시,기온(°C),풍향(deg),풍속(m/s),강수량(mm)
0,2020-12-01,1,1816,1816. 금천폭포공원 앞,정기권,,~10대,1,0.0,0.0,...,12,1,1,417,금천,2020-12-01 01:00:00,0.3,317.3,1.3,0
1,2020-12-01,1,1812,1812. 갑을그레이트밸리 앞,정기권,,20대,1,0.0,0.0,...,12,1,1,417,금천,2020-12-01 01:00:00,0.3,317.3,1.3,0
2,2020-12-01,1,1859,1859. 대륭테크노타운 18차,정기권,,30대,1,32.72,0.25,...,12,1,1,417,금천,2020-12-01 01:00:00,0.3,317.3,1.3,0
3,2020-12-01,1,1822,1822. 서울 시흥동우체국 앞,정기권,,40대,1,0.0,0.0,...,12,1,1,417,금천,2020-12-01 01:00:00,0.3,317.3,1.3,0
4,2020-12-01,1,1848,1848. 벽산 디지털밸리 5차,정기권,,50대,1,0.0,0.0,...,12,1,1,417,금천,2020-12-01 01:00:00,0.3,317.3,1.3,0
