# 충남과학고등학교 데이터분석 특강 (3H / 6H)
## 예제로 배우는 데이터 분석
## 초급: 3H, 중급: 6H (초중급 3H 동일)

## Case 6: 대전광역시 공공자전거 타슈 데이터 분석 - 공개 데이터 분석
### Question: 타슈 이용 경로 및 정류장 분석
##### 데이터출처1: [공공데이터포털](https://www.data.go.kr/data/15062798/fileData.do)
##### 데이터출처2: [대전광역시시설관리공단](https://www.djsiseol.or.kr/portal/sub050201.asp)

### Step 1. Question - 타슈 대여 정보 데이터 전처리

#### 도구 불러오기

In [None]:
import pandas as pd
import numpy as np
import matplotlib as mpl
import matplotlib.pyplot as plt
# %matplotlib widget
%matplotlib inline

#### 대여 기록 원시 데이터

In [None]:
data_path = ['datasets/tashu/2016.csv',
             'datasets/tashu/2017.csv',
             'datasets/tashu/2018.csv',
             'datasets/tashu/2019.csv',
             'datasets/tashu/2020.csv',
            ]
data_path

#### 데이터 불러오기

In [None]:
df = pd.DataFrame()
for path in data_path:
    tdf = pd.read_csv(path)
    df = pd.concat([df, tdf], ignore_index=True)
df = df.drop(df[df.isnull().any(axis=1)].index)
df

#### 데이터 형 변환 (자료형)

In [None]:
df = df.astype({'대여스테이션': 'int16', '대여일시': 'str', 
                '반납스테이션': 'int16', '반납일시': 'str', 
                '이동거리': 'float32', '회원구분': 'int8'})

#### 데이터 저장: pickle

In [None]:
df.to_pickle('datasets/tashu/tashu_dataset-rental_history.pkl', protocol=4)

### Step 2. 타슈 정류장 정보 데이터 전처리

#### 데이터 경로

In [None]:
path = 'datasets/tashu/loc_20200801.csv'
path

In [None]:
df = pd.read_csv(path, index_col='연번')
df

In [None]:
df = df.astype({'Station 스테이션/성명': 'str', 
                '위치': 'str', '광역시도코드': 'int8', 
                '광역시도명': 'str', '시군구코드': 'int32', 
                '시군구명': 'str', '법정동코드': 'int64', 
                '법정동명': 'str', '행정동코드': 'int64', 
                '행정동명': 'str'})
df

In [None]:
df.to_pickle('datasets/tashu/tashu_dataset-station_information.pkl', protocol=4)

### Step 3. 날씨 데이터 전처리

#### 데이터 경로

In [None]:
data_path = ['datasets/tashu/weather2016.csv',
             'datasets/tashu/weather2017.csv',
             'datasets/tashu/weather2018.csv',
             'datasets/tashu/weather2019.csv',
             'datasets/tashu/weather2020.csv',
            ]
data_path

In [None]:
df = pd.DataFrame()
for path in data_path:
    tdf = pd.read_csv(path)
    df = pd.concat([df, tdf], ignore_index=True)
df.fillna(0, inplace=True)
df

In [None]:
df = df.astype({'지점': 'int16', '지점명': 'str', '일시': 'str', 
                '평균기온(°C)': 'float32', '일강수량(mm)': 'float32'})
df

In [None]:
df.to_pickle('datasets/tashu/weather.pkl', protocol=4)