# 충남과학고등학교 데이터분석 특강 (3H / 6H)
## 예제로 배우는 데이터 분석
### 초급: 3H, 중급: 6H (초중급 3H 동일)

## Case 6: 대전광역시 공공자전거 타슈 데이터 분석 - 공개 데이터 분석
### Question: 타슈 이용 경로 및 정류장 분석
##### 데이터출처1: [공공데이터포털](https://www.data.go.kr/data/15062798/fileData.do)
##### 데이터출처2: [대전광역시시설관리공단](https://www.djsiseol.or.kr/portal/sub050201.asp)
##### 원시 데이터 전처리 완료 후 진행: pickle (.pkl)

### Step 1. Question - 전처리 데이터 불러오기 및 datetime 데이터 다루기

#### 도구 불러오기

In [None]:
import datetime

import numpy as np
import pandas as pd
import matplotlib as mpl
import matplotlib.pyplot as plt
%matplotlib inline

#### 타슈 대여 이력 데이터 불러오기 및 datetime 자료형 처리

In [None]:
df_rent = pd.read_pickle('datasets/tashu/tashu_dataset-rental_history.pkl')
df_rent['대여일시'] = pd.to_datetime(df_rent['대여일시'], format='%Y%m%d%H%M%S')
df_rent['반납일시'] = pd.to_datetime(df_rent['반납일시'], format='%Y%m%d%H%M%S')
df_rent

#### 자료형 확인

In [None]:
df_rent.dtypes

#### 타슈 정류장 데이터 불러오기

In [None]:
df_station = pd.read_pickle('datasets/tashu/tashu_dataset-station_information.pkl')
df_station

#### 자료형 확인

In [None]:
df_station.dtypes

### Step 2. Question - 언제 가장 많이 빌릴까?

In [None]:
rent_index = pd.DatetimeIndex(df_rent['대여일시'])
rent_index

#### .groupby 활용 시간 기준 계산

In [None]:
hourly_df_rent = df_rent['대여일시'].groupby(by=rent_index.hour)
hourly_df_rent

In [None]:
hourly_df_rent.count().index

In [None]:
hourly_df_rent.count()

#### 그래프 데이터 준비

In [None]:
x = hourly_df_rent.count().index
y = hourly_df_rent.count()

#### 그래프 그리기

In [None]:
fig = plt.figure(figsize=(8, 6))
ax = fig.add_subplot()
ax.plot(x, y)
ax.tick_params(axis='both', labelsize='large')
ax.set_xlabel('Hours', fontsize='large')
ax.set_ylabel('Number of rent', fontsize='large')
ax.set_title('Hourly rent count', fontsize='x-large')

#### 조건 분석으로 확인

In [None]:
max(hourly_df_rent.count())

In [None]:
hourly_df_rent.count() == max(hourly_df_rent.count())

In [None]:
hourly_df_rent.count().index[hourly_df_rent.count() == max(hourly_df_rent.count())]

In [None]:
print((f'가장 많이 대여하는 시간: '
       f'{hourly_df_rent.count().index[hourly_df_rent.count() == max(hourly_df_rent.count())][0]}'))

### Step 3. Question - 언제 가장 많이 대여했을까?

#### groupby 활용 그루핑
##### [Pandas DatetimeIndex strftime](https://pandas.pydata.org/docs/reference/api/pandas.DatetimeIndex.strftime.html)
##### [python 3 strftime format](https://docs.python.org/3/library/datetime.html#strftime-and-strptime-format-codes)

In [None]:
daily_df_rent = df_rent['대여일시'].groupby(by=rent_index.strftime('%Y-%m-%d'))
daily_df_rent

In [None]:
daily_df_rent.count().index

In [None]:
daily_df_rent.count()

#### 그래프 데이터 준비

In [None]:
x = daily_df_rent.count().index
y = daily_df_rent.count()

#### 그래프 그리기

In [None]:
fig = plt.figure(figsize=(8, 6))
ax = fig.add_subplot()
ax.plot(x, y)
ax.tick_params(axis='both', labelsize='large')
ax.set_xlabel('Date', fontsize='large')
ax.set_ylabel('Number of rent', fontsize='large')
ax.set_title('Rent count', fontsize='x-large')

#### 조건문으로 분석

In [None]:
max(daily_df_rent.count())

In [None]:
daily_df_rent.count() == max(daily_df_rent.count())

In [None]:
print((f'가장 많이 대여한 날: '
       f'{daily_df_rent.count().index[daily_df_rent.count() == max(daily_df_rent.count())][0]}'))

### Step 4. Question - 몇년 몇월에 가장 많이 대여했을까?

#### groupby 활용 그루핑

In [None]:
monthly_df_rent = df_rent['대여일시'].groupby(by=rent_index.strftime('%Y-%m'))
monthly_df_rent

In [None]:
monthly_df_rent.count().index

In [None]:
monthly_df_rent.count()

#### 그래프 데이터 준비

In [None]:
x = monthly_df_rent.count().index
y = monthly_df_rent.count()

#### 그래프 그리기

In [None]:
fig = plt.figure(figsize=(8, 6))
ax = fig.add_subplot()
ax.plot(x, y)
ax.tick_params(axis='both', labelsize='large')
ax.set_xlabel('Date', fontsize='large')
ax.set_ylabel('Number of rent', fontsize='large')
ax.set_title('Rent count', fontsize='x-large')

#### 조건문으로 분석

In [None]:
max(monthly_df_rent.count())

In [None]:
monthly_df_rent.count() == max(monthly_df_rent.count())

In [None]:
print((f'가장 많이 대여한 날: '
       f'{monthly_df_rent.count().index[monthly_df_rent.count() == max(monthly_df_rent.count())][0]}'))

### Step 5. Question - 가장 많이 대여한 요일은?

#### groupby 활용 그루핑

In [None]:
weekly_df_rent = df_rent['대여일시'].groupby(by=rent_index.strftime('%w'))
weekly_df_rent

In [None]:
weekly_df_rent.count().index

In [None]:
weekly_df_rent.count()

#### 그래프 데이터 준비

In [None]:
x = weekly_df_rent.count().index
y = weekly_df_rent.count()
labels = {0: 'Monday', 1: 'Tuesday', 2: 'Wednesday', 3: 'Thursday', 4: 'Friday', 5: 'Saturday', 6: 'Sunday'}
colors = ['r', 'g', 'b', 'k', 'y', 'm', 'c']

#### 그래프 그리기

In [None]:
fig = plt.figure(figsize=(8, 6))
ax = fig.add_subplot()
ax.bar(x, y, color=colors, tick_label=list(labels.values()))
ax.tick_params(axis='both', labelsize='large')
ax.set_xlabel('Date', fontsize='large')
ax.set_ylabel('Number of rent', fontsize='large')
ax.set_title('Rent count', fontsize='x-large')

#### 조건문으로 분석

In [None]:
max(weekly_df_rent.count())

In [None]:
weekly_df_rent.count() == max(weekly_df_rent.count())

In [None]:
print((f'가장 많이 대여한 날: '
       f'{weekly_df_rent.count().index[weekly_df_rent.count() == max(weekly_df_rent.count())][0]}'))

### Step 6. Question - 어디서 가장 많이 빌리는가?

#### 대여 정류장으로 groupby

In [None]:
station_df_rent = df_rent['대여스테이션'].groupby(by=df_rent['대여스테이션'])
station_df_rent

In [None]:
station_df_rent.count()

#### 대여 정류장 정렬

In [None]:
sorted_rent_station = station_df_rent.count().sort_values(ascending=False)
sorted_rent_station

#### 정류장 정보 필터링

In [None]:
df_station[df_station.index == sorted_rent_station.index[0]]

### Step 7. Question - 이동 목적으로 이용하는가?

#### 이동 목적 대여량

In [None]:
diff_rent = df_rent[df_rent['대여스테이션'] != df_rent['반납스테이션']]
diff_rent

#### 여가 목적 대여량

In [None]:
same_rent = df_rent[df_rent['대여스테이션'] == df_rent['반납스테이션']]
same_rent

#### 이동 목적 대여 최대 정류장

In [None]:
t = diff_rent['대여스테이션'].groupby(by=diff_rent['대여스테이션'])
sorted_t = t.count().sort_values(ascending=False)
sorted_t

#### 이동 목적 대여 최대 정류장 정보

In [None]:
df_station[df_station.index == sorted_t.index[0]]

#### 여가 목적 대여 최대 정류장

In [None]:
t = same_rent['대여스테이션'].groupby(by=same_rent['대여스테이션'])
sorted_t = t.count().sort_values(ascending=False)
sorted_t

### Step 8. Question - 정류장 기준 가장 많이 이용하는 경로는?

#### groupby 를 순차적으로 적용

In [None]:
df = df_rent['대여일시'].groupby(by=[df_rent['대여스테이션'], df_rent['반납스테이션']])
df.count()

#### 조건문으로 빠르게 확인!

In [None]:
df.count().index[df.count() == max(df.count())]

#### 이동 목적 데이터에서만 확인

In [None]:
df = diff_rent['대여일시'].groupby(by=[diff_rent['대여스테이션'], diff_rent['반납스테이션']])
df.count()

#### 조건문으로 결과 확인

In [None]:
df.count().index[df.count() == max(df.count())]

### Step 9. Question - 이동 거리 분석

#### groupby 처리

In [None]:
df = df_rent.groupby(by=[df_rent['대여스테이션'], df_rent['반납스테이션']])
df = df.mean()
df

#### 회원 구분 (1 or 0) 은 불필요한 열

In [None]:
df.drop(columns='회원구분', inplace=True)
df

#### 조건문으로 확인

In [None]:
print((f'평균적으로 가장 멀리 이동한 대여-반납 경로: '
       f'{df.index[df["이동거리"] == max(df["이동거리"])][0]}'))

#### isin 으로 빠르게 정보 필터링

In [None]:
df_station[df_station.index.isin(df.index[df["이동거리"] == max(df["이동거리"])][0])]