## 서울시 공공자전거 따릉이 데이터 담당자가 되어 분류 알고리즘으로 데이터를 관리해 보세요.

* 따릉이 데이터를 관리하는 관리자라 가정하고 이번 태스크를 진행해 봅니다.
* 여러 분은 전임자로 부터 따릉이 데이터를 받았습니다. 자치구별로 따릉이 관리 현황을 관리하고자 하는데 일부 데이터에 해당 자치구에 대한 정보가 기입되어 있지 않습니다. 기존 주소를 보고 하나씩 레이블링 할 수도 있지만 머신러닝 기술을 사용하여 데이터를 자치구를 분류해 볼 수도 있을 것입니다. 또, 어떤 데이터는 주소에 구명칭 없이 도로명 주소나 동이하의 주소만 있기도 합니다. 데이터가 적을 때는 사람이 수동으로 관리해도 되지만 데이터가 커질수록 관리비용이 늘어날 것입니다. 머신러닝으로 데이터를 학습하여 자치구명을 자동으로 분류하는 모델을 만들어 봅니다.

## 데이터셋 출처

* [서울시 공공자전거 이용정보(월별)> 데이터셋> 공공데이터 | 서울열린데이터광장](http://data.seoul.go.kr/dataList/OA-15248/F/1/datasetView.do)


## 필요한 라이브러리 로드

In [None]:
# 데이터 분석을 위한 pandas, 수치계산을 위한 numpy
# 시각화를 위한 matplotlib.pyplot 을 불러옵니다. 



## 한글폰트 설정

In [None]:
def get_font_family():
    """
    시스템 환경에 따른 기본 폰트명을 반환하는 함수
    """
    import platform
    system_name = platform.system()

    if system_name == "Darwin" :
        font_family = "AppleGothic"
    elif system_name == "Windows":
        font_family = "Malgun Gothic"
    else:
        # Linux(colab)
        !apt-get install fonts-nanum -qq  > /dev/null
        !fc-cache -fv

        import matplotlib as mpl
        mpl.font_manager._rebuild()
        findfont = mpl.font_manager.fontManager.findfont
        mpl.font_manager.findfont = findfont
        mpl.backends.backend_agg.findfont = findfont
        
        font_family = "NanumBarunGothic"
    return font_family


# style 설정은 꼭 폰트설정 위에서 합니다.
# style 에 폰트 설정이 들어있으면 한글폰트가 초기화 되어 한글이 깨집니다.
plt.style.use("seaborn")
# 폰트설정
plt.rc("font", family=get_font_family())

# 마이너스폰트 설정
plt.rc("axes", unicode_minus=False)

# 그래프에 retina display 적용
%config InlineBackend.figure_format = 'retina'

## 데이터셋 로드

In [None]:
# data/bike_station.csv 파일을 불러옵니다.


In [None]:
# 데이터의 일부를 확인합니다.


## 도로명 파생변수 만들기

In [None]:
# ["로", "길"]로 끝나는 단어만 따로 추출합니다.
# def find_road(address):


In [None]:
# 함수가 잘 만들어졌는지 확인합니다.
address = "서울특별시 마포구 상암동 월드컵로 72"
find_road(address)

In [None]:
# map 을 사용하여 상세주소를 "도로"변수로 파생변수로 만듭니다.


## 학습, 예측 데이터셋 나누기

## 학습, 예측에 사용할 컬럼

* 상세주소가 없다고 가정하고 예측해 보겠습니다.

In [None]:
# feature_names 라는 변수에 학습과 예측에 사용할 컬럼명을 가져옵니다.
feature_names = ['위도', '경도', '도로', 'LCD', 'QR', '자전거수', '연도', '월', '일']
print(feature_names)

## 정답값이자 예측해야 될 값

In [None]:
# label_name 이라는 변수에 예측할 컬럼의 이름을 담습니다.

label_name

## 문제와 정답 나누기

In [None]:
# 결측치를 0으로 채웁니다.
# X_feature 

In [None]:
# get_dummies 로 one-hot-encoding을 합니다.
# X

In [None]:
# 원-핫인코딩이 적용된 피처명을 다시 추출합니다.
# feature_names_out

In [None]:
# 정답 데이터셋을 만들어 줍니다.
# y

### 학습, 예측 데이터셋 만들기
* X_train : 학습 세트 만들기, 행렬, 판다스의 데이터프레임, 2차원 리스트(배열) 구조,  예) 시험의 기출문제
* y_train : 정답 값을 만들기, 벡터, 판다스의 시리즈, 1차원 리스트(배열) 구조, 예) 기출문제의 정답
* X_test : 예측에 사용할 데이터세트를 만듭니다. 예) 실전 시험 문제
* y_test : 예측의 정답값 예) 실전 시험 문제의 정답

In [None]:
# train_test_split 으로 데이터셋을 나눕니다.



## 머신러닝 알고리즘 가져오기

* [결정 트리 학습법 - 위키백과, 우리 모두의 백과사전](https://ko.wikipedia.org/wiki/%EA%B2%B0%EC%A0%95_%ED%8A%B8%EB%A6%AC_%ED%95%99%EC%8A%B5%EB%B2%95)

In [None]:
# DecisionTreeClassifier 로 데이터를 분류합니다.


## 학습(훈련)
* 시험을 볼 때 기출문제(X_train)와 정답(y_train)을 보고 공부하는 과정과 유사합니다.

In [None]:
# fit


## 예측
* 실전 시험문제(X_test)라고 보면 됩니다. 우리가 정답을 직접 예측합니다.

In [None]:
# predict


## 트리 알고리즘 분석하기
* 의사결정나무를 시각화 합니다.

In [None]:
# plot_tree


In [None]:
# 피처의 중요도를 추출하기

# model.feature_importances_

In [None]:
# nlargest 로 상위 10개 피처 가져오기


In [None]:
# 피처의 중요도 시각화 하기
# nlargest 로 상위 10개만 가져와서 시각화 합니다.


## 정확도(Accuracy) 측정하기

* 모델이 얼마나 잘 예측했는지 측정해 봅니다.
* 시험을 보고 나서 몇 개 맞았는지 틀렸는지 채점해 보는 과정과 유사합니다.
* 실전 문제에서는 답이 없어서 우리가 예측을 해야겠지만 이 실습은 정답이 있는 모의고사 입니다. 
* 모의고사를 보면 내 실력이 어느정도 되는지 예측해 볼 수 있는 것 처럼 점수를 측정해 봅니다.

In [None]:
# 예측의 정확도를 구합니다. 100점 만점 중에 몇 점을 맞았는지 구한다고 보면 됩니다.


In [None]:
# 위에서 처럼 직접 구할 수도 있지만 미리 구현된 알고리즘을 가져와 사용합니다.


In [None]:
# model 의 score 로 점수를 계산합니다.


## 혼동 행렬 confusion matrix
* 지도 학습으로 훈련된 분류 알고리즘의 성능을 시각화 할 수 있는 표