## 서울시 공공자전거 대여소 정보 분석과 시각화

데이터 출처 : [서울시 공공자전거 대여소 정보> 데이터셋> 공공데이터 | 서울열린데이터광장](http://data.seoul.go.kr/dataList/OA-13252/F/1/datasetView.do)



* keyword
    * seaborn - barplot, boxplot, violinplot
    * **seaborn PairGrid vs matplotlib - subplots**
    * seaborn FacetGrid
        * **catplot 범주형 데이터 시각화 (kind: count, bar, box, boxen, violin)**
        * relplot 연속된 수치 데이터 시각화 (kind: scatter, line)
    * pandas - value_counts, cross_tab, groupby, pivot_table
  
<img src="https://seaborn.pydata.org/_images/function_overview_8_0.png">

* seaborn 에 대해 좀 더 알고 싶다면 다음의 튜토리얼을 참고해 보세요.
* [User guide and tutorial — seaborn documentation](https://seaborn.pydata.org/tutorial.html)

In [None]:
# pandas, numpy, seaborn, matplotlib.pyplot 불러오기


## 시각화를 위한 한글폰트 설정

In [None]:
def get_font_family():
    """
    시스템 환경에 따른 기본 폰트명을 반환하는 함수
    """
    import platform
    system_name = platform.system()

    if system_name == "Darwin" :
        font_family = "AppleGothic"
    elif system_name == "Windows":
        font_family = "Malgun Gothic"
    else:
        # Linux(colab)
        !apt-get install fonts-nanum -qq  > /dev/null
        !fc-cache -fv

        import matplotlib as mpl
        mpl.font_manager._rebuild()
        findfont = mpl.font_manager.fontManager.findfont
        mpl.font_manager.findfont = findfont
        mpl.backends.backend_agg.findfont = findfont
        
        font_family = "NanumBarunGothic"
    return font_family


# style 설정은 꼭 폰트설정 위에서 합니다.
# style 에 폰트 설정이 들어있으면 한글폰트가 초기화 되어 한글이 깨집니다.
plt.style.use("seaborn")
# 폰트설정
plt.rc("font", family=get_font_family())

# 마이너스폰트 설정
plt.rc("axes", unicode_minus=False)

# 그래프에 retina display 적용
%config InlineBackend.figure_format = 'retina'

## 데이터 불러오기

In [None]:
# data/bike_station.csv 파일 불러오기
file_name = "data/bike_station.csv"
# df

## 데이터 요약

In [None]:
# info


## 중복확인

In [None]:
# duplicated


## 결측치 확인
### 결측치 합계

### 결측치 비율

### 결측치 시각화

## 기초 기술통계 

In [None]:
# 수치 데이터 기술통계


In [None]:
# 범주 데이터 기술통계


## 수치 데이터

### 전체 수치 변수의 히스토그램

In [None]:
# hist


### 특정 수치 변수의 히스토그램

In [None]:
# LCD histplot


In [None]:
# "LCD", "QR" histplot


In [None]:
# "LCD" boxplot


In [None]:
# "LCD", "QR" boxplot


In [None]:
# "LCD" kdeplot


In [None]:
# "LCD", "QR" kdeplot


In [None]:
# "LCD" violinplot


In [None]:
# "LCD", "QR" violinplot


## 두 개의 수치 데이터 비교

In [None]:
# scatterplot 으로 경도와 위도를 시각화 합니다.


In [None]:
# scatterplot 으로 경도와 위도를 시각화 합니다. 자치구에 따라 다른 색상으로 표시합니다.
plt.figure(figsize=(12, 10))


In [None]:
# jointplot 으로 경도와 위도를 시각화 합니다. 


In [None]:
# jointplot 으로 경도와 위도를 시각화 합니다. kind="hex"


### 상관 분석

상관 분석(相關 分析, Correlation analysis) 또는 '상관관계' 또는 '상관'은 확률론과 통계학에서 두 변수간에 어떤 선형적 또는 비선형적 관계를 갖고 있는지를 분석하는 방법이다. 두 변수는 서로 독립적인 관계이거나 상관된 관계일 수 있으며 이때 두 변수간의 관계의 강도를 상관관계(Correlation, Correlation coefficient)라 한다. 상관분석에서는 상관관계의 정도를 나타내는 단위로 모상관계수로 ρ를 사용하며 표본 상관 계수로 r 을 사용한다.

상관관계의 정도를 파악하는 상관 계수(相關係數, Correlation coefficient)는 두 변수간의 연관된 정도를 나타낼 뿐 인과관계를 설명하는 것은 아니다. 두 변수간에 원인과 결과의 인과관계가 있는지에 대한 것은 회귀분석을 통해 인과관계의 방향, 정도와 수학적 모델을 확인해 볼 수 있다.

* 출처 : https://ko.wikipedia.org/wiki/%EC%83%81%EA%B4%80_%EB%B6%84%EC%84%9D

### 피어슨 상관계수

* r 값은 X 와 Y 가 완전히 동일하면 +1, 전혀 다르면 0, 반대방향으로 완전히 동일 하면 –1 을 가진다. 
* 결정계수(coefficient of determination)는 r^2 로 계산하며 이것은 X 로부터 Y 를 예측할 수 있는 정도를 의미한다.

<img src="https://upload.wikimedia.org/wikipedia/commons/thumb/d/d4/Correlation_examples2.svg/800px-Correlation_examples2.svg.png" width="500">

```
일반적으로
r이 -1.0과 -0.7 사이이면, 강한 음적 선형관계,
r이 -0.7과 -0.3 사이이면, 뚜렷한 음적 선형관계,
r이 -0.3과 -0.1 사이이면, 약한 음적 선형관계,
r이 -0.1과 +0.1 사이이면, 거의 무시될 수 있는 선형관계,
r이 +0.1과 +0.3 사이이면, 약한 양적 선형관계,
r이 +0.3과 +0.7 사이이면, 뚜렷한 양적 선형관계,
r이 +0.7과 +1.0 사이이면, 강한 양적 선형관계
```

<img src="https://upload.wikimedia.org/wikipedia/commons/3/34/Correlation_coefficient.png" width=500>

* 출처 :  https://ko.wikipedia.org/wiki/%EC%83%81%EA%B4%80_%EB%B6%84%EC%84%9D#%ED%94%BC%EC%96%B4%EC%8A%A8_%EC%83%81%EA%B4%80_%EA%B3%84%EC%88%98



### 상관계수 구하기

In [None]:
# mask 구하기


In [None]:
# heatmap 시각화


## 범주형 데이터

## 변수 하나의 빈도수 구하기

In [None]:
# 대여소별 운영방식 value_counts


In [None]:
# 대여소별 운영방식 value_counts 의 비율로 구하기


In [None]:
# 자치구별 대여소 빈도 수 value_counts 로 구하기


In [None]:
# countplot 으로 자치구별 빈도수 구하기


## 변수 두 개의 빈도수 

In [None]:
# 운영방식, 자치구 교차표 구하기


In [None]:
# 운영방식, 자치구 countplot


## 범주형 vs 수치형 데이터 비교
* seaborn 의 통계연산을 지원하는 그래프 사용
* pandas 의 groupby 를 통해 데이터 집계하기

### 막대그래프

In [None]:
# 자치구 별 대여소별 평균 자전거 수 barplot 
plt.figure(figsize=(15, 5))


In [None]:
# 자치구 별 대여소별 합계 자전거 수 barplot 
plt.figure(figsize=(15, 5))


### groupby

<img src = 'https://pandas.pydata.org/docs/_images/06_groupby.svg' width="800">

In [None]:
# 자치구별 자전거 수 합계
# gu_bike_count

In [None]:
# 자치구별 자전거 수 합계 시각화
# gu_bike_count

### pivot_table



<img src = 'https://pandas.pydata.org/docs/_images/reshaping_pivot.png' width = '600'>

In [None]:
# 자치구별 자전거 수 합계


In [None]:
# 자치구별 자전거 수 합계 sns.barplot 으로 시각화
plt.figure(figsize=(15, 5))


### 상자수염그림
* boxplot


#### 기술통계 용어

* 백분위 수 : 데이터를 백등분 한 것
* 사분위 수 : 데이터를 4등분 한 것
* 중위수 : 데이터의 정 가운데 순위에 해당하는 값.(관측치의 절반은 크거나 같고 나머지 절반은 작거나 같다.)
* 제 3사분위 수 (Q3) : 중앙값 기준으로 상위 50% 중의 중앙값, 전체 데이터 중 상위 25%에 해당하는 값
* 제 1사분위 수 (Q1) : 중앙값 기준으로 하위 50% 중의 중앙값, 전체 데이터 중 하위 25%에 해당하는 값
* 사분위 범위 수(IQR) : 데이터의 중간 50% (Q3 - Q1)

* 출처 : [상자 수염 그림 - 위키백과, 우리 모두의 백과사전](https://ko.wikipedia.org/wiki/%EC%83%81%EC%9E%90_%EC%88%98%EC%97%BC_%EA%B7%B8%EB%A6%BC)

<img src="https://miro.medium.com/max/1400/1*NRlqiZGQdsIyAu0KzP7LaQ.png" width="400">

* 이미지 출처 : https://towardsdatascience.com/understanding-boxplots-5e2df7bcbd51

In [None]:
# 자치구별 자전거 수 sns.boxplot 으로 시각화 hue="운영방식"
plt.figure(figsize=(15, 5))


In [None]:
# 위에서 구한 boxplot 에 대한 수치를 groupby로 구해봅니다.


### 바이올린플롯

In [None]:
# 자치구별 자전거 수 sns.boxplot 으로 시각화 hue="운영방식"
plt.figure(figsize=(15, 5))


## 설치 시기
### 선그래프

In [None]:
# pointplot  x="연도", y="자전거수", hue="운영방식" 합계


In [None]:
# groupby 연도별 운영방식 합계


In [None]:
# pivot_table index="연도", columns="운영방식", values="대여소번호"


In [None]:
# pointplot x="월", y="자전거수", hue="연도"


In [None]:
# barplot x="연도", y="자전거수", hue="운영방식"


In [None]:
# violinplot x="연도", y="자전거수", hue="운영방식"
plt.figure(figsize=(15, 5))


In [None]:
# barplot x="월", y="자전거수", hue="운영방식" 합계


In [None]:
# catplot x="월", y="자전거수", hue="운영방식" 을 연도별로 시각화 합니다.


## 대여소 지도 시각화

## Folium 으로 지도 활용하기
* 다음의 프롬프트 창을 열어 conda 명령어로 설치합니다.
<img src="https://i.imgur.com/x7pzfCP.jpg">
* <font color="red">주피터 노트북 상에서 설치가 되지 않으니</font> anaconda prompt 를 열어서 설치해 주세요.


* 윈도우
    * <font color="red">관리자 권한</font>으로 아나콘다를 설치하셨다면 다음의 방법으로 anaconda prompt 를 열어 주세요.
    <img src="https://i.imgur.com/GhoLwsd.png">
* 맥
    * terminal 프로그램을 열어 설치해 주세요. 


* 다음의 문서를 활용해서 지도를 표현합니다.
* https://nbviewer.jupyter.org/github/python-visualization/folium/blob/main/examples/Quickstart.ipynb
* Folium 사용예제 :
http://nbviewer.jupyter.org/github/python-visualization/folium/tree/main/examples/

In [None]:
# 아나콘다에서 folium 을 사용하기 위해서는 별도의 설치가 필요
# https://anaconda.org/conda-forge/folium
# conda install -c conda-forge folium 
# 지도 시각화를 위한 라이브러리


In [None]:
# 지도의 중심을 지정하기 위해 위도와 경도의 평균을 구합니다. 
# lat, long

### 반복문과 조건문으로 대여소를 지도에 표시하기

In [None]:
# CircleMarker 로 대여소를 표시합니다.
# tiles="Stamen Toner"
# 운영방식에 따라 원 색상을 다르게 표시합니다.


### choropleth 를 위한 GeoJSON 파일로드

* 구별로 대여소수를 표현하기 위해 GeoJSON 파일 로드
    * 파일출처 : [southkorea/seoul-maps: Seoul administrative divisions in ESRI Shapefile, GeoJSON and TopoJSON formats.](https://github.com/southkorea/seoul-maps)
    * 이 링크에서도 다운로드가 가능합니다. https://drive.google.com/open?id=13j8-_XLdPe0pptsqu8-uyE-0Ym6V2jw5
    
* Choropleth-maps : https://python-visualization.github.io/folium/quickstart.html#Choropleth-maps


* 공식문서 예제

```python
import pandas as pd

url = (
    "https://raw.githubusercontent.com/python-visualization/folium/master/examples/data"
)
state_geo = f"{url}/us-states.json"
state_unemployment = f"{url}/US_Unemployment_Oct2012.csv"
state_data = pd.read_csv(state_unemployment)

m = folium.Map(location=[48, -102], zoom_start=3)

folium.Choropleth(
    geo_data=state_geo,
    name="choropleth",
    data=state_data,
    columns=["State", "Unemployment"],
    key_on="feature.id",
    fill_color="YlGn",
    fill_opacity=0.7,
    line_opacity=0.2,
    legend_name="Unemployment Rate (%)",
).add_to(m)

folium.LayerControl().add_to(m)

m
```

In [None]:
# 서울의 행정구역 경계를 GeoJSON으로 표현한 파일입니다. 
# 이 파일을 불러와 구별 대여소수를 표현합니다.
geo_path = 'data/seoul_municipalities_geo_simple.json'
print(geo_path)


import json
geo_json = json.load(open(geo_path, encoding="utf-8"))

In [None]:
# features, properties 정보 보기


In [None]:
# features, properties, SIG_KOR_NM 정보 보기


In [None]:
# 자치구별 자전거수 합계 groupby 로 구하기
# df_gu_bike_count


In [None]:
# choropleth의 색상은 fill_color = 'YlGn'을 사용합니다.
# name='choropleth'
# columns=['자치구', '자전거수'],
# key_on='feature.properties.SIG_KOR_NM'


In [None]:
# choropleth의 색상은 fill_color = 'YlGn'을 사용합니다.
# tiles="Stamen Toner"
