# 利用 DBSCAN 分群，尋找 Uber 上車熱點

## Import 所需的套件

1. DBSCAN - 此範例所需的功能
2. numpy - 利用 numpy 套件操作矩陣
3. csv - 讀取 csv 資料所需
4. mplleaflet 和 matplotlib - 資料視覺化 

In [None]:
from sklearn.cluster import DBSCAN
import numpy as np
import csv
import matplotlib.pyplot as plt
import mplleaflet # 地圖視覺化

# do you install mplleaflet ?
# "!pip install mplleaflet"

## 讀取資料集

此資料集是 CSV 格式的資料，內容為：

```
"Date/Time","Lat","Lon","Base"
"8/1/2014 0:03:00",40.7366,-73.9906,"B02512"
"8/1/2014 0:09:00",40.726,-73.9918,"B02512"
...
...
...
```
Date/Time : 上車時間

Lat 和 Lon : 上車座標

Base : TLC base company code，紐約計程車制式化編號

這裡我們取得 2014 年 8 月 15 日當天的所有上車座標

## sample code
<pre>
<code>
with open( [==fixme==] , newline='\n') as csvfile:
    rows = csv.DictReader(csvfile)
    for row in rows:
        if row['Date/Time'].startswith( [==fixme==] ):
            data.append([float( [==fixme==] ), float( [==fixme==] )])
</code>
</pre>

In [None]:
data = []
# 讀檔
## csv reader : csv.DictReader

# 座標讀取
##  begin date: 8/15/2014


# List to np array
## np.array()

確認有得到資料

## 主程式

由於 DBSCAN 至少需要 2 個參數

1. 半徑
2. 最小核心點數量

第 1 點我們可以理解成上車地點的距離，所以我們利用弧度推算公里，這裡的意思就是 半徑 = (弧度0.05) 公里

第 2 點就比較直觀，一個群集的最少點的數量就當作 範圍內上車地點 的數量就好

另外，一般的 DBSCAN 衡量距離的方法為尤拉距離，而這裡使用 [半正矢](https://zh.wikipedia.org/wiki/%E5%8D%8A%E6%AD%A3%E7%9F%A2%E5%85%AC%E5%BC%8F)，原因就是我們這裡是在計算地球上的距離，而不是一個假想平面

## Sample code
<pre><code>
dbscan = DBSCAN(eps= [==fixme==], min_samples= [==fixme==] , metric='haversine')
dbscan.fit(np.radians( [==fixme==] )) # 把原本經緯度的資料轉成弧度
cluster_labels = [==fixme==] # 取的分群的結果
num_clusters = len(set( [==fixme==] )) # 查看分到幾群
</code></pre>

In [None]:
%%time
# 預設距離半徑
kms_per_radian = 6371.0088
# 半徑 = (弧度0.05) 公里
epsilon = 0.05 / kms_per_radian
# 最小 minPts
min_pickups = 25

## perform DBSCAN clustering
## parameter metric='haversine'
## 把原本經緯度的資料轉成弧度 , np.radians

# 查看分幾群


由上面的程式碼得知，我們的到一個 0~86 (87 群) 的群集資料

而 -1是雜訊，這裡可能指

1. 離各個群太遠 ( eps < 群的距離)
2. 群的核心點數量太少，不夠成群

## 後處理

根據分群完的結果，我們把每一群的中心點求出

## sample code
<pre><code>
hot_spot = []
hot_spot_num = []

for c in range( [==fixme==] ):
    #若不是離群值
    if c != [==fixme==]:
        #Numpy 搜尋方法 np.where
        tmp = data[ [==fixme==] ]  # Numpy 搜尋的用法
        #np.mean 平均
        #axis = 0：壓縮行，對各列求均值，回傳 1* n矩陣
        #axis =1 ：壓縮列，對各行求均值，回傳 m *1矩陣
        hot_spot.append(np.mean([==fixme==], [==fixme==])) # 取該群的 行平均 - 中心點
        #該群的數量
        hot_spot_num.append([==fixme==])

hot_spot = np.array(hot_spot)
hot_spot_num = np.array(hot_spot_num)
</code></pre>

In [None]:
hot_spot = []
hot_spot_num = []

# 每一群的中心點求出
## 取出每一群
### data[np.where(cluster_labels==群)]

## 平均 np.mean

## 數量
### len()


## 繪製地圖

## sample code
<pre><code>
fig = plt.figure(figsize=([==fixme==],[==fixme==]))
ax = fig.add_subplot(111)

for idx in range([==fixme==]):
    #print(hot_spot[[==fixme==]], hot_spot_num[[==fixme==]])
    plt.scatter(hot_spot[[==fixme==],[==fixme==]], hot_spot[[==fixme==],[==fixme==]],s=hot_spot_num[[==fixme==]] )
    
mplleaflet.display()
</code></pre>

In [None]:
## 繪圖
fig = plt.figure(figsize=([==fixme==],[==fixme==]))
ax = fig.add_subplot(111)


for idx in range([==fixme==]):
    ## 座標
    ## plt.scatter(X, Y, number )
    
mplleaflet.display() 