In [115]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import json

import requests

#For Convenient usage of Matplotlib on Visualization
plt.style.use('seaborn')
sns.set(font_scale=2.5)

#Library to find-out missed data
import missingno as msno

#Warning Control Library in python
import warnings
warnings.filterwarnings('ignore')

%matplotlib inline

![title](img/manual.png)
![title](img/result.png)

In [46]:
api_form = 'http://openapi.seoul.go.kr:8088/656958454e6b6d6b38376376796c76/json/ListTaxiDrivingDataset/1/5/127.08515/37.57343/1/25/1/'

response = requests.get(api_form)

json_response = json.loads(response.text)

json_response

{'ListTaxiDrivingDataset': {'RESULT': {'CODE': 'INFO-000',
   'MESSAGE': '정상 처리되었습니다'},
  'list_total_count': 39,
  'row': [{'CNT_EMP': 0.0,
    'CNT_OFF': 0.0,
    'CNT_ON': 1.0,
    'DAY': '1',
    'DEST': '1120',
    'LINK_ID': 'T_156511',
    'TIME': '25',
    'WEATHER': '1',
    'X_PART': '127.0862890^127.0861067^127.0860469^127.0860522^',
    'Y_PART': '37.5731926^37.5729649^37.5726380^37.5720175^'},
   {'CNT_EMP': 0.0,
    'CNT_OFF': 0.0,
    'CNT_ON': 8.0,
    'DAY': '1',
    'DEST': '1121',
    'LINK_ID': 'T_156511',
    'TIME': '25',
    'WEATHER': '1',
    'X_PART': '127.0862890^127.0861067^127.0860469^127.0860522^',
    'Y_PART': '37.5731926^37.5729649^37.5726380^37.5720175^'},
   {'CNT_EMP': 0.0,
    'CNT_OFF': 0.0,
    'CNT_ON': 1.0,
    'DAY': '1',
    'DEST': '1171',
    'LINK_ID': 'T_156511',
    'TIME': '25',
    'WEATHER': '1',
    'X_PART': '127.0862890^127.0861067^127.0860469^127.0860522^',
    'Y_PART': '37.5731926^37.5729649^37.5726380^37.5720175^'},
   {'CNT_EMP

### Raw Dataset

In [100]:
raw = pd.read_csv('./raw_2015.csv')

In [101]:
raw.head()

Unnamed: 0,T_Link_ID,Day,Time,Weather,Dest,CntOn,CntOff,CntEmp,Unnamed: 8
0,T_146396,1,0,1,,,80.0,2540.0,
1,T_146396,1,0,1,1111.0,1.0,,,
2,T_146396,1,0,1,1114.0,1.0,,,
3,T_146396,1,0,1,1123.0,1.0,,,
4,T_146396,1,0,1,1129.0,27.0,,,


In [116]:
b = raw['T_Link_ID']
b

0           T_146396
1           T_146396
2           T_146396
3           T_146396
4           T_146396
5           T_146396
6           T_146396
7           T_146396
8           T_146396
9           T_146396
10          T_146396
11          T_146396
12          T_146396
13          T_146396
14          T_146396
15          T_146396
16          T_146396
17          T_146396
18          T_146396
19          T_146396
20          T_146396
21          T_146396
22          T_146396
23          T_146396
24          T_146396
25          T_146396
26          T_146396
27          T_146396
28          T_146396
29          T_146396
              ...   
97456133    T_217896
97456134    T_217896
97456135    T_217896
97456136    T_217896
97456137    T_217896
97456138    T_217896
97456139    T_217896
97456140    T_217896
97456141    T_217896
97456142    T_217896
97456143    T_217896
97456144    T_217896
97456145    T_217896
97456146    T_217896
97456147    T_217896
97456148    T_217896
97456149    T

In [111]:
#T_Link_ID에 맞게 Data를 분리
a = raw.loc[(raw['T_Link_ID'] == 'T_146396') & (raw['Day'] == 1)]

Unnamed: 0,T_Link_ID,Day,Time,Weather,Dest,CntOn,CntOff,CntEmp,Unnamed: 8
0,T_146396,1,0,1,,,80.0,2540.0,
1,T_146396,1,0,1,1111,1.0,,,
2,T_146396,1,0,1,1114,1.0,,,
3,T_146396,1,0,1,1123,1.0,,,
4,T_146396,1,0,1,1129,27.0,,,
5,T_146396,1,0,1,1130,3.0,,,
6,T_146396,1,0,1,1138,1.0,,,
7,T_146396,1,0,1,1141,1.0,,,
8,T_146396,1,0,1,1144,1.0,,,
9,T_146396,1,0,1,1150,1.0,,,


### Link Data Mapping Check

Rows (Link의 개수) : 37,895개

In [114]:
link_data = pd.read_csv('./link_info.csv')
link_data


Unnamed: 0,T_LINK_ID,X_MAX,Y_MAX,X_MIN,Y_MIN,X_PART,Y_PART
T_146396,127.029931,37.608843,127.029098,37.607772,127.0299312^127.0298495^127.0296241^127.0290984^,37.6088426^37.6087194^37.6084175^37.6077722^,
T_146397,127.030038,37.608754,127.029194,37.607722,127.0291944^127.0299679^127.0300384^,37.6077224^37.6086594^37.6087537^,
T_146398,127.031212,37.607221,127.030910,37.606225,127.0309100^127.0312121^,37.6072213^37.6062248^,
T_146399,127.042422,37.597773,127.041197,37.597707,127.0411967^127.0418686^127.0424217^,37.5977734^37.5977384^37.5977068^,
T_146400,127.042428,37.597893,127.041203,37.597827,127.0424283^127.0418751^127.0412033^,37.5978266^37.5978583^37.5978932^,
T_146407,127.031874,37.604054,127.030580,37.603431,127.0305799^127.0318741^,37.6040539^37.6034310^,
T_146408,127.054686,37.614939,127.053384,37.614211,127.0533841^127.0534817^127.0546078^127.0546857^,37.6142115^37.6142520^37.6148883^37.6149394^,
T_146409,127.055482,37.615991,127.054686,37.614939,127.0546857^127.0548868^127.0550045^127.055111...,37.6149394^37.6150711^37.6151746^37.6153109^37...,
T_146410,127.056562,37.616902,127.055482,37.615991,127.0554820^127.0555906^127.0558404^127.056226...,37.6159914^37.6161537^37.6164315^37.6167292^37...,
T_146411,127.050438,37.617469,127.049385,37.616745,127.0504383^127.0503752^127.0494554^127.0493845^,37.6174688^37.6174316^37.6168071^37.6167445^,


### 이동하는 링크 노드에 해당하는 좌표를 모두 추출하기

In [117]:
from functools import reduce

#specific data 추출
x_coord = taxi_data[0]['X_PART'].split('^')
y_coord = taxi_data[0]['Y_PART'].split('^')

del x_coord[-1]
del y_coord[-1]


#Dict형태로 좌표 분리
coordinate_dict = []

for i in range(0,4):
    tmp_x = x_coord[i]
    tmp_y = y_coord[i]
    tmp_dict = {}
    tmp_dict['x'] = tmp_x
    tmp_dict['y'] = tmp_y
    coordinate.append(tmp_dict)
#print(coordinate)

#List형태로 좌표 분리
float_x = [] #x좌표만 float로 모아놓음
float_y = [] #y좌표만 float로 모아놓음
coordinate_list = []

for i in range(0,4):
    #Combined List Form
    tmp_x = float(x_coord[i])
    tmp_y = float(y_coord[i])
    tmp_list = []
    tmp_list.append(tmp_x)
    tmp_list.append(tmp_y)
    coordinate_list.append(tmp_list)

    #X List Form
    float_x.append(tmp_x)
    float_y.append(tmp_y)

#[x,y]좌표쌍 모음집 (List in List 형태)
print(coordinate_list)

#Aveage List Here
x_avg = reduce(lambda x, y: x+y, float_x) / len(float_x)
y_avg = reduce(lambda x, y: x+y, float_y) / len(float_y)

#평균값 좌표
avg_list = []
avg_list.append(y_avg)
avg_list.append(x_avg)

#평균 값만 List로 반환
avg_list

[[127.086289, 37.5731926], [127.0861067, 37.5729649], [127.0860469, 37.572638], [127.0860522, 37.5720175]]


[37.57270325, 127.08612369999999]

In [118]:
def coord_extractor(taxi_data):
    x_coord = taxi_data[0]['X_PART'].split('^')
    y_coord = taxi_data[0]['Y_PART'].split('^')
    del x_coord[-1]
    del y_coord[-1]
    return x_coord, y_coord

def coord_list(x_coord, y_coord)


#List형태로 좌표 분리
float_x = [] #x좌표만 float로 모아놓음
float_y = [] #y좌표만 float로 모아놓음
coordinate_list = []

for i in range(0,4):
    #Combined List Form
    tmp_x = float(x_coord[i])
    tmp_y = float(y_coord[i])
    tmp_list = []
    tmp_list.append(tmp_x)
    tmp_list.append(tmp_y)
    coordinate_list.append(tmp_list)

    #X List Form
    float_x.append(tmp_x)
    float_y.append(tmp_y)

#[x,y]좌표쌍 모음집 (List in List 형태)
print(coordinate_list)

#Aveage List Here
x_avg = reduce(lambda x, y: x+y, float_x) / len(float_x)
y_avg = reduce(lambda x, y: x+y, float_y) / len(float_y)

#평균값 좌표
avg_list = []
avg_list.append(y_avg)
avg_list.append(x_avg)

#평균 값만 List로 반환
avg_list

hi
[[127.086289, 37.5731926], [127.0861067, 37.5729649], [127.0860469, 37.572638], [127.0860522, 37.5720175]]


[37.57270325, 127.08612369999999]

### 샘플 데이터 지도에 좌표 찍고, 기준으로 삼을 기준점 정하기

택시 공공데이터에 주어진 링크 노드는 4개의 점으로 구성되어있으므로 (일종의 그래프 형태), 특정 지점을 하나 잡아서 위치로 잡기 어렵다. (도로의 개념으로 4개의 점이 이어진 것이 하나의 데이터셋으로 되어있기 때문이다. API 상에서도 하나의 좌표값을 넣으면, 그 좌표값이 들어있는 그래프를 리턴하여 결과값을 반환한다)

이러한 문제가 있으므로, 각 노드의 평균값을 하나의 지점으로 데이터를 핸들링하여 간편하게 데이터를 보고자 한다.

In [89]:
import json
map_seoul = folium.Map(location=[37.57270325, 127.086123699], zoom_start=18, tiles="Stamen Toner")

#Marker 사용해서 좌표 찍기
#https://www.kaggle.com/rachan/how-to-folium-for-maps-heatmaps-time-analysis
#위도, 경도 차이 체크
for coords in coordinate_list:
    folium.Marker([coords[1],coords[0]], icon=folium.Icon(color='blue')).add_to(map_seoul)
    
#평균값
folium.Marker(avg_list, icon=folium.Icon(color='red')).add_to(map_seoul)
    
map_seoul

### Read Geo Data with Python (Done)

1) 서울시의 경계에 맞게 각 coordinate를 구분하기 --> 경계선 따라서 좌표 따기
: 경계선의 coordinate를 따면, Taxi들의 좌표값에 맞게 Spatial Analysis를 진행할 수 있음

In [4]:
import shapefile #pip install shapefile
#from pyproj import Proj, transform #pip install pyproj
#https://hiseon.me/2018/07/07/shp-file-format/
#https://junpyopark.github.io/road-network-construction-1/

### HTML 파일 형태로 외부 추출하기

In [6]:
#pip install geojson
#pip install folium

#https://snscrawler.wordpress.com/tag/folium/

import folium

#37.566345, 126.977893을 중심으로 한 Map생성 방법
map_osm = folium.Map(location=[37.566345, 126.977893], zoom_start=20) #zoom_start : 몇 번 확대할 것인지
map_osm.save('./map1.html')

### 지도 데이터 위에 Polygon 찍기

In [39]:
import json
map_seoul = folium.Map(location=[37.566345, 126.977893], zoom_start=11)
rfile = open('./seoul_municipal.json','r',encoding='utf-8').read()
jsonData = json.loads(rfile)
folium.GeoJson(jsonData, name='json_data').add_to(map_seoul)
map_seoul

#.shp 파일에서 추출 --> Seoul_municipal.json --> 각 구에 대한 Polygon Info 가지고 있음
#애초에 .shp 파일의 지도 데이터는 .json형식이 여러개 붙어있는 형태이므로, polygon만 따올거면 .json만 있어도 상관 없음
#.shp = .json + 메타데이터 (행정구..이미지..등)

#### 서울시 Polygon Info json(dict) 형태로 받기

In [8]:
import ast

seoul_str = open('./seoul_municipal.json', encoding='utf-8').read() #encoding error check
seoul_dict = ast.literal_eval(seoul_str)

seoul_dict['features']

[{'geometry': {'coordinates': [[[127.11519584981606, 37.557533180704915],
     [127.11879551821994, 37.557222485451305],
     [127.12146867175024, 37.55986003393365],
     [127.12435254630417, 37.56144246249796],
     [127.13593925898998, 37.56564793048277],
     [127.14930548011061, 37.56892250303897],
     [127.15511020940411, 37.57093642128295],
     [127.16683184366129, 37.57672487388627],
     [127.17038810813094, 37.576465605301046],
     [127.17607118428914, 37.57678573961056],
     [127.17905504160184, 37.57791388161732],
     [127.17747787800164, 37.57448983055031],
     [127.1781775408844, 37.571481967974336],
     [127.17995281860672, 37.569309661290504],
     [127.18122821955262, 37.56636089217979],
     [127.18169407550688, 37.56286338914073],
     [127.18408792330152, 37.55814280369575],
     [127.18350810324185, 37.550053002101485],
     [127.1852644795464, 37.54888592026534],
     [127.18480906237207, 37.545296888806796],
     [127.18543378919821, 37.54260756512178],
  

### Check whether the point falls inside of Polygon

In [20]:
#https://stackoverflow.com/questions/20776205/point-in-polygon-with-geojson-in-python

import json
from shapely.geometry import shape, Point

with open('./seoul_municipal.json') as f:
    js = json.load(f)
    
point = Point(126.977893,37.566345) #위도 경도 위치 바꾸어 주어야 함 (126 단위가 먼저 앞으로 와야 함)

for feature in js['features']:
    polygon = shape(feature['geometry'])
    if polygon.contains(point):
        print('Point belongs to', feature['properties']['name'])
    else:
        pass

Point belongs to 중구


### Heatmap

In [35]:
'''
https://alcidanalytics.com/p/geographic-heatmap-in-python
seoul_latlon.csv as test data
'''
import geopandas as gpd
from folium.plugins import HeatMap

district = pd.read_csv('./seoul_latlon.csv')

hmap = folium.Map(location=[37.566345, 126.977893], zoom_start=11)

max_amount = float(district['Amount'].max())

hm_wide = HeatMap(list(zip(district.lat.values, district.lon.values, district.Amount.values)),
                  min_opacity=0.2, max_val=max_amount, radius=17, blur=15, max_zoom=1)

hmap.add_child(hm_wide)

### Read Data in Time-Series Form