# Chapter 4: Geospatial Python Toolbox

## 01.  Installing third-party Python modules

python에서 표준라이브러리와에 추가적인 라이브러리는 아래와 같은 명령어로 설치할 수 있음

```
easy_install <package name>

pip install <package name>
```

추가적인 라이브러리를 설치하면, python의 site-packages 디렉토리에 설치되고, sys module을 확인할 수 있음.

In [2]:
import sys
sys.path[-1]    # -1은 리스트의 마지막 요소를 나타냄

'C:\\Users\\Y.G JI\\.ipython'

In [4]:
sys.path    # 이와 같이 전체 리스트를 볼수 있음.

['',
 'C:\\Anaconda2\\python27.zip',
 'C:\\Anaconda2\\DLLs',
 'C:\\Anaconda2\\lib',
 'C:\\Anaconda2\\lib\\plat-win',
 'C:\\Anaconda2\\lib\\lib-tk',
 'C:\\Anaconda2',
 'c:\\anaconda2\\lib\\site-packages\\sphinx-1.3.5-py2.7.egg',
 'c:\\anaconda2\\lib\\site-packages\\setuptools-20.3-py2.7.egg',
 'C:\\Anaconda2\\lib\\site-packages',
 'C:\\Anaconda2\\lib\\site-packages\\win32',
 'C:\\Anaconda2\\lib\\site-packages\\win32\\lib',
 'C:\\Anaconda2\\lib\\site-packages\\Pythonwin',
 'C:\\Anaconda2\\lib\\site-packages\\IPython\\extensions',
 'C:\\Users\\Y.G JI\\.ipython']

### Installing GDAL

- Geospatial Data Abstraction Library (GDAL)은 이 책의 예제에서 많이 다루는 핵심이고 GDAL library에서 필요하는 추가적인 리소스 때문에 설치가 복잡함.

#### Windows에서 설치

http://www.lfd.uci.edu/~gohlke/pythonlibs/#gdal 사이트에서 python 버전과 시스템환경( 32bit/64bit )에 맞는 배포버전을 다운로드함.

In [7]:
import sys
print (sys.version)

2.7.11 |Anaconda 4.0.0 (64-bit)| (default, Feb 16 2016, 09:58:36) [MSC v.1500 64 bit (AMD64)]


In [10]:
! dir GDAL*

 D 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: 9495-1634

 D:\Work_Git\mystudy\02_study\05_psypoli\python 디렉터리

2016-08-06  오전 10:18        14,149,845 GDAL-2.0.3-cp27-cp27m-win_amd64.whl
               1개 파일          14,149,845 바이트
               0개 디렉터리  70,579,879,936 바이트 남음


In [12]:
 ! pip install GDAL-2.0.3-cp27-cp27m-win_amd64.whl

Processing d:\work_git\mystudy\02_study\05_psypoli\python\gdal-2.0.3-cp27-cp27m-win_amd64.whl
Installing collected packages: GDAL
Successfully installed GDAL-2.0.3


You are using pip version 8.1.1, however version 8.1.2 is available.
You should consider upgrading via the 'python -m pip install --upgrade pip' command.


GDAL 설치 확인

In [14]:
from osgeo import gdal
gdal.__version__      # 책에서는 1.11.3 버전

'2.0.3'

#### Linux 에서 설치

```
sudo apt-get install gdal-bin
sudo apt-get install python-gdal

from osgeo import gdal
from osgeo import ogr
```

#### Mac OS X 에서 설치

- Homebrew 또는 MacPorts 을 사용해서 설치
- C로 되어 있는 scientific과 geospatial libraries가 먼저 설치가 필요함.

## 02. Python networking libraries for acquiring data

- 방대한 공간데이터가 인터넷에서 공유되어 있으며, Python을 공간분석을 위한 데이터 수집을 자동화 할 수 있음.
- 데이터는 URL 또는 FTP에서 받아오고, 받아진 데이터는 ZIP으로 자주 압축되었음.

### The Python urllib module

- urllib 패키지는 URL주소의 file들을 간단하게 접근할 수 있음.

ZIP파일 받기

In [None]:
# Python3에서 동작함.
import urllib.request
import urllib.parse
import urllib.error

url = "https://github.com/GeospatialPython/Learn/raw/master/hancock.zip"
fileName = "hancock.zip"
urllib.request.urlretrieve(url, fileName)

In [19]:
# Python2에서 동작함.
import urllib
import urllib2
import requests

url = "https://github.com/GeospatialPython/Learn/raw/master/hancock.zip"
fileName = "hancock.zip"
f = urllib2.urlopen(url)
with open(fileName, "wb") as code:
    code.write(f.read())

In [20]:
! dir hancock.zip

 D 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: 9495-1634

 D:\Work_Git\mystudy\02_study\05_psypoli\python 디렉터리

2016-08-06  오전 10:53            17,341 hancock.zip
               1개 파일              17,341 바이트
               0개 디렉터리  70,579,851,264 바이트 남음


Comma-Separated Values (CSV) file 받기

- United States Geological Survey (USGS)의 지진데이터를 받아오자.

In [21]:
# pyhon2
url = "http://earthquake.usgs.gov/earthquakes/feed/v1.0/summary/all_hour.csv"
earthquakes = urllib2.urlopen(url)

earthquakes.readline()

'time,latitude,longitude,depth,mag,magType,nst,gap,dmin,rms,net,id,updated,place,type,horizontalError,depthError,magError,magNst,status,locationSource,magSource\n'

In [22]:
earthquakes.readline()

'2016-08-06T01:36:19.090Z,38.8236656,-122.8071671,2.7,0.53,md,8,120,0.01821,0.02,nc,nc72671080,2016-08-06T01:38:02.216Z,"6km NW of The Geysers, California",earthquake,0.5,1.47,0.02,2,automatic,nc,nc\n'

In [23]:
for record in earthquakes: print(record)

2016-08-06T01:24:38.000Z,64.1258,-153.6348,5,1.1,ml,,,,0.35,ak,ak13832440,2016-08-06T01:54:11.742Z,"Central Alaska",earthquake,0.4,0.3,,,automatic,ak,ak

2016-08-06T01:21:57.560Z,35.3411667,-117.9121667,6.75,1.28,ml,18,87,0.09143,0.16,ci,ci37436207,2016-08-06T01:25:37.364Z,"25km NNE of California City, CA",earthquake,0.32,0.87,0.214,22,automatic,ci,ci

2016-08-06T01:11:09.320Z,-29.1811,60.9584,10,4.7,mb,,67,9.268,0.66,us,us10006bs1,2016-08-06T01:39:49.930Z,"Southwest Indian Ridge",earthquake,12.4,1.9,0.117,22,reviewed,us,us

2016-08-06T00:59:34.280Z,38.7971649,-122.8085022,6.51,0.89,md,5,192,0.01492,0.06,nc,nc72671065,2016-08-06T01:01:18.713Z,"5km WNW of The Geysers, California",earthquake,3.91,4.16,0.34,2,automatic,nc,nc



### FTP

U.S. National Oceanic and Atmospheric Administration (NOAA)에서 Deep-ocean Assessment and Reporting of Tsunamis (DART, 심해평가와 스나미 보고서) 데이터를 FTP로 제공함.

In [29]:
import ftplib
server = "ftp.ngdc.noaa.gov"
dir = "hazards/DART/20070815_peru"
fileName = "21415_from_20070727_08_55_15_tides.txt"
ftp = ftplib.FTP(server)
ftp.login()

'230 Login successful.'

In [30]:
ftp.cwd(dir)
out = open(fileName, "wb")
ftp.retrbinary("RETR " + fileName, out.write)
out.close()

'226 Transfer complete.'

In [31]:
dart = open(fileName)
for line in dart:
    if "LAT," in line:
        print(line)
        break

 LAT,   LON      50.1663    171.8360



In [None]:
# python3 
dart = urllib.request.urlopen("ftp://" + server + "/" + dir + "/" + fileName)
for line in dart:
    line = str(line, encoding="utf8")
    if "LAT," in line:
        print(line)

### ZIP and TAR files

위에서 다운받은 hancock.zip 안에는 hancock.shp, hancock.shx,  hancock.dbf 파일들이 있고 이것을 python으로 풀어보자.

In [33]:
import zipfile
zip = open("hancock.zip", "rb")
zipShape = zipfile.ZipFile(zip)
for fileName in zipShape.namelist():
    out = open(fileName, "wb")
    out.write(zipShape.read(fileName))
    out.close()

In [34]:
! dir hancock*

 D 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: 9495-1634

 D:\Work_Git\mystudy\02_study\05_psypoli\python 디렉터리

2016-08-06  오전 11:10             1,994 hancock.dbf
2016-08-06  오전 11:10            22,172 hancock.shp
2016-08-06  오전 11:10               108 hancock.shx
2016-08-06  오전 10:53            17,341 hancock.zip
               4개 파일              41,615 바이트
               0개 디렉터리  70,579,802,112 바이트 남음


In [35]:
# TAR
# 위에서 압축을 푼 파일들을 tar로 묶어보고 풀어보자.
import tarfile
tar = tarfile.open("hancock.tar.gz", "w:gz")
tar.add("hancock.shp")
tar.add("hancock.shx")
tar.add("hancock.dbf")
tar.close()

In [36]:
! dir hancock.tar.gz

 D 드라이브의 볼륨에는 이름이 없습니다.
 볼륨 일련 번호: 9495-1634

 D:\Work_Git\mystudy\02_study\05_psypoli\python 디렉터리

2016-08-06  오전 11:15            17,298 hancock.tar.gz
               1개 파일              17,298 바이트
               0개 디렉터리  70,579,781,632 바이트 남음


In [37]:
tar = tarfile.open("hancock.tar.gz", "r:gz")
tar.extractall()
tar.close()

지금까지 배운것을 종합해서 URL에 있는 zip파일을 받아서 메모리상으로만 압축을 풀고, bounding box coordinates 만을 읽어오는 소스임.

In [None]:
# python3 
import urllib.request
import urllib.parse
import urllib.error

import zipfile
import io
import struct
url ="https://github.com/GeospatialPython/Learn/raw/master/hancock.zip"
cloudshape = urllib.request.urlopen(url)
memoryshape = io.BytesIO(cloudshape.read())
zipshape = zipfile.ZipFile(memoryshape)
cloudshp = zipshape.read("hancock.shp")
# Access Python string as an array
struct.unpack("<dddd", cloudshp[36:68])

## 03. Python markup and tag-based parsers

- KML 또는 GML은 일반적인 XML포맷이지만, well-known text (WKT)은 확장 marker와 square brackets ([]) 을 사용함.
- Python에서 XML 데이터를 다루는 것을 배워보자.

#### The minidom module

- minidom 패지키는 매우 오래되고 아주 단순한 xml 파서로 python 내장 xml tool임.
- 20 MB보다 적은 xml 문서를 다루는데 적합
- Google's KML 파일을 샘플예제로 다루어보자.
- https://raw.githubusercontent.com/GeospatialPython/Learn/master/time-stamp-point.kml

In [38]:
from xml.dom import minidom
kml = minidom.parse("time-stamp-point.kml")
Placemarks = kml.getElementsByTagName("Placemark")
len(Placemarks)

361

In [39]:
Placemarks[0]

<DOM Element: Placemark at 0x2c94188>

In [40]:
Placemarks[0].toxml()

u'<Placemark>\n      <TimeStamp>\n        <when>2007-01-14T21:05:02Z</when>\n      </TimeStamp>\n      <styleUrl>#paddle-a</styleUrl>\n      <Point>\n        <coordinates>-122.536226,37.86047,0</coordinates>\n      </Point>\n    </Placemark>'

In [41]:
Placemarks[0].toprettyxml()

u'<Placemark>\n\t\n      \n\t<TimeStamp>\n\t\t\n        \n\t\t<when>2007-01-14T21:05:02Z</when>\n\t\t\n      \n\t</TimeStamp>\n\t\n      \n\t<styleUrl>#paddle-a</styleUrl>\n\t\n      \n\t<Point>\n\t\t\n        \n\t\t<coordinates>-122.536226,37.86047,0</coordinates>\n\t\t\n      \n\t</Point>\n\t\n    \n</Placemark>\n'

Placemark 태그안에 있는 좌표데이터를 읽어오기

In [42]:
coordinates = Placemarks[0].getElementsByTagName("coordinates")
point = coordinates[0].firstChild.data
point

u'-122.536226,37.86047,0'

point에는 문자열로 값이 들어가 있으면 이것을 float 형으로 변환하자

In [45]:
x,y,z = point.split(",")
x

u'-122.536226'

In [46]:
y

u'37.86047'

In [44]:
z

0.0

In [47]:
x = float(x)
y = float(y)
z = float(z)
x,y,z

(-122.536226, 37.86047, 0.0)

In [48]:
# 위의 코드를 하나의 단계로 처리할 수 있음.
x,y,z = [float(c) for c in point.split(",")]
x,y,z

(-122.536226, 37.86047, 0.0)

#### ElementTree

Python 2.5부터는 ElementTree 라는 더욱 효율적인 XML 파서가 추가되었고, cElementTree라는 C 언어 버전도 있음.

In [5]:
try:
    import xml.etree.cElementTree as ET
except ImportError:
    import xml.etree.ElementTree as ET

KML namespace라고 정의한 문서에서 먼저 Placemark element을 찾고, 그안에 포함된 coordinates 태크를 찾음.

In [53]:
tree = ET.ElementTree(file="time-stamp-point.kml")
ns = "{http://www.opengis.net/kml/2.2}"
placemark = tree.find(".//%sPlacemark" % ns)
coordinates = placemark.find("./{}Point/{}coordinates".format(ns, ns))
coordinates.text

'-122.536226,37.86047,0'

#### Building XML

In [57]:
xml = "<?xml version=\"1.0\" encoding=\"utf-8\"?>"
xml += "<kml xmlns=\"http://www.opengis.net/kml/2.2\">"
xml += " <Placemark>"
xml += " <name>Office</name>"
xml += " <description>Office Building</description>"
xml += " <Point>"
xml += " <coordinates>"
xml += " -122.087461,37.422069"
xml += " </coordinates>"
xml += " </Point>"
xml += " </Placemark>"
xml += "</kml>"

In [58]:
root = ET.Element("kml")
root.attrib["xmlns"] = "http://www.opengis.net/kml/2.2"
placemark = ET.SubElement(root, "Placemark")
office = ET.SubElement(placemark, "name")
office.text = "Office"
point = ET.SubElement(placemark, "Point")
coordinates = ET.SubElement(point, "coordinates")
coordinates.text = "-122.087461,37.422069, 37.422069"
tree = ET.ElementTree(root)
tree.write("placemark2.kml", xml_declaration=True,encoding='utf-8',method="xml")

#### BeautifulSoup

- 깨진 XML도 다룰 수 있게 디자인 HTML 파서
- 설치 방법

```
easy_install beautifulsoup4

pip install beautifulsoup4
```

In [None]:
! conda install -c anaconda beautifulsoup4=4.4.1 -y

In [2]:
from bs4 import BeautifulSoup

GPS Exchange Format (GPX)의 스마트폰 어플의 tracking file 을 사용하고 이 데이터는 2,347 라인에 </trkseg> 태크 대신에 </trk>로 되어 있음.

- https://raw.githubusercontent.com/GeospatialPython/Learn/master/broken_data.gpx

In [None]:
gpx = minidom.parse("broken_data.gpx")

In [6]:
ET.ElementTree(file="broken_data.gpx")

ParseError: mismatched tag: line 2346, column 2

In [8]:
from bs4 import BeautifulSoup
gpx = open("broken_data.gpx")
soup = BeautifulSoup(gpx.read(), features="xml")
soup.trkpt

<trkpt lat="30.307267000" lon="-89.332444000"><ele>10.7</ele><time>2013-05-16T04:39:46Z</time></trkpt>

In [10]:
tracks = soup.findAll("trkpt")
len(tracks)

2321

In [11]:
fixed = open("fixed_data.gpx", "w")
fixed.write(soup.prettify())
fixed.close()

### Well-known text (WKT)

- 공간 좌표 시스템을 표현하기 위한 텍스트 기반의 포맷
- SQL을 위한 OGC Simple Features로 개발됨.
```
POLYGON((0 0,4 0,4 4,0 4,0 0),(1 1, 2 1, 2 2, 1 2,1 1))
```

- pip로는 GEOS library가 없다라고 해서 설치가 바로 되지 않음. 

In [None]:
! conda install -c scitools shapely=1.5.13 -y

In [16]:
import shapely.wkt
wktPoly = "POLYGON((0 0,4 0,4 4,0 4,0 0),(1 1, 2 1, 2 2, 1 2, 1 1))"
poly = shapely.wkt.loads(wktPoly)
poly.area

15.0

In [17]:
poly.wkt

'POLYGON ((0 0, 4 0, 4 4, 0 4, 0 0), (1 1, 2 1, 2 2, 1 2, 1 1))'

In [19]:
from osgeo import ogr
shape = ogr.Open("polygon/polygon.shp")
layer = shape.GetLayer()
feature = layer.GetNextFeature()
geom = feature.GetGeometryRef()
wkt = geom.ExportToWkt()
wkt

'POLYGON ((-99.904679362176353 51.698147686745074,-75.010398603076666 46.56036851832075,-75.010398603076666 46.56036851832075,-75.010398603076666 46.56036851832075,-76.975736557742451 23.246272688996914,-76.975736557742451 23.246272688996914,-76.975736557742451 23.246272688996914,-114.31715769639194 26.220870210283724,-114.31715769639194 26.220870210283724,-99.904679362176353 51.698147686745074))'

## 04. Python JSON libraries

JavaScript Object Notation (JSON)은 단순한 문법과 XML비해서 파일 용량이 적음

In [23]:
jsdata = """{
    "type": "Feature",
    "id": "OpenLayers.Feature.Vector_314",
    "properties": {},
    "geometry": {
        "type": "Point",
        "coordinates": [
            97.03125,
            39.7265625
        ]
    },
    "crs": {
        "type": "name",
        "properties": {
            "name": "urn:ogc:def:crs:OGC:1.3:CRS84"
        }
    }
}"""

### The json module

- python의 eval()함수로 json 포맷을 파싱함

In [22]:
point = eval(jsdata)
point["geometry"]

{'coordinates': [97.03125, 39.7265625], 'type': 'Point'}

- eval()함수는 보안상 취약점이 있어서 사용하지 않는것이 좋음.

In [24]:
import json
json.loads(jsdata)

{u'crs': {u'properties': {u'name': u'urn:ogc:def:crs:OGC:1.3:CRS84'},
  u'type': u'name'},
 u'geometry': {u'coordinates': [97.03125, 39.7265625], u'type': u'Point'},
 u'id': u'OpenLayers.Feature.Vector_314',
 u'properties': {},
 u'type': u'Feature'}

In [25]:
pydata = json.loads(jsdata)
json.dumps(pydata)

'{"geometry": {"type": "Point", "coordinates": [97.03125, 39.7265625]}, "crs": {"type": "name", "properties": {"name": "urn:ogc:def:crs:OGC:1.3:CRS84"}}, "type": "Feature", "id": "OpenLayers.Feature.Vector_314", "properties": {}}'

### The geojson module

- geojson 모듈은 GeoJSON 형식에 맞게 데이터를 다룰 수 있음.

In [27]:
! pip install geojson

Collecting geojson
  Downloading geojson-1.3.3-py2.py3-none-any.whl
Installing collected packages: geojson
Successfully installed geojson-1.3.3


You are using pip version 8.1.1, however version 8.1.2 is available.
You should consider upgrading via the 'python -m pip install --upgrade pip' command.


In [28]:
import geojson
p = geojson.Point([-92, 37])
geojs = geojson.dumps(p)
geojs

'{"type": "Point", "coordinates": [-92, 37]}'

GeoJSON을 사용하면 데이터의 상호 변환이 용이함.

In [29]:
from shapely.geometry import asShape
point = asShape(p)
point.wkt

'POINT (-92 37)'