# OpenStreetMap 数据处理项目

***

# 1. 地图区域说明：
 上海市；闵行区：
 
 ![闵行区](minhang_area.jpg)
 
- http://www.openstreetmap.org/relation/1278189

***

# 2. 地图数据处理中所遇到的问题：


在从Overpass API下载了包含闵行区的XML文件后，运行**get_csv.py** ,将得到的各csv文件并导入sqlite3数据库，得到`minhang.db`后进行了简单查询发现以下几个问题：

- 部分路节点（way）有重复的路名标签（中文标签，英文标签）                         
- 部分tag元素的value中既有中文，又有英文
- 错误的邮件编码（闵行区的邮件编码为六位数字）


## 2.1 部分路节点（way）有重复的路名标签（中文标签，英文标签）


### 2.1.1 问题简述：

通过以下的SQL查询语言查询 `minhang.db`：
```sql
SELECT id,key,value 
FROM ways_tags WHERE key LIKE 'street%' 
AND id IN (SELECT id FROM ways_tags WHERE key = 'street:en');
```
得到以下查询结果，选取结果的其中6项：

        id          key         value
        ----------  ----------  ---------------
        11618012    street      中山东一路
        11618012    street:en   East Zhongshan
        11636804    street      南苏州路
        11636804    street:en   South Suzhou Ro
        177928803   street      南苏州路
        177928803   street:en   South Suzhou Ro


### 2.1.2 问题的解决方法


在**get_cleaned_data.py** (line:68-75)中加入判断函数：
```python
def shape_element(el, node_attr_fields=NODE_FIELDS, way_attr_fields=WAY_FIELDS):    
    tags=[]
    for t in el.iter("tag"): # el为way元素
        tag = shape_tag(el,t)
        if tag['key']!='street:en': # 在循环中判断该tag标签是否为重复的street:en 若不是则添加，若是则去除
            tags.append(tag)
        else:
            continue
    ...
    ...
```
当修改完后导入数据库再进行查询：
```sql
SELECT id,key,value 
FROM ways_tags WHERE key = 'street:en'
```
得到以下查询：

        id          key         value
        ----------  ----------  ---------------
        (null)      (null)      (null)
该问题已得到解决


## 2.2  部分tag元素的value中既有中文，又有英文


### 2.2.1 问题简述：
在进行检查的sql查询后发现，部分tag元素中的value存在的中文信息与英文信息互存，同时信息均为重复，如:

```sql
SELECT id,key, value FROM ways_tags 
WHERE value LIKE '%路%' AND value LIKE '%road%'
```
得到以下查询：

        id          key         value
        ----------  ----------  ---------------
        29278673	name	    蟠中东路 Panzhong East Road
        68862381	name	    崧泽高架路 Songze Elevated Road
        69555385	name	    九杜路 JiuDu Road
        69981496	name	    徐民路 XuMin Road
        130799679	name	    莲花南路 Lian Hua Road (South)


### 2.2.2 问题的解决方案：
由此由于此项目在Python2中进行，需要考虑中文字符的编码问题，在**get_cleaned_data.py** (line: 7-9, 30, 50-51)中将默认编码改为**utf-8**并通过预编译`road_getchn`正则表达式来获取`value`中的中文字符。

```python
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" ) #将代码的默认编码改为utf-8
import re
road_getchn=re.compile(u'[0-9\u4E00-\u9FFF\\s+]*')

def shape_tag(el, tag):   # 该函数用来处理nodes,ways的tag标签中的数据
    
    tag = {
        'id'   : el.attrib['id'],
        'key'  : tag.attrib['k'],
        'value': tag.attrib['v'],
        'type' : 'regular'
    }
    
    if LOWER_COLON.match(tag['key']):
        tag['type'], _, tag['key'] = tag['key'].partition(':')
    
    if road_getchn.match(tag['value'].decode('utf-8')).group().strip():  # 在当value中存在中文值时只取中文信息。
        tag['value'] = road_getchn.match(tag['value'].decode('utf-8')).group().strip()
        

    return tag
```
用**get_cleaned_data.py**得到新的数据库后再行sql查询：

```sql
SELECT id,key,value FROM ways_tags 
WHERE id in ('29278673','68862381','69555385','69981496','130799679') AND key = 'name'
```
得到以下数据：

        id          key         value
        ----------  ----------  ---------------
        29278673	name	    蟠中东路
        68862381	name	    崧泽高架路
        69555385	name	    九杜路
        69981496	name	    徐民路
        130799679	name	    莲花南路
可见该问题已经解决。


## 2.3 错误的邮件编码


### 2.3.1 问题简述：


由于闵行区的邮政编码均为6位数字，通过简单sql查询发现：
```sql
SELECT id,key,value FROM nodes_tags 
WHERE LENGTH(value)!=6 and key = 'postcode'
```
得到

        id          key         value
        ----------  ----------  ---------------
        4364315493  postcode    2000080

这个节点的邮编为7位数，是一个很明显的输入错误，在这里应为`200080`



### 2.3.2 问题的解决方法
在**get_cleaned_data.py** (line: 53-54)中加入判断函数
```python
def shape_tag(el, tag): 
...
...
    if tag['value'] == '2000080': #将输入错误的邮政编码改正
        tag['value'] = '200080'
...
...
```

用**get_cleaned_data.py**得到新的数据库后再行sql查询：


        id          key         value
        ----------  ----------  ---------------
        (null)      (null)      (null)

***

# 3. 数据概述

通过用**get_cleaned_data.py**最后得到的数据，及数据库`minhang_cleaned.db`的统计概述为：



## 3.1 文件大小

        minhang.osm- - - - - - - - - - - - - - - - - - 72.5 MB
        minhang.db- - - - - - - - - - - - - - - - - - -37.8 MB
        nodes.csv - - - - - - - - - - - - - - - - - - -25.5 MB
        nodes_tags.csv- - - - - - - - - - - - - - - - - 1.4 MB
        ways.csv - - - - - - - - - - - - - - - - - - - 2.79 MB
        ways_nodes.csv- - - - - - - - - - - - - - - - -9.95 MB
        ways_tags.csv - - - - - - - - - - - - - - - - -4.58 MB


## 3.2 nodes的数量
```sql
SELECT count(*) AS nodes_number FROM nodes
```
        nodes_number        
        ----------  
        321305      


## 3.3 ways的数量
```sql
SELECT count(*) AS ways_number FROM ways
```
        ways_number        
        ----------  
        49255


## 3.4 为该区域地图提供数据的用户数
```sql
SELECT count(*) AS uid_number 
FROM (SELECT DISTINCT uid FROM nodes UNION SELECT DISTINCT uid FROM ways)
```
        uid_number        
        ----------  
        1042



## 3.5 该区域中有多少家星巴克
```sql
SELECT count(DISTINCT id) AS Starbucks_number 
FROM (SELECT DISTINCT id,value FROM nodes_tags WHERE value LIKE'%tarbuck%' OR value LIKE'%星巴克%')
```
        Starbucks_number        
        ----------  
        80

***

# 4. 数据集的进步想法


## 4.1 问题提出：
由于OpenStreetMap为用户自行添加，其中对于数据的输入并无太大约束,同时为了地图的通用性，无论是nodes还是ways的tag标签中均对父节点的描述至少有中文版，英文版（甚至还有拼音版）
```sql
SELECT nodes.id,nodes_tags.key, nodes_tags.value,  
FROM nodes JOIN nodes_tags ON nodes.id = nodes_tags.id 
```

        id          key         value   
        ----------  ---------   --------------  
        472226277	name	   中春路         
        472226277	en	      Zhongchun Road
        472226277	railway	   station
       

       

我们对于数据集而言并不需要只要那么多这条路的不同语言的记录，所以可以进步将中文名称定为主要名称，当已经有中文名称的tag信息时，则其他与语言的名称tag我们将不加入到数据中。
当进步sql查询我们发现其他语言，我们发现其他语言tag标签中`key`值均为长度为2的英文数字：
```sql
SELECT DISTINCT key FROM nodes_tags WHERE LENGTH(key)=2 
UNION SELECT DISTINCT key FROM ways_tags WHERE LENGTH(key)=2 
```
列出其中5项数据：

        key        
        ----------  
        en
        zh
        ca
        fr
        vi
从中我们发现`key`值为 (name, zh) 的任意值时均为中文名称，若key值无这两个值，则优先保留`key = en`,若有多余语言的标签则舍去



## 4.2 问题的改进建议

- 在抓取每个element的tag子节点时，临时建立一个一个字典key，将每个tag子节点的key值依次加入
- 当element的所有tag子节点都数据爬取结束后，进行判断舍去不必要的多余语言的tag标签，遵循以下优先顺序：
    + 若key字典中无 (name, zh) ，则保留en标签，去除其他
    + 若key字典中有 (name, zh) 之一，则保留该标签，去除其他
    + 若key字典中同时拥有 (name, zh) ，则保留zh标签


## 4.3 实施改进可能遇见的问题和带来的益处
在删除其他语言备注的时候可能会遇到以下两个问题：

- 上海市作为国际大都市，若只保留中文标签对于外国人查看数据时会造成诸多不便

同时实施该改进所带来的益处：

- 可以去除对数据集日后分析并无帮助的冗余数据，同时也是使得数据集更有干净，更便于其数据挖掘。


***

# 5. 项目中代码

## 5.1 get_csv.py  (环境：Python2)


```python
#!/usr/bin/env python
# -*- coding: utf-8 -*-

import lxml.etree as ET
import csv
import codecs
import pprint
import re

OSM_PATH = "minhang.osm" # 所需要分析的文件

NODES_PATH = "nodes.csv"   # 生成需要转换成的文件
NODE_TAGS_PATH = "nodes_tags.csv"
WAYS_PATH = "ways.csv"
WAY_NODES_PATH = "ways_nodes.csv"
WAY_TAGS_PATH = "ways_tags.csv"

LOWER_COLON = re.compile(r'^([a-z]|_)+:([a-z]|_)+')  
PROBLEMCHARS = re.compile(r'[=\+/&<>;\'"\?%#$@\,\. \t\r\n]')

NODE_FIELDS = ['id', 'lat', 'lon', 'user', 'uid', 'version', 'changeset', 'timestamp'] #列出每个csv文件的表头
NODE_TAGS_FIELDS = ['id', 'key', 'value', 'type']
WAY_FIELDS = ['id', 'user', 'uid', 'version', 'changeset', 'timestamp']
WAY_TAGS_FIELDS = ['id', 'key', 'value', 'type']
WAY_NODES_FIELDS = ['id', 'node_id', 'position']

def shape_tag(el, tag):   # 该函数用来处理nodes,ways的tag标签中的数据
    
    tag = {
        'id'   : el.attrib['id'],
        'key'  : tag.attrib['k'],
        'value': tag.attrib['v'],
        'type' : 'regular'
    }
    
    if LOWER_COLON.match(tag['key']):
        tag['type'], _, tag['key'] = tag['key'].partition(':')
        
    return tag
    
def shape_way_node(el, i, nd): # 该函数用来处理ways中每个节点的id信息和顺序信息（position）
    return {
        'id'       : el.attrib['id'],
        'node_id'  : nd.attrib['ref'],
        'position' : i
    }


def shape_element(el, node_attr_fields=NODE_FIELDS, way_attr_fields=WAY_FIELDS): # 该函数用来将xml中需要的元素转入dict中
                      
    tags = [shape_tag(el, t) for t in el.iter('tag')]

    if el.tag == 'node':
        node_attribs = {f: el.attrib[f] for f in node_attr_fields}
        
        return {'node': node_attribs, 'node_tags': tags}
        
    elif el.tag == 'way':
        way_attribs = {f: el.attrib[f] for f in way_attr_fields}
        
        way_nodes = [shape_way_node(el, i, nd) 
                     for i, nd 
                     in enumerate(el.iter('nd'))]
   
        return {'way': way_attribs, 'way_nodes': way_nodes, 'way_tags': tags}


# ================================================== #
#               Helper Functions                     #
# ================================================== #
def get_element(osm_file, tags=('node', 'way', 'relation')): # 生成一个从xml抓取元素的迭代器
    """Yield element if it is the right type of tag"""

    context = ET.iterparse(osm_file, events=('start', 'end'))
    _, root = next(context)
    for event, elem in context:
        if event == 'end' and elem.tag in tags:
            yield elem
            root.clear()


class UnicodeDictWriter(csv.DictWriter, object): #自定义一个类 并加入utf-8编码的writerow()方法
    """Extend csv.DictWriter to handle Unicode input"""

    def writerow(self, row):
        super(UnicodeDictWriter, self).writerow({
            k: (v.encode('utf-8') if isinstance(v, unicode) else v) for k, v in row.iteritems()
        })

    def writerows(self, rows):
        for row in rows:
            self.writerow(row)


# ================================================== #
#               Main Function                        #
# ================================================== #
def process_map(file_in):          # 该函数用来写入数据到csv文件
    """Iteratively process each XML element and write to csv(s)"""

    with codecs.open(NODES_PATH, 'w') as nodes_file,          codecs.open(NODE_TAGS_PATH, 'w') as nodes_tags_file,          codecs.open(WAYS_PATH, 'w') as ways_file,          codecs.open(WAY_NODES_PATH, 'w') as way_nodes_file,          codecs.open(WAY_TAGS_PATH, 'w') as way_tags_file:

        nodes_writer = UnicodeDictWriter(nodes_file, NODE_FIELDS)
        node_tags_writer = UnicodeDictWriter(nodes_tags_file, NODE_TAGS_FIELDS)
        ways_writer = UnicodeDictWriter(ways_file, WAY_FIELDS)
        way_nodes_writer = UnicodeDictWriter(way_nodes_file, WAY_NODES_FIELDS)
        way_tags_writer = UnicodeDictWriter(way_tags_file, WAY_TAGS_FIELDS)

        nodes_writer.writeheader()
        node_tags_writer.writeheader()
        ways_writer.writeheader()
        way_nodes_writer.writeheader()
        way_tags_writer.writeheader()


        for element in get_element(file_in, tags=('node', 'way')):
            el = shape_element(element)
            if el:
                if element.tag == 'node':
                    nodes_writer.writerow(el['node'])
                    node_tags_writer.writerows(el['node_tags'])
                elif element.tag == 'way':
                    ways_writer.writerow(el['way'])
                    way_nodes_writer.writerows(el['way_nodes'])
                    way_tags_writer.writerows(el['way_tags'])


if __name__ == '__main__':
    process_map(OSM_PATH)
```
## 5.2 get_cleaned_data.py  (环境：Python2)


```python
#!/usr/bin/env python
# -*- coding: utf-8 -*-

#coding:utf-8 
import sys
reload(sys)
sys.setdefaultencoding( "utf-8" ) #将代码的默认编码改为utf-8
import lxml.etree as ET
import csv
import codecs
import pprint
import re
from collections import defaultdict

OSM_PATH = "minhang.osm" # 所需要分析的文件

NODES_PATH = "nodes.csv"   # 生成需要转换成的文件
NODE_TAGS_PATH = "nodes_tags.csv"
WAYS_PATH = "ways.csv"
WAY_NODES_PATH = "ways_nodes.csv"
WAY_TAGS_PATH = "ways_tags.csv"

LOWER_COLON = re.compile(r'^([a-z]|_)+:([a-z]|_)+')  
PROBLEMCHARS = re.compile(r'[=\+/&<>;\'"\?%#$@\,\. \t\r\n]')
road_getchn=re.compile(u'[0-9\u4E00-\u9FFF\\s+]*')

NODE_FIELDS = ['id', 'lat', 'lon', 'user', 'uid', 'version', 'changeset', 'timestamp'] #列出每个csv文件的表头
NODE_TAGS_FIELDS = ['id', 'key', 'value', 'type']
WAY_FIELDS = ['id', 'user', 'uid', 'version', 'changeset', 'timestamp']
WAY_TAGS_FIELDS = ['id', 'key', 'value', 'type']
WAY_NODES_FIELDS = ['id', 'node_id', 'position']

def shape_tag(el, tag):   # 该函数用来处理nodes,ways的tag标签中的数据
    
    tag = {
        'id'   : el.attrib['id'],
        'key'  : tag.attrib['k'],
        'value': tag.attrib['v'],
        'type' : 'regular'
    }
    
    if LOWER_COLON.match(tag['key']):
        tag['type'], _, tag['key'] = tag['key'].partition(':')
    
    if road_getchn.match(tag['value'].decode('utf-8')).group().strip():
        tag['value'] = road_getchn.match(tag['value'].decode('utf-8')).group().strip()
    
    if tag['value'] == '2000080': #将输入错误的邮政编码改正
        tag['value'] = '200080'
        
    return tag
    
def shape_way_node(el, i, nd): # 该函数用来处理ways中每个节点的id信息和顺序信息（position）
    return {
        'id'       : el.attrib['id'],
        'node_id'  : nd.attrib['ref'],
        'position' : i
    }


def shape_element(el, node_attr_fields=NODE_FIELDS, way_attr_fields=WAY_FIELDS): # 该函数用来将xml中需要的元素转入dict中
                      
    tags=[]
    for t in el.iter("tag"): # el为way元素
        tag = shape_tag(el,t)
        if tag['key']!='street:en': # 在循环中判断该tag标签是否为重复的street:en 若是则去除
            tags.append(tag)
        else:
            continue

    if el.tag == 'node':
        node_attribs = {f: el.attrib[f] for f in node_attr_fields}
        
        return {'node': node_attribs, 'node_tags': tags}
        
    elif el.tag == 'way':
        way_attribs = {f: el.attrib[f] for f in way_attr_fields}
        
        way_nodes = [shape_way_node(el, i, nd) 
                     for i, nd 
                     in enumerate(el.iter('nd'))]
   
        return {'way': way_attribs, 'way_nodes': way_nodes, 'way_tags': tags}


# ================================================== #
#               Helper Functions                     #
# ================================================== #
def get_element(osm_file, tags=('node', 'way', 'relation')): # 生成一个从xml抓取元素的迭代器
    """Yield element if it is the right type of tag"""

    context = ET.iterparse(osm_file, events=('start', 'end'))
    _, root = next(context)
    for event, elem in context:
        if event == 'end' and elem.tag in tags:
            yield elem
            root.clear()


class UnicodeDictWriter(csv.DictWriter, object): #自定义一个类 并加入utf-8编码的writerow()方法
    """Extend csv.DictWriter to handle Unicode input"""

    def writerow(self, row):
        super(UnicodeDictWriter, self).writerow({
            k: (v.encode('utf-8') if isinstance(v, unicode) else v) for k, v in row.iteritems()
        })

    def writerows(self, rows):
        for row in rows:
            self.writerow(row)


# ================================================== #
#               Main Function                        #
# ================================================== #
def process_map(file_in):          # 该函数用来写入数据到csv文件
    """Iteratively process each XML element and write to csv(s)"""

    with codecs.open(NODES_PATH, 'w') as nodes_file,          codecs.open(NODE_TAGS_PATH, 'w') as nodes_tags_file,          codecs.open(WAYS_PATH, 'w') as ways_file,          codecs.open(WAY_NODES_PATH, 'w') as way_nodes_file,          codecs.open(WAY_TAGS_PATH, 'w') as way_tags_file:

        nodes_writer = UnicodeDictWriter(nodes_file, NODE_FIELDS)
        node_tags_writer = UnicodeDictWriter(nodes_tags_file, NODE_TAGS_FIELDS)
        ways_writer = UnicodeDictWriter(ways_file, WAY_FIELDS)
        way_nodes_writer = UnicodeDictWriter(way_nodes_file, WAY_NODES_FIELDS)
        way_tags_writer = UnicodeDictWriter(way_tags_file, WAY_TAGS_FIELDS)

        nodes_writer.writeheader()
        node_tags_writer.writeheader()
        ways_writer.writeheader()
        way_nodes_writer.writeheader()
        way_tags_writer.writeheader()


        for element in get_element(file_in, tags=('node', 'way')):
            el = shape_element(element)
            if el:
                if element.tag == 'node':
                    nodes_writer.writerow(el['node'])
                    node_tags_writer.writerows(el['node_tags'])
                elif element.tag == 'way':
                    ways_writer.writerow(el['way'])
                    way_nodes_writer.writerows(el['way_nodes'])
                    way_tags_writer.writerows(el['way_tags'])


if __name__ == '__main__':
    process_map(OSM_PATH)

```


