# OpenStreetMap Data Case Study
## Área
Rio de Janeiro, Brasil

- [https://mapzen.com/data/metro-extracts/metro/rio-de-janeiro_brazil/](https://mapzen.com/data/metro-extracts/metro/rio-de-janeiro_brazil/)

Preparação para rodar o caso em python

In [1]:
from xml.etree import cElementTree as ET
import sqlite3 as lite
import os

## Problemas inicial
O tamanho do arquivo é muito grande e dá problema para abrir no meu editor de texto. Vamos tentar fazer isso com Python

In [3]:
with open('rio-de-janeiro_brazil.osm') as f:
    count = 0
    for line in f:
        count += 1
        print(line)
        if count == 15:
            break
f.close()

<?xml version='1.0' encoding='UTF-8'?>

<osm version="0.6" generator="osmconvert 0.8.5" timestamp="2017-01-19T15:04:03Z">

	<bounds minlat="-23.216" minlon="-43.86" maxlat="-22.378" maxlon="-42.751"/>

	<node id="25038483" lat="-22.9809491" lon="-43.2068586" version="2" timestamp="2012-01-12T21:51:07Z" changeset="10373979" uid="12293" user="Nighto">

		<tag k="source" v="Yahoo imaery"/>

	</node>

	<node id="25038484" lat="-22.9810568" lon="-43.2047067" version="6" timestamp="2015-02-15T20:19:04Z" changeset="28871672" uid="2441939" user="thevirginian">

		<tag k="source" v="Yahoo imaery"/>

	</node>

	<node id="25038485" lat="-22.9811606" lon="-43.2026345" version="5" timestamp="2015-02-15T20:19:04Z" changeset="28871672" uid="2441939" user="thevirginian">

		<tag k="source" v="Yahoo imaery"/>

	</node>

	<node id="25038487" lat="-22.9812671" lon="-43.2005072" version="4" timestamp="2013-05-09T05:24:00Z" changeset="16041528" uid="481662" user="Geaquinto">

		<tag k="source" v="Yahoo ima

Depois de analisar 10.000 linhas os dados pareceram inúteis. Vamos trabalhar um pouco nos dados para entender melhor.

## Análise de dados
Conforme estudo de caso da Udacity vamos tentar encontrar os nomes de ruas que não deveriam estar como estão. Começamos com os nomes esperados e apresentamos os nomes diferentes e as ruas com esses nomes.

In [None]:
expected_names = ['Rua', 'Avenida', 'Praia', 'Travessa', 'Praça', 'Estrada', 'Ladeira', 'Boulevard', 'Beco', 'Via', 'Largo',
                 'Campo', 'Mirante', 'Acesso', 'Alameda', 'Rodovia', 'Parque', 'Auto', 'RJ-125']
# Convertendo todos os dados para unicode, assim pode ser comparado
expected_names = [name.decode('utf-8') for name in expected_names]

def is_street_name(elem):
    '''Verifica se o elemento é um nome de rua'''
    return (elem.attrib['k'] == 'addr:street')

def first_word(street_name):
    '''Pega a primeira palavra da string'''
    return street_name.split()[0]

def audit(osm_file):
    '''Verifica o início do nome da rua que não era esperado e coloca todas as ocorrências em um dicionário'''
    street_types_unexpected = {}
    count = 0
    for event, elem in ET.iterparse(osm_file, events=("start",)):
        if elem.tag == 'way':
            for tag in elem.iter('tag'):
                if is_street_name(tag):
                    if first_word(tag.attrib['v']) not in expected_names:
                        if first_word(tag.attrib['v']) in street_types_unexpected:
                            street_types_unexpected[first_word(tag.attrib['v'])].append(tag.attrib['v'])
                        else:
                            street_types_unexpected[first_word(tag.attrib['v'])] = [tag.attrib['v']]
    return street_types_unexpected
                        
street_types_unexpected = audit('rio-de-janeiro_brazil.osm')

In [None]:
def print_unexpected(street_types_unexpected):
    for key, values in street_types_unexpected.iteritems():
        print(key)
        for value in values:
            print("--- " + value)

print_unexpected(street_types_unexpected)

A maioria é necessário incluir na frente a palavra "Rua". As demais, "R." e "rua" viram "Rua, "Av" vira "Avenida", "trav" vira "Travessa", "Estr." vira "Estrada", "Pça." e "Praca" viram "Praça".

In [None]:
if os.path.isfile('rio-de-janeiro_brazil.db'):
    os.remove('rio-de-janeiro_brazil.db')

con = lite.connect('rio-de-janeiro_brazil.db')

with con:
    
    cur = con.cursor()    
    cur.execute('''CREATE TABLE nodes (
    id INTEGER PRIMARY KEY NOT NULL,
    lat REAL,
    lon REAL,
    user TEXT,
    uid INTEGER,
    version INTEGER,
    changeset INTEGER,
    timestamp TEXT
);

CREATE TABLE nodes_tags (
    id INTEGER,
    key TEXT,
    value TEXT,
    type TEXT,
    FOREIGN KEY (id) REFERENCES nodes(id)
);

CREATE TABLE ways (
    id INTEGER PRIMARY KEY NOT NULL,
    user TEXT,
    uid INTEGER,
    version TEXT,
    changeset INTEGER,
    timestamp TEXT
);

CREATE TABLE ways_tags (
    id INTEGER NOT NULL,
    key TEXT NOT NULL,
    value TEXT NOT NULL,
    type TEXT,
    FOREIGN KEY (id) REFERENCES ways(id)
);

CREATE TABLE ways_nodes (
    id INTEGER NOT NULL,
    node_id INTEGER NOT NULL,
    position INTEGER NOT NULL,
    FOREIGN KEY (id) REFERENCES ways(id),
    FOREIGN KEY (node_id) REFERENCES nodes(id)
);''')
    cur.execute("INSERT INTO Cars VALUES(1,'Audi',52642)")
    cur.execute("INSERT INTO Cars VALUES(2,'Mercedes',57127)")
    cur.execute("INSERT INTO Cars VALUES(3,'Skoda',9000)")
    cur.execute("INSERT INTO Cars VALUES(4,'Volvo',29000)")
    cur.execute("INSERT INTO Cars VALUES(5,'Bentley',350000)")
    cur.execute("INSERT INTO Cars VALUES(6,'Citroen',21000)")
    cur.execute("INSERT INTO Cars VALUES(7,'Hummer',41400)")
    cur.execute("INSERT INTO Cars VALUES(8,'Volkswagen',21600)")
    
con.close()