### 1.a. - Autitoria no nome de Cidades (City)

In [6]:
""" Realizar autitoria no nome das cidades.

O programa ira analisar os nodes do tipo "tag", que contenham o atributo "addr:city" e irá fazer
a contagem de quantos casos existem para cada cidade encontrada. 

O resultao servirá para conhecermos e identificarmos os nomes de cidades que podem estar incorretos.
"""

import xml.etree.cElementTree as ET
from collections import defaultdict
import re


# Arquivo XML que a ser auditado
osm_file = open("dados/jundiai_e_regiao_map_zen.osm", "r", encoding="utf-8")


city_types = defaultdict(int)

def audit_city_type(city_types, city_name): 
    """ Quantidade de ocorrencias por cidade
    
    Função responsável por criar uma variável que realize a contagem da quantidade de ocorrências
    de cada cidade encontrada.
    
    Argumentos:
        city_types (dict): Concentra as cidades e quantidade de ocorrências
        city_name  (str) : Nome da cidade
        
    """
    
    city_type = city_name
    city_types[city_type] += 1

    
def print_sorted_dict(d):
    """ Imprimir dicionário com cidades
    
    Imprime em tela o dicionário com as cidades e quantidades encontradas
    
    Argumentos:
        d (dict): Variável contendo as cidades e quantidades
        
    """    
    
    keys = d.keys()
    keys = sorted(keys, key=lambda s: s.lower())
    for k in keys:
        v = d[k]
        print("%s: %d" % (k, v)) 

        
def is_city_name(elem):
    """ Verifica se é um nome de cidade
    
    Verifca é um elemento referente a um nome de cidade.
    
    
    Argumentos:
        elem (Element): Elemento XML
        
    Retorno:
        True: Se o elemento for "tag" e elemento "k" for "addr:city". False para os demais casos.
    """
    
    return (elem.tag == "tag") and (elem.attrib['k'] == "addr:city")


def audit():
    """ Realiza varredura no arquivo XML identificando e agrupando os nomes das cidades  
    """
        
    for event, elem in ET.iterparse(osm_file):
        if is_city_name(elem):
            audit_city_type(city_types, elem.attrib['v'])    
    print_sorted_dict(city_types)    

if __name__ == '__main__':
    audit()
    

Araçariguama: 3
Atibaia: 167
Botujuru: 1
Caieiras: 4
Cajamar: 13
Campo Limpo Paulista: 11
Campo0 Limpo Paulista: 1
Francisco Morato: 9
Franco da Rocha: 86
Indaiatuba: 1
Itupeva: 13
Jarinu: 1
Jundiai: 11
JundiaÌ: 2
Jundiaí: 350
JUndiaí: 1
Jundiái: 1
Louveira: 1
Mairipora: 1
Mairiporã: 382
Mariporã: 2
Pirapora do Bom Jesus: 2
São Bernardo do Campo: 2
São Paulo: 11
Vinhedo: 4
Várzea Paulista: 18
Várzea Paulista, SP: 1
