### 1.b. - Auditoria no número de Telefones (Phone)

In [1]:
""" Realizar auditoria no formato do número dos telefones

Analisar o formato do número dos telefones, e identificar casos que estiverem fora do padrão 

"""

import xml.etree.cElementTree as ET
from collections import defaultdict
import re
import pprint


# Arquivo XML que a ser auditado
OSMFILE = "dados/jundiai_e_regiao_map_zen.osm"
street_type_re = re.compile(r'\b\S+\.?$', re.IGNORECASE)


# Variáveis com padrões de expressões regulares:
# Formato 1 - Telefone normal e celular e 0800
phone_format_num1 = re.compile(r'^(... .. .... ....)|(... .. ..... ....)|(.... ... ....)')

# Formato 2 - Telefone normal e celular e 0800 (com separação por traço "-")
phone_format_num2 = re.compile(r'^(... .. ....-....)|(... .. .....-....)|(.... ...-....)')

# Contem catacteres inválidos
problemchars = re.compile(r'([=\/&<>;\'"\?%#$@\,\.\t\r\n]|[A-z])')


def audit_characters_phone(element):
    """ Verifica se o telefone está fora do padrão 
    
    É realizada três verificações. Se houver algum caracter especial, é considerado automaticamente como um
    valor fora do padrão.
    Se não houver nenhum catacter incorreto, é realizada a verificação se esta dentro dos padrões esperados 
    (phone_format_num1 e phone_format_num2). Caso não esteja dentro destas padrões, também é considerado fora 
    do padrão 
    
    
    Argumentos:
        element (str): Número do telefone.
        
    Retorno:
        True: Se não houver caracteres especias e estiverem dentros dos formatos 1 ou 2. False para os outros 
              casos.
        
    """
    
    classificated = False
    result = False
    
    # PROBLEMCHAR
    if problemchars.search(element) is not None:
        classificated = True        
        
    # CORRETO num1
    if not classificated:
        if phone_format_num1.search(element) is not None:        
            result = True
            classificated = True        
            
    # CORRETO num2
    if not classificated:
        if phone_format_num2.search(element) is not None:        
            result = True
            classificated = True        
   
    return result


def audit(osmfile):
    """ Realiza varredura no arquivo XML identificando nomes de telefones e realizando a validação.
        Exibir número do telefone caso esteja fora do padrão.
    """
    
    osm_file = open(osmfile, "r+", encoding="utf8")

    context = ET.iterparse(osm_file, events=("start",))
    
    for event, elem in context:
        #print(elem)
        
        if elem.tag == "node" or elem.tag == "way":
            
            for tag in elem.iter("tag"):
                #print('\n',tag.tag, tag.attrib)
                
                if (tag.attrib['k'] == "phone"):
                    #print('\n',elem.tag, tag.tag, tag.attrib)
                    if audit_characters_phone(tag.attrib['v']) == False:
                        print(elem.tag, tag.tag, tag.attrib)

        
    osm_file.close()
    

def test():
    st_types = audit(OSMFILE)
            

if __name__ == '__main__':
    test()


node tag {'k': 'phone', 'v': '11 4038-2655'}
node tag {'k': 'phone', 'v': '+55 11 45272373'}
node tag {'k': 'phone', 'v': '(11) 4522-3149'}
node tag {'k': 'phone', 'v': ': 11 3917-0751'}
way tag {'k': 'phone', 'v': '+55 11 4531 0082;+55 11 4531 0083'}
way tag {'k': 'phone', 'v': '+55 11 44466767'}
way tag {'k': 'phone', 'v': '+55 11 4526-1246;+55 11 4588-9446'}
way tag {'k': 'phone', 'v': '+55 11 45841402'}
way tag {'k': 'phone', 'v': '+ 55 11 4525 5000'}
way tag {'k': 'phone', 'v': '(11) 4496-2754'}
