# Endereço

Um provedor de endereços retorna endereços apenas com ruas concatenadas, nomes e números em uma única string. Nosso próprio sistema, por outro lado, tem campos específicos para armazenar o nome da rua e o número da rua.

Portanto, se faz necessário escrever um código simples que processe a entrada e retorne esses campos na saída.

Entrada: string de endereço com os dados concatenados.
Saída: string da rua e string do número da rua.

### Casos Simples:
a. “Miritiba 339” -> {“Miritiba”, “339”}

b. “Babaçu 500” -> { “Babaçu”, “500”}

c. “Cambuí 804B” -> {“Cambuí”, “123B”}

### Considere os casos mais complicados:
a. “Rio Branco 23” -> {“Rio Branco”, “23”}

b. “Quirino dos Santos 23 b” -> {“Quirino dos Santos”, ”23 b”}

### Considere endereços de outros países (casos complexos)
a. “4, Rue de la République” -> {"Rue de la République", "4"}

b. “100 Broadway Av” -> {"Broadway Av", "100"}

c. “Calle Sagasta, 26” -> {“Calle Sagasta”, “26”}

d. “Calle 44 No 1991” -> {“Calle 44”, “No 1991”}


# Resolução

Como o desafio pede um arquivo executável, eu preferi fazer o input e o output do resultado ser por arquivo excel, por ser mais prático.

In [27]:
import pandas as pd

In [28]:
# Criei um arquivo excel para dar entrada nos enderecos de interesse
entrada_df = pd.read_excel("entrada.xlsx")
entrada_df

Unnamed: 0,testes
0,Miritiba 339
1,Babaçu 500
2,Cambuí 804B
3,33 Broadway
4,Rio Branco 23
5,Quirino dos Santos 23 b
6,"4, Rue de la République"
7,100 Broadway Av
8,"Calle Sagasta, 26"
9,Calle 44 No 1991


Criei essa função única que servirá para retornar um dataframe com os enderecos formatados em dicionário, que servirá para separar em 2 colunas distintas

In [29]:
def armazenar_endereco(endereco):
    #Separação da palavra em lista e remoção da vírgula
    endereco_separado = endereco.split(" ")
    # Remoção da virgula de todas as palavras para facilitar o manejamento
    endereco_separado = [e.replace(",","") for e in endereco_separado]


    # Casos Simples - Se a lista tiver menos de 2 itens, ela retorna a lista normal ou revertida caso o número venha primeiro
    if len(endereco_separado) == 2:
        if endereco_separado[0].isdigit() == False:
            return {'endereco': endereco_separado[0], 'numero': endereco_separado[1]}
        else:
            return {'endereco': endereco_separado[1], 'numero': endereco_separado[0]}
    else:
        # Aqui eu contarei quantas vezes algum número aparece. Se for mais de uma, terá uma tratativa diferente
        contador = sum(1 for e in endereco_separado if e.isdigit())

        conjunto_final = {}

        if contador == 1:
            # Se o contador for 1 e o primeiro campo for digito, ele irá jogar o digito no último campo
            if endereco_separado[0].isdigit():
                logradouro = " ".join([e for e in endereco_separado if e.isdigit() == False])
                num_string = "".join([e for e in endereco_separado if e.isdigit()])
                conjunto_final['endereco'] = logradouro
                conjunto_final['numero'] = num_string
            
            # Se o contador for 1 e o primeiro campo não for digito, ele irá concatenar o logradouro até achar o campo que for digito
            else:
                logradouro = ""
                # Indice começa negativo -1, pois ele vai considerar o indice do valor em diante 
                indice = -1
                
                for e in endereco_separado:
                    indice += 1
                    if e.isdigit():
                        break
                    elif logradouro == "":
                        logradouro += e
                    else: 
                        logradouro += f" {e}"
                num_string = " ".join(endereco_separado[indice:])
                conjunto_final['endereco'] = logradouro
                conjunto_final['numero'] = num_string

            

        # Se o contador for maior que 2, o código concatenará até o primeiro digito para logradouro e o restante será considerado número do endereço 
        else:
            logradouro = ""
            # Indice começa no zero, pois ele vai considerar um valor após o primeiro 
            indice = 0

            for e in endereco_separado:
                indice += 1
                if e.isdigit():
                    logradouro += f" {e}"
                    break
                elif logradouro == "":
                    logradouro += e
                else: 
                    logradouro += f" {e}"  
            num_string = " ".join(endereco_separado[indice:])
            conjunto_final['endereco'] = logradouro
            conjunto_final['numero'] = num_string
        
        # retorno da lista com logradouro e número
        return conjunto_final              

Testando o resultado e exportando para o xlmx

In [30]:
saida_df = entrada_df["testes"].apply(armazenar_endereco).apply(pd.Series)
saida_df

Unnamed: 0,endereco,numero
0,Miritiba,339
1,Babaçu,500
2,Cambuí,804B
3,Broadway,33
4,Rio Branco,23
5,Quirino dos Santos,23 b
6,Rue de la République,4
7,Broadway Av,100
8,Calle Sagasta,26
9,Calle 44,No 1991


In [31]:
saida_df.to_excel("saida.xlsx",index=False)