# Parsing bodyshops map data

In this notebook we import the [repar shops info](https://www.google.com/maps/d/u/2/viewer?hl=en&ll=-23.559310427829978%2C-46.558040275696094&z=10&mid=1T5GSP5wYUiKYY4_VLIxNI086eKYZ8q1v) and parse the information into a table

---
## 1. Parse the data


In [1]:
from pykml import parser
from zipfile import ZipFile
import re, os, psycopg2, math
import pandas as pd
import numpy as np
from tqdm import tqdm


Load the file

In [2]:
# Local filename
filename = 'data/Justos Bodyshops.kmz'

# Unzip and load the encoded kml
kmz = ZipFile(filename, 'r')
kml = kmz.open('doc.kml', 'r').read()

# Parse the file
root = parser.fromstring(kml).Document
root.descendantpaths()


['{http://www.opengis.net/kml/2.2}Document',
 '{http://www.opengis.net/kml/2.2}Document.name',
 '{http://www.opengis.net/kml/2.2}Document.description',
 '{http://www.opengis.net/kml/2.2}Document.Style',
 '{http://www.opengis.net/kml/2.2}Document.Style.IconStyle',
 '{http://www.opengis.net/kml/2.2}Document.Style.IconStyle.scale',
 '{http://www.opengis.net/kml/2.2}Document.Style.IconStyle.Icon',
 '{http://www.opengis.net/kml/2.2}Document.Style.IconStyle.Icon.href',
 '{http://www.opengis.net/kml/2.2}Document.Style.LabelStyle',
 '{http://www.opengis.net/kml/2.2}Document.Style.LabelStyle.scale',
 '{http://www.opengis.net/kml/2.2}Document.Style[1]',
 '{http://www.opengis.net/kml/2.2}Document.Style[1].IconStyle',
 '{http://www.opengis.net/kml/2.2}Document.Style[1].IconStyle.scale',
 '{http://www.opengis.net/kml/2.2}Document.Style[1].IconStyle.Icon',
 '{http://www.opengis.net/kml/2.2}Document.Style[1].IconStyle.Icon.href',
 '{http://www.opengis.net/kml/2.2}Document.Style[1].LabelStyle',
 '{htt

Parse the data

In [3]:
# List of items
all_items = []

# For each entity type
for document in root.Folder[:]:
    
    # Collect the entity type
    entity_type = str(document.name)
    
    # For each placemark
    for placemark in document.Placemark[:]:
        
        placemark_name = str(placemark.name)
        
        # Try to obtain the coordinates
        try:
            placemark_coords = [float (x) for x in re.sub('[^0-9,.]', "", str(placemark.Point.coordinates)).split(',')]
        except:
            placemark_coords = ''
            
        # Try to obtain te address
        try:
            placemark_address = str(placemark.address)
        except:
            placemark_address = ''
            
        # Try to obtain the details
        try:
            location_details = {y[0]:y[1] for y in [x.split(':') for x in str(placemark.description).split('<br>')]}
        except:
            location_details = {}
            
        # Create new entry
        new_item = {'entity_type': entity_type,
                    'placemark_name': placemark_name,
                    'placemark_coords': placemark_coords,
                    'placemark_address': placemark_address}
        for k,v in location_details.items():
            new_item[k]=v if str(v).replace(' ','')!='' else np.nan
            
        # Add to list
        new_item = all_items.append(new_item)
        
        
# Create dataframe
all_items = pd.DataFrame(all_items).drop(columns='name')
all_items.replace('', np.nan, inplace=True)
all_items.head()



Unnamed: 0,entity_type,placemark_name,placemark_coords,placemark_address,Razão Social,CNPJ,Telefone,Responsável,Logradouro,Número,Complemento,Bairro,Cidade,Estado,CEP,Horário de recebimento (início),Horário de recebimento (término),"AV. BANDEIRANTES, 523 VILA OLIMPIA CEP","R MAJ DIOGO, 590 BELA VISTA CEP"
0,Cities,Arujá,"[46.3227109, 23.3951365, 0.0]",,,,,,,,,,,,,,,,
1,Cities,PIN 01 - BEXIGA,"[46.6395571, 23.5557714, 0.0]",,,,,,,,,,,,,,,,
2,Cities,Barueri,"[46.8785468, 23.5035117, 0.0]",,,,,,,,,,,,,,,,
3,Cities,Biritiba-Mirim,"[46.0409059, 23.5704516, 0.0]",,,,,,,,,,,,,,,,
4,Cities,Caieiras,"[46.7466172, 23.362065, 0.0]",,,,,,,,,,,,,,,,


In [4]:
for col in all_items.columns[-2:]:
    display(all_items[all_items[col].notna()])
    
all_items.drop(columns=all_items.columns[-2:], inplace=True)

Unnamed: 0,entity_type,placemark_name,placemark_coords,placemark_address,Razão Social,CNPJ,Telefone,Responsável,Logradouro,Número,Complemento,Bairro,Cidade,Estado,CEP,Horário de recebimento (início),Horário de recebimento (término),"AV. BANDEIRANTES, 523 VILA OLIMPIA CEP","R MAJ DIOGO, 590 BELA VISTA CEP"
141,12 Pins,PRO SERVICE SERVIÇOS - Itaim,"[46.6777467, 23.5841772, 0.0]",,,,,,,,,,,,,,,4553010 SAO PAULO - SP,


Unnamed: 0,entity_type,placemark_name,placemark_coords,placemark_address,Razão Social,CNPJ,Telefone,Responsável,Logradouro,Número,Complemento,Bairro,Cidade,Estado,CEP,Horário de recebimento (início),Horário de recebimento (término),"AV. BANDEIRANTES, 523 VILA OLIMPIA CEP","R MAJ DIOGO, 590 BELA VISTA CEP"
142,12 Pins,RESTAUCAR - Paraiso,"[46.6427902, 23.57545, 0.0]",,,,,,,,,,,,,,,,01324000 SAO PAULO - SP


---
## 2. Sanity checks

Can't access the addresses I do see in Maps for some places, for example `Dencar` in `Repair shops (to be visited)`

In [5]:
print(root.Folder[2].Placemark[0].name)
display(root.Folder[2].Placemark[0].descendantpaths())
display(root.Folder[2].Placemark[0].Point.descendantpaths())

Dencar


['{http://www.opengis.net/kml/2.2}Placemark',
 '{http://www.opengis.net/kml/2.2}Placemark.name',
 '{http://www.opengis.net/kml/2.2}Placemark.styleUrl',
 '{http://www.opengis.net/kml/2.2}Placemark.Point',
 '{http://www.opengis.net/kml/2.2}Placemark.Point.coordinates']

['{http://www.opengis.net/kml/2.2}Point',
 '{http://www.opengis.net/kml/2.2}Point.coordinates']

Count by entity type in the map

In [6]:
all_items.entity_type.value_counts()

Cities                             43
Contrato assinado                  40
BUSCAR                             22
Repair shops (to be visited)       21
12 Pins                            16
Repair shops (waiting sign-off)     2
Name: entity_type, dtype: int64

There's some bodyshops with no description!

In [7]:
bodyshops = all_items[all_items['entity_type']=='Contrato assinado'].reset_index().drop(columns='index').copy()
bodyshops.isna().sum()

entity_type                          0
placemark_name                       3
placemark_coords                    37
placemark_address                    3
Razão Social                         3
CNPJ                                 3
Telefone                             3
Responsável                          3
Logradouro                           3
Número                               3
Complemento                         39
Bairro                               3
Cidade                               3
Estado                               3
CEP                                  3
Horário de recebimento (início)      3
Horário de recebimento (término)     3
dtype: int64

There's indeed 3 bodyshops with no name or descriptions

In [8]:
[x.name for x in root.Folder[4].Placemark[:]]

['Scattini Funilaria',
 'Oficina Marques (Vila Mascote)',
 'Oficina Marques (Santo Amaro)',
 'Ponce e Filho',
 'Dimas Norte',
 'Coronato',
 'Evolution',
 'Quatrocentos',
 'Dikar',
 'New Fenix',
 'Volens Reparações',
 'Goias Car (São Caetano)',
 'Goias Car (Santo Andre)',
 'Solução Automotiva',
 'Personal Garage',
 'Quadro Rodas Mais',
 'Torque Tamboré',
 'Solicar',
 'Centro Automotivo GL',
 'Funilaria Paulista',
 'Corifeu Automec',
 'Celio´s Car Taboão',
 'CB Car',
 'Nicola Garage',
 'Seadriccar',
 'Jotecar',
 'EcoFix ',
 'MsFix',
 'Auto Palace',
 'Club  Car',
 'Flama Car',
 'Volare Reparos',
 'ArtSystens',
 'Donicar',
 'Ribeiro Renovadora',
 'Studio Marilia Botelho',
 'Office Car',
 '',
 '',
 '']

In [9]:
[x.description for x in root.Folder[4].Placemark[:]][-3:]

['Razão Social: <br>CNPJ: <br>Telefone: <br>Responsável: <br>Logradouro: <br>Número: <br>Complemento: <br>Bairro: <br>Cidade: <br>Estado: <br>CEP: <br>Horário de recebimento (início): <br>Horário de recebimento (término): <br>name: Bonneville',
 'Razão Social: <br>CNPJ: <br>Telefone: <br>Responsável: <br>Logradouro: <br>Número: <br>Complemento: <br>Bairro: <br>Cidade: <br>Estado: <br>CEP: <br>Horário de recebimento (início): <br>Horário de recebimento (término): <br>name: Car Solution Express',
 'Razão Social: <br>CNPJ: <br>Telefone: <br>Responsável: <br>Logradouro: <br>Número: <br>Complemento: <br>Bairro: <br>Cidade: <br>Estado: <br>CEP: <br>Horário de recebimento (início): <br>Horário de recebimento (término): <br>name: Mec Max']

---
### 3. Assign latitude and longitude to addresses

We work with current bodyshops. Download table of coords and CEP codes

In [10]:
# Create the geolocator object
from tqdm import tqdm
from geopy.geocoders import MapBox
geolocator = MapBox(api_key=os.environ['MAPBOX_DS_TOKEN']# timeout=time_out, adapter_factory=AioHTTPAdapter,
           )

# Function to modify the endpoint to places-permanent which apparently let's you export the results (I don't need it)
def places_permanent(geolocator):
    geolocator.api_path = "/geocoding/v5/mapbox.places-permanent/{query}.json/"
    geolocator.api = "%s://%s%s" % (
        geolocator.scheme,
        geolocator.domain,
        geolocator.api_path,
    )
    return geolocator

# Create the geolocator object
from geopy.geocoders import MapBox
geolocator = MapBox(api_key=os.environ['MAPBOX_DS_TOKEN']# timeout=time_out, adapter_factory=AioHTTPAdapter,
           )

# Now for each bodyshop
responses_formatted_address = []
responses_raw_address = []
for i, row in tqdm(bodyshops.iterrows()):
    
    ## QUERY FOR A FORMATTED ADDRESS
    try:

        # Create the address for the request
        request_address = row['Logradouro'].lstrip() + ", " +\
                          row['Número'].lstrip() + ", " +\
                          row['Cidade'].lstrip() + ", " +\
                          row['Bairro'].lstrip() + " - " +\
                          row['Estado'].lstrip() + ", " +\
                          row['CEP'].lstrip() + ", Brazil"

        # Send the request
        response = geolocator.geocode(request_address,
                                      exactly_one=False,
                                      country='BR')

        # Store the output
        responses_formatted_address.append([{'mapped_address': result.address,
                                             'latitude': result.latitude,
                                             'longitude': result.longitude} for result in response])

    except:
        responses_formatted_address.append({'mapped_address': np.nan,
                                            'latitude': np.nan,
                                            'longitude': np.nan})
        
        
    ## QUERY FOR THE RAW STORED ADDRESS   
    if row['placemark_address'] not in [np.nan, '']:
        
        # Send the request
        response = geolocator.geocode(row['placemark_address'],
                                      exactly_one=False,
                                      country='BR')

        # Store the output
        responses_raw_address.append([{'mapped_address': result.address,
                                       'latitude': result.latitude,
                                       'longitude': result.longitude} for result in response])

    else:
        responses_raw_address.append({'mapped_address': np.nan,
                                      'latitude': np.nan,
                                      'longitude': np.nan})
    

40it [00:06,  5.97it/s]


Review results to assign the correct one - typically the best result shares CEP, but many times this isn't the case... at some point I'd have to automate this

In [11]:
correct_result_index = {
    0: 0,
    1: 0,
    2: 1,
    3: 1,
    4: 0,
    5: 0,
    6: 0,
    7: 0,
    8: -1,
    9: -1,
    10: 0,
    11: 0,
    12: 0,
    13: -1,
    14: -1,
    15: 0,
    16: -1,
    17: 0,
    18: -1,
    19: 3,
    20: 2,
    21: -1,
    22: 0,
    23: -1,
    24: -1,
    25: 2,
    26: -1,
    27: 1,
    28: 0,
    29: 2,
    30: 1,
    31: -1,
    32: -1,
    33: 0,
    34: 0,
    35: 0,
    36: -1,
    37: -1,
    38: -1,
    39: -1
}

Addresses that didn't work out

In [12]:
for k,v in correct_result_index.items():
    if v==-1:
        display(responses_formatted_address[k])
        print()
        #display(responses_raw_address[k])
        #print()
        for key in ['placemark_address', 'Logradouro', 'Número', 'Bairro', 'Cidade', 'CEP']:
            print(key)
            print(bodyshops.iloc[k][key])
        print('\n----\n')
    

[{'mapped_address': 'Rudge Ramos, São Bernardo Do Campo - São Paulo, Brazil',
  'latitude': -23.6591,
  'longitude': -46.5683},
 {'mapped_address': 'Hocca Bar, São Bernardo Plaza Shopping, São Bernardo Do Campo, São Paulo 09790, Brazil',
  'latitude': -23.722901,
  'longitude': -46.543064},
 {'mapped_address': 'Cantina do Zelão, R. Jurubatuba, 926, São Bernardo Do Campo, São Paulo 09725, Brazil',
  'latitude': -23.705457,
  'longitude': -46.553238},
 {'mapped_address': 'Giramundo Bar & Ristorante, R. Olegário Herculano, 235, São Bernardo Do Campo, São Paulo 09732, Brazil',
  'latitude': -23.682619,
  'longitude': -46.55846},
 {'mapped_address': 'Padaria Bela Petrópolis, R. Cidade de São Sebastião, 203, São Bernardo Do Campo, São Paulo 09761, Brazil',
  'latitude': -23.710201,
  'longitude': -46.53935}]


placemark_address
R. Marabá 80 São Bernardo do Campo 09635-040
Logradouro
 R. Marabá
Número
 80
Bairro
 Rudge Ramos
Cidade
 São Bernardo do Campo
CEP
 09635-040

----



[{'mapped_address': 'Rua Amador Bueno, Piratininga, Osasco - São Paulo, 06236, Brazil',
  'latitude': -23.518342,
  'longitude': -46.794545},
 {'mapped_address': 'Rua Amador Bueno 430, Paquetá, Santos - São Paulo, 11013, Brazil',
  'latitude': -23.937599,
  'longitude': -46.319753},
 {'mapped_address': 'Rua Amador Bueno 430, Itapevi - São Paulo, 06680, Brazil',
  'latitude': -23.531616,
  'longitude': -46.977936},
 {'mapped_address': 'Rua Amador Bueno 430, Nasser, Campo Grande - Mato Grosso do Sul, 70116, Brazil',
  'latitude': -20.425939,
  'longitude': -54.635548},
 {'mapped_address': 'Rua Amador Bueno 430, Tabatinga, Camaragibe - Pernambuco, 54754, Brazil',
  'latitude': -7.991673,
  'longitude': -34.974019}]


placemark_address
R. Amador Bueno 430 Osasco 06230-100
Logradouro
 R. Amador Bueno
Número
 430
Bairro
 Piratininga
Cidade
 Osasco
CEP
 06230-100

----



[{'mapped_address': 'Rua Salvador Peluso Basile Taboão Da Serra - São Paulo, 05544, Brazil',
  'latitude': -23.59965,
  'longitude': -46.761256},
 {'mapped_address': 'Taboão Da Serra, São Paulo, Brazil',
  'latitude': -23.6122,
  'longitude': -46.7791},
 {'mapped_address': 'Santa Rosa, Rio Grande do Sul, Brazil',
  'latitude': -27.8644,
  'longitude': -54.4779},
 {'mapped_address': 'Santa Rosa, Niterói - Rio de Janeiro, Brazil',
  'latitude': -22.8992,
  'longitude': -43.0986},
 {'mapped_address': 'Santa Rosa, Cubatão - São Paulo, Brazil',
  'latitude': -23.89,
  'longitude': -46.43}]


placemark_address
R. Salvador Peluso Basile 215 Taboão da Serra 05755-010
Logradouro
 R. Salvador Peluso Basile
Número
 215
Bairro
 Jd. Santa Rosa
Cidade
 Taboão da Serra
CEP
 05755-010

----



[{'mapped_address': 'Rua Ceará, Alphaville, Barueri - São Paulo, 06440, Brazil',
  'latitude': -23.50794,
  'longitude': -46.851809},
 {'mapped_address': 'Rua Ceara 115, Amaro Lanari, Coronel Fabriciano - Minas Gerais, Brazil',
  'latitude': -19.525351,
  'longitude': -42.577134},
 {'mapped_address': 'Rua Ceara 115, Jardim Brasil, Olinda - Pernambuco, 53390, Brazil',
  'latitude': -8.008183,
  'longitude': -34.870179},
 {'mapped_address': 'Rua Ceará 115, Encruzilhada, Recife - Pernambuco, 52041, Brazil',
  'latitude': -8.036428,
  'longitude': -34.894531},
 {'mapped_address': 'Rua Ceara 115, Bairro Dos Estados, Camaragibe - Pernambuco, 54762, Brazil',
  'latitude': -8.026124,
  'longitude': -34.975895}]


placemark_address
R. Ceará 115 Barueri 06465-100
Logradouro
 R. Ceará
Número
 115
Bairro
 Alphaville Empresarial
Cidade
 Barueri
CEP
 06465-100

----



[{'mapped_address': 'Avenida Aruanã, Jubran, Barueri - São Paulo, 06458, Brazil',
  'latitude': -23.492519,
  'longitude': -46.835298},
 {'mapped_address': 'Barueri, São Paulo, Brazil',
  'latitude': -23.5112,
  'longitude': -46.8765},
 {'mapped_address': 'Aruanã, Goiás, Brazil',
  'latitude': -14.9162,
  'longitude': -51.0716},
 {'mapped_address': 'SP, Valinhos, São Paulo, Brazil',
  'latitude': -22.996342,
  'longitude': -47.023373},
 {'mapped_address': 'Tamboré, Barueri - São Paulo, Brazil',
  'latitude': -23.51,
  'longitude': -46.83}]


placemark_address
Av. Aruanã 641 Barueri 06460-010
Logradouro
 Av. Aruanã
Número
 641
Bairro
 Tamboré
Cidade
 Barueri
CEP
 06460-010

----



[{'mapped_address': 'Estrada Ary Domingues Mandu Itapecerica Da Serra - São Paulo, Brazil',
  'latitude': -23.698818,
  'longitude': -46.835298},
 {'mapped_address': 'Itapecerica Da Serra, São Paulo, Brazil',
  'latitude': -23.7176,
  'longitude': -46.8492},
 {'mapped_address': 'Parque Embu-mirim, Estrada Do Jararaú, Itapecerica Da Serra, São Paulo 06857, Brazil',
  'latitude': -23.711686,
  'longitude': -46.806063},
 {'mapped_address': 'Serra, Espírito Santo, Brazil',
  'latitude': -20.1253,
  'longitude': -40.3064},
 {'mapped_address': 'Serra, Belo Horizonte - Minas Gerais, Brazil',
  'latitude': -19.9368,
  'longitude': -43.9214}]


placemark_address
Estr. Ary Domingues Mandu 325 Itapecerica da Serra 06855-000
Logradouro
 Estr. Ary Domingues Mandu
Número
 325
Bairro
 Embu Mirim
Cidade
 Itapecerica da Serra
CEP
 06855-000

----



[{'mapped_address': 'Rua Brígida Oliveira Ferreira Taboão Da Serra - São Paulo, 06774, Brazil',
  'latitude': -23.640412,
  'longitude': -46.795626},
 {'mapped_address': 'Taboão Da Serra, São Paulo, Brazil',
  'latitude': -23.6122,
  'longitude': -46.7791},
 {'mapped_address': 'Parque São Joaquim, Barra Do Piraí - Rio de Janeiro, Brazil',
  'latitude': -22.461382,
  'longitude': -43.807001},
 {'mapped_address': 'São Joaquim, Santa Catarina, Brazil',
  'latitude': -28.2925,
  'longitude': -49.9353},
 {'mapped_address': 'São Joaquim, Umirim - Ceará, Brazil',
  'latitude': -3.6909,
  'longitude': -39.4499}]


placemark_address
R. Brígida Oliveira Ferreira 56 Taboão da Serra 06773-010
Logradouro
 R. Brígida Oliveira Ferreira
Número
 56
Bairro
 Parque São Joaquim
Cidade
 Taboão da Serra
CEP
 06773-010

----



[{'mapped_address': 'Rua Barra Funda, Paulicéia, São Bernardo Do Campo - São Paulo, 09691, Brazil',
  'latitude': -23.672394,
  'longitude': -46.585828},
 {'mapped_address': 'Rua Barra Funda, Jardim Santa Tereza, Embu Das Artes - São Paulo, 06813, Brazil',
  'latitude': -23.65083,
  'longitude': -46.803732},
 {'mapped_address': 'Rua Barra Funda Tietê - São Paulo, 18530, Brazil',
  'latitude': -23.107499,
  'longitude': -47.71821},
 {'mapped_address': 'Terminal Rodoviário Barra Funda, Av. Auro Soares de Moura Andrade, 664, São Paulo, São Paulo 01156, Brazil',
  'latitude': -23.525135499999998,
  'longitude': -46.667261499999995},
 {'mapped_address': 'Estação Palmeiras-Barra Funda (Metrô), R. Dr. Bento Teobaldo Ferraz, 119, São Paulo, São Paulo 01156, Brazil',
  'latitude': -23.5257875,
  'longitude': -46.6672425}]


placemark_address
R. Barra Funda 308 São Paulo 01152-000
Logradouro
 R. Barra Funda
Número
 308
Bairro
 Barra Funda
Cidade
 São Paulo
CEP
 01152-000

----



[{'mapped_address': 'Vila Miranda, Alecrim, Natal - Rio Grande do Norte, 50037, Brazil',
  'latitude': -5.798656,
  'longitude': -35.225041},
 {'mapped_address': 'Vila Miranda Siriri - Sergipe, Brazil',
  'latitude': -10.597924,
  'longitude': -37.079043},
 {'mapped_address': 'Vila Miranda Russas - Ceará, Brazil',
  'latitude': -5.074616,
  'longitude': -38.070093},
 {'mapped_address': 'Vila Miranda, Anapolis, Caratinga - Minas Gerais, 35300, Brazil',
  'latitude': -19.788384,
  'longitude': -42.146512},
 {'mapped_address': 'Vila Miranda Cajuri - Minas Gerais, 36560, Brazil',
  'latitude': -20.787255,
  'longitude': -42.788903}]


placemark_address
R. Basília 195 Itaquaquecetuba 08572-630
Logradouro
 R. Basília
Número
 195
Bairro
 Vila Miranda
Cidade
 Itaquaquecetuba
CEP
 08572-630

----



[{'mapped_address': 'Av Conselheiro Carrão, São Paulo, São Paulo 03447, Brazil',
  'latitude': -23.554828,
  'longitude': -46.525902},
 {'mapped_address': 'Avenida Conselheiro Carrão São Paulo - São Paulo, 03403, Brazil',
  'latitude': -23.546356,
  'longitude': -46.542437},
 {'mapped_address': 'Rua Conselheiro Carrão São Paulo - São Paulo, 01328, Brazil',
  'latitude': -23.557728,
  'longitude': -46.645932},
 {'mapped_address': 'Rua Conselheiro Carrão, Subsetor Leste - 7 (L-7), Ribeirão Preto - São Paulo, Brazil',
  'latitude': -21.182299,
  'longitude': -47.760894},
 {'mapped_address': 'Paróquia Imaculada Conceição, Osasco, São Paulo 06192, Brazil',
  'latitude': -23.525986,
  'longitude': -46.801865}]


placemark_address
Av. Conselheiro Carrão 1436 São Paulo 03402-001
Logradouro
 Av. Conselheiro Carrão
Número
 1436
Bairro
 Conselheiro Carrão
Cidade
 São Paulo
CEP
 03402-001

----



[{'mapped_address': 'Rua José Felix De Oliveira Cotia - São Paulo, 06709, Brazil',
  'latitude': -23.583197,
  'longitude': -46.83884},
 {'mapped_address': 'Rua Jose Felix De Oliveira, Rp12 (Regiões De Planejamento), Mauá - São Paulo, 09301, Brazil',
  'latitude': -23.665926,
  'longitude': -46.423049},
 {'mapped_address': 'Rua Jose Felix De Oliveira Pitangueiras - São Paulo, 14750, Brazil',
  'latitude': -21.006687,
  'longitude': -48.223079},
 {'mapped_address': 'Rua Cônego José Félix De Oliveira 473, Coroa Do Meio, Aracaju - Sergipe, 39035, Brazil',
  'latitude': -10.977958,
  'longitude': -37.043033},
 {'mapped_address': 'Cotia, São Paulo, Brazil',
  'latitude': -23.6039,
  'longitude': -46.9189}]


placemark_address
R. José Félix de Oliveira 473 Cotia 06708-415
Logradouro
 R. José Félix de Oliveira
Número
 473
Bairro
 Granja Viana
Cidade
 Cotia
CEP
 06708-415

----



[{'mapped_address': 'Avenida Itaquera 2803, São Paulo - São Paulo, 03560, Brazil',
  'latitude': -23.550195,
  'longitude': -46.497551},
 {'mapped_address': 'Itaquera, São Paulo - São Paulo, Brazil',
  'latitude': -23.5361,
  'longitude': -46.4555},
 {'mapped_address': 'Av, Boituva - São Paulo, Brazil',
  'latitude': -23.327185,
  'longitude': -47.670388},
 {'mapped_address': 'Avenida Botucatu - São Paulo, Brazil',
  'latitude': -22.931015,
  'longitude': -48.438605},
 {'mapped_address': 'Avenida Itaquera São Paulo - São Paulo, 03589, Brazil',
  'latitude': -23.551609,
  'longitude': -46.49183}]


placemark_address
Av. Itaquera 2803 São Paulo 08295-000
Logradouro
 Av. Itaquera
Número
 2803
Bairro
 Cidade Líder
Cidade
 São Paulo
CEP
 08295-000

----



[{'mapped_address': 'Avenida Dos Autonomistas, Centro, Osasco - São Paulo, 06090, Brazil',
  'latitude': -23.532572,
  'longitude': -46.784772},
 {'mapped_address': 'Avenida Dos Autonomistas Ferraz De Vasconcelos - São Paulo, Brazil',
  'latitude': -23.56443,
  'longitude': -46.371057},
 {'mapped_address': 'Osasco, São Paulo, Brazil',
  'latitude': -23.5325,
  'longitude': -46.7917},
 {'mapped_address': 'Osasco, Colombo - Paraná, Brazil',
  'latitude': -25.36,
  'longitude': -49.21},
 {'mapped_address': 'Centro Universitário Uninter - P.A.P. Ibiúna, Rua: Francisco Romano, 98, Ibiúna, São Paulo 18150, Brazil',
  'latitude': -23.654259,
  'longitude': -47.223358}]


placemark_address
Av. dos Autonomistas 6878 Osasco 06194-060
Logradouro
 Av. dos Autonomistas
Número
 6878
Bairro
 Quitaúna
Cidade
 Osasco
CEP
 06194-060

----



{'mapped_address': nan, 'latitude': nan, 'longitude': nan}


placemark_address
nan
Logradouro
nan
Número
nan
Bairro
nan
Cidade
nan
CEP
nan

----



{'mapped_address': nan, 'latitude': nan, 'longitude': nan}


placemark_address
nan
Logradouro
nan
Número
nan
Bairro
nan
Cidade
nan
CEP
nan

----



{'mapped_address': nan, 'latitude': nan, 'longitude': nan}


placemark_address
nan
Logradouro
nan
Número
nan
Bairro
nan
Cidade
nan
CEP
nan

----



Add the correct result to the dataset

In [13]:
mapped_info = []
for k,v in correct_result_index.items():
    if v!=-1:
        mapped_info.append(responses_formatted_address[k][v])
    else:
        mapped_info.append({'mapped_address': np.nan,
                            'latitude': np.nan,
                            'longitude': np.nan})
        
mapped_info = pd.DataFrame(mapped_info)
bodyshops = pd.concat([bodyshops, mapped_info], axis=1)
display(bodyshops.head())


Unnamed: 0,entity_type,placemark_name,placemark_coords,placemark_address,Razão Social,CNPJ,Telefone,Responsável,Logradouro,Número,Complemento,Bairro,Cidade,Estado,CEP,Horário de recebimento (início),Horário de recebimento (término),mapped_address,latitude,longitude
0,Contrato assinado,Scattini Funilaria,,"Al,. dos Nhambiquaras 1542 São Paulo 04090-003",Scattini Funilaria e Pintura de Autos Ltda,52.644.093/0001-90,(11) 5543-9622,Junior,"Al,. dos Nhambiquaras",1542,,Moema,São Paulo,SP,04090-003,8,6,"Alameda Dos Nhambiquaras 1542, São Paulo - São...",-23.613824,-46.665755
1,Contrato assinado,Oficina Marques (Vila Mascote),,Av. Santa Catarina 2580 São Paulo 04378-200,Oficina Marques Funilaria e Pintura Ltda,07.427.476/0001-52,(11) 5535-1903,Cae,Av. Santa Catarina,2580,,Vila Mascote,São Paulo,SP,04378-200,8,5,"Avenida Santa Catarina 2580, São Paulo - São P...",-23.655885,-46.655282
2,Contrato assinado,Oficina Marques (Santo Amaro),,Av. Santo Amaro 4408 São Paulo 04556-500,Marques e Marques Funilaria e Pintura Ltda,07.427.481/001-65,(11) 5535-1903,Cae,Av. Santo Amaro,4408,,Brooklin,São Paulo,SP,04556-500,8,5,"Avenida Santo Amaro 4408, São Paulo - São Paul...",-23.62176,-46.684211
3,Contrato assinado,Ponce e Filho,,R. Butiá 42 São Paulo 03346-010,Ponce & Filho Ltda,54.824.826/0001-02,(11) 2965-7383,Emilio,R. Butiá,42,,Vila Reg. Feijó,São Paulo,SP,03346-010,8,5,"Rua Butia 42, São Paulo - São Paulo, 03346, Br...",-23.55892,-46.570322
4,Contrato assinado,Dimas Norte,,Av. Gen. Ataliba Leonel 1727 São Paulo 02033-010,Fiola Reparadora de Veiciulos Eireli,17.237.668/0001-50,(11) 2904-8400,Fiola,Av. Gen. Ataliba Leonel,1727,,Carandiru,São Paulo,SP,02033-010,8,5,"Avenida General Ataliba Leonel 1727, São Paulo...",-23.500517,-46.61311


Tranform pin coordinates (for 3 avaiable locations) to landmark coordinates

In [14]:
bodyshops['latitude']  = bodyshops.apply(lambda row: row['latitude' ] if type(row['placemark_coords'])!=list
                                                    else -row['placemark_coords'][1], axis=1)
bodyshops['longitude'] = bodyshops.apply(lambda row: row['longitude'] if type(row['placemark_coords'])!=list
                                                    else -row['placemark_coords'][0], axis=1)
bodyshops.latitude


0    -23.613824
1    -23.655885
2    -23.621760
3    -23.558920
4    -23.500517
5    -23.512051
6    -23.523587
7    -23.673614
8           NaN
9           NaN
10   -23.689742
11   -23.616538
12   -23.664454
13          NaN
14          NaN
15   -23.464829
16          NaN
17   -23.560231
18          NaN
19   -23.527647
20   -23.573588
21          NaN
22   -23.481332
23          NaN
24          NaN
25   -23.632536
26          NaN
27   -23.536358
28   -23.581047
29   -23.563902
30   -23.556956
31          NaN
32          NaN
33   -23.497838
34   -23.563188
35   -23.395262
36          NaN
37   -23.667179
38   -23.389730
39   -23.539489
Name: latitude, dtype: float64

Sort columns and transform column names

In [16]:
bodyshops = bodyshops[['entity_type', 'placemark_name', 'placemark_address', 
                       'mapped_address', 'latitude', 'longitude'] + list(bodyshops.columns[4:17])]
bodyshops.rename(columns = {'Razão Social': 'razao_social',
                            'CNPJ': 'cnpj',
                            'Telefone': 'telefone',
                            'Responsável': 'responsavel',
                            'Logradouro': 'logradouro',
                            'Número': 'numero',
                            'Complemento': 'complemento',
                            'Bairro': 'bairro',
                            'Cidade': 'cidade',
                            'Estado': 'estado',
                            'CEP': 'cep',
                            'Horário de recebimento (início)': 'inicio_recebimento',
                            'Horário de recebimento (término)': 'termino_recebimento'},
                inplace=True)

bodyshops.head()


Unnamed: 0,entity_type,placemark_name,placemark_address,mapped_address,latitude,longitude,razao_social,cnpj,telefone,responsavel,logradouro,numero,complemento,bairro,cidade,estado,cep,inicio_recebimento,termino_recebimento
0,Contrato assinado,Scattini Funilaria,"Al,. dos Nhambiquaras 1542 São Paulo 04090-003","Alameda Dos Nhambiquaras 1542, São Paulo - São...",-23.613824,-46.665755,Scattini Funilaria e Pintura de Autos Ltda,52.644.093/0001-90,(11) 5543-9622,Junior,"Al,. dos Nhambiquaras",1542,,Moema,São Paulo,SP,04090-003,8,6
1,Contrato assinado,Oficina Marques (Vila Mascote),Av. Santa Catarina 2580 São Paulo 04378-200,"Avenida Santa Catarina 2580, São Paulo - São P...",-23.655885,-46.655282,Oficina Marques Funilaria e Pintura Ltda,07.427.476/0001-52,(11) 5535-1903,Cae,Av. Santa Catarina,2580,,Vila Mascote,São Paulo,SP,04378-200,8,5
2,Contrato assinado,Oficina Marques (Santo Amaro),Av. Santo Amaro 4408 São Paulo 04556-500,"Avenida Santo Amaro 4408, São Paulo - São Paul...",-23.62176,-46.684211,Marques e Marques Funilaria e Pintura Ltda,07.427.481/001-65,(11) 5535-1903,Cae,Av. Santo Amaro,4408,,Brooklin,São Paulo,SP,04556-500,8,5
3,Contrato assinado,Ponce e Filho,R. Butiá 42 São Paulo 03346-010,"Rua Butia 42, São Paulo - São Paulo, 03346, Br...",-23.55892,-46.570322,Ponce & Filho Ltda,54.824.826/0001-02,(11) 2965-7383,Emilio,R. Butiá,42,,Vila Reg. Feijó,São Paulo,SP,03346-010,8,5
4,Contrato assinado,Dimas Norte,Av. Gen. Ataliba Leonel 1727 São Paulo 02033-010,"Avenida General Ataliba Leonel 1727, São Paulo...",-23.500517,-46.61311,Fiola Reparadora de Veiciulos Eireli,17.237.668/0001-50,(11) 2904-8400,Fiola,Av. Gen. Ataliba Leonel,1727,,Carandiru,São Paulo,SP,02033-010,8,5


In [17]:
for i,row in bodyshops.iterrows():
    print(row['placemark_address'])
    print(row['mapped_address'])
    print()
    

Al,. dos Nhambiquaras 1542 São Paulo 04090-003
Alameda Dos Nhambiquaras 1542, São Paulo - São Paulo, 04090, Brazil

Av. Santa Catarina 2580 São Paulo 04378-200
Avenida Santa Catarina 2580, São Paulo - São Paulo, 04378, Brazil

Av. Santo Amaro 4408 São Paulo 04556-500
Avenida Santo Amaro 4408, São Paulo - São Paulo, 04556, Brazil

R. Butiá 42 São Paulo 03346-010
Rua Butia 42, São Paulo - São Paulo, 03346, Brazil

Av. Gen. Ataliba Leonel 1727 São Paulo 02033-010
Avenida General Ataliba Leonel 1727, São Paulo - São Paulo, 02033, Brazil

Av. Santa Marina 1520 São Paulo 05036-001
Avenida Santa Marina 1520, São Paulo - São Paulo, 05036, Brazil

R. dos Italianos 708 São Paulo 01131-000
Rua Dos Italianos 708, São Paulo - São Paulo, 01131, Brazil

R. dos Inocentes 537 São Paulo 04764-050
Rua Dos Inocentes 537, São Paulo - São Paulo, 04764, Brazil

R. Marabá 80 São Bernardo do Campo 09635-040
nan

R. Amador Bueno 430 Osasco 06230-100
nan

R. Bandeirantes 362 Diadema 09912-230
Rua Bandeirantes, C

Export

In [18]:
bodyshops.to_csv('data/bodyshops.csv', index=False)