# Imports

In [45]:
import sys
from pathlib import Path
PROJECT_DIR = Path.cwd().parent
sys.path.append(str(PROJECT_DIR))

# basics
import numpy as np
import pandas as pd
import requests as r
import re
import geopandas as gpd
import json

# viz
import matplotlib.pyplot as plt
import seaborn as sns

# utils
import os
import time
from tqdm import tqdm
from geopy.geocoders import Nominatim
import geopandas as gpd
import pgeocode
import urllib
from shapely.geometry import Point
from itertools import chain
from kedro.config import ConfigLoader
from ppm.utils.external_get_data import (
    find_regex_cep,
    search_cep,
    find_census_area_by_zip,
    get_connection,
    scrapping_zipimoveis,
    find_cbg
)
from ppm.utils.readers import (
    reader,
    unzip_file
)
from ppm.utils.feature_process import (
    replace_names,
    transform_float,
    convert_to_float,
    replace_na_with_mean,
    replace_na_with_mode
)

# Parameters

In [2]:
uf = 'PB'
path_root_oos = os.path.join(
    '..', 'data', # data or oos
)
path_root_data = os.path.join(
    '..', 'data', # data or oos
)
path_raw = os.path.join(
    path_root_data, '01_raw'
)
path_intermediate = os.path.join(
    path_root_oos, '02_intermediate'
)
path_intermediate_data = os.path.join(
    path_root_data, '02_intermediate'
)
path_primary = os.path.join(
    path_root_oos, '03_primary'
)
root_brasilapi = 'https://brasilapi.com.br/api'
root_zap = 'https://www.zapimoveis.com.br/'
url_path_zapimoveis = os.path.join(
    root_zap, 'venda/imoveis/pb+joao-pessoa/?pagina={}'
)
path_census_data = os.path.join(
    path_raw, 'PB_20171016'
)
path_census_data_csv = os.path.join(
    path_census_data,
    f'{uf}',
    f'Base informaçoes setores2010 universo {uf}',
    'CSV'
)
path_columns_cat = os.path.join(
    path_intermediate, "categorical_dict"
)

file_path_data_merged = os.path.join(
    path_intermediate, 'scrapping_data_concat.csv'
)
file_path_data_shp = os.path.join(
    path_raw, 
    'PB_Setores_2021',
    'PB_Setores_2021.shp'
)
file_path_shp_processed = os.path.join(
    path_intermediate_data, "data_shp_processed"
)
file_path_census_processed = os.path.join(
    path_intermediate_data, "data_census_processed.csv"
)
file_path_processed = os.path.join(
    path_primary, "data_processed.csv"
)
file_path_processed_concat = os.path.join(
    path_primary, "data_processed_concat.csv"
)
file_path_data_input = os.path.join(
    path_primary, "data_input.csv"
)
file_path_categorical_replaces = os.path.join(
    path_columns_cat, "{}.json"
)

# Read datasets

In [3]:
# unzip
if not os.path.exists(path_census_data):
    unzip_file(
        path_census_data+'.zip',
        path_census_data
    )

In [4]:
file_path_census_data = {
    i.split(".")[0]: os.path.join(path_census_data_csv, i)for i in os.listdir(path_census_data_csv) 
}

In [5]:
data_census_merged = pd.read_csv(file_path_census_processed)
data_shp = gpd.read_file(file_path_shp_processed)

  data_census_merged = pd.read_csv(file_path_census_processed)


# Scrapping

In [6]:
n_pages_init = 1
n_pages_final = 61 # 101

In [7]:
data_results_scrapping = {}
for i in tqdm(range(n_pages_init, n_pages_final + 1)):
    print(url_path_zapimoveis.format(i))
    data_results_scrapping[
        f'page_n{i}'
    ] = scrapping_zipimoveis(url_path_zapimoveis.format(i))
    time.sleep(10)

  0%|                                                                                                                                                                                       | 0/61 [00:00<?, ?it/s]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=1
- number of locals found: [99]



  2%|██▊                                                                                                                                                                          | 1/61 [01:08<1:08:02, 68.05s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=2
- number of locals found: [99]



  3%|█████▋                                                                                                                                                                       | 2/61 [02:15<1:06:48, 67.94s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=3
- number of locals found: [99]



  5%|████████▌                                                                                                                                                                    | 3/61 [03:23<1:05:29, 67.75s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=4
- number of locals found: [100]



  7%|███████████▎                                                                                                                                                                 | 4/61 [04:35<1:05:51, 69.32s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=5
- number of locals found: [100]



  8%|██████████████▏                                                                                                                                                              | 5/61 [05:42<1:03:57, 68.53s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=6
- number of locals found: [100]



 10%|█████████████████                                                                                                                                                            | 6/61 [06:50<1:02:34, 68.27s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=7
- number of locals found: [100]



 11%|███████████████████▊                                                                                                                                                         | 7/61 [07:55<1:00:29, 67.21s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=8
- number of locals found: [99]



 13%|██████████████████████▉                                                                                                                                                        | 8/61 [08:59<58:36, 66.36s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=9
- number of locals found: [100]



 15%|█████████████████████████▊                                                                                                                                                     | 9/61 [10:07<58:00, 66.93s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=10
- number of locals found: [100]



 16%|████████████████████████████▌                                                                                                                                                 | 10/61 [11:12<56:10, 66.10s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=11
- number of locals found: [0]

trying: [1]
trying: [2]
trying: [3]
trying: [4]
trying: [5]
trying: [6]


 18%|███████████████████████████████▍                                                                                                                                              | 11/61 [11:38<44:57, 53.96s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=12
- number of locals found: [99]



 20%|██████████████████████████████████▏                                                                                                                                           | 12/61 [12:43<46:53, 57.42s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=13
- number of locals found: [100]



 21%|█████████████████████████████████████                                                                                                                                         | 13/61 [13:49<47:58, 59.97s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=14
- number of locals found: [0]

trying: [1]
trying: [2]
trying: [3]
trying: [4]
trying: [5]
trying: [6]


 23%|███████████████████████████████████████▉                                                                                                                                      | 14/61 [14:16<39:12, 50.05s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=15
- number of locals found: [100]



 25%|██████████████████████████████████████████▊                                                                                                                                   | 15/61 [15:21<41:46, 54.48s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=16
- number of locals found: [100]



 26%|█████████████████████████████████████████████▋                                                                                                                                | 16/61 [16:27<43:25, 57.90s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=17
- number of locals found: [100]



 28%|████████████████████████████████████████████████▍                                                                                                                             | 17/61 [17:32<44:01, 60.05s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=18
- number of locals found: [0]

trying: [1]
trying: [2]
trying: [3]
trying: [4]
trying: [5]
trying: [6]


 30%|███████████████████████████████████████████████████▎                                                                                                                          | 18/61 [18:01<36:19, 50.68s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=19
- number of locals found: [100]



 31%|██████████████████████████████████████████████████████▏                                                                                                                       | 19/61 [19:08<38:58, 55.68s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=20
- number of locals found: [100]



 33%|█████████████████████████████████████████████████████████                                                                                                                     | 20/61 [20:12<39:42, 58.10s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=21
- number of locals found: [0]

trying: [1]
trying: [2]
trying: [3]
trying: [4]
trying: [5]
trying: [6]


 34%|███████████████████████████████████████████████████████████▉                                                                                                                  | 21/61 [20:38<32:16, 48.40s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=22
- number of locals found: [100]



 36%|██████████████████████████████████████████████████████████████▊                                                                                                               | 22/61 [21:44<34:57, 53.79s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=23
- number of locals found: [0]

trying: [1]
trying: [2]
trying: [3]
trying: [4]
trying: [5]
trying: [6]


 38%|█████████████████████████████████████████████████████████████████▌                                                                                                            | 23/61 [22:11<28:56, 45.69s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=24
- number of locals found: [100]



 39%|████████████████████████████████████████████████████████████████████▍                                                                                                         | 24/61 [23:18<32:08, 52.12s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=25
- number of locals found: [99]



 41%|███████████████████████████████████████████████████████████████████████▎                                                                                                      | 25/61 [24:22<33:28, 55.80s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=26
- number of locals found: [100]



 43%|██████████████████████████████████████████████████████████████████████████▏                                                                                                   | 26/61 [25:29<34:22, 58.94s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=27
- number of locals found: [100]



 44%|█████████████████████████████████████████████████████████████████████████████                                                                                                 | 27/61 [26:35<34:42, 61.24s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=28
- number of locals found: [100]



 46%|███████████████████████████████████████████████████████████████████████████████▊                                                                                              | 28/61 [27:41<34:28, 62.69s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=29
- number of locals found: [100]



 48%|██████████████████████████████████████████████████████████████████████████████████▋                                                                                           | 29/61 [28:46<33:49, 63.42s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=30
- number of locals found: [100]



 49%|█████████████████████████████████████████████████████████████████████████████████████▌                                                                                        | 30/61 [29:55<33:30, 64.85s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=31
- number of locals found: [0]

trying: [1]
trying: [2]
trying: [3]
trying: [4]
trying: [5]
trying: [6]


 51%|████████████████████████████████████████████████████████████████████████████████████████▍                                                                                     | 31/61 [30:23<27:01, 54.05s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=32
- number of locals found: [100]



 52%|███████████████████████████████████████████████████████████████████████████████████████████▎                                                                                  | 32/61 [31:29<27:49, 57.57s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=33
- number of locals found: [100]



 54%|██████████████████████████████████████████████████████████████████████████████████████████████▏                                                                               | 33/61 [32:34<27:48, 59.60s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=34
- number of locals found: [100]



 56%|████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                             | 34/61 [33:39<27:38, 61.42s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=35
- number of locals found: [100]



 57%|███████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                          | 35/61 [34:46<27:18, 63.03s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=36
- number of locals found: [0]

trying: [1]
trying: [2]
trying: [3]
trying: [4]
trying: [5]
trying: [6]


 59%|██████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                       | 36/61 [35:12<21:35, 51.83s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=37
- number of locals found: [100]



 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                    | 37/61 [36:16<22:12, 55.50s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=38
- number of locals found: [100]



 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                 | 38/61 [37:21<22:26, 58.53s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=39
- number of locals found: [100]



 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                              | 39/61 [38:26<22:08, 60.37s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=40
- number of locals found: [99]



 66%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                            | 40/61 [39:30<21:33, 61.58s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=41
- number of locals found: [99]



 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                         | 41/61 [40:38<21:05, 63.29s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=42
- number of locals found: [100]



 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                      | 42/61 [41:42<20:06, 63.52s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=43
- number of locals found: [100]



 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                   | 43/61 [42:55<19:56, 66.46s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=44
- number of locals found: [100]



 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                | 44/61 [44:03<18:59, 67.01s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=45
- number of locals found: [100]



 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                             | 45/61 [45:10<17:51, 66.99s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=46
- number of locals found: [100]



 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                          | 46/61 [46:24<17:15, 69.06s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=47
- number of locals found: [0]

trying: [1]
trying: [2]
trying: [3]
trying: [4]
trying: [5]
trying: [6]


 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                        | 47/61 [46:51<13:08, 56.33s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=48
- number of locals found: [100]



 79%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                     | 48/61 [48:06<13:27, 62.12s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=49
- number of locals found: [100]



 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                  | 49/61 [49:21<13:09, 65.82s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=50
- number of locals found: [100]



 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                               | 50/61 [50:41<12:49, 69.99s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=51
- number of locals found: [0]

trying: [1]
trying: [2]
trying: [3]
trying: [4]
trying: [5]
trying: [6]


 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                            | 51/61 [51:08<09:31, 57.12s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=52
- number of locals found: [100]



 85%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                         | 52/61 [52:22<09:21, 62.40s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=53
- number of locals found: [0]

trying: [1]
trying: [2]
trying: [3]
trying: [4]
trying: [5]
trying: [6]


 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                      | 53/61 [52:49<06:52, 51.57s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=54
- number of locals found: [100]



 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                    | 54/61 [53:53<06:27, 55.40s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=55
- number of locals found: [0]

trying: [1]
trying: [2]
trying: [3]
trying: [4]
trying: [5]
trying: [6]


 90%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                 | 55/61 [54:19<04:40, 46.69s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=56
- number of locals found: [100]



 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋              | 56/61 [55:27<04:24, 52.91s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=57
- number of locals found: [0]

trying: [1]
trying: [2]
trying: [3]
trying: [4]
trying: [5]
trying: [6]


 93%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌           | 57/61 [55:55<03:02, 45.63s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=58
- number of locals found: [100]



 95%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍        | 58/61 [57:00<02:33, 51.17s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=59
- number of locals found: [100]



 97%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎     | 59/61 [58:04<01:50, 55.07s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=60
- number of locals found: [0]

trying: [1]
trying: [2]
trying: [3]
trying: [4]
trying: [5]
trying: [6]


 98%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏  | 60/61 [58:30<00:46, 46.37s/it]

https://www.zapimoveis.com.br/venda/imoveis/pb+joao-pessoa/?pagina=61
- number of locals found: [100]



100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 61/61 [59:35<00:00, 58.62s/it]


In [8]:
content_final = {}
errors = []
for page, content in tqdm(data_results_scrapping.items()):
    data_tmp = {}
    for idx, i in enumerate(list(content.items())):
        data_tmp[f'n{idx}'] = {}
        data_tmp[f'n{idx}']['ID'] = i[0].replace('id-','')
        data_tmp[f'n{idx}']['price'] = transform_float(i[1]['price'][0])
        data_tmp[f'n{idx}']['local'] = i[1]['local']
        data_tmp[f'n{idx}']['highlight'] = i[1]['highlight']
        for f_name, f_value in i[1]['features'].items():
            data_tmp[f'n{idx}'][f_name] = replace_names(f_value)
        data_tmp[f'n{idx}'] = pd.DataFrame(data_tmp[f'n{idx}'])
    try:
        content_final[page] = pd.concat(list(data_tmp.values()),
                                        ignore_index = True)
    except Exception as e:
        errors.append((page, e))
content_final = pd.concat(list(content_final.values()),
                          ignore_index = True).replace('', np.nan)

100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 61/61 [00:04<00:00, 13.83it/s]


In [9]:
cols_selected = [
    'areas',
    'bedrooms',
    'parking-spaces',
    'bathrooms'
]
string_rows = content_final[cols_selected].apply(lambda x: x.str.contains('-', na = False))

for i in cols_selected:
    values_changed = content_final[
        string_rows[i]
    ][i].apply(
        lambda x: (int(x.split("-")[0])+int(x.split("-")[1]))/2
    )
    content_final.loc[values_changed.index, i] = values_changed.values

In [10]:
ceps = []
for i in tqdm(content_final['local']):
    try:
        ceps.append( search_cep(i)[1] )
    except:
        ceps.append( np.nan )
content_final['cep'] = ceps
content_final['cep'] = content_final['cep'].fillna(np.nan)

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4792/4792 [1:15:17<00:00,  1.06it/s]


# Pre-processing

In [11]:
cols_to_drop = [
    "bathrooms"
]
which_rows_to_drop = [
    'areas', 
    'bedrooms',
    'parking-spaces',
    'highlight'
]
id_tag = [
    "ID"
]
content_final_process = content_final.copy()

In [12]:
content_final_process.price = content_final_process.price.apply(convert_to_float)

In [13]:
lats = []
longs = []
cbg = []
nomi = pgeocode.Nominatim('br')
for local in  tqdm(content_final_process.local):
    if local!=None:
        address = local + f', {uf}, Brasil'
        try:
                                                                                                                        
            geolocator = Nominatim(user_agent="geolocalização")
            location = geolocator.geocode(address)

            lats.append(float(location.latitude))
            longs.append(float(location.longitude))

        except:
            lats.append(np.nan)
            longs.append(np.nan)

    else:
        lats.append(np.nan)
        longs.append(np.nan)

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4792/4792 [1:16:08<00:00,  1.05it/s]


In [14]:
content_final_process['lats'] = lats
content_final_process['longs'] = longs

In [15]:
# Criar os objetos de ponto com as latitudes e longitudes
pontos = [Point(xy) for xy in zip(content_final_process['longs'], content_final_process['lats'])]

In [16]:
cbgs = find_cbg(data_shp, pontos)
content_final_process['cd_setor'] = cbgs

  return lib.contains(a, b, **kwargs)
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4792/4792 [00:02<00:00, 2348.79it/s]


In [17]:
# order columns
id_columns = [
    "ID",
    "cd_setor"
]
content_final_process = content_final_process[id_columns+[i for i in content_final_process.columns if i not in id_columns]]
content_processed = content_final_process.dropna(subset = ["cd_setor"]).reset_index(drop = True)

In [18]:
content_processed.cd_setor = content_processed.cd_setor.astype(str)
data_census_merged.cd_setor = data_census_merged.cd_setor.astype(str)

## Save scrapping

In [19]:
content_processed.to_csv(file_path_processed)

# Concat census

In [20]:
data_merged = content_processed.merge(
    data_census_merged, 
    on = ["cd_setor"],
    how = "left"
)
data_merged = data_merged.merge(
    data_shp[["cd_setor","nm_sit"]],
    on = ["cd_setor"],
    how="left"
)
data_merged.insert(
    4,
    "bairro",
    data_merged.local.apply(
        lambda x: x.split(", ")[-1]
    )
)

In [21]:
data_merged.columns = data_merged.columns.str.replace(" ","_")
columns_na = list(data_merged.isna().sum()[data_merged.isna().sum()!=0].index)

In [22]:
data_bairros, errors = replace_na_with_mean(data_merged, columns_na, 'bairro')
data_merged_not_nan = pd.concat(list(data_bairros.values()), ignore_index = True)
data_merged_not_nan = data_merged_not_nan[
    ~data_merged_not_nan['ID'].duplicated()
].reset_index(drop = True)

  0%|                                                                                                                                                                                       | 0/61 [00:00<?, ?it/s]
  0%|                                                                                                                                                                                     | 0/4088 [00:00<?, ?it/s][A
  1%|█▌                                                                                                                                                                         | 37/4088 [00:00<00:11, 365.50it/s][A
  2%|███                                                                                                                                                                        | 74/4088 [00:00<00:11, 362.40it/s][A
  3%|████▌                                                                                                                                     

 35%|███████████████████████████████████████████████████████████▏                                                                                                             | 1433/4088 [00:03<00:05, 463.00it/s][A
 36%|█████████████████████████████████████████████████████████████▏                                                                                                           | 1480/4088 [00:04<00:05, 462.54it/s][A
 37%|███████████████████████████████████████████████████████████████▏                                                                                                         | 1527/4088 [00:04<00:05, 460.79it/s][A
 39%|█████████████████████████████████████████████████████████████████▎                                                                                                       | 1580/4088 [00:04<00:05, 479.66it/s][A
 40%|███████████████████████████████████████████████████████████████████▍                                                                   

  2%|██▊                                                                                                                                                                            | 1/61 [00:08<08:00,  8.01s/it]
  0%|                                                                                                                                                                                     | 0/4088 [00:00<?, ?it/s][A
  1%|██▎                                                                                                                                                                        | 54/4088 [00:00<00:07, 532.38it/s][A
  3%|████▍                                                                                                                                                                     | 108/4088 [00:00<00:07, 526.20it/s][A
  4%|██████▋                                                                                                                                   

 56%|██████████████████████████████████████████████████████████████████████████████████████████████▍                                                                          | 2284/4088 [00:03<00:02, 730.43it/s][A
 58%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                       | 2363/4088 [00:04<00:02, 747.01it/s][A
 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████                                                                    | 2445/4088 [00:04<00:02, 768.27it/s][A
 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                | 2527/4088 [00:04<00:01, 782.27it/s][A
 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▋                           

 14%|███████████████████████▉                                                                                                                                                  | 576/4088 [00:01<00:10, 323.50it/s][A
 15%|█████████████████████████▍                                                                                                                                                | 611/4088 [00:01<00:10, 329.22it/s][A
 16%|██████████████████████████▊                                                                                                                                               | 646/4088 [00:02<00:10, 335.24it/s][A
 17%|████████████████████████████▎                                                                                                                                             | 680/4088 [00:02<00:10, 334.63it/s][A
 17%|█████████████████████████████▋                                                                                                         

 55%|████████████████████████████████████████████████████████████████████████████████████████████▉                                                                            | 2249/4088 [00:05<00:03, 554.41it/s][A
 56%|███████████████████████████████████████████████████████████████████████████████████████████████▎                                                                         | 2306/4088 [00:05<00:03, 556.00it/s][A
 58%|█████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                       | 2363/4088 [00:05<00:03, 559.82it/s][A
 59%|████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                    | 2425/4088 [00:06<00:02, 576.48it/s][A
 61%|██████████████████████████████████████████████████████████████████████████████████████████████████████▊                                

  4%|██████▏                                                                                                                                                                   | 148/4088 [00:01<00:36, 107.34it/s][A
  4%|██████▌                                                                                                                                                                   | 159/4088 [00:01<00:37, 104.86it/s][A
  4%|███████                                                                                                                                                                    | 170/4088 [00:01<00:40, 97.42it/s][A
  4%|███████▌                                                                                                                                                                  | 182/4088 [00:01<00:38, 101.78it/s][A
  5%|████████                                                                                                                               

 15%|█████████████████████████▌                                                                                                                                                | 616/4088 [00:05<00:29, 119.47it/s][A
 15%|██████████████████████████                                                                                                                                                | 628/4088 [00:05<00:28, 119.59it/s][A
 16%|██████████████████████████▋                                                                                                                                               | 641/4088 [00:05<00:28, 119.90it/s][A
 16%|███████████████████████████▏                                                                                                                                              | 653/4088 [00:05<00:28, 119.29it/s][A
 16%|███████████████████████████▋                                                                                                           

 28%|███████████████████████████████████████████████▏                                                                                                                         | 1140/4088 [00:09<00:21, 139.78it/s][A
 28%|███████████████████████████████████████████████▋                                                                                                                         | 1155/4088 [00:09<00:20, 140.31it/s][A
 29%|████████████████████████████████████████████████▎                                                                                                                        | 1170/4088 [00:09<00:20, 140.96it/s][A
 29%|████████████████████████████████████████████████▉                                                                                                                        | 1185/4088 [00:09<00:20, 142.40it/s][A
 29%|█████████████████████████████████████████████████▌                                                                                     

 43%|█████████████████████████████████████████████████████████████████████████▏                                                                                               | 1770/4088 [00:13<00:13, 177.33it/s][A
 44%|█████████████████████████████████████████████████████████████████████████▉                                                                                               | 1788/4088 [00:13<00:12, 178.10it/s][A
 44%|██████████████████████████████████████████████████████████████████████████▋                                                                                              | 1807/4088 [00:13<00:12, 179.28it/s][A
 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                             | 1825/4088 [00:13<00:12, 178.09it/s][A
 45%|████████████████████████████████████████████████████████████████████████████▎                                                          

 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                             | 2603/4088 [00:17<00:05, 252.15it/s][A
 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                            | 2629/4088 [00:17<00:05, 253.47it/s][A
 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                           | 2656/4088 [00:17<00:05, 257.88it/s][A
 66%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                          | 2684/4088 [00:17<00:05, 262.11it/s][A
 66%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                      

 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                        | 2710/4088 [00:00<00:00, 6100.00it/s][A
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4088/4088 [00:00<00:00, 4491.79it/s][A
  8%|██████████████▎                                                                                                                                                                | 5/61 [00:43<07:50,  8.41s/it]
  0%|                                                                                                                                                                                     | 0/4088 [00:00<?, ?it/s][A
  1%|██▏                                                                                                                                       

 55%|████████████████████████████████████████████████████████████████████████████████████████████▋                                                                            | 2243/4088 [00:03<00:02, 749.77it/s][A
 57%|███████████████████████████████████████████████████████████████████████████████████████████████▊                                                                         | 2319/4088 [00:03<00:02, 720.22it/s][A
 59%|██████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                      | 2392/4088 [00:03<00:02, 687.93it/s][A
 60%|██████████████████████████████████████████████████████████████████████████████████████████████████████                                                                   | 2470/4088 [00:03<00:02, 713.61it/s][A
 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌                             

 12%|████████████████████▉                                                                                                                                                     | 503/4088 [00:01<00:11, 307.77it/s][A
 13%|██████████████████████▎                                                                                                                                                   | 537/4088 [00:01<00:11, 315.61it/s][A
 14%|███████████████████████▋                                                                                                                                                  | 569/4088 [00:01<00:11, 316.77it/s][A
 15%|█████████████████████████                                                                                                                                                 | 603/4088 [00:01<00:10, 321.71it/s][A
 16%|██████████████████████████▍                                                                                                            

 49%|██████████████████████████████████████████████████████████████████████████████████▉                                                                                      | 2007/4088 [00:05<00:04, 457.11it/s][A
 50%|█████████████████████████████████████████████████████████████████████████████████████                                                                                    | 2057/4088 [00:05<00:04, 467.67it/s][A
 52%|███████████████████████████████████████████████████████████████████████████████████████▏                                                                                 | 2108/4088 [00:05<00:04, 479.52it/s][A
 53%|█████████████████████████████████████████████████████████████████████████████████████████▎                                                                               | 2161/4088 [00:05<00:03, 492.98it/s][A
 54%|███████████████████████████████████████████████████████████████████████████████████████████▍                                           

  3%|████▎                                                                                                                                                                     | 103/4088 [00:00<00:30, 132.61it/s][A
  3%|████▊                                                                                                                                                                     | 117/4088 [00:00<00:30, 130.95it/s][A
  3%|█████▍                                                                                                                                                                    | 131/4088 [00:00<00:29, 133.20it/s][A
  4%|██████                                                                                                                                                                    | 146/4088 [00:01<00:29, 135.81it/s][A
  4%|██████▋                                                                                                                                

 17%|████████████████████████████▍                                                                                                                                             | 685/4088 [00:04<00:23, 143.39it/s][A
 17%|█████████████████████████████                                                                                                                                             | 700/4088 [00:04<00:23, 142.52it/s][A
 18%|█████████████████████████████▊                                                                                                                                            | 716/4088 [00:05<00:22, 147.03it/s][A
 18%|██████████████████████████████▍                                                                                                                                           | 732/4088 [00:05<00:22, 150.49it/s][A
 18%|███████████████████████████████▏                                                                                                       

 34%|█████████████████████████████████████████████████████████▎                                                                                                               | 1386/4088 [00:08<00:13, 201.78it/s][A
 34%|██████████████████████████████████████████████████████████▏                                                                                                              | 1407/4088 [00:08<00:13, 201.35it/s][A
 35%|███████████████████████████████████████████████████████████                                                                                                              | 1428/4088 [00:08<00:13, 203.02it/s][A
 35%|███████████████████████████████████████████████████████████▉                                                                                                             | 1449/4088 [00:09<00:12, 205.06it/s][A
 36%|████████████████████████████████████████████████████████████▉                                                                          

 57%|████████████████████████████████████████████████████████████████████████████████████████████████▊                                                                        | 2341/4088 [00:12<00:06, 283.90it/s][A
 58%|██████████████████████████████████████████████████████████████████████████████████████████████████                                                                       | 2371/4088 [00:12<00:05, 286.38it/s][A
 59%|███████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                     | 2402/4088 [00:12<00:05, 292.86it/s][A
 60%|████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                    | 2433/4088 [00:12<00:05, 296.86it/s][A
 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████▉                                 

  6%|██████████                                                                                                                                                               | 244/4088 [00:00<00:03, 1199.25it/s][A
  9%|███████████████                                                                                                                                                          | 364/4088 [00:00<00:03, 1195.31it/s][A
 12%|████████████████████                                                                                                                                                     | 484/4088 [00:00<00:03, 1168.30it/s][A
 15%|████████████████████████▊                                                                                                                                                | 601/4088 [00:00<00:02, 1168.26it/s][A
 18%|█████████████████████████████▋                                                                                                         

  5%|████████▌                                                                                                                                                                 | 205/4088 [00:00<00:09, 412.48it/s][A
  6%|██████████▌                                                                                                                                                               | 253/4088 [00:00<00:08, 432.46it/s][A
  7%|████████████▍                                                                                                                                                             | 299/4088 [00:00<00:08, 441.22it/s][A
  8%|██████████████▎                                                                                                                                                           | 345/4088 [00:00<00:08, 445.56it/s][A
 10%|████████████████▎                                                                                                                      

 55%|█████████████████████████████████████████████████████████████████████████████████████████████▌                                                                           | 2263/4088 [00:04<00:02, 635.79it/s][A
 57%|████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                        | 2327/4088 [00:04<00:02, 633.71it/s][A
 59%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                     | 2399/4088 [00:04<00:02, 659.27it/s][A
 60%|██████████████████████████████████████████████████████████████████████████████████████████████████████                                                                   | 2470/4088 [00:04<00:02, 674.26it/s][A
 62%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▏                             

 30%|██████████████████████████████████████████████████▌                                                                                                                      | 1222/4088 [00:01<00:03, 795.65it/s][A
 32%|██████████████████████████████████████████████████████                                                                                                                   | 1308/4088 [00:01<00:03, 812.65it/s][A
 34%|█████████████████████████████████████████████████████████▋                                                                                                               | 1394/4088 [00:01<00:03, 826.30it/s][A
 36%|█████████████████████████████████████████████████████████████▎                                                                                                           | 1482/4088 [00:01<00:03, 840.72it/s][A
 38%|████████████████████████████████████████████████████████████████▉                                                                      

 14%|███████████████████████▉                                                                                                                                                  | 575/4088 [00:00<00:04, 751.64it/s][A
 16%|███████████████████████████                                                                                                                                               | 651/4088 [00:00<00:04, 748.16it/s][A
 18%|██████████████████████████████▎                                                                                                                                           | 730/4088 [00:01<00:04, 759.80it/s][A
 20%|█████████████████████████████████▊                                                                                                                                        | 813/4088 [00:01<00:04, 779.55it/s][A
 22%|█████████████████████████████████████▍                                                                                                 

  0%|                                                                                                                                                                                     | 0/4088 [00:00<?, ?it/s][A
  2%|███                                                                                                                                                                        | 74/4088 [00:00<00:05, 739.94it/s][A
  4%|███████                                                                                                                                                                   | 170/4088 [00:00<00:04, 869.10it/s][A
  7%|███████████▏                                                                                                                                                              | 269/4088 [00:00<00:04, 921.53it/s][A
  9%|███████████████▌                                                                                                                       

  0%|                                                                                                                                                                                     | 0/4088 [00:00<?, ?it/s][A
  2%|████▏                                                                                                                                                                     | 100/4088 [00:00<00:04, 991.81it/s][A
  5%|████████▍                                                                                                                                                                | 204/4088 [00:00<00:03, 1017.74it/s][A
  7%|████████████▋                                                                                                                                                            | 306/4088 [00:00<00:03, 1018.76it/s][A
 10%|████████████████▉                                                                                                                      

  0%|                                                                                                                                                                                     | 0/4088 [00:00<?, ?it/s][A
  1%|██                                                                                                                                                                         | 48/4088 [00:00<00:08, 477.35it/s][A
  2%|████▏                                                                                                                                                                      | 99/4088 [00:00<00:08, 494.21it/s][A
  4%|██████▋                                                                                                                                                                   | 161/4088 [00:00<00:07, 550.71it/s][A
  6%|█████████▎                                                                                                                             

 71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                 | 2885/4088 [00:03<00:01, 943.34it/s][A
 73%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                             | 2980/4088 [00:03<00:01, 937.49it/s][A
 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                         | 3079/4088 [00:04<00:01, 953.01it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                     | 3181/4088 [00:04<00:00, 970.88it/s][A
 81%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████

 67%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                        | 2722/4088 [00:02<00:01, 1137.34it/s][A
 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                   | 2836/4088 [00:02<00:01, 1133.18it/s][A
 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                              | 2960/4088 [00:02<00:00, 1163.73it/s][A
 75%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                         | 3077/4088 [00:02<00:00, 1129.99it/s][A
 78%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏   

 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                           | 3027/4088 [00:02<00:00, 1219.07it/s][A
 77%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                      | 3150/4088 [00:02<00:00, 1209.60it/s][A
 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                | 3289/4088 [00:02<00:00, 1261.80it/s][A
 84%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                           | 3416/4088 [00:02<00:00, 1251.42it/s][A
 87%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████

 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                       | 2737/4088 [00:02<00:01, 1025.98it/s][A
 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                   | 2840/4088 [00:02<00:01, 1017.52it/s][A
 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                              | 2955/4088 [00:03<00:01, 1055.86it/s][A
 75%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                          | 3065/4088 [00:03<00:00, 1066.75it/s][A
 78%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍    

 51%|█████████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 2067/4088 [00:02<00:02, 918.07it/s][A
 53%|█████████████████████████████████████████████████████████████████████████████████████████▎                                                                               | 2159/4088 [00:02<00:02, 905.49it/s][A
 55%|█████████████████████████████████████████████████████████████████████████████████████████████▏                                                                           | 2254/4088 [00:02<00:01, 917.57it/s][A
 57%|████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                        | 2346/4088 [00:02<00:01, 908.10it/s][A
 60%|████████████████████████████████████████████████████████████████████████████████████████████████████▉                                  

 44%|█████████████████████████████████████████████████████████████████████████▍                                                                                              | 1788/4088 [00:01<00:02, 1037.26it/s][A
 47%|██████████████████████████████████████████████████████████████████████████████▍                                                                                         | 1910/4088 [00:01<00:02, 1087.77it/s][A
 49%|███████████████████████████████████████████████████████████████████████████████████                                                                                     | 2021/4088 [00:02<00:01, 1067.80it/s][A
 52%|███████████████████████████████████████████████████████████████████████████████████████▋                                                                                | 2134/4088 [00:02<00:01, 1083.70it/s][A
 55%|████████████████████████████████████████████████████████████████████████████████████████████▍                                          

 57%|████████████████████████████████████████████████████████████████████████████████████████████████                                                                        | 2338/4088 [00:01<00:01, 1367.63it/s][A
 61%|█████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                                  | 2475/4088 [00:01<00:01, 1363.47it/s][A
 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                            | 2612/4088 [00:01<00:01, 1363.16it/s][A
 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                       | 2749/4088 [00:02<00:00, 1358.63it/s][A
 71%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                

 37%|██████████████████████████████████████████████████████████████▌                                                                                                          | 1513/4088 [00:02<00:03, 696.61it/s][A
 39%|█████████████████████████████████████████████████████████████████▌                                                                                                       | 1586/4088 [00:02<00:03, 704.05it/s][A
 41%|████████████████████████████████████████████████████████████████████▋                                                                                                    | 1660/4088 [00:02<00:03, 714.31it/s][A
 42%|███████████████████████████████████████████████████████████████████████▊                                                                                                 | 1736/4088 [00:02<00:03, 727.14it/s][A
 44%|██████████████████████████████████████████████████████████████████████████▉                                                            

 22%|████████████████████████████████████▌                                                                                                                                    | 883/4088 [00:00<00:03, 1059.88it/s][A
 24%|█████████████████████████████████████████▏                                                                                                                               | 996/4088 [00:00<00:02, 1080.68it/s][A
 27%|█████████████████████████████████████████████▌                                                                                                                          | 1108/4088 [00:01<00:02, 1090.97it/s][A
 30%|██████████████████████████████████████████████████▎                                                                                                                     | 1223/4088 [00:01<00:02, 1108.65it/s][A
 33%|███████████████████████████████████████████████████████                                                                                

  9%|███████████████▊                                                                                                                                                          | 381/4088 [00:01<00:09, 379.90it/s][A
 10%|█████████████████▌                                                                                                                                                        | 421/4088 [00:01<00:09, 382.39it/s][A
 11%|███████████████████▏                                                                                                                                                      | 460/4088 [00:01<00:09, 382.45it/s][A
 12%|████████████████████▊                                                                                                                                                     | 501/4088 [00:01<00:09, 389.77it/s][A
 13%|██████████████████████▌                                                                                                                

 57%|████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                        | 2330/4088 [00:04<00:02, 631.30it/s][A
 59%|███████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                     | 2398/4088 [00:04<00:02, 644.29it/s][A
 60%|██████████████████████████████████████████████████████████████████████████████████████████████████████                                                                   | 2468/4088 [00:05<00:02, 659.20it/s][A
 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                                | 2539/4088 [00:05<00:02, 674.17it/s][A
 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▊                           

 27%|██████████████████████████████████████████████▎                                                                                                                          | 1119/4088 [00:01<00:04, 663.71it/s][A
 29%|█████████████████████████████████████████████████                                                                                                                        | 1187/4088 [00:01<00:04, 667.69it/s][A
 31%|████████████████████████████████████████████████████▏                                                                                                                    | 1263/4088 [00:01<00:04, 693.25it/s][A
 33%|███████████████████████████████████████████████████████▍                                                                                                                 | 1342/4088 [00:01<00:03, 720.66it/s][A
 35%|██████████████████████████████████████████████████████████▋                                                                            

  5%|████████▎                                                                                                                                                                 | 200/4088 [00:00<00:07, 495.06it/s][A
  6%|██████████▍                                                                                                                                                               | 250/4088 [00:00<00:07, 496.79it/s][A
  7%|████████████▌                                                                                                                                                             | 303/4088 [00:00<00:07, 506.91it/s][A
  9%|██████████████▋                                                                                                                                                           | 354/4088 [00:00<00:07, 491.13it/s][A
 10%|████████████████▉                                                                                                                      

 64%|████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                            | 2623/4088 [00:04<00:01, 782.44it/s][A
 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                         | 2706/4088 [00:04<00:01, 796.65it/s][A
 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                     | 2793/4088 [00:04<00:01, 817.26it/s][A
 70%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                                  | 2880/4088 [00:04<00:01, 831.84it/s][A
 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋            

 57%|███████████████████████████████████████████████████████████████████████████████████████████████▋                                                                        | 2328/4088 [00:02<00:01, 1087.03it/s][A
 60%|████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                                   | 2444/4088 [00:02<00:01, 1106.71it/s][A
 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                              | 2563/4088 [00:02<00:01, 1129.32it/s][A
 66%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                         | 2682/4088 [00:02<00:01, 1146.35it/s][A
 68%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████                    

  6%|██████████▉                                                                                                                                                               | 262/4088 [00:02<00:33, 114.05it/s][A
  7%|███████████▍                                                                                                                                                              | 274/4088 [00:02<00:33, 114.42it/s][A
  7%|███████████▉                                                                                                                                                              | 286/4088 [00:02<00:33, 114.39it/s][A
  7%|████████████▍                                                                                                                                                             | 299/4088 [00:02<00:32, 117.98it/s][A
  8%|████████████▉                                                                                                                          

 18%|██████████████████████████████▋                                                                                                                                           | 739/4088 [00:06<00:26, 125.81it/s][A
 18%|███████████████████████████████▎                                                                                                                                          | 752/4088 [00:06<00:26, 126.15it/s][A
 19%|███████████████████████████████▊                                                                                                                                          | 765/4088 [00:06<00:26, 126.90it/s][A
 19%|████████████████████████████████▍                                                                                                                                         | 779/4088 [00:06<00:25, 128.37it/s][A
 19%|████████████████████████████████▉                                                                                                      

 32%|█████████████████████████████████████████████████████▎                                                                                                                   | 1289/4088 [00:10<00:19, 147.04it/s][A
 32%|█████████████████████████████████████████████████████▉                                                                                                                   | 1305/4088 [00:10<00:18, 149.43it/s][A
 32%|██████████████████████████████████████████████████████▌                                                                                                                  | 1321/4088 [00:10<00:18, 150.70it/s][A
 33%|███████████████████████████████████████████████████████▎                                                                                                                 | 1337/4088 [00:10<00:18, 152.51it/s][A
 33%|███████████████████████████████████████████████████████▉                                                                               

 48%|█████████████████████████████████████████████████████████████████████████████████▋                                                                                       | 1975/4088 [00:14<00:11, 188.52it/s][A
 49%|██████████████████████████████████████████████████████████████████████████████████▍                                                                                      | 1995/4088 [00:14<00:10, 190.56it/s][A
 49%|███████████████████████████████████████████████████████████████████████████████████▎                                                                                     | 2016/4088 [00:14<00:10, 194.70it/s][A
 50%|████████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 2038/4088 [00:14<00:10, 199.89it/s][A
 50%|█████████████████████████████████████████████████████████████████████████████████████                                                  

 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                               | 2938/4088 [00:18<00:03, 305.81it/s][A
 73%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                              | 2971/4088 [00:18<00:03, 311.83it/s][A
 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                            | 3007/4088 [00:18<00:03, 325.99it/s][A
 74%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                           | 3043/4088 [00:18<00:03, 336.07it/s][A
 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎       

  9%|██████████████▌                                                                                                                                                           | 351/4088 [00:01<00:16, 220.11it/s][A
  9%|███████████████▌                                                                                                                                                          | 374/4088 [00:01<00:16, 219.71it/s][A
 10%|████████████████▍                                                                                                                                                         | 396/4088 [00:01<00:16, 219.56it/s][A
 10%|█████████████████▍                                                                                                                                                        | 418/4088 [00:01<00:16, 218.13it/s][A
 11%|██████████████████▎                                                                                                                    

 31%|█████████████████████████████████████████████████████                                                                                                                    | 1283/4088 [00:05<00:10, 270.25it/s][A
 32%|██████████████████████████████████████████████████████▏                                                                                                                  | 1311/4088 [00:05<00:10, 271.63it/s][A
 33%|███████████████████████████████████████████████████████▍                                                                                                                 | 1341/4088 [00:05<00:09, 278.56it/s][A
 34%|████████████████████████████████████████████████████████▋                                                                                                                | 1371/4088 [00:05<00:09, 284.00it/s][A
 34%|█████████████████████████████████████████████████████████▉                                                                             

 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                                                         | 2705/4088 [00:09<00:02, 476.02it/s][A
 67%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                       | 2756/4088 [00:09<00:02, 484.95it/s][A
 69%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                    | 2810/4088 [00:09<00:02, 499.13it/s][A
 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                  | 2865/4088 [00:09<00:02, 513.89it/s][A
 72%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉              

 51%|█████████████████████████████████████████████████████████████████████████████████████▎                                                                                  | 2075/4088 [00:01<00:01, 1154.31it/s][A
 54%|██████████████████████████████████████████████████████████████████████████████████████████▏                                                                             | 2195/4088 [00:01<00:01, 1165.78it/s][A
 57%|███████████████████████████████████████████████████████████████████████████████████████████████▏                                                                        | 2316/4088 [00:02<00:01, 1176.57it/s][A
 60%|████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                                   | 2438/4088 [00:02<00:01, 1187.59it/s][A
 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████                              

 60%|████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                   | 2446/4088 [00:02<00:01, 1251.06it/s][A
 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                              | 2572/4088 [00:02<00:01, 1251.86it/s][A
 66%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                         | 2698/4088 [00:02<00:01, 1235.70it/s][A
 69%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                    | 2822/4088 [00:02<00:01, 1213.94it/s][A
 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▍             

 44%|█████████████████████████████████████████████████████████████████████████▋                                                                                               | 1782/4088 [00:02<00:02, 816.07it/s][A
 46%|█████████████████████████████████████████████████████████████████████████████▏                                                                                           | 1867/4088 [00:02<00:02, 825.35it/s][A
 48%|████████████████████████████████████████████████████████████████████████████████▊                                                                                        | 1954/4088 [00:02<00:02, 836.46it/s][A
 50%|████████████████████████████████████████████████████████████████████████████████████▎                                                                                    | 2038/4088 [00:02<00:02, 832.74it/s][A
 52%|███████████████████████████████████████████████████████████████████████████████████████▋                                               

 32%|██████████████████████████████████████████████████████▊                                                                                                                  | 1326/4088 [00:01<00:02, 976.82it/s][A
 35%|███████████████████████████████████████████████████████████                                                                                                              | 1429/4088 [00:01<00:02, 992.44it/s][A
 38%|███████████████████████████████████████████████████████████████                                                                                                         | 1533/4088 [00:01<00:02, 1005.82it/s][A
 40%|███████████████████████████████████████████████████████████████████▌                                                                                                     | 1634/4088 [00:01<00:02, 995.34it/s][A
 42%|███████████████████████████████████████████████████████████████████████▎                                                               

  9%|██████████████▉                                                                                                                                                           | 360/4088 [00:01<00:14, 255.02it/s][A
 10%|████████████████▎                                                                                                                                                         | 392/4088 [00:01<00:13, 271.15it/s][A
 10%|█████████████████▋                                                                                                                                                        | 424/4088 [00:01<00:12, 284.33it/s][A
 11%|██████████████████▉                                                                                                                                                       | 455/4088 [00:01<00:12, 289.77it/s][A
 12%|████████████████████▏                                                                                                                  

 43%|█████████████████████████████████████████████████████████████████████████▍                                                                                               | 1777/4088 [00:05<00:05, 443.73it/s][A
 45%|███████████████████████████████████████████████████████████████████████████▍                                                                                             | 1824/4088 [00:05<00:05, 449.75it/s][A
 46%|█████████████████████████████████████████████████████████████████████████████▍                                                                                           | 1873/4088 [00:05<00:04, 461.27it/s][A
 47%|███████████████████████████████████████████████████████████████████████████████▎                                                                                         | 1920/4088 [00:05<00:04, 462.42it/s][A
 48%|█████████████████████████████████████████████████████████████████████████████████▎                                                     

  5%|█████████▎                                                                                                                                                               | 224/4088 [00:00<00:03, 1129.06it/s][A
  8%|██████████████▎                                                                                                                                                          | 347/4088 [00:00<00:03, 1173.64it/s][A
 12%|███████████████████▌                                                                                                                                                     | 472/4088 [00:00<00:03, 1202.86it/s][A
 15%|████████████████████████▌                                                                                                                                                | 595/4088 [00:00<00:02, 1209.97it/s][A
 18%|█████████████████████████████▋                                                                                                         

 17%|████████████████████████████▊                                                                                                                                            | 696/4088 [00:00<00:02, 1363.68it/s][A
 20%|██████████████████████████████████▍                                                                                                                                      | 833/4088 [00:00<00:02, 1356.40it/s][A
 24%|████████████████████████████████████████▏                                                                                                                                | 972/4088 [00:00<00:02, 1365.64it/s][A
 27%|█████████████████████████████████████████████▉                                                                                                                          | 1118/4088 [00:00<00:02, 1393.46it/s][A
 31%|███████████████████████████████████████████████████▋                                                                                   

 37%|██████████████████████████████████████████████████████████████▎                                                                                                         | 1516/4088 [00:01<00:02, 1277.03it/s][A
 40%|███████████████████████████████████████████████████████████████████▌                                                                                                    | 1644/4088 [00:01<00:01, 1251.69it/s][A
 43%|████████████████████████████████████████████████████████████████████████▋                                                                                               | 1770/4088 [00:01<00:01, 1239.76it/s][A
 46%|█████████████████████████████████████████████████████████████████████████████▉                                                                                          | 1895/4088 [00:01<00:01, 1238.08it/s][A
 50%|███████████████████████████████████████████████████████████████████████████████████▎                                                   

 53%|█████████████████████████████████████████████████████████████████████████████████████████▊                                                                              | 2184/4088 [00:01<00:01, 1408.86it/s][A
 57%|███████████████████████████████████████████████████████████████████████████████████████████████▌                                                                        | 2325/4088 [00:01<00:01, 1404.91it/s][A
 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                  | 2466/4088 [00:01<00:01, 1404.61it/s][A
 64%|███████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                            | 2607/4088 [00:01<00:01, 1384.31it/s][A
 67%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊                      

 55%|████████████████████████████████████████████████████████████████████████████████████████████▏                                                                           | 2243/4088 [00:02<00:01, 1009.97it/s][A
 57%|████████████████████████████████████████████████████████████████████████████████████████████████▌                                                                       | 2350/4088 [00:02<00:01, 1026.14it/s][A
 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████                                                                   | 2460/4088 [00:02<00:01, 1047.71it/s][A
 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                              | 2570/4088 [00:02<00:01, 1062.60it/s][A
 66%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                        

  7%|███████████▏                                                                                                                                                              | 270/4088 [00:02<00:31, 122.76it/s][A
  7%|███████████▊                                                                                                                                                              | 283/4088 [00:02<00:31, 120.14it/s][A
  7%|████████████▎                                                                                                                                                             | 297/4088 [00:02<00:30, 125.44it/s][A
  8%|████████████▉                                                                                                                                                             | 310/4088 [00:02<00:30, 125.04it/s][A
  8%|█████████████▍                                                                                                                         

 19%|████████████████████████████████▍                                                                                                                                         | 780/4088 [00:06<00:23, 137.96it/s][A
 19%|█████████████████████████████████                                                                                                                                         | 794/4088 [00:06<00:23, 137.43it/s][A
 20%|█████████████████████████████████▋                                                                                                                                        | 809/4088 [00:06<00:23, 138.77it/s][A
 20%|██████████████████████████████████▏                                                                                                                                       | 823/4088 [00:06<00:23, 137.87it/s][A
 20%|██████████████████████████████████▊                                                                                                    

 34%|█████████████████████████████████████████████████████████                                                                                                                | 1381/4088 [00:10<00:18, 146.48it/s][A
 34%|█████████████████████████████████████████████████████████▋                                                                                                               | 1396/4088 [00:10<00:18, 145.33it/s][A
 35%|██████████████████████████████████████████████████████████▎                                                                                                              | 1411/4088 [00:10<00:18, 142.93it/s][A
 35%|██████████████████████████████████████████████████████████▉                                                                                                              | 1426/4088 [00:10<00:18, 144.76it/s][A
 35%|███████████████████████████████████████████████████████████▋                                                                           

 51%|██████████████████████████████████████████████████████████████████████████████████████▉                                                                                  | 2102/4088 [00:14<00:09, 201.62it/s][A
 52%|███████████████████████████████████████████████████████████████████████████████████████▊                                                                                 | 2123/4088 [00:14<00:09, 203.44it/s][A
 53%|████████████████████████████████████████████████████████████████████████████████████████▊                                                                                | 2147/4088 [00:14<00:09, 213.83it/s][A
 53%|█████████████████████████████████████████████████████████████████████████████████████████▊                                                                               | 2171/4088 [00:14<00:08, 220.44it/s][A
 54%|██████████████████████████████████████████████████████████████████████████████████████████▋                                            

 80%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                  | 3268/4088 [00:18<00:01, 498.01it/s][A
 81%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                               | 3318/4088 [00:18<00:01, 485.97it/s][A
 82%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                             | 3367/4088 [00:18<00:01, 483.85it/s][A
 84%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                           | 3418/4088 [00:18<00:01, 489.20it/s][A
 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████

 41%|████████████████████████████████████████████████████████████████████▉                                                                                                    | 1669/4088 [00:01<00:02, 946.53it/s][A
 43%|████████████████████████████████████████████████████████████████████████▉                                                                                                | 1764/4088 [00:01<00:02, 947.38it/s][A
 46%|█████████████████████████████████████████████████████████████████████████████▎                                                                                           | 1869/4088 [00:02<00:02, 977.79it/s][A
 48%|█████████████████████████████████████████████████████████████████████████████████▌                                                                                       | 1974/4088 [00:02<00:02, 997.02it/s][A
 51%|█████████████████████████████████████████████████████████████████████████████████████▎                                                 

 20%|█████████████████████████████████▋                                                                                                                                        | 810/4088 [00:01<00:05, 585.11it/s][A
 21%|████████████████████████████████████▎                                                                                                                                     | 874/4088 [00:01<00:05, 600.47it/s][A
 23%|██████████████████████████████████████▉                                                                                                                                   | 935/4088 [00:01<00:05, 597.37it/s][A
 24%|█████████████████████████████████████████▌                                                                                                                                | 998/4088 [00:01<00:05, 605.45it/s][A
 26%|███████████████████████████████████████████▉                                                                                           

 96%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌      | 3932/4088 [00:05<00:00, 1076.38it/s][A
100%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4088/4088 [00:05<00:00, 753.96it/s][A
 70%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▋                                                   | 43/61 [04:21<01:39,  5.55s/it]
  0%|                                                                                                                                                                                     | 0/4088 [00:00<?, ?it/s][A
  3%|████▍                                                                                                                                     

 72%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                | 44/61 [04:24<01:23,  4.93s/it]
  0%|                                                                                                                                                                                     | 0/4088 [00:00<?, ?it/s][A
  2%|████▏                                                                                                                                                                    | 102/4088 [00:00<00:03, 1013.68it/s][A
  5%|████████▋                                                                                                                                                                | 210/4088 [00:00<00:03, 1051.88it/s][A
  8%|█████████████                                                                                                                             

 74%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                                             | 45/61 [04:28<01:13,  4.56s/it]
  0%|                                                                                                                                                                                     | 0/4088 [00:00<?, ?it/s][A
  2%|███▍                                                                                                                                                                       | 81/4088 [00:00<00:04, 809.66it/s][A
  4%|███████▏                                                                                                                                                                  | 173/4088 [00:00<00:04, 870.01it/s][A
  7%|███████████▏                                                                                                                              

 93%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████           | 3821/4088 [00:03<00:00, 1179.13it/s][A
 96%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████      | 3942/4088 [00:03<00:00, 1188.26it/s][A
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 4088/4088 [00:03<00:00, 1028.32it/s][A
 75%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                          | 46/61 [04:32<01:05,  4.39s/it]
  0%|                                                                                                                                          

 77%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                                        | 47/61 [04:35<00:57,  4.12s/it]
  0%|                                                                                                                                                                                     | 0/4088 [00:00<?, ?it/s][A
 25%|██████████████████████████████████████████▏                                                                                                                            | 1033/4088 [00:00<00:00, 10327.60it/s][A
 53%|███████████████████████████████████████████████████████████████████████████████████████▋                                                                               | 2148/4088 [00:00<00:00, 10810.47it/s][A
100%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████

 86%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                      | 3533/4088 [00:03<00:00, 1174.69it/s][A
 89%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                  | 3653/4088 [00:03<00:00, 1179.60it/s][A
 92%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████             | 3772/4088 [00:03<00:00, 1177.76it/s][A
 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▉        | 3891/4088 [00:03<00:00, 1181.12it/s][A
100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████

 82%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                               | 50/61 [04:43<00:36,  3.28s/it]
  0%|                                                                                                                                                                                     | 0/4088 [00:00<?, ?it/s][A
  4%|██████                                                                                                                                                                   | 148/4088 [00:00<00:02, 1477.49it/s][A
  7%|████████████▎                                                                                                                                                            | 298/4088 [00:00<00:02, 1485.35it/s][A
 11%|██████████████████▍                                                                                                                       

 26%|██████████████████████████████████████████▉                                                                                                                             | 1045/4088 [00:00<00:02, 1472.89it/s][A
 29%|█████████████████████████████████████████████████                                                                                                                       | 1193/4088 [00:00<00:02, 1447.30it/s][A
 33%|██████████████████████████████████████████████████████▉                                                                                                                 | 1338/4088 [00:00<00:01, 1445.86it/s][A
 36%|█████████████████████████████████████████████████████████████                                                                                                           | 1487/4088 [00:01<00:01, 1457.09it/s][A
 40%|███████████████████████████████████████████████████████████████████▏                                                                   

 34%|████████████████████████████████████████████████████████▍                                                                                                               | 1372/4088 [00:01<00:02, 1348.25it/s][A
 37%|█████████████████████████████████████████████████████████████▉                                                                                                          | 1507/4088 [00:01<00:01, 1336.14it/s][A
 40%|███████████████████████████████████████████████████████████████████▍                                                                                                    | 1641/4088 [00:01<00:01, 1327.46it/s][A
 43%|████████████████████████████████████████████████████████████████████████▉                                                                                               | 1775/4088 [00:01<00:01, 1329.43it/s][A
 47%|██████████████████████████████████████████████████████████████████████████████▍                                                        

 53%|████████████████████████████████████████████████████████████████████████████████████████▉                                                                               | 2164/4088 [00:01<00:01, 1360.02it/s][A
 56%|██████████████████████████████████████████████████████████████████████████████████████████████▋                                                                         | 2304/4088 [00:01<00:01, 1371.22it/s][A
 60%|████████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                   | 2442/4088 [00:01<00:01, 1367.80it/s][A
 63%|█████████████████████████████████████████████████████████████████████████████████████████████████████████▉                                                              | 2579/4088 [00:01<00:01, 1354.56it/s][A
 66%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                       

 50%|████████████████████████████████████████████████████████████████████████████████████▍                                                                                   | 2055/4088 [00:02<00:02, 1013.43it/s][A
 53%|████████████████████████████████████████████████████████████████████████████████████████▋                                                                               | 2157/4088 [00:02<00:01, 1006.29it/s][A
 55%|████████████████████████████████████████████████████████████████████████████████████████████▉                                                                           | 2261/4088 [00:02<00:01, 1016.01it/s][A
 58%|█████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                      | 2368/4088 [00:02<00:01, 1031.06it/s][A
 60%|█████████████████████████████████████████████████████████████████████████████████████████████████████▌                                 

 59%|███████████████████████████████████████████████████████████████████████████████████████████████████▎                                                                    | 2418/4088 [00:01<00:01, 1235.55it/s][A
 62%|████████████████████████████████████████████████████████████████████████████████████████████████████████▌                                                               | 2543/4088 [00:02<00:01, 1169.51it/s][A
 65%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████▍                                                          | 2662/4088 [00:02<00:01, 1144.87it/s][A
 68%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████▏                                                     | 2778/4088 [00:02<00:01, 1125.90it/s][A
 71%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎               

 82%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▌                              | 3347/4088 [00:02<00:00, 1398.70it/s][A
 85%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▎                        | 3488/4088 [00:02<00:00, 1388.43it/s][A
 89%|█████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████                   | 3627/4088 [00:02<00:00, 1382.42it/s][A
 92%|██████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████▊             | 3766/4088 [00:02<00:00, 1377.25it/s][A
 95%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████

  3%|█████▍                                                                                                                                                                   | 133/4088 [00:00<00:02, 1326.62it/s][A
  7%|██████████▉                                                                                                                                                              | 266/4088 [00:00<00:02, 1301.96it/s][A
 10%|████████████████▉                                                                                                                                                        | 411/4088 [00:00<00:02, 1368.15it/s][A
 14%|███████████████████████                                                                                                                                                  | 557/4088 [00:00<00:02, 1403.81it/s][A
 17%|████████████████████████████▉                                                                                                          

 28%|██████████████████████████████████████████████▋                                                                                                                         | 1135/4088 [00:00<00:02, 1384.54it/s][A
 31%|████████████████████████████████████████████████████▎                                                                                                                   | 1274/4088 [00:00<00:02, 1383.76it/s][A
 35%|██████████████████████████████████████████████████████████                                                                                                              | 1413/4088 [00:01<00:01, 1380.80it/s][A
 38%|███████████████████████████████████████████████████████████████▊                                                                                                        | 1552/4088 [00:01<00:01, 1383.38it/s][A
 41%|█████████████████████████████████████████████████████████████████████▍                                                                 

In [23]:
data_merged_not_nan.drop(
    data_merged_not_nan.columns[data_merged_not_nan.columns.str.contains("situacao")],
    axis = 1,
    inplace = True)

## Save data processed

In [24]:
data_merged_not_nan.to_csv(file_path_processed_concat)

# Drop columns with problemns

In [25]:
cods_cols = list(data_merged_not_nan.columns[data_merged_not_nan.columns.str.contains("cod")])
other_cols = [
    "cep",
    "lats",
    "longs",
    "local",
    "nm_sit"
]
all_columns = cods_cols + other_cols
data_merged_not_nan.drop(all_columns,
                         axis = 1, 
                         inplace = True)

# Categorical columns process

In [26]:
if not os.path.exists(path_columns_cat):
    os.makedirs(path_columns_cat)

In [27]:
cat_cols_nome = [
    'nome_grande_regiao_basico_pb',
    'nome_da_uf__basico_pb',
    'nome_da_meso_basico_pb',
    'nome_da_micro_basico_pb',
    'nome_da_rm_basico_pb',
    'nome_do_municipio_basico_pb',
    'nome_do_distrito_basico_pb',
    'nome_do_subdistrito_basico_pb',
]
data_merged_not_nan.drop(cat_cols_nome, axis = 1, inplace = True)

In [28]:
cat_cols = [
    "bairro"
] + [
    "nome_do_bairro_basico_pb",
    "highlight"
]

cat_dict_all = {}
for col in cat_cols:
    cat_dict = {}
    for idx, i in enumerate(data_merged_not_nan[col].unique()):
        cat_dict[i] = idx
    cat_dict_all[col] = cat_dict

In [29]:
data_merged_not_nan, e3 = replace_na_with_mode(
    data_merged_not_nan,
    ['highlight'],
    'bairro')

  0%|                                                                                                                                                                                       | 0/61 [00:00<?, ?it/s]
100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 97.54it/s][A

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 108.29it/s][A

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 113.87it/s][A

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 395.17it/s][A

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 142.78it/s][A

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 217.86it/s][A

100%|████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████| 1/1 [00:00<00:00, 96.52it/s][A

100%|███████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████████

In [30]:
for column_name, content_cat in cat_dict_all.items():
    data_merged_not_nan[column_name].replace(cat_dict_all[column_name], inplace = True)

In [31]:
data_final = data_merged_not_nan.copy()
data_final = data_final.replace("X", np.nan)

### Save categorical labels

In [47]:
for i_col_cat, i_content_cat in cat_dict_all.items():
    with open(file_path_categorical_replaces.format(i_col_cat), 'w') as file:
        json.dump(i_content_cat, file)

### Process column with problem

In [32]:
for pro_col in data_final.columns:
    try:
        data_final[pro_col] = data_final[pro_col].astype(float)
    except:
        data_final[pro_col] = data_final[pro_col].astype(str).str.replace(",",".").astype(float)

## Drop bathrooms

In [33]:
data_final.drop("bathrooms", axis = 1, inplace = True)

## Drop last nans

In [34]:
data_final = data_final.dropna().reset_index(drop = True)

# Save dataset final

In [35]:
data_final.to_csv(file_path_data_input)