In [210]:
from selenium import webdriver
from selenium.webdriver.chrome.service import Service
from selenium.webdriver.common.by import By
from selenium.webdriver.chrome.options import Options
from fake_useragent import UserAgent

# Data mining

### In this notebook I am mining data on open listings of houses for sale in Sochi, Russia from [cian.ru](https://sochi.cian.ru/kupit-dom/) for July 2024.

 Cian didn't want to share the data (they sell it for 150+ thousand rubles) and gave a `403 Forbidden` error on common http requests, so I used `Selenium` and a `fake_useragent`

In [211]:
import numpy as np
from tqdm import tqdm

#### This function I will use to generate random UserAgent and launch chrome browser with it

In [212]:
def get_random_useragent_driver():
    ua = UserAgent()
    user_agent = ua.random
    
    chrome_options = Options()
    chrome_options.add_argument("--headless")
    chrome_options.add_argument(f"user-agent={user_agent}")
    
    s = Service("D:/chromedriver_win32/chromedriver.exe")
    driver = webdriver.Chrome(service=s, options=chrome_options)
    return driver

In [213]:
driver = get_random_useragent_driver()

#### Next code block was used to parsing links to specific home listings for sale

In [214]:

highlevel_links = ["https://sochi.cian.ru/kupit-dom/"] + [f"https://krasnodar.cian.ru/cat.php/?deal_type=sale&engine_version=2&object_type%5B0%5D=1&offer_type=suburban&p={i+1}&region=4998" for i in range(56)]

#print(highlevel_links)

house_cards_links = []
for i, link in tqdm(enumerate(highlevel_links)):
    driver.get(link)
    # Find all <a> tags on the webpage
    all_lowlevel_links = [link.get_attribute('href') for link in driver.find_elements(By.TAG_NAME, 'a')]
    sales_lowlevel_links = [link for link in all_lowlevel_links if "/sale/suburban/" in link]

    # Extract and print the href attribute for each <a> tag
    if i%10==0:
        print("Step", i, "; All house cards link count:", len(house_cards_links))
    house_cards_links.extend(sales_lowlevel_links)

1it [00:10, 10.01s/it]

Step 0 ; All house cards link count: 0


11it [01:04,  5.42s/it]

Step 10 ; All house cards link count: 1400


21it [01:52,  4.29s/it]

Step 20 ; All house cards link count: 2790


31it [02:29,  3.81s/it]

Step 30 ; All house cards link count: 4190


41it [03:07,  3.63s/it]

Step 40 ; All house cards link count: 5585


51it [03:43,  3.71s/it]

Step 50 ; All house cards link count: 6975


57it [04:12,  4.42s/it]


In [314]:
house_cards_links = list(set(house_cards_links))
house_cards_links = [house for house in house_cards_links if not "export" in house]
house_cards_links[:25]

['https://sochi.cian.ru/sale/suburban/300698682/',
 'https://sochi.cian.ru/sale/suburban/273394718/',
 'https://sochi.cian.ru/sale/suburban/278055569/',
 'https://sochi.cian.ru/sale/suburban/273397738/',
 'https://sochi.cian.ru/sale/suburban/295676027/',
 'https://sochi.cian.ru/sale/suburban/302122042/',
 'https://sochi.cian.ru/sale/suburban/273425212/',
 'https://sochi.cian.ru/sale/suburban/300651239/',
 'https://sochi.cian.ru/sale/suburban/298265456/',
 'https://sochi.cian.ru/sale/suburban/294290938/',
 'https://sochi.cian.ru/sale/suburban/283699307/',
 'https://sochi.cian.ru/sale/suburban/255474823/',
 'https://sochi.cian.ru/sale/suburban/294290235/',
 'https://sochi.cian.ru/sale/suburban/291694678/',
 'https://sochi.cian.ru/sale/suburban/279551779/',
 'https://sochi.cian.ru/sale/suburban/278898776/',
 'https://sochi.cian.ru/sale/suburban/284972578/',
 'https://sochi.cian.ru/sale/suburban/290315357/',
 'https://sochi.cian.ru/sale/suburban/301822726/',
 'https://sochi.cian.ru/sale/su

In [315]:
len(house_cards_links)

1429

#### The code below parses each listing from the collected links and retrieves house prices and features

In [316]:
from time import sleep

In [458]:
all_houses_list_dicts = []
all_prices_list = []
driver = get_random_useragent_driver()
for i in tqdm(range(len(house_cards_links))):
    if i % 5 == 0 and i > 0:
        driver.quit()
        driver = get_random_useragent_driver()
    driver.get(house_cards_links[i])
    info_tables_texts = driver.find_elements(By.CSS_SELECTOR, "tr[data-name=OfferSummaryInfoItem]")
    sleep(np.random.randint(2))
    price = driver.find_elements(By.CSS_SELECTOR, "div[data-name=PriceInfo]")

    if len(price)==0:
        driver.quit()
        driver = get_random_useragent_driver()
        driver.refresh()
        driver.get(house_cards_links[i])
        sleep(np.random.randint(2, 4))
        price = driver.find_elements(By.CSS_SELECTOR, "div[data-name=PriceInfo]")

    if len(info_tables_texts)==0:
        driver.quit()
        driver = get_random_useragent_driver()
        driver.get(house_cards_links[i])
        sleep(np.random.randint(2, 4))
        driver.refresh()
        info_tables_texts = driver.find_elements(By.CSS_SELECTOR, "tr[data-name=OfferSummaryInfoItem]")
    
    try:
        price = price[0]
        price_text = price.text
    except:
        price_text = "problems_with_price"
    house_features_raw = [x.text for x in info_tables_texts]
    house_features_medium = []
    for f in house_features_raw:
        if "Площадь" in f:
            if " м" in f:
                f_medium = ("Площадь дома", f.split("\n")[1])
                house_features_medium.append(f_medium)
            else:
                f_medium = ("Площадь участка", f.split("\n")[1])
                house_features_medium.append(f_medium)
        elif "Есть" in f:
            f_medium = (f.split("\n")[0], 1)
            house_features_medium.append(f_medium)
        elif "Дополнительно" in f:
            bonus_features = [(x, 1) for x in f.split("\n")[1].split()]
            house_features_medium.extend(bonus_features)
        else:
            house_features_medium.append(tuple(f.split("\n")))
    
    house_features_dict = dict(house_features_medium)
    all_houses_list_dicts.append(house_features_dict)
    all_prices_list.append(price_text)
    


100%|████████████████████████████████████████████████████████████████████████████| 1429/1429 [3:58:40<00:00, 10.02s/it]


In [459]:
all_houses_list_dicts[:1]

[{'Площадь дома': '115 м²',
  'Количество этажей': '3',
  'Площадь участка': '6 сот.',
  'Водоснабжение': 1,
  'Электричество': 1}]

In [460]:
len(all_houses_list_dicts), len(all_prices_list)

(1429, 1429)

In [461]:
all_houses_list_dicts[:5]

[{'Площадь дома': '115 м²',
  'Количество этажей': '3',
  'Площадь участка': '6 сот.',
  'Водоснабжение': 1,
  'Электричество': 1},
 {'Площадь дома': '280 м²',
  'Материал дома': 'Монолитный',
  'Состояние дома': 'Можно жить',
  'Количество этажей': '2',
  'Количество спален': '4',
  'Площадь участка': '10 сот.',
  'Категория земель': 'Земли населённых пунктов',
  'Статус участка': 'Индивидуальное жилищное строительство',
  'Санузел': 'В доме',
  'Канализация': 'Центральная',
  'Водоснабжение': 'Центральное',
  'Отопление': 'Центральное газовое',
  'Электричество': 1,
  'Газ': 'Магистральный в доме или на участке',
  'Погреб': 1,
  'Терраса': 1,
  'Гараж': 1,
  'Баня': 1,
  'Охрана': 1,
  'Бассейн': 1},
 {'Площадь дома': '180 м²',
  'Материал дома': 'Газобетонный блок',
  'Количество этажей': '2',
  'Количество спален': '3',
  'Площадь участка': '6 сот.',
  'Категория земель': 'Земли населённых пунктов',
  'Статус участка': 'Индивидуальное жилищное строительство',
  'Санузел': 'В доме'

In [462]:
all_prices_list[:16], house_cards_links[:16]

(['3 800 000 ₽',
  '25 000 000 ₽',
  '27 500 000 ₽',
  '37 000 000 ₽',
  '85 000 000 ₽',
  '25 000 000 ₽',
  '40 000 000 ₽',
  '32 000 000 ₽',
  '23 500 000 ₽',
  '78 000 000 ₽',
  '15 000 000 ₽',
  '32 000 000 ₽',
  '148 500 000 ₽',
  'problems_with_price',
  'problems_with_price',
  '20 000 000 ₽'],
 ['https://sochi.cian.ru/sale/suburban/300698682/',
  'https://sochi.cian.ru/sale/suburban/273394718/',
  'https://sochi.cian.ru/sale/suburban/278055569/',
  'https://sochi.cian.ru/sale/suburban/273397738/',
  'https://sochi.cian.ru/sale/suburban/295676027/',
  'https://sochi.cian.ru/sale/suburban/302122042/',
  'https://sochi.cian.ru/sale/suburban/273425212/',
  'https://sochi.cian.ru/sale/suburban/300651239/',
  'https://sochi.cian.ru/sale/suburban/298265456/',
  'https://sochi.cian.ru/sale/suburban/294290938/',
  'https://sochi.cian.ru/sale/suburban/283699307/',
  'https://sochi.cian.ru/sale/suburban/255474823/',
  'https://sochi.cian.ru/sale/suburban/294290235/',
  'https://sochi.cian




### Periodically parsing failed due to pop-ups, random banner ads and cookie collection ads, so not every link was able to retrieve all the necessary data. Below are a fraction of ads for which this was possible at once

In [463]:
print(1 - len([x for x in all_prices_list if x=="problems_with_price"]) / len(all_prices_list))

0.7074877536738978


In [464]:
print(1 - len([x for x in all_houses_list_dicts if x=={}]) / len(all_prices_list))

0.8691392582225332


#### And this code iterates over the house references until all the data is collected

In [465]:
while 1 - len([x for x in all_prices_list if x=="problems_with_price"]) / len(all_prices_list) < 1:
    price_skips_indices = []
    for i in tqdm(range(len(all_prices_list))):
        if all_prices_list[i]=="problems_with_price":
            driver.quit()
            driver = get_random_useragent_driver()
            driver.get(house_cards_links[i])
            sleep(np.random.randint(2))
            driver.refresh()
            try:
                price = driver.find_elements(By.CSS_SELECTOR, "div[data-name=PriceInfo]")
                price = price[0].text
                all_prices_list[i] = price
                sleep(5)
            except:
                print(i)
                continue
print(1 - len([x for x in all_prices_list if x=="problems_with_price"]) / len(all_prices_list))

  3%|██▋                                                                             | 49/1429 [02:32<53:19,  2.32s/it]

48


  4%|███▌                                                                            | 64/1429 [03:15<51:05,  2.25s/it]

63


  5%|███▉                                                                            | 71/1429 [03:23<41:17,  1.82s/it]

70


  5%|████                                                                            | 72/1429 [03:30<49:11,  2.17s/it]

71


  5%|████                                                                            | 73/1429 [03:36<58:49,  2.60s/it]

72


  5%|████                                                                          | 74/1429 [03:41<1:06:15,  2.93s/it]

73


  8%|██████▍                                                                        | 117/1429 [04:46<29:20,  1.34s/it]

116


  9%|███████                                                                        | 128/1429 [05:17<42:22,  1.95s/it]

127


  9%|███████                                                                      | 132/1429 [05:47<1:20:01,  3.70s/it]

131


  9%|███████▏                                                                     | 133/1429 [05:55<1:35:59,  4.44s/it]

132


  9%|███████▎                                                                     | 135/1429 [06:12<1:59:18,  5.53s/it]

134


 10%|███████▎                                                                     | 136/1429 [06:17<1:57:18,  5.44s/it]

135


 10%|████████                                                                       | 146/1429 [06:35<48:15,  2.26s/it]

145


 11%|████████▉                                                                      | 161/1429 [07:05<43:56,  2.08s/it]

160


 11%|████████▉                                                                      | 162/1429 [07:11<52:01,  2.46s/it]

161


 12%|█████████▏                                                                   | 171/1429 [07:52<1:15:21,  3.59s/it]

170


 12%|█████████▎                                                                   | 172/1429 [07:58<1:22:48,  3.95s/it]

171


 13%|██████████▎                                                                    | 186/1429 [08:26<54:59,  2.65s/it]

185


 14%|██████████▊                                                                    | 196/1429 [09:00<58:50,  2.86s/it]

195


 14%|██████████▌                                                                  | 197/1429 [09:06<1:07:08,  3.27s/it]

196


 14%|██████████▋                                                                  | 198/1429 [09:12<1:15:36,  3.69s/it]

197


 14%|██████████▋                                                                  | 199/1429 [09:19<1:24:07,  4.10s/it]

198


 16%|████████████▍                                                                  | 225/1429 [10:01<32:11,  1.60s/it]

224


 17%|█████████████▎                                                                 | 240/1429 [10:30<30:42,  1.55s/it]

239


 17%|█████████████▌                                                                 | 245/1429 [10:36<28:54,  1.46s/it]

244


 17%|█████████████▋                                                                 | 248/1429 [10:42<29:59,  1.52s/it]

247


 17%|█████████████▊                                                                 | 249/1429 [10:48<38:14,  1.94s/it]

248


 18%|██████████████▏                                                                | 256/1429 [10:53<27:31,  1.41s/it]

255


 18%|██████████████                                                               | 262/1429 [11:25<1:00:48,  3.13s/it]

261


 19%|███████████████▏                                                               | 274/1429 [11:56<47:18,  2.46s/it]

273


 19%|███████████████▏                                                               | 275/1429 [12:01<52:59,  2.76s/it]

274


 20%|███████████████▌                                                               | 281/1429 [12:07<36:55,  1.93s/it]

280


 21%|███████████████▊                                                             | 293/1429 [13:16<1:37:10,  5.13s/it]

292


 21%|███████████████▉                                                             | 296/1429 [13:22<1:11:49,  3.80s/it]

295


 21%|████████████████                                                             | 297/1429 [13:27<1:16:40,  4.06s/it]

296


 21%|████████████████                                                             | 298/1429 [13:34<1:25:27,  4.53s/it]

297


 22%|█████████████████▍                                                             | 315/1429 [14:05<47:45,  2.57s/it]

314


 23%|█████████████████▊                                                             | 323/1429 [14:11<30:54,  1.68s/it]

322


 23%|█████████████████▉                                                             | 325/1429 [14:18<35:38,  1.94s/it]

324


 23%|██████████████████▎                                                            | 331/1429 [14:47<53:11,  2.91s/it]

330


 25%|███████████████████▌                                                           | 353/1429 [15:28<30:12,  1.68s/it]

352


 25%|███████████████████▌                                                           | 354/1429 [15:38<40:49,  2.28s/it]

353


 25%|███████████████████▊                                                           | 358/1429 [15:43<35:21,  1.98s/it]

357


 25%|████████████████████                                                           | 364/1429 [15:49<29:02,  1.64s/it]

363


 26%|████████████████████▏                                                          | 366/1429 [16:06<48:40,  2.75s/it]

365


 26%|████████████████████▌                                                          | 371/1429 [16:11<35:12,  2.00s/it]

370


 26%|████████████████████▋                                                          | 375/1429 [16:18<33:34,  1.91s/it]

374


 27%|█████████████████████                                                          | 380/1429 [16:36<45:28,  2.60s/it]

379


 27%|█████████████████████▎                                                         | 385/1429 [16:42<35:08,  2.02s/it]

384


 28%|█████████████████████▋                                                         | 393/1429 [16:46<22:32,  1.31s/it]

392


 28%|██████████████████████                                                         | 398/1429 [16:53<22:11,  1.29s/it]

397


 29%|███████████████████████▏                                                       | 420/1429 [18:02<44:50,  2.67s/it]

419


 31%|████████████████████████                                                     | 446/1429 [19:36<1:06:57,  4.09s/it]

445


 33%|█████████████████████████                                                    | 466/1429 [20:58<1:00:48,  3.79s/it]

465


 33%|██████████████████████████▏                                                    | 473/1429 [21:03<35:19,  2.22s/it]

472


 33%|██████████████████████████▎                                                    | 475/1429 [21:21<54:38,  3.44s/it]

474


 34%|██████████████████████████▋                                                    | 482/1429 [21:27<32:27,  2.06s/it]

481


 34%|██████████████████████████▉                                                    | 488/1429 [21:33<26:02,  1.66s/it]

487


 35%|███████████████████████████▎                                                   | 494/1429 [21:52<32:45,  2.10s/it]

493


 35%|███████████████████████████▍                                                   | 496/1429 [21:57<33:59,  2.19s/it]

495


 35%|███████████████████████████▌                                                   | 499/1429 [22:03<32:03,  2.07s/it]

498


 36%|████████████████████████████                                                   | 508/1429 [22:32<44:54,  2.93s/it]

507


 38%|█████████████████████████████▋                                                 | 537/1429 [23:38<29:43,  2.00s/it]

536


 38%|█████████████████████████████▊                                                 | 540/1429 [24:06<57:44,  3.90s/it]

539


 38%|██████████████████████████████▏                                                | 547/1429 [24:24<47:18,  3.22s/it]

546


 40%|███████████████████████████████▏                                               | 565/1429 [24:53<27:24,  1.90s/it]

564


 40%|███████████████████████████████▎                                               | 566/1429 [24:58<31:50,  2.21s/it]

565


 40%|███████████████████████████████▊                                               | 575/1429 [25:04<20:03,  1.41s/it]

574


 41%|████████████████████████████████▍                                              | 586/1429 [25:36<32:42,  2.33s/it]

585


 42%|█████████████████████████████████                                              | 597/1429 [26:07<36:22,  2.62s/it]

596


 42%|█████████████████████████████████▏                                             | 601/1429 [26:26<44:08,  3.20s/it]

600


 42%|████████████████████████████████▍                                            | 603/1429 [26:44<1:04:06,  4.66s/it]

602


 43%|█████████████████████████████████▋                                             | 609/1429 [26:50<34:40,  2.54s/it]

608


 43%|█████████████████████████████████▎                                           | 619/1429 [27:49<1:06:53,  4.95s/it]

618


 43%|█████████████████████████████████▍                                           | 620/1429 [27:55<1:09:30,  5.15s/it]

619


 44%|██████████████████████████████████▌                                            | 625/1429 [28:00<38:36,  2.88s/it]

624


 44%|██████████████████████████████████▌                                            | 626/1429 [28:06<43:41,  3.26s/it]

625


 44%|██████████████████████████████████▋                                            | 627/1429 [28:12<50:04,  3.75s/it]

626


 44%|██████████████████████████████████▉                                            | 632/1429 [28:17<29:54,  2.25s/it]

631


 45%|██████████████████████████████████▎                                          | 636/1429 [28:48<1:02:34,  4.73s/it]

635


 45%|██████████████████████████████████▊                                          | 646/1429 [29:31<1:04:17,  4.93s/it]

645


 47%|█████████████████████████████████████▍                                         | 677/1429 [30:30<24:33,  1.96s/it]

676


 48%|█████████████████████████████████████▊                                         | 684/1429 [31:00<36:52,  2.97s/it]

683


 48%|█████████████████████████████████████▊                                         | 685/1429 [31:07<42:47,  3.45s/it]

684


 48%|██████████████████████████████████████▏                                        | 691/1429 [31:25<40:44,  3.31s/it]

690


 49%|██████████████████████████████████████▊                                        | 703/1429 [32:07<48:00,  3.97s/it]

702


 49%|██████████████████████████████████████                                       | 706/1429 [32:36<1:16:10,  6.32s/it]

705


 51%|████████████████████████████████████████▍                                      | 732/1429 [33:18<15:46,  1.36s/it]

731


 51%|████████████████████████████████████████▌                                      | 733/1429 [33:23<18:20,  1.58s/it]

732


 52%|████████████████████████████████████████▋                                      | 737/1429 [33:42<27:59,  2.43s/it]

736


 54%|██████████████████████████████████████████▎                                    | 766/1429 [34:57<25:48,  2.34s/it]

765


 54%|██████████████████████████████████████████▍                                    | 768/1429 [35:02<26:10,  2.38s/it]

767


 54%|██████████████████████████████████████████▊                                    | 774/1429 [35:21<28:25,  2.60s/it]

773


 55%|███████████████████████████████████████████▎                                   | 783/1429 [36:02<43:01,  4.00s/it]

782


 55%|███████████████████████████████████████████▎                                   | 784/1429 [36:09<48:30,  4.51s/it]

783


 56%|████████████████████████████████████████████                                   | 796/1429 [36:28<25:51,  2.45s/it]

795


 56%|████████████████████████████████████████████▎                                  | 801/1429 [36:35<21:11,  2.03s/it]

800


 56%|████████████████████████████████████████████▎                                  | 802/1429 [36:41<25:33,  2.45s/it]

801


 56%|████████████████████████████████████████████▍                                  | 803/1429 [36:46<28:31,  2.73s/it]

802


 57%|█████████████████████████████████████████████                                  | 816/1429 [37:15<22:10,  2.17s/it]

815


 57%|█████████████████████████████████████████████▎                                 | 819/1429 [37:51<49:06,  4.83s/it]

818


 57%|████████████████████████████████████████████▏                                | 821/1429 [38:08<1:00:30,  5.97s/it]

820


 58%|█████████████████████████████████████████████▉                                 | 831/1429 [39:02<57:35,  5.78s/it]

830


 58%|█████████████████████████████████████████████▉                                 | 832/1429 [39:09<58:54,  5.92s/it]

831


 59%|██████████████████████████████████████████████▏                                | 836/1429 [39:15<35:19,  3.57s/it]

835


 59%|██████████████████████████████████████████████▎                                | 838/1429 [39:34<52:00,  5.28s/it]

837


 59%|██████████████████████████████████████████████▍                                | 839/1429 [39:39<52:12,  5.31s/it]

838


 59%|██████████████████████████████████████████████▍                                | 840/1429 [39:45<51:48,  5.28s/it]

839


 60%|███████████████████████████████████████████████▎                               | 856/1429 [40:41<28:27,  2.98s/it]

855


 61%|███████████████████████████████████████████████▉                               | 867/1429 [40:59<21:42,  2.32s/it]

866


 61%|████████████████████████████████████████████████▏                              | 871/1429 [41:06<19:40,  2.12s/it]

870


 61%|████████████████████████████████████████████████▎                              | 873/1429 [41:25<32:56,  3.55s/it]

872


 62%|█████████████████████████████████████████████████▎                             | 893/1429 [41:55<14:22,  1.61s/it]

892


 63%|█████████████████████████████████████████████████▍                             | 895/1429 [42:01<16:03,  1.80s/it]

894


 63%|█████████████████████████████████████████████████▌                             | 896/1429 [42:07<19:00,  2.14s/it]

895


 64%|██████████████████████████████████████████████████▌                            | 915/1429 [43:15<28:19,  3.31s/it]

914


 66%|████████████████████████████████████████████████████▎                          | 947/1429 [44:42<12:22,  1.54s/it]

946


 67%|█████████████████████████████████████████████████████▏                         | 962/1429 [45:27<17:09,  2.20s/it]

961


 68%|█████████████████████████████████████████████████████▌                         | 970/1429 [45:58<21:35,  2.82s/it]

969


 69%|██████████████████████████████████████████████████████▏                        | 981/1429 [46:27<19:38,  2.63s/it]

980


 69%|██████████████████████████████████████████████████████▎                        | 983/1429 [46:43<28:04,  3.78s/it]

982


 70%|██████████████████████████████████████████████████████▋                       | 1002/1429 [47:40<26:52,  3.78s/it]

1001


 70%|██████████████████████████████████████████████████████▋                       | 1003/1429 [47:45<28:18,  3.99s/it]

1002


 70%|██████████████████████████████████████████████████████▊                       | 1004/1429 [47:51<29:57,  4.23s/it]

1003


 71%|███████████████████████████████████████████████████████▋                      | 1021/1429 [48:32<18:41,  2.75s/it]

1020


 72%|████████████████████████████████████████████████████████▎                     | 1032/1429 [48:50<13:08,  1.99s/it]

1031


 72%|████████████████████████████████████████████████████████▍                     | 1033/1429 [48:57<15:43,  2.38s/it]

1032


 73%|████████████████████████████████████████████████████████▋                     | 1038/1429 [49:42<36:41,  5.63s/it]

1037


 73%|█████████████████████████████████████████████████████████                     | 1046/1429 [49:59<19:24,  3.04s/it]

1045


 76%|███████████████████████████████████████████████████████████                   | 1083/1429 [51:05<09:16,  1.61s/it]

1082


 76%|███████████████████████████████████████████████████████████▌                  | 1091/1429 [51:24<11:02,  1.96s/it]

1090


 77%|███████████████████████████████████████████████████████████▊                  | 1096/1429 [51:31<09:41,  1.75s/it]

1095


 77%|████████████████████████████████████████████████████████████▎                 | 1105/1429 [52:14<20:22,  3.77s/it]

1104


 78%|████████████████████████████████████████████████████████████▊                 | 1114/1429 [52:32<13:32,  2.58s/it]

1113


 79%|█████████████████████████████████████████████████████████████▏                | 1122/1429 [52:50<10:53,  2.13s/it]

1121


 79%|█████████████████████████████████████████████████████████████▍                | 1126/1429 [53:07<14:08,  2.80s/it]

1125


 79%|█████████████████████████████████████████████████████████████▌                | 1127/1429 [53:14<16:31,  3.28s/it]

1126


 79%|█████████████████████████████████████████████████████████████▌                | 1128/1429 [53:19<18:09,  3.62s/it]

1127


 80%|██████████████████████████████████████████████████████████████                | 1137/1429 [53:37<12:50,  2.64s/it]

1136


 80%|██████████████████████████████████████████████████████████████▊               | 1150/1429 [54:06<11:05,  2.39s/it]

1149


 81%|██████████████████████████████████████████████████████████████▊               | 1151/1429 [54:13<12:57,  2.80s/it]

1150


 81%|██████████████████████████████████████████████████████████████▉               | 1152/1429 [54:18<14:37,  3.17s/it]

1151


 81%|██████████████████████████████████████████████████████████████▉               | 1153/1429 [54:24<16:52,  3.67s/it]

1152


 81%|███████████████████████████████████████████████████████████████               | 1156/1429 [54:29<12:53,  2.83s/it]

1155


 82%|███████████████████████████████████████████████████████████████▉              | 1171/1429 [55:13<12:48,  2.98s/it]

1170


 82%|███████████████████████████████████████████████████████████████▉              | 1172/1429 [55:17<13:42,  3.20s/it]

1171


 82%|████████████████████████████████████████████████████████████████▏             | 1176/1429 [55:23<10:29,  2.49s/it]

1175


 82%|████████████████████████████████████████████████████████████████▏             | 1177/1429 [55:29<12:15,  2.92s/it]

1176


 83%|████████████████████████████████████████████████████████████████▊             | 1188/1429 [55:48<07:36,  1.89s/it]

1187


 83%|█████████████████████████████████████████████████████████████████             | 1191/1429 [55:53<07:19,  1.85s/it]

1190


 84%|█████████████████████████████████████████████████████████████████▎            | 1196/1429 [55:58<05:56,  1.53s/it]

1195


 84%|█████████████████████████████████████████████████████████████████▌            | 1201/1429 [56:18<08:35,  2.26s/it]

1200


 85%|█████████████████████████████████████████████████████████████████▉            | 1209/1429 [56:47<11:41,  3.19s/it]

1208


 85%|██████████████████████████████████████████████████████████████████▎           | 1214/1429 [56:52<08:00,  2.24s/it]

1213


 85%|██████████████████████████████████████████████████████████████████▎           | 1215/1429 [56:58<09:27,  2.65s/it]

1214


 86%|██████████████████████████████████████████████████████████████████▊           | 1225/1429 [57:16<06:58,  2.05s/it]

1224


 86%|███████████████████████████████████████████████████████████████████▏          | 1230/1429 [57:34<08:16,  2.50s/it]

1229


 86%|███████████████████████████████████████████████████████████████████▏          | 1231/1429 [57:40<09:45,  2.96s/it]

1230


 87%|███████████████████████████████████████████████████████████████████▌          | 1238/1429 [57:46<05:49,  1.83s/it]

1237


 87%|████████████████████████████████████████████████████████████████████          | 1248/1429 [58:03<04:51,  1.61s/it]

1247


 88%|████████████████████████████████████████████████████████████████████▍         | 1254/1429 [58:08<03:51,  1.32s/it]

1253


 88%|████████████████████████████████████████████████████████████████████▌         | 1256/1429 [58:14<04:32,  1.57s/it]

1255


 88%|████████████████████████████████████████████████████████████████████▊         | 1261/1429 [58:19<03:48,  1.36s/it]

1260


 89%|█████████████████████████████████████████████████████████████████████         | 1265/1429 [58:24<03:41,  1.35s/it]

1264


 89%|█████████████████████████████████████████████████████████████████████▎        | 1269/1429 [58:30<03:37,  1.36s/it]

1268


 89%|█████████████████████████████████████████████████████████████████████▍        | 1272/1429 [58:35<03:48,  1.45s/it]

1271


 89%|█████████████████████████████████████████████████████████████████████▍        | 1273/1429 [58:41<05:03,  1.95s/it]

1272


 89%|█████████████████████████████████████████████████████████████████████▋        | 1276/1429 [58:46<04:39,  1.83s/it]

1275


 89%|█████████████████████████████████████████████████████████████████████▋        | 1277/1429 [58:51<05:45,  2.27s/it]

1276


 89%|█████████████████████████████████████████████████████████████████████▊        | 1278/1429 [58:58<07:27,  2.97s/it]

1277


 93%|██████████████████████████████████████████████████████████████████████▍     | 1324/1429 [1:01:43<05:02,  2.88s/it]

1323


 93%|██████████████████████████████████████████████████████████████████████▋     | 1329/1429 [1:02:01<05:20,  3.21s/it]

1328


 94%|███████████████████████████████████████████████████████████████████████▊    | 1350/1429 [1:02:44<02:39,  2.02s/it]

1349


 95%|████████████████████████████████████████████████████████████████████████    | 1354/1429 [1:02:55<02:49,  2.25s/it]

1353


 96%|████████████████████████████████████████████████████████████████████████▊   | 1369/1429 [1:03:36<02:03,  2.06s/it]

1368


 96%|█████████████████████████████████████████████████████████████████████████   | 1373/1429 [1:03:41<01:43,  1.86s/it]

1372


 96%|█████████████████████████████████████████████████████████████████████████▏  | 1376/1429 [1:03:48<01:41,  1.91s/it]

1375


 96%|█████████████████████████████████████████████████████████████████████████▏  | 1377/1429 [1:03:54<02:02,  2.35s/it]

1376


 97%|██████████████████████████████████████████████████████████████████████████  | 1393/1429 [1:04:39<01:23,  2.32s/it]

1392


 98%|██████████████████████████████████████████████████████████████████████████▏ | 1395/1429 [1:04:58<02:04,  3.65s/it]

1394


 98%|██████████████████████████████████████████████████████████████████████████▏ | 1396/1429 [1:05:04<02:08,  3.89s/it]

1395


 98%|██████████████████████████████████████████████████████████████████████████▎ | 1397/1429 [1:05:10<02:17,  4.31s/it]

1396


 98%|██████████████████████████████████████████████████████████████████████████▌ | 1401/1429 [1:05:16<01:20,  2.86s/it]

1400


 98%|██████████████████████████████████████████████████████████████████████████▊ | 1406/1429 [1:05:22<00:48,  2.12s/it]

1405


 99%|███████████████████████████████████████████████████████████████████████████▍| 1419/1429 [1:05:40<00:16,  1.60s/it]

1418


 99%|███████████████████████████████████████████████████████████████████████████▌| 1420/1429 [1:05:46<00:17,  1.92s/it]

1419


100%|████████████████████████████████████████████████████████████████████████████| 1429/1429 [1:06:11<00:00,  2.78s/it]
  3%|██▋                                                                             | 49/1429 [00:06<03:07,  7.35it/s]

48


  8%|██████▍                                                                        | 117/1429 [01:15<12:19,  1.77it/s]

116


  9%|███████▍                                                                       | 135/1429 [01:57<31:58,  1.48s/it]

134


 10%|████████                                                                       | 146/1429 [02:16<31:19,  1.47s/it]

145


 11%|████████▉                                                                      | 162/1429 [02:35<29:46,  1.41s/it]

161


 14%|██████████▉                                                                    | 197/1429 [03:30<32:10,  1.57s/it]

196


 14%|██████████▉                                                                    | 198/1429 [03:35<37:18,  1.82s/it]

197


 14%|███████████                                                                    | 199/1429 [03:42<44:56,  2.19s/it]

198


 16%|████████████▍                                                                  | 225/1429 [03:47<14:06,  1.42it/s]

224


 17%|█████████████▎                                                                 | 240/1429 [03:54<11:57,  1.66it/s]

239


 17%|█████████████▌                                                                 | 245/1429 [04:01<14:07,  1.40it/s]

244


 18%|██████████████▍                                                                | 262/1429 [04:43<28:49,  1.48s/it]

261


 21%|████████████████▏                                                              | 293/1429 [05:24<23:09,  1.22s/it]

292


 21%|████████████████▎                                                              | 296/1429 [05:30<24:35,  1.30s/it]

295


 21%|████████████████▍                                                              | 297/1429 [05:35<29:37,  1.57s/it]

296


 21%|████████████████▍                                                              | 298/1429 [05:42<36:59,  1.96s/it]

297


 22%|█████████████████▍                                                             | 315/1429 [05:48<16:37,  1.12it/s]

314


 25%|███████████████████▊                                                           | 358/1429 [07:00<28:21,  1.59s/it]

357


 26%|████████████████████▌                                                          | 371/1429 [07:28<32:24,  1.84s/it]

370


 28%|█████████████████████▋                                                         | 393/1429 [08:12<29:17,  1.70s/it]

392


 28%|██████████████████████                                                         | 398/1429 [08:18<26:21,  1.53s/it]

397


 34%|██████████████████████████▋                                                    | 482/1429 [09:21<16:16,  1.03s/it]

481


 35%|███████████████████████████▎                                                   | 494/1429 [09:39<18:12,  1.17s/it]

493


 36%|████████████████████████████                                                   | 508/1429 [10:09<22:36,  1.47s/it]

507


 38%|█████████████████████████████▋                                                 | 537/1429 [10:15<09:23,  1.58it/s]

536


 40%|███████████████████████████████▏                                               | 565/1429 [10:45<10:52,  1.32it/s]

564


 44%|██████████████████████████████████▌                                            | 625/1429 [12:41<26:19,  1.96s/it]

624


 44%|██████████████████████████████████▌                                            | 626/1429 [12:47<30:29,  2.28s/it]

625


 44%|██████████████████████████████████▉                                            | 632/1429 [13:06<32:39,  2.46s/it]

631


 45%|███████████████████████████████████▏                                           | 636/1429 [13:12<28:00,  2.12s/it]

635


 47%|█████████████████████████████████████▍                                         | 677/1429 [13:28<07:26,  1.69it/s]

676


 48%|█████████████████████████████████████▊                                         | 684/1429 [13:34<07:44,  1.60it/s]

683


 48%|█████████████████████████████████████▊                                         | 685/1429 [13:40<10:19,  1.20it/s]

684


 48%|██████████████████████████████████████▏                                        | 691/1429 [13:45<10:09,  1.21it/s]

690


 51%|████████████████████████████████████████▍                                      | 732/1429 [14:21<08:13,  1.41it/s]

731


 51%|████████████████████████████████████████▌                                      | 733/1429 [14:26<09:54,  1.17it/s]

732


 52%|████████████████████████████████████████▋                                      | 737/1429 [14:31<10:42,  1.08it/s]

736


 54%|██████████████████████████████████████████▎                                    | 766/1429 [14:36<05:01,  2.20it/s]

765


 54%|██████████████████████████████████████████▊                                    | 774/1429 [14:54<09:03,  1.21it/s]

773


 55%|███████████████████████████████████████████▎                                   | 783/1429 [15:01<08:36,  1.25it/s]

782


 55%|███████████████████████████████████████████▎                                   | 784/1429 [15:05<10:23,  1.03it/s]

783


 56%|████████████████████████████████████████████▍                                  | 803/1429 [15:46<21:53,  2.10s/it]

802


 57%|█████████████████████████████████████████████▎                                 | 819/1429 [16:03<14:53,  1.46s/it]

818


 58%|█████████████████████████████████████████████▉                                 | 832/1429 [16:35<20:04,  2.02s/it]

831


 59%|██████████████████████████████████████████████▍                                | 839/1429 [17:05<31:32,  3.21s/it]

838


 60%|███████████████████████████████████████████████▎                               | 856/1429 [17:23<13:09,  1.38s/it]

855


 61%|███████████████████████████████████████████████▉                               | 867/1429 [17:28<09:25,  1.01s/it]

866


 61%|████████████████████████████████████████████████▏                              | 871/1429 [17:34<10:03,  1.08s/it]

870


 62%|█████████████████████████████████████████████████▎                             | 893/1429 [17:52<07:23,  1.21it/s]

892


 63%|█████████████████████████████████████████████████▍                             | 895/1429 [17:58<08:46,  1.01it/s]

894


 63%|█████████████████████████████████████████████████▌                             | 896/1429 [18:04<11:18,  1.27s/it]

895


 66%|████████████████████████████████████████████████████▎                          | 947/1429 [18:23<03:52,  2.08it/s]

946


 67%|█████████████████████████████████████████████████████▏                         | 962/1429 [18:28<03:31,  2.20it/s]

961


 68%|█████████████████████████████████████████████████████▌                         | 970/1429 [18:34<03:44,  2.04it/s]

969


 69%|██████████████████████████████████████████████████████▎                        | 983/1429 [18:52<06:01,  1.23it/s]

982


 70%|██████████████████████████████████████████████████████▋                       | 1002/1429 [18:58<04:07,  1.73it/s]

1001


 71%|███████████████████████████████████████████████████████▋                      | 1021/1429 [19:27<05:47,  1.17it/s]

1020


 73%|█████████████████████████████████████████████████████████                     | 1046/1429 [20:11<08:43,  1.37s/it]

1045


 77%|████████████████████████████████████████████████████████████▎                 | 1105/1429 [20:51<04:48,  1.12it/s]

1104


 79%|█████████████████████████████████████████████████████████████▌                | 1127/1429 [21:34<08:30,  1.69s/it]

1126


 80%|██████████████████████████████████████████████████████████████                | 1137/1429 [21:54<08:05,  1.66s/it]

1136


 81%|██████████████████████████████████████████████████████████████▊               | 1151/1429 [22:12<07:04,  1.53s/it]

1150


 81%|██████████████████████████████████████████████████████████████▉               | 1153/1429 [22:30<12:08,  2.64s/it]

1152


 81%|███████████████████████████████████████████████████████████████               | 1156/1429 [22:36<11:03,  2.43s/it]

1155


 82%|███████████████████████████████████████████████████████████████▉              | 1171/1429 [22:41<04:32,  1.06s/it]

1170


 82%|███████████████████████████████████████████████████████████████▉              | 1172/1429 [22:46<05:27,  1.27s/it]

1171


 83%|█████████████████████████████████████████████████████████████████             | 1191/1429 [23:30<07:23,  1.86s/it]

1190


 84%|█████████████████████████████████████████████████████████████████▎            | 1196/1429 [23:35<06:15,  1.61s/it]

1195


 85%|█████████████████████████████████████████████████████████████████▉            | 1209/1429 [23:52<04:52,  1.33s/it]

1208


 85%|██████████████████████████████████████████████████████████████████▎           | 1214/1429 [23:58<04:46,  1.33s/it]

1213


 87%|████████████████████████████████████████████████████████████████████          | 1248/1429 [25:04<04:25,  1.47s/it]

1247


 88%|████████████████████████████████████████████████████████████████████▍         | 1254/1429 [25:09<03:48,  1.30s/it]

1253


 89%|█████████████████████████████████████████████████████████████████████▍        | 1273/1429 [26:13<07:44,  2.98s/it]

1272


 89%|█████████████████████████████████████████████████████████████████████▋        | 1277/1429 [26:32<09:20,  3.69s/it]

1276


 93%|████████████████████████████████████████████████████████████████████████▎     | 1324/1429 [26:51<01:02,  1.69it/s]

1323


 94%|█████████████████████████████████████████████████████████████████████████▋    | 1350/1429 [27:11<00:49,  1.59it/s]

1349


 96%|███████████████████████████████████████████████████████████████████████████   | 1376/1429 [27:55<01:05,  1.24s/it]

1375


 98%|████████████████████████████████████████████████████████████████████████████▏ | 1396/1429 [28:37<01:03,  1.91s/it]

1395


 98%|████████████████████████████████████████████████████████████████████████████▎ | 1397/1429 [28:42<01:09,  2.18s/it]

1396


 98%|████████████████████████████████████████████████████████████████████████████▋ | 1406/1429 [29:00<00:45,  1.97s/it]

1405


 99%|█████████████████████████████████████████████████████████████████████████████▍| 1419/1429 [29:05<00:10,  1.09s/it]

1418


100%|██████████████████████████████████████████████████████████████████████████████| 1429/1429 [29:17<00:00,  1.23s/it]
  3%|██▋                                                                             | 49/1429 [00:06<02:56,  7.83it/s]

48


  8%|██████▍                                                                        | 117/1429 [00:11<02:07, 10.30it/s]

116


 14%|██████████▉                                                                    | 197/1429 [00:54<06:51,  2.99it/s]

196


 14%|██████████▉                                                                    | 198/1429 [01:01<09:01,  2.28it/s]

197


 16%|████████████▍                                                                  | 225/1429 [01:20<10:11,  1.97it/s]

224


 18%|██████████████▍                                                                | 262/1429 [01:51<12:37,  1.54it/s]

261


 22%|█████████████████▍                                                             | 315/1429 [02:44<17:23,  1.07it/s]

314


 25%|███████████████████▊                                                           | 358/1429 [02:50<07:37,  2.34it/s]

357


 26%|████████████████████▌                                                          | 371/1429 [02:55<07:23,  2.39it/s]

370


 28%|█████████████████████▋                                                         | 393/1429 [03:01<06:33,  2.63it/s]

392


 28%|██████████████████████                                                         | 398/1429 [03:07<07:40,  2.24it/s]

397


 38%|█████████████████████████████▋                                                 | 537/1429 [03:55<05:50,  2.55it/s]

536


 40%|███████████████████████████████▏                                               | 565/1429 [04:00<04:42,  3.06it/s]

564


 47%|█████████████████████████████████████▍                                         | 677/1429 [04:54<05:10,  2.42it/s]

676


 48%|█████████████████████████████████████▊                                         | 685/1429 [05:12<08:32,  1.45it/s]

684


 51%|████████████████████████████████████████▍                                      | 732/1429 [05:30<05:05,  2.28it/s]

731


 52%|████████████████████████████████████████▋                                      | 737/1429 [05:48<08:47,  1.31it/s]

736


 54%|██████████████████████████████████████████▎                                    | 766/1429 [05:54<05:14,  2.11it/s]

765


 54%|██████████████████████████████████████████▊                                    | 774/1429 [06:00<05:36,  1.95it/s]

773


 55%|███████████████████████████████████████████▎                                   | 784/1429 [06:18<09:25,  1.14it/s]

783


 58%|█████████████████████████████████████████████▉                                 | 832/1429 [06:53<07:17,  1.36it/s]

831


 59%|██████████████████████████████████████████████▍                                | 839/1429 [07:00<07:32,  1.30it/s]

838


 61%|████████████████████████████████████████████████▏                              | 871/1429 [07:29<08:27,  1.10it/s]

870


 62%|█████████████████████████████████████████████████▎                             | 893/1429 [07:35<05:21,  1.67it/s]

892


 63%|█████████████████████████████████████████████████▍                             | 895/1429 [07:40<06:21,  1.40it/s]

894


 66%|████████████████████████████████████████████████████▎                          | 947/1429 [07:56<02:53,  2.78it/s]

946


 69%|██████████████████████████████████████████████████████▎                        | 983/1429 [08:27<04:20,  1.71it/s]

982


 73%|█████████████████████████████████████████████████████████                     | 1046/1429 [08:57<02:58,  2.15it/s]

1045


 77%|████████████████████████████████████████████████████████████▎                 | 1105/1429 [09:04<01:25,  3.79it/s]

1104


 79%|█████████████████████████████████████████████████████████████▌                | 1127/1429 [09:10<01:19,  3.80it/s]

1126


 81%|██████████████████████████████████████████████████████████████▉               | 1153/1429 [09:40<02:44,  1.67it/s]

1152


 84%|█████████████████████████████████████████████████████████████████▎            | 1196/1429 [10:34<03:46,  1.03it/s]

1195


 87%|████████████████████████████████████████████████████████████████████          | 1248/1429 [11:03<01:39,  1.81it/s]

1247


 88%|████████████████████████████████████████████████████████████████████▍         | 1254/1429 [11:12<01:59,  1.46it/s]

1253


 89%|█████████████████████████████████████████████████████████████████████▍        | 1273/1429 [11:18<01:22,  1.88it/s]

1272


 94%|█████████████████████████████████████████████████████████████████████████▋    | 1350/1429 [11:50<00:31,  2.49it/s]

1349


 98%|████████████████████████████████████████████████████████████████████████████▏ | 1396/1429 [12:09<00:13,  2.51it/s]

1395


100%|██████████████████████████████████████████████████████████████████████████████| 1429/1429 [12:45<00:00,  1.87it/s]
  3%|██▋                                                                             | 49/1429 [00:06<03:08,  7.34it/s]

48


 14%|██████████▉                                                                    | 197/1429 [00:23<02:12,  9.27it/s]

196


 16%|████████████▍                                                                  | 225/1429 [00:40<04:23,  4.58it/s]

224


 18%|██████████████▍                                                                | 262/1429 [00:47<03:56,  4.94it/s]

261


 22%|█████████████████▍                                                             | 315/1429 [00:53<03:12,  5.80it/s]

314


 28%|██████████████████████                                                         | 398/1429 [01:36<07:14,  2.37it/s]

397


 52%|████████████████████████████████████████▋                                      | 737/1429 [02:40<03:03,  3.77it/s]

736


 59%|██████████████████████████████████████████████▍                                | 839/1429 [03:33<04:13,  2.33it/s]

838


 61%|████████████████████████████████████████████████▏                              | 871/1429 [03:38<03:04,  3.03it/s]

870


 62%|█████████████████████████████████████████████████▎                             | 893/1429 [03:44<02:44,  3.25it/s]

892


 63%|█████████████████████████████████████████████████▍                             | 895/1429 [03:49<03:28,  2.56it/s]

894


 66%|████████████████████████████████████████████████████▎                          | 947/1429 [03:54<01:48,  4.44it/s]

946


 73%|█████████████████████████████████████████████████████████                     | 1046/1429 [04:12<01:11,  5.39it/s]

1045


 79%|█████████████████████████████████████████████████████████████▌                | 1127/1429 [04:30<01:00,  4.95it/s]

1126


 81%|██████████████████████████████████████████████████████████████▉               | 1153/1429 [04:36<00:56,  4.86it/s]

1152


 87%|████████████████████████████████████████████████████████████████████          | 1248/1429 [04:54<00:34,  5.19it/s]

1247


 89%|█████████████████████████████████████████████████████████████████████▍        | 1273/1429 [05:12<00:47,  3.31it/s]

1272


100%|██████████████████████████████████████████████████████████████████████████████| 1429/1429 [05:32<00:00,  4.30it/s]


1395


 16%|████████████▍                                                                  | 225/1429 [00:32<02:45,  7.26it/s]

224


 18%|██████████████▍                                                                | 262/1429 [00:38<02:51,  6.81it/s]

261


 22%|█████████████████▍                                                             | 315/1429 [00:43<02:21,  7.88it/s]

314


 52%|████████████████████████████████████████▋                                      | 737/1429 [01:02<00:36, 19.13it/s]

736


 59%|██████████████████████████████████████████████▍                                | 839/1429 [01:07<00:30, 19.08it/s]

838


 61%|████████████████████████████████████████████████▏                              | 871/1429 [01:14<00:37, 14.92it/s]

870


 63%|█████████████████████████████████████████████████▍                             | 895/1429 [01:32<01:15,  7.03it/s]

894


 73%|█████████████████████████████████████████████████████████                     | 1046/1429 [01:50<00:46,  8.31it/s]

1045


 87%|████████████████████████████████████████████████████████████████████          | 1248/1429 [02:21<00:23,  7.71it/s]

1247


100%|██████████████████████████████████████████████████████████████████████████████| 1429/1429 [02:46<00:00,  8.61it/s]
 16%|████████████▍                                                                  | 225/1429 [00:06<00:33, 36.07it/s]

224


 22%|█████████████████▍                                                             | 315/1429 [00:23<01:39, 11.16it/s]

314


 61%|████████████████████████████████████████████████▏                              | 871/1429 [00:52<00:38, 14.59it/s]

870


 73%|█████████████████████████████████████████████████████████                     | 1046/1429 [01:12<00:30, 12.36it/s]

1045


100%|██████████████████████████████████████████████████████████████████████████████| 1429/1429 [01:17<00:00, 18.45it/s]


1247


 16%|████████████▍                                                                  | 225/1429 [00:06<00:36, 32.68it/s]

224


 22%|█████████████████▍                                                             | 315/1429 [00:12<00:48, 22.80it/s]

314


 61%|████████████████████████████████████████████████▏                              | 871/1429 [00:18<00:10, 53.93it/s]

870


100%|██████████████████████████████████████████████████████████████████████████████| 1429/1429 [00:35<00:00, 40.15it/s]


1247


 16%|████████████▍                                                                  | 225/1429 [00:04<00:25, 46.44it/s]

224


100%|██████████████████████████████████████████████████████████████████████████████| 1429/1429 [00:34<00:00, 41.74it/s]


1247


100%|██████████████████████████████████████████████████████████████████████████████| 1429/1429 [00:24<00:00, 58.26it/s]

1.0





In [466]:
while 1 - len([x for x in all_houses_list_dicts if x=={}]) / len(all_prices_list) < 1:
    data_skips_indices = []
    for i in tqdm(range(len(all_houses_list_dicts))):
        if all_houses_list_dicts[i]=={}:
            driver.quit()
            driver = get_random_useragent_driver()
            driver.get(house_cards_links[i])
            sleep(np.random.randint(2))
            driver.refresh()
            try:
                info_tables_texts = driver.find_elements(By.CSS_SELECTOR, "tr[data-name=OfferSummaryInfoItem]")
                house_features_raw = [x.text for x in info_tables_texts]
                house_features_medium = []
                for f in house_features_raw:
                    if "Площадь" in f:
                        if " м" in f:
                            f_medium = ("Площадь дома", f.split("\n")[1])
                            house_features_medium.append(f_medium)
                        else:
                            f_medium = ("Площадь участка", f.split("\n")[1])
                            house_features_medium.append(f_medium)
                    elif "Есть" in f:
                        f_medium = (f.split("\n")[0], 1)
                        house_features_medium.append(f_medium)
                    elif "Дополнительно" in f:
                        bonus_features = [(x, 1) for x in f.split("\n")[1].split()]
                        house_features_medium.extend(bonus_features)
                    else:
                        house_features_medium.append(tuple(f.split("\n")))
                
                house_features_dict = dict(house_features_medium)
                all_houses_list_dicts[i] = house_features_dict
            except:
                print(i)
                continue
print(1 - len([x for x in all_houses_list_dicts if x=={}]) / len(all_prices_list))

100%|██████████████████████████████████████████████████████████████████████████████| 1429/1429 [19:55<00:00,  1.19it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 1429/1429 [12:16<00:00,  1.94it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 1429/1429 [08:11<00:00,  2.91it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 1429/1429 [04:40<00:00,  5.10it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 1429/1429 [02:33<00:00,  9.33it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 1429/1429 [02:05<00:00, 11.41it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 1429/1429 [01:14<00:00, 19.19it/s]
100%|██████████████████████████████████████████████████████████████████████████████| 1429/1429 [00:52<00:00, 27.13it/s]
100%|███████████████████████████████████

1.0





In [467]:
all_houses_list_dicts

[{'Площадь дома': '115 м²',
  'Количество этажей': '3',
  'Площадь участка': '6 сот.',
  'Водоснабжение': 1,
  'Электричество': 1},
 {'Площадь дома': '280 м²',
  'Материал дома': 'Монолитный',
  'Состояние дома': 'Можно жить',
  'Количество этажей': '2',
  'Количество спален': '4',
  'Площадь участка': '10 сот.',
  'Категория земель': 'Земли населённых пунктов',
  'Статус участка': 'Индивидуальное жилищное строительство',
  'Санузел': 'В доме',
  'Канализация': 'Центральная',
  'Водоснабжение': 'Центральное',
  'Отопление': 'Центральное газовое',
  'Электричество': 1,
  'Газ': 'Магистральный в доме или на участке',
  'Погреб': 1,
  'Терраса': 1,
  'Гараж': 1,
  'Баня': 1,
  'Охрана': 1,
  'Бассейн': 1},
 {'Площадь дома': '180 м²',
  'Материал дома': 'Газобетонный блок',
  'Количество этажей': '2',
  'Количество спален': '3',
  'Площадь участка': '6 сот.',
  'Категория земель': 'Земли населённых пунктов',
  'Статус участка': 'Индивидуальное жилищное строительство',
  'Санузел': 'В доме'

# Basic data cleaning

#### 1) transforming some fake categoricals to numeric data

In [468]:
houses = all_houses_list_dicts.copy()
for h in houses:
    try:
        h['Площадь дома'] = h['Площадь дома'][:-3] if ("м" in h['Площадь дома']) else h['Площадь дома']
        h['Площадь дома'] = float(h['Площадь дома'].replace(',', '.')) if ',' in h['Площадь дома'] else h['Площадь дома']
    except:
        pass
    try:
        h['Площадь участка'] = h['Площадь участка'][:-5] if ("сот" in h['Площадь участка']) else h['Площадь участка']
        h['Площадь участка'] = h['Площадь участка'][:-3]+"00" if ("га" in h['Площадь участка']) else h['Площадь участка']
        h['Площадь участка'] = float(h['Площадь участка'].replace(',', '.')) if ',' in h['Площадь участка'] else h['Площадь участка']
    except: pass
    try: 
        h['Количество этажей'] = int(h['Количество этажей']) 
    except: pass
    try: 
        h['Количество спален'] = int(h['Количество спален']) 
    except: pass

#### 2) filling some obvious nans

In [470]:
import pandas as pd
df = pd.DataFrame(houses)

In [471]:
df['Водоснабжение'] = df['Водоснабжение'].replace({1: 'Есть', np.nan: 'Нет'})
df['Электричество'] = df['Электричество'].replace({1: 'Есть', np.nan: 'Нет'})
df['Санузел'] = df['Санузел'].replace({1: 'Есть', np.nan: 'Не указано'})
df['Канализация'] = df['Канализация'].replace({1: 'Есть', np.nan: 'Нет'})
df['Газ'] = df['Газ'].replace({1: 'Есть', np.nan: 'Нет'})
df['Отопление'] = df['Отопление'].replace({1: 'Есть', np.nan: 'Нет'})
df['Материал дома'] = df['Материал дома'].replace({np.nan: 'Другой'})
df['Состояние дома'] = df['Состояние дома'].replace({np.nan: 'Не указано'})
df['Категория земель'] = df['Категория земель'].replace({np.nan: 'Не указано'})
df['Статус участка'] = df['Статус участка'].replace({np.nan: 'Не указано'})
df['Погреб'] = df['Погреб'].fillna(0)
df['Терраса'] = df['Терраса'].fillna(0)
df['Гараж'] = df['Гараж'].fillna(0)
df['Баня'] = df['Баня'].fillna(0)
df['Охрана'] = df['Охрана'].fillna(0)
df['Бассейн'] = df['Бассейн'].fillna(0)
df['Площадь дома'] = df['Площадь дома'].astype(np.float64)
df['Площадь участка'] = df['Площадь участка'].astype(np.float64)
df['Год постройки'] = df['Год постройки'].astype(np.float64)
df['Класс'] = df['Класс'].replace({np.nan: 'Другой'})
df = df.drop(df.columns[-2:], axis=1)
print(df.columns.values)
df.head()

['Площадь дома' 'Количество этажей' 'Площадь участка' 'Водоснабжение'
 'Электричество' 'Материал дома' 'Состояние дома' 'Количество спален'
 'Категория земель' 'Статус участка' 'Санузел' 'Канализация' 'Отопление'
 'Газ' 'Погреб' 'Терраса' 'Гараж' 'Баня' 'Охрана' 'Бассейн'
 'Год постройки' 'Класс']


Unnamed: 0,Площадь дома,Количество этажей,Площадь участка,Водоснабжение,Электричество,Материал дома,Состояние дома,Количество спален,Категория земель,Статус участка,...,Отопление,Газ,Погреб,Терраса,Гараж,Баня,Охрана,Бассейн,Год постройки,Класс
0,115.0,3.0,6.0,Есть,Есть,Другой,Не указано,,Не указано,Не указано,...,Нет,Нет,0.0,0.0,0.0,0.0,0.0,0.0,,Другой
1,280.0,2.0,10.0,Центральное,Есть,Монолитный,Можно жить,4.0,Земли населённых пунктов,Индивидуальное жилищное строительство,...,Центральное газовое,Магистральный в доме или на участке,1.0,1.0,1.0,1.0,1.0,1.0,,Другой
2,180.0,2.0,6.0,Центральное,Есть,Газобетонный блок,Не указано,3.0,Земли населённых пунктов,Индивидуальное жилищное строительство,...,Центральное газовое,Магистральный в доме или на участке,0.0,1.0,1.0,1.0,1.0,1.0,,Другой
3,400.0,3.0,25.0,Центральное,Есть,Монолитный,Можно жить,4.0,Земли населённых пунктов,Индивидуальное жилищное строительство,...,Центральное газовое,Магистральный в доме или на участке,1.0,1.0,1.0,1.0,1.0,1.0,2015.0,Другой
4,360.0,2.0,4.17,Нет,Нет,Другой,Не указано,,Не указано,Не указано,...,Нет,Нет,0.0,0.0,0.0,0.0,0.0,0.0,,Элитный


In [473]:
prices = [int("".join(x[:-1].split())) for x in all_prices_list]
df["Цена"] = pd.Series(prices, dtype=np.float64)
df.describe()

Unnamed: 0,Площадь дома,Количество этажей,Площадь участка,Количество спален,Погреб,Терраса,Гараж,Баня,Охрана,Бассейн,Год постройки,Цена
count,1429.0,1336.0,1429.0,1008.0,1429.0,1429.0,1429.0,1429.0,1429.0,1429.0,629.0,1429.0
mean,289.958852,2.266467,9.791763,4.425595,0.324003,0.498251,0.649405,0.582225,0.580126,0.648705,2019.251192,40699800.0
std,157.104372,0.66768,20.497242,1.488926,0.468165,0.500172,0.477323,0.493365,0.493711,0.477542,5.46796,60899180.0
min,30.8,1.0,0.3,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1950.0,3800000.0
25%,200.0,2.0,5.3,4.0,0.0,0.0,0.0,0.0,0.0,0.0,2019.0,21500000.0
50%,254.0,2.0,8.0,4.0,0.0,0.0,1.0,1.0,1.0,1.0,2020.0,29000000.0
75%,350.0,3.0,10.0,5.0,1.0,1.0,1.0,1.0,1.0,1.0,2022.0,38000000.0
max,1500.0,16.0,677.0,20.0,1.0,1.0,1.0,1.0,1.0,1.0,2024.0,1500000000.0


In [474]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1429 entries, 0 to 1428
Data columns (total 23 columns):
 #   Column             Non-Null Count  Dtype  
---  ------             --------------  -----  
 0   Площадь дома       1429 non-null   float64
 1   Количество этажей  1336 non-null   float64
 2   Площадь участка    1429 non-null   float64
 3   Водоснабжение      1429 non-null   object 
 4   Электричество      1429 non-null   object 
 5   Материал дома      1429 non-null   object 
 6   Состояние дома     1429 non-null   object 
 7   Количество спален  1008 non-null   float64
 8   Категория земель   1429 non-null   object 
 9   Статус участка     1429 non-null   object 
 10  Санузел            1429 non-null   object 
 11  Канализация        1429 non-null   object 
 12  Отопление          1429 non-null   object 
 13  Газ                1429 non-null   object 
 14  Погреб             1429 non-null   float64
 15  Терраса            1429 non-null   float64
 16  Гараж              1429 

In [475]:
categorical_columns = df.select_dtypes(include=['object'])
unique_values = {column: categorical_columns[column].unique() for column in categorical_columns.columns}

for column, values in unique_values.items():
    print(f"{column}: {values}")

Водоснабжение: ['Есть' 'Центральное' 'Нет' 'Скважина']
Электричество: ['Есть' 'Нет']
Материал дома: ['Другой' 'Монолитный' 'Газобетонный блок' 'Блочный' 'Кирпичный'
 'Каркасный' 'Деревянный' 'Пенобетонный блок' 'Газосиликатный блок'
 'Монолитно-кирпичный']
Состояние дома: ['Не указано' 'Можно жить' 'Нужен ремонт' 'Нужно достроить']
Категория земель: ['Не указано' 'Земли населённых пунктов' 'Другое'
 'Земли сельхозназначения']
Статус участка: ['Не указано' 'Индивидуальное жилищное строительство' 'Садоводство'
 'Личное подсобное хозяйство' 'Участок поселений']
Санузел: ['Не указано' 'В доме' '1 в доме' '3 в доме' '2 в доме' '6 в доме'
 '1 на улице' '4 в доме' '5 в доме' '3 на улице' '8 в доме' 'На улице'
 '7 в доме' '10 в доме' '2 на улице' '9 в доме']
Канализация: ['Нет' 'Центральная' 'Есть' 'Септик']
Отопление: ['Нет' 'Центральное газовое' 'Автономное газовое' 'Электрическое' 'Камин'
 'Дизельное' 'Печь' 'Автономное' 'Твердотопливный котел'
 'Центральное угольное']
Газ: ['Нет' 'Магистра

#### 3) translating into English

In [476]:
df_eng = pd.DataFrame()
df_eng['House area'] = df["Площадь дома"]
df_eng['Storeys'] = df["Количество этажей"]
df_eng['Yard Area'] = df["Площадь участка"]
df_eng['Water supply'] = df["Водоснабжение"]
df_eng['Electricity']  = df["Электричество"]
df_eng['House Material'] = df["Материал дома"]
df_eng['House Condition'] = df["Состояние дома"]
df_eng['Number of Bedrooms'] = df["Количество спален"]
df_eng['Land Category'] = df["Категория земель"]
df_eng['Ground Status'] = df["Статус участка"]
df_eng['Bathroom'] = df["Санузел"]
df_eng['Sewerage'] = df["Канализация"]
df_eng['Heating'] = df["Отопление"]
df_eng['Gas'] = df["Газ"]
df_eng['Cellar'] = df["Погреб"]
df_eng['Terrace'] = df["Терраса"]
df_eng['Garage'] = df["Гараж"]
df_eng['Bath'] = df["Баня"]
df_eng['Security'] = df["Охрана"]
df_eng['Swimming pool'] = df["Бассейн"]
df_eng['Year Built'] = df["Год постройки"]
df_eng['Class'] = df["Класс"]
df_eng['Price'] = df["Цена"]
df_eng

Unnamed: 0,House area,Storeys,Yard Area,Water supply,Electricity,House Material,House Condition,Number of Bedrooms,Land Category,Ground Status,...,Gas,Cellar,Terrace,Garage,Bath,Security,Swimming pool,Year Built,Class,Price
0,115.0,3.0,6.00,Есть,Есть,Другой,Не указано,,Не указано,Не указано,...,Нет,0.0,0.0,0.0,0.0,0.0,0.0,,Другой,3800000.0
1,280.0,2.0,10.00,Центральное,Есть,Монолитный,Можно жить,4.0,Земли населённых пунктов,Индивидуальное жилищное строительство,...,Магистральный в доме или на участке,1.0,1.0,1.0,1.0,1.0,1.0,,Другой,25000000.0
2,180.0,2.0,6.00,Центральное,Есть,Газобетонный блок,Не указано,3.0,Земли населённых пунктов,Индивидуальное жилищное строительство,...,Магистральный в доме или на участке,0.0,1.0,1.0,1.0,1.0,1.0,,Другой,27500000.0
3,400.0,3.0,25.00,Центральное,Есть,Монолитный,Можно жить,4.0,Земли населённых пунктов,Индивидуальное жилищное строительство,...,Магистральный в доме или на участке,1.0,1.0,1.0,1.0,1.0,1.0,2015.0,Другой,37000000.0
4,360.0,2.0,4.17,Нет,Нет,Другой,Не указано,,Не указано,Не указано,...,Нет,0.0,0.0,0.0,0.0,0.0,0.0,,Элитный,85000000.0
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
1424,285.0,3.0,5.00,Центральное,Есть,Монолитный,Можно жить,4.0,Земли населённых пунктов,Индивидуальное жилищное строительство,...,Магистральный в доме или на участке,0.0,1.0,1.0,1.0,1.0,1.0,2020.0,Другой,35000000.0
1425,260.0,2.0,8.00,Центральное,Есть,Монолитный,Можно жить,4.0,Земли населённых пунктов,Индивидуальное жилищное строительство,...,Магистральный в доме или на участке,0.0,1.0,1.0,1.0,1.0,1.0,,Другой,33000000.0
1426,180.0,,4.00,Есть,Есть,Другой,Не указано,,Не указано,Не указано,...,Есть,0.0,0.0,0.0,0.0,0.0,0.0,,Другой,23000000.0
1427,149.0,2.0,8.00,Центральное,Есть,Монолитный,Можно жить,3.0,Земли населённых пунктов,Индивидуальное жилищное строительство,...,Магистральный в доме или на участке,1.0,1.0,1.0,1.0,1.0,1.0,,Другой,20000000.0


In [477]:
translation_dict = {
    'Есть': 'Yes',
    'Нет': 'No',
    'Центральное': 'Central',
    'Скважина': 'Well',
    'Другой': 'Other',
    'Монолитный': 'Monolithic',
    'Газобетонный блок': 'Gas concrete block',
    'Блочный': 'Block',
    'Кирпичный': 'Brick',
    'Не указано': 'Not specified',
    'Можно жить': 'Can live',
    'Нужен ремонт': 'Needs repairs',
    'Нужно достроить': 'Needs to be completed',
    'Земли населённых пунктов': 'Lands of populated areas',
    'Другое': 'Other',
    'Индивидуальное жилищное строительство': 'Individual housing construction',
    'Садоводство': 'Gardening',
    'Личное подсобное хозяйство': 'Personal subsidiary economy',
    'Участок поселений': 'Settlement plot',
    'В доме': 'In the house',
    'Центральная': 'Central',
    'Септик': 'Septic',
    'Центральное газовое': 'Central gas',
    'Автономное газовое': 'Autonomous gas',
    'Электрическое': 'Electric',
    'Магистральный в доме или на участке': 'Mainline in the house or on the plot',
    'Магистральный по границе': 'Magistralny along the border',
    'Газгольдер': 'Gasholder',
    'Каркасный': 'Frame',
    'Деревянный': 'Wood', 
    'Пенобетонный блок': 'Foam concrete block',
    'Газосиликатный блок': 'Gasosilicate block',
    'Монолитно-кирпичный': 'Monolithic brick',
    'Земли сельхозназначения': 'Agricultural',
    '1 в доме': '1 at home',
    '3 в доме': '3 at home',
    '2 в доме': '2 at home',
    '6 в доме': '6 at home',
    '1 на улице': '1 in yard',
    '4 в доме': '4 at home',
    '5 в доме': '5 at home',
    '3 на улице': '3 in yard',
    '8 в доме': '8 at home',
    'На улице': 'in yard',
    '7 в доме': '7 at home',
    '10 в доме': '10 at home',
    '2 на улице': '2 in yard',
    '9 в доме': '9 at home',
    'Камин': 'Fireplace',
    'Дизельное': 'Diesel',
    'Печь': 'Oven',
    'Автономное': 'Standalone',
    'Твердотопливный котел': 'Solid fuel boiler',
    'Центральное угольное': 'Central coal',
    'Класс': 'Class',
    'Элитный': 'Elite',
    'Комфорт': 'Comfort',
    'Эконом': 'Economy',
    'Бизнес': 'Business'
}

def translate(value):
    return translation_dict.get(value, value)

df_eng = df_eng.applymap(translate)

df_eng.head()

  df_eng = df_eng.applymap(translate)


Unnamed: 0,House area,Storeys,Yard Area,Water supply,Electricity,House Material,House Condition,Number of Bedrooms,Land Category,Ground Status,...,Gas,Cellar,Terrace,Garage,Bath,Security,Swimming pool,Year Built,Class,Price
0,115.0,3.0,6.0,Yes,Yes,Other,Not specified,,Not specified,Not specified,...,No,0.0,0.0,0.0,0.0,0.0,0.0,,Other,3800000.0
1,280.0,2.0,10.0,Central,Yes,Monolithic,Can live,4.0,Lands of populated areas,Individual housing construction,...,Mainline in the house or on the plot,1.0,1.0,1.0,1.0,1.0,1.0,,Other,25000000.0
2,180.0,2.0,6.0,Central,Yes,Gas concrete block,Not specified,3.0,Lands of populated areas,Individual housing construction,...,Mainline in the house or on the plot,0.0,1.0,1.0,1.0,1.0,1.0,,Other,27500000.0
3,400.0,3.0,25.0,Central,Yes,Monolithic,Can live,4.0,Lands of populated areas,Individual housing construction,...,Mainline in the house or on the plot,1.0,1.0,1.0,1.0,1.0,1.0,2015.0,Other,37000000.0
4,360.0,2.0,4.17,No,No,Other,Not specified,,Not specified,Not specified,...,No,0.0,0.0,0.0,0.0,0.0,0.0,,Elite,85000000.0


In [478]:
df_eng.describe()

Unnamed: 0,House area,Storeys,Yard Area,Number of Bedrooms,Cellar,Terrace,Garage,Bath,Security,Swimming pool,Year Built,Price
count,1429.0,1336.0,1429.0,1008.0,1429.0,1429.0,1429.0,1429.0,1429.0,1429.0,629.0,1429.0
mean,289.958852,2.266467,9.791763,4.425595,0.324003,0.498251,0.649405,0.582225,0.580126,0.648705,2019.251192,40699800.0
std,157.104372,0.66768,20.497242,1.488926,0.468165,0.500172,0.477323,0.493365,0.493711,0.477542,5.46796,60899180.0
min,30.8,1.0,0.3,1.0,0.0,0.0,0.0,0.0,0.0,0.0,1950.0,3800000.0
25%,200.0,2.0,5.3,4.0,0.0,0.0,0.0,0.0,0.0,0.0,2019.0,21500000.0
50%,254.0,2.0,8.0,4.0,0.0,0.0,1.0,1.0,1.0,1.0,2020.0,29000000.0
75%,350.0,3.0,10.0,5.0,1.0,1.0,1.0,1.0,1.0,1.0,2022.0,38000000.0
max,1500.0,16.0,677.0,20.0,1.0,1.0,1.0,1.0,1.0,1.0,2024.0,1500000000.0


In [479]:
df_eng.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 1429 entries, 0 to 1428
Data columns (total 23 columns):
 #   Column              Non-Null Count  Dtype  
---  ------              --------------  -----  
 0   House area          1429 non-null   float64
 1   Storeys             1336 non-null   float64
 2   Yard Area           1429 non-null   float64
 3   Water supply        1429 non-null   object 
 4   Electricity         1429 non-null   object 
 5   House Material      1429 non-null   object 
 6   House Condition     1429 non-null   object 
 7   Number of Bedrooms  1008 non-null   float64
 8   Land Category       1429 non-null   object 
 9   Ground Status       1429 non-null   object 
 10  Bathroom            1429 non-null   object 
 11  Sewerage            1429 non-null   object 
 12  Heating             1429 non-null   object 
 13  Gas                 1429 non-null   object 
 14  Cellar              1429 non-null   float64
 15  Terrace             1429 non-null   float64
 16  Garage

In [480]:
categorical_columns = df_eng.select_dtypes(include=['object'])
unique_values = {column: categorical_columns[column].unique() for column in categorical_columns.columns}

for column, values in unique_values.items():
    print(f"{column}: {values}")

Water supply: ['Yes' 'Central' 'No' 'Well']
Electricity: ['Yes' 'No']
House Material: ['Other' 'Monolithic' 'Gas concrete block' 'Block' 'Brick' 'Frame' 'Wood'
 'Foam concrete block' 'Gasosilicate block' 'Monolithic brick']
House Condition: ['Not specified' 'Can live' 'Needs repairs' 'Needs to be completed']
Land Category: ['Not specified' 'Lands of populated areas' 'Other' 'Agricultural']
Ground Status: ['Not specified' 'Individual housing construction' 'Gardening'
 'Personal subsidiary economy' 'Settlement plot']
Bathroom: ['Not specified' 'In the house' '1 at home' '3 at home' '2 at home'
 '6 at home' '1 in yard' '4 at home' '5 at home' '3 in yard' '8 at home'
 'in yard' '7 at home' '10 at home' '2 in yard' '9 at home']
Sewerage: ['No' 'Central' 'Yes' 'Septic']
Heating: ['No' 'Central gas' 'Autonomous gas' 'Electric' 'Fireplace' 'Diesel'
 'Oven' 'Standalone' 'Solid fuel boiler' 'Central coal']
Gas: ['No' 'Mainline in the house or on the plot'
 'Magistralny along the border' 'Yes' 'G

#### 4) removing duplicates and saving to csv

In [483]:
df_eng = df_eng.drop_duplicates()
df_eng.shape

(1408, 23)

In [484]:
df_eng.to_csv('sochi.csv', index=False, encoding='utf-8')