In [1]:
import pandas as pd
import requests as rq
from bs4 import BeautifulSoup
import json
import re
from time import sleep

import random 
from datetime import datetime
from requests.adapters import HTTPAdapter
from urllib3.util.retry import Retry

In [2]:
%run C:\Users\a.nematov\Desktop\Парсеры\useful_functions.ipynb

In [3]:
session = rq.Session()
retry = Retry(connect=3, backoff_factor=0.5)
adapter = HTTPAdapter(max_retries=retry)
session.mount('http://', adapter)
session.mount('https://', adapter)

meta = {
    'leningradskaya_oblast' : 636370,
    'sankt-peterburg' : 653240
}

districts = {
    'Адмиралтейский' : 762,
    'Василеостровский' : 763,
    'Выборгский' : 764,
    'Калининский' : 765,
    'Кировский' : 766,
    'Колпинский' : 767,
    'Красногвардейский' : 768,
    'Красносельский' : 769,
    'Московский' : 772,
    'Невский' : 773,
    'Петроградский' : 774,
    'Приморский' : 776,
    'Фрунзенский' : 778,
    'Центральный' : 779
}

highways = {
    'Александровское шоссе' : 33,
    "Аннинское шоссе" : 34,
    "Белоостровское шоссе": 35,
    "Волхонское шоссе": 36,
    "Выборгское шоссе": 37,
    "Гатчинское шоссе": 38, 
    "Горское шоссе": 39, 
    "Гостилицкое шоссе": 126,
    "Дорога жизни": 130,
    "Зеленогорское шоссе": 40,
    "Киевское шоссе": 41,
    "Красносельское шоссе": 42,
    "Левашовское шоссе": 43,
    "Ленинградское шоссе": 127,
    "Московское шоссе": 44,
    "Мурманское шоссе": 51,
    "Петрозаводское шоссе": 45,
    "Приморское шоссе": 46,
    "Приозерское шоссе": 47,
    "Пулковское шоссе": 48, 
    "Ропшинское шоссе": 49,
    "Рябовское шоссе": 50,
    "Таллинское шоссе": 122,
    "Трасса Вологда — Новая Ладога": 128,
    "Трасса Лодейное поле — Вытегра": 125,
    "Трасса Лодейное Поле — Тихвин": 129,
    "Трасса \"Скандинавия\"": 124,
    "Трасса \"Сортавала\"": 123
}


In [4]:
def parse_header(raw_header: str):
    header = dict()
    for line in raw_header.split("\n"):
        if line.startswith(":"):
            a, b = line[1:].split(":", 1)
            a = f":{a}"
        else:
            a, b = line.split(":",1)
        header[a.strip()] = b.strip()
    return header

# Участки

In [5]:
def decod_response(content):    
    dctx = zstd.ZstdDecompressor()
    stream_reader = dctx.stream_reader(BytesIO(content))
    decompressed_data = stream_reader.read()
    decod = decompressed_data.decode('utf-8')
    
    return decod
    
def get_json(page, limit, location, path):

    if path:
        url = f'https://www.avito.ru/{location}/zemelnye_uchastki?map=eyJ6b29tIjo2fQ%3D%3D&road={path}'
    else:
        url = f'https://www.avito.ru/{location}/zemelnye_uchastki?map=eyJ6b29tIjo2fQ%3D%3D'
    
    headers = f"""Accept:application/json
        Accept-Encoding:gzip, deflate, br, zstd
        Accept-Language:ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7
        Cookie:srv_id=_in8v3cPGv439F1t.pv8DEvFEE2qCTRTC8mocn506JPVjab2MGLRnCDcC0BKVBqY7wqbkGy1pHnbJPoo=.sKLm4xKVnEfbYMzYsHZIYcXfPt2soPgWhVLiJ35htyE=.web; u=2y7rcusd.psxc9a.1lc4q5ogi2900; tmr_lvid=2b65124eda4cc7012869344c58428214; tmr_lvidTS=1702044174392; _ym_uid=1702044175999009250; adrcid=AUMnqFXmD8Y1OXl_jYF1hSw; uxs_uid=7c247960-95d2-11ee-9f59-ada3bc1b2bbc; __upin=d9SIlydAFpwg49C6OdieBw; __zzatw-avito=MDA0dBA=Fz2+aQ==; __zzatw-avito=MDA0dBA=Fz2+aQ==; adrcid=AUMnqFXmD8Y1OXl_jYF1hSw; __ddg1_=Dhkdi3kP0rEPVfHgn7eA; adrcid=AUMnqFXmD8Y1OXl_jYF1hSw; _buzz_fpc=JTdCJTIydmFsdWUlMjIlM0ElN0IlMjJ1ZnAlMjIlM0ElMjI2Nzc3OTg0MDdjYzhiMWEwYWFiZTMyMzg0MjRmNzJjOSUyMiUyQyUyMmJyb3dzZXJWZXJzaW9uJTIyJTNBJTIyMTI1LjAlMjIlMkMlMjJ0c0NyZWF0ZWQlMjIlM0ExNzE3NTg1NjQyMDA3JTdEJTJDJTIycGF0aCUyMiUzQSUyMiUyRiUyMiUyQyUyMmRvbWFpbiUyMiUzQSUyMi53d3cuYXZpdG8ucnUlMjIlMkMlMjJleHBpcmVzJTIyJTNBJTIyVGh1JTJDJTIwMDUlMjBKdW4lMjAyMDI1JTIwMTElM0EwNyUzQTIyJTIwR01UJTIyJTJDJTIyU2FtZVNpdGUlMjIlM0ElMjJMYXglMjIlN0Q=; _buzz_aidata=JTdCJTIydmFsdWUlMjIlM0ElN0IlMjJ1ZnAlMjIlM0ElMjJkOVNJbHlkQUZwd2c0OUM2T2RpZUJ3JTIyJTJDJTIyYnJvd3NlclZlcnNpb24lMjIlM0ElMjIxMjUuMCUyMiUyQyUyMnRzQ3JlYXRlZCUyMiUzQTE3MTc1ODU2NDIwNjYlN0QlMkMlMjJwYXRoJTIyJTNBJTIyJTJGJTIyJTJDJTIyZG9tYWluJTIyJTNBJTIyLnd3dy5hdml0by5ydSUyMiUyQyUyMmV4cGlyZXMlMjIlM0ElMjJUaHUlMkMlMjAwNSUyMEp1biUyMDIwMjUlMjAxMSUzQTA3JTNBMjIlMjBHTVQlMjIlMkMlMjJTYW1lU2l0ZSUyMiUzQSUyMkxheCUyMiU3RA==; _ga_DQYB5Z23VK=GS1.2.1717675259.3.1.1717675308.0.0.0; _ym_d=1718088991; yandex_monthly_cookie=true; cfidsw-avito=xJJALdKyIsMNh5b4m4TYkgkSB0DWQTVSygGIsuLfzJ8zyJB/mCo6jISgclACMjrsN/EQtfQb5dPdVeXLgP5OILlKeAxWovemkz4h1bUr5Ne3KdItNpCh046oOXe98xyzxkpmty37NzhJD21XsvGyVew4JkmtumwEZUvf; cfidsw-avito=xJJALdKyIsMNh5b4m4TYkgkSB0DWQTVSygGIsuLfzJ8zyJB/mCo6jISgclACMjrsN/EQtfQb5dPdVeXLgP5OILlKeAxWovemkz4h1bUr5Ne3KdItNpCh046oOXe98xyzxkpmty37NzhJD21XsvGyVew4JkmtumwEZUvf; sessid=37acdad71abb5a5fcd0e3f9245d3dc3c.1718089401; cfidsw-avito=CXVYIvq78UZotgxu5443/ZLpXeW7SwwwBKkqM2owhAUFPtd2Oa0FcK2GOwSHF5y4SZt30+uw6YjP62j9NnZEMirdH7+SD1b8WvuvoByBeqdf9dExYa09rJQkbp+eTU4BHEOoThmhTQ8yucAZ+E6+FqB9ujfRFEfVkDpP; _ga=GA1.1.1628045832.1702044174; SEARCH_HISTORY_IDS=1; buyer_popup_location=0; _gcl_au=1.1.2115663959.1718260570; gMltIuegZN2COuSe=EOFGWsm50bhh17prLqaIgdir1V0kgrvN; adrdel=1718779186260; adrdel=1718779186260; _ym_isad=2; _ga_ZJDLBTV49B=GS1.1.1718779491.16.0.1718779500.0.0.0; _ga_WW6Q1STJ8M=GS1.1.1718779491.19.0.1718779500.0.0.0; v=1718781547; _ym_visorc=b; domain_sid=wCWfUQosfT7qCIjcI31wf%3A1718783933850; f=5.0c4f4b6d233fb90636b4dd61b04726f147e1eada7172e06c47e1eada7172e06c47e1eada7172e06c47e1eada7172e06cb59320d6eb6303c1b59320d6eb6303c1b59320d6eb6303c147e1eada7172e06c8a38e2c5b3e08b898a38e2c5b3e08b890df103df0c26013a7b0d53c7afc06d0b2ebf3cb6fd35a0ac0df103df0c26013a8b1472fe2f9ba6b9ad42d01242e34c7968e2978c700f15b6831064c92d93c3903815369ae2d1a81d4e0d8a280d6b65f00df103df0c26013aba0ac8037e2b74f9268a7bf63aa148d22ebf3cb6fd35a0ac8b1472fe2f9ba6b97b0d53c7afc06d0b71e7cb57bbcb8e0f03c77801b122405c03c77801b122405c2da10fb74cac1eab2ebf3cb6fd35a0ac20f3d16ad0b1c546b892c6c84ad16848a9b4102d42ade879dcb5a55b9498f642baf80da35caa52287658d123ba269e0348fe2c34fc387c28b1d542c59d0bd3144525907271a6a0eb69a2241f7870d4d8f4857885524eb1f691e52da22a560f550df103df0c26013a0df103df0c26013aaaa2b79c1ae92595846346fd022b4d1da98cd3726d66dcc53de19da9ed218fe2c772035eab81f5e123f5e56da7ec04f4a1a4201a28a6ec9b059080ed9becc4cd; ft="pBDTu6J8CnoSp8sSEd1uAz7+JsNiPBojA04MMJTxjB8egHm7MzZG9Lhgjtl5CADw9uCdUKaojgVMKImiBYvoRlVQx4Nx8rtYqg6QGZQ10jcJ2dNimZzMnol79EvxtuEkmZbClL87yFd5BOyT6bLxHUYvUs2HEnGGPkP0cUjNfMaGlxhEX/prP5JpglrgVyKR"; isLegalPerson=0; buyer_laas_location=636370; cartCounter=0; dfp_group=94; tmr_detect=0%7C1718785264296; buyer_location_id=653240; luri=sankt-peterburg; sx=H4sIAAAAAAAC%2F1yWW47zvK5E55LnfhB1IaV%2FNhQlOoljx45vsTd67gdpoPOd9AQWCuWlov93MhA1CmSjAYVtFNESndhQSTUgnv7732k9%2FXeCo30M58vd26fl%2FfJEO17aNKzbNO1jH09fp3r6DwhiJJNs%2FP46GTbkixEjmlFZnGQrEkLWUCWR%2FyVfH7xmez5gcYN9tHPw8ej21E19P81SP8jOp%2B%2BvE0QIFotQDMZYkhKVQyC1qBAylF%2Fy6FrtoR0fDFyb6zbLfegV9RryWW%2F9n8w%2F5CqSHIqQupzAFImpECG5HFkQfsnzY5183z7PXOuIdZ%2F3SyqhM%2F5yu91n%2FSBDsN9fJ2vEKCRmyFyct1wh2aqmuJp8rO%2Ber22ye50Z9Lz3174ILwC39gIz6eo%2B24gUXuRMYL2Cj1ZiVY%2BgFMFXdaWC%2FGujWaFoJ5tt1m0KE861HL008bwdj7Z2nz07%2BP46OUOAJoKpNid1mrNJmCKIQHRq4i%2F5st0IfMYjxvuxedc%2FxuVyrX64W4gpfLZhzIscAudSFZjQ%2BcrVhVCc%2BsylUME32ZUnXLpe99DN%2BkjL%2FRlGe4u3vkrs4PMLQnxZ5wRclIiojKXWwEUUyfloUhVf3tZlHfbLPJQaqJm7s3YNNEfCDZbu2P%2BQY3TfXydfgQybXFLxhkRihmJUjCeTKQX5JZd7PZ73o2Uz9ClFm6OdDyoCAQ095v9PBgwv60JEZ6kmlaKQvTUmKfqsUKIHjPmXHNf5wWGL3bWmIx%2FYbv58gTl3DTyneftDfrWBJjOa4LE6KyoRwCNQNWgiQUj2l2y6oyNzyH0ft%2FkGw1meZa%2Bt9niomT%2FcAICXz8iVnS21kmUkL058rikH4egE5Z3Z5RkaviwRVn6e73OUzdStzW2obsnL5xs09CJXrOiIqlUpMUUsSGp8tuJdBg6%2F5N1TxlHPbm0PeUx3213Ptkujm0pDJX1m%2FvGZfIaQNZkcapFKmclJZsXElI1%2Fv%2B50358RR7mmlPYhmKH0Yz%2BiA2tGb%2BY%2FPr%2FaoBqLt6lYNrYUYUwejVSo4F%2Fp39ZdLMylkyn2nPfdTsTcHsnEcLXdAO0H2aD%2F%2FjpFGyOiyWgMUAmmqNhgHLLGiiW%2FrbvPadqXPDyeMNsR94cOrqnFNcvcbs%2F8pw37Q2YJDjlHSpyKwVASCdVoNNeS63vr6tM9Bn9stLdj0YXHsE1XGueRt%2BVx%2FLHuh4yJocTsiitUk3hmEc9ZfbWx6Nu6kaFPUtPzGALoho%2FzvKThGG57u8X817qfNmKoOcScUyCHzKSkWIOQLZVNdb%2Fk1cEx8NSvD1P3KZWhlu65rmuTl3692w8ywcuNyLa8ms4aiUPJ6NH4bDin4G36t3VbP4mOF7muyv4Byak5%2BHy9jWV1ksY%2Fy%2F%2BTWWJwldkEsL4aCtnEbIDIe%2BYE78wjdcZMtDaXeru6%2FpkiN%2FFZqVmYrk36XKSf3RDwCTVQsPX1IYFF1RIKOiPoxbyt6zWZx05Lf2k2CWtY8LEtZVwAp9odn9bRD5mBMmokJMvWMjJKYIXXPQyhvG%2FKZFXg8sDU1UV8N0xh1ss5TeCGzOr%2FvO7XtRJRR%2BhKYFJTgq0UPVewPnhbjX2TO%2Bf3S2stNJaaisj2NXMtCc%2FYQP6T%2BbUbxZLVDGRSqQ7ROrDF%2BpSjaDRO3m8wdjlvgRtjhmXal9ta4uo8sHFUOvq8g4Cva1WY0VnGrIQeNVTF6CUbKSUH889nG7tGQ7wFwzTz4hHd0V1oTnMT%2Bj9%2FBQZf%2B1xD9bUEIGUKXqoEjjWLxRg5BKO%2F5Nbq9Xbe7aXezyHlbWvdbT1Khc5vsaVPN37ImhQkCTjna86UwCWpkpNoMOzkH7m9z3mZBRfCFAtfboNbhrZuHe7tMXxmTi83NBsuyiWkDCn4QhwAs1GKSZJYfu%2FzbeBrOd9Te7WS%2B9B0gI8mDfGAcMY%2FPYf4%2Ff1%2FAQAA%2F%2F9rLuDUjQoAAA%3D%3D; abp=0; pageviewCount=182; _ga_M29JC28873=GS1.1.1718779185.73.1.1718785312.59.0.0
        Priority:u=1, i
        Referer:{url}
        Sec-Ch-Ua:"Google Chrome";v="125", "Chromium";v="125", "Not.A/Brand";v="24"
        Sec-Ch-Ua-Mobile:?0
        Sec-Ch-Ua-Platform:"Windows"
        Sec-Fetch-Dest:empty
        Sec-Fetch-Mode:cors
        Sec-Fetch-Site:same-origin
        User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36
        X-Requested-With:XMLHttpRequest
        X-Source:client-browser"""
    
    headers = parse_header(headers)
    
    source = f'https://www.avito.ru/js/1/map/items?categoryId=26&locationId={meta[location]}&correctorMode=0&page={page}&map=eyJ6b29tIjo2fQ%3D%3D&verticalCategoryId=1&rootCategoryId=4&localPriority=0&disabledFilters%5Bids%5D%5B0%5D=byTitle&disabledFilters%5Bslugs%5D%5B0%5D=bt&viewPort%5Bwidth%5D=672&viewPort%5Bheight%5D=765&limit={limit}&countAndItemsOnly=1'

    if path:
        source = f'https://www.avito.ru/js/1/map/items?categoryId=26&locationId={meta[location]}&directionId%5B0%5D={path}&correctorMode=0&page={page}&map=eyJ6b29tIjo2fQ%3D%3D&verticalCategoryId=1&rootCategoryId=4&localPriority=0&disabledFilters%5Bids%5D%5B0%5D=byTitle&disabledFilters%5Bslugs%5D%5B0%5D=bt&viewPort%5Bwidth%5D=672&viewPort%5Bheight%5D=765&limit={limit}&countAndItemsOnly=1'
        

    proxies = { 'http' : 'http://user157163:riu52p@194.32.240.193:4540'} 
    for req in range(5):
        if req != 0:
            print('Попытка {}'.format(req))
        try:
            resp = session.get(
                f"{source}",
                headers=headers
            )
    
            if 'status' in resp:
                print('status')
                resp = session.get(
                    f"{source}",
                    headers=headers,
                    proxies = proxies
                )

            if 'error' not in resp:
                break
        except Exception as e:
            print('ERROR')
            print(e)
            resp = session.get(
                f"{source}",
                headers=headers,
                proxies = proxies
            )
        
    if resp.headers['content-encoding'] == 'zstd':
        response = decod_response(resp.content)
    else:
        response = resp.content
    # print(resp.content)
    return json.loads(response)

def get_data(page, limit, location, path):
    json = get_json(page, limit, location, path)
    if not json:
        return False
        
    try:
        data = json['items']
    except:
        print(json)
        return False
        
    local = [
        {
            "url": f'https://www.avito.ru{obj["urlPath"]}',
            'id' : obj['id'],
            'name' : obj['title'],
            'type' : obj['category']['name'],
            'seller' : '' if not obj['iva']['UserInfoStep'] or 'UserInfoStep' not in obj['iva']\
                        else obj['iva']['UserInfoStep'][0]['payload']['profile']['title'] ,
            'square' : '' if not re.search('([\d|.|,]+)(сот|га)', obj['title'].replace('\xa0', '') )
                       else re.search('([\d|.|,]+)(сот|га)', obj['title'].replace('\xa0', '') )[0],
            'price' : re.search('[\d]+' ,str(obj['priceDetailed']['value']))[0],
            'price_sot' : '' if not obj['normalizedPrice'] else re.search('[\d]+', obj['normalizedPrice'].replace('\xa0', ''))[0],
            'timestamp_published' : obj['sortTimeStamp'],
            'address' : obj['geo']['formattedAddress'],
            'picture' : '' if not obj['images'] else obj['images'][0][list(obj['images'][0].keys())[0]],
            'highway' : '' if not obj['geo']['geoReferences'] else obj['geo']['geoReferences'][0]['content']
                         if 'шоссе' in obj['geo']['geoReferences'][0]['content'] else path if path else '',
            'time_to_metro' : '' if not obj['geo']['geoReferences'] or 'afterWithIcon' not in obj['geo']['geoReferences'][0]\
                              else obj['geo']['geoReferences'][0]['afterWithIcon']['text'],
            'distance_to_metro' : '' if not obj['geo']['geoReferences'] or not 'after' in obj['geo']['geoReferences'][0] \
                                  else obj['geo']['geoReferences'][0]['after'],
            'date_published' : obj['iva']['DateInfoStep'][0]['payload']['absolute'],
            'description' : obj['description'],
            'location': obj['location']['name'],
            #Есть значение SecondLineStep это пустой лист, то person
            'type_seller': 'person' if not obj['iva']['SecondLineStep'] else 'agency',
            'name_seller': '-' if not obj['iva']['UserInfoStep'] else obj['iva']['UserInfoStep'][0]['payload']['profile']['title'],
            'latitude' : obj['coords']['lat'],
            'longitude' : obj['coords']['lng'],
            'type_deal': 'sale'
        }
        for obj in data if 'в месяц' not in obj['priceDetailed']['fullString']
    ]
    
    return local

# Лен область

In [6]:
page = 1
limit = 50
value = list( highways.values())[0]
local = get_data(page, limit, list(meta.keys())[0], value)


In [7]:
lands = []

In [8]:
limit = 50

for key, value in list(highways.items()):
    page = 1
    print(key)
    while True:
        local = get_data(page, limit, list(meta.keys())[0], value)
    
        if not local:
            break
        
        print(f'На странице {page} собраны {len(local)} объявлений')
        lands += local
        page += 1
        sleep(random.randint(1, 5))


Александровское шоссе
На странице 1 собраны 50 объявлений
На странице 2 собраны 27 объявлений
Аннинское шоссе
Белоостровское шоссе
На странице 1 собраны 5 объявлений
Волхонское шоссе
На странице 1 собраны 44 объявлений
На странице 2 собраны 43 объявлений
На странице 3 собраны 9 объявлений
Выборгское шоссе
На странице 1 собраны 46 объявлений
На странице 2 собраны 50 объявлений
На странице 3 собраны 48 объявлений
На странице 4 собраны 47 объявлений
На странице 5 собраны 50 объявлений
На странице 6 собраны 50 объявлений
На странице 7 собраны 50 объявлений
На странице 8 собраны 49 объявлений
На странице 9 собраны 49 объявлений
На странице 10 собраны 49 объявлений
На странице 11 собраны 50 объявлений
На странице 12 собраны 47 объявлений
На странице 13 собраны 50 объявлений
На странице 14 собраны 50 объявлений
На странице 15 собраны 50 объявлений
На странице 16 собраны 50 объявлений
На странице 17 собраны 50 объявлений
На странице 18 собраны 47 объявлений
На странице 19 собраны 50 объявлений

# Санкт Петербург

In [9]:
limit = 50
page = 1

while True:
    local = get_data(page, limit, list(meta.keys())[1], None)

    if not local:
        break
    
    print(f'На странице {page} собраны {len(local)} объявлений')
    lands += local
    page += 1
    sleep(random.randint(1, 5))


На странице 1 собраны 41 объявлений
На странице 2 собраны 15 объявлений
На странице 3 собраны 22 объявлений
На странице 4 собраны 35 объявлений
На странице 5 собраны 35 объявлений
На странице 6 собраны 32 объявлений
На странице 7 собраны 24 объявлений
На странице 8 собраны 26 объявлений
На странице 9 собраны 34 объявлений
На странице 10 собраны 41 объявлений
На странице 11 собраны 41 объявлений
На странице 12 собраны 39 объявлений
На странице 13 собраны 45 объявлений
На странице 14 собраны 42 объявлений
На странице 15 собраны 44 объявлений
На странице 16 собраны 46 объявлений
На странице 17 собраны 45 объявлений
На странице 18 собраны 41 объявлений
На странице 19 собраны 44 объявлений
На странице 20 собраны 48 объявлений
На странице 21 собраны 48 объявлений
На странице 22 собраны 46 объявлений
На странице 23 собраны 46 объявлений
На странице 24 собраны 45 объявлений
На странице 25 собраны 47 объявлений
На странице 26 собраны 46 объявлений
На странице 27 собраны 48 объявлений
На страниц

In [10]:
new_data = pd.DataFrame(lands).drop_duplicates().reset_index(drop = True)
new_data['date_supple'] = new_data['timestamp_published'].apply(lambda x: datetime.fromtimestamp(int(str(x)[:-3])).strftime('%d.%m.%Y'))
new_data['square'] = new_data['square'].str.replace('сот', '').str.replace('га', '')
new_data['typeland'] = new_data['name'].apply(lambda x: '' if not re.search('\([\w]{3}', x) else re.search('\([\w]{3}', x)[0]).str.replace('(', '')
new_data = new_data.drop_duplicates()

In [11]:
path_sales = r'O:\Отдел стратегического развития\Данные\Avito\suburb\Участки\Sales.xlsx'
path_supply = r'O:\Отдел стратегического развития\Данные\Avito\suburb\Участки\Supply.xlsx'

In [12]:
key = 'url'
update_data(new_data, path_sales, path_supply, key)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  sold_supply.loc[:, 'sale_date'] = date


(3440, 3187)

# Дома\Коттеджи\Таунаусы

In [13]:
def decod_response(content):    
    dctx = zstd.ZstdDecompressor()
    stream_reader = dctx.stream_reader(BytesIO(content))
    decompressed_data = stream_reader.read()
    decod = decompressed_data.decode('utf-8')
    
    return decod

def get_json(page, limit, location, path):

    headers = f"""Accept:application/json
        Accept-Encoding:gzip, deflate, br, zstd
        Accept-Language:ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7
        Cookie:srv_id=_in8v3cPGv439F1t.pv8DEvFEE2qCTRTC8mocn506JPVjab2MGLRnCDcC0BKVBqY7wqbkGy1pHnbJPoo=.sKLm4xKVnEfbYMzYsHZIYcXfPt2soPgWhVLiJ35htyE=.web; u=2y7rcusd.psxc9a.1lc4q5ogi2900; tmr_lvid=2b65124eda4cc7012869344c58428214; tmr_lvidTS=1702044174392; _ym_uid=1702044175999009250; adrcid=AUMnqFXmD8Y1OXl_jYF1hSw; uxs_uid=7c247960-95d2-11ee-9f59-ada3bc1b2bbc; __upin=d9SIlydAFpwg49C6OdieBw; __zzatw-avito=MDA0dBA=Fz2+aQ==; __zzatw-avito=MDA0dBA=Fz2+aQ==; adrcid=AUMnqFXmD8Y1OXl_jYF1hSw; __ddg1_=Dhkdi3kP0rEPVfHgn7eA; adrcid=AUMnqFXmD8Y1OXl_jYF1hSw; _buzz_fpc=JTdCJTIydmFsdWUlMjIlM0ElN0IlMjJ1ZnAlMjIlM0ElMjI2Nzc3OTg0MDdjYzhiMWEwYWFiZTMyMzg0MjRmNzJjOSUyMiUyQyUyMmJyb3dzZXJWZXJzaW9uJTIyJTNBJTIyMTI1LjAlMjIlMkMlMjJ0c0NyZWF0ZWQlMjIlM0ExNzE3NTg1NjQyMDA3JTdEJTJDJTIycGF0aCUyMiUzQSUyMiUyRiUyMiUyQyUyMmRvbWFpbiUyMiUzQSUyMi53d3cuYXZpdG8ucnUlMjIlMkMlMjJleHBpcmVzJTIyJTNBJTIyVGh1JTJDJTIwMDUlMjBKdW4lMjAyMDI1JTIwMTElM0EwNyUzQTIyJTIwR01UJTIyJTJDJTIyU2FtZVNpdGUlMjIlM0ElMjJMYXglMjIlN0Q=; _buzz_aidata=JTdCJTIydmFsdWUlMjIlM0ElN0IlMjJ1ZnAlMjIlM0ElMjJkOVNJbHlkQUZwd2c0OUM2T2RpZUJ3JTIyJTJDJTIyYnJvd3NlclZlcnNpb24lMjIlM0ElMjIxMjUuMCUyMiUyQyUyMnRzQ3JlYXRlZCUyMiUzQTE3MTc1ODU2NDIwNjYlN0QlMkMlMjJwYXRoJTIyJTNBJTIyJTJGJTIyJTJDJTIyZG9tYWluJTIyJTNBJTIyLnd3dy5hdml0by5ydSUyMiUyQyUyMmV4cGlyZXMlMjIlM0ElMjJUaHUlMkMlMjAwNSUyMEp1biUyMDIwMjUlMjAxMSUzQTA3JTNBMjIlMjBHTVQlMjIlMkMlMjJTYW1lU2l0ZSUyMiUzQSUyMkxheCUyMiU3RA==; _ga_DQYB5Z23VK=GS1.2.1717675259.3.1.1717675308.0.0.0; _ym_d=1718088991; yandex_monthly_cookie=true; cfidsw-avito=xJJALdKyIsMNh5b4m4TYkgkSB0DWQTVSygGIsuLfzJ8zyJB/mCo6jISgclACMjrsN/EQtfQb5dPdVeXLgP5OILlKeAxWovemkz4h1bUr5Ne3KdItNpCh046oOXe98xyzxkpmty37NzhJD21XsvGyVew4JkmtumwEZUvf; cfidsw-avito=xJJALdKyIsMNh5b4m4TYkgkSB0DWQTVSygGIsuLfzJ8zyJB/mCo6jISgclACMjrsN/EQtfQb5dPdVeXLgP5OILlKeAxWovemkz4h1bUr5Ne3KdItNpCh046oOXe98xyzxkpmty37NzhJD21XsvGyVew4JkmtumwEZUvf; sessid=37acdad71abb5a5fcd0e3f9245d3dc3c.1718089401; cfidsw-avito=CXVYIvq78UZotgxu5443/ZLpXeW7SwwwBKkqM2owhAUFPtd2Oa0FcK2GOwSHF5y4SZt30+uw6YjP62j9NnZEMirdH7+SD1b8WvuvoByBeqdf9dExYa09rJQkbp+eTU4BHEOoThmhTQ8yucAZ+E6+FqB9ujfRFEfVkDpP; _ga=GA1.1.1628045832.1702044174; SEARCH_HISTORY_IDS=1; buyer_popup_location=0; _gcl_au=1.1.2115663959.1718260570; gMltIuegZN2COuSe=EOFGWsm50bhh17prLqaIgdir1V0kgrvN; adrdel=1718779186260; adrdel=1718779186260; _ym_isad=2; _ga_ZJDLBTV49B=GS1.1.1718779491.16.0.1718779500.0.0.0; _ga_WW6Q1STJ8M=GS1.1.1718779491.19.0.1718779500.0.0.0; v=1718781547; _ym_visorc=b; domain_sid=wCWfUQosfT7qCIjcI31wf%3A1718783933850; f=5.0c4f4b6d233fb90636b4dd61b04726f147e1eada7172e06c47e1eada7172e06c47e1eada7172e06c47e1eada7172e06cb59320d6eb6303c1b59320d6eb6303c1b59320d6eb6303c147e1eada7172e06c8a38e2c5b3e08b898a38e2c5b3e08b890df103df0c26013a7b0d53c7afc06d0b2ebf3cb6fd35a0ac0df103df0c26013a8b1472fe2f9ba6b9ad42d01242e34c7968e2978c700f15b6831064c92d93c3903815369ae2d1a81d4e0d8a280d6b65f00df103df0c26013aba0ac8037e2b74f9268a7bf63aa148d22ebf3cb6fd35a0ac8b1472fe2f9ba6b97b0d53c7afc06d0b71e7cb57bbcb8e0f03c77801b122405c03c77801b122405c2da10fb74cac1eab2ebf3cb6fd35a0ac20f3d16ad0b1c546b892c6c84ad16848a9b4102d42ade879dcb5a55b9498f642baf80da35caa52287658d123ba269e0348fe2c34fc387c28b1d542c59d0bd3144525907271a6a0eb69a2241f7870d4d8f4857885524eb1f691e52da22a560f550df103df0c26013a0df103df0c26013aaaa2b79c1ae92595846346fd022b4d1da98cd3726d66dcc53de19da9ed218fe2c772035eab81f5e123f5e56da7ec04f4a1a4201a28a6ec9b059080ed9becc4cd; ft="pBDTu6J8CnoSp8sSEd1uAz7+JsNiPBojA04MMJTxjB8egHm7MzZG9Lhgjtl5CADw9uCdUKaojgVMKImiBYvoRlVQx4Nx8rtYqg6QGZQ10jcJ2dNimZzMnol79EvxtuEkmZbClL87yFd5BOyT6bLxHUYvUs2HEnGGPkP0cUjNfMaGlxhEX/prP5JpglrgVyKR"; buyer_laas_location=636370; cartCounter=0; isLegalPerson=0; dfp_group=94; buyer_location_id=653240; luri=sankt-peterburg; abp=0; pageviewCount=197; _ga_M29JC28873=GS1.1.1718779185.73.1.1718788613.60.0.0; sx=H4sIAAAAAAAC%2F1yVW47ruA5F55Lv%2BhD1IKkzG0mknMSxYzt2%2FGjU3C9yGpXbqQksbGwtbv1zMsCVC2RTA5ZkuZQq7IoNSrUGxNOff07P058THO00nC93bzeb9suGdry0cXiuj8c%2B9nz6OunpDxAwk4mWv79OJhnyYoopNWNNxZVsSwkh16Alkv8hX6f0zPZ8wOIGO7Vz8Hx0e%2Bweff%2BYi36QnY%2FfXyewxVc2Vgp6j0FDyUWNQ9TECST%2FkCfB%2BUqpehqW80JpH%2B53ezcHzfe%2Bbh%2BZHUd6kRmCRSnEwRhLRbimEKharBAyyA95dG3toR2nBEmb6zqX%2B9BXrNeQz%2FXW%2F2rjldmaYirElCAncd4mhWi1GnEaPeu752sb7a5zgnre%2B2svJS0At%2FYCM9Wn%2B2yDKbzIPnkP4sXaWJK6GCAy%2BGijBolOf8gmRmoAn3u7b%2BNlWmqF6dqOFz%2BGJVT3X3Iw4F5kwlIDRm8CGk2ZHRhUqamABEvuhzyPZ7W%2Bbno%2B36JYjrPbNmKg%2FWGb5%2B2%2FZB%2F%2FvqDNBNZX8GwLa%2FUIlRi8VicK5f89N0%2BQ2pXVNs%2F1ER44qxx9afi8HlOr3acbDr6%2FTi6ElEUrJELnNakLQVz1OYmQIP%2BQnWxw6fq6h26uU1zuWxjtjW%2B9Fu7g8wWBXz67Ao4LI9aEohqSlIrkPJuoxcvb51yH%2FTIPooGauTvXroHmiLjC0h37LzLzq2cn3jtXSiHiaA1mSppLDhJzKi7D27rOpNgM02B0vlhjl%2FvshrQMtlU5rh9teGvti1wrAQcgW9CaZBDU2aA1ZP9y%2Ft3zcDFskhJv%2Fb0Js%2BxljZpgH2QZ%2Bg1%2BueG%2Fv07emqBoi3hEtJKIfATQhImtzyb9kPvD9W6aB5v77jmradN23CKF66qS5o82rHP4IiuQSSZLFG%2BoFM4gphbjyWSKobzbOANmLWEdp%2Bs1L2s%2FOxeoxe5yXzr%2BsM4FeF1K8EwQ0WO2EshXdllNKOIzGYnmfYMjD6NdL%2F1luFyG9kl%2BKjfZXL43ZV3a3z2%2FXjCECphYTQJvTVWfEY24oCZVkvi2Lh6isgg%2BBCXhMk1lg8c2jC7cm12OX4v0upTA6CxprEUqZG%2BNiRV9riDsAfm9dXtzX3zezZJDHs7EdeSpXcIs8bw0rL%2FaeL0gmpzQBI%2FqbKmFATwCqUHDBCHa9250R0fmKPd9XOcbDOeyya5t7fGoZv5oAwBe1mHS5Kyokk1Ivrjis8YcSmJXsLwzuzxDky4LwzNt5%2FvMZTW6trkN6pa8fK6oee0zKio6IrW1CEdGQarGZ1u8y5DCuw1PGcd6ds%2F2KNPjbrvr2XZxdA9pSOJn5r%2B7QT5DyDWaHFSKUk7kSk4VY6Js%2FPsGWe01nPVe4vwYF7WmRtkuo2G%2By%2FWXGzG8yGyZEU1GY4AkGKnFBuMwVVaU%2FPb5PsfHvuRh2mC2I%2B5THVyj4pplbtct%2F8ps%2F5JTCQ5TZoopisEgkQopm5pV8nv5mWtHSRYbt8FFbA83rmsQKjcn03P6yIz%2FkjEmEM5OnJDG4lMqxadcvVqW%2BnZjTNDHonE7hgB1xek8L3E4htverpx%2Fu%2FGyjjloDpxzDOQwJapUUUMhK5qMvv%2BUp3%2Fg5cgDpuvmpyUPD0NmPs613Xcz8q%2FMf3suHJymZAJYr4ZCNpwNEHmfUoQ3eaTOmAc9m4verq7fIqeGN6VmSXRt4uc%2Bh9cNlgSUsTIh2WRtwoQlpApSOIYg7xV92FrgMmHsdCm%2BGx5hrpdzfIAbcqr%2Bl8%2BvRRJLtmYgE0UdonVgxfqYuVQ2rrz%2FFO5yXkNqjBmWx77cnsJP5yEZR9LR5z8IaL6%2FThrUqwSgmij4oiUk1lwsMqcQTP0ht7Zeb%2BfdXvR%2BDjGva%2Btuz0MUOr9yS59tIP9LZqOlOIQoZHylAGiS5iwQ1b%2B3zszZ87Y%2FquVO8uJQSbe%2Bd9PhL9Uuv5bff3%2F%2FLwAA%2F%2F8KpeVTjQoAAA%3D%3D; tmr_detect=0%7C1718788618314; buyer_from_page=map
        Priority:u=1, i
        Referer:https://www.avito.ru/{location}/doma_dachi_kottedzhi/prodam-ASgBAgICAUSUA9AQ?cd=1&context=H4sIAAAAAAAA_0q0MrSqLraysFJKK8rPDUhMT1WyLrYytlLKTSxQsq4FBAAA__8Xe4TEHwAAAA&map=eyJ6b29tIjo2fQ%3D%3D
        Sec-Ch-Ua:"Google Chrome";v="125", "Chromium";v="125", "Not.A/Brand";v="24"
        Sec-Ch-Ua-Mobile:?0
        Sec-Ch-Ua-Platform:"Windows"
        Sec-Fetch-Dest:empty
        Sec-Fetch-Mode:cors
        Sec-Fetch-Site:same-origin
        User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36
        X-Requested-With:XMLHttpRequest
        X-Source:client-browser"""
            
    headers = parse_header(headers)
    
    source = f'https://www.avito.ru/js/1/map/items?categoryId=25&locationId={meta[location]}&correctorMode=1&page={page}&map=eyJ6b29tIjo2fQ%3D%3D&params%5B202%5D=1064&verticalCategoryId=1&rootCategoryId=4&localPriority=0&disabledFilters%5Bids%5D%5B0%5D=byTitle&disabledFilters%5Bslugs%5D%5B0%5D=bt&viewPort%5Bwidth%5D=672&viewPort%5Bheight%5D=765&limit={limit}&countAndItemsOnly=1'
    
    if path:
        source += f'&directionId%5B0%5D={path}'

    proxies = { 'http' : 'http://user157163:riu52p@149.126.247.207:5534'} 
    
    for req in range(5):
        if req != 0:
            print('Попытка {}'.format(req))
        try:
            resp = session.get(
                f"{source}",
                headers=headers
            )
    
            if 'status' in resp:
                print('status')
                resp = session.get(
                    f"{source}",
                    headers=headers,
                    proxies = proxies
                )
            if resp.content == b'{}':
                return {}
                
            if resp.headers['content-encoding'] == 'zstd':
                response = decod_response(resp.content)
            else:
                response = resp.content
                
            if 'error' not in resp:
                break
                
        except Exception as e:
            print('ERROR')
            print(e)
            
            resp = session.get(
                f"{source}",
                headers=headers,
                proxies = proxies
            )
    
    return json.loads(response)

def get_data(page, limit, location, path):
    if path:
        path_code = highways[path]
    else:
        path_code = None
        
    json = get_json(page, limit, location, path_code)

        
    if not json:
        return False
        
    try:
        data = json['items']
    except:
        print(json)
        return False
        
    local = [
        {
            "url": f'https://www.avito.ru{obj["urlPath"]}',
            'id' : obj['id'],
            'name' : obj['title'],
            'type' : obj['category']['name'],
            'seller' : '' if not obj['iva']['UserInfoStep'] or 'UserInfoStep' not in obj['iva']\
                        else obj['iva']['UserInfoStep'][0]['payload']['profile']['title'] ,
            'square': '' if not re.search('([\d|.|,]+)(сот|га)', obj['title'].replace('\xa0', '') )
                       else re.search('([\d|.|,]+)(сот|га)', obj['title'].replace('\xa0', '') )[0],
            'price' : re.search('[\d]+' ,str(obj['priceDetailed']['value']))[0],
            'price_sot' : '' if not obj['normalizedPrice'] else re.search('[\d]+', obj['normalizedPrice'].replace('\xa0', ''))[0], 
            'timestamp_published' : obj['sortTimeStamp'],
            'address' : obj['geo']['formattedAddress'],
            'picture' : '' if not obj['images'] else obj['images'][0][list(obj['images'][0].keys())[0]],
            'highway' : path,
            'time_to_metro' : '' if not obj['geo']['geoReferences'] or 'afterWithIcon' not in obj['geo']['geoReferences'][0]\
                              else obj['geo']['geoReferences'][0]['afterWithIcon']['text'],
            'distance_to_metro' : '' if not obj['geo']['geoReferences'] or not 'after' in obj['geo']['geoReferences'][0] \
                                  else obj['geo']['geoReferences'][0]['after'],
            'date_published' : obj['iva']['DateInfoStep'][0]['payload']['absolute'],
            'description' : obj['description'],
            'location': obj['location']['name'],
            'type_seller': 'person' if not obj['iva']['SecondLineStep'] else 'agency',
            'name_seller': '-' if not obj['iva']['UserInfoStep'] else obj['iva']['UserInfoStep'][0]['payload']['profile']['title'],
            'latitude' : obj['coords']['lat'],
            'longitude' : obj['coords']['lng'],
            'type_deal': 'sale',
            'square_home' : '' if not re.search('([\d|.|,]+)м²', obj['title'].replace('\xa0', '') )
                         else re.search('([\d|.|,]+)м²', obj['title'].replace('\xa0', '') )[0],
        }
        for obj in data
    ]
    
    return local

In [14]:
page = 1
limit = 50
value = list( highways.keys())[0]
local = get_data(page, limit, list(meta.keys())[0], value)


In [15]:
local

[{'url': 'https://www.avito.ru/sankt-peterburg/doma_dachi_kottedzhi/kottedzh_160_m_na_uchastke_10_sot._4442925560',
  'id': 4442925560,
  'name': 'Коттедж 160\xa0м² на участке 10\xa0сот.',
  'type': 'Дома, дачи, коттеджи',
  'seller': 'Мир квартир COUNTRY',
  'square': '10сот',
  'price': '34500000',
  'price_sot': '215625',
  'timestamp_published': 1730724808000,
  'address': 'Санкт-Петербург',
  'picture': 'https://10.img.avito.st/image/1/1.-6LRE7a-V0vHs_VKq2iO3vyyVU1jpFNLY8M2QW8QVulksFU.rr6nMsbpj0szjc0U3TARusI2haXmkglkW5swK934MF4',
  'highway': 'Александровское шоссе',
  'time_to_metro': '',
  'distance_to_metro': '',
  'date_published': '4 ноября 15:53',
  'description': 'Арт. 74825031 Если вы хотите найти идеальное место для отдыха, постоянного проживания, или получения дополнительного дохода, то этот коттедж\xa0— именно то, что вам нужно!\n\nУчасток находится в живописном месте, вдали от городской суеты, в посёлке Белоостров. В шаговой доступности большое количество магазинов, от

# Лен область

In [16]:
homes = []

In [17]:
limit = 50

for key, value in list(highways.items())[10:]:
    page = 1
    print(key)
    while True:
        for _ in range(3):
            try:
                local = get_data(page, limit, list(meta.keys())[0], key)
            except:
                pass
                
        if not local:
            break
        
        print(f'На странице {page} собраны {len(local)} объявлений')
        homes += local
        page += 1
        sleep(random.randint(1, 5))


Киевское шоссе
На странице 1 собраны 50 объявлений
На странице 2 собраны 50 объявлений
На странице 3 собраны 50 объявлений
На странице 4 собраны 50 объявлений
На странице 5 собраны 50 объявлений
На странице 6 собраны 50 объявлений
На странице 7 собраны 50 объявлений
На странице 8 собраны 50 объявлений
На странице 9 собраны 50 объявлений
На странице 10 собраны 48 объявлений
На странице 11 собраны 50 объявлений
На странице 12 собраны 50 объявлений
На странице 13 собраны 50 объявлений
На странице 14 собраны 50 объявлений
На странице 15 собраны 50 объявлений
На странице 16 собраны 50 объявлений
На странице 17 собраны 50 объявлений
На странице 18 собраны 50 объявлений
На странице 19 собраны 50 объявлений
На странице 20 собраны 50 объявлений
На странице 21 собраны 49 объявлений
На странице 22 собраны 50 объявлений
На странице 23 собраны 50 объявлений
На странице 24 собраны 49 объявлений
На странице 25 собраны 50 объявлений
На странице 26 собраны 50 объявлений
На странице 27 собраны 50 объявл

In [18]:
local = get_data(page, limit, list(meta.keys())[0], key)

# Санкт Петербург

In [19]:
limit = 50
page = 1

while True:
    local = get_data(page, limit, list(meta.keys())[1], None)

    if not local:
        break
    
    print(f'На странице {page} собраны {len(local)} объявлений')
    homes += local
    page += 1
    sleep(random.randint(1, 5))


На странице 1 собраны 50 объявлений
На странице 2 собраны 50 объявлений
На странице 3 собраны 50 объявлений
На странице 4 собраны 50 объявлений
На странице 5 собраны 50 объявлений
На странице 6 собраны 49 объявлений
На странице 7 собраны 50 объявлений
На странице 8 собраны 50 объявлений
На странице 9 собраны 50 объявлений
На странице 10 собраны 50 объявлений
На странице 11 собраны 48 объявлений
На странице 12 собраны 49 объявлений
На странице 13 собраны 50 объявлений
На странице 14 собраны 50 объявлений
На странице 15 собраны 50 объявлений
На странице 16 собраны 50 объявлений
На странице 17 собраны 50 объявлений
На странице 18 собраны 50 объявлений
На странице 19 собраны 50 объявлений
На странице 20 собраны 50 объявлений
На странице 21 собраны 50 объявлений
На странице 22 собраны 46 объявлений
На странице 23 собраны 50 объявлений
На странице 24 собраны 49 объявлений
На странице 25 собраны 49 объявлений
На странице 26 собраны 50 объявлений
На странице 27 собраны 50 объявлений
На страниц

In [20]:
new_data = pd.DataFrame(homes).drop_duplicates().reset_index(drop = True)
new_data['date_supple'] = new_data['timestamp_published'].apply(lambda x: datetime.fromtimestamp(int(str(x)[:-3])).strftime('%d.%m.%Y'))
new_data['square'] = new_data['square'].str.replace('сот', '').str.replace('га', '')
new_data['square_home'] = new_data['name'].apply(lambda x: '' if not re.findall(r'([\d|,]+)', x) else re.findall(r'([\d|,]+)', x)[0] )
new_data = new_data.drop_duplicates(['url'], keep = 'last')

In [21]:
# new_data = new_data.loc[0:10]

In [22]:
from selenium.webdriver.common.by import By
from selenium.webdriver.common.keys import Keys
from selenium.webdriver.chrome.options import Options
from selenium import webdriver

chrome_options = Options()
options = webdriver.ChromeOptions()
chrome_options.add_experimental_option('excludeSwitches', ['enable-logging'])
chrome_options.add_argument("--log-level=3")
chrome_options.add_argument("--headless")
# --log-level=3 --headless

chrome = webdriver.Chrome()

def get_pers_info(url):
    chrome.get(url)
    sleep(random.randint(1, 5))
    # session.refresh()
    # sleep(random.randint(1, 3))
    
    soup = BeautifulSoup(chrome.page_source, 'lxml')
    values = [a.text for a in soup.select("li[class^='params-paramsList__item']")]

    dct = {
        a.split(': ')[0]:a.split(': ')[1]
            for a in values
        }
    return dct

def write_data(data: pd.core.frame.DataFrame, path: str):
    """Функция для сохранения данных в виде Excel файлов.

    Аргументы:
        data (pd.core.frame.DataFrame): Датафрейм pandas
        path (str): Директория где хранятся данные.

    Результат:
        Сохранение файла Excel в директории path.
    """
    data_save = data.drop_duplicates().reset_index(drop=True)

    with pd.ExcelWriter(path, engine='xlsxwriter', engine_kwargs={'options' : { 'strings_to_urls': False} }) as writer:
        data_save.to_excel(writer, 'Influence on Policy', index = False)
    
def update_data(new_data: pd.core.frame.DataFrame, path_sales: str, path_supply: str, key: str):
    """Функция для обновления данных и фиксации продаж в Excel файлах.

    Аргументы:
        new_data (pd.core.frame.DataFrame): Датафрейм pandas
        path_sales (str): Директория где хранятся данные продаж.
        path_supply (str): Директория где хранятся данные актуальных объявлений.
        key (str): Признак, по которому проводится проверяется факт продажи. Часто адрес (url) страницы объявления.

    Результат:
        Актуальные и закрытые объявления проверяются и обновляется данные.
        Возвращается кол-во закрытых объявлений и новых объявлений.
    """
    
    date = f'{datetime.now().day}.{datetime.now().month}.{datetime.now().year}'
    
    "Если файла по данной директории нет, то создается файл с те ми же столбцами."
    try:
        sales = pd.read_excel(path_sales)
    except:
        write_data(pd.DataFrame(columns=list(new_data.columns) + ['sale_date']), path_sales)
        sales = pd.read_excel(path_sales)

    try:
        supply = pd.read_excel(path_supply)
    except:
        write_data(pd.DataFrame(columns=new_data.columns), path_supply)
        supply = pd.read_excel(path_supply)
    
    new_supply = new_data[~new_data[key].isin(supply[key])]
    sold_supply = supply[~supply[key].isin(new_data[key])]
    remaining_supply = supply[supply[key].isin(new_data[key])]
    
    if not new_supply.empty:
        aps_data = new_supply['url'].apply(get_pers_info)

        new_supply = new_supply.join(
                pd.DataFrame(
                {
                    'Категория земель': ['' if 'Категория земель' not in a else a['Категория земель'] for a in aps_data],
                    'Этажей в доме': ['' if 'Этажей в доме' not in a else a['Этажей в доме'] for a in aps_data],
                    'Материал стен': ['' if 'Материал стен' not in a else a['Материал стен'] for a in aps_data]    
                },
                index=new_supply.index
            ))
        
        save_supply = pd.concat([remaining_supply, new_supply])
        write_data(save_supply, path_supply)
        chrome.close()
    
    if not sold_supply.empty:
        sold_supply.loc[:, 'sale_date'] = date
        
        save_sales = pd.concat([sales, sold_supply])
        write_data(save_sales, path_sales)
        
        save_supply = pd.concat([remaining_supply, new_supply])
        write_data(save_supply, path_supply)

    # chrome.close()
    return len(sold_supply), len(new_supply)

In [23]:
path_sales = r'O:\Отдел стратегического развития\Данные\Avito\suburb\Недвижимость\Sales.xlsx'
path_supply = r'O:\Отдел стратегического развития\Данные\Avito\suburb\Недвижимость\Supply.xlsx'

In [24]:
path_supply_old = r'O:\Отдел стратегического развития\Данные\Avito\suburb\Недвижимость\Черновики\Supply.xlsx'

In [25]:
# old_data = pd.read_excel(path_supply_old)

In [26]:
# old = old_data[[old_data.columns[0]] + list(old_data.columns[-3:])].reset_index(drop = True).drop_duplicates(['url'], keep = 'last')


In [27]:
# new_data = new_data.drop_duplicates(['url'], keep = 'last').merge(old, how = 'inner', on = 'url')

In [28]:
key = 'url'
update_data(new_data, path_sales, path_supply, key)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  sold_supply.loc[:, 'sale_date'] = date


(3374, 3282)