In [1]:
import pandas as pd
import requests as rq
from bs4 import BeautifulSoup
import json
import re
from time import sleep
import random 
from datetime import datetime
from requests.adapters import HTTPAdapter
from urllib3.util.retry import Retry

In [2]:
%run C:\Users\a.nematov\Desktop\Парсеры\useful_functions.ipynb

In [3]:
path_sales = r'O:\Отдел стратегического развития\Данные\Avito\flats\Sales.xlsx'
path_supply = r'O:\Отдел стратегического развития\Данные\Avito\flats\Supply.xlsx'

In [4]:
session = rq.Session()
retry = Retry(connect=3, backoff_factor=0.5)
adapter = HTTPAdapter(max_retries=5)
session.mount('http://', adapter)
session.mount('https://', adapter)

meta = {
    'leningradskaya_oblast' : 636370,
    'sankt-peterburg' : 653240
}

districts = {
    'Адмиралтейский' : 762,
    'Василеостровский' : 763,
    'Выборгский' : 764,
    'Калининский' : 765,
    'Кировский' : 766,
    'Колпинский' : 767,
    'Красногвардейский' : 768,
    'Красносельский' : 769,
    'Московский' : 772,
    'Невский' : 773,
    'Петроградский' : 774,
    'Приморский' : 776,
    'Фрунзенский' : 778,
    'Центральный' : 779
}



In [5]:
def parse_header(raw_header: str):
    header = dict()
    for line in raw_header.split("\n"):
        if line.startswith(":"):
            a, b = line[1:].split(":", 1)
            a = f":{a}"
        else:
            a, b = line.split(":",1)
        header[a.strip()] = b.strip()
    return header

In [6]:
types = ['novostroyka', 'vtorichka', 'sdam']
def get_url(type, district):
    if type not in types:
        raise ValueError("неправильный тип недвижимости.")

    if type == 'novostroyka':
        url = 'https://www.avito.ru/sankt-peterburg/kvartiry/prodam/novostroyka-ASgBAgICAkSSA8YQ5geOUg?context=H4sIAAAAAAAA_0q0MrSqLraysFJKK8rPDUhMT1WyLrYytlLKTSxQsq4FBAAA__8Xe4TEHwAAAA&map=e30%3D'
    elif type == 'vtorichka':
        url =  'https://www.avito.ru/sankt-peterburg/kvartiry/prodam/vtorichka-ASgBAgICAkSSA8YQ5geMUg?context=H4sIAAAAAAAA_0q0MrSqLraysFJKK8rPDUhMT1WyLrYyt1JKTixJzMlPV7KuBQQAAP__dhSE3CMAAAA&localPriority=0&map=eyJ6b29tIjo4fQ%3D%3D'
    else:
        url = 'https://www.avito.ru/sankt-peterburg/kvartiry/sdam/na_dlitelnyy_srok-ASgBAgICAkSSA8gQ8AeQUg?context=H4sIAAAAAAAA_0q0MrSqLraysFJKK8rPDUhMT1WyLrYyt1JKTixJzMlPV7KuBQQAAP__dhSE3CMAAAA&map=eyJ6b29tIjo4fQ%3D%3D'
        
    if district:
        url += f'&district={district}'
        
    return url

In [7]:
def decod_response(content):    
    dctx = zstd.ZstdDecompressor()
    stream_reader = dctx.stream_reader(BytesIO(content))
    decompressed_data = stream_reader.read()
    decod = decompressed_data.decode('utf-8')
    
    return decod
    
def get_json(type, page, limit, location, district):

    url = get_url(type, district)

    
    headers = f"""Accept:application/json
        Accept-Encoding:gzip, deflate, br, zstd
        Accept-Language:ru-RU,ru;q=0.9,en-US;q=0.8,en;q=0.7
        Cookie:srv_id=_in8v3cPGv439F1t.pv8DEvFEE2qCTRTC8mocn506JPVjab2MGLRnCDcC0BKVBqY7wqbkGy1pHnbJPoo=.sKLm4xKVnEfbYMzYsHZIYcXfPt2soPgWhVLiJ35htyE=.web; u=2y7rcusd.psxc9a.1lc4q5ogi2900; tmr_lvid=2b65124eda4cc7012869344c58428214; tmr_lvidTS=1702044174392; _ym_uid=1702044175999009250; adrcid=AUMnqFXmD8Y1OXl_jYF1hSw; uxs_uid=7c247960-95d2-11ee-9f59-ada3bc1b2bbc; __upin=d9SIlydAFpwg49C6OdieBw; __zzatw-avito=MDA0dBA=Fz2+aQ==; __zzatw-avito=MDA0dBA=Fz2+aQ==; adrcid=AUMnqFXmD8Y1OXl_jYF1hSw; __ddg1_=Dhkdi3kP0rEPVfHgn7eA; adrcid=AUMnqFXmD8Y1OXl_jYF1hSw; _buzz_fpc=JTdCJTIydmFsdWUlMjIlM0ElN0IlMjJ1ZnAlMjIlM0ElMjI2Nzc3OTg0MDdjYzhiMWEwYWFiZTMyMzg0MjRmNzJjOSUyMiUyQyUyMmJyb3dzZXJWZXJzaW9uJTIyJTNBJTIyMTI1LjAlMjIlMkMlMjJ0c0NyZWF0ZWQlMjIlM0ExNzE3NTg1NjQyMDA3JTdEJTJDJTIycGF0aCUyMiUzQSUyMiUyRiUyMiUyQyUyMmRvbWFpbiUyMiUzQSUyMi53d3cuYXZpdG8ucnUlMjIlMkMlMjJleHBpcmVzJTIyJTNBJTIyVGh1JTJDJTIwMDUlMjBKdW4lMjAyMDI1JTIwMTElM0EwNyUzQTIyJTIwR01UJTIyJTJDJTIyU2FtZVNpdGUlMjIlM0ElMjJMYXglMjIlN0Q=; _buzz_aidata=JTdCJTIydmFsdWUlMjIlM0ElN0IlMjJ1ZnAlMjIlM0ElMjJkOVNJbHlkQUZwd2c0OUM2T2RpZUJ3JTIyJTJDJTIyYnJvd3NlclZlcnNpb24lMjIlM0ElMjIxMjUuMCUyMiUyQyUyMnRzQ3JlYXRlZCUyMiUzQTE3MTc1ODU2NDIwNjYlN0QlMkMlMjJwYXRoJTIyJTNBJTIyJTJGJTIyJTJDJTIyZG9tYWluJTIyJTNBJTIyLnd3dy5hdml0by5ydSUyMiUyQyUyMmV4cGlyZXMlMjIlM0ElMjJUaHUlMkMlMjAwNSUyMEp1biUyMDIwMjUlMjAxMSUzQTA3JTNBMjIlMjBHTVQlMjIlMkMlMjJTYW1lU2l0ZSUyMiUzQSUyMkxheCUyMiU3RA==; _ga_DQYB5Z23VK=GS1.2.1717675259.3.1.1717675308.0.0.0; _ym_d=1718088991; yandex_monthly_cookie=true; cfidsw-avito=xJJALdKyIsMNh5b4m4TYkgkSB0DWQTVSygGIsuLfzJ8zyJB/mCo6jISgclACMjrsN/EQtfQb5dPdVeXLgP5OILlKeAxWovemkz4h1bUr5Ne3KdItNpCh046oOXe98xyzxkpmty37NzhJD21XsvGyVew4JkmtumwEZUvf; cfidsw-avito=xJJALdKyIsMNh5b4m4TYkgkSB0DWQTVSygGIsuLfzJ8zyJB/mCo6jISgclACMjrsN/EQtfQb5dPdVeXLgP5OILlKeAxWovemkz4h1bUr5Ne3KdItNpCh046oOXe98xyzxkpmty37NzhJD21XsvGyVew4JkmtumwEZUvf; sessid=37acdad71abb5a5fcd0e3f9245d3dc3c.1718089401; cfidsw-avito=CXVYIvq78UZotgxu5443/ZLpXeW7SwwwBKkqM2owhAUFPtd2Oa0FcK2GOwSHF5y4SZt30+uw6YjP62j9NnZEMirdH7+SD1b8WvuvoByBeqdf9dExYa09rJQkbp+eTU4BHEOoThmhTQ8yucAZ+E6+FqB9ujfRFEfVkDpP; _ga_ZJDLBTV49B=GS1.1.1718089430.14.0.1718089430.0.0.0; _ga_WW6Q1STJ8M=GS1.1.1718089430.17.0.1718089430.0.0.0; _ga=GA1.1.1628045832.1702044174; SEARCH_HISTORY_IDS=1; buyer_popup_location=0; buyer_laas_location=636370; buyer_location_id=653240; gMltIuegZN2COuSe=EOFGWsm50bhh17prLqaIgdir1V0kgrvN; _gcl_au=1.1.2115663959.1718260570; luri=sankt-peterburg; _ym_isad=2; adrdel=1718260572242; adrdel=1718260572242; domain_sid=wCWfUQosfT7qCIjcI31wf%3A1718260572278; f=5.0c4f4b6d233fb90636b4dd61b04726f147e1eada7172e06c47e1eada7172e06c47e1eada7172e06c47e1eada7172e06cb59320d6eb6303c1b59320d6eb6303c1b59320d6eb6303c147e1eada7172e06c8a38e2c5b3e08b898a38e2c5b3e08b890df103df0c26013a7b0d53c7afc06d0b2ebf3cb6fd35a0ac0df103df0c26013a8b1472fe2f9ba6b9ad42d01242e34c7968e2978c700f15b6831064c92d93c3903815369ae2d1a81d4e0d8a280d6b65f00df103df0c26013aba0ac8037e2b74f9268a7bf63aa148d22ebf3cb6fd35a0ac8b1472fe2f9ba6b97b0d53c7afc06d0b71e7cb57bbcb8e0f03c77801b122405c03c77801b122405c2da10fb74cac1eab2ebf3cb6fd35a0ac20f3d16ad0b1c546b892c6c84ad16848a9b4102d42ade879dcb5a55b9498f642baf80da35caa52287658d123ba269e0348fe2c34fc387c28b1d542c59d0bd3144525907271a6a0eb69a2241f7870d4d8f4857885524eb1f691e52da22a560f550df103df0c26013a0df103df0c26013aaaa2b79c1ae92595ce9d93241aa8fe50bfd4c0c04d7e37973de19da9ed218fe2c772035eab81f5e123f5e56da7ec04f4a1a4201a28a6ec9b059080ed9becc4cd; ft="v23t6NTAPm7Dcy4kCGDTbLpFUd3NBWxHcfiqLcvC0yZ3Dl2XiRu0UMqnPrpZ0fx/tJG9TNsXTwlCozcP9KADGgfbRi4PGubI4IPonn/laK1H1UO5N72emYY9Lsqi5DB0Ls1H4gz3P23zrcbygo+zTI8XN1Y0AMzL0ojlusG+7a3dxJi4Ldkr4PapYwB+LLSa"; v=1718283063; cartCounter=0; dfp_group=94; isLegalPerson=0; _ym_visorc=b; tmr_detect=0%7C1718283269879; sx=H4sIAAAAAAAC%2F1zQTW7jMAxA4btonQCiKJFibyOJlBPnZ2ondZwWvvtgFik6vcCHh%2FflYm9G3rh4yiX5zhC7QSTW0Fttyb19ucW9ubAO18dlwfl5Hcbp8yqL3O7qJ6vDclBxO2fuDRgykhDjtnOs1TcmwhZi9YBQGYR74mBJAuhLTqnhn5bKGY9jXpfTNI9Ljcs7z7dAij9lJoJt50oTLY2waEkVtUiRBBCrGnth5ZfMz%2FuMh%2Bt46uuEz2nqR8iRSMbHuNLh9H8z8bZzCuDBPPWcknBXXxh6saYxZ8kaXjKcl%2BMjvsP9UCA%2FOT57nHSSz2k93sjTLzlsO2eWaygcNGrqDQXRG9eMxatpjvLdPNtwGj4ML0NST3ydz%2FPaV%2FkoYbxd8Jf870Y3sZCgttQTe%2FJWALvVIGbqqX83M6qQtLivRmUfvW%2F7YpD3nKovqWNgSD%2F4KAl52%2F4GAAD%2F%2F1BmwgAiAgAA; abp=0; pageviewCount=82; _ga_M29JC28873=GS1.1.1718283067.61.1.1718283274.48.0.0
        Priority:u=1, i
        Referer:{url}
        Sec-Ch-Ua:"Google Chrome";v="125", "Chromium";v="125", "Not.A/Brand";v="24"
        Sec-Ch-Ua-Mobile:?0
        Sec-Ch-Ua-Platform:"Windows"
        Sec-Fetch-Dest:empty
        Sec-Fetch-Mode:cors
        Sec-Fetch-Site:same-origin
        User-Agent:Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/125.0.0.0 Safari/537.36
        X-Requested-With:XMLHttpRequest
        X-Source:client-browser"""

    headers = parse_header(headers)

    source = f'https://www.avito.ru/js/1/map/items?categoryId=24&locationId={location}&correctorMode=1&page={page}&map=eyJ6b29tIjo4fQ%3D%3D&params%5B201%5D=1059&params%5B499%5D=5254&verticalCategoryId=1&rootCategoryId=4&localPriority=0&disabledFilters%5Bids%5D%5B0%5D=byTitle&disabledFilters%5Bslugs%5D%5B0%5D=bt&viewPort%5Bwidth%5D=546&viewPort%5Bheight%5D=765&limit={limit}&countAndItemsOnly=1'

    if type == 'sdam':
        source = f'https://www.avito.ru/js/1/map/items?categoryId=24&locationId={location}&correctorMode=0&page={page}&map=eyJ6b29tIjo4fQ%3D%3D&params%5B201%5D=1060&params%5B504%5D=5256&verticalCategoryId=1&rootCategoryId=4&localPriority=0&disabledFilters%5Bids%5D%5B0%5D=byTitle&disabledFilters%5Bslugs%5D%5B0%5D=bt&viewPort%5Bwidth%5D=672&viewPort%5Bheight%5D=765&limit={limit}&countAndItemsOnly=1'
    
    if district:
        source += f'&districtId%5B0%5D={district}'
        # source = f'https://www.avito.ru/js/1/map/items?categoryId=24&locationId={location}&districtId%5B0%5D={district}&correctorMode=1&page={page}&map=eyJ6b29tIjo3fQ%3D%3D&params%5B201%5D=1059&params%5B499%5D=5254&params%5B110688%5D=458589&verticalCategoryId=1&rootCategoryId=4&localPriority=0&disabledFilters%5Bids%5D%5B0%5D=byTitle&disabledFilters%5Bslugs%5D%5B0%5D=bt&viewPort%5Bwidth%5D=500&viewPort%5Bheight%5D=748&limit={limit}&countAndItemsOnly=1'

    proxies = { 'http' : 'http://user157163:riu52p@149.126.247.207:5534'} 

    for req in range(5):
        if req != 0:
            print('Попытка {}'.format(req))
        try:
            resp = session.get(
                f"{source}",
                headers=headers
            )
    
            if 'status' in resp:
                print('status')
                resp = session.get(
                    f"{source}",
                    headers=headers,
                    proxies = proxies
                )

            if 'error' not in resp:
                break
        except Exception as e:
            print('ERROR')
            print(e)
            resp = session.get(
                f"{source}",
                headers=headers,
                proxies = proxies
            )
            
    if resp.content == b'{}':
        return {}
        
    if resp.headers['content-encoding'] == 'zstd':
        response = decod_response(resp.content)
    else:
        response = resp.content
    # print(resp.content)
    return json.loads(response)


def get_data(type, page, limit, location, district):
    if district:
        district_code = districts[district]
    else:
        district_code = None
    json = get_json(type, page, limit, location, district_code)
        
    if not json:
        return False
        
    try:
        data = json['items']
    except:
        print(json)
        return False
        
    local = [
            {
                "url": f'https://www.avito.ru{obj["urlPath"]}',
                'id' : obj['id'],
                'name' : obj['title'],
                'type' : type,
                'seller' : '' if not obj['iva']['UserInfoStep'] or 'UserInfoStep' not in obj['iva']\
                            else obj['iva']['UserInfoStep'][0]['payload']['profile']['title'] ,
                'square' : '' if not re.search('([\d|.|,]+)м²', obj['title'].replace('\xa0', '') )
                           else re.search('([\d|.|,]+)м²', obj['title'].replace('\xa0', '') )[0],
                'price' : re.search('[\d]+' ,str(obj['priceDetailed']['value']))[0],
                'pricem2' : '' if not obj['normalizedPrice']
                            else re.search('[\d]+', obj['normalizedPrice'].replace('\xa0', ''))[0], 
                'timestamp_published' : obj['sortTimeStamp'],
                'address' : obj['geo']['formattedAddress'],
                'picture' : '' if not obj['images'] else obj['images'][0][list(obj['images'][0].keys())[0]],
                'metro' : '' if not obj['geo']['geoReferences'] else obj['geo']['geoReferences'][0]['content'],
                'time_to_metro' : '' if not obj['geo']['geoReferences'] or 'afterWithIcon' not in obj['geo']['geoReferences'][0]\
                                  else obj['geo']['geoReferences'][0]['afterWithIcon']['text'],
                'distance_to_metro' : '' if not obj['geo']['geoReferences'] or not 'after' in obj['geo']['geoReferences'][0] \
                                      else obj['geo']['geoReferences'][0]['after'],
                'date_published' : obj['iva']['DateInfoStep'][0]['payload']['absolute'],
                'description' : obj['description'],
                'location': obj['location']['name'],
                'latitude' : obj['coords']['lat'],
                'longitude' : obj['coords']['lng'],
                'type_deal': 'sale' if type != 'sdam' else 'rent',
                'district' : district
            }
            for obj in data
        ]
    
    return local

# Сбор данных

In [8]:
alldata = []

# Лен область

In [9]:
page = 1
limit = 50
district_code = None
request = get_json(types[0], page, limit, list(meta.values())[0], district_code)

In [10]:
request

{'url': '/leningradskaya_oblast/kvartiry/prodam/vtorichka-ASgBAgICAkSSA8YQ5geMUg?context=&localPriority=0&map=eyJ6b29tIjo4fQ%3D%3D',
 'totalCount': 12278,
 'items': [{'id': 3550916779,
   'categoryId': 24,
   'locationId': 636480,
   'isVerifiedItem': False,
   'urlPath': '/volosovo/kvartiry/2-k._kvartira_42_m_15_et._3550916779',
   'title': '2-к. квартира, 42\xa0м², 1/5\xa0эт.',
   'description': 'Уютная теплая квартира в доме уникальной локации! Квартира с хорошей планировкой. Окна выходят на две стороны север и юг. Комнаты изолированные 17.5 и 14.5 м. Кв. Раздельный санузел. Рядом с домом у продавца есть огород, который можно приобрести за отдельную плату. Менее чем в 300-х метрах от дома расположен уникальный памятник природы регионального значения Музей-Усадьба Н. К. Рериха в Изваре, которая сыграла ключевое значение в жизни выдающегося художника, археолога и философа. Для него усадьба стала не только родовым гнездом, но также источником вдохновения и творчества. Вместе с квартиро

In [11]:
limit = 50

for type in types:
    page = 1
    print(type)
    while True:
        for _ in range(3):
            try:
                local = get_data(type, page, limit, list(meta.values())[0], None  )
            except:
                pass
    
        if not local:
            break
        
        print(f'На странице {page} собраны {len(local)} объявлений')
        alldata += local
        page += 1
        sleep(random.randint(1, 5))


novostroyka
На странице 1 собраны 50 объявлений
На странице 2 собраны 50 объявлений
На странице 3 собраны 49 объявлений
На странице 4 собраны 50 объявлений
На странице 5 собраны 50 объявлений
На странице 6 собраны 50 объявлений
На странице 7 собраны 50 объявлений
На странице 8 собраны 50 объявлений
На странице 9 собраны 50 объявлений
На странице 10 собраны 48 объявлений
На странице 11 собраны 50 объявлений
На странице 12 собраны 50 объявлений
На странице 13 собраны 50 объявлений
На странице 14 собраны 49 объявлений
На странице 15 собраны 50 объявлений
На странице 16 собраны 50 объявлений
На странице 17 собраны 50 объявлений
На странице 18 собраны 50 объявлений
На странице 19 собраны 50 объявлений
На странице 20 собраны 50 объявлений
На странице 21 собраны 50 объявлений
На странице 22 собраны 50 объявлений
На странице 23 собраны 50 объявлений
На странице 24 собраны 50 объявлений
На странице 25 собраны 49 объявлений
На странице 26 собраны 50 объявлений
На странице 27 собраны 50 объявлени

# Санкт Петербург

In [12]:
limit = 100

for key, value in list(districts.items()):
    print(key)
    for type in types:
        page = 1
        print(type)
        while True:
            for _ in range(3):
                try:
                    local = get_data(type, page, limit, list(meta.values())[1], key)
                except:
                    pass
                    
            if not local:
                break
            
            print(f'На странице {page} собраны {len(local)} объявлений')
            alldata += local
            page += 1
            sleep(random.randint(1, 5))


Адмиралтейский
novostroyka
На странице 1 собраны 50 объявлений
На странице 2 собраны 50 объявлений
На странице 3 собраны 49 объявлений
На странице 4 собраны 50 объявлений
На странице 5 собраны 50 объявлений
На странице 6 собраны 50 объявлений
На странице 7 собраны 50 объявлений
На странице 8 собраны 50 объявлений
На странице 9 собраны 50 объявлений
На странице 10 собраны 50 объявлений
На странице 11 собраны 50 объявлений
На странице 12 собраны 49 объявлений
На странице 13 собраны 50 объявлений
На странице 14 собраны 50 объявлений
На странице 15 собраны 48 объявлений
На странице 16 собраны 50 объявлений
На странице 17 собраны 50 объявлений
На странице 18 собраны 50 объявлений
На странице 19 собраны 50 объявлений
На странице 20 собраны 50 объявлений
На странице 21 собраны 50 объявлений
На странице 22 собраны 50 объявлений
На странице 23 собраны 50 объявлений
На странице 24 собраны 50 объявлений
На странице 25 собраны 49 объявлений
На странице 26 собраны 49 объявлений
На странице 27 собра

In [13]:
new_data = pd.DataFrame(alldata).drop_duplicates().reset_index(drop = True)
new_data['date_supple'] = new_data['timestamp_published'].apply(lambda x: datetime.fromtimestamp(int(str(x)[:-3])).strftime('%d.%m.%Y'))


In [14]:
new_data

Unnamed: 0,url,id,name,type,seller,square,price,pricem2,timestamp_published,address,...,time_to_metro,distance_to_metro,date_published,description,location,latitude,longitude,type_deal,district,date_supple
0,https://www.avito.ru/volosovo/kvartiry/2-k._kv...,3550916779,"2-к. квартира, 42 м², 1/5 эт.",novostroyka,Сити-Недвижимость,42м²,1990000,47381,1732551632000,"Ленинградская область, Волосовский район, Раби...",...,,,25 ноября 19:20,Уютная теплая квартира в доме уникальной локац...,Волосово,59.35353723219248,29.52307167591856,sale,,25.11.2024
1,https://www.avito.ru/volosovo/kvartiry/2-k._kv...,3677618991,"2-к. квартира, 45 м², 4/5 эт.",novostroyka,,45м²,2550000,56667,1731408082000,"Ленинградская область, Волосовский район, Раби...",...,,,12 ноября 13:41,"Пpoдaётcя светлaя, уютнaя, тёплая двухкомнатна...",Волосово,59.353585263612715,29.52279718429441,sale,,12.11.2024
2,https://www.avito.ru/volosovo/kvartiry/1-k._kv...,4254626126,"1-к. квартира, 30 м², 5/5 эт.",novostroyka,Сити-Недвижимость,30м²,1350000,45000,1732104982000,"Ленинградская область, Волосовский район, Раби...",...,,,20 ноября 15:16,Продаётся квартира в посёлке Извара. До станци...,Волосово,59.355154,29.523186,sale,,20.11.2024
3,https://www.avito.ru/volosovo/kvartiry/1-k._kv...,4236748120,"1-к. квартира, 31 м², 5/5 эт.",novostroyka,,31м²,1400000,45161,1730989350000,"Ленинградская область, Волосовский район, Раби...",...,,,7 ноября 17:22,В квартире — центральная вода холодная и горяч...,Волосово,59.35515594,29.52318573,sale,,07.11.2024
4,https://www.avito.ru/volosovo/kvartiry/dolya_v...,3264035314,"Доля в 3-к. квартире, 62,5 м², 2/5 эт.",novostroyka,ЗАХАР,"62,5м²",500000,8000,1730699114000,"Ленинградская область, Волосовский район, Раби...",...,,,4 ноября 08:45,Продам долю 1/3 рядом с домом есть магазин пят...,Волосово,59.35520483516884,29.52285919758947,sale,,04.11.2024
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
76415,https://www.avito.ru/sankt-peterburg/kvartiry/...,4689581171,"3-к. квартира, 90 м², 3/7 эт.",sdam,GOLDEN HOME,90м²,285000,,1731098198000,"Санкт-Петербург, Смольный пр-т, 17",...,21–30 мин.,"1,9 км",8 ноября 23:36,Предлагается в аренду на длительный срок светл...,Санкт-Петербург,59.944292,30.39651,rent,Центральный,08.11.2024
76416,https://www.avito.ru/sankt-peterburg/kvartiry/...,4060682331,"2-к. квартира, 74,9 м², 3/8 эт.",sdam,Петербургская Недвижимость,"74,9м²",220000,,1732979461000,"Санкт-Петербург, ул. Смольного, 2к2",...,от 31 мин.,2 км,30 ноября 18:11,В ЖК Смольный парк в доме премиум класса на дл...,Санкт-Петербург,59.951988,30.393114,rent,Центральный,30.11.2024
76417,https://www.avito.ru/sankt-peterburg/kvartiry/...,4413064302,"1-к. квартира, 59 м², 4/8 эт.",sdam,,59м²,170000,,1731233931000,"Санкт-Петербург, Орловская улица, 1к4",...,от 31 мин.,"2,1 км",10 ноября 13:18,*Сдаётся стильная квартира в центре Санкт-Пете...,Санкт-Петербург,59.95308304,30.39288902,rent,Центральный,10.11.2024
76418,https://www.avito.ru/sankt-peterburg/kvartiry/...,4430666182,"4-к. квартира, 171 м², 4/8 эт.",sdam,,171м²,500000,,1730912628000,"Санкт-Петербург, улица Смольного, 4к2",...,от 31 мин.,"2,1 км",6 ноября 20:03,Предлагаем в аренду видовую четырехкомнатную к...,Санкт-Петербург,59.9521074713393,30.394944231556067,rent,Центральный,06.11.2024


In [15]:
new_data['square'] = new_data['square'].str.replace('м²', '')

def rom(x: str):
    if 'студия' not in x:
        return '' if not re.findall('([\d]{1})-к.', x) else re.findall('([\d]{1})-к', x)[0]
    return 'студия'

def floor(x: str):
    return '' if not re.findall('([\d]{1,})/', x) else re.findall('([\d]{1,})/', x)[0]

def floors(x: str):
    return '' if not re.findall(r'/([\d]{1,})', x) else re.findall(r'/([\d]+)', x)[0]

new_data['rooms'] = new_data['name'].apply(lambda x: rom(x))
new_data['date_supple'] = new_data['timestamp_published'].apply(lambda x: datetime.fromtimestamp(int(str(x)[:-3])).strftime('%d.%m.%Y'))

new_data['floor'] =  new_data['name'].apply(lambda x: floor(x))
new_data['floors'] = new_data['name'].apply(lambda x: floors(x))


In [16]:
key = 'url'
update_data(new_data, path_sales, path_supply, key)

A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  sold_supply.loc[:, 'sale_date'] = date


(24815, 23654)