In [1]:
import pandas as pd
import numpy

In [2]:
# База прайс-листов (новостройки), Выгрузка на cian, вся РФ
df = pd.read_excel('Cian_Data_b2b.xlsx', sheet_name = '06-price-cian')

In [3]:
# База прайс-листов (вторичка), Выгрузка на cian, вся РФ
dt = pd.read_excel('Cian_Data_b2b.xlsx', sheet_name = '07_secondary')

# Функция для обработки 06-price-cian

In [4]:
def price_cian(df):
    
    # Отбор признаков
    columns = ['id', 'bargainterms_price', 'bargainterms_currency',
               'bargainterms_saletype','roomscount', 'totalarea',
               'livingarea', 'kitchenarea', 'floornumber',
               'jk_house_flat_flatnumber', 'jk_house_flat_flattype','decoration',
               'repairtype', 'allroomsarea', 'undergrounds_name_0',
               'undergrounds_time_0', 'undergrounds_transporttype_0',
               'acv_geo_gorod', 'acv_geo_gorod_raw', 'acv_geo_house',
               'acv_geo_region', 'acv_geo_street', 'acv_geo_dis_mikroraion']

    df = df[columns]
    
    # Отбор признаков у которых <90% пропусков
    nan_proc = round((df.isna().sum() / df.shape[0]) * 100, 2).to_frame()
    nan_proc.columns = ['NaN%']
    new_columns = nan_proc[nan_proc['NaN%'] < 90].index

    df = df[new_columns]
    
    # Создание ссылок
    links = list(df['id'].apply(lambda x: 'https://www.cian.ru/sale/flat/'+str(x)+'/').values)
    df['id'] = links
    
    # Выбор региона Москва и Область
    df = df[(df['acv_geo_region'] == 'Московская') | (df['acv_geo_region'] == 'Москва')]
    
    # Перевод столбцов
    df.columns = ['Ссылка', 'Цена', 'Валюта', 'Тип договора','Число комнат',
                  'Площадь общая','Площадь жилая', 'Площадь кухни', 'Этаж', 
                  'Номер на этаже', 'Тип помещения', 'Отделка', 'Метражи комнат',
                  'Метро', 'Метро время', 'Метро доступность', 
                  'Город', 'Городской округ', 'Номер дома', 'Регион', 'Улица']
    
    # Расположение в другом порядке
    columns = ['Цена', 'Валюта', 'Тип договора','Число комнат',
               'Площадь общая','Площадь жилая', 'Площадь кухни', 'Этаж', 
               'Номер на этаже', 'Тип помещения', 'Отделка', 'Метражи комнат',
               'Метро', 'Метро время', 'Метро доступность','Город', 
               'Городской округ', 'Номер дома', 'Регион', 'Улица', 'Ссылка']

    df = df[columns]
    
    # Удаление столбцов
    df.drop(['Валюта', 'Метро доступность', 'Метражи комнат'], axis = 1, inplace = True)
    
    # Ставим метки для квартир (новостройки)
    df.insert(1, 'Тип квартиры', 'Новостройка')
    
    # Возвращаем обработанный набор данных
    return df

In [5]:
df = price_cian(df)

In [6]:
df.head(3)

Unnamed: 0,Цена,Тип квартиры,Тип договора,Число комнат,Площадь общая,Площадь жилая,Площадь кухни,Этаж,Номер на этаже,Тип помещения,Отделка,Метро,Метро время,Город,Городской округ,Номер дома,Регион,Улица,Ссылка
0,8536067.0,Новостройка,свободная продажа,2.0,56.45,27.1,14.2,1,5.0,2-56,,Домодедовская,8.0,Ленинский,,к16,Московская,Миниполис Дивное ЖК,https://www.cian.ru/sale/flat/248144206/
1,,Новостройка,дду,1.0,44.43,13.9,18.2,3,2.0,1-44.43,,Депо,17.0,Москва,Москва,,Москва,Люблинская,https://www.cian.ru/sale/flat/248154196/
2,,Новостройка,дду,1.0,44.43,13.9,18.2,7,2.0,1-44.43,,Депо,17.0,Москва,Москва,,Москва,Люблинская,https://www.cian.ru/sale/flat/248154209/


In [7]:
df.to_excel('price-cian.xlsx', index = False)

# Функция для обработки 07_secondary

In [8]:
def secondary(dt):
    
    # Выбираем признаки
    columns = ['URL', 'BARGAINTERMS_PRICE', 'ADDRESS', 'BUILDING_ID',
               'NEW_BUILDING_TYPE', 'BT_NAME', 'BWT_NAME', 'WDT_NAME', 'FLAT_AREA_TOTAL',
               'FLOORS_MAX', 'YEAR_BUILT', 'BARGAINTERMS_SALETYPE', 'ROOMSCOUNT',
               'TOTALAREA', 'LIVINGAREA', 'KITCHENAREA', 'REPAIRTYPE',
               'FLOORNUMBER', 'GEO_REGION', 'GEO_CITY', 'GEO_REGION_DISTRICT']
    dt = dt[columns] 
    
    # Переводим признаки
    dt.columns = ['Ссылка', 'Цена', 'Адрес', 'Уникальный номер адреса', 'Уникальный номер корпуса',
                  'Тип дома', 'Тип стен дома', 'Этаж', 'Плащадь квартир', 'Всего этажей', 'Год постройки',
                  'Тип договора', 'Число комнат', 'Площадь общая', 'Площадь жидая', 'Площадь кухни', 'Тип ремонта',
                  'Номер этажа', 'Регион', 'Город', 'Район']
    
    # Выбираем Москву и Московскую область
    dt = dt[(dt['Регион'] == 'Московская') | (dt['Регион'] == 'Москва')]
    
    # Перестановка признаков
    columns = ['Цена', 'Адрес', 'Уникальный номер адреса', 'Уникальный номер корпуса', 
               'Тип дома', 'Тип стен дома', 'Этаж', 'Плащадь квартир', 'Всего этажей', 
               'Год постройки', 'Тип договора', 'Число комнат', 'Площадь общая', 'Площадь жидая',
               'Площадь кухни', 'Тип ремонта', 'Номер этажа', 'Регион', 'Город', 'Район', 'Ссылка']

    dt = dt[columns]
    
    # Ставим метки для квартир (вторичное жилье)
    dt.insert(1, 'Тип квартиры', 'Вторичное')
    
    return dt

In [9]:
dt = secondary(dt)
dt.head(3)

Unnamed: 0,Цена,Тип квартиры,Адрес,Уникальный номер адреса,Уникальный номер корпуса,Тип дома,Тип стен дома,Этаж,Плащадь квартир,Всего этажей,...,Число комнат,Площадь общая,Площадь жидая,Площадь кухни,Тип ремонта,Номер этажа,Регион,Город,Район,Ссылка
0,10750000,Вторичное,"Россия, Московская область, Котельники, улица ...",,Квартиры,,,,44855.0,23.0,...,3.0,116.9,75.0,12.7,требуется ремонт,2,Московская,Котельники,Люберецкий,https://cian.ru/sale/flat/248058617
1,16000000,Вторичное,"Московская область, Ленинский район, Суханово ...",,,,,,,,...,5.0,127.0,98.0,10.0,,4,Московская,,Ленинский,https://cian.ru/sale/flat/248110937
2,12300000,Вторичное,"Московская область, Котельники городской округ...",,Квартиры,,,,44855.0,23.0,...,3.0,108.0,70.0,17.0,евроремонт,9,Московская,Котельники,Люберецкий,https://cian.ru/sale/flat/248155168


In [10]:
dt.to_excel('secondary.xlsx', index = False)