In [150]:
import pandas as pd
import numpy as np
import tqdm
import warnings
import yaml
import math

import os

warnings.filterwarnings('ignore')

# Описание задачи

Задача предсказания цен на квартиры в Москве - задача регрессии

Она может быть важна для агентств недвижимости, инвесторов, застройщиков и других участников рынка недвижимости. На основе предсказаний цен можно делать более точные прогнозы доходности инвестиций, планировать стратегии продаж и закупки объектов недвижимости, а также определять ценообразование на рынке.

# Описание данных:

- author - автор объявления

- author_type - тип автора (real_estate_agent - агентство недвижимости, homeowner - собственник, realtor - риелтор, official_representative - ук оф.представитель, representative_developer - представитель застройщика, developer - застройщик, unknown - без указанного типа)

- link - ссылка на объявление

- city - город, в котором находится квартира

- deal_type - тип объявления, к примеру, долгосрочная, краткосрочная аренда, продажа ("rent_long", "rent_short", "sale")

- accommodation_type - вид жилья, к примеру, квартира, комната, дом, часть дома, таунхаус ("flat", "room", "house", "house-part", "townhouse")

- floor - этаж, на котором находится квартира

- floors_count - общее количество этажей в доме

- rooms_count - количество комнат в квартире

- total_meters - общая площадь

- price_per_m2 - стоимость на квадратный метр

- **price - стоимость квартиры (целевая переменная)**

- district - район, в котором находится квартира

- street - улица

- underground - метро

- residential_complex - название жилого комплекса

- line - ветка, на которой находится метро

- area - округ, в котором находится квартира

- eco_rating - экологический рейтинг района, в котром находится квартира

- insufficient_infrastructure - недостаточно инфраструктуры, %

- convenient_for_life - удобность для жизни, %

- very_convenient_for_life - очень комфортный для жизни, %

- few_entertainment - недостаточно мест для досуга и развлечений, %

- cultural - оценка культурных мест, %

- entertainment - оценка развлекательных мест, %

- cultural_entertainment - оценка культурно-развлекательных мест, %

- residential_infrastructure_rating - рейтинг жилой инфраструктуры 

- entertainment_infrastructure_rating - рейтинг развлекательной инфраструктуры 

- square - площадь района

- population - численность населения в районе

- housing_fund_area - площадь жилфонда

- line_count - количество пересадочных станций

- author_count - количество объявлений у автора

- author_more - флаг, который показывает что у автора больше двух объявлений

- floor_position - позиция этажа (2 - последний этаж, 1 -первый этаж, 0 - середина)

- house_category - категория дома в зависимости от количества этажей (1 - малоэтажные (1 - 2 этажа), 2 - средней этажности (3 - 5 этажей), 3 - многоэтажные (6-10), 4 - повышенной этажности (11 - 16 этажей), 5 - высотные (16-50 этажей), 6 - очень высотные (более 50 этажей))
- population_density - плотность населения района

In [151]:
config_path = '../config/params.yaml'
config = yaml.load(open(config_path, encoding='utf-8'), Loader=yaml.FullLoader)

preprocessing = config['preprocessing']
train = config['train']

считаем все файлы из папки

In [152]:
def read_all_df_folder(path: str, sep:str = None) -> pd.DataFrame:
    """
    Читает все файлы CSV из указанной папки и объединяет их в один датафрейм.
    :param path: путь к папке, содержащей файлы CSV
    :return: датафрейм
    """
    all_csv_data = []

    for filename in os.listdir(path):
        if filename.endswith('.csv'):
            df = pd.read_csv(os.path.join(path, filename), sep=sep)
            all_csv_data.append(df)

    df = pd.concat(all_csv_data, axis=0, ignore_index=True)
    return df

In [153]:
cian = read_all_df_folder('../data/true', ';')

In [154]:
cian.shape

(15458, 16)

In [155]:
cian.head()

Unnamed: 0,author,link,city,deal_type,accommodation_type,floor,floors_count,rooms_count,total_meters,price,district,street,underground,residential_complex,author_type,price_per_m2
0,Sminex-Интеко,https://www.cian.ru/sale/flat/281914898/,Москва,sale,flat,3,5,2,67.07,149930000,Тверской,,Площадь Революции,Ильинка 3/8 ЖК,,
1,MR Group,https://www.cian.ru/sale/flat/285682464/,Москва,sale,flat,3,10,2,62.7,34485000,Беговой,Северный ао,Белорусская,Слава ЖК,,
2,GloraX,https://www.cian.ru/sale/flat/277738124/,Москва,sale,flat,5,21,2,77.85,34069999,Беговой,1-я Ямского Поля,Белорусская,Глоракс Премиум Белорусская,,
3,ANT Development,https://www.cian.ru/sale/flat/283856161/,Москва,sale,flat,27,32,2,50.9,40703799,Дорогомилово,Поклонная,Парк Победы,Поклонная 9,,
4,Sminex-Интеко,https://www.cian.ru/sale/flat/281051002/,Москва,sale,flat,6,14,2,85.6,187560000,Якиманка,,Полянка,Лаврушинский ЖК,,


удалим дубликаты

In [156]:
def drop_duplicates_df(df: pd.DataFrame, subset: list = None) -> pd.DataFrame:
    """
    Удаляет дубликаты из указанного датафрейма
    :param df: исходный датафрейм
    :return: датафрейм
    """

    df.drop_duplicates(inplace=True, subset=subset)
    return df

In [157]:
cian = drop_duplicates_df(cian)

In [158]:
cian.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 13302 entries, 0 to 15413
Data columns (total 16 columns):
 #   Column               Non-Null Count  Dtype  
---  ------               --------------  -----  
 0   author               13142 non-null  object 
 1   link                 13302 non-null  object 
 2   city                 13302 non-null  object 
 3   deal_type            13302 non-null  object 
 4   accommodation_type   13302 non-null  object 
 5   floor                13302 non-null  int64  
 6   floors_count         13302 non-null  int64  
 7   rooms_count          13302 non-null  int64  
 8   total_meters         13302 non-null  float64
 9   price                13302 non-null  int64  
 10  district             11965 non-null  object 
 11  street               10728 non-null  object 
 12  underground          12987 non-null  object 
 13  residential_complex  8533 non-null   object 
 14  author_type          9650 non-null   object 
 15  price_per_m2         9756 non-null  

сохраним унакальные значения признаков

In [159]:
def save_unique_data(data: pd.DataFrame, drop_columns: list,
                           target_column: str,
                           unique_values_path: str) -> None:
    """
    Сохранение словаря с признаками и уникальными значениями
    :param drop_columns: список с признаками для удаления
    :param data: датасет
    :param target_column: целевая переменная
    :param unique_values_path: путь до файла со словарем
    :return: None
    """
    unique_df = data.drop(columns=drop_columns + [target_column],
                          axis=1,
                          errors="ignore")
    dict_unique = {
        key: unique_df[key].unique().tolist()
        for key in unique_df.columns
    }
    with open(unique_values_path, "w") as file:
        json.dump(dict_unique, file)

In [160]:
save_unique_data(
    data=cian,
    drop_columns=preprocessing["drop_columns"],
    target_column=preprocessing["target_column"],
    unique_values_path=preprocessing["unique_values_path"],
)

прочитаем и присоеденим к основному датафрейму дополнительные признаки

In [161]:
def read_df(path: str, sep: str = None, encoding: str = None) -> pd.DataFrame:
    """
    Читает файл CSV и возвращает его содержимое в виде датафрейма.
    :param path: путь к папке, содержащей файлы CSV
    :param sep: опциональный разделитель столбцов
    :param encoding: опциональная кодировка файла
    :return: датафрейм
    """
    df = pd.read_csv(path,
                     sep=sep,
                     encoding=encoding)
    return df

In [162]:
underground_line = read_df('../data/add/underground.csv',
                           sep=';',
                           encoding='cp1251')

In [163]:
geo = read_df('../data/add/Moscow_Population_2018.csv')

In [164]:
eco = read_df('../data/add/eco.csv')

In [165]:
rating = read_df('../data/add/raiting_yandex.csv',
                 encoding='cp1251',
                 sep='\t')

In [166]:
def df_merge(df: pd.DataFrame,
                        data_list: list,
                        columns: list,
                        left_on_list: list,
                        right_on_list: list,
                        how: str) -> pd.DataFrame:
    """
    Объединяет таблицу `df` с несколькими таблицами из списка `data_list` по указанным столбцам.
    :param df: основная таблица
    :param data_list: список таблиц для объединения с основной таблицей
    :param columns: список столбцов из дополннительных таблиц, которые нужно объединить с основной
    :param left_on_list: список столбцов для объединения в `df` для каждой таблицы
    :param right_on_list: список столбцов для объединения в таблицах из `data_list` для каждой таблицы
    :param how: способ объединения
    :return: объединенную таблицу
    """
    
    
    for data, col, left, right in zip(data_list, columns, left_on_list, right_on_list):
        if col == None:
            col = list(data.columns)
        df = df.merge(data[col],
                      left_on=left,
                      right_on=right,
                      how=how).drop_duplicates()
    return df

In [167]:
df_add = [underground_line, eco, rating, geo]

In [168]:
cian = df_merge(cian,
                df_add,
                preprocessing['df_add_col'],
                preprocessing['df_add_left'],
                preprocessing['df_add_right'],
                preprocessing['how'],)

In [169]:
def drop_column(df: pd.DataFrame, column_name: list) -> pd.DataFrame:
    """
    Удаляет указанные столбецы из датафрейма.
    :param df: исходный датафрейм
    :param column_name: имя столбца, который нужно удалить
    :return: датафрейм с удаленным столбцом
    """

    df = df.drop(column_name, axis=1)
    return df

In [170]:
cian.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 16209 entries, 0 to 16208
Data columns (total 35 columns):
 #   Column                               Non-Null Count  Dtype  
---  ------                               --------------  -----  
 0   author                               16006 non-null  object 
 1   link                                 16209 non-null  object 
 2   city                                 16209 non-null  object 
 3   deal_type                            16209 non-null  object 
 4   accommodation_type                   16209 non-null  object 
 5   floor                                16209 non-null  int64  
 6   floors_count                         16209 non-null  int64  
 7   rooms_count                          16209 non-null  int64  
 8   total_meters                         16209 non-null  float64
 9   price                                16209 non-null  int64  
 10  district                             14872 non-null  object 
 11  street                      

In [171]:
def rename_columns(df: pd.DataFrame, column_mapping: dict) -> pd.DataFrame:
    """
    Переименовывает столбцы указанного датафрейма согласно заданному отображению.
    :param df: исходный датафрейм
    :param column_mapping: словарь с отображением старых и новых имен столбцов
    :return: датафрейм
    """
    df = df.rename(columns=column_mapping)
    return df

In [172]:
cian = rename_columns(cian, preprocessing['rename_columns'])

In [173]:
def add_column_from_mapping(df: pd.DataFrame, column: str,
                            mapping_column: str) -> pd.DataFrame:
    """
    Добавляет новый признак с количеством уникальных значений в указанный датафрейм,
    используя значения из другого столбца.
    :param df: исходный датафрейм
    :param column: имя нового столбца, который будет добавлен
    :param mapping_column:имя столбца, из которого будут взяты значения для отображения
    :return: датафрейм с добавленным новым столбцом
    """
    df[column] = df[mapping_column].map(df[mapping_column].value_counts())
    return df

создадим новые признаки

In [174]:
cian = add_column_from_mapping(cian, 'line_count', 'line')

In [175]:
cian = add_column_from_mapping(cian, 'author_count', 'author')

In [176]:
def add_column_limit(df: pd.DataFrame,
                           column_name: str,
                           new_column_name: str,
                           threshold: int = 2) -> pd.DataFrame:
    """
    Добавляет новый столбец в указанный датафрейм, который указывает,
    превышает ли значение столбца заданный порог.
    :param df: исходный датафрейм
    :param column_name: имя столбца 'author_count'
    :param threshold: пороговое значение (по умолчанию 2)
    :return: датафрейм с добавленным столбцом 'author_more'
    """

    df[new_column_name] = df[column_name].apply(lambda x: 1
                                              if x > threshold else 0)
    return df

In [177]:
cian = add_column_limit(cian, 'author_count', 'author_more', threshold=2)

In [178]:
def get_floor_position(data: pd.Series)-> int: 
    """
    Определяет позицию этажа
    0 - среднии этажи
    1 - первый этаж 
    2 - последний этаж
    :param data: датафрейм
    :return: бинаризованные значения
    """
    if data['floor'] == 1:
        return 1
    elif data['floor'] == data['floors_count']:
        return 2
    else:
        return 0

In [179]:
cian['floor_position'] = cian.apply(lambda x: get_floor_position(x), axis=1)

In [180]:
def get_house_category(data: pd.Series)-> int: 
    """
    Эта функция подразделяет дома а категории в зависимости от количества этажей.
    По этажности жилые дома подразделяют на:
    - малоэтажные (1 - 2 этажа)
    - средней этажности (3 - 5 этажей)
    - многоэтажные (6-10)
    - повышенной этажности (11 - 16 этажей)
    - высотные (16-50 этажей)
    - очень высотные (более 50 этажей)
    :param data: датафрейм
    :return: бинаризованные значения
    """

    if data <= 2:
        return 1
    elif data > 2 and data <= 5:
        return 2
    elif data > 5 and data <= 10:
        return 3
    elif data > 10 and data <= 16:
        return 4
    elif data > 16 and data <= 50:
        return 5
    elif data > 50:
        return 6

In [181]:
cian['house_category'] = cian['floors_count'].apply(
    lambda x: get_house_category(x))

In [182]:
cian = drop_duplicates_df(cian, subset=preprocessing['drop_duplicates'])

In [183]:
cian.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 12159 entries, 0 to 16208
Data columns (total 40 columns):
 #   Column                               Non-Null Count  Dtype  
---  ------                               --------------  -----  
 0   author                               12026 non-null  object 
 1   link                                 12159 non-null  object 
 2   city                                 12159 non-null  object 
 3   deal_type                            12159 non-null  object 
 4   accommodation_type                   12159 non-null  object 
 5   floor                                12159 non-null  int64  
 6   floors_count                         12159 non-null  int64  
 7   rooms_count                          12159 non-null  int64  
 8   total_meters                         12159 non-null  float64
 9   price                                12159 non-null  int64  
 10  district                             10887 non-null  object 
 11  street                      

In [184]:
def remove_correlated_features(df: pd.DataFrame,
                                      threshold: float = 0.9) -> pd.DataFrame:
    """
    Удаляет признаки из указанного датафрейма, у которых корреляция превышает заданный порог.
    :param df: исходный датафрейм
    :param threshold: пороговое значение корреляции (по умолчанию 0.9)
    :return: датафрейм с удаленными признаками с высокой корреляцией
    """
    corr_matrix = df.corr().abs()
    upper_triangle = corr_matrix.where(
        pd.np.triu(pd.np.ones(corr_matrix.shape), k=1).astype(bool))
    high_corr_features = [
        column for column in upper_triangle.columns
        if any(upper_triangle[column] > threshold)
    ]
    df.drop(high_corr_features, axis=1, inplace=True)

    return df

In [185]:
cian = remove_correlated_features(cian)

In [186]:
cian.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 12159 entries, 0 to 16208
Data columns (total 37 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   author                          12026 non-null  object 
 1   link                            12159 non-null  object 
 2   city                            12159 non-null  object 
 3   deal_type                       12159 non-null  object 
 4   accommodation_type              12159 non-null  object 
 5   floor                           12159 non-null  int64  
 6   floors_count                    12159 non-null  int64  
 7   rooms_count                     12159 non-null  int64  
 8   total_meters                    12159 non-null  float64
 9   price                           12159 non-null  int64  
 10  district                        10887 non-null  object 
 11  street                          9754 non-null   object 
 12  underground                     

удалим коррелирующие признаки

In [187]:
cian = drop_column(cian, preprocessing['drop_columns'])

In [188]:
cian.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 12159 entries, 0 to 16208
Data columns (total 29 columns):
 #   Column                          Non-Null Count  Dtype  
---  ------                          --------------  -----  
 0   author                          12026 non-null  object 
 1   floor                           12159 non-null  int64  
 2   floors_count                    12159 non-null  int64  
 3   rooms_count                     12159 non-null  int64  
 4   total_meters                    12159 non-null  float64
 5   price                           12159 non-null  int64  
 6   district                        10887 non-null  object 
 7   street                          9754 non-null   object 
 8   underground                     11864 non-null  object 
 9   residential_complex             7657 non-null   object 
 10  line                            10526 non-null  object 
 11  area                            9259 non-null   object 
 12  eco_rating                      

In [189]:
cian.isna().sum()

author                             133
floor                                0
floors_count                         0
rooms_count                          0
total_meters                         0
price                                0
district                          1272
street                            2405
underground                        295
residential_complex               4502
line                              1633
area                              2900
eco_rating                        2900
insufficient_infrastructure       2939
convenient_for_life               2939
very_convenient_for_life          2939
few_entertainment                 2939
cultural                          2939
entertainment                     2939
cultural_entertainment            2939
top_residential_infrastructure    2939
square                            2882
population                        2882
housing_fund_area                 2882
line_count                        1633
author_count             

заполним пропуски

In [190]:
def fill_na_values(data: pd.DataFrame, fill_na_val: dict) -> pd.DataFrame:
    """
    Заполнение пропусков заданными значениями
    :param data: датафрейм
    :param fill_na_val: словарь с названиями признаков и значением, которым нужно заполнить пропуки
    :return: датафрейм
    """
    return data.fillna(fill_na_val)

In [191]:
cian = fill_na_values(cian, preprocessing['columns_fill_na'])

In [192]:
def replace_dot(df: pd.DataFrame, columns: list) -> pd.DataFrame:
    """
    Заменяет запятые на точки в указанных столбцах датафрейма.
    :param df: исходный датафрейм
    :param columns: список имен столбцов, в которых нужно заменить запятые на точки
    :return: pd.DataFrame, датафрейм с выполненной заменой
    """
    for column in columns:
        df[column] = df[column].apply(lambda x: x.replace(',', '.'))
    return df

In [193]:
cian = replace_dot(cian, ['square', 'housing_fund_area'])

In [194]:
cian.isna().sum()

author                            0
floor                             0
floors_count                      0
rooms_count                       0
total_meters                      0
price                             0
district                          0
street                            0
underground                       0
residential_complex               0
line                              0
area                              0
eco_rating                        0
insufficient_infrastructure       0
convenient_for_life               0
very_convenient_for_life          0
few_entertainment                 0
cultural                          0
entertainment                     0
cultural_entertainment            0
top_residential_infrastructure    0
square                            0
population                        0
housing_fund_area                 0
line_count                        0
author_count                      0
author_more                       0
floor_position              

переведём признаки в соотвествующие типы

In [195]:
def transform_types(data: pd.DataFrame, change_col_types: dict) -> pd.DataFrame:
    """
    Преобразование признаков в заданный тип данных
    :param data: датасет
    :param change_type_columns: словарь с признаками и типами данных
    :return: датафрейм
    """
    return data.astype(change_col_types, errors="raise")

In [196]:
cian = transform_types(data=cian, change_col_types=preprocessing['change_col_types'])

In [197]:
def population_density(df, population_column, square_column, new_column_name):
    """
    Вычисляет плотность населения для каждой записи в датафрейме и добавляет
    новый столбец с результатами.
    :param df: исходный датафрейм
    :param population_column: имя столбца с населением
    :param square_column: имя столбца с площадью
    :param new_column_name: имя нового столбца
    :return: датафрейм
    """

    df[new_column_name] = df.apply(lambda x: round(x[population_column] / x[square_column], 2), axis=1)
    return df

In [198]:
cian = population_density(cian, 'population', 'square', 'population_density')

In [199]:
def replace_single_value(df:pd.DataFrame, column:str) -> pd.DataFrame:
    """
    Заменяет уникальные значения столбца, которые встречаются только один раз,
    на строку 'None' внутри указанного датафрейма
    :param df: датафрейм
    :param column: имя столбца, в котором выполняется замена
    :return: датафрейм
    """
    counts = df[column].value_counts()
    for index, value in counts.items():
        if value == 1:
            df[column].replace({index: 'None'}, inplace=True)
    return df

Если какое то значение в признаке district встречается 1 раз, то переименовываем его в None, так как скорее всего ввели ошибочные данные

In [200]:
cian = replace_single_value(cian, 'district')

In [201]:
cian.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 12159 entries, 0 to 16208
Data columns (total 30 columns):
 #   Column                          Non-Null Count  Dtype   
---  ------                          --------------  -----   
 0   author                          12159 non-null  category
 1   floor                           12159 non-null  int32   
 2   floors_count                    12159 non-null  int32   
 3   rooms_count                     12159 non-null  int32   
 4   total_meters                    12159 non-null  float32 
 5   price                           12159 non-null  int64   
 6   district                        12159 non-null  category
 7   street                          12159 non-null  category
 8   underground                     12159 non-null  category
 9   residential_complex             12159 non-null  category
 10  line                            12159 non-null  category
 11  area                            12159 non-null  category
 12  eco_rating        

сохраняем полученный датафрейм

In [202]:
cian.to_csv(config['preprocessing']['final_df'], index=False)