In [175]:
import os

import numpy as np
import pandas as pd

import joblib

from typing import Dict

import yaml
import json

import warnings
warnings.filterwarnings("ignore")

In [176]:
def read_df(path: str, sep: str = None, encoding: str = None) -> pd.DataFrame:
    """
    Читает файл CSV и возвращает его содержимое в виде датафрейма.
    :param path: путь к папке, содержащей файлы CSV
    :param sep: опциональный разделитель столбцов
    :param encoding: опциональная кодировка файла
    :return: датафрейм
    """
    df = pd.read_csv(path,
                     sep=sep,
                     encoding=encoding)
    return df

In [177]:
config_path = '../config/params.yaml'
config = yaml.load(open(config_path, encoding='utf-8'), Loader=yaml.FullLoader)

preprocessing = config['preprocessing']
train = config['train']
evaluate = config['evaluate']


column_sequence_path = preprocessing['unique_values_path']
with open(column_sequence_path) as json_file:
    column_sequence = json.load(json_file)

In [179]:
data_test = read_df(evaluate['predict_path'], sep=';')

In [180]:
data_test.head()

Unnamed: 0,author,link,city,deal_type,accommodation_type,floor,floors_count,rooms_count,total_meters,district,street,underground,residential_complex
0,Capital Group,https://www.cian.ru/sale/flat/280022133/,Москва,sale,flat,49,67,4,130.39,Пресненский,Краснопресненская набережная,Выставочная,Capital Towers
1,Bespoke Estate,https://www.cian.ru/sale/flat/289168864/,Москва,sale,flat,16,16,-1,412.0,Хамовники,Усачева,Спортивная,Садовые кварталы
2,MR Group,https://www.cian.ru/sale/flat/288075098/,Москва,sale,flat,7,16,4,137.5,Мещанский,,Сухаревская,Клубный дом Forum
3,Bespoke Estate,https://www.cian.ru/sale/flat/286388381/,Москва,sale,flat,11,54,4,108.0,Хорошево-Мневники,Народного Ополчения,Народное Ополчение,Wellton Towers
4,Capital Group,https://www.cian.ru/sale/flat/286955481/,Москва,sale,flat,6,6,-1,452.29,Якиманка,Софийская набережная,Александровский сад,Золотой


# Preprocessing

In [181]:
def drop_duplicates_df(df: pd.DataFrame, subset: list = None) -> pd.DataFrame:
    """
    Удаляет дубликаты из указанного датафрейма
    :param df: исходный датафрейм
    :return: датафрейм
    """

    df.drop_duplicates(inplace=True, subset=subset)
    return df

def drop_column(df: pd.DataFrame, column_name: list) -> pd.DataFrame:
    """
    Удаляет указанные столбецы из датафрейма.
    :param df: исходный датафрейм
    :param column_name: имя столбца, который нужно удалить
    :return: датафрейм с удаленным столбцом
    """
    for i in column_name:
        if i in df.columns:
            df = df.drop([i], axis=1)
        else:
            continue
    return df

def rename_columns(df: pd.DataFrame, column_mapping: dict) -> pd.DataFrame:
    """
    Переименовывает столбцы указанного датафрейма согласно заданному отображению.
    :param df: исходный датафрейм
    :param column_mapping: словарь с отображением старых и новых имен столбцов
    :return: датафрейм
    """
    df = df.rename(columns=column_mapping)
    return df

def add_column_from_mapping(df: pd.DataFrame, column: str,
                            mapping_column: str) -> pd.DataFrame:
    """
    Добавляет новый признак с количеством уникальных значений в указанный датафрейм,
    используя значения из другого столбца.
    :param df: исходный датафрейм
    :param column: имя нового столбца, который будет добавлен
    :param mapping_column:имя столбца, из которого будут взяты значения для отображения
    :return: датафрейм с добавленным новым столбцом
    """
    df[column] = df[mapping_column].map(df[mapping_column].value_counts())
    return df

def add_column_limit(df: pd.DataFrame,
                           column_name: str,
                           new_column_name: str,
                           threshold: int = 2) -> pd.DataFrame:
    """
    Добавляет новый столбец в указанный датафрейм, который указывает,
    превышает ли значение столбца заданный порог.
    :param df: исходный датафрейм
    :param column_name: имя столбца 'author_count'
    :param threshold: пороговое значение (по умолчанию 2)
    :return: датафрейм с добавленным столбцом 'author_more'
    """

    df[new_column_name] = df[column_name].apply(lambda x: 1
                                              if x > threshold else 0)
    return df

def get_floor_position(data: pd.Series)-> int: 
    """
    Определяет позицию этажа
    0 - среднии этажи
    1 - первый этаж 
    2 - последний этаж
    :param data: датафрейм
    :return: бинаризованные значения
    """
    if data['floor'] == 1:
        return 1
    elif data['floor'] == data['floors_count']:
        return 2
    else:
        return 0
    
def get_house_category(data: pd.Series)-> int: 
    """
    Эта функция подразделяет дома а категории в зависимости от количества этажей.
    По этажности жилые дома подразделяют на:
    - малоэтажные (1 - 2 этажа)
    - средней этажности (3 - 5 этажей)
    - многоэтажные (6-10)
    - повышенной этажности (11 - 16 этажей)
    - высотные (16-50 этажей)
    - очень высотные (более 50 этажей)
    :param data: датафрейм
    :return: бинаризованные значения
    """

    if data <= 2:
        return 1
    elif data > 2 and data <= 5:
        return 2
    elif data > 5 and data <= 10:
        return 3
    elif data > 10 and data <= 16:
        return 4
    elif data > 16 and data <= 50:
        return 5
    elif data > 50:
        return 6
    
def remove_correlated_features(df: pd.DataFrame,
                                      threshold: float = 0.9) -> pd.DataFrame:
    """
    Удаляет признаки из указанного датафрейма, у которых корреляция превышает заданный порог.
    :param df: исходный датафрейм
    :param threshold: пороговое значение корреляции (по умолчанию 0.9)
    :return: датафрейм с удаленными признаками с высокой корреляцией
    """
    corr_matrix = df.corr().abs()
    upper_triangle = corr_matrix.where(
        pd.np.triu(pd.np.ones(corr_matrix.shape), k=1).astype(bool))
    high_corr_features = [
        column for column in upper_triangle.columns
        if any(upper_triangle[column] > threshold)
    ]
    df.drop(high_corr_features, axis=1, inplace=True)

    return df

def fill_na_values(data: pd.DataFrame, fill_na_val: dict) -> pd.DataFrame:
    """
    Заполнение пропусков заданными значениями
    :param data: датафрейм
    :param fill_na_val: словарь с названиями признаков и значением, которым нужно заполнить пропуки
    :return: датафрейм
    """
    return data.fillna(fill_na_val)

def replace_dot(df: pd.DataFrame, columns: list) -> pd.DataFrame:
    """
    Заменяет запятые на точки в указанных столбцах датафрейма.
    :param df: исходный датафрейм
    :param columns: список имен столбцов, в которых нужно заменить запятые на точки
    :return: pd.DataFrame, датафрейм с выполненной заменой
    """
    for column in columns:
        df[column] = df[column].apply(lambda x: x.replace(',', '.'))
    return df

def transform_types(data: pd.DataFrame, change_col_types: dict) -> pd.DataFrame:
    """
    Преобразование признаков в заданный тип данных
    :param data: датасет
    :param change_type_columns: словарь с признаками и типами данных
    :return: датафрейм
    """
    return data.astype(change_col_types, errors="raise")

def population_density(df, population_column, square_column, new_column_name):
    """
    Вычисляет плотность населения для каждой записи в датафрейме и добавляет
    новый столбец с результатами.
    :param df: исходный датафрейм
    :param population_column: имя столбца с населением
    :param square_column: имя столбца с площадью
    :param new_column_name: имя нового столбца
    :return: датафрейм
    """

    df[new_column_name] = df.apply(lambda x: round(x[population_column] / x[square_column], 2), axis=1)
    return df

def replace_single_value(df:pd.DataFrame, column:str) -> pd.DataFrame:
    """
    Заменяет уникальные значения столбца, которые встречаются только один раз,
    на строку 'None' внутри указанного датафрейма
    :param df: датафрейм
    :param column: имя столбца, в котором выполняется замена
    :return: датафрейм
    """
    counts = df[column].value_counts()
    for index, value in counts.items():
        if value == 1:
            df[column].replace({index: 'None'}, inplace=True)
    return df

def check_columns_evaluate(data: pd.DataFrame, unique_values_path: str) -> pd.DataFrame:
    """
    Проверка на наличие признаков из train и упорядочивание признаков согласно train
    :param data: датасет test
    :param unique_values_path: путь до списока с признаками train для сравнения
    :return: датасет test
    """
    with open(unique_values_path) as json_file:
        unique_values = json.load(json_file)

    column_sequence = unique_values.keys()

    assert set(column_sequence) == set(data.columns), "Разные признаки"
    return data[column_sequence]

In [184]:
def df_merge(df: pd.DataFrame,
             data_list: list,
             columns: list,
             left_on_list: list,
             right_on_list: list,
             how: str) -> pd.DataFrame:
    """
    Объединяет таблицу `df` с несколькими таблицами из списка `data_list` по указанным столбцам.
    :param df: основная таблица
    :param data_list: список таблиц для объединения с основной таблицей
    :param columns: список столбцов из дополннительных таблиц, которые нужно объединить с основной
    :param left_on_list: список столбцов для объединения в `df` для каждой таблицы
    :param right_on_list: список столбцов для объединения в таблицах из `data_list` для каждой таблицы
    :param how: способ объединения
    :return: объединенную таблицу
    """

    for data, col, left, right in zip(data_list, columns, left_on_list, right_on_list):
        if col == None:
            col = list(data.columns)
        df = df.merge(data[col],
                      left_on=left,
                      right_on=right,
                      how=how).drop_duplicates()
    return df

считаем дополнительные данные

In [185]:
underground_line = read_df('../data/add/underground.csv',
                           sep=';',
                           encoding='cp1251')
geo = read_df('../data/add/Moscow_Population_2018.csv')
eco = read_df('../data/add/eco.csv')
rating = read_df('../data/add/raiting_yandex.csv', encoding='cp1251', sep='\t')

In [195]:
def pipeline_preprocess(df: pd.DataFrame,
                        df_add: list,
                        rename_col: dict,
                        flg_evaluate: bool = True,
                        **kwargs) -> pd.DataFrame:
    """
    Пайплайн по предобработке данных
    :param df: датасет
    :param df_add: список таблиц для объединения с основной таблицей
    :param rename_col: словарь с отображением старых и новых имен столбцов
    :param flg_evaluate: флаг для evaluate
    :return: датасет
    """
    df = drop_column(df, kwargs['drop_columns'])
    if flg_evaluate:
        df = check_columns_evaluate(
            data=df, unique_values_path=kwargs["unique_values_path"]
        )
    else:
        save_unique_train_data(
            data=df,
            drop_columns=kwargs["drop_columns"],
            target_column=kwargs["target_column"],
            unique_values_path=kwargs["unique_values_path"],
        )
    # добавляем дополнительные признаки к основной таблице из дополнительных
    df = df_merge(df,
                  df_add,
                  kwargs['df_add_col'],
                  kwargs['df_add_left'],
                  kwargs['df_add_right'],
                  kwargs['how'],)
    # удаляем дубликаты
    df = drop_duplicates_df(df)
    # удаляем столбцы после соединения таблиц
    df = drop_column(df, kwargs['drop_columns'])
    # переименовываем столбцы
    df = rename_columns(df, rename_col)
    # добавляем новые признаки
    df = add_column_from_mapping(df, 'line_count', 'line')
    df = add_column_from_mapping(df, 'author_count', 'author')
    df = add_column_limit(df, 'author_count', 'author_more')
    df['floor_position'] = df.apply(lambda x: get_floor_position(x), axis=1)
    df['house_category'] = df['floors_count'].apply(
        lambda x: get_house_category(x))
    # удаляем коррелирующие признаки
    df = remove_correlated_features(df)
    # заполняем пропуски
    df = fill_na_values(df, kwargs['columns_fill_na'])
    # заменяем запятые на точки
    df = replace_dot(df, kwargs['dot_replace'])
    # изменяем типы данных
    for i, v in kwargs['change_col_types'].items():
        if i in df.columns:
            df = transform_types(df, {i: v})
        else:
            continue
    # добавляем новый признак
    df = population_density(df, 'population', 'square', 'population_density')
    # изменяем некорректно заполненый параметр
    df = replace_single_value(df, 'district')
    return df

In [196]:
rename_col = preprocessing['rename_columns']
df_add = [underground_line, eco, rating, geo]

In [197]:
data_proc_test = pipeline_preprocess(data_test,
                                     df_add,
                                     rename_col,
                                     ** preprocessing)

In [198]:
data_proc_test.info()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 1677 entries, 0 to 1676
Data columns (total 29 columns):
 #   Column                          Non-Null Count  Dtype   
---  ------                          --------------  -----   
 0   author                          1677 non-null   category
 1   floor                           1677 non-null   int32   
 2   floors_count                    1677 non-null   int32   
 3   rooms_count                     1677 non-null   int32   
 4   total_meters                    1677 non-null   float32 
 5   district                        1677 non-null   category
 6   street                          1677 non-null   category
 7   underground                     1677 non-null   category
 8   residential_complex             1677 non-null   category
 9   line                            1677 non-null   category
 10  area                            1677 non-null   category
 11  eco_rating                      1677 non-null   int32   
 12  insufficient_infrast

In [199]:
model = joblib.load(train['model_path'])
data_proc_test['predict'] = model.predict(data_proc_test)

In [200]:
data_proc_test[:5]

Unnamed: 0,author,floor,floors_count,rooms_count,total_meters,district,street,underground,residential_complex,line,...,square,population,housing_fund_area,line_count,author_count,author_more,floor_position,house_category,population_density,predict
0,Capital Group,49,67,4,130.389999,Пресненский,Краснопресненская набережная,Выставочная,Capital Towers,Филёвская линия,...,11.7,128062,1416.400024,138,23,1,0,6,10945.47,104610500.0
1,Bespoke Estate,16,16,-1,412.0,Хамовники,Усачева,Спортивная,Садовые кварталы,Сокольническая линия,...,10.08,109218,2559.600098,216,10,1,2,4,10835.12,93333750.0
2,MR Group,7,16,4,137.5,Мещанский,,Сухаревская,Клубный дом Forum,Калужско-Рижская линия,...,4.6,61213,1417.400024,96,33,1,0,4,13307.17,86741650.0
3,Bespoke Estate,11,54,4,108.0,Хорошево-Мневники,Народного Ополчения,Народное Ополчение,Wellton Towers,Большая кольцевая линия,...,-1.0,-1,-1.0,160,10,1,0,6,1.0,41497390.0
4,Capital Group,6,6,-1,452.290009,Якиманка,Софийская набережная,Александровский сад,Золотой,Филёвская линия,...,4.8,27672,788.700012,138,23,1,2,3,5765.0,95662040.0
