**Импорт всех необходимых библиотек**

In [2]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
pd.set_option("display.max_rows", 20)
pd.set_option("display.max_columns", 20)
pd.set_option("display.precision", 4)
pd.set_option("plotting.backend", "matplotlib")

# 1. Исследовательский анализ данных (exploratory data analysis - EDA)

## 1.1 Словесное описание признаков

<b><p>data.csv</p></b>
<ul>
<li>id: id транзакции </li>
<li>timestamp: дата продажи (транзакции) </li>
<li>full_sq: общая площадь  </li>
<li>life_sq: жилая площадь  </li>
<li>floor: этаж  </li>
<li>max_floor: количество этажей в здании </li>
<li>material: материал, из которого изговолены стены  </li>
<li>build_year: год строительства </li>
<li>num_room: количество жилых комнат </li>
<li>kitch_sq: площадь кухни </li>
<li>full_all: количество населения в регионе </li>
<li> state: жилищные условия </li>
<li>sub_area: название территории </li>
<li>price_doc: цена квартиры (целевая переменная) </li>
</ul>

<b><p>macro.csv</p></b>
<ul>
<li>timestamp : дата, на которую актуальны макроэкономические показатели </li>
<li>salary : средняя зарплата в регионе </li>
<li>fixed_basket: стоимость потребительской корзины </li>
<li>rent_price_3room_eco: стоимость аренды 3-х комнатного жилья эконом-класса </li>
<li>rent_price_2room_eco: стоимость аренды 2-х комнатного жилья эконом-класса </li>
<li>rent_price_1room_eco: стоимость аренды 1-но комнатного жилья эконом-класса </li>
<li>average_life_exp: средняя продолжительность жизни в регионе </li>
</ul>

## 1.2 Загрузка данных общее описание набора данных

In [3]:
PATH_base = "https://raw.githubusercontent.com/aksenov7/Kaggle_competition_group/master/data.csv"
PATH_add = "https://raw.githubusercontent.com/aksenov7/Kaggle_competition_group/master/data_macro.csv"
df = pd.read_csv(PATH_base)
macro =  pd.read_csv(PATH_add)

### 1.2.1 Базовый датасет

Вывести пример данных (первые строки и случайные строки)

In [54]:
print('Head')
display(df.head())

print('Random')
display(df.sample(5))

Head


Unnamed: 0,id,timestamp,full_sq,life_sq,floor,state,max_floor,material,build_year,num_room,kitch_sq,full_all,sub_area,price_doc
0,8059,2013-05-21,11,11.0,2.0,3.0,5.0,2.0,1907.0,1.0,12.0,75377,Hamovniki,2750000
1,8138,2013-05-25,53,30.0,10.0,3.0,16.0,1.0,1980.0,2.0,8.0,68630,Lianozovo,9000000
2,8156,2013-05-27,77,41.0,2.0,1.0,17.0,6.0,2014.0,3.0,12.0,9553,Poselenie Voskresenskoe,7011550
3,8157,2013-05-27,45,27.0,6.0,3.0,9.0,1.0,1970.0,2.0,6.0,78616,Severnoe Butovo,7100000
4,8178,2013-05-28,38,20.0,15.0,,16.0,1.0,1982.0,1.0,8.0,112804,Filevskij Park,6450000


Random


Unnamed: 0,id,timestamp,full_sq,life_sq,floor,state,max_floor,material,build_year,num_room,kitch_sq,full_all,sub_area,price_doc
17786,4432,2012-10-27,39,,11.0,,,,,,,156377,Strogino,6331792
1815,11842,2013-11-06,53,30.0,11.0,3.0,14.0,1.0,1991.0,2.0,8.0,94561,Novokosino,8250000
18749,22434,2014-09-11,49,,5.0,,1.0,1.0,,1.0,1.0,13890,Poselenie Sosenskoe,4602880
8511,19983,2014-06-23,45,28.0,6.0,3.0,9.0,1.0,1968.0,2.0,6.0,53786,Severnoe Tushino,7600000
2998,13296,2013-12-20,65,39.0,12.0,3.0,12.0,1.0,1982.0,3.0,8.0,38075,Silino,7700000


Unnamed: 0,id,timestamp,full_sq,life_sq,floor,state,max_floor,material,build_year,num_room,kitch_sq,full_all,sub_area,price_doc
18861,21562,2014-08-15,78,,14.0,,0.0,6.0,,2.0,0.0,7341,Poselenie Moskovskij,7722029
18862,4796,2012-11-19,99,91.0,20.0,,,,,,,28179,Basmannoe,14800000
18863,466,2011-11-25,38,24.0,1.0,,,,,,,142462,Mozhajskoe,6300000
18864,27416,2015-01-21,77,,11.0,,0.0,1.0,,3.0,0.0,39873,Poselenie Shherbinka,5966828
18865,1723,2012-03-29,35,17.0,1.0,,,,,,,125354,Chertanovo Severnoe,5250000


Размер набора данных

In [5]:
print('df size: ', df.size)
print('df shape: ', df.shape)

print('macro size: ', macro.size)
print('macro shape: ', macro.shape)

df size:  264124
df shape:  (18866, 14)
macro size:  17388
macro shape:  (2484, 7)


Описание типов данных по признакам

In [6]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 18866 entries, 0 to 18865
Data columns (total 14 columns):
 #   Column      Non-Null Count  Dtype  
---  ------      --------------  -----  
 0   id          18866 non-null  int64  
 1   timestamp   18866 non-null  object 
 2   full_sq     18866 non-null  int64  
 3   life_sq     17291 non-null  float64
 4   floor       18838 non-null  float64
 5   state       15505 non-null  float64
 6   max_floor   17445 non-null  float64
 7   material    17445 non-null  float64
 8   build_year  16866 non-null  object 
 9   num_room    17445 non-null  float64
 10  kitch_sq    17445 non-null  float64
 11  full_all    18866 non-null  int64  
 12  sub_area    18866 non-null  object 
 13  price_doc   18866 non-null  int64  
dtypes: float64(7), int64(4), object(3)
memory usage: 2.0+ MB


# Описание
id - числовой идентификатор

timestamp - дата продажи в формате YYYY-MM-DD

full_sq - общая жилая площадь целочисленная

life_sq: жилая площадь в формате с плавающей точкой, есть пропуски

floor: этаж в формате с плавающей точкой, есть пропуски

state: жилищные условия категориальная величина в формате с плавающей точкой, есть пропуски

max_floor: количество этажей в здании в формате с плавающей точкой, есть пропуски

material: материал, из которого изговолены стены, категориальная величина в формате с плавающей точкой, есть пропуски

build_year: год строительства, величина в формате с плавающей точкой, но предствавлена как object, видимо есть примеси, также есть 
пропуски

num_room: количество жилых комнат, величина в формате с плавающей точкой, есть пропуски

kitch_sq: площадь кухни, величина в формате с плавающей точкой, есть пропуски

full_all: количество населения в регионе, величина целочисленная

sub_area: название территории, представлено как object, но по факту строка

price_doc: цена квартиры (целевая переменная), целочисленная

Базовые статистики по признакам

In [7]:
from pandas import DataFrame

print("numerical features")
display(df.describe())

print("object features")
df.describe(include=[object])

numerical features


Unnamed: 0,id,full_sq,life_sq,floor,state,max_floor,material,num_room,kitch_sq,full_all,price_doc
count,18866.0,18866.0,17291.0,18838.0,15505.0,17445.0,17445.0,17445.0,17445.0,18866.0,18866.0
mean,18799.7886,53.9409,34.2592,7.2937,2.2013,12.4233,1.8901,1.9348,7.2064,159720.0,7582400.0
std,7082.4287,44.1162,59.9446,5.1912,0.8528,6.2798,1.5061,0.8642,26.9816,304350.0,4983800.0
min,9.0,0.0,0.0,0.0,1.0,0.0,1.0,0.0,0.0,2546.0,100000.0
25%,13513.25,38.0,20.0,3.0,2.0,9.0,1.0,1.0,5.0,48439.0,5100000.0
50%,19043.5,49.0,30.0,6.0,2.0,12.0,1.0,2.0,7.0,87713.0,6685500.0
75%,24748.75,63.0,43.0,10.0,3.0,17.0,2.0,3.0,9.0,125350.0,8900000.0
max,30473.0,5326.0,7478.0,77.0,33.0,57.0,6.0,19.0,2014.0,1716700.0,95122000.0


object features


Unnamed: 0,timestamp,build_year,sub_area
count,18866,16866.0,18866
unique,1074,120.0,146
top,2014-12-16,2014.0,Nekrasovka
freq,133,919.0,620


Выводы текстом, что вы можете сказать по каждому признаку, на основе базовых статистик

id - идут не по порядку, пропусков нет

full_sq - большая часть квартир имеет не большую площадь ~ 50 метров, есть либо пропуски, либо недвижимость без жилищной площади. Максимальное в ~100 раз превышает среднее и медиану

life_sq - в среднем меньше общей площади ~18-20 метров
floor - в основном покупают квартиры 6-8 этаже, есть информация о продаже небоскребов

state - есть 4 категории, возможно есть ошибка тк максимальное значение 33

max_floor - по какой-то причине есть продажа на 77 этаже, но максимальный этаж в проданном доме 57

material - категориальная величина, большая часть домов построена из материала по категорией 1

num_room - большая часть продаж приходится на 1/2/3 комнатные

kitch_sq - небольшой межинтервальный размах, но очень большое стандартное отклонение, возможно очень много выбросов

full_all - информация о продажа собрана в небольших регионах с население в среднем до 500 тысяч

price_doc - большая часть квартир стоит около 5-10 млнов

timestamp - возможно данные представлены за 3 года

build_year - большая часть домов была построена в 2014 году

sub_area - Nekrasovka - самый частый пункт продажи квартир

Какие признаки вы считаете полезными для предсказания цены квартиры, а какие по вашему мнению можно убрать. Почему?

Площадь жилая и общая - тк прямопропорционально влияет на цену

Количество комнат - прямопропорционально влияет на цену, тк чем больше комнат тем обычно больше площадь

год постройки - чем новее тем дороже, старые дома ценятся хуже

этаж - есть мнение что с 4-6 этаж лучше воздух и меньше шума, нужно проверить эту гипотезу

площадь кухни - гипотеза, площадь кухни прямопрапорционально влияет на цену

регион - в пунктах с большим населением, цена выше

timestamp - из-за инфляции чем позже была куплена тем выше цена в абсолютном значении

Есть ли пропуски в данных? В каких столбцах? Какой процент по каждому столбцу?

In [8]:
for column in df.columns:
    print(f'{column} skips: ', df[column].shape[0] - df[column].dropna().shape[0])

id skips:  0
timestamp skips:  0
full_sq skips:  0
life_sq skips:  1575
floor skips:  28
state skips:  3361
max_floor skips:  1421
material skips:  1421
build_year skips:  2000
num_room skips:  1421
kitch_sq skips:  1421
full_all skips:  0
sub_area skips:  0
price_doc skips:  0


Есть ли аномальные данные в стллбцах? Если да, то укажите на них и объясните, почему считаете аномальными

In [9]:
print(df.full_sq.max() - df.life_sq.max()) # Жилищная площадь превышает общую площадь
print(df.kitch_sq.max()) # Очень большая площадь кухни
print(df.num_room.min()) # Помещение без комнат, возможно подсовки
print(df.state.value_counts()) # Есть выброс категория 33
print(df.full_sq.min()) # Есть помещения без прощади

-2152.0
2014.0
0.0
2.0     5823
3.0     5754
1.0     3506
4.0      421
33.0       1
Name: state, dtype: int64
0


### 1.2.2 Макро показатели

Вывести пример данных (первые строки и случайные строки)

In [51]:
display(macro.head())
display(macro.sample(5))

Unnamed: 0,timestamp,salary,fixed_basket,rent_price_3room_eco,rent_price_2room_eco,rent_price_1room_eco,average_life_exp
0,2010-01-01,38410.5,11443.63,,,,74.2
1,2010-01-02,38410.5,11443.63,,,,74.2
2,2010-01-03,38410.5,11443.63,,,,74.2
3,2010-01-04,38410.5,11443.63,,,,74.2
4,2010-01-05,38410.5,11443.63,,,,74.2


Unnamed: 0,timestamp,salary,fixed_basket,rent_price_3room_eco,rent_price_2room_eco,rent_price_1room_eco,average_life_exp
2401,2016-07-29,,20422.5,46.79,37.74,29.83,
761,2012-02-01,48830.4,13166.88,45.53,38.39,31.12,75.74
1470,2014-01-10,61208.0,15608.27,47.04,41.44,33.49,76.7
991,2012-09-18,48830.4,13726.03,47.3,40.66,32.9,75.74
26,2010-01-27,38410.5,11443.63,,,,74.2


Unnamed: 0,timestamp,salary,fixed_basket,rent_price_3room_eco,rent_price_2room_eco,rent_price_1room_eco,average_life_exp
2479,2016-10-15,,20354.78,45.71,38.4,29.78,
2480,2016-10-16,,20354.78,45.71,38.4,29.78,
2481,2016-10-17,,20354.78,45.71,38.4,29.78,
2482,2016-10-18,,20354.78,45.71,38.4,29.78,
2483,2016-10-19,,20354.78,45.71,38.4,29.78,


Размер набора данных

In [11]:
display(macro.shape)
display(macro.size)

(2484, 7)

17388

Описание типов данных по признакам

In [12]:
macro.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 2484 entries, 0 to 2483
Data columns (total 7 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   timestamp             2484 non-null   object 
 1   salary                2191 non-null   float64
 2   fixed_basket          2484 non-null   float64
 3   rent_price_3room_eco  2211 non-null   float64
 4   rent_price_2room_eco  2211 non-null   float64
 5   rent_price_1room_eco  2211 non-null   float64
 6   average_life_exp      2191 non-null   float64
dtypes: float64(6), object(1)
memory usage: 136.0+ KB


Базовые статистики по признакам

In [13]:
print('numerical features: ')
display(macro.describe())
print('object features: ')
macro.describe(include=[object])

numerical features: 


Unnamed: 0,salary,fixed_basket,rent_price_3room_eco,rent_price_2room_eco,rent_price_1room_eco,average_life_exp
count,2191.0,2484.0,2211.0,2211.0,2211.0,2191.0
mean,52188.9331,15331.498,47.2997,38.8954,31.0024,75.9282
std,9068.559,2789.1363,3.0702,5.0352,3.9841,0.8699
min,38410.5,11443.63,37.54,0.1,2.31,74.2
25%,44898.7,12992.44,45.53,37.93,29.78,75.74
50%,48830.4,14983.92,47.35,39.47,31.11,75.79
75%,61208.0,18295.07,49.35,41.3,33.06,76.7
max,64310.0,20422.5,53.21,43.85,35.37,76.77


object features: 


Unnamed: 0,timestamp
count,2484
unique,2484
top,2010-01-01
freq,1


Выводы текстом, что вы можете сказать по каждому признаку, на основе базовых статистик

Salary - без особых выбросов, похоже на нормальное распределение

fixed_basket - В среднем составляет треть от зарплаты, без особых выбросов

rent_price_3room_eco - похоже, что указано в e-3 степени. Небольшое отлокнение. Соответствует рыночной конъюктуре

rent_price_2room_eco - есть выброс в минимальном значении. Соответствует рыночной конъюктуре

rent_price_1room_eco - похожее на выброс минимальное значение. Соответствует рыночной конъюктуре

average_life_exp - очень кучное распределение. Без выбросов

Какие признаки вы считаете полезными для предсказания цены квартиры, а какие по вашему мнению можно убрать. Почему?

### Кажется здесь опечатка в вопросе

Salary - от средней зарплаты зависит цена аренды квартир и продолжительность жизни

fixed_basket - растет при росте salary

rent_price_3room_eco, rent_price_2room_eco, rent_price_1room_eco - гипотеза, стоимость аренды прямо кореллируем с зарплатой в регионе

Есть ли пропуски в данных? В каких столбцах? Какой процент по каждому столбцу?

In [14]:
for column in macro.columns:
    if skips := macro[column].shape[0] - macro[column].dropna().shape[0]:
        print(f'{column} skips: ', skips)

salary skips:  293
rent_price_3room_eco skips:  273
rent_price_2room_eco skips:  273
rent_price_1room_eco skips:  273
average_life_exp skips:  293


Есть ли аномальные данные в стллбцах? Если да, то укажите на них и объясните, почему считаете аномальными

In [15]:
macro.rent_price_2room_eco.min() # Выброс или ошибочное значение
# Остальные показатели находятся в границах своих распределений

0.1

## 1.3 Замените все ранее найденные ошибочные данные на None. Заполните все пропуски в данных: которые были и которые появились. Используйте как стратегии изученные на занятии, так и логику, которая вытекает из самих данных

### 1.3.1 Главный набор данных

In [45]:
def fill_by_median(data: pd.DataFrame, feature: str):
    mean = data[feature].median()    
    data.loc[data[feature].isna(), feature] = mean
    
# Verification
def verify_data_frame(*, df: pd.DataFrame, df_name: str):
    if skips_info := verify_skips(df):
        for column, skips in skips_info:
            print(f'Data frame \'{df_name}\' contains {skips} skips in column {column}')
    else:
        print(f'There are no skips in data frame {df_name}')

def verify_skips(data: pd.DataFrame):
    skips = []
    for column in data:
        mask = data[column].isna()
        if number_of_skips := data[mask][column].shape[0]:
            skips.append((column, number_of_skips))
    
    return skips


In [46]:
df_copy = df.copy()

df_copy.build_year = pd.to_numeric(df_copy.build_year, errors='coerce')

columns_to_fill = []
for column in df_copy.columns:
    if skips := df_copy[column].shape[0] - df_copy[column].dropna().shape[0]:
        columns_to_fill.append(column)
        print(f'{column} skips: ', skips)

for column in columns_to_fill:
    df_copy.loc[df_copy[column].isna(), column] = np.nan
    
# numerical feature filling
for feature in columns_to_fill:
    fill_by_median(df_copy, feature)

print('')
verify_data_frame(df=df, df_name='source')
print('')
verify_data_frame(df=df_copy, df_name='cleaned copy')

life_sq skips:  1575
floor skips:  28
state skips:  3361
max_floor skips:  1421
material skips:  1421
build_year skips:  2001
num_room skips:  1421
kitch_sq skips:  1421

Data frame 'source' contains 1575 skips in column life_sq
Data frame 'source' contains 28 skips in column floor
Data frame 'source' contains 3361 skips in column state
Data frame 'source' contains 1421 skips in column max_floor
Data frame 'source' contains 1421 skips in column material
Data frame 'source' contains 2000 skips in column build_year
Data frame 'source' contains 1421 skips in column num_room
Data frame 'source' contains 1421 skips in column kitch_sq

There are no skips in data frame cleaned copy


### 1.3.2 Набор с макропоказателями

# Заполнение через предыдущий или последующий элемент, тк данные отсортированы и представляют собой

In [47]:
def fill_by_adjacent(data: pd.DataFrame, feature: str):
    data[column] = data[column].fillna(method='bfill')
    
    mask = data[column].isna()
    if data[mask][column].shape[0]:
        data[column] = data[column].fillna(method='ffill')

In [66]:
macro_copy = macro.copy()

# verify that data frame is sorted by date
macro_copy.timestamp = pd.to_datetime(macro_copy.timestamp)
macro_copy.sort_values(by='timestamp')

columns_to_fill = []
for column in macro_copy.columns:
    mask = macro_copy[column].isna()
    if skips := macro_copy[mask][column].shape[0]:
        columns_to_fill.append(column)
        print(f'{column} skips: ', skips)

for column in columns_to_fill:
    fill_by_adjacent(macro_copy, column)

print('origin data frame verification: ')
verify_data_frame(df=macro, df_name='source')
print('cleaned data frame verification: ')
verify_data_frame(df=macro_copy, df_name='cleaned macro')


salary skips:  293
rent_price_3room_eco skips:  273
rent_price_2room_eco skips:  273
rent_price_1room_eco skips:  273
average_life_exp skips:  293
origin data frame verification: 
Data frame 'source' contains 293 skips in column salary
Data frame 'source' contains 273 skips in column rent_price_3room_eco
Data frame 'source' contains 273 skips in column rent_price_2room_eco
Data frame 'source' contains 273 skips in column rent_price_1room_eco
Data frame 'source' contains 293 skips in column average_life_exp
cleaned data frame verification: 
There are no skips in data frame cleaned macro


## 1.4 Обогатите основной набор данных данными из макропоказателей и поместите в переменную `df_full`

In [72]:
df_copy.timestamp = pd.to_datetime(df_copy.timestamp) # macro_copy.timestamp уже с нужным типом
df_copy.merge(macro_copy, on='timestamp', how='left')

Unnamed: 0,id,timestamp,full_sq,life_sq,floor,state,max_floor,material,build_year,num_room,kitch_sq,full_all,sub_area,price_doc,salary,fixed_basket,rent_price_3room_eco,rent_price_2room_eco,rent_price_1room_eco,average_life_exp
0,8059,2013-05-21,11,11.0,2.0,3.0,5.0,2.0,1907.0,1.0,12.0,75377,Hamovniki,2750000,55485.2,14983.92,47.35,40.77,2.31,76.37
1,8138,2013-05-25,53,30.0,10.0,3.0,16.0,1.0,1980.0,2.0,8.0,68630,Lianozovo,9000000,55485.2,14983.92,47.35,40.77,2.31,76.37
2,8156,2013-05-27,77,41.0,2.0,1.0,17.0,6.0,2014.0,3.0,12.0,9553,Poselenie Voskresenskoe,7011550,55485.2,14983.92,47.35,40.77,2.31,76.37
3,8157,2013-05-27,45,27.0,6.0,3.0,9.0,1.0,1970.0,2.0,6.0,78616,Severnoe Butovo,7100000,55485.2,14983.92,47.35,40.77,2.31,76.37
4,8178,2013-05-28,38,20.0,15.0,2.0,16.0,1.0,1982.0,1.0,8.0,112804,Filevskij Park,6450000,55485.2,14983.92,47.35,40.77,2.31,76.37
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18861,21562,2014-08-15,78,30.0,14.0,2.0,0.0,6.0,1979.0,2.0,0.0,7341,Poselenie Moskovskij,7722029,61208.0,16134.39,52.81,43.11,34.83,76.70
18862,4796,2012-11-19,99,91.0,20.0,2.0,12.0,1.0,1979.0,2.0,7.0,28179,Basmannoe,14800000,48830.4,13872.82,48.97,40.83,32.93,75.74
18863,466,2011-11-25,38,24.0,1.0,2.0,12.0,1.0,1979.0,2.0,7.0,142462,Mozhajskoe,6300000,44898.7,12959.49,46.50,38.62,31.53,75.79
18864,27416,2015-01-21,77,30.0,11.0,2.0,0.0,1.0,1979.0,3.0,0.0,39873,Poselenie Shherbinka,5966828,64310.0,17817.40,52.64,43.29,33.88,76.77


## 1.5 Проверьте данные на наличие выбросов. По каждому столбцу. Напишите своё мнение: нужно ли в каждой из ситуаций обрабатывать выбросы, или можно оставить. Если нужно обработать, то примените один из изученных подходов, либо предложите свой

### 1.5.1 Главный набор данных

### 1.5.2 Набор с макропоказателями

## 1.6 Создайте не менее 5 новых признаков на основе существующих данных. Опишите текстом обоснование создания каждой. Признаки должны привносить некую новую информацию для понимания цены квартиры