**Импорт всех необходимых библиотек**

In [1]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
pd.set_option("display.max_rows", 20)
pd.set_option("display.max_columns", 20)
pd.set_option("display.precision", 4)
pd.set_option("plotting.backend", "matplotlib")

# 1. Исследовательский анализ данных (exploratory data analysis - EDA)

## 1.1 Словесное описание признаков

<b><p>data.csv</p></b>
<ul>
<li>id: id транзакции </li>
<li>timestamp: дата продажи (транзакции) </li>
<li>full_sq: общая площадь  </li>
<li>life_sq: жилая площадь  </li>
<li>floor: этаж  </li>
<li>max_floor: количество этажей в здании </li>
<li>material: материал, из которого изговолены стены  </li>
<li>build_year: год строительства </li>
<li>num_room: количество жилых комнат </li>
<li>kitch_sq: площадь кухни </li>
<li>full_all: количество населения в регионе </li>
<li> state: жилищные условия </li>
<li>sub_area: название территории </li>
<li>price_doc: цена квартиры (целевая переменная) </li>
</ul>

<b><p>macro.csv</p></b>
<ul>
<li>timestamp : дата, на которую актуальны макроэкономические показатели </li>
<li>salary : средняя зарплата в регионе </li>
<li>fixed_basket: стоимость потребительской корзины </li>
<li>rent_price_3room_eco: стоимость аренды 3-х комнатного жилья эконом-класса </li>
<li>rent_price_2room_eco: стоимость аренды 2-х комнатного жилья эконом-класса </li>
<li>rent_price_1room_eco: стоимость аренды 1-но комнатного жилья эконом-класса </li>
<li>average_life_exp: средняя продолжительность жизни в регионе </li>
</ul>

|Признак|Наименование на русском|Комментарий|
|--:|:--|:--|
|`timestamp`|дата продажи (транзакции)| В среднем в день совершалось по 18 сделок, популярная дата продажи - 2014-12-16. В этот день было совершено - 133 сделки|
|`full_sq`|общая площадь|В основном на продажу выставляются квартиры с небольшой площадью (от 38 кв.м до 63 кв.м.), однако наблюдаются и выбросы по min и max - 0 кв.м. и 5 326 кв.м.|
|`life_sq`|жилая площадь| В среднем жилая площадь на 20 кв.м. меньше общей, показатели медианы  и средней (30 и 34 кв.м.) указывают на то, что в основном продаются 1-2-х комнатные квартиры. Имеются выбросы.|
|`floor - max_floor`|этаж, максимальное количество этажей| Квартиры располагаются на этажах от 0 (ошибка в данных) до 77 |
|`material`|материал, из которого изговолены стены| Больше всего квартир изготовленны из материала под номером 1. Всего видов материала  - 6|
|`build_year`|год строительства| Больше всего квартир (919 квартир) построены в 2014 году . Всего количество разных лет в которые были построены квартиры -  120 |
|`num_room`|количество жилых комнат| Есть комнаты с показателем 0 (возможно - аномалии), в среднем квартиры имеют по 2 комнаты, максимальное количество комнат - 19 |
|`kitch_sq`|площадь кухни| Имеются квартиры с площадью кухни = 0 (возможно студии), в среднем площадь кухни равна 7 кв.м.|
|`full_all`|количество населения в регионе| В датасесте наблюдается существенный разброс по колличеству населения от 2.5 тыс до 17 тыс. количество населения зависит от населения |
|`sub_area`|название территории| Больше всего квартир продается в Nekrasovka (620 квартир). В целом продавались квартиры расположенные на 146 различных территориях|
|`price_doc`|цена квартиры (целевая переменная)| |


## 1.2 Загрузка данных общее описание набора данных

In [2]:
PATH_base = "https://raw.githubusercontent.com/aksenov7/Kaggle_competition_group/master/data.csv"
PATH_add = "https://raw.githubusercontent.com/aksenov7/Kaggle_competition_group/master/data_macro.csv"
df = pd.read_csv(PATH_base)
macro =  pd.read_csv(PATH_add)

### 1.2.1 Базовый датасет

Вывести пример данных (первые строки и случайные строки)

In [None]:
df.sample(3)

Unnamed: 0,id,timestamp,full_sq,life_sq,floor,state,max_floor,material,build_year,num_room,kitch_sq,full_all,sub_area,price_doc
9581,21279,2014-08-04,32,18.0,1.0,2.0,9.0,1.0,1971.0,1.0,6.0,64931,Vostochnoe Degunino,5200000
10827,22806,2014-09-23,89,89.0,5.0,1.0,17.0,1.0,2014.0,3.0,13.0,13890,Poselenie Sosenskoe,7170790
14766,27787,2015-02-09,61,61.0,9.0,1.0,9.0,1.0,2015.0,1.0,1.0,247469,Nekrasovka,6036800


Размер набора данных

In [None]:
df.shape

(18866, 14)

Описание типов данных по признакам

In [None]:
df.dtypes

id              int64
timestamp      object
full_sq         int64
life_sq       float64
floor         float64
state         float64
max_floor     float64
material      float64
build_year     object
num_room      float64
kitch_sq      float64
full_all        int64
sub_area       object
price_doc       int64
dtype: object

Базовые статистики по признакам

In [None]:
df.describe().transpose().style.background_gradient(cmap='Greens', axis=0)

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
id,18866.0,18799.7886,7082.4287,9.0,13513.25,19043.5,24748.75,30473.0
full_sq,18866.0,53.9409,44.1162,0.0,38.0,49.0,63.0,5326.0
life_sq,17291.0,34.2592,59.9446,0.0,20.0,30.0,43.0,7478.0
floor,18838.0,7.2937,5.1912,0.0,3.0,6.0,10.0,77.0
state,15505.0,2.2013,0.8528,1.0,2.0,2.0,3.0,33.0
max_floor,17445.0,12.4233,6.2798,0.0,9.0,12.0,17.0,57.0
material,17445.0,1.8901,1.5061,1.0,1.0,1.0,2.0,6.0
num_room,17445.0,1.9348,0.8642,0.0,1.0,2.0,3.0,19.0
kitch_sq,17445.0,7.2064,26.9816,0.0,5.0,7.0,9.0,2014.0
full_all,18866.0,159715.7054,304351.0592,2546.0,48439.0,87713.0,125354.0,1716730.0


In [None]:
df.describe(include=[object]).transpose()

Unnamed: 0,count,unique,top,freq
timestamp,18866,1074,2014-12-16,133
build_year,16866,120,2014.0,919
sub_area,18866,146,Nekrasovka,620


Выводы текстом, что вы можете сказать по каждому признаку, на основе базовых статистик

Какие признаки вы считаете полезными для предсказания цены квартиры, а какие по вашему мнению можно убрать. Почему?

Есть ли пропуски в данных? В каких столбцах? Какой процент по каждому столбцу?

In [None]:
nan_df = df.isna().sum().to_frame().rename(columns={0:"count"})
nan_df['%'] = (df.isna().sum() / df.shape[0] * 100).round(2)
nan_df.sort_values("count", ascending=False).transpose().style.background_gradient(cmap='Reds', axis=1)

Unnamed: 0,state,build_year,life_sq,max_floor,material,num_room,kitch_sq,floor,id,timestamp,full_sq,full_all,sub_area,price_doc
count,3361.0,2000.0,1575.0,1421.0,1421.0,1421.0,1421.0,28.0,0.0,0.0,0.0,0.0,0.0,0.0
%,17.82,10.6,8.35,7.53,7.53,7.53,7.53,0.15,0.0,0.0,0.0,0.0,0.0,0.0


#### Есть ли аномальные данные в стллбцах? Если да, то укажите на них и объясните, почему считаете аномальными

In [None]:
df.columns

Index(['id', 'timestamp', 'full_sq', 'life_sq', 'floor', 'state', 'max_floor',
       'material', 'build_year', 'num_room', 'kitch_sq', 'full_all',
       'sub_area', 'price_doc'],
      dtype='object')

##### **1. timestamp**

In [None]:
df.timestamp = pd.to_datetime(df.timestamp)
df.timestamp.dt.year.sort_values().unique()

array([2011, 2012, 2013, 2014, 2015])

In [None]:
df.timestamp.describe(datetime_is_numeric=True).to_frame().transpose()

Unnamed: 0,count,mean,min,25%,50%,75%,max
timestamp,18866,2014-05-14 05:19:03.008587008,2011-09-10,2013-12-27 06:00:00,2014-05-28,2014-11-14,2015-06-30


In [None]:
df.timestamp.dt.year.value_counts().sort_index().to_frame().transpose().style.background_gradient(cmap='Greens', axis=1)

Unnamed: 0,2011,2012,2013,2014,2015
timestamp,119,702,3948,11450,2647


In [None]:
sale_months = df.timestamp.dt.month
print(all(sale_months.isin(range(13))), sale_months.nunique())
sale_months.value_counts().sort_index().to_frame().transpose().style.background_gradient(cmap='Greens', axis=1)

True 12


Unnamed: 0,1,2,3,4,5,6,7,8,9,10,11,12
timestamp,1164,1504,1686,1877,1516,1570,957,1123,1506,1767,1903,2293


In [None]:
sale_days = df.timestamp.dt.day
print(all(sale_days.isin(range(32))), sale_days.nunique())
sale_days.value_counts().sort_index().to_frame().transpose().style.background_gradient(cmap='Greens', axis=1)

True 31


Unnamed: 0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31
timestamp,478,499,546,585,582,565,519,535,568,603,643,571,549,581,588,685,657,714,690,710,649,575,597,693,702,734,750,653,593,709,343


##### **2. full_sq**

In [None]:
df.full_sq.describe()

count    18866.0000
mean        53.9409
std         44.1162
min          0.0000
25%         38.0000
50%         49.0000
75%         63.0000
max       5326.0000
Name: full_sq, dtype: float64

##### **3. life_sq**

In [None]:
# d = df.copy()
# print(d.isna().sum().to_frame().transpose())
columns = ['num_room', 'max_floor', 'floor', 'kitch_sq', 'life_sq']
d.material = d.material.fillna(d.material.mode()[0])
gr_obj = d.groupby(['sub_area','material'], as_index=False)[columns].transform("mean")
for column in columns:
    d.loc[d[column].isna(), column] = gr_obj.loc[d[column].isna(), column]
print(d.isna().sum().to_frame().transpose())
d.head()

   id  timestamp  full_sq  life_sq  floor  state  max_floor  material  \
0   0          0        0     1575     28   3361       1421      1421   

   build_year  num_room  kitch_sq  full_all  sub_area  price_doc  
0        2000      1421      1421         0         0          0  
   id  timestamp  full_sq  life_sq  floor  state  max_floor  material  \
0   0          0        0        7      0   3361          1         0   

   build_year  num_room  kitch_sq  full_all  sub_area  price_doc  
0        2000         1         1         0         0          0  


Unnamed: 0,id,timestamp,full_sq,life_sq,floor,state,max_floor,material,build_year,num_room,kitch_sq,full_all,sub_area,price_doc
0,8059,2013-05-21,11,11.0,2.0,3.0,5.0,2.0,1907.0,1.0,12.0,75377,Hamovniki,2750000
1,8138,2013-05-25,53,30.0,10.0,3.0,16.0,1.0,1980.0,2.0,8.0,68630,Lianozovo,9000000
2,8156,2013-05-27,77,41.0,2.0,1.0,17.0,6.0,2014.0,3.0,12.0,9553,Poselenie Voskresenskoe,7011550
3,8157,2013-05-27,45,27.0,6.0,3.0,9.0,1.0,1970.0,2.0,6.0,78616,Severnoe Butovo,7100000
4,8178,2013-05-28,38,20.0,15.0,,16.0,1.0,1982.0,1.0,8.0,112804,Filevskij Park,6450000


In [None]:
d

Unnamed: 0,id,timestamp,full_sq,life_sq,floor,state,max_floor,material,build_year,num_room,kitch_sq,full_all,sub_area,price_doc
0,8059,2013-05-21,11,11.0,2.0,3.0,5.0,2.0,1907.0,1.0,12.0,75377,Hamovniki,2750000
1,8138,2013-05-25,53,30.0,10.0,3.0,16.0,1.0,1980.0,2.0,8.0,68630,Lianozovo,9000000
2,8156,2013-05-27,77,41.0,2.0,1.0,17.0,6.0,2014.0,3.0,12.0,9553,Poselenie Voskresenskoe,7011550
3,8157,2013-05-27,45,27.0,6.0,3.0,9.0,1.0,1970.0,2.0,6.0,78616,Severnoe Butovo,7100000
4,8178,2013-05-28,38,20.0,15.0,,16.0,1.0,1982.0,1.0,8.0,112804,Filevskij Park,6450000
...,...,...,...,...,...,...,...,...,...,...,...,...,...,...
18861,21562,2014-08-15,78,,14.0,,0.0,6.0,,2.0,0.0,7341,Poselenie Moskovskij,7722029
18862,4796,2012-11-19,99,91.0,20.0,,,,,,,28179,Basmannoe,14800000
18863,466,2011-11-25,38,24.0,1.0,,,,,,,142462,Mozhajskoe,6300000
18864,27416,2015-01-21,77,,11.0,,0.0,1.0,,3.0,0.0,39873,Poselenie Shherbinka,5966828


In [None]:
gr_obj

Unnamed: 0,num_room,max_floor,floor
0,2.5000,7.0500,4.2500
1,1.7647,14.2353,8.7059
2,2.1429,9.2857,7.6429
3,2.0133,15.4800,9.0133
5,1.7586,18.0690,11.2069
...,...,...,...
18796,1.7872,16.2766,9.5775
18797,1.5200,8.4800,5.4800
18833,2.0435,11.9565,7.7391
18851,1.8305,13.1525,7.4915


##### **4. floor**

##### **5. state**

##### **6. state**

##### **7. max_floor**

##### **8. material**

##### **9. build_year**

##### **10. num_room**

##### **11. kitch_sq**

##### **12. full_all**

##### **13. sub_area**

##### **14. price_doc**

### 1.2.2 Макро показатели

Вывести пример данных (первые строки и случайные строки)

In [None]:
macro.sample(3)

Unnamed: 0,timestamp,salary,fixed_basket,rent_price_3room_eco,rent_price_2room_eco,rent_price_1room_eco,average_life_exp
493,2011-05-09,44898.7,13068.42,43.71,35.89,27.94,75.79
193,2010-07-13,38410.5,11708.46,,,,74.2
2335,2016-05-24,,20031.98,47.57,36.96,29.16,


Размер набора данных

In [None]:
macro.shape

(2484, 7)

Описание типов данных по признакам

In [None]:
macro.dtypes

timestamp                object
salary                  float64
fixed_basket            float64
rent_price_3room_eco    float64
rent_price_2room_eco    float64
rent_price_1room_eco    float64
average_life_exp        float64
dtype: object

Базовые статистики по признакам

In [None]:
macro.describe().transpose().style.background_gradient(cmap='Greens', axis=1)

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
salary,2191.0,52188.9331,9068.559,38410.5,44898.7,48830.4,61208.0,64310.0
fixed_basket,2484.0,15331.498,2789.1363,11443.63,12992.44,14983.92,18295.07,20422.5
rent_price_3room_eco,2211.0,47.2997,3.0702,37.54,45.53,47.35,49.35,53.21
rent_price_2room_eco,2211.0,38.8954,5.0352,0.1,37.93,39.47,41.3,43.85
rent_price_1room_eco,2211.0,31.0024,3.9841,2.31,29.78,31.11,33.06,35.37
average_life_exp,2191.0,75.9282,0.8699,74.2,75.74,75.79,76.7,76.77


In [None]:
macro.describe(include=[object]).transpose()

Unnamed: 0,count,unique,top,freq
timestamp,2484,2484,2010-01-01,1


Выводы текстом, что вы можете сказать по каждому признаку, на основе базовых статистик

Какие признаки вы считаете полезными для предсказания цены квартиры, а какие по вашему мнению можно убрать. Почему?

Есть ли пропуски в данных? В каких столбцах? Какой процент по каждому столбцу?

In [None]:
macro_nan_df = macro.isna().sum().to_frame().rename(columns={0:"count"})
macro_nan_df['%'] = (macro.isna().sum() / macro.shape[0] * 100).round(2)
macro_nan_df.sort_values("count", ascending=False).transpose().style.background_gradient(cmap='Reds', axis=1)

Unnamed: 0,salary,average_life_exp,rent_price_3room_eco,rent_price_2room_eco,rent_price_1room_eco,timestamp,fixed_basket
count,293.0,293.0,273.0,273.0,273.0,0.0,0.0
%,11.8,11.8,10.99,10.99,10.99,0.0,0.0


Есть ли аномальные данные в стллбцах? Если да, то укажите на них и объясните, почему считаете аномальными

## 1.3 Замените все ранее найденные ошибочные данные на None. Заполните все пропуски в данных: которые были и которые появились. Используйте как стратегии изученные на занятии, так и логику, которая вытекает из самих данных

### 1.3.1 Главный набор данных

### 1.3.2 Набор с макропоказателями

## 1.4 Обогатите основной набор данных данными из макропоказателей и поместите в переменную `df_full`

## 1.5 Проверьте данные на наличие выбросов. По каждому столбцу. Напишите своё мнение: нужно ли в каждой из ситуаций обрабатывать выбросы, или можно оставить. Если нужно обработать, то примените один из изученных подходов, либо предложите свой

### 1.5.1 Главный набор данных

### 1.5.2 Набор с макропоказателями

## 1.6 Создайте не менее 5 новых признаков на основе существующих данных. Опишите текстом обоснование создания каждой. Признаки должны привносить некую новую информацию для понимания цены квартиры

## 1.7 Провести визуальный анализ всех признаков

Ко всем графикам писать выводы текстом. Что вы видите, почему построили именно такую диаграмму

### 1.7.1 Анализ признаков по отдельности (где нужно делать группировки, преобразования категориальных типов данных к числовым, смотреть в разрезе других категориальных признаков)

### 1.7.2 Анализ совместного влияния признаков и их влияния на целевой признак