**Импорт всех необходимых библиотек**

In [None]:
import pandas as pd
import numpy as np
import matplotlib.pyplot as plt
import seaborn as sns
pd.set_option("display.max_rows", 20)
pd.set_option("display.max_columns", 20)
pd.set_option("display.precision", 4)
pd.set_option("plotting.backend", "matplotlib")

# 1. Исследовательский анализ данных (exploratory data analysis - EDA)

## 1.1 Словесное описание признаков

<b><p>data.csv</p></b>
<ul>
<li>id: id транзакции </li>
<li>timestamp: дата продажи (транзакции) </li>
<li>full_sq: общая площадь  </li>
<li>life_sq: жилая площадь  </li>
<li>floor: этаж  </li>
<li>max_floor: количество этажей в здании </li>
<li>material: материал, из которого изговолены стены  </li>
<li>build_year: год строительства </li>
<li>num_room: количество жилых комнат </li>
<li>kitch_sq: площадь кухни </li>
<li>full_all: количество населения в регионе </li>
<li> state: жилищные условия </li>
<li>sub_area: название территории </li>
<li>price_doc: цена квартиры (целевая переменная) </li>
</ul>

<b><p>macro.csv</p></b>
<ul>
<li>timestamp : дата, на которую актуальны макроэкономические показатели </li>
<li>salary : средняя зарплата в регионе </li>
<li>fixed_basket: стоимость потребительской корзины </li>
<li>rent_price_3room_eco: стоимость аренды 3-х комнатного жилья эконом-класса </li>
<li>rent_price_2room_eco: стоимость аренды 2-х комнатного жилья эконом-класса </li>
<li>rent_price_1room_eco: стоимость аренды 1-но комнатного жилья эконом-класса </li>
<li>average_life_exp: средняя продолжительность жизни в регионе </li>
</ul>

## 1.2 Загрузка данных общее описание набора данных

In [None]:
PATH_base = "https://raw.githubusercontent.com/aksenov7/Kaggle_competition_group/master/data.csv"
PATH_add = "https://raw.githubusercontent.com/aksenov7/Kaggle_competition_group/master/data_macro.csv"
df = pd.read_csv(PATH_base)
macro =  pd.read_csv(PATH_add)

### 1.2.1 Базовый датасет

Вывести пример данных (первые строки и случайные строки)

In [None]:
print('Head')
display(df.head())

print('Random')
display(df.sample(5))

Размер набора данных

In [None]:
print('df size: ', df.size)
print('df shape: ', df.shape)

print('macro size: ', macro.size)
print('macro shape: ', macro.shape)

Описание типов данных по признакам

In [None]:
df.info()

# Описание
id - числовой идентификатор
timestamp - дата продажи в формате YYYY-MM-DD
full_sq - общая жилая площадь целочисленная
life_sq: жилая площадь в формате с плавающей точкой, есть пропуски
floor: этаж в формате с плавающей точкой, есть пропуски
state: жилищные условия категориальная величина в формате с плавающей точкой, есть пропуски
max_floor: количество этажей в здании в формате с плавающей точкой, есть пропуски
material: материал, из которого изговолены стены, категориальная величина в формате с плавающей точкой, есть пропуски
build_year: год строительства, величина в формате с плавающей точкой, но предствавлена как object, видимо есть примеси, также есть пропуски
num_room: количество жилых комнат, величина в формате с плавающей точкой, есть пропуски
kitch_sq: площадь кухни, величина в формате с плавающей точкой, есть пропуски
full_all: количество населения в регионе, величина целочисленная
sub_area: название территории, представлено как object, но по факту строка
price_doc: цена квартиры (целевая переменная), целочисленная

Базовые статистики по признакам

In [None]:
from pandas import DataFrame


print("numerical features")
display(df.describe())

print("object features")
df.describe(include=[object])

Выводы текстом, что вы можете сказать по каждому признаку, на основе базовых статистик

id - идут не по порядку, пропусков нет
общая - большая часть квартир имеет не большую площадь ~ 50 метров, есть либо пропуски, либо недвижимость без жилищной площади. Максимальное в ~100 раз превышает среднее и медиану
life_sq - в среднем меньше общей площади ~18-20 метров
floor - в основном покупают квартиры 6-8 этаже, есть информация о продаже небоскребов
state - есть 4 категории, возможно есть ошибка тк максимальное значение 33
max_floor - по какой-то причине есть продажа на 77 этаже, но максимальный этаж в проданном доме 57
material - категориальная величина, большая часть домов построена из материала по категорией 1
num_room - большая часть продаж приходится на 1/2/3 комнатные
kitch_sq - небольшой межинтервальный размах, но очень большое стандартное отклонение, возможно очень много выбросов
full_all - информация о продажа собрана в небольших регионах с население в среднем до 500 тысяч
price_doc - большая часть квартир стоит около 5-10 млнов
timestamp - возможно данные представлены за 3 года
build_year - большая часть домов была построена в 2014 году
sub_area - Nekrasovka - самый частый пункт продажи квартир

Какие признаки вы считаете полезными для предсказания цены квартиры, а какие по вашему мнению можно убрать. Почему?

Площадь жилая и общая - тк прямопропорционально влияет на цену
Количество комнат - прямопропорционально влияет на цену, тк чем больше комнат тем обычно больше площадь
год постройки - чем новее тем дороже, старые дома ценятся хуже
этаж - есть мнение что с 4-6 этаж лучше воздух и меньше шума, нужно проверить эту гипотезу
площадь кухни - гипотеза, площадь кухни прямопрапорционально влияет на цену
регион - в пунктах с большим населением, цена выше
timestamp - из-за инфляции чем позже была куплена тем выше цена в абсолютном значении

Есть ли пропуски в данных? В каких столбцах? Какой процент по каждому столбцу?

In [None]:
for column in df.columns:
    print(f'{column} skips: ', df[column].shape[0] - df[column].dropna().shape[0])

Есть ли аномальные данные в стллбцах? Если да, то укажите на них и объясните, почему считаете аномальными

In [None]:
print(df.full_sq.max() - df.life_sq.max()) # Жилищная площадь превышает общую площадь
print(df.kitch_sq.max()) # Очень большая площадь кухни
print(df.num_room.min()) # Помещение без комнат, возможно подсовки
print(df.state.value_counts()) # Есть выброс категория 33
print(df.full_sq.min()) # Есть помещения без прощади

### 1.2.2 Макро показатели

Вывести пример данных (первые строки и случайные строки)

In [None]:
display(macro.head())
display(macro.sample(5))

Размер набора данных

In [None]:
display(macro.shape)
display(macro.size)

Описание типов данных по признакам

In [None]:
macro.info()

Базовые статистики по признакам

In [None]:
print('numerical features: ')
display(macro.describe())
print('object features: ')
macro.describe(include=[object])

Выводы текстом, что вы можете сказать по каждому признаку, на основе базовых статистик

Salary - без особых выбросов, похоже на нормальное распределение
fixed_basket - В среднем составляет треть от зарплаты, без особых выбросов
rent_price_3room_eco - похоже, что указано в e-3 степени. Небольшое отлокнение. Соответствует рыночной конъюктуре
rent_price_2room_eco - есть выброс в минимальном значении. Соответствует рыночной конъюктуре
rent_price_1room_eco - похожее на выброс минимальное значение. Соответствует рыночной конъюктуре
average_life_exp - очень кучное распределение. Без выбросов

Какие признаки вы считаете полезными для предсказания цены квартиры, а какие по вашему мнению можно убрать. Почему?

Salary - от средней зарплаты зависит цена квартир
rent_price_3room_eco, rent_price_2room_eco, rent_price_1room_eco - гипотеза, стоимость аренды прямо кореллируем со стоимостью квартир в регионе

Есть ли пропуски в данных? В каких столбцах? Какой процент по каждому столбцу?

In [None]:
for column in macro.columns:
    if skips := macro[column].shape[0] - macro[column].dropna().shape[0]:
        print(f'{column} skips: ', skips)

Есть ли аномальные данные в стллбцах? Если да, то укажите на них и объясните, почему считаете аномальными

In [None]:
macro.rent_price_2room_eco.min() # Выброс или ошибочное значение
# Остальные показатели находятся в границах своих распределений

## 1.3 Замените все ранее найденные ошибочные данные на None. Заполните все пропуски в данных: которые были и которые появились. Используйте как стратегии изученные на занятии, так и логику, которая вытекает из самих данных

### 1.3.1 Главный набор данных

In [None]:
df_copy = df.copy()


### 1.3.2 Набор с макропоказателями

## 1.4 Обогатите основной набор данных данными из макропоказателей и поместите в переменную `df_full`

## 1.5 Проверьте данные на наличие выбросов. По каждому столбцу. Напишите своё мнение: нужно ли в каждой из ситуаций обрабатывать выбросы, или можно оставить. Если нужно обработать, то примените один из изученных подходов, либо предложите свой

### 1.5.1 Главный набор данных

### 1.5.2 Набор с макропоказателями

## 1.6 Создайте не менее 5 новых признаков на основе существующих данных. Опишите текстом обоснование создания каждой. Признаки должны привносить некую новую информацию для понимания цены квартиры