# Преамбула
Экзамен состоит из трёх блоков:  
- программирование на python;  
- работа с датафреймами и описательная статистика;  
- классическое машинное обучение.

В каждом вопросе может быть **любое** количество правильных ответов.  
Стоимость вопроса равна одному баллу, если не сказано иное.  
Для успешной сдачи экзамена необходимо набрать 50% и более от максимального числа баллов.

- **NB:** В первом блоке (программирование на python) **ЗАПРЕЩЕНО** пользоваться библиотеками, не посталяемыми вместе с python по-умолчанию (т.е. pandas/numpy нельзя использовать в это блоке, а random/json -- можно);  
- Все спорные моменты трактуются в пользу экзаменуемого;  
- Ваш код должен быть воспроизводим (если я положу исходные файлы в ту же папку, что и Ваш ноутбук, и нажму `Run` -> `Run All Cells`, то всё должно работать). Так что соблюдайте логику и последовательнось запуска ячеек. Спасибо :)  
- Можно пользоваться только своей головой, но любыми материалами и интернетом;  
- Если задание кажется сложным -- пропустите его;  

- Во время экзамена я буду отвечать только на вопросы касаемо формулировок заданий.

Главное, не спешите, проверяйте, что и куда записывается.  
За каждого болею.  
Всем удачи!  


# Программирование на python

## 1.

### 1.1 (1 балл)
В некоторой стране ввели налог на воздух, сумма которого вычисляется по следующей формуле 
$$ T = V_{см^3} * k + base $$,
где $T$ -- размер налога, $V$ -- суммарный объём вдохнутоо воздуха, $k$ -- некоторый коэффициент, $base$ -- базовая надбавка.

> Реализуйте функцию `breath_tax`, которая принимает в качестве аргументов объём вдохнутого воздуха и значения для $k$ и $base$ и возвращает сумму налога. Возвращаемое значение округлить до 2 знаков после запятой.

In [60]:
assert breath_tax(3333, 1.475, 25) == 4941.18

### 1.2 (1 балл)  

Сделайте $k$ и $base$ keyword аргументами со значениями по-умолчанию 1.5 и 100 соответственно.

In [69]:
assert breath_tax(3333) == 5099.5

## 2. (2 балла)
Дан файл `flat_data.json` с информацией о стоимости и других параметрах квартир.  Сконвертируйте его в файл `flat_data.csv` csv формата. В качестве разделителя используйте точку с запятой (";"). 

Пример результата:  
<center>
    <img src="data/task2.png" />
</center>

## 3.

### 3.1 (2 балла)

Создайте консуктор класса `Flat`.  
При создании экземпляры класса должны принимать:
* площадь квартиры (area)
* стоимость (price)
* число комнат (rooms)
и создавать соответсвующие атрибуты.

При создании экземпляра класса на основании принимаемых данных также создать атрибуты:
* средняя площадь комнаты (будем считать по формуле $ \frac{площадь.кв}{число.комнат}$) (meanRoomArea). Округлить до 1 знака после запятой;  
* стоимост квадратного метра ($\frac{стоимость}{площадь}$) (meter_price). Округлить до 1 знака после запятой.

In [95]:
f = Flat(9.5, 99.55, 2)
assert all([f.area == 9.5, f.price == 99.55, f.rooms == 2, f.meanRoomArea ==4.8, f.meter_price == 10.5]) 

### 3.2 (1 балл)
Реализуйте метод `__repr__` для строкового предсталения экземпляра класса квартиры (вид возвращаемой строки какой хотите).

### 3.3 (1 балл)
Сделайте так, чтобы при применении функции `len()` к экземпляру класса Flat возвращалось число комнат.

In [100]:
f = Flat(9.5, 99.55, 2)
assert all([len(f) == 2]) 

### 3.4 (1.5 балла)
Реализуйте метод `discount`, который принимает размер скидки (число процентов). Соотвутствующая скидка применяется к стоимости квартиры. Значения атрибутов, зависящих от стоимости, также пересчитываются.  
Стоимость квартиры округлять до 2 знаков после запятой. Всех остальных атрибутов -- до 1 знака.

Скидка не может быть больше 100. Если введено недопустимое число, то метод должен возвращать булевое `False`.

In [117]:
f = Flat(9.5, 99.55, 2)
assert all([f.area == 9.5, f.price == 99.55, f.rooms == 2, f.meanRoomArea ==4.8, f.meter_price == 10.5]) 
f.discount(0)
assert all([f.area == 9.5, f.price == 99.55, f.rooms == 2, f.meanRoomArea ==4.8, f.meter_price == 10.5]) 
f.discount(50)
assert all([f.area == 9.5, f.price ==  49.77, f.rooms == 2, f.meanRoomArea ==4.8, f.meter_price == 5.2]) 
assert f.discount(101) is False

# Работа с табличными данными
Дан файл `moscow_flats_dataset_2020.csv` с информацией о стоимости квартир в Москве.

Разделитель -- запятая.

In [122]:
import pandas as pd
import numpy as np

import seaborn as sns
import matplotlib.pyplot as plt


df = pd.read_csv('data/moscow_flats_dataset_2020.csv', encoding='utf8', sep=',')
df.head()

Unnamed: 0,wallsMaterial,floorNumber,floorsTotal,totalArea,kitchenArea,latitude,longitude,price
0,brick,1,5.0,18.0,3.0,55.723379,37.628577,5600000
1,brick,1,5.0,15.0,3.0,55.72598,37.671031,4650000
2,brick,1,5.0,11.9,1.5,55.735976,37.657817,2990000
3,brick,1,7.0,18.4,3.0,55.786698,37.595321,4390000
4,brick,2,5.0,17.6,2.0,55.767894,37.66592,4890000


## 4. (0.5 балла)
Определите число пропусков для каждой колонки. 

Затем определите суммарное число пропусков в датафрейме.

Пример вывода:  

<kbd>
<img src="data/task4_1.png" />
</kbd>
<br>
<kbd>
<img src="data/task4_2.png" />
</kbd>

## 5. (0.5 балла)
Предположим, что не существет друх квартир с одинаковыми координатами и стоимостью. А значит такие в нашем датасете -- дубликаты.  
Удалите дубликаты из таблицы и определите размерность результата.  
Сколько строчек было удалено?

## 6. (0.5 балла)
Определите, сколько раз встречалось каждое уникальное значение в столбце _wallsMaterial_.  
Отсортируйте результат по встречаемости.

## 7. (0.75 балла)
Для каждого типа материала стен определите среднее значение цены квартиры.

## 8. 
Для каждого этажа определите за одну комманду:  
* медианное значение цены;  
* стандартное отклонение цены;  
* 5% квантиль цены;  
* 95% квантиль цены;

## 9.
Для каждой группы домов, по числу этажей (_floorsTotal_) за одну команду определите медианное значение для latitude и longitude.

## 10.
Для квартир, площадь которых больше 70 метров, определите топ-2 самых часто встречаемых материалов стен.

## 11. 
Нарисуйте распределение стоимости жилья отдельно для каждого материала стен.  
**Сделайте 20 бинов, иначе картинка будет рисоваться вечность!**

<kbd>
<img src="data/task11.png" />
</kbd>

## 12. (3 балла)
Согласитесь, картинка выше полный отстой. Попробуем два варианта: 
1. Прологарифмируем стоимость и построим гистограмму для логарифмов цен (основание логарифма -- двойка);
2. Срежем 5% самых дорогих квартир и построим гистограммы для оставшихся 95%.  

(**+1 балл**)  
Отобразите картинки на одном графике (то есть слева картинку для варианта 1, а справа -- для варианта два). 

<kbd>
<img src="data/task12.png" />
</kbd>

## 13. (2 балла)

Постройте гистограмму встречаемости типов материалов стены.  
Разбейте отдельно для квартир дороже 20МЛН, от 10МЛН до 20МЛН и дешевле 10 МЛН.

<kbd>
<img src="data/task13.png" />
</kbd>

## 14 (2 балла)
Постройте гистограмму встречаемости типов материалов стены. Но теперь нужно вывести не частоту, а проценты.  
Разбейте отдельно для квартир дороже 20МЛН, от 10МЛН до 20МЛН и дешевле 10 МЛН

**Т.е. то, сколько процентов кирпичных домов приходится на категории <10M, 10-20М и >20М.**

<kbd>
<img src="data/task14.png" />
</kbd>

# Введение в классическое машинное обучение

Будем работать с тем же файлом `moscow_flats_dataset_2020.csv`.

In [219]:
# будем работать с исходным файлом
df = pd.read_csv('data/moscow_flats_dataset_2020.csv', encoding='utf8', sep=',')

## 15. (3 балла)
Только на числовых признаках обучите модель линейной регрессии с параметрами по-умолчанию для определения стоимости квартиры. 

Указания:
1. Отберите числовые столбцы;
2. Разбейте данные для трейн и тест (размер тестовой выборки 25%, сид для рандомизации: 23042023 );
3. Обучите модель на тренинговой выборке;  
4. Сделайте предсказания модель на тестовой выборке;  
5. Посчитайте RMSLE (<a href="https://scikit-learn.org/stable/modules/generated/sklearn.metrics.mean_squared_log_error.html">ссылка</a>);

## 16 (3 балла)
Попробуем предсказывать теперь не стоимость, а её логарифм. Обучим линейную модель для предсказания логарифма цены, дальше возведем экспоненту в найденные степени (логарифм==степень), посчитаем ошибку.

Указания:
1. Отберите числовые столбцы;
2. Разбейте данные для трейн и тест (размер тестовой выборки 25%, сид для рандомизации: 23042023 );  
*2.2 _Стедайлте MinMax шкалирование числовых признаков (+1 балл)_
3. Прологарифмируйте цены в трейне;
4. Обучите модель на тренинговой выборке;  
5. Сделайте предсказания модель на тестовой выборке;  
6. Так как мы предсказали именно степени, а не сами цены, то возведите экспоненту в найденные степени;
7. Посчитайте RMSLE на ценах;

**Стало ли лучше? Почему?**

### 17. (5 баллов)
На исходных данных (не шкалированных) обучите модель случайного леса (RandomForestClassifier) для определения  значения "wallsMaterial" и определите оптимальные параметры с помощью GridSearchCV.

Укаазния:  
1. Разбейте данные на трейн и тест (размер тестовой выборки 25%, сид для рандомизации: 23042023 );  
2. Создайте сетку параметров для GridSearchCV.  
   Значения для перебора: 
   - `n_estimators: 10, 25, 50, 100`
   - `max_depth: 3, 5, 10`
   - `max_features: "sqrt", "log2"`  
   
Для скоринга используйте f1-score (average) (нужно создать scorer с помощью <a href="https://scikit-learn.org/stable/modules/generated/sklearn.metrics.make_scorer.html">make_scorer</a>).   
(GridSearchCV учите только на тренинговой выборке)

3. На лучшей модели из GridSearchCV (атрибут best_estimator_ или как-то так) сделайте предсказания для тестовой выборки;  
4. Определите roc_auc_score (average) для предсказания.