# Проект

## Регрессия

С 1 октября НДС на бриллианты отменяется, что делает их новым инвестиционным инструментом. Давайте создадим для них модель ценообразования.

Скачайте набор данных diamonds.csv

It cОн содержит характеристики бриллиантов и цены на них с сайта jamesallen (B2C-платформа) по состоянию на 2022-07-01

**Описание характеристик**

* fluor - флюоресценция (свойство драгоценного камня светиться под * symmetry - показатель симметрии
* platform - название платформы, на которой был размещен драгоценный камень
* quality_group - составной показатель из симметрии огранки полировки
* size_group - группа по весу карата
* big_size_group - группа по весу карата
* shape - форма
* color - цвет
* clarity - чистота
* cut - качество огранки (может быть только для круглых камней)
* polish - полировка
* id - номер драгоценного камня
* date - дата
* price - цена
* carat - количество каратов
* tablepercent - размер таблицы по сравнению с шириной
* price_per_carat - цена за карат
* z - длина (диаметр)
* x - ширина
* depth_perc - отношение высоты к ширине
* y - высота

In [None]:
import pandas as pd
import numpy as np

In [None]:
df = pd.read_csv('diamonds.csv')

Это нужно для того, чтобы предсказать `price_per_carat`.

### Задание 1: Очистка данных
Не все драгоценные камни удается продать в течение месяца, поэтому в таблице есть повторы. Объедините данные по каждому самоцвету: подумайте, как лучше это сделать, какую цену взять.

**Постарайтесь найти аномалии:** возможно, цена на некоторые самоцветы резко меняется (то есть продавец сам не знает, по какой цене их продавать). Также убедитесь, что другие параметры драгоценного камня не меняются.

In [None]:
id_stat = df.groupby(by='...')['carat'].count().to_frame() # Подсчитайте статистику по количеству драгоценных камней

# Разделите выборку на две части
df_one = df.query('...') # те драгоценные камни, которые встречаются однажды
df_three = df.query('...') # те драгоценные камни, которые встречались 2 или 3 раза
# подумайте, где он должен быть равен 0, а где должен изменяться в разумных пределах

# Удалите аномальные значения и выбросы
df_three = df_three.query('...').sort_values(by=['id','date'])

df_three = df_three.groupby('...').agg('l...').reset_index() # Теперь возьмите в качестве цены последнее по времени значение

df = pd.concat([df_one, df_three]).reset_index(drop=True) # Теперь объедините, чтобы получить результат

Цены на бриллианты колеблются довольно значительно, попробуйте рассчитать уровень инфляции и скорректировать цены на последний месяц. Следует отметить, что не все цены на бриллианты изменяются синхронно, то есть изменение в отдельных группах может быть разным.

*Определите эти группы и рассчитайте коэффициенты инфляции для каждой из них. Скорректируйте цены на эти коэффициенты и создайте переменную.*

In [None]:
categories = ['...'] # определите группы, по которым будет сегментироваться инфляция (например, вы можете добавить группу каратов)

df_index = df.groupby(['date'] + categories)[['price_per_carat']]\
             .mean()\
             .reset_index() #ценовой индекс

date_max = df_index.date.max()


df_index = df_index.merge(df_index.query('date == @date_max')[categories + ['price_per_carat']]\
                          .rename(columns={'price_per_carat': 'price_per_carat_max'}),
                          on=categories, how='outer') # сопоставление групп с максимальной датой

df_index['inflation'] = df_index.['...'] / df_index.price_per_carat # расчет инфляции

df_with_inf = df.merge(df_index[['date'] + categories + ['inflation']], on=['date'] + categories, how='left')# объединение всех данных в одну таблицу

### Задание 2: Модель

Определите функцию потерь (MSE или MAE) и обоснуйте свой выбор. Попробуйте построить baseline. Используйте LabelEncoder для категориальных признаков и **постройте линейную модель**.

In [None]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LableEncoder
from sklearn.metrics import ...


X = df.drop(columns=["..."])
y = df["..."]

X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.2, random_state=13)

Теперь попробуйте OHE (One Hot Encoding) или TargetEncoder (сравните их).

Нормализуйте данные.

Поработайте с отсутствующими значениями (обратите внимание, что для 'fluor' значение может быть пропущено или флюоресценция может отсутствовать).

Покажите, насколько вам удалось улучшить результат.

In [None]:
! pip install category_encoders

In [None]:
from sklearn.preprocessing import OneHotEncoder
from category_encoders import TargetEncoder
from sklearn.preprocessing import StandardScaler

from typing import Tuple, List


def OHE(df: pd.DataFrame, columns: List[str]) -> Tuple[pd.DataFrame, List[str]]:
    """
    Instead of this function you can use Pandas functionality
    """
    index = df.index
    one = OneHotEncoder(sparse=False, categories='auto')
    ohe = one.fit_transform(df[columns])
    col_names = one.get_feature_names(input_features = columns)
    df = df.drop(columns, axis=1)
    df = df.reset_index(drop=True)
    df = pd.concat([df, pd.DataFrame(ohe, columns=col_names)], axis = 1)
    df = df.set_index(index)
    return (df, col_names)

scaler = StandardScaler() # Помните, что здесь мы выполняем только преобразование

Сравните результаты вашей модели с результатами KNN

In [None]:
from sklearn.neighbors import KNeighborsRegressor

...

## Деревья решений

Попробуйте выполнить то же задание, но с помощью модели Decision Trees.

In [None]:
# your code here

## Ансамблевые методы

Попробуйте выполнить то же задание, но с использованием ансамблевых методов (модель случайного леса).

In [None]:
# your code here

## Заключение

Сравните все модели, выберите лучшую и сделайте вывод о задании в целом.

<Ваш вывод здесь >