# Регрессия

С 1ого октября отменяется НДС на бриллианты, теперь они становятся новым инвестиционным инструментом. Давайте сделаем модель ценообразования для них.

Скачайте датасет diamonds.csv

В нем представлены характеристики бриллиантов и их цены с сайта jamesallen (B2C площадка) с 2022-07-01

**Описание полей**


* fluor - флуорисценуия (свойство камня светиться в лучах ультр)
* symmetry - показатель симметричности
* platform - название платформы, где был размещен камень
* quality_group - составной показатель из cut polish symmetry
* size_group - каратно весовая группа
* big_size_group - каратно-весовая группа
* shape - форма
* color - цвет
* clarity - чистота
* cut - качество огранки (может быть только у круглых камней)
* polish - полировка
* id - номер камня
* date - дата
* price - цена
* carat - кол-во карат
* tablepercent - размер площадки по отношению ширине
* price_per_carat - цена за карат
* z - длина (diameter)
* x - ширина
* depth_perc - отношение высоты к ширине
* y - высота



In [141]:
import pandas as pd
import numpy as np

In [142]:
# from google.colab import drive
# drive.mount('/content/drive')

# path = 'drive/MyDrive/'

In [143]:
# df = pd.read_csv(path + 'diamonds.csv', index_col=0)

In [144]:
df = pd.read_csv('diamonds.csv', index_col=0)

Хоти предсказать price_per_carat

## Задание 1: Очистка

Не все камни успевают продаться за один месяц, поэтому в таблице есть повторы. Объедините данные по одному камню: подумайте, как лучше это сделать, какую цену брать.

Попробуйте найти аномалии: вдруг цена на некоторые камни сильно меняется (то есть продавец сам не знает, по какой цене их продавать). Также убедитесь, что остальные параметры камня не меняются.

In [145]:
id_stat = df.groupby(by='id')['carat'].count().to_frame() #Посчитайте статистику по кол-ву камней

# разделите выборку на две части
id_count_1 = id_stat[id_stat['carat'] == 1]
df_one = df.query('id in @id_count_1.index')  # те камни, которые встречались один раз
id_count_2_3 = id_stat[(id_stat['carat'] == 2) + (id_stat['carat'] == 3)]
df_three = df.query('id in @id_count_2_3.index') # те камни, которые встречались 2 или 3 раза


stat = df_three.groupby('id')['price', 'carat', 'price_per_carat', 'z', 'x', 'depth_perc', 'y'].agg(np.std) # Посчитайте дстандартное отклонение по по нескольким полям,
#  подумайте где оно должно равняться 0, а где меняться в каких-то разумных пределах
anomaly_ids = list(stat[(stat['carat'] > 0) + (stat['z'] > 0) + (stat['x'] > 0) + (stat['depth_perc'] > 0) + (stat['y'] > 0)].index)
iqr = stat['price_per_carat'].quantile(0.75) - stat['price_per_carat'].quantile(0.25)
stat[stat['price_per_carat'] > 1.5 * stat['price_per_carat'].quantile(0.75)].index
anomaly_ids.append(stat[stat['price_per_carat'] > 1.5 * stat['price_per_carat'].quantile(0.75)].index)

# Удалите аномальные наблюдения
df_three = df_three.query('id not in @anomaly_ids').sort_values(by=['id','date'])

df_three = df_three.groupby('id').agg('last').reset_index() #тепреь в качестве цены возьмем последнее значение по времени

df = pd.concat([df_one, df_three]).reset_index(drop=True) # соединяем результаты

  stat = df_three.groupby('id')['price', 'carat', 'price_per_carat', 'z', 'x', 'depth_perc', 'y'].agg(np.std) # Посчитайте дстандартное отклонение по по нескольким полям,


Цены на бриллианты достаточно сильно меняются, попробуйте вычислить коэффициент инфляции и привести цены к последнему месяцу. Стоит учесть, что цены на все бриллианты не изменяются синхронно, то есть изменение в определенных группах может быть разным.

Определите эти группы и рассчитайте коэффициенты инфляции для каждой из них. Подправьте цены на эти коэффициенты и создайте новую переменную.

In [146]:
categories = ['clarity', 'polish'] #определите по каким группам отпределять инфляцию (к примеру можно добавить каратную группу)

df_index = df.groupby(['date'] + categories)[['price_per_carat']]\
                                                                .mean()\
                                                                    .reset_index() # индекс цен

date_max = df_index.date.max()


df_index = df_index.merge(df_index.query('date == @date_max')[categories + ['price_per_carat']]\
                          .rename(columns={'price_per_carat': 'price_per_carat_max'}), 
                          on=categories, how='outer') # сопоставляем группы с максимальной датой

df_index['inflation'] = df_index['price_per_carat_max'] / df_index.price_per_carat # вычисляем инфляцию

df_with_inf = df.merge(df_index[['date'] + categories + ['inflation']], 
                        on=['date'] + categories, how='left') # соединяем все в одной таблице

## Задание 2: Модель

Определите функцию потерь (MSE или MAE) и аргументируйте выбор.
Попробуйте сделать baseline.
Используйте LableEncoder для категориальных фичей и постройте линейную модель.

In [147]:
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import LabelEncoder
from sklearn.metrics import mean_absolute_percentage_error


X = df.drop(columns=["price", "price_per_carat", "platform"])
y = df["price"]

le = LabelEncoder()
X['fluor'] = le.fit_transform(X['fluor'])
X['symmetry'] = le.fit_transform(X['symmetry'])
X['shape'] = le.fit_transform(X['shape'])
X['color'] = le.fit_transform(X['color'])
X['clarity'] = le.fit_transform(X['clarity'])
X['cut'] = le.fit_transform(X['cut'])
X['polish'] = le.fit_transform(X['polish'])

X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.2, random_state=13)

In [148]:
from sklearn.linear_model import LinearRegression

lin_reg = LinearRegression()

lin_reg.fit(X_train, y_train)
y_pred = lin_reg.predict(X_valid)
print(mean_absolute_percentage_error(y_valid, y_pred))

0.6973341566129154


Теперь попробуйте OHE или TargetEncoder (сравните их).

Нормализуйте данные.

Поработайте с пропусками (обратите внимание на то, что у fluor возможен пропуск значения, а возможно отсутствие флуоресценции)

Покажите, насколько получилось улучшить результат.

In [149]:
#!pip install category_encoders

In [150]:
from sklearn.preprocessing import OneHotEncoder
from category_encoders import TargetEncoder
from sklearn.preprocessing import StandardScaler

from typing import Tuple, List


def OHE(df: pd.DataFrame, columns: List[str]) -> Tuple[pd.DataFrame, List[str]]:
    index = df.index
    one = OneHotEncoder(sparse=False, categories='auto')
    ohe = one.fit_transform(df[columns])
    col_names = one.get_feature_names(input_features = columns)
    df = df.drop(columns, axis=1)
    df = df.reset_index(drop=True)
    df = pd.concat([df, pd.DataFrame(ohe, columns=col_names)], axis = 1)
    df = df.set_index(index)
    return (df, col_names)

scaler = StandardScaler() # Помните, что на тесте делаем только transform

X = df.drop(columns=["price", "price_per_carat", "platform"])
y = df["price"]

X.fluor.fillna('NONE', inplace=True)
X = X.fillna(value=np.nan)

cat_features = X.columns[X.dtypes == object]
X, cat_col = OHE(X, cat_features)

X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.2, random_state=13)

scaler.fit(X_train, y_train)
X_train = pd.DataFrame(scaler.transform(X_train), index=X_train.index, columns=X_train.columns)
X_valid = pd.DataFrame(scaler.transform(X_valid), index=X_valid.index, columns=X_valid.columns)



In [151]:
lin_reg = LinearRegression()

lin_reg.fit(X_train, y_train)
y_pred = lin_reg.predict(X_valid)
print(mean_absolute_percentage_error(y_valid, y_pred))

0.5570493609380666


Mean absolute percentage error снизился с 0.6973341566129154 до 0.5570493609380666

Сравните с KNN

In [152]:
from sklearn.neighbors import KNeighborsRegressor

knn_model = KNeighborsRegressor(n_neighbors = 3)
knn_model.fit(X_train, y_train)
y_pred = knn_model.predict(X_valid)
print(mean_absolute_percentage_error(y_valid, y_pred))

0.19654745365001258


Mean absolute percentage error у KNN = 0.19654745365001258

# Классификация

Загрузите датасет bodyPerformance

Описание:

https://www.kaggle.com/datasets/kukuroo3/body-performance-data

In [157]:
# from google.colab import drive
# drive.mount('/content/drive')

# path = 'drive/MyDrive/'

In [158]:
df = pd.read_csv('bodyPerformance.csv') #укажите свой путь
df

Unnamed: 0,age,gender,height_cm,weight_kg,body fat_%,diastolic,systolic,gripForce,sit and bend forward_cm,sit-ups counts,broad jump_cm,class
0,27.0,M,172.3,75.24,21.3,80.0,130.0,54.9,18.4,60.0,217.0,C
1,25.0,M,165.0,55.80,15.7,77.0,126.0,36.4,16.3,53.0,229.0,A
2,31.0,M,179.6,78.00,20.1,92.0,152.0,44.8,12.0,49.0,181.0,C
3,32.0,M,174.5,71.10,18.4,76.0,147.0,41.4,15.2,53.0,219.0,B
4,28.0,M,173.8,67.70,17.1,70.0,127.0,43.5,27.1,45.0,217.0,B
...,...,...,...,...,...,...,...,...,...,...,...,...
13388,25.0,M,172.1,71.80,16.2,74.0,141.0,35.8,17.4,47.0,198.0,C
13389,21.0,M,179.7,63.90,12.1,74.0,128.0,33.0,1.1,48.0,167.0,D
13390,39.0,M,177.2,80.50,20.1,78.0,132.0,63.5,16.4,45.0,229.0,A
13391,64.0,F,146.1,57.70,40.4,68.0,121.0,19.3,9.2,0.0,75.0,D


## Задание 1: Определение гендера

Постройте модель, которая будет определять гендер.

Для этого определите две метрики качества, на которые вы будете смотреть. Аргументируйте свой выбор.

После чего преобразуйте категориальные переменные и постройте модель бинарной классификации на основе линейного классификатора и сравните с KNN.

P.S.: не забудте про нормализацию.

In [159]:
df.gender.value_counts()

M    8467
F    4926
Name: gender, dtype: int64

Распределение гендеров немного несбалансированно\
будем использовать precision и recall 

In [171]:
from sklearn.neighbors import KNeighborsClassifier
from sklearn.linear_model import LogisticRegression
from sklearn import metrics

X = df.drop(columns=["gender"])
y = df["gender"]

label_to_index = {
    'F': 0,
    'M': 1
}
y = np.array([label_to_index[i] for i in y])

cat_features = X.columns[X.dtypes == object]
X, cat_col = OHE(X, cat_features)

X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.2, random_state=13)

scaler = StandardScaler()

scaler.fit(X_train, y_train)
X_train = pd.DataFrame(scaler.transform(X_train), index=X_train.index, columns=X_train.columns)
X_valid = pd.DataFrame(scaler.transform(X_valid), index=X_valid.index, columns=X_valid.columns)

log_reg = LogisticRegression()

log_reg.fit(X_train, y_train)
y_pred = log_reg.predict(X_valid)
print('precision =', metrics.precision_score(y_valid, y_pred))
print('recall =', metrics.recall_score(y_valid, y_pred))

precision = 0.9918272037361354
recall = 0.9929865575686733




In [173]:
knn_model = KNeighborsClassifier(n_neighbors = 3)
knn_model.fit(X_train, y_train)
y_pred = knn_model.predict(X_valid)
print('precision =', metrics.precision_score(y_valid, y_pred))
print('recall =', metrics.recall_score(y_valid, y_pred))

precision = 0.9912383177570093
recall = 0.9918176504967855


Метрики линейного классификатора и kNN почти идентичные

## Задание 2: Определение класса

Теперь опробуем построить модель, которая будет предсказывать class физической формы.

Для этого определите метрики качества для задачи мультиклассификации (аргументируйте выбор).

Постройте модель мультиклассовой классификации на основе линейного классификатора и сравните с KNN.

In [175]:
df['class'].value_counts()

C    3349
D    3349
A    3348
B    3347
Name: class, dtype: int64

Классы почти идеально сбалансированны, можем использовать accuracy

In [209]:
X = df.drop(columns=["class"]) # укажите новый таргет
y = df["class"]

label_to_index = {
    'A': 0,
    'B': 1,
    'C': 2,
    'D': 3
}
y = np.array([label_to_index[i] for i in y])

cat_features = X.columns[X.dtypes == object]
X, cat_col = OHE(X, cat_features)

X_train, X_valid, y_train, y_valid = train_test_split(X, y, test_size=0.2, random_state=13)

scaler = StandardScaler()

scaler.fit(X_train, y_train)
X_train = pd.DataFrame(scaler.transform(X_train), index=X_train.index, columns=X_train.columns)
X_valid = pd.DataFrame(scaler.transform(X_valid), index=X_valid.index, columns=X_valid.columns)

log_reg = LogisticRegression()

log_reg.fit(X_train, y_train)
y_pred = log_reg.predict(X_valid)
print('accuracy =', metrics.accuracy_score(y_valid, y_pred))

accuracy = 0.6151549085479656
macro =  0.6152736779227979 , micro =  0.6151549085479656




In [208]:
knn_model = KNeighborsClassifier(n_neighbors = 25)
knn_model.fit(X_train, y_train)
y_pred = knn_model.predict(X_valid)
print('accuracy =', metrics.accuracy_score(y_valid, y_pred))

accuracy = 0.6099290780141844


Accuracy линейного классификатора и kNN почти идентичные