In [1]:
# Внимание!!! Важно, что бы файлы с данными и исполняемый файл находились в одной папке, 
# тогда пути к тестовым и тренировочным наборам будут содержать только имена файлов.
# 
# В пути к тренировочным и тестовым данным запрежается использовать абсалютную адресацию, 
# то есть адресацию, в которой присутствуют имена папок. Путь должен содержать только имя файла.
#
# Напоминание: под моделью машинного обучения понимаются все действия с исходными данными, 
# которые необходимо произвести, что бы сопоставить признаки целевому значению.

### Область работы 1 (библиотеки)

In [2]:
# Данный блок в области 1 выполняется преподавателем
# 
# данный блок предназначен только для подключения необходимых библиотек
# запрещается подключать библиотеки в других блоках
#
# установка дополнительных библиотек размещается прямо здесь (обязательно закоментированы)
#
# pip install

In [3]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.display import display

from sklearn.model_selection import train_test_split, GridSearchCV, \
                                    ShuffleSplit, KFold

from sklearn.experimental import enable_iterative_imputer
from sklearn.impute import SimpleImputer, IterativeImputer, KNNImputer

from sklearn.preprocessing import MinMaxScaler, StandardScaler, \
                                  RobustScaler, PolynomialFeatures, \
                                  OrdinalEncoder, LabelEncoder, \
                                  OneHotEncoder, TargetEncoder, \
                                  QuantileTransformer, PowerTransformer, \
                                  KBinsDiscretizer

from sklearn.pipeline import make_pipeline, Pipeline

from sklearn.neighbors import KNeighborsClassifier, KNeighborsRegressor
from sklearn.svm import SVC, SVR
from sklearn.linear_model import LogisticRegression, RANSACRegressor, \
                                 Ridge, Lasso, LinearRegression

from sklearn.metrics import recall_score, precision_score, \
                            f1_score, ConfusionMatrixDisplay, \
                            confusion_matrix, roc_auc_score, \
                            RocCurveDisplay, PrecisionRecallDisplay, \
                            roc_curve, precision_recall_curve, \
                            PrecisionRecallDisplay, make_scorer, \
                            mean_squared_error

from sklearn.compose import ColumnTransformer, make_column_selector,\
                            make_column_transformer, TransformedTargetRegressor
import category_encoders as ce
import pickle

### Область работы 2 (выполнение лучшей модели)

In [4]:
# Данный блок(и) в области 2 выполняется преподавателем
#
# В области находится одна, единственная, итоговая модель машинного обучения с однозначными, 
# зафиксированными параметрами
#
# В данной области категорически запрещается искать, выбирать, улучшать, оптимизировать, 
# тюниговать и т.д. модель машинного обучения

In [5]:
# Путь к тренировочному набору
path_train = 'train.csv' # содержит только имя файла, без имен папок
# Путь к тестовому набору
path_test  = 'test.csv' # содержит только имя файла, без имен папок

In [6]:
data_test = pd.read_csv(path_test)
display(data_test.head(3))
display(data_test.info())
display(data_test.isna().any())

Unnamed: 0,carat,cut,color,clarity,depth,table,x,y,z
0,1.52,Fair,H,VS2,62.1,66.0,7.33,7.13,4.5
1,0.54,Premium,G,VS2,62.0,58.0,5.21,5.18,3.22
2,0.7,Premium,E,VS2,62.0,60.0,5.7,5.59,3.5


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 13485 entries, 0 to 13484
Data columns (total 9 columns):
 #   Column   Non-Null Count  Dtype  
---  ------   --------------  -----  
 0   carat    13485 non-null  float64
 1   cut      13485 non-null  object 
 2   color    13485 non-null  object 
 3   clarity  13485 non-null  object 
 4   depth    13485 non-null  float64
 5   table    13485 non-null  float64
 6   x        13485 non-null  float64
 7   y        13485 non-null  float64
 8   z        13485 non-null  float64
dtypes: float64(6), object(3)
memory usage: 948.3+ KB


None

carat      False
cut        False
color      False
clarity    False
depth      False
table      False
x          False
y          False
z          False
dtype: bool

In [7]:
data_test['volume'] = data_test['x']*data_test['y']*data_test['z']
data = data_test[['carat', 'x', 'y', 'z', 'depth', 'table', 'volume', 'clarity', 'cut', 'color']]

In [8]:
# Блок обучения модели

In [9]:
with open('svr-model.pkl', 'rb') as f:
    svr_model = pickle.load(f)

In [10]:
# Блок предсказания с использованием тестового набора

In [11]:
# Вектора предсказанных значений  y_predict полученый на основане тестового набора
y_predict = svr_model.predict(data)

In [12]:
display(y_predict[:20])

array([8858.11442273, 1563.78663767, 2670.65764382, 2018.18192066,
       3243.92845165, 5901.86223022, 6625.79300496, 6239.81155993,
        616.12227675, 3704.64945331, 1299.13662746, 4797.44662333,
       2603.08494508, 2144.90700082, 1089.87924529,  684.98222533,
       3529.88195189, 2035.97215551,  650.89252971, 1678.15498814])