In [1]:
# Внимание!!! Важно, что бы файлы с данными и исполняемый файл находились в одной папке, 
# тогда пути к тестовым и тренировочным наборам будут содержать только имена файлов.
# 
# В пути к тренировочным и тестовым данным запрежается использовать абсалютную адресацию, 
# то есть адресацию, в которой присутствуют имена папок. Путь должен содержать только имя файла.
#
# Напоминание: под моделью машинного обучения понимаются все действия с исходными данными, 
# которые необходимо произвести, что бы сопоставить признаки целевому значению.

### Область работы 1 (библиотеки)

In [2]:
# Данный блок в области 1 выполняется преподавателем
# 
# данный блок предназначен только для подключения необходимых библиотек
# запрещается подключать библиотеки в других блоках
#
# установка дополнительных библиотек размещается прямо здесь (обязательно закоментированы)
#
# pip install

In [3]:
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from IPython.display import display

from scipy import stats
import statistics

from sklearn.model_selection import train_test_split, GridSearchCV, \
                                    ShuffleSplit, KFold

from sklearn.pipeline import make_pipeline, Pipeline

from sklearn.preprocessing import MinMaxScaler, StandardScaler, \
                                  RobustScaler, PolynomialFeatures

from sklearn.neighbors import KNeighborsClassifier
from sklearn.svm import SVC
from sklearn import svm
from sklearn.linear_model import LogisticRegression

from sklearn.metrics import recall_score, precision_score, \
                            f1_score, ConfusionMatrixDisplay, \
                            confusion_matrix, roc_auc_score, \
                            RocCurveDisplay, PrecisionRecallDisplay, \
                            roc_curve, precision_recall_curve, \
                            PrecisionRecallDisplay

### Область работы 2 (выполнение лучшей модели)

In [4]:
# Данный блок(и) в области 2 выполняется преподавателем
#
# В области находится одна, единственная, итоговая модель машинного обучения с однозначными, 
# зафиксированными параметрами
#
# В данной области категорически запрещается искать, выбирать, улучшать, оптимизировать, 
# тюниговать и т.д. модель машинного обучения

In [5]:
# Путь к тренировочному набору
path_train = 'train.csv' # содержит только имя файла, без имен папок
# Путь к тестовому набору
path_test  = 'test.csv' # содержит только имя файла, без имен папок

In [6]:
# Блок обучения модели

In [7]:
data_train = pd.read_csv(path_train)
display(data_train.head(3))
data_no_na = data_train.dropna()
no_duplicates = data_no_na.drop_duplicates(keep='first')
target_train = no_duplicates['quality'].apply(lambda x: 0 if x < 7 else 1)
features_train = no_duplicates.drop(axis=1, columns=['citric acid', 'alcohol', 'total sulfur dioxide', 'quality'])
features_train.reset_index(inplace=True, drop=True)
pipe_1 = make_pipeline(MinMaxScaler(), KNeighborsClassifier(n_neighbors=31, p=2, weights='distance', n_jobs=-1))
pipe_1.fit(features_train,target_train.values.ravel())
display(precision_score(target_train, pipe_1.predict(features_train)))

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol,quality
0,5.0,0.74,0.0,1.2,0.041,16.0,46.0,0.99258,4.01,0.59,12.5,6
1,11.0,0.26,0.68,2.55,0.085,10.0,25.0,0.997,3.18,0.61,11.8,5
2,7.3,0.38,0.21,2.0,0.08,7.0,35.0,0.9961,3.33,0.47,9.5,5


1.0

In [8]:
data_test = pd.read_csv(path_test)
display(data_test.head(3))
display(data_test.info())
mask = data_test.notna().all(axis=1)
display(data_test[mask].head(3))
data_test = data_test.drop(axis=1, columns=['citric acid', 'alcohol', 'total sulfur dioxide'])
display(data_test.head(3))

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol
0,7.7,0.27,0.68,3.5,0.358,5.0,10.0,0.9972,3.25,1.08,9.9
1,7.1,0.66,0.0,2.4,0.052,6.0,11.0,0.99318,3.35,0.66,12.7
2,10.6,1.025,0.43,2.8,0.08,21.0,84.0,0.9985,3.06,0.57,10.1


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 340 entries, 0 to 339
Data columns (total 11 columns):
 #   Column                Non-Null Count  Dtype  
---  ------                --------------  -----  
 0   fixed acidity         339 non-null    float64
 1   volatile acidity      340 non-null    float64
 2   citric acid           339 non-null    float64
 3   residual sugar        340 non-null    float64
 4   chlorides             340 non-null    float64
 5   free sulfur dioxide   340 non-null    float64
 6   total sulfur dioxide  340 non-null    float64
 7   density               340 non-null    float64
 8   pH                    339 non-null    float64
 9   sulphates             340 non-null    float64
 10  alcohol               340 non-null    float64
dtypes: float64(11)
memory usage: 29.3 KB


None

Unnamed: 0,fixed acidity,volatile acidity,citric acid,residual sugar,chlorides,free sulfur dioxide,total sulfur dioxide,density,pH,sulphates,alcohol
0,7.7,0.27,0.68,3.5,0.358,5.0,10.0,0.9972,3.25,1.08,9.9
1,7.1,0.66,0.0,2.4,0.052,6.0,11.0,0.99318,3.35,0.66,12.7
2,10.6,1.025,0.43,2.8,0.08,21.0,84.0,0.9985,3.06,0.57,10.1


Unnamed: 0,fixed acidity,volatile acidity,residual sugar,chlorides,free sulfur dioxide,density,pH,sulphates
0,7.7,0.27,3.5,0.358,5.0,0.9972,3.25,1.08
1,7.1,0.66,2.4,0.052,6.0,0.99318,3.35,0.66
2,10.6,1.025,2.8,0.08,21.0,0.9985,3.06,0.57


In [9]:
# Блок предсказания с использованием тестового набора

In [10]:
# Вектора предсказанных значений  y_predict полученый на основане тестового набора
y_predict = pipe_1.predict(data_test[mask])

In [11]:
display(y_predict, mask)

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 1,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1,

0      True
1      True
2      True
3      True
4      True
       ... 
335    True
336    True
337    True
338    True
339    True
Length: 340, dtype: bool