In [1]:
# Внимание!!! Важно, что бы файлы с данными и исполняемый файл находились в одной папке, 
# тогда пути к тестовым и тренировочным наборам будут содержать только имена файлов.
# 
# В пути к тренировочным и тестовым данным запрежается использовать абсалютную адресацию, 
# то есть адресацию, в которой присутствуют имена папок. Путь должен содержать только имя файла.
#
# Напоминание: под моделью машинного обучения понимаются все действия с исходными данными, 
# которые необходимо произвести, что бы сопоставить признаки целевому значению.

### Область работы 1 (библиотеки)

In [2]:
# Данный блок в области 1 выполняется преподавателем
# 
# данный блок предназначен только для подключения необходимых библиотек
# запрещается подключать библиотеки в других блоках
#
# установка дополнительных библиотек размещается прямо здесь (обязательно закоментированы)
#
# pip install

In [10]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import classification_report, roc_auc_score, roc_curve
from sklearn.preprocessing import StandardScaler
from sklearn.pipeline import Pipeline
import matplotlib.pyplot as plt

### Область работы 2 (выполнение лучшей модели)

In [11]:
# Данный блок(и) в области 2 выполняется преподавателем
#
# В области находится одна, единственная, итоговая модель машинного обучения с однозначными, 
# зафиксированными параметрами
#
# В данной области категорически запрещается искать, выбирать, улучшать, оптимизировать, 
# тюниговать и т.д. модель машинного обучения

In [12]:
# Путь к тренировочному набору
path_train = 'train.csv' # содержит только имя файла, без имен папок
# Путь к тестовому набору
path_test  = 'test.csv' # содержит только имя файла, без имен папок

In [13]:
# Блок обучения модели

In [18]:
# Блок_1: Загрузка и предварительная обработка данных 
df = pd.read_csv(path_train)
mask = df.notna().all(axis=1) # сделали масочку
df = df[mask]
df = df.drop_duplicates() # убили жирную свинью 
# Удаляем выбросы, исключая значения ниже 1% и выше 99%, на 0,05 и 0,95 у меня с код почему-то не запустился 
for column in df.columns:
    lower_bound = df[column].quantile(0.01)
    upper_bound = df[column].quantile(0.99)
    df = df[(df[column] >= lower_bound) & (df[column] <= upper_bound)]

df['quality_binary'] = np.where(df['quality'] < 7, 0, 1)


X = df.drop(columns=['quality', 'quality_binary'])
y = df['quality_binary']

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.25, stratify=y)

initial_index = X_train.index.copy()  # Сохраняем начальные индексы
y_train = y_train.loc[X_train.index]

model = Pipeline([
    ('scaling', StandardScaler()),  # Масштабирование признаков
    ('classifier', LogisticRegression(C=10, penalty='l2', solver='liblinear', max_iter=1000))  # Логистическая регрессия
])

# Обучение модели
model.fit(X_train, y_train)

# 6. Оценка модели
y_pred = model.predict(X_test)
y_pred_proba = model.predict_proba(X_test)[:, 1]

# Выводим метрики
print(classification_report(y_test, y_pred))


              precision    recall  f1-score   support

           0       0.91      0.98      0.94       185
           1       0.62      0.21      0.31        24

    accuracy                           0.89       209
   macro avg       0.77      0.60      0.63       209
weighted avg       0.87      0.89      0.87       209



In [15]:
# Блок предсказания с использованием тестового набора

In [16]:
y_predict = model.predict(X_test) # тк выше у меня было y_pred тут меняю на 
y_pred_proba = model.predict_proba(X_test)[:, 1]
model.score(X_train, y_train)

0.9106858054226475

In [17]:
# Вектора предсказанных значений  y_predict полученый на основане тестового набора
y_predict 

array([0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0,
       0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0,
       1, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0, 1, 0, 0, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 1, 0, 0,
       0, 0, 0, 0, 0, 0, 0, 1, 0, 1, 0])