<div align="center">

# Разделение данных на обучающие и тестовые выборки

</div>

---

Прежде чем использовать модель на практике, важно **объективно оценить её качество**, сравнивая предсказания с реальными метками на **тестовом наборе данных**:
* Для этого мы подготовим и обработаем **новый датасет — Wine**, содержащий 178 образцов вина с 13 признаками, описывающими химические свойства.
* Датасет взят из **репозитория UCI**, его можно загрузить напрямую через `pandas`.
* После предобработки мы изучим **методы выбора признаков** — это поможет сократить количество признаков и улучшить эффективность модели, особенно при обучении.


In [13]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split

In [14]:
# Загрузка датасета Wine из репозитория UCI в DataFrame без заголовков
df_wine = pd.read_csv('https://archive.ics.uci.edu/'
                      'ml/machine-learning-databases/'
                      'wine/wine.data', header=None)

# Назначение имен столбцам для лучшей читаемости и удобства
df_wine.columns = ['Class label',        # Класс вина (1, 2 или 3)
                   'Alcohol',            # Содержание алкоголя
                   'Malic acid',         # Яблочная кислота
                   'Ash',                # Зольность
                   'Alcalinity of ash',  # Щелочность золы
                   'Magnesium',          # Магний
                   'Total phenols',      # Общее количество фенолов
                   'Flavanoids',         # Флавоноиды
                   'Nonflavanoid phenols',       # Нефлавоноидные фенолы
                   'Proanthocyanins',             # Проантоцианы
                   'Color intensity',             # Интенсивность цвета
                   'Hue',                         # Оттенок
                   'OD280/OD315 of diluted wines',# Показатель OD280/OD315
                   'Proline']                     # Пролин

# Вывод уникальных меток классов в наборе данных
print('Class labels', np.unique(df_wine['Class label']))

Class labels [1 2 3]


In [15]:
#Фрагмент набора данных Wine
df_wine.head()

Unnamed: 0,Class label,Alcohol,Malic acid,Ash,Alcalinity of ash,Magnesium,Total phenols,Flavanoids,Nonflavanoid phenols,Proanthocyanins,Color intensity,Hue,OD280/OD315 of diluted wines,Proline
0,1,14.23,1.71,2.43,15.6,127,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065
1,1,13.2,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05,3.4,1050
2,1,13.16,2.36,2.67,18.6,101,2.8,3.24,0.3,2.81,5.68,1.03,3.17,1185
3,1,14.37,1.95,2.5,16.8,113,3.85,3.49,0.24,2.18,7.8,0.86,3.45,1480
4,1,13.24,2.59,2.87,21.0,118,2.8,2.69,0.39,1.82,4.32,1.04,2.93,735


Набор данных Wine содержит записи, относящиеся к одному из трёх классов: 1, 2 и 3. Эти классы представляют три разных **сорта винограда**, выращенных в одном регионе Италии, но отличающихся по **ботаническому происхождению**.

In [16]:
#Разделение данных на обучающие и тестовые выборки
X, y = df_wine.iloc[:, 1:].values, df_wine.iloc[:, 0].values
X_train, X_test, y_train, y_test = \
    train_test_split(X, y,
                     test_size = 0.3,
                     random_state = 0,
                     stratify = y)

Сначала мы разделили данные: признаки (столбцы 1–13) поместили в `X`, метки классов (первый столбец) — в `y`. Затем с помощью `train_test_split` разбили данные на обучающую и тестовую выборки. Параметр `test_size=0.3` означает, что 30% данных пойдут в тест, а 70% — в обучение.

Чтобы сохранить исходное соотношение классов в обоих наборах, мы передали `y` в параметр `stratify` — это обеспечивает правильное распределение классов при разделении.


При разделении данных на обучающую и тестовую выборки важно найти баланс:

* **Слишком большой тестовый набор** отнимает данные, нужные для обучения.
* **Слишком маленький тест** даёт неточную оценку качества модели.

Обычно используют соотношения **60:40**, **70:30** или **80:20**.
Для **больших наборов данных** (100k+ примеров) достаточно выделить даже **10% или меньше** — этого хватит для точной оценки.

Также важно:

* После оценки модели можно переобучить её на всём наборе данных — это может улучшить прогнозы.
* Но если данных мало, и тест содержал выбросы, такое переобучение может **ухудшить обобщающую способность**, ведь у нас больше не останется независимых данных для проверки.

📌 В идеале: тест должен быть достаточно большим для надежной оценки, но не в ущерб качеству обучения.