# Практическая работа 4: Конвейеры алгоритмов

## Цель
Изучить концепцию конвейеров алгоритмов (pipelines) в машинном обучении и их применение для автоматизации последовательных этапов обработки данных.

## Шаги выполнения
* Изучение концепции конвейеров алгоритмов.
* Программирование конвейера алгоритмов в Python.
* Изучение влияния этапов конвейера на производительность модели.

## Дополнительные задания.
### Библиотека
scikit-learn

## Исходные данные
* Набор данных о раке молочной железы из библиотеки scikit-learn.
* Изучение концепции конвейеров алгоритмов
* Конвейеры алгоритмов (pipelines) позволяют автоматизировать последовательные этапы обработки данных и обучения моделей. Основная идея заключается в объединении нескольких шагов обработки данных и моделей в единую структуру, что упрощает процесс и уменьшает вероятность ошибок.

In [1]:
from sklearn.pipeline import Pipeline
from sklearn.preprocessing import StandardScaler
from sklearn.decomposition import PCA
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split

# Загрузка данных
data = load_breast_cancer()
X = data.data
y = data.target


In [2]:
# Разделение данных на обучающий и тестовый наборы
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Определение конвейера алгоритмов
pipeline = Pipeline([
    ('scaler', StandardScaler()),  # этап предобработки данных: стандартизация
    ('pca', PCA(n_components=2)),  # этап уменьшения размерности
    ('classifier', RandomForestClassifier(n_estimators=100, random_state=42))  # этап обучения модели
])

# Обучение модели с использованием конвейера алгоритмов
pipeline.fit(X_train, y_train)

# Оценка производительности модели на тестовом наборе данных
accuracy = pipeline.score(X_test, y_test)
print(f'Pipeline Accuracy: {accuracy}')

Pipeline Accuracy: 0.9824561403508771


## Изучение влияния этапов конвейера на производительность модели

In [3]:
# Оценка производительности модели без предобработки данных
pipeline_without_scaling = Pipeline([
    ('pca', PCA(n_components=2)),
    ('classifier', RandomForestClassifier(n_estimators=100, random_state=42))
])
pipeline_without_scaling.fit(X_train, y_train)
accuracy_without_scaling = pipeline_without_scaling.score(X_test, y_test)
print(f'Pipeline without Scaling Accuracy: {accuracy_without_scaling}')

Pipeline without Scaling Accuracy: 0.956140350877193


## Дополнительные задания
Исследование влияния параметров каждого этапа конвейера на производительность модели:
Измените параметры каждого этапа конвейера и оцените их влияние на производительность модели.

In [4]:
# Изменение параметров конвейера
pipeline_alt = Pipeline([
    ('scaler', StandardScaler()),
    ('pca', PCA(n_components=5)),  # изменение количества компонент PCA
    ('classifier', RandomForestClassifier(n_estimators=200, random_state=42))  # изменение числа деревьев
])
pipeline_alt.fit(X_train, y_train)
accuracy_alt = pipeline_alt.score(X_test, y_test)
print(f'Pipeline with Alternative Parameters Accuracy: {accuracy_alt}')

Pipeline with Alternative Parameters Accuracy: 0.956140350877193


### Реализация кросс-валидации с использованием конвейеров алгоритмов для оценки производительности модели:

In [6]:
from sklearn.model_selection import cross_val_score

# Применение кросс-валидации к конвейеру
cv_scores = cross_val_score(pipeline, X, y, cv=5)
print(f'Pipeline Cross-Validation Mean Score: {cv_scores.mean()}')

# Применение кросс-валидации к конвейеру без стандартизации
cv_scores_without_scaling = cross_val_score(pipeline_without_scaling, X, y, cv=5)
print(f'Pipeline without Scaling Cross-Validation Mean Score: {cv_scores_without_scaling.mean()}')

Pipeline Cross-Validation Mean Score: 0.9367334264865704
Pipeline without Scaling Cross-Validation Mean Score: 0.924468250271697


## Заключение
В данной практической работе была изучена концепция конвейеров алгоритмов для автоматизации этапов обработки данных и обучения моделей.

На примере данных о раке молочной железы были созданы и обучены конвейеры, включающие этапы стандартизации, уменьшения размерности и обучения модели.

Были также исследованы влияние различных этапов и параметров конвейера на производительность модели и применена кросс-валидация для оценки производительности.