<a href="https://colab.research.google.com/github/CodeHunterOfficial/A_PythonLibraries/blob/main/%D0%91%D0%B8%D0%B1%D0%BB%D0%B8%D0%BE%D1%82%D0%B5%D0%BA%D0%B0_Scikit_learn.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

### Библиотека Scikit-learn

Библиотека **Scikit-learn** является одной из самых популярных и мощных библиотек для машинного обучения в Python. Она предоставляет множество инструментов для анализа данных и реализации различных алгоритмов машинного обучения (как для задач классификации, так и для регрессии, кластеризации, снижения размерности и т.д.). В этой лекции мы подробно рассмотрим основные концепции библиотеки, ее функционал и примеры использования.

#### 1. Введение в Scikit-learn

**Scikit-learn** построена на базе других библиотек, таких как NumPy, SciPy и Matplotlib, что делает ее интегрированной частью экосистемы научных вычислений на Python. Основные особенности библиотеки:
- Простота в использовании и доступная документация.
- Широкий выбор алгоритмов машинного обучения.
- Поддержка предобработки данных.
- Возможность оценки модели с помощью различных метрик.
- Возможности кросс-валидации и подбора гиперпараметров.

#### 2. Структура Scikit-learn

Все объекты и функционал библиотеки можно разделить на несколько категорий:
- **Алгоритмы машинного обучения**: классификация, регрессия, кластеризация, снижение размерности.
- **Предобработка данных**: масштабирование, нормализация, кодирование категориальных признаков и т.д.
- **Оценка модели**: кросс-валидация, метрики точности, подбор гиперпараметров.
- **Модельный пайплайн**: позволяет объединять несколько шагов обработки и обучения в одном процессе.

#### 3. Классификация и регрессия

##### 3.1. Классификация
Классификация — это задача, при которой модель пытается отнести объект к одному из заранее определенных классов.

**Пример 1: Классификация с использованием метода K ближайших соседей (KNN)**

Метод **K ближайших соседей** (K-Nearest Neighbors, KNN) — один из простых алгоритмов классификации, который присваивает класс объекту на основе ближайших соседей в пространстве признаков. В этом примере мы будем использовать набор данных "Ирисы", который состоит из данных о трех классах ирисов.

Перед тем, как использовать алгоритм KNN, сначала нужно импортировать необходимые библиотеки и загрузить набор данных. Затем мы разделим данные на обучающую и тестовую выборки, чтобы модель могла учиться на одном подмножестве данных и проверять свои результаты на другом. После этого мы создадим и обучим модель KNN, а затем оценим ее точность.

```python
# Импортируем необходимые библиотеки
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.neighbors import KNeighborsClassifier
from sklearn.metrics import accuracy_score

# Загружаем набор данных "Ирисы"
iris = load_iris()
X, y = iris.data, iris.target

# Разделяем данные на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Создаем модель KNN с числом соседей 3
knn = KNeighborsClassifier(n_neighbors=3)

# Обучаем модель
knn.fit(X_train, y_train)

# Делаем предсказания
y_pred = knn.predict(X_test)

# Оцениваем точность
accuracy = accuracy_score(y_test, y_pred)
print(f"Точность классификации: {accuracy}")
```

**Объяснение кода**:
1. Мы импортируем необходимые модули из библиотеки Scikit-learn.
2. Загружаем набор данных "Ирисы" и извлекаем из него признаки (X) и метки классов (y).
3. С помощью функции `train_test_split` разделяем данные на обучающую (70%) и тестовую (30%) выборки.
4. Создаем экземпляр класса `KNeighborsClassifier`, указывая количество ближайших соседей (3 в данном случае).
5. Обучаем модель с помощью метода `fit`, передавая обучающие данные.
6. Используем метод `predict`, чтобы получить предсказания для тестовой выборки.
7. Оцениваем точность модели с помощью функции `accuracy_score` и выводим результат.

##### 3.2. Регрессия
Регрессия используется, когда нужно предсказать числовое значение на основе данных. В этом примере мы используем линейную регрессию для предсказания цен на дома.

**Пример 2: Линейная регрессия**

Линейная регрессия — это алгоритм, который строит линейную зависимость между независимыми переменными (фичами) и зависимой переменной (целевым значением). Мы будем использовать набор данных, который содержит информацию о ценах на дома в Бостоне.

Перед тем, как обучить модель линейной регрессии, нам нужно загрузить данные, разделить их на обучающую и тестовую выборки, а затем создать и обучить модель. После обучения мы сделаем предсказания на тестовой выборке и оценим качество модели с помощью средней квадратичной ошибки.

```python
# Импортируем необходимые библиотеки
from sklearn.datasets import load_boston
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LinearRegression
from sklearn.metrics import mean_squared_error

# Загружаем набор данных по ценам на дома в Бостоне
boston = load_boston()
X, y = boston.data, boston.target

# Разделяем данные на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Создаем модель линейной регрессии
lr = LinearRegression()

# Обучаем модель
lr.fit(X_train, y_train)

# Делаем предсказания
y_pred = lr.predict(X_test)

# Оцениваем модель с помощью метрики средней квадратичной ошибки
mse = mean_squared_error(y_test, y_pred)
print(f"Средняя квадратичная ошибка: {mse}")
```

**Объяснение кода**:
1. Импортируем необходимые библиотеки для работы с линейной регрессией и метриками.
2. Загружаем набор данных по ценам на дома в Бостоне и извлекаем признаки (X) и целевые значения (y).
3. Делим данные на обучающую и тестовую выборки с помощью функции `train_test_split`.
4. Создаем экземпляр класса `LinearRegression` для модели линейной регрессии.
5. Обучаем модель на тренировочных данных с помощью метода `fit`.
6. Предсказываем значения для тестовой выборки с помощью метода `predict`.
7. Оцениваем модель по средней квадратичной ошибке (MSE) с помощью функции `mean_squared_error`.

#### 4. Предобработка данных

Для большинства моделей машинного обучения важно правильно предобработать данные. Scikit-learn предлагает множество инструментов для этого.

##### 4.1. Масштабирование признаков
Многие алгоритмы машинного обучения чувствительны к масштабам признаков (например, логистическая регрессия или метод опорных векторов). Масштабирование помогает сделать так, чтобы все признаки имели одинаковый масштаб. Это особенно важно, если признаки имеют разные единицы измерения.

**Пример 3: Стандартизация данных**

В этом примере мы используем `StandardScaler` для масштабирования признаков. Он стандартизирует данные так, чтобы они имели среднее 0 и стандартное отклонение 1.

```python
# Импортируем StandardScaler для масштабирования
from sklearn.preprocessing import StandardScaler
import numpy as np

# Создаем набор данных (2 признака)
X = np.array([[1, 2], [2, 3], [4, 5], [6, 7]])

# Создаем объект StandardScaler
scaler = StandardScaler()

# Обучаем и трансформируем данные
X_scaled = scaler.fit_transform(X)

print("Исходные данные:\n", X)
print("Масштабированные данные:\n", X_scaled)
```

**Объяснение кода**:
1. Импортируем класс `StandardScaler` для масштабирования и библиотеку NumPy.
2. Создаем массив NumPy, представляющий набор данных с двумя признаками.
3. Создаем экземпляр `StandardScaler`, который будет использоваться для стандартизации данных.
4. Применяем метод `fit_transform` для обучения на исходных данных и трансформации их в масштабированные данные.
5. Выводим исходные и масштабированные данные для сравнения.

##### 4.2. Кодирование категориальных признаков
Категориальные признаки должны быть преобразованы в числовые перед тем, как их можно будет использовать в моделях машинного обучения. Один из распространенных способов — использование one-hot кодирования, при котором каждый уникальный класс представляется отдельным бинарным признаком.

**Пример 4: One-hot кодирование**

В этом примере мы используем `OneHotEncoder`, чтобы закодировать категориальные данные в двоичные вектора.

```python
# Импортируем OneHotEncoder
from

 sklearn.preprocessing import OneHotEncoder

# Создаем категориальные данные
X = np.array([['Male'], ['Female'], ['Female'], ['Male']])

# Создаем объект OneHotEncoder
encoder = OneHotEncoder()

# Трансформируем данные
X_encoded = encoder.fit_transform(X).toarray()

print("Закодированные данные:\n", X_encoded)
```

**Объяснение кода**:
1. Импортируем класс `OneHotEncoder` из модуля `preprocessing`.
2. Создаем массив NumPy с категориальными данными (пол).
3. Создаем экземпляр `OneHotEncoder`, который будет использоваться для кодирования.
4. Применяем метод `fit_transform`, чтобы закодировать данные и преобразовать их в массив NumPy.
5. Выводим закодированные данные для просмотра.

#### 5. Оценка качества модели

После того, как модель обучена, необходимо оценить, насколько хорошо она работает. В Scikit-learn существует множество метрик для этого.

##### 5.1. Метрики для классификации
Одной из самых распространенных метрик для классификации является точность (accuracy), которая измеряет долю правильно классифицированных объектов. Также можно использовать метрики, такие как F1-скор и полнота, для более глубокого анализа.

**Пример 5: Оценка модели классификации**

В этом примере мы будем использовать функцию `classification_report`, чтобы получить подробный отчет по метрикам классификации для модели KNN, которую мы обучали ранее.

```python
from sklearn.metrics import classification_report

# Оцениваем модель по метрикам precision, recall, f1-score
print(classification_report(y_test, y_pred, target_names=iris.target_names))
```

**Объяснение кода**:
1. Импортируем функцию `classification_report` из модуля `metrics`.
2. Используем `classification_report`, чтобы получить метрики для тестовой выборки, включая точность (precision), полноту (recall) и F1-скор.
3. Выводим отчет, который включает метрики для каждого класса в наборе данных "Ирисы".

##### 5.2. Метрики для регрессии
Для регрессии часто используются такие метрики, как **среднеквадратичная ошибка (MSE)** и **средняя абсолютная ошибка (MAE)**. Эти метрики позволяют оценить, насколько близки предсказанные значения к истинным.

**Пример 6: Оценка модели регрессии**

Мы будем использовать метрику средней абсолютной ошибки для оценки качества линейной регрессии.

```python
from sklearn.metrics import mean_absolute_error

# Оцениваем модель с помощью средней абсолютной ошибки
mae = mean_absolute_error(y_test, y_pred)
print(f"Средняя абсолютная ошибка: {mae}")
```

**Объяснение кода**:
1. Импортируем функцию `mean_absolute_error` из модуля `metrics`.
2. Вычисляем среднюю абсолютную ошибку, используя тестовые данные и предсказанные значения.
3. Выводим значение средней абсолютной ошибки, что позволяет оценить качество модели.

#### 6. Кросс-валидация и подбор гиперпараметров

##### 6.1. Кросс-валидация

Кросс-валидация помогает избежать переобучения путем использования различных подмножеств данных для обучения и тестирования. Один из распространенных методов — **K-fold** кросс-валидация, где данные разбиваются на K частей, и модель обучается K раз, каждый раз используя одну часть для тестирования, а остальные для обучения.

**Пример 7: K-fold кросс-валидация**

В этом примере мы будем использовать `cross_val_score`, чтобы оценить модель KNN с помощью 5-fold кросс-валидации.

```python
from sklearn.model_selection import cross_val_score

# Оцениваем модель с помощью 5-fold кросс-валидации
scores = cross_val_score(knn, X, y, cv=5)

print("Точности для каждой из 5 складок:", scores)
print("Средняя точность:", scores.mean())
```

**Объяснение кода**:
1. Импортируем функцию `cross_val_score` из модуля `model_selection`.
2. Используем `cross_val_score`, чтобы оценить модель KNN с 5-fold кросс-валидацией, передавая данные и целевые значения.
3. Выводим точности для каждой из 5 фолдов и среднюю точность по всем фолдам.

##### 6.2. Подбор гиперпараметров

Подбор гиперпараметров помогает найти оптимальные параметры для модели. Один из распространенных методов — **Grid Search**. С его помощью можно проверить различные комбинации параметров и выбрать наилучшие.

**Пример 8: Grid Search для подбора гиперпараметров**

В этом примере мы будем использовать `GridSearchCV`, чтобы найти наилучшие параметры для модели KNN.

```python
from sklearn.model_selection import GridSearchCV

# Определяем параметры для подбора
param_grid = {'n_neighbors': [1, 3, 5, 7, 9]}

# Создаем объект GridSearchCV
grid_search = GridSearchCV(KNeighborsClassifier(), param_grid, cv=5)

# Обучаем модель с помощью Grid Search
grid_search.fit(X_train, y_train)

# Лучшие параметры
print("Лучшие параметры:", grid_search.best_params_)
```

**Объяснение кода**:
1. Импортируем класс `GridSearchCV` из модуля `model_selection`.
2. Определяем словарь `param_grid`, в котором указываем параметры для подбора — в данном случае количество соседей.
3. Создаем экземпляр `GridSearchCV`, передавая модель KNN и параметры для подбора, устанавливая кросс-валидацию на 5 фолдов.
4. Обучаем модель с помощью метода `fit`, чтобы выполнить поиск по сетке.
5. Выводим лучшие найденные параметры, что позволяет понять, какие настройки дают наилучшие результаты.

#### Заключение

Scikit-learn — это мощный инструмент для реализации алгоритмов машинного обучения и предобработки данных. Он предлагает разнообразные алгоритмы, инструменты для оценки моделей и предобработки данных, а также удобные средства для работы с гиперпараметрами. В этой лекции мы рассмотрели основные аспекты работы с библиотекой, но возможности Scikit-learn намного шире, и рекомендуется изучать документацию для более глубокого понимания.