# Основы и функционал библиотеки Scikit-learn
Scikit-learn — это одна из самых популярных библиотек для машинного обучения на Python. Она предоставляет широкий спектр алгоритмов и инструментов для обучения моделей, предварительной обработки данных, а также для оценки и выбора моделей.

Scikit-learn построена на таких библиотеках, как NumPy, SciPy и Matplotlib, что делает ее мощной и гибкой.

Основные возможности Scikit-learn:

1. Модели классификации и регрессии.
2. Кластеризация.
3. Снижение размерности.
4. Предварительная обработка данных.
5. Оценка моделей (метрики).
6. Перекрестная проверка (cross-validation).
7. Пайплайны.

[Документация Scikit-learn](https://scikit-learn.org/stable/index.html)





## 1. Загрузка данных и генерация датасетов
Scikit-learn предоставляет несколько встроенных наборов данных, которые можно использовать для экспериментов и тестирования моделей. К ним относятся такие наборы данных, как Iris, Digits, Wine, и другие.

### Подробно поговорим о датасете iris
История и назначение датасета Iris
Набор данных Iris, также известный как "Ирисы Фишера", является одним из самых известных и широко используемых наборов данных для обучения алгоритмам машинного обучения. Он был введен британским статистиком и биологом Рональдом Фишером в 1936 году в его работе The use of multiple measurements in taxonomic problems. Этот набор данных был создан для демонстрации метода линейного дискриминантного анализа, который Фишер разработал для решения задач классификации.

Структура набора данных
Набор данных содержит информацию о 150 экземплярах ирисов, которые принадлежат к одному из трех видов:

- Iris setosa
- Iris versicolor
- Iris virginica

Для каждого цветка измеряются четыре признака:

- Длина чашелистика (sepal length, в сантиметрах)
- Ширина чашелистика (sepal width, в сантиметрах)
- Длина лепестка (petal length, в сантиметрах)
- Ширина лепестка (petal width, в сантиметрах)

In [3]:
import pandas as pd
from sklearn.datasets import load_iris

iris = load_iris()
iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm)
0,5.1,3.5,1.4,0.2
1,4.9,3.0,1.4,0.2
2,4.7,3.2,1.3,0.2
3,4.6,3.1,1.5,0.2
4,5.0,3.6,1.4,0.2


In [4]:
species_mapping = {0: 'setosa', 1: 'versicolor', 2: 'virginica'}
iris_df['species'] = pd.Series(iris.target).map(species_mapping)
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
0,5.1,3.5,1.4,0.2,setosa
1,4.9,3.0,1.4,0.2,setosa
2,4.7,3.2,1.3,0.2,setosa
3,4.6,3.1,1.5,0.2,setosa
4,5.0,3.6,1.4,0.2,setosa


## 2. Предварительная обработка данных

Scikit-learn предлагает широкий набор инструментов для предварительной обработки данных, что является важной частью подготовки данных для обучения моделей.

In [5]:
from sklearn.preprocessing import OneHotEncoder

endcoder = OneHotEncoder(sparse_output =False)
species_endcoded = endcoder.fit_transform(iris_df[['species']])

species_df = pd.DataFrame(species_endcoded, columns=endcoder.categories_)
iris_df_ohe = pd.concat([iris_df, species_df], axis = 1)

iris_df_ohe.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species,"(setosa,)","(versicolor,)","(virginica,)"
0,5.1,3.5,1.4,0.2,setosa,1.0,0.0,0.0
1,4.9,3.0,1.4,0.2,setosa,1.0,0.0,0.0
2,4.7,3.2,1.3,0.2,setosa,1.0,0.0,0.0
3,4.6,3.1,1.5,0.2,setosa,1.0,0.0,0.0
4,5.0,3.6,1.4,0.2,setosa,1.0,0.0,0.0


In [6]:
iris_df_ohe = iris_df_ohe.drop(['species'], axis = 1)
iris_df_ohe.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),"(setosa,)","(versicolor,)","(virginica,)"
0,5.1,3.5,1.4,0.2,1.0,0.0,0.0
1,4.9,3.0,1.4,0.2,1.0,0.0,0.0
2,4.7,3.2,1.3,0.2,1.0,0.0,0.0
3,4.6,3.1,1.5,0.2,1.0,0.0,0.0
4,5.0,3.6,1.4,0.2,1.0,0.0,0.0


In [11]:
from sklearn.preprocessing import LabelEncoder

iris_df = pd.DataFrame(data=iris.data, columns=iris.feature_names)
iris_df['species'] = pd.Series(iris.target).map(species_mapping)

lable_endcoder = LabelEncoder()
iris_df['species'] = lable_endcoder.fit_transform(iris_df['species'])
iris_df.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
0,5.1,3.5,1.4,0.2,0
1,4.9,3.0,1.4,0.2,0
2,4.7,3.2,1.3,0.2,0
3,4.6,3.1,1.5,0.2,0
4,5.0,3.6,1.4,0.2,0


### 2.1 Обработка категориальных данных
Мы уже добавили столбец species, который содержит строковые значения классов. Однако многие модели машинного обучения не могут работать с категориальными признаками в строковом формате. Мы можем преобразовать их в числовые с помощью LabelEncoder или использовать OneHotEncoding.

In [12]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
iris_scaled = scaler.fit_transform(iris_df)

iris_df_scaled = pd.DataFrame(iris_scaled, columns=iris_df.columns)

iris_df_scaled.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
0,-0.900681,1.019004,-1.340227,-1.315444,-1.224745
1,-1.143017,-0.131979,-1.340227,-1.315444,-1.224745
2,-1.385353,0.328414,-1.397064,-1.315444,-1.224745
3,-1.506521,0.098217,-1.283389,-1.315444,-1.224745
4,-1.021849,1.249201,-1.340227,-1.315444,-1.224745


В чем же отличия OHE от LE?
1. OneHotEncoder (iris_df_ohe): категориальные значения заменяются отдельными столбцами для каждого класса (setosa, versicolor, virginica), что удобно для моделей, не работающих с порядковыми признаками.

Пример моделей:
- Логистическая регрессия (Logistic Regression)
- Метод опорных векторов (Support Vector Machine, SVM)
- Метод ближайших соседей (k-Nearest Neighbors, k-NN)
2. LabelEncoder (iris_df): категориальные значения заменяются на числа (0, 1, 2), что может быть полезно, если порядок классов имеет значение, или для моделей, которые могут работать с числовыми метками.

Пример моделей:
- Деревья решений (Decision Trees)
- Случайный лес (Random Forest)
- Градиентный бустинг (Gradient Boosting)

## 2.2 Масштабирование данных
Многие модели машинного обучения чувствительны к масштабу данных, особенно когда признаки имеют разные диапазоны значений. Чтобы избежать проблем, связанных с этим, используют методы нормализации и стандартизации данных.

Стандартизация с помощью StandardScaler.
Стандартизация приводит данные к стандартному нормальному распределению с нулевым средним и единичной дисперсией.

In [13]:
from sklearn.preprocessing import StandardScaler

scaler = StandardScaler()
iris_scaled = scaler.fit_transform(iris_df)

# Преобразуем обратно в DataFrame для удобства
iris_df_scaled = pd.DataFrame(iris_scaled, columns=iris_df.columns)
iris_df_scaled.head()

Unnamed: 0,sepal length (cm),sepal width (cm),petal length (cm),petal width (cm),species
0,-0.900681,1.019004,-1.340227,-1.315444,-1.224745
1,-1.143017,-0.131979,-1.340227,-1.315444,-1.224745
2,-1.385353,0.328414,-1.397064,-1.315444,-1.224745
3,-1.506521,0.098217,-1.283389,-1.315444,-1.224745
4,-1.021849,1.249201,-1.340227,-1.315444,-1.224745


# 3. Классификация
Классификация — это задача, при которой мы хотим предсказать категорию для нового экземпляра данных. В нашем примере с данными Iris мы будем классифицировать вид цветка на основе его измерений. Для этой цели Scikit-learn предоставляет множество моделей.

## 3.1 Логистическая регрессия


In [14]:
from sklearn.model_selection import train_test_split
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import accuracy_score

X = iris_df_scaled
y = iris.target

X_train, X_test, y_train, y_test = train_test_split(X, y,test_size=0.2, random_state=42) #80 - на тренировку, 20 на тес поэтому в рандом сайз стоит 0.2


In [15]:
model = LogisticRegression()
model.fit(X_train, y_train)

y_pred = model.predict(X_test)

accuracy_score(y_test, y_pred)

1.0

## 3.2 Метод k-ближайших соседей (k-NN)

In [18]:
from sklearn.neighbors import KNeighborsClassifier

knn = KNeighborsClassifier(n_neighbors=3)
knn.fit(X_train, y_train)

y_pred_knn = knn.predict(X_test)

accuracy_score(y_test, y_pred_knn)


1.0

## 3.3 Метод опорных векторов (SVM)

In [None]:
from sklearn.svm import SVC

## 3.4 Решающее дерево

In [None]:
from sklearn.tree import DecisionTreeClassifier

tree = DecisionTreeClassifier()

# 4. Подбор гиперпараметров
Подбор гиперпараметров
Подбор гиперпараметров — важный шаг в машинном обучении, который помогает найти оптимальные значения параметров модели для улучшения её качества. В Scikit-learn для этой задачи предоставлены два популярных метода: Grid Search (поиск по сетке) и Random Search (случайный поиск).

## 4.1 Grid Search (поиск по сетке)
GridSearchCV перебирает все возможные комбинации гиперпараметров, которые задаются пользователем, и находит наилучшую комбинацию, которая даёт максимальную производительность модели.

In [23]:

from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import GridSearchCV

# Обновленный словарь с параметрами
param_grid = {
    'penalty':['l2', None],  # Исправлено на допустимые значения
    'C': [0.01, 0.1, 1, 10, 100],
    'max_iter': [100, 200, 300]
}

# Создание объекта GridSearchCV
grid_search = GridSearchCV(LogisticRegression(solver='lbfgs'), param_grid, cv=5, n_jobs=-1)

# Обучение модели
grid_search.fit(X_train, y_train)

# Вывод лучших параметров
print(f'Лучшие параметры: {grid_search.best_params_}')

Лучшие параметры: {'C': 0.01, 'max_iter': 100, 'penalty': None}




В этом примере GridSearchCV перебирает различные комбинации гиперпараметров модели логистической регрессии и выбирает те, которые дают наилучший результат. Здесь мы настроили такие параметры, как:

- `penalty` — тип регуляризации,
- `C` — коэффициент регуляризации,
- `solver` — метод оптимизации,
- `max_iter` — количество итераций.


## 4.2 Random Search (случайный поиск)
RandomizedSearchCV также выполняет подбор гиперпараметров, но вместо перебора всех возможных комбинаций, он выбирает случайные комбинации гиперпараметров из заданного диапазона. Это может быть быстрее, особенно когда гиперпараметров много.

Пример использования RandomizedSearchCV:

В данном примере RandomizedSearchCV выбирает случайные значения гиперпараметров для тестирования, что позволяет ускорить процесс, если полный перебор всех возможных вариантов слишком долог.

# 5. Оценка качества модели и перекрестная проверка

## 5.1 Матрица ошибок и отчет классификации
Для более детального анализа работы модели можно использовать матрицу ошибок и отчет классификации.

Матрица ошибок позволяет увидеть, сколько раз модель ошиблась с предсказанием каждого класса, а отчет классификации показывает такие метрики, как точность (precision), полнота (recall) и F1-оценка.

In [22]:

from sklearn.metrics import confusion_matrix, classification_report

print(confusion_matrix(y_test, y_pred))
print(classification_report(y_test, y_pred))


[[10  0  0]
 [ 0  9  0]
 [ 0  0 11]]
              precision    recall  f1-score   support

           0       1.00      1.00      1.00        10
           1       1.00      1.00      1.00         9
           2       1.00      1.00      1.00        11

    accuracy                           1.00        30
   macro avg       1.00      1.00      1.00        30
weighted avg       1.00      1.00      1.00        30



## 5.2 Перекрестная проверка (Cross-validation)
Перекрестная проверка используется для более надежной оценки качества модели. Она разделяет данные на несколько подвыборок и поочередно обучает модель на разных частях данных.

cross_val_score — это функция, которая выполняет перекрестную проверку модели.
Параметры:
model: обучаемая модель (например, логистическая регрессия, дерево решений и т.д.).
`X`: матрица признаков (данные).
`y`: целевой вектор (метки классов).
`cv=5`: количество "складок" (folds) для разбиения данных. В данном случае используется 5-складочная перекрестная проверка (5-fold cross-validation).

In [24]:
from sklearn.model_selection import cross_val_score

scores = cross_val_score(model, X, y, cv=5)
scores.mean()

np.float64(1.0)