# Регрессия
**Модели**
```Python
from sklearn.linear_model import LinearRegression         #  Метод наименьших квадратов
from sklearn.linear_model import Ridge                    #  L2-Регуляризация
from sklearn.linear_model import Lasso                    #  L1-Регуляризация
from sklearn.linear_model import ElasticNet               #  L1-L2-Регуляризация
from sklearn.linear_model import RidgeCV                  #  L2-Регуляризация с кросс-валидацией
from sklearn.linear_model import LassoCV                  #  L1-Регуляризация с кросс-валидацией
from sklearn.linear_model import ElasticNetCV             #  L1-L2-Регуляризация с кросс-валидацией

from sklearn.linear_model import SGDRegressor             # Стохастический градиентный спуск
from sklearn.neighbors import KNeighborsRegressor         # KNN для регрессии
from sklearn.tree import DecisionTreeRegressor            # Дерево решений для регрессии
```
**Метрики регрессии**

```Python
from sklearn.metrics import mean_absolute_error           # Средне-абсолютная ошибка
from sklearn.metrics import mean_squared_error            # Средне-квадратичная ошибка
from sklearn.metrics import root_mean_squared_error       # Корень из средне-квадратичной ошибки
from sklearn.metrics import r2_score                      # Коэффициент детерминации
```
----

# Классификация
**Модели**
```Python
from sklearn.linear_model import LogisticRegression       # Логистическая регрессия
from sklearn.linear_model import RidgeClassifier          # L2-Регуляризация для классификации
from sklearn.linear_model import LogisticRegressionCV     # Логистическая регрессия с кросс-валидацией
from sklearn.linear_model import RidgeClassifierCV        # L2-Регуляризация для классификации с кросс-валидацией

from sklearn.linear_model import SGDClassifier            # Стохастический градиентный спуск
from sklearn.neighbors import KNeighborsClassifier        # KNN для классификации
from sklearn.tree import DecisionTreeClassifier           # Дерево решений для классификации
```
**Метрики классификации**

```Python
from sklearn.metrics import accuracy_score                # Оценка точности
```
-----

# Кластеризация

```Python
from sklearn.cluster import KMeans                        # K-средних

```
-------
# Подготовка данных

```Python
from sklearn.impute import SimpleImputer                  # Замена пропусков
from sklearn.model_selection import train_test_split      # Разделение данных на обучающую и тестовую выборки
from sklearn.preprocessing import MinMaxScaler            # Нормализация
from sklearn.preprocessing import StandardScaler          # Стандартизация
```

---------

```Python

from sklearn.ensemble import RandomForestRegressor


from sklearn.preprocessing import OneHotEncoder
from sklearn.preprocessing import OrdinalEncoder
from sklearn.preprocessing import LabelEncoder
from sklearn.preprocessing import FunctionTransformer



from sklearn.datasets import make_regression
from sklearn.datasets import make_classification
from sklearn.datasets import fetch_california_housing
from sklearn.datasets import make_moons


from sklearn.model_selection import StratifiedShuffleSplit
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV
from sklearn.model_selection import RandomizedSearchCV


from sklearn.metrics import confusion_matrix


from sklearn.base import BaseEstimator, TransformerMixin

from sklearn.pipeline import Pipeline

from sklearn.compose import ColumnTransformer


# datasets

In [55]:
from sklearn.datasets import make_regression
# Генерация синтетических данных для задачи линейной регрессии

X, y = make_regression(
                       n_samples=100, # Количество строк данных
                       n_features=5, # Количество столбцов(признаков)
                       n_informative=5, # Количество информативных признаков(Значимых для построения целевого значения)
                       random_state=42 # Состояние рандома
                      )

In [56]:
X.shape, y.shape

((100, 5), (100,))

--------

In [57]:
from sklearn.datasets import make_classification
# Генерация синтетических данных для задачи классификации

X, y = make_classification(
                           n_samples=100, # Количество строк данных
                           n_features=4, # Количество столбцов(признаков)
                           n_informative=3, # Количество информативных признаков(Значимых для определения классов)
                           n_redundant=1, # Количество избыточных признаков (Являющиеся линейной комбинацией информативных)
                           n_classes=3, # Количество классов(значений целевой переменной y)
                           random_state=42 # Состояние рандома
                          )

In [58]:
X.shape, y.shape

((100, 4), (100,))

# model_selection

In [60]:
from sklearn.model_selection import train_test_split
# Разделение данных на обучающую и тестовую выборку

X_train, X_test, y_train, y_test = train_test_split(
                                                    X, # признаки (матрица входных данных).
                                                    y, # целевая переменная (метки классов или значения для регрессии)
                                                    train_size=0.8, #  доля обучающей выборки.
                                                    test_size=0.2, # доля тестовой выборки
                                                    random_state=42 # Состояние рандома
                                                    )

In [61]:
X_train.shape, y_train.shape

((80, 4), (80,))

----

In [62]:
from sklearn.model_selection import StratifiedShuffleSplit
# Cтратифицированное перемешенное разбиение данных на обучающий и тестовый наборы

sss = StratifiedShuffleSplit(
                             n_splits=10, # Количество разбиений
                             train_size=0.8, # Доля обучающей выборки
                             test_size=0.2, # Доля тестовой выборки
                             random_state=42 # Состояние рандома
                            )

In [63]:
for train_index, test_index in sss.split(X, y):
    X_train, X_test = X[train_index], X[test_index]
    y_train, y_test = y[train_index], y[test_index]