# 7_SCIKIT-LEARN

## 7.1. Основы работы с классами, строящими модели предварительной подготовки данных и модели машинного обучения

Scikit-learn использует объектно-ориентированный подход, где каждая модель — это класс с определенными методами. Давайте разберемся, как это работает.

**Классификаторы vs Регрессоры**  
- Классификаторы: `[Метод]Classifier` (например, `RandomForestClassifier`)
- Регрессоры: `[Метод]Regressor` (например, `LinearRegression`)
- Универсальные: `[Метод]` (например, `KMeans` для кластеризации)

**Стандартный workflow в scikit-learn**

```python
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import StandardScaler

# 1. Создание экземпляра класса
model = RandomForestClassifier()
scaler = StandardScaler()

# 2. Обучение модели
scaler.fit(X_train)          # Только признаки
model.fit(X_train, y_train)  # Признаки + метки

# 3. Применение модели
X_scaled = scaler.transform(X_test)
predictions = model.predict(X_scaled)
```

**Создание собственного класса преобразователя**

```python
# Базовый шаблон
from sklearn.base import BaseEstimator, TransformerMixin

class CustomTransformer(BaseEstimator, TransformerMixin):
    def __init__(self, param1=default_value):
        self.param1 = param1
    
    def fit(self, X, y=None):
        # Вычисление параметров
        return self
    
    def transform(self, X):
        # Применение преобразования
        return X
```

**Пример: Замена пропусков средним (MeanImputer)**

In [8]:
import pandas as pd
import numpy as np

class MeanImputer:
    def __init__(self, copy=True):
        self.copy = copy
        self._encoder_dict = {}
    
    def _is_numpy(self, X):
        return isinstance(X, np.ndarray)
    
    def fit(self, X, y=None):
        # Создаем словарь для хранения средних значений
        self._encoder_dict = {}
        
        # Проверяем тип данных
        is_np = self._is_numpy(X)
        
        # Обработка 1D массива
        if len(X.shape) == 1:
            X = X.reshape(-1, 1)
        
        # Вычисляем средние значения
        if is_np:
            for col in range(X.shape[1]):
                self._encoder_dict[col] = np.nanmean(X[:, col])
        else:
            for col in X.columns:
                self._encoder_dict[col] = X[col].mean()
        
        return self
    
    def transform(self, X):
        if self.copy:
            X = X.copy()
        
        is_np = self._is_numpy(X)
        
        if len(X.shape) == 1:
            X = X.reshape(-1, 1)
        
        # Замена пропусков
        if is_np:
            for col in range(X.shape[1]):
                X[:, col] = np.nan_to_num(X[:, col], nan=self._encoder_dict[col])
        else:
            for col in X.columns:
                X[col] = np.where(X[col].isnull(), self._encoder_dict[col], X[col])
        
        return X

In [9]:
# Использование MeanImputer

# Пример с DataFrame
toy_train = pd.DataFrame({
    'Balance': [8.3, np.nan, 10.2, 3.1],
    'Age': [23, 29, 36, np.nan]
})

# Создание и применение преобразователя
imp = MeanImputer()
imp.fit(toy_train)
toy_train_inputed = imp.transform(toy_train)
print(toy_train_inputed)

   Balance        Age
0      8.3  23.000000
1      7.2  29.000000
2     10.2  36.000000
3      3.1  29.333333


**Создание собственной модели машинного обучения**

Пример: K-Nearest Neighbors (KNN)

In [None]:
Пример: K-Nearest Neighbors (KNN)