Тест 1

In [10]:
import numpy as np
from sklearn.linear_model import LinearRegression
from sklearn.model_selection import train_test_split
from sklearn.metrics import mean_squared_error

# Синтетические данные
x = np.random.rand(100, 1)
y = 3 * x.squeeze() + 2 + np.random.randn(100) * 0.1

# Разделение данных на обучающую и тестовую выборки
x_train, x_test, y_train, y_test = train_test_split(x, y, test_size=0.2, random_state=42)

# Модель линейной регрессии
model = LinearRegression()
model.fit(x_train, y_train)

# Предсказания и оценка модели
y_pred = model.predict(x_test)
mse = mean_squared_error(y_test, y_pred)

print(f'MSE: {mse:.4f}')

MSE: 0.0146


Объем кода: 13 строк

Читаемость и ясность: Высокая, простая структура.

Время на разработку: Минимальное, модель строится быстро и просто.

Тест 2


In [17]:
from sklearn.datasets import fetch_openml
from sklearn.linear_model import LogisticRegression
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.metrics import accuracy_score
import time

# Загрузка данных MNIST
start_time = time.time()
mnist = fetch_openml('mnist_784')
X, y = mnist.data, mnist.target

# Предобработка данных
scaler = StandardScaler()
X = scaler.fit_transform(X)

# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Обучение модели логистической регрессии
model = LogisticRegression(max_iter=100)
model.fit(X_train, y_train)
training_time = time.time() - start_time

# Скорость предсказаний
start_time = time.time()
y_pred = model.predict(X_test)
prediction_time = time.time() - start_time

# Оценка точности модели
accuracy = accuracy_score(y_test, y_pred)

print(f"Scikit-learn - Время обучения: {training_time:.2f} секунд")
print(f"Scikit-learn - Время предсказания: {prediction_time:.2f} секунд")
print(f"Scikit-learn - Точность модели: {accuracy:.4f}")


  warn(


Scikit-learn - Время обучения: 109.39 секунд
Scikit-learn - Время предсказания: 0.05 секунд
Scikit-learn - Точность модели: 0.9162


STOP: TOTAL NO. of ITERATIONS REACHED LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


Тест 3

Scikit-learn больше ориентирована на классические методы машинного обучения и не предназначена для создания и обучения нейронных сетей. Тем не менее, мы продемонстрируем, как можно использовать Scikit-learn для создания кастомной модели, но на примере классических методов.

In [2]:
from sklearn.base import BaseEstimator, ClassifierMixin
from sklearn.datasets import make_classification
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score
import numpy as np

# Кастомный классификатор на основе логистической регрессии
class CustomLogisticRegression(BaseEstimator, ClassifierMixin):
    def __init__(self, learning_rate=0.01, n_iterations=1000):
        self.learning_rate = learning_rate
        self.n_iterations = n_iterations

    def sigmoid(self, z):
        return 1 / (1 + np.exp(-z))

    def fit(self, X, y):
        self.theta_ = np.zeros(X.shape[1])
        for _ in range(self.n_iterations):
            z = np.dot(X, self.theta_)
            predictions = self.sigmoid(z)
            gradient = np.dot(X.T, (predictions - y)) / len(y)
            self.theta_ -= self.learning_rate * gradient

    def predict(self, X):
        z = np.dot(X, self.theta_)
        return (self.sigmoid(z) >= 0.5).astype(int)

# Подготовка данных
X, y = make_classification(n_samples=1000, n_features=20)
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2)

# Обучение модели
model = CustomLogisticRegression()
model.fit(X_train, y_train)
y_pred = model.predict(X_test)

# Оценка модели
accuracy = accuracy_score(y_test, y_pred)
print(f"Scikit-learn Custom Logistic Regression Accuracy: {accuracy:.4f}")


Scikit-learn Custom Logistic Regression Accuracy: 0.9550


Тест 4

In [7]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
import joblib

# Загрузка и предобработка данных
data = pd.read_csv("https://raw.githubusercontent.com/mwaskom/seaborn-data/master/iris.csv")
X = data.drop("species", axis=1)
y = data["species"]

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Масштабирование признаков
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# Обучение модели
model = RandomForestClassifier()
model.fit(X_train, y_train)

# Оценка модели
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Scikit-learn Accuracy: {accuracy:.4f}")

# Сохранение модели для деплоя
joblib.dump(model, "model_sklearn.pkl")


Scikit-learn Accuracy: 1.0000


['model_sklearn.pkl']

Тест 5

In [8]:
import pandas as pd
import numpy as np
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score
from sklearn.preprocessing import LabelEncoder

# Загрузка данных
data = pd.read_csv("https://raw.githubusercontent.com/datasciencedojo/datasets/master/titanic.csv")

# Предобработка данных
data = data.drop(['PassengerId', 'Name', 'Ticket', 'Cabin'], axis=1)  # Удаление ненужных столбцов
data['Age'].fillna(data['Age'].median(), inplace=True)
data['Embarked'].fillna(data['Embarked'].mode()[0], inplace=True)

# Кодирование категориальных признаков
le = LabelEncoder()
data['Sex'] = le.fit_transform(data['Sex'])
data['Embarked'] = le.fit_transform(data['Embarked'])

X = data.drop('Survived', axis=1)
y = data['Survived']

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Обучение модели
model = RandomForestClassifier(n_estimators=100, random_state=42)
model.fit(X_train, y_train)

# Оценка модели
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Scikit-learn Accuracy: {accuracy:.4f}")


Scikit-learn Accuracy: 0.8212


 Тест 6