In [13]:
import numpy as np
import pandas as pd
from sklearn.model_selection import train_test_split, cross_val_score, GridSearchCV
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import mean_squared_error, r2_score
from sklearn.datasets import load_diabetes
from sklearn.preprocessing import StandardScaler

# Загрузка датасета диабета
diabetes = load_diabetes()
X = diabetes.data
y = diabetes.target

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Масштабирование данных
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Инициализация модели
model = LogisticRegression(max_iter=10000)

# Перекрестная проверка
cv_scores = cross_val_score(model, X_train_scaled, y_train, cv=5)
print(f"Средняя точность перекрестной проверки: {cv_scores.mean():.2f}")

# Поиск оптимальных гиперпараметров с помощью GridSearchCV
param_grid = {'C': [0.1, 1, 10, 100], 'solver': ['lbfgs', 'liblinear']}
grid_search = GridSearchCV(model, param_grid, cv=5)
grid_search.fit(X_train_scaled, y_train)

print(f"Лучшие параметры: {grid_search.best_params_}")

# Оценка модели на тестовых данных
best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test_scaled)

# Метрики для регрессии
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print(f"Среднеквадратичная ошибка (MSE): {mse:.2f}")
print(f"R²: {r2:.2f}")

# Дополнительно можно вывести прогнозы и фактические значения
print("\nСравнение фактических и предсказанных значений:")
comparison = pd.DataFrame({'Actual': y_test, 'Predicted': y_pred})
print(comparison.head())




Средняя точность перекрестной проверки: 0.01




Лучшие параметры: {'C': 0.1, 'solver': 'lbfgs'}
Среднеквадратичная ошибка (MSE): 5151.07
R²: 0.05

Сравнение фактических и предсказанных значений:
   Actual  Predicted
0   219.0      109.0
1    70.0      141.0
2   202.0      109.0
3   230.0      248.0
4   111.0      131.0


In [14]:
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, confusion_matrix, classification_report

# Создание игрушечного набора данных
data = {
    'salary': [50000, 60000, 70000, 80000, 75000, 95000, 40000, 35000, 100000, 60000],
    'city': ['Moscow', 'Saint Petersburg', 'Moscow', 'Saint Petersburg', 'Moscow', 'Moscow', 'Saint Petersburg', 'Moscow', 'Saint Petersburg', 'Moscow'],
    'age': [25, 30, 35, 40, 45, 50, 25, 30, 35, 40],
    'vacation_prefer': ['beach', 'mountains', 'beach', 'beach', 'mountains', 'mountains', 'beach', 'mountains', 'beach', 'mountains'],
    'transport_prefer': ['car', 'train', 'plane', 'train', 'car', 'plane', 'train', 'car', 'train', 'plane'],
    'target': ['Moscow', 'Saint Petersburg', 'Moscow', 'Saint Petersburg', 'Moscow', 'Moscow', 'Saint Petersburg', 'Moscow', 'Saint Petersburg', 'Moscow']
}

df = pd.DataFrame(data)

# Преобразование категориальных данных в числовые (один столбец для каждого уникального значения)
df_encoded = pd.get_dummies(df, drop_first=True)

# Определение признаков и целевой переменной
X = df_encoded.drop('target_Saint Petersburg', axis=1)  # Целевая переменная после кодирования
y = df_encoded['target_Saint Petersburg']  # Целевая переменная

# Разделение на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=42)

# Инициализация модели
model = RandomForestClassifier()

# Обучение модели
model.fit(X_train, y_train)

# Прогнозирование
y_pred = model.predict(X_test)

# Оценка модели
print(f"Точность модели: {accuracy_score(y_test, y_pred):.2f}")
print("\nМатрица ошибок (Confusion Matrix):")
cm = confusion_matrix(y_test, y_pred)
print(cm)

# Расширенный отчет по классификации
print("\nОтчет по классификации (Precision, Recall, F1-Score):")
report = classification_report(y_test, y_pred)
print(report)

# Дополнительная информация:
# 1. Количество наблюдений в обучающем и тестовом наборах
print(f"\nРазмер обучающей выборки: {len(X_train)}")
print(f"Размер тестовой выборки: {len(X_test)}")

# 2. Доля правильных и ошибочных классификаций
correct_predictions = (y_pred == y_test).sum()
incorrect_predictions = (y_pred != y_test).sum()
total_predictions = len(y_pred)
print(f"\nПравильных предсказаний: {correct_predictions} ({(correct_predictions / total_predictions) * 100:.2f}%)")
print(f"Ошибочных предсказаний: {incorrect_predictions} ({(incorrect_predictions / total_predictions) * 100:.2f}%)")

# 3. Другое полезное: Количество уникальных значений в целевой переменной
print("\nУникальные значения в целевой переменной:")
print(y.unique())

# 4. Прогнозы по каждой строке (если необходимо, для анализа ошибок)
print("\nПрогнозы по тестовой выборке (вместе с фактическими значениями):")
comparison = pd.DataFrame({'Actual': y_test, 'Predicted': y_pred})

# Преобразуем предсказанные метки обратно в город
comparison['Predicted_City'] = comparison['Predicted'].map({0: 'Moscow', 1: 'Saint Petersburg'})

print(comparison)

# 5. Дополнительная информация о выбранных городах
print("\nГорода, выбранные моделью (Predicted):")
print(comparison['Predicted_City'].value_counts())


Точность модели: 1.00

Матрица ошибок (Confusion Matrix):
[[1 0]
 [0 2]]

Отчет по классификации (Precision, Recall, F1-Score):
              precision    recall  f1-score   support

       False       1.00      1.00      1.00         1
        True       1.00      1.00      1.00         2

    accuracy                           1.00         3
   macro avg       1.00      1.00      1.00         3
weighted avg       1.00      1.00      1.00         3


Размер обучающей выборки: 7
Размер тестовой выборки: 3

Правильных предсказаний: 3 (100.00%)
Ошибочных предсказаний: 0 (0.00%)

Уникальные значения в целевой переменной:
[False  True]

Прогнозы по тестовой выборке (вместе с фактическими значениями):
   Actual  Predicted Predicted_City
8    True       True            NaN
1    True       True            NaN
5   False      False            NaN

Города, выбранные моделью (Predicted):
Series([], Name: count, dtype: int64)
