In [37]:
# Импорты
from sklearn.datasets import load_digits
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import GridSearchCV
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix

In [38]:
# Загрузка данных digits
digits = load_digits()
X = digits.data
y = digits.target

# Разделение данных на обучающую и тестовую выборки
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Используем RandomForestClassifier в качестве модели
rf = RandomForestClassifier()

In [39]:
# Оценка модели с помощью перекрестной проверки
cross_val_scores = cross_val_score(rf, X_train, y_train, cv=5)
print("Cross-Validation Scores:", cross_val_scores)
print("Mean Cross-Validation Score:", cross_val_scores.mean())

# Решетчатый поиск для настройки гиперпараметров модели
param_grid = {
    'n_estimators': [100, 200, 300],
    'max_depth': [None, 5, 10, 15]
}

grid_search = GridSearchCV(rf, param_grid, cv=5)
grid_search.fit(X_train, y_train)

print("Best Parameters:", grid_search.best_params_)

# Оценка лучшей модели
best_rf = grid_search.best_estimator_
best_rf.fit(X_train, y_train)
best_pred = best_rf.predict(X_test)
best_accuracy = accuracy_score(y_test, best_pred)
print("Accuracy of Best Model on Test Set:", best_accuracy)


Cross-Validation Scores: [0.98958333 0.96180556 0.95470383 0.98954704 0.95818815]
Mean Cross-Validation Score: 0.9707655826558266
Best Parameters: {'max_depth': 15, 'n_estimators': 300}
Accuracy of Best Model on Test Set: 0.975


In [40]:
# Метрики модели
print("Classification Report:")
print(classification_report(y_test, best_pred))

# Матрица ошибок
conf_matrix = confusion_matrix(y_test, best_pred)
print("Confusion Matrix:")
print(conf_matrix)

Classification Report:
              precision    recall  f1-score   support

           0       1.00      0.97      0.98        33
           1       0.93      1.00      0.97        28
           2       1.00      1.00      1.00        33
           3       1.00      0.97      0.99        34
           4       0.98      1.00      0.99        46
           5       0.94      0.98      0.96        47
           6       0.97      0.97      0.97        35
           7       0.97      0.97      0.97        34
           8       1.00      0.93      0.97        30
           9       0.97      0.95      0.96        40

    accuracy                           0.97       360
   macro avg       0.98      0.97      0.98       360
weighted avg       0.98      0.97      0.98       360

Confusion Matrix:
[[32  0  0  0  1  0  0  0  0  0]
 [ 0 28  0  0  0  0  0  0  0  0]
 [ 0  0 33  0  0  0  0  0  0  0]
 [ 0  0  0 33  0  1  0  0  0  0]
 [ 0  0  0  0 46  0  0  0  0  0]
 [ 0  0  0  0  0 46  1  0  0  0]
 [

In [41]:
import pandas as pd
import random

# Создание своего датасета
data = {
    'salary': [random.randint(30000, 80000) for _ in range(1000)],
    'city': [random.choice(['Bishkek', 'Osh', 'Batken', 'Naryn', 'Jalal-Abad']) for _ in range(1000)],
    'age': [random.randint(30, 65) for _ in range(1000)],
    'vacation_prefer': [random.choice(['Shopping', 'Beach holiday', 'Sightseeing', 'Mountain retreat', 'Relaxing' ,'Cultural tour']) for _ in range(1000)],
    'transport_prefer': [random.choice(['auto', 'plane',  'bus', 'train']) for _ in range(1000)],
    'target': [random.choice(['London', 'Moscow', 'Paris', 'Berlin',  'New York']) for _ in range(1000)]
}

# Создание DataFrame из данных
df = pd.DataFrame(data)


In [42]:
# Преобразование категориальных данных в числовые
df = pd.get_dummies(df, columns=['city', 'vacation_prefer', 'transport_prefer'])


In [43]:
from sklearn.model_selection import train_test_split

# Разделение данных на обучающую и тестовую выборки
X = df.drop('target', axis=1)
y = df['target']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [44]:
from sklearn.model_selection import train_test_split

# Разделение данных на обучающую и тестовую выборки
X = df.drop('target', axis=1)
y = df['target']
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [45]:
from sklearn.ensemble import RandomForestClassifier

# Выбор модели классификатора
clf = RandomForestClassifier()

# Обучение модели
clf.fit(X_train, y_train)


In [46]:
# Создание DataFrame для предсказания на случайных данных
random_data = {
    'salary': [50000],
    'city_Bishkek': [0], 
    'city_Osh': [1],
    'city_Batken': [0],
    'city_Naryn': [0],
    'city_Jalal-Abad': [1],
    'age': [40],
    'vacation_prefer_Beach holiday': [1],
    'vacation_prefer_Shopping': [0],
    'vacation_prefer_Sightseeing': [0],
    'vacation_prefer_Mountain retreat': [1],
    'vacation_prefer_Relaxing': [0],
    'vacation_prefer_Cultural tour': [0],
    'transport_prefer_auto': [1],
    'transport_prefer_plane': [0],
    'transport_prefer_bus': [1],
    'transport_prefer_train': [0]
}

random_df = pd.DataFrame(random_data)

# Получение порядка признаков, используемых при обучении модели
feature_order = X_train.columns

# Переупорядочивание и переименование признаков в random_df
random_df = random_df.reindex(columns=feature_order, fill_value=0)

# Предсказание на случайных данных
prediction = clf.predict(random_df)
print(f'Предсказанный город для отпуска: {prediction}')


Предсказанный город для отпуска: ['London']
