In [None]:
from sklearn.model_selection import cross_val_score
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.datasets import load_digits

In [1]:
# Загрузка датасета digits
digits = load_digits()
X, y = digits.data, digits.target

# Создание модели
model = RandomForestClassifier()

# Перекрестная проверка
cross_val_accuracy = cross_val_score(model, X, y, cv=5, scoring='accuracy')
print(f'Cross-Validation Accuracy: {cross_val_accuracy.mean()}')

# Решетчатый поиск для тюнинга параметров
param_grid = {'n_estimators': [50, 100, 200], 'max_depth': [None, 10, 20]}
grid_search = GridSearchCV(model, param_grid, cv=5)
grid_search.fit(X, y)

# Лучшие параметры
best_params = grid_search.best_params_
print(f'Best Parameters: {best_params}')

Cross-Validation Accuracy: 0.9376926648096564
Best Parameters: {'max_depth': 10, 'n_estimators': 200}


In [3]:
import pandas as pd
import random

# Генерация данных
data = {
    'salary': [random.randint(30000, 70000) for _ in range(1000)],
    'city': [random.choice(['Bishkek', 'London', 'Moscow']) for _ in range(1000)],
    'age': [random.randint(30, 65) for _ in range(1000)],
    'vacation_prefer': [random.choice(['Shopping', 'Beach holiday']) for _ in range(1000)],
    'transport_prefer': [random.choice(['auto', 'plane']) for _ in range(1000)],
    'target': [random.choice(['London', 'Moscow']) for _ in range(1000)],
}

df = pd.DataFrame(data)

# Преобразование категориальных данных в числовые
df = pd.get_dummies(df, columns=['city', 'vacation_prefer', 'transport_prefer'])

# b. Выделение признаков (X) и целевой переменной (y)
X = df.drop('target', axis=1)
y = df['target']

# c. Выделение обучающей и тестовой выборки
from sklearn.model_selection import train_test_split
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# d. Выбор модели классификатора
from sklearn.ensemble import RandomForestClassifier
model = RandomForestClassifier()

# e. Обучение модели
model.fit(X_train, y_train)

# f. Проверка оценки модели
accuracy = model.score(X_test, y_test)
print(f'Model Accuracy: {accuracy}')

# g. Предсказание на случайных данных
random_data = pd.DataFrame({
    'salary': [random.randint(30000, 70000)],
    'city': [random.choice(['Bishkek', 'London', 'Moscow'])],
    'age': [random.randint(30, 65)],
    'vacation_prefer': [random.choice(['Shopping', 'Beach holiday'])],
    'transport_prefer': [random.choice(['auto', 'plane'])],
})

# Создайте все возможные категориальные признаки в random_data
all_categories = {
    'city': ['Bishkek', 'London', 'Moscow'],
    'vacation_prefer': ['Shopping', 'Beach holiday'],
    'transport_prefer': ['auto', 'plane']
}

for feature, categories in all_categories.items():
    random_data[feature] = pd.Categorical([random.choice(categories)], categories=categories)

# Преобразование категориальных данных в числовые
random_data_encoded = pd.get_dummies(random_data, columns=['city', 'vacation_prefer', 'transport_prefer'])

# Переопределите порядок столбцов в тестовом датасете согласно обучающему
random_data_encoded = random_data_encoded[X_train.columns]

# h. Предсказание на случайных данных
prediction = model.predict(random_data_encoded)
print(f'Predicted city for vacation: {prediction[0]}')


Model Accuracy: 0.515
Predicted city for vacation: London
