In [1]:
from sklearn.ensemble import RandomForestClassifier
from sklearn.preprocessing import MinMaxScaler
from sklearn.model_selection import cross_val_score, GridSearchCV
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier

import pandas as pd
import random

In [2]:


# Создаем случайные данные
data = {'salary': [random.randint(30000, 100000) for _ in range(1000)],
        'city': [random.choice(['Bishkek', 'Moscow', 'London']) for _ in range(1000)],
        'age': [random.randint(30, 65) for _ in range(1000)],
        'vacation_prefer': [random.choice(['Shopping', 'Beach holiday']) for _ in range(1000)],
        'transport_prefer': [random.choice(['auto', 'plane']) for _ in range(1000)],
        'target': []}

# Генерируем значения для 'target' в зависимости от зарплаты с учетом вероятности
for i in range(0,1000):
    probability = random.uniform(0, 1)
    salary = data['salary'][i]
    prefered_vacation = data['vacation_prefer'][i]
    if salary < 50000:
        if prefered_vacation == 'Beach holiday':
            if probability < 0.5:
                data['target'].append('Bishkek')
            elif probability < 0.7:
                data['target'].append('Moscow')
            else:
                data['target'].append('Hawaii')
        else:
            if probability < 0.6:
                data['target'].append('Bishkek')
            elif probability < 0.9:
                data['target'].append('Moscow')
            else:
                data['target'].append('Hawaii')
    elif 50000 <= salary < 80000:
        if prefered_vacation == 'Beach holiday':
            if probability < 0.3:
                data['target'].append('Bishkek')
            elif probability < 0.5:
                data['target'].append('Moscow')
            else:
                data['target'].append('Hawaii')
        else:
            if probability < 0.3:
                data['target'].append('Bishkek')
            elif probability < 0.8:
                data['target'].append('Moscow')
            else:
                data['target'].append('Hawaii')
    else:
        if prefered_vacation == 'Beach holiday':
            data['target'].append('Hawaii')
        else:
            if probability < 0.1:
                data['target'].append('Moscow')
            else:
                data['target'].append('Hawaii')

# Создаем DataFrame
df = pd.DataFrame(data)


In [3]:
# Преобразовываем категориальные данные в числовые
df_encoded = pd.get_dummies(df, columns=['city', 'vacation_prefer', 'transport_prefer'], drop_first=True)

In [4]:

X = df_encoded.drop('target', axis=1)
y = df_encoded['target']

# Выделяем обучающую и тестовую выборку данных
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)


In [5]:

# создаю модель
model = RandomForestClassifier()


In [6]:
model.fit(X_train, y_train)
print(f'Точность модели: {model.score(X_test, y_test)}')


Точность модели: 0.6


In [7]:
# Предсказание на случайных данных
all_cities = ['city_Bishkek', 'city_London', 'city_Moscow']

# Создание случайного примера для предсказания
random_data = {
    'salary': [random.randint(30000, 80000)],
    'age': [random.randint(30, 65)],
    'vacation_prefer_Shopping': [1],
    'transport_prefer_plane': [1]
}

random_data.update({city: [0] for city in all_cities})

random_df = pd.DataFrame(random_data)

random_df = random_df[X.columns]

# Предсказание 
prediction = model.predict(random_df)
print(f'Predicted Target: {prediction[0]}')


Predicted Target: Bishkek


In [12]:
# Выбираем числовых признаков для стандартизации
numeric_features = ['salary', 'vacation_prefer']

scaler = MinMaxScaler()

# Применение MinMaxScaling к обучающей и тестовой выборкам
X_train[numeric_features] = scaler.fit_transform(X_train[numeric_features])
X_test[numeric_features] = scaler.transform(X_test[numeric_features])

# после стандартизации
model.fit(X_train, y_train)
accuracy_after_scaling = model.score(X_test, y_test)
print(f'Точность модели после стандартизации: {accuracy_after_scaling:.2f}')

# Обновленное предсказание на случайных данных после стандартизации
random_df[numeric_features] = scaler.transform(random_df[numeric_features])
prediction_after_scaling = model.predict(random_df)
print(f'Обновленное предсказание на случайных данных после стандартизации: {prediction_after_scaling[0]}')

KeyError: "['vacation_prefer'] not in index"

In [9]:
# Обновленная перекрестная проверка
cv_scores_after_scaling = cross_val_score(model, X_train, y_train, cv=5)
mean_cv_score_after_scaling = cv_scores_after_scaling.mean()
print(f'Обновленная перекрестная проверка(среднее): {mean_cv_score_after_scaling:.2f}')


Обновленная перекрестная проверка(среднее): 0.59


In [10]:
param_grid = {'n_estimators': [50, 100, 200],
              'max_depth': [None, 10, 20],
              'min_samples_split': [2, 5, 10]}

# Обновленный решетчатый поиск
grid_search_after_scaling = GridSearchCV(model, param_grid, cv=5)
grid_search_after_scaling.fit(X_train, y_train)

print(f'Лучшие параметры после стандартизации: {grid_search_after_scaling.best_params_}')

# Оценка модели с лучшими параметрами после стандартизации
best_model_after_scaling = grid_search_after_scaling.best_estimator_
best_accuracy_after_scaling = best_model_after_scaling.score(X_test, y_test)
print(f'Оценка моедли с лучшими параметрами после стандартизации: {best_accuracy_after_scaling:.2f}')


# Оценка точности на обучающем наборе
train_accuracy = model.score(X_train, y_train)
print(f'Оценка точности на обучающем наборе: {train_accuracy:.2f}')

# Оценка точности на тестовом наборе
test_accuracy = model.score(X_test, y_test)
print(f'Оценка точности на тестовом наборе: {test_accuracy:.2f}')


Лучшие параметры после стандартизации: {'max_depth': 10, 'min_samples_split': 5, 'n_estimators': 200}
Оценка моедли с лучшими параметрами после стандартизации: 0.62
Оценка точности на обучающем наборе: 1.00
Оценка точности на тестовом наборе: 0.58


<h1>Результат</h1>
Я создал случайный датасет в котором значение target определялось несколькими параметрами, зарплатой и предпочтением где отдыхать. Далее я преобразовал категориальные данные в числа, разделил данные на обучающие и тестовые наборы и создал модель. Для модели я использовал RandomForestClassifier. Модель показала точность в 0.6. Используя стандартизацию