In [9]:
import random
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

cities = ['Tokyo', 'Seoul', 'Berlin', 'London', 'Moscow', 'New York', 'Paris']
vacation = ['beach', 'forest', 'urban', 'mountains', 'desert']
transport = ['bike', 'scooter', 'train', 'plane', 'car', 'boat']
target_cities = ['Bali', 'Kyoto', 'Rome', 'Hawaii', 'Sydney', 'Barcelona', 'Dubai']

data = []
for _ in range(1000):
    salary = random.randint(30000, 150000)
    city = random.choice(cities)
    age = random.randint(20, 70)
    vacation_prefer = random.choice(vacation)
    transport_prefer = random.choice(transport)
    target = random.choice(target_cities)
    data.append([salary, city, age, vacation_prefer, transport_prefer, target])

columns = ['salary', 'city', 'age', 'vacation_prefer', 'transport_prefer', 'target']
df = pd.DataFrame(data, columns=columns)

df = pd.get_dummies(df, columns=['city', 'vacation_prefer', 'transport_prefer', 'target'], drop_first=True)

X = df.drop(columns=[col for col in df.columns if col.startswith('target_')])
y = df[[col for col in df.columns if col.startswith('target_')]].values.argmax(axis=1)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Model Accuracy: {accuracy:.2f}")
print("\nClassification Report:")
print(classification_report(y_test, y_pred))

Model Accuracy: 0.23

Classification Report:
              precision    recall  f1-score   support

           0       0.27      0.57      0.36        54
           1       0.31      0.15      0.20        27
           2       0.05      0.04      0.05        25
           3       0.13      0.06      0.08        36
           4       0.21      0.10      0.14        30
           5       0.22      0.18      0.20        28

    accuracy                           0.23       200
   macro avg       0.20      0.18      0.17       200
weighted avg       0.21      0.23      0.19       200



In [10]:
from sklearn.metrics import accuracy_score, classification_report
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC

# Определение сетки параметров
param_grid = {
    'C': [0.001, 0.01, 0.1, 1, 10, 100],  
    'gamma': [0.001, 0.01, 0.1, 1, 10, 100]
}

print("Сетка параметров:")
print(param_grid)

# Настройка и обучение модели с помощью GridSearchCV
grid_search = GridSearchCV(SVC(), param_grid, cv=5)
grid_search.fit(X_train, y_train)

# Предсказания и оценка точности
y_pred_log = grid_search.predict(X_test)
print("Точность на тестовой выборке: {:.2f}".format(grid_search.score(X_test, y_test)))

# Классификационный отчёт
print("\nКлассификационный отчет:")
print(classification_report(y_test, y_pred_log))

Сетка параметров:
{'C': [0.001, 0.01, 0.1, 1, 10, 100], 'gamma': [0.001, 0.01, 0.1, 1, 10, 100]}
Точность на тестовой выборке: 0.27

Классификационный отчет:
              precision    recall  f1-score   support

           0       0.27      1.00      0.43        54
           1       0.00      0.00      0.00        27
           2       0.00      0.00      0.00        25
           3       0.00      0.00      0.00        36
           4       0.00      0.00      0.00        30
           5       0.00      0.00      0.00        28

    accuracy                           0.27       200
   macro avg       0.05      0.17      0.07       200
weighted avg       0.07      0.27      0.11       200



  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [13]:
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix

# Настройка и обучение модели логистической регрессии
log_reg = LogisticRegression(max_iter=20000, random_state=42)
log_reg.fit(X_train, y_train)

# Предсказания и оценка точности
y_pred_log = log_reg.predict(X_test)
accuracy_log = accuracy_score(y_test, y_pred_log)
print(f"Точность модели логистической регрессии = {accuracy_log:.2f}")

# Матрица ошибок
print("Confusion matrix:\n{}".format(confusion_matrix(y_test, y_pred_log)))

Точность модели логистической регрессии = 0.25
Confusion matrix:
[[50  0  0  0  1  3]
 [22  0  2  0  0  3]
 [22  0  0  1  0  2]
 [35  0  0  0  0  1]
 [27  0  0  2  0  1]
 [28  0  0  0  0  0]]


STOP: TOTAL NO. of f AND g EVALUATIONS EXCEEDS LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [14]:
from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import RandomForestClassifier

# Инициализация и обучение модели для отбора признаков
selector = SelectFromModel(RandomForestClassifier(n_estimators=100, random_state=42))
selector.fit(X_train, y_train)

# Применение отбора признаков к данным
X_train_selected = selector.transform(X_train)
X_test_selected = selector.transform(X_test)

# Продолжение с обучением модели и предсказанием (например, с RandomForest)
model = RandomForestClassifier(random_state=42)
model.fit(X_train_selected, y_train)

y_pred = model.predict(X_test_selected)
accuracy = accuracy_score(y_test, y_pred)
print(f"Точность модели: {accuracy:.2f}")
print("\nКлассификационный отчет:")
print(classification_report(y_test, y_pred))

# Настройка и обучение модели с помощью GridSearchCV
grid_search = GridSearchCV(SVC(), param_grid, cv=5)
grid_search.fit(X_train_selected, y_train)

# Оценка точности на тестовом наборе
print("Точность на тестовой выборке: {:.2f}".format(grid_search.score(X_test_selected, y_test)))

Точность модели: 0.20

Классификационный отчет:
              precision    recall  f1-score   support

           0       0.28      0.39      0.32        54
           1       0.13      0.07      0.10        27
           2       0.25      0.24      0.24        25
           3       0.20      0.19      0.20        36
           4       0.14      0.10      0.12        30
           5       0.04      0.04      0.04        28

    accuracy                           0.20       200
   macro avg       0.17      0.17      0.17       200
weighted avg       0.19      0.20      0.19       200

Точность на тестовой выборке: 0.27


In [16]:
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix

# Настройка и обучение модели логистической регрессии
log_reg = LogisticRegression(max_iter=20000, random_state=42)
log_reg.fit(X_train, y_train)

# Предсказания и оценка точности
y_pred_log = log_reg.predict(X_test)
accuracy_log = accuracy_score(y_test, y_pred_log)
print(f"Точность модели логистической регрессии = {accuracy_log:.2f}")

Точность модели логистической регрессии = 0.25


STOP: TOTAL NO. of f AND g EVALUATIONS EXCEEDS LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [17]:
from sklearn.preprocessing import PolynomialFeatures
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC

# Создание полиномиальных признаков (только взаимодействия, степень 2)
poly = PolynomialFeatures(degree=2, interaction_only=True)
X_train_poly = poly.fit_transform(X_train)
X_test_poly = poly.transform(X_test)

# Настройка и обучение модели с помощью GridSearchCV
grid_search = GridSearchCV(SVC(), param_grid, cv=5)
grid_search.fit(X_train_poly, y_train)

# Оценка точности на тестовом наборе
print("Точность на тестовой выборке: {:.2f}".format(grid_search.score(X_test_poly, y_test)))

Точность на тестовой выборке: 0.27


In [18]:
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix

# Настройка и обучение модели логистической регрессии
log_reg = LogisticRegression(max_iter=20000, random_state=42)
log_reg.fit(X_train, y_train)

# Предсказания и оценка точности
y_pred_log = log_reg.predict(X_test)
accuracy_log = accuracy_score(y_test, y_pred_log)
print(f"Точность модели логистической регрессии = {accuracy_log:.2f}")

Точность модели логистической регрессии = 0.25


STOP: TOTAL NO. of f AND g EVALUATIONS EXCEEDS LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [19]:
from sklearn.decomposition import PCA
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC

# Применение PCA для снижения размерности (10 компонент)
pca = PCA(n_components=10)
X_train_pca = pca.fit_transform(X_train)
X_test_pca = pca.transform(X_test)

# Настройка и обучение модели с помощью GridSearchCV
grid_search = GridSearchCV(SVC(), param_grid, cv=5)
grid_search.fit(X_train_pca, y_train)

# Оценка точности на тестовом наборе
print("Точность на тестовой выборке: {:.2f}".format(grid_search.score(X_test_pca, y_test)))

Точность на тестовой выборке: 0.27


In [20]:
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix

# Настройка и обучение модели логистической регрессии
log_reg = LogisticRegression(max_iter=20000, random_state=42)
log_reg.fit(X_train, y_train)

# Предсказания и оценка точности
y_pred_log = log_reg.predict(X_test)
accuracy_log = accuracy_score(y_test, y_pred_log)
print(f"Точность модели логистической регрессии = {accuracy_log:.2f}")

Точность модели логистической регрессии = 0.25


STOP: TOTAL NO. of f AND g EVALUATIONS EXCEEDS LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [21]:
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC

# Стандартизация данных (приведение к нулевому среднему и единичному стандартному отклонению)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Настройка и обучение модели с помощью GridSearchCV
grid_search = GridSearchCV(SVC(), param_grid, cv=5)
grid_search.fit(X_train_scaled, y_train)

# Оценка точности на тестовом наборе
print("Точность на тестовой выборке: {:.2f}".format(grid_search.score(X_test_scaled, y_test)))

Точность на тестовой выборке: 0.27


In [24]:
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.preprocessing import StandardScaler
from imblearn.over_sampling import RandomOverSampler
from imblearn.pipeline import Pipeline
from xgboost import XGBClassifier

# Создание пайплайна с RandomOverSampler
pipeline = Pipeline([
    ('scaler', StandardScaler()),  # Стандартизация данных
    ('ros', RandomOverSampler(random_state=42)),  # Балансировка классов с использованием RandomOverSampler
    ('xgb', XGBClassifier(
        random_state=42, 
        eval_metric='mlogloss', 
        n_estimators=200, 
        max_depth=5, 
        learning_rate=0.1
    ))  # Классификатор XGBoost
])

# Обучение модели
pipeline.fit(X_train, y_train)

# Предсказания на обучающих и тестовых данных
y_train_pred = pipeline.predict(X_train)
y_test_pred = pipeline.predict(X_test)

# Оценка точности на обучающих данных
train_accuracy = accuracy_score(y_train, y_train_pred)
print(f"Точность на обучающих данных: {train_accuracy:.2f}")

# Оценка точности на тестовых данных
test_accuracy = accuracy_score(y_test, y_test_pred)
print(f"Точность на тестовых данных: {test_accuracy:.2f}")

# Вывод матрицы ошибок и классификационного отчета
print("\nConfusion Matrix:")
print(confusion_matrix(y_test, y_test_pred))
print("\nClassification Report:")
print(classification_report(y_test, y_test_pred))

Точность на обучающих данных: 0.96
Точность на тестовых данных: 0.17

Confusion Matrix:
[[16  7  9  8  5  9]
 [ 6  5  6  5  2  3]
 [ 8  5  2  3  3  4]
 [15  3  3  4  1 10]
 [12  2  5  3  2  6]
 [10  2  6  3  1  6]]

Classification Report:
              precision    recall  f1-score   support

           0       0.24      0.30      0.26        54
           1       0.21      0.19      0.20        27
           2       0.06      0.08      0.07        25
           3       0.15      0.11      0.13        36
           4       0.14      0.07      0.09        30
           5       0.16      0.21      0.18        28

    accuracy                           0.17       200
   macro avg       0.16      0.16      0.16       200
weighted avg       0.17      0.17      0.17       200



Как показали эксперименты с различными методами машинного обучения, такими как логистическая регрессия, случайный лес и решетчатый поиск, точность модели остаётся на одном и том же уровне, несмотря на изменение гиперпараметров и методов балансировки данных. Это можно объяснить тем, что для данного набора данных, созданного случайным образом, признаки не имеют реальной связи с целевой переменной, то есть местом отдыха. В реальной задаче, например, более высокая зарплата может указывать на более дорогое место отдыха, и такие закономерности позволили бы моделям извлекать полезную информацию и делать точные предсказания на новых данных. Однако в текущем случае отсутствуют какие-либо смысловые зависимости между признаками и целевой переменной, что объясняет низкую точность модели. Следовательно, улучшение точности в данном контексте невозможно без изменения данных, чтобы они отражали реальные закономерности и связи.