In [3]:
import random
import pandas as pd
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report

cities = ['Mumbai', 'Istanbul', 'Prague', 'Vienna', 'Lisbon', 'Shanghai', 'Cairo']
vacation = ['island', 'jungle', 'city', 'hills', 'savanna']
transport = ['skateboard', 'rollerblades', 'bus', 'helicopter', 'truck', 'canoe']
target_cities = ['Venice', 'Santorini', 'Buenos Aires', 'Maldives', 'Auckland', 'Amsterdam', 'Doha']

data = []
for _ in range(1000):
    salary = random.randint(30000, 150000)
    city = random.choice(cities)
    age = random.randint(20, 70)
    vacation_prefer = random.choice(vacation)
    transport_prefer = random.choice(transport)
    target = random.choice(target_cities)
    data.append([salary, city, age, vacation_prefer, transport_prefer, target])

columns = ['salary', 'city', 'age', 'vacation_prefer', 'transport_prefer', 'target']
df = pd.DataFrame(data, columns=columns)

df = pd.get_dummies(df, columns=['city', 'vacation_prefer', 'transport_prefer', 'target'], drop_first=True)

X = df.drop(columns=[col for col in df.columns if col.startswith('target_')])
y = df[[col for col in df.columns if col.startswith('target_')]].values.argmax(axis=1)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print(f"Model Accuracy: {accuracy:.2f}")
print("\nClassification Report:")
print(classification_report(y_test, y_pred))

Model Accuracy: 0.19

Classification Report:
              precision    recall  f1-score   support

           0       0.22      0.43      0.29        42
           1       0.19      0.10      0.13        31
           2       0.17      0.08      0.11        24
           3       0.19      0.15      0.17        34
           4       0.12      0.17      0.14        29
           5       0.21      0.12      0.16        40

    accuracy                           0.19       200
   macro avg       0.18      0.18      0.17       200
weighted avg       0.19      0.19      0.17       200



In [4]:
from sklearn.metrics import accuracy_score, classification_report
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC

# Определение сетки параметров
param_grid = {
    'C': [0.001, 0.01, 0.1, 1, 10, 100],  
    'gamma': [0.001, 0.01, 0.1, 1, 10, 100]
}

print("Сетка параметров:")
print(param_grid)

# Настройка и обучение модели с помощью GridSearchCV
grid_search = GridSearchCV(SVC(), param_grid, cv=5)
grid_search.fit(X_train, y_train)

# Предсказания и оценка точности
y_pred_log = grid_search.predict(X_test)
print("Точность на тестовой выборке: {:.2f}".format(grid_search.score(X_test, y_test)))

# Классификационный отчёт
print("\nКлассификационный отчет:")
print(classification_report(y_test, y_pred_log))

Сетка параметров:
{'C': [0.001, 0.01, 0.1, 1, 10, 100], 'gamma': [0.001, 0.01, 0.1, 1, 10, 100]}
Точность на тестовой выборке: 0.21

Классификационный отчет:
              precision    recall  f1-score   support

           0       0.21      1.00      0.35        42
           1       0.00      0.00      0.00        31
           2       0.00      0.00      0.00        24
           3       0.00      0.00      0.00        34
           4       0.00      0.00      0.00        29
           5       0.00      0.00      0.00        40

    accuracy                           0.21       200
   macro avg       0.03      0.17      0.06       200
weighted avg       0.04      0.21      0.07       200



  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))
  _warn_prf(average, modifier, f"{metric.capitalize()} is", len(result))


In [5]:
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix

# Настройка и обучение модели логистической регрессии
log_reg = LogisticRegression(max_iter=20000, random_state=42)
log_reg.fit(X_train, y_train)

# Предсказания и оценка точности
y_pred_log = log_reg.predict(X_test)
accuracy_log = accuracy_score(y_test, y_pred_log)
print(f"Точность модели логистической регрессии = {accuracy_log:.2f}")

# Матрица ошибок
print("Confusion matrix:\n{}".format(confusion_matrix(y_test, y_pred_log)))

Точность модели логистической регрессии = 0.20
Confusion matrix:
[[30  3  2  5  1  1]
 [18  4  0  3  3  3]
 [16  3  1  3  1  0]
 [26  4  1  0  1  2]
 [22  2  0  3  1  1]
 [34  1  0  2  0  3]]


STOP: TOTAL NO. of f AND g EVALUATIONS EXCEEDS LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [6]:
from sklearn.feature_selection import SelectFromModel
from sklearn.ensemble import RandomForestClassifier

# Инициализация и обучение модели для отбора признаков
selector = SelectFromModel(RandomForestClassifier(n_estimators=100, random_state=42))
selector.fit(X_train, y_train)

# Применение отбора признаков к данным
X_train_selected = selector.transform(X_train)
X_test_selected = selector.transform(X_test)

# Продолжение с обучением модели и предсказанием (например, с RandomForest)
model = RandomForestClassifier(random_state=42)
model.fit(X_train_selected, y_train)

y_pred = model.predict(X_test_selected)
accuracy = accuracy_score(y_test, y_pred)
print(f"Точность модели: {accuracy:.2f}")
print("\nКлассификационный отчет:")
print(classification_report(y_test, y_pred))

# Настройка и обучение модели с помощью GridSearchCV
grid_search = GridSearchCV(SVC(), param_grid, cv=5)
grid_search.fit(X_train_selected, y_train)

# Оценка точности на тестовом наборе
print("Точность на тестовой выборке: {:.2f}".format(grid_search.score(X_test_selected, y_test)))

Точность модели: 0.21

Классификационный отчет:
              precision    recall  f1-score   support

           0       0.29      0.38      0.33        42
           1       0.29      0.23      0.25        31
           2       0.18      0.17      0.17        24
           3       0.13      0.12      0.12        34
           4       0.16      0.24      0.19        29
           5       0.20      0.12      0.15        40

    accuracy                           0.21       200
   macro avg       0.21      0.21      0.20       200
weighted avg       0.21      0.21      0.21       200

Точность на тестовой выборке: 0.21


In [7]:
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix

# Настройка и обучение модели логистической регрессии
log_reg = LogisticRegression(max_iter=20000, random_state=42)
log_reg.fit(X_train, y_train)

# Предсказания и оценка точности
y_pred_log = log_reg.predict(X_test)
accuracy_log = accuracy_score(y_test, y_pred_log)
print(f"Точность модели логистической регрессии = {accuracy_log:.2f}")

Точность модели логистической регрессии = 0.20


STOP: TOTAL NO. of f AND g EVALUATIONS EXCEEDS LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [8]:
from sklearn.preprocessing import PolynomialFeatures
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC

# Создание полиномиальных признаков (только взаимодействия, степень 2)
poly = PolynomialFeatures(degree=2, interaction_only=True)
X_train_poly = poly.fit_transform(X_train)
X_test_poly = poly.transform(X_test)

# Настройка и обучение модели с помощью GridSearchCV
grid_search = GridSearchCV(SVC(), param_grid, cv=5)
grid_search.fit(X_train_poly, y_train)

# Оценка точности на тестовом наборе
print("Точность на тестовой выборке: {:.2f}".format(grid_search.score(X_test_poly, y_test)))

Точность на тестовой выборке: 0.21


In [9]:
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix

# Настройка и обучение модели логистической регрессии
log_reg = LogisticRegression(max_iter=20000, random_state=42)
log_reg.fit(X_train, y_train)

# Предсказания и оценка точности
y_pred_log = log_reg.predict(X_test)
accuracy_log = accuracy_score(y_test, y_pred_log)
print(f"Точность модели логистической регрессии = {accuracy_log:.2f}")

Точность модели логистической регрессии = 0.20


STOP: TOTAL NO. of f AND g EVALUATIONS EXCEEDS LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [10]:
from sklearn.decomposition import PCA
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC

# Применение PCA для снижения размерности (10 компонент)
pca = PCA(n_components=10)
X_train_pca = pca.fit_transform(X_train)
X_test_pca = pca.transform(X_test)

# Настройка и обучение модели с помощью GridSearchCV
grid_search = GridSearchCV(SVC(), param_grid, cv=5)
grid_search.fit(X_train_pca, y_train)

# Оценка точности на тестовом наборе
print("Точность на тестовой выборке: {:.2f}".format(grid_search.score(X_test_pca, y_test)))

Точность на тестовой выборке: 0.21


In [11]:
from sklearn.metrics import accuracy_score
from sklearn.linear_model import LogisticRegression
from sklearn.metrics import confusion_matrix

# Настройка и обучение модели логистической регрессии
log_reg = LogisticRegression(max_iter=20000, random_state=42)
log_reg.fit(X_train, y_train)

# Предсказания и оценка точности
y_pred_log = log_reg.predict(X_test)
accuracy_log = accuracy_score(y_test, y_pred_log)
print(f"Точность модели логистической регрессии = {accuracy_log:.2f}")

Точность модели логистической регрессии = 0.20


STOP: TOTAL NO. of f AND g EVALUATIONS EXCEEDS LIMIT.

Increase the number of iterations (max_iter) or scale the data as shown in:
    https://scikit-learn.org/stable/modules/preprocessing.html
Please also refer to the documentation for alternative solver options:
    https://scikit-learn.org/stable/modules/linear_model.html#logistic-regression
  n_iter_i = _check_optimize_result(


In [12]:
from sklearn.preprocessing import StandardScaler
from sklearn.model_selection import GridSearchCV
from sklearn.svm import SVC

# Стандартизация данных (приведение к нулевому среднему и единичному стандартному отклонению)
scaler = StandardScaler()
X_train_scaled = scaler.fit_transform(X_train)
X_test_scaled = scaler.transform(X_test)

# Настройка и обучение модели с помощью GridSearchCV
grid_search = GridSearchCV(SVC(), param_grid, cv=5)
grid_search.fit(X_train_scaled, y_train)

# Оценка точности на тестовом наборе
print("Точность на тестовой выборке: {:.2f}".format(grid_search.score(X_test_scaled, y_test)))

Точность на тестовой выборке: 0.21


In [15]:
from sklearn.metrics import accuracy_score, classification_report, confusion_matrix
from sklearn.preprocessing import StandardScaler
from imblearn.over_sampling import RandomOverSampler
from imblearn.pipeline import Pipeline
from xgboost import XGBClassifier

# Создание пайплайна с RandomOverSampler
pipeline = Pipeline([
    ('scaler', StandardScaler()),  # Стандартизация данных
    ('ros', RandomOverSampler(random_state=42)),  # Балансировка классов с использованием RandomOverSampler
    ('xgb', XGBClassifier(
        random_state=42, 
        eval_metric='mlogloss', 
        n_estimators=200, 
        max_depth=5, 
        learning_rate=0.1
    ))  # Классификатор XGBoost
])

# Обучение модели
pipeline.fit(X_train, y_train)

# Предсказания на обучающих и тестовых данных
y_train_pred = pipeline.predict(X_train)
y_test_pred = pipeline.predict(X_test)

# Оценка точности на обучающих данных
train_accuracy = accuracy_score(y_train, y_train_pred)
print(f"Точность на обучающих данных: {train_accuracy:.2f}")

# Оценка точности на тестовых данных
test_accuracy = accuracy_score(y_test, y_test_pred)
print(f"Точность на тестовых данных: {test_accuracy:.2f}")

# Вывод матрицы ошибок и классификационного отчета
print("\nConfusion Matrix:")
print(confusion_matrix(y_test, y_test_pred))
print("\nClassification Report:")
print(classification_report(y_test, y_test_pred))

Точность на обучающих данных: 0.96
Точность на тестовых данных: 0.17

Confusion Matrix:
[[12  4  8  8  8  2]
 [ 4  5  7  7  6  2]
 [ 7  1  5  3  3  5]
 [13  5  2  0 11  3]
 [ 7  3  4  4  7  4]
 [14  3  8  1  9  5]]

Classification Report:
              precision    recall  f1-score   support

           0       0.21      0.29      0.24        42
           1       0.24      0.16      0.19        31
           2       0.15      0.21      0.17        24
           3       0.00      0.00      0.00        34
           4       0.16      0.24      0.19        29
           5       0.24      0.12      0.16        40

    accuracy                           0.17       200
   macro avg       0.17      0.17      0.16       200
weighted avg       0.17      0.17      0.16       200



Эксперименты с различными методами машинного обучения, включая логистическую регрессию, случайный лес и решетчатый поиск, показали, что точность моделей остаётся неизменной, несмотря на настройку гиперпараметров и применение методов балансировки данных. Это связано с тем, что в случайно созданном наборе данных признаки не имеют значимой связи с целевой переменной, такой как выбор места отдыха. В реальных задачах, например, более высокий уровень дохода может коррелировать с выбором более дорогих курортов, что позволяло бы моделям выявлять зависимости и делать точные прогнозы. Однако в текущем наборе данных такие зависимости отсутствуют, что объясняет низкую точность моделей. Таким образом, добиться улучшения точности невозможно без изменения данных, чтобы они отражали реальные закономерности и взаимосвязи.