<h3>Генерация рандомного дата сета и автоматическое сохранение для последующего применения в работе</h3>

In [6]:
import pandas as pd
import random

def generate_dataset(file_path):
    cities = ['Poland', 'London', 'Spain', 'Island', 'Finland']
    vacation_preferences = ['Beach holiday', 'Cruise', 'Hiking', 'Shopping']
    transport_preferences = ['auto', 'plane', 'train']
    targets = ['Yes', 'No']

    data = {
        'salary': [random.randint(20000, 100000) for _ in range(500)],
        'age': [random.randint(18, 65) for _ in range(500)],
        'city': [random.choice(cities) for _ in range(500)],
        'vacation_prefer': [random.choice(vacation_preferences) for _ in range(500)],
        'transport_prefer': [random.choice(transport_preferences) for _ in range(500)],
        'target': [random.choice(targets) for _ in range(500)],
    }

    df = pd.DataFrame(data)
    df.to_excel(file_path, index=False)
    print(f"Данные успешно сохранены в файл: {file_path}")

generate_dataset("vacation_dataset.xlsx")

Данные успешно сохранены в файл: vacation_dataset.xlsx


<h3>2.	Используя один из подходящих игрушечных датасетов (breast_canser, digits, diabetes ) применить алгоритмы улучшения качества и оценки моделей (перекрестная проверка, решетчатый поиск, метрики модели)</h3>

In [7]:
import numpy as np
from sklearn.datasets import load_diabetes
from sklearn.model_selection import train_test_split, GridSearchCV, cross_val_score
from sklearn.ensemble import RandomForestRegressor
from sklearn.metrics import mean_squared_error

data = load_diabetes()
X, y = data.data, data.target

<h4>Разделение на обучающую и тестовую выборки</h4>

In [8]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

<h4>Обучение базовой модели</h4>

In [9]:
model = RandomForestRegressor(random_state=42)

<h4>Перекрёстная проверка</h4>


In [10]:
cv_scores = cross_val_score(model, X_train, y_train, cv=5, scoring='neg_mean_squared_error')
print("Средний MSE на перекрёстной проверке:", -np.mean(cv_scores))

Средний MSE на перекрёстной проверке: 3511.9697030744474


<h4>Улучшение модели с помощью GridSearchCV
</h4>


In [None]:
param_grid = {
    'n_estimators': [50, 100, 150],
    'max_depth': [10, 20, None],
    'min_samples_split': [2, 5, 10]
}
grid_search = GridSearchCV(model, param_grid, cv=5, scoring='neg_mean_squared_error')
grid_search.fit(X_train, y_train)

<h4>Оценка на тестовых данных
</h4>


In [22]:
best_model = grid_search.best_estimator_
y_pred = best_model.predict(X_test)
mse = mean_squared_error(y_test, y_pred)
print("MSE на тестовых данных:", mse)
print("Лучшие параметры:", grid_search.best_params_)

MSE на тестовых данных: 2957.7682934471345
Лучшие параметры: {'max_depth': 10, 'min_samples_split': 10, 'n_estimators': 150}


<h5>3.	Создать модель классификатор, которая по определенному обучаемому набору (salary, city, age, vacation_prefer, transport_prefer) будет определять предпочтения человека (target), в каком городе провести отпуск.</h5>
<ol>
<li>Создать свой датасет с категориальными данными (1000 строк), которые содержат следующие поля: (salary, city, age, vacation_prefer, transport_prefer, target). Применить import random (random. choice, random.randint) </li>
<li>Salary – установить числовой тип (например 50000), city – город проживания (например, Bishkek), age – возраст (например, от 30 до 65), vacation_prefer – тип отдыха (например, Shopping или Beach holiday), transport_prefer – тип транспорта (например, auto, plane), target – город, в котором проведем отпуск (например, London, Moscow)</li>
<li>Преобразовать категориальные данные в числовые, используя panadas.get_dummies.</li>
<li>Выделить обучающую выборку и тестовую выборку (X_train, y_train, X-test, y_test)</li>
<li>Выбрать модель классификатор (например, from sklearn.ensemble import RandomForestClassifier)</li>
<li>Проверить оценку модели.</li>
<li>Сделать предсказание на случайных данных.</li>
<li>Улучшить модель согласно примерам лекций 9-10 и материала лабораторной работы</li>
</ol>

In [5]:
import pandas as pd
import random
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score, classification_report
from sklearn.model_selection import GridSearchCV

df = pd.read_excel("D:\\vacation_dataset.xlsx")

print("Пример данных из датасета:\n", df.head())

Пример данных из датасета:
    salary  age     city vacation_prefer transport_prefer target
0   26714   29  Finland        Shopping             auto    Yes
1   97351   37   Poland          Hiking            train    Yes
2   55224   54   Island        Shopping            plane     No
3   52763   59  Finland        Shopping            train     No
4   80186   28   Poland   Beach holiday             auto     No


<h4>
 Кодирование категориальных данных и определение признаков (X) и целевой переменной (y)
</h4>

In [24]:
df_encoded = pd.get_dummies(df, columns=['city', 'vacation_prefer', 'transport_prefer', 'target'])

X = df_encoded.drop(columns=[col for col in df_encoded.columns if col.startswith('target_')])
y = df_encoded[[col for col in df_encoded.columns if col.startswith('target_')]].values.argmax(axis=1)

<h4>
Разделение на обучающую и тестовую выборки и обучение базовой модели

</h4>

In [25]:
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

<h4>
Оценка базовой модели

</h4>

In [26]:
y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
print("Точность модели:", accuracy)
print("Отчёт классификации:")
print(classification_report(y_test, y_pred))

Точность модели: 0.59
Отчёт классификации:
              precision    recall  f1-score   support

           0       0.58      0.59      0.59        49
           1       0.60      0.59      0.59        51

    accuracy                           0.59       100
   macro avg       0.59      0.59      0.59       100
weighted avg       0.59      0.59      0.59       100



<h4>Предсказание на случайных данных

</h4>

In [27]:
random_data = {
    'salary': [50000],
    'age': [40],
    'city_Poland': [1], 'city_London': [0], 'city_Spain': [0], 'city_Island': [0], 'city_Finland': [0],
    'vacation_prefer_Beach holiday': [1], 'vacation_prefer_Cruise': [0],
    'vacation_prefer_Hiking': [0], 'vacation_prefer_Shopping': [0],
    'transport_prefer_auto': [1], 'transport_prefer_plane': [0], 'transport_prefer_train': [0]
}
random_sample_df = pd.DataFrame(random_data).reindex(columns=X_train.columns, fill_value=0)
random_prediction = model.predict(random_sample_df)
target_classes = [col.split('target_')[1] for col in df_encoded.columns if col.startswith('target_')]
predicted_target = target_classes[random_prediction[0]]
print("Предсказание для случайного ввода:", predicted_target)

Предсказание для случайного ввода: No


<h4>Улучшение модели</h4>

In [28]:
param_grid = {
    'n_estimators': [50, 100, 150],
    'max_depth': [10, 20, 30],
    'min_samples_split': [2, 5, 10],
}
grid_search = GridSearchCV(RandomForestClassifier(random_state=42), param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, y_train)

best_model = grid_search.best_estimator_
y_pred_best = best_model.predict(X_test)
accuracy_best = accuracy_score(y_test, y_pred_best)
print("Точность улучшенной модели:", accuracy_best)
print("Лучшие параметры модели:", grid_search.best_params_)

Точность улучшенной модели: 0.56
Лучшие параметры модели: {'max_depth': 20, 'min_samples_split': 10, 'n_estimators': 150}


<h4>Ограниченность данных, слабая связь признаков с целевой переменной, а также случайный характер данных могли ограничить результаты модели. Несмотря на использование решетчатого поиска, Random Forest сталкивается с проблемами, если признаки не отражают ключевые зависимости. Также возможно, что классы целевой переменной представлены неравномерно, что осложняет обучение. Сложность задачи и ограниченность данных делают дальнейшее улучшение модели маловероятным без расширения признаков или доступа к более качественным данным.</h4>
