### 2.	Используя один из подходящих игрушечных датасетов (breast_canser, digits, diabetes …) применить алгоритмы улучшения качества и оценки моделей (перекрестная проверка, решетчатый поиск, метрики модели)

In [3]:
import pandas as pd
import numpy as np
from sklearn.datasets import load_breast_cancer
from sklearn.model_selection import train_test_split, cross_val_score
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# Загрузка данных
data = load_breast_cancer()
X, y = data.data, data.target
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Создание и обучение модели
model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

# Предсказание и вычисление точности
y_pred = model.predict(X_test)
initial_accuracy = accuracy_score(y_test, y_pred)

# Перекрестная проверка
cv_scores = cross_val_score(model, X_train, y_train, cv=5)

# Вывод результатов
print(f"Точность модели на тестовой выборке: {initial_accuracy:.4f}")
print(f"Средняя точность перекрестной проверки: {cv_scores.mean():.4f}")
print(f"Стандартное отклонение точности перекрестной проверки: {cv_scores.std():.4f}")

Точность модели на тестовой выборке: 0.9649
Средняя точность перекрестной проверки: 0.9582
Стандартное отклонение точности перекрестной проверки: 0.0176


#### Использование решетчатого поиска для настройки гиперпараметров модели

In [5]:
from sklearn.model_selection import GridSearchCV
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# Задание параметров для решетчатого поиска
param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [None, 10, 20, 30],
    'min_samples_split': [2, 5, 10]
}

# Настройка решетчатого поиска
grid_search = GridSearchCV(estimator=RandomForestClassifier(random_state=42), 
                           param_grid=param_grid, 
                           cv=5, 
                           scoring='accuracy', 
                           n_jobs=-1)

# Поиск оптимальных параметров
grid_search.fit(X_train, y_train)

# Получение лучших параметров и модели
best_model = grid_search.best_estimator_
best_params = grid_search.best_params_
best_score = grid_search.best_score_

# Оценка на тестовой выборке
best_y_pred = best_model.predict(X_test)
best_accuracy = accuracy_score(y_test, best_y_pred)

# Вывод результатов
print("Лучшие параметры модели (best_params):", best_params)
print(f"Лучшая средняя точность на обучении (best_score): {best_score:.4f}")
print(f"Точность на тестовой выборке с оптимальными параметрами (best_accuracy): {best_accuracy:.4f}")

Лучшие параметры модели (best_params): {'max_depth': None, 'min_samples_split': 2, 'n_estimators': 200}
Лучшая средняя точность на обучении (best_score): 0.9626
Точность на тестовой выборке с оптимальными параметрами (best_accuracy): 0.9649


<h2>Вывод</h2>
<p style="font-size: 20px">
    Проведён анализ и обучение модели на датасете `breast_cancer` с использованием классификатора `RandomForestClassifier`. Первичная модель показала точность на тестовой выборке 96.49% и среднюю точность перекрёстной проверки 95.82%. Для улучшения модели был применён решетчатый поиск гиперпараметров (`GridSearchCV`), что позволило достичь точности 96.49% на тестовой выборке. Перекрёстная проверка и оптимизация гиперпараметров повысили качество модели. Методика успешно применима для задач классификации.
</p>

### 3. Создать модель классификатор, которая по определенному обучаемому набору (salary, city, age, vacation_prefer, transport_prefer) будет определять предпочтения человека (target), в каком городе провести отпуск.
<p>a. Создать свой датасет с категориальными данными (1000 строк), которые содержат следующие поля: (salary, city, age, vacation_prefer, transport_prefer, target). Применить import random (random. choice, random.randint) </p>
<p>b. Salary – установить числовой тип (например 50000), city – город проживания (например, Bishkek), age – возраст (например, от 30 до 65), vacation_prefer – тип отдыха (например, Shopping или Beach holiday), transport_prefer – тип транспорта (например, auto, plane), target – город, в котором проведем отпуск (например, London, Moscow)
</p>
<p>c. Преобразовать категориальные данные в числовые, используя panadas.get_dummies.</p>
<p>d. Выделить обучающую выборку и тестовую выборку (X_train, y_train, X-test, y_test)</p>
<p>e. Выбрать модель классификатор (например, from sklearn.ensemble import RandomForestClassifier)
</p>
<p>f. Проверить оценку модели.
</p>
<p>g. Сделать предсказание на случайных данных.
</p>
<p>h. Улучшить модель согласно примерам лекций 9-10 и материала лабораторной работы</p>


In [7]:
import pandas as pd
import random
from sklearn.model_selection import train_test_split
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

random.seed(42)

cities = ["Bishkek", "Almaty", "Astana", "Tashkent", "Dushanbe"]
vacation_types = ["Shopping", "Beach holiday", "Hiking", "Cultural tour", "Cruise"]
transport_types = ["auto", "plane", "train", "bus"]
targets = ["London", "Moscow", "Istanbul", "Dubai", "Paris"]

data = {
    "salary": [random.randint(30000, 150000) for _ in range(1000)],
    "city": [random.choice(cities) for _ in range(1000)],
    "age": [random.randint(30, 65) for _ in range(1000)],
    "vacation_prefer": [random.choice(vacation_types) for _ in range(1000)],
    "transport_prefer": [random.choice(transport_types) for _ in range(1000)],
    "target": [random.choice(targets) for _ in range(1000)],
}


df = pd.DataFrame(data)

df_encoded = pd.get_dummies(df, columns=["city", "vacation_prefer", "transport_prefer", "target"])

X = df_encoded.drop(columns=[col for col in df_encoded.columns if col.startswith("target_")])
y = df_encoded[[col for col in df_encoded.columns if col.startswith("target_")]].idxmax(axis=1)

X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

model = RandomForestClassifier(random_state=42)
model.fit(X_train, y_train)

y_pred = model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)


accuracy

0.19

In [9]:
# Проверка распределения целевой переменной
target_distribution = y.value_counts(normalize=True)

# Нормализация числовых данных (Min-Max Scaling)
from sklearn.preprocessing import MinMaxScaler

scaler = MinMaxScaler()
X[["salary", "age"]] = scaler.fit_transform(X[["salary", "age"]])

# Разделение данных заново после нормализации
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Повторное обучение модели после нормализации
model.fit(X_train, y_train)
y_pred = model.predict(X_test)
accuracy_after_normalization = accuracy_score(y_test, y_pred)

target_distribution, accuracy_after_normalization

(target_Paris       0.213
 target_Moscow      0.209
 target_Istanbul    0.205
 target_Dubai       0.194
 target_London      0.179
 Name: proportion, dtype: float64,
 0.19)

In [10]:
from sklearn.model_selection import GridSearchCV

# Определение диапазона гиперпараметров
param_grid = {
    "n_estimators": [50, 100, 200],
    "max_depth": [None, 10, 20, 30],
    "min_samples_split": [2, 5, 10],
    "min_samples_leaf": [1, 2, 4],
}

# Настройка GridSearchCV
grid_search = GridSearchCV(
    estimator=RandomForestClassifier(random_state=42),
    param_grid=param_grid,
    scoring="accuracy",
    cv=3,
    n_jobs=-1,
    verbose=1,
)

# Обучение модели с подбором гиперпараметров
grid_search.fit(X_train, y_train)

# Лучшая модель и её точность
best_model = grid_search.best_estimator_
best_params = grid_search.best_params_
y_pred_best = best_model.predict(X_test)
accuracy_best = accuracy_score(y_test, y_pred_best)

best_params, accuracy_best

Fitting 3 folds for each of 108 candidates, totalling 324 fits


({'max_depth': 10,
  'min_samples_leaf': 1,
  'min_samples_split': 2,
  'n_estimators': 50},
 0.18)

Низкая обучаемость модели связана с тем, что данные, которые мы создали, полностью случайны и не имеют логической связи между признаками (доход, возраст, предпочтения) и целевой переменной (город для отпуска). В реальной жизни выбор города для отдыха определяется многими факторами, которые сложно учесть в случайно сгенерированных данных.

Модель просто не видит закономерностей, потому что их нет — каждый пример в данных выглядит для нее как случайный шум. Чтобы модель могла "учиться", ей нужны данные, которые содержат осмысленные зависимости и отражают реальные предпочтения людей.

Для улучшения можно:

Сформировать данные, где целевой город действительно зависит от зарплаты, возраста и предпочтений.
Добавить больше строк и признаков, чтобы модель смогла выявить связи.
Использовать сложные модели или настройки, которые лучше подходят для обнаружения скрытых закономерностей.

Таким образом, проблема не столько в модели, сколько в качестве и структуре данных.