# План работы: Классификация заболеваний кожи на основе датасета Dermatology Dataset Classification

## 1. Постановка задачи

### 1.1 Описание проблемы
Цель проекта – построить и протестировать несколько моделей машинного обучения для классификации заболеваний кожи на основе датасета [Dermatology Dataset Classification](https://www.kaggle.com/datasets/olcaybolat1/dermatology-dataset-classification/data).

### 1.2 Описание данных
Датасет содержит информацию о различных типах заболеваний кожи с соответствующими характеристиками. Основные признаки представлены числовыми данными, а целевая переменная – категориальная.

## 2. Подготовка данных

### 2.1 Загрузка данных
- Загрузка датасета с Kaggle.
- Первичный анализ данных (размер, типы данных, наличие пропущенных значений).

### 2.2 Предобработка данных
- Обработка пропущенных значений (замена медианой, средним или удаление).
- Кодирование категориальных признаков (если есть).
- Масштабирование числовых признаков (MinMaxScaler, StandardScaler) *.
- Разделение данных на обучающий и тестовый набор (train/test split).

## 3. Разработка и тестирование моделей

### 3.1 Базовые модели
- Простая нейронная сеть (однослойный персептрон).
- Сложная нейронная сеть (многослойный персептрон MLP).
- Логистическая регрессия.
- Дерево решений.
- Случайный лес (Random Forest).

### 3.2 Пример кода: Decision Tree и Random Forest
```python
from sklearn.model_selection import train_test_split
from sklearn.tree import DecisionTreeClassifier
from sklearn.ensemble import RandomForestClassifier
from sklearn.metrics import accuracy_score

# Разделение данных на train и test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)

# Дерево решений
dt_clf = DecisionTreeClassifier(max_depth=5, random_state=42)
dt_clf.fit(X_train, y_train)
dt_preds = dt_clf.predict(X_test)
print(f"Decision Tree Accuracy: {accuracy_score(y_test, dt_preds):.4f}")

# Случайный лес
rf_clf = RandomForestClassifier(n_estimators=100, max_depth=10, random_state=42)
rf_clf.fit(X_train, y_train)
rf_preds = rf_clf.predict(X_test)
print(f"Random Forest Accuracy: {accuracy_score(y_test, rf_preds):.4f}")
```

### 3.3 Настройка гиперпараметров *
Для каждой модели провести эксперименты с разными гиперпараметрами:
- **Персептрон**: количество нейронов, функции активации.
- **Логистическая регрессия**: метод оптимизации.
- **Дерево решений**: глубина (`max_depth`), критерий (`gini` или `entropy`).
- **Случайный лес**: количество деревьев (`n_estimators`), глубина (`max_depth`).

### 3.4 GridSearchCV для подбора гиперпараметров **
```python
from sklearn.model_selection import GridSearchCV

param_grid = {
    'n_estimators': [50, 100, 200],
    'max_depth': [5, 10, 20]
}

grid_search = GridSearchCV(RandomForestClassifier(random_state=42), param_grid, cv=5, scoring='accuracy')
grid_search.fit(X_train, y_train)

print(f"Best parameters: {grid_search.best_params_}")
print(f"Best accuracy: {grid_search.best_score_:.4f}")
```

### 3.5 Оценка качества моделей
Для каждой модели провести несколько итераций обучения с разными гиперпараметрами и оценить точность на тестовом наборе данных. Метрики:
- **Accuracy**
- **Precision, Recall, F1-score**

```python
from sklearn.metrics import classification_report

y_pred = grid_search.best_estimator_.predict(X_test)
print("Classification Report:")
print(classification_report(y_test, y_pred))
```

## 4. Анализ результатов
- Сравнение всех моделей по основным метрикам.
- Визуализация результатов.

```python
import seaborn as sns
import matplotlib.pyplot as plt
from sklearn.metrics import confusion_matrix

cm = confusion_matrix(y_test, y_pred)
sns.heatmap(cm, annot=True, fmt="d", cmap="Blues")
plt.xlabel("Predicted")
plt.ylabel("Actual")
plt.title("Confusion Matrix")
plt.show()
```

## 5. Выводы и рекомендации
- Какая модель показала лучшие результаты?
- Какие гиперпараметры оказались наиболее значимыми?
- Возможные улучшения.

## 6. Дальнейшие шаги **
- Провести дополнительное тестирование на вводимых пользователем данных (опросник)**.
- Автоматизировать процесс поиска гиперпараметров **.
