# *План работы на пятый спринт* (05/04/25 – 18/04/25)  
**Модель:** Полносвязная нейронная сеть (MLP)  
**Датасет:** [HAM10000 – Skin Cancer MNIST](https://www.kaggle.com/datasets/kmader/skin-cancer-mnist-ham10000)

---

### **Что вы изучите?**
- Как работать с реальными медицинскими изображениями.
- Как решать задачи многоклассовой классификации.
- Как строить и модифицировать архитектуры персептрона.
- Как бороться с несбалансированными данными.
- Как использовать F1 и confusion matrix в многоклассовых задачах.
- Как визуализировать обучение и понимать, что происходит внутри модели.

---

### **Структура задания**

1. **Загрузка данных**
   - Загрузите изображения и CSV-файл с метками.
   - Объедините метки с изображениями (по колонке `image_id`).
   - Оставьте только нужные колонки: `image_id`, `dx` (целевой класс).

2. **Предобработка**
   - Приведите изображения к одному размеру, например, `64×64` пикселя.
   - Преобразуйте изображения в массивы и нормализуйте значения.
   - Переведите метки классов в формат One-Hot Encoding.
   - Разделите данные на обучающую и тестовую выборки.

3. **Анализ распределения классов**
   - Постройте график распределения по классам.
   - Сделайте вывод о балансе выборки.
   - Обсудите, как это может повлиять на качество модели.

4. **Базовая модель**
   - Постройте персептрон с несколькими Dense-слоями.
   - Вход: Flatten слой после изображения.
   - Активации: ReLU внутри, Softmax на выходе.
   - Loss-функция: `categorical_crossentropy`.

5. **Оценка качества**
   - Accuracy.
   - Confusion matrix.
   - F1-score (macro).
   - (**) Построение ROC-кривых по классам (по желанию).

6. **Модификация архитектуры**
   - Проведите серию экспериментов:
     - изменение числа слоёв;
     - изменение числа нейронов;
     - Dropout;
     - Batch Normalization;
     - различные функции активации.
   - Сравните метрики и визуализируйте обучение.

7. **Визуализация**
   - Постройте графики loss/accuracy по эпохам.
   - Постройте confusion matrix.
   

8. **Отчёт**
   - Кратко опишите:
     - какие архитектуры были проверены;
     - какие гиперпараметры влияли на точность;
     - какие сложности возникли;
     - что можно улучшить при повторной попытке.

---


---

### 🔗 Полезные ссылки

#### 📊 Датасет и основы модели
- [HAM10000 Dataset on Kaggle](https://www.kaggle.com/datasets/kmader/skin-cancer-mnist-ham10000)
- [Keras Sequential Model Guide](https://keras.io/guides/sequential_model/)
- [Keras Dense Layer Docs](https://keras.io/api/layers/core_layers/dense/)
- [Keras Flatten Layer Docs](https://keras.io/api/layers/reshaping_layers/flatten/)

#### 📈 Метрики качества
- [F1 Macro в sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.f1_score.html)
- [Confusion Matrix в sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.confusion_matrix.html)
- [Classification Report](https://scikit-learn.org/stable/modules/generated/sklearn.metrics.classification_report.html)
- [ROC AUC в многоклассовой классификации](https://scikit-learn.org/stable/auto_examples/model_selection/plot_roc.html)

#### 🧠 Персептрон и MLP
- [Perceptron & MLP (DeepLizard YouTube)](https://www.youtube.com/watch?v=aircAruvnKk)
- [Multi-layer Perceptron (scikit-learn docs)](https://scikit-learn.org/stable/modules/neural_networks_supervised.html)

#### 🔍 Визуализация эмбеддингов
- [PCA в sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.decomposition.PCA.html)
- [t-SNE в sklearn](https://scikit-learn.org/stable/modules/generated/sklearn.manifold.TSNE.html)
- [Distill.pub: t-SNE Explained Visually](https://distill.pub/2016/misread-tsne/)
- [TensorBoard Embedding Projector](https://www.tensorflow.org/tensorboard/embedding_projections)
- [How to Visualize Feature Representations using t-SNE (Medium)](https://towardsdatascience.com/visualizing-high-dimensional-data-using-t-sne-ef67e97f7633)

#### 🧪 Вспомогательные инструменты
- [One-hot encoding в Keras](https://keras.io/api/utils/python_utils/#to_categorical-function)
- [Class Weights in Keras](https://www.tensorflow.org/api_docs/python/tf/keras/Model#fit)
- [Using class_weight in imbalanced data (official guide)](https://www.tensorflow.org/tutorials/structured_data/imbalanced_data)

