<a href="https://colab.research.google.com/github/CodeHunterOfficial/ABC_DataMining/blob/main/Python/Python-2025/%D0%A2%D0%95%D0%A5%D0%9D%D0%98%D0%A7%D0%95%D0%A1%D0%9A%D0%9E%D0%95_%D0%97%D0%90%D0%94%D0%90%D0%9D%D0%98%D0%95_%D0%9D%D0%90_%D0%98%D0%A2%D0%9E%D0%93%D0%9E%D0%92%D0%AB%D0%99_%D0%9F%D0%A0%D0%9E%D0%95%D0%9A%D0%A2.ipynb" target="_parent"><img src="https://colab.research.google.com/assets/colab-badge.svg" alt="Open In Colab"/></a>

In [None]:
import kagglehub
path = kagglehub.dataset_download("uciml/iris")


# **ТЕХНИЧЕСКОЕ ЗАДАНИЕ НА ИТОГОВЫЙ ПРОЕКТ**  
**Курс: «Производственный анализ данных на Python: от EDA до ML-продукта»**

---

## **1. Цель и концепция проекта**

Итоговый проект курса направлен на формирование у студентов целостного понимания жизненного цикла аналитического продукта — от работы с «сырыми» данными до развёртывания интерактивного веб-приложения, доступного конечным пользователям. В отличие от традиционных учебных заданий, где акцент делается на алгоритмах, данный проект фокусируется на **инженерной, архитектурной и пользовательской сторонах анализа данных**.

Ключевая идея — продемонстрировать, что качественный анализ данных невозможен без продуманной архитектуры, воспроизводимости, документирования и ориентации на реальные сценарии использования. С этой целью вводится требование разработки **двух взаимодополняющих интерфейсов**, отражающих разные потребности аудитории: аналитиков и заинтересованных лиц без технической подготовки.

---

## **2. Требования к данным**

Проект должен быть реализован на реалистичном, нетривиальном датасете, отвечающем следующим критериям:

- **Объём**: не менее 50 000 строк и 10 признаков;
- **Разнообразие типов**: как минимум 4 числовых, 3 категориальных и 1 временной признак;
- **Качество**: наличие пропущенных значений (≥ 5 % в трёх и более колонках), выбросов (в двух и более числовых переменных), а также признаков несбалансированности, если присутствует целевая переменная.

Источники данных ограничиваются публичными платформами: Kaggle, Hugging Face Datasets, официальные API с открытым доступом, либо собственные собранные данные при условии соблюдения юридических и этических норм. Использование упрощённых учебных наборов (Iris, Titanic, Boston Housing и аналогов) **запрещено**.

---

## **3. Архитектурные принципы**

Проект должен быть реализован в соответствии с принципами **SOLID** и с учётом модульного, слабосвязанного проектирования. Аналитическое ядро выделяется в отдельный пакет (`src/`), который не зависит напрямую от интерфейсов и может быть повторно использован в других проектах.

Рекомендуется применять:
- **инверсию зависимостей** — высокоуровневые компоненты зависят от абстракций, а не от конкретных реализаций;
- **единую точку ответственности** — каждый модуль решает одну задачу (загрузка, очистка, визуализация и т.д.);
- **переиспользуемость** — общая логика (например, препроцессинг) используется как Dash-, так и Streamlit-приложениями.

Структура проекта должна поддерживать расширяемость: добавление нового источника данных или нового типа визуализации не должно требовать переписывания существующего кода.

---

## **4. Технологический стек**

Проект реализуется с использованием следующих инструментов:

- **Анализ и предобработка**: Pandas, NumPy, Scikit-learn; допускается (и поощряется) использование Polars для сравнения производительности.
- **Визуализация**: Matplotlib и Seaborn — для статических графиков; Plotly — для интерактивных.
- **Статистика**: SciPy и Statsmodels — для проверки гипотез и оценки значимости.
- **Интерфейсы**:  
  - **Dash** — для создания полнофункционального аналитического дашборда, ориентированного на специалистов;  
  - **Streamlit** — для разработки лёгкого, интуитивного интерфейса, ориентированного на быстрое ознакомление.
- **Деплой**: Streamlit-приложение обязательно развёртывается на **Hugging Face Spaces**; использование Docker для локального запуска Dash — опционально, но желательно.

---

## **5. Требования к отчёту**

Отчёт оформляется в соответствии с **ГОСТ 7.32–2017** и должен включать следующие разделы:

1. **Введение** — постановка задачи, обоснование её актуальности, краткий обзор эволюции архитектур аналитических систем (от скриптов к продуктам).
2. **Методология** — описание пайплайна обработки данных, стратегий работы с пропусками и выбросами, методов анализа, выбора визуализаций и архитектурных решений.
3. **Результаты** — количественные и визуальные результаты: графики распределений, временные тренды, сравнение производительности, скриншоты интерфейсов.
4. **Обсуждение** — интерпретация результатов, сравнение подходов (например, Pandas vs Polars, статика vs интерактив), анализ компромиссов между глубиной анализа и удобством использования.
5. **Заключение** — выводы и практические рекомендации по выбору архитектуры в зависимости от целевой аудитории и задачи.
6. **Список источников** — оформлен по **ГОСТ Р 7.0.5–2008**.
7. **Приложения** — фрагменты кода, скриншоты, примеры структуры данных, дополнительные материалы.

Отчёт сопровождается ссылками на:
- публичный **репозиторий на GitHub**;
- **Streamlit-приложение** на Hugging Face Spaces;
- (при наличии) опубликованные артефакты (например, конфигурации, метрики, Model Card).

---

## **6. Критерии оценивания**

| Оценка               | Критерии |
|----------------------|----------|
| **Отлично**          | Полное выполнение всех этапов проекта. Реализованы оба интерфейса с соблюдением принципов SOLID и модульности. Проведён строгий сравнительный анализ (например, Pandas vs Polars). Отчёт соответствует ГОСТ, содержит глубокое обсуждение компромиссов «аналитическая глубина vs удобство использования». Streamlit-приложение полностью функционально на Hugging Face Spaces. Все артефакты (репозиторий, ссылка на Spaces, документация, видеодемонстрация) представлены. |
| **Хорошо**           | Выполнены все основные этапы: реализованы оба интерфейса, проведён EDA, применены статистические тесты, выполнена предобработка. Отчёт структурирован, содержит визуализации и обоснование выбора технологий. Streamlit-приложение работоспособно, но функциональность может быть упрощённой. Репозиторий и документация присутствуют. |
| **Удовлетворительно**| Реализован хотя бы один интерфейс (предпочтительно Streamlit), выполнена базовая предобработка и EDA. Отчёт содержит описание методов и таблицы метрик, но не в полной мере соответствует требованиям ГОСТ или не включает сравнительный анализ. Деплой на Hugging Face Spaces отсутствует или нестабилен. |
| **Неудовлетворительно**| Отсутствуют ключевые компоненты: не реализован ни один интерфейс, отсутствует обработка реалистичных проблем данных (пропуски, выбросы), отчёт не структурирован или содержит только фрагментарное описание. Проект основан на запрещённых учебных датасетах или не соответствует минимальным требованиям к данным. |

---

## **7. Заключение**

Данный проект является не просто техническим упражнением, а **моделью реальной инженерной задачи**, с которой сталкивается data scientist в промышленной среде. Успешное выполнение проекта демонстрирует способность студента мыслить системно: от проектирования архитектуры до учёта потребностей конечного пользователя. Результат может быть включён в профессиональное портфолио и использован как доказательство компетенций в области production-ready аналитики.