# Методология Data Science
Методология — система методов в определённой области, направляющая процесс исследования.

### Стадии:
1. **Business Understanding** — понять бизнес-проблему
2. **Analytic Approach** — выбрать аналитический подход
3. **Data Requirements** — определить, какие данные нужны
4. **Data Collection** — собрать данные
5. **Data Understanding** — изучить данные
6. **Data Preparation** — очистить и подготовить данные
7. **Modeling** — построить модель
8. **Evaluation** — оценить модель
9. **Deployment** — внедрить решение
10. **Feedback** — собрать обратную связь и улучшить

## 1. Business Understanding
Первый шаг в методологии Data Science — понять суть бизнес-проблемы.  
Без чёткого понимания вопроса, который нужно решить, даже самая точная модель может оказаться бесполезной.

#### Почему это важно?
Представь ситуацию: тебе поручили важную задачу с жёстким дедлайном. Ты обсудил всё с начальником, но позже понял, что не хватает информации. И вот ты стоишь перед выбором: идти вслепую или остановиться и задать уточняющие вопросы. Методология Data Science говорит: обязательно остановись и уточни. Потому что:

Плохо понятый вопрос = неправильно подобранные данные = бесполезный результат.

Хорошее начало — это половина дела.

## 2. Analytic Approach
После того как проблема, которую нужно решить, была определена,  
подбирается соответствующий аналитический подход — с учётом бизнес-требований.

#### Когда достигнуто чёткое понимание вопроса, можно выбрать аналитический подход.
| Тип вопроса | Пример вопроса | Подход | Основные методы | Примеры |
| ---- | ---- | ---- | ---- | ---- |
| **Descriptive** | Что происходит сейчас? | Descriptive Analytics | Агрегация данных, визуализация, отчёты | Дашборды, суммарные отчёты |
| **Diagnostic**  | Почему это произошло?  | Diagnostic Analytics | Drill-down, корреляция, поиск причин | Причины спада продаж, ошибки в процессах |
| **Predictive**  | Что, вероятно, произойдёт? | Predictive Analytics | Регрессия, временные ряды, ML модели | Прогноз продаж, отток клиентов |
| **Prescriptive** | Что мы должны сделать? | Prescriptive Analytics | Оптимизация, симуляции, анализ решений | Рекомендации по ценообразованию |
| **Classification** | К какой категории это относится? | Classification (ML) | Логистическая регрессия, деревья, нейросети | Детекция спама, диагностика болезней |

**Как это работает:**  
Когда тебе дают задачу, ты не бросаешься сразу писать код,  
а сначала определяешь тип вопроса.  
Это поможет выбрать правильный инструмент анализа.

[Аналитические подходы и методы](https://jupyter.org/try-jupyter/notebooks/index.html?path=Analytic_methods.ipynb)

## 3. Data Requirements
Прежде чем переходить к этапам сбора и подготовки данных, жизненно важно определить требования к данным, например, для задачи классификации  
с использованием дерева решений. Это включает:
- определение нужного содержания данных,
- форматов,
- и источников, которые нужны для начального сбора.



## 4. Data Collection
После первоначального сбора данных Data Scientist оценивает, достаточно ли у него нужной информации.  

#### На этом этапе:
- требования к данным могут пересматриваться,
- принимается решение, нужно ли собрать больше или меньше данных.

После сбора всех данных — Data Scientist получает чёткое представление, с чем ему предстоит работать

## 5. Data Understanding
Понимание данных охватывает все действия, связанные с построением набора данных.  
По сути, этот этап методологии отвечает на вопрос:  
**"Представляют ли собранные данные суть проблемы, которую нужно решить?"**

## 6. Data Preparation
Этап подготовки отвечает на вопрос:  
**Каким образом нужно подготовить данные, чтобы с ними можно было эффективно работать?**  

#### Что входит в подготовку:
- Удаление дубликатов
- Заполнение/удаление пропусков
- Форматирование данных (типы, даты, числа)
- Кодирование категориальных признаков
- Создание новых признаков (feature engineering)

**Подготовка данных** — итеративный этап. Мы можем возвращаться к нему снова и снова после моделирования, если модель показывает плохие результаты. Иногда одна новая фича может кардинально улучшить результат.

### Feature Engineering (создание признаков)
Часть подготовки данных — это Feature Engineering,  
то есть создание новых признаков (фичей) на основе знаний о предметной области.

**Фича** (признак) — это характеристика, которая может помочь в решении задачи.

Фичи критичны для предсказательных моделей — они влияют на результат.
Feature Engineering особенно важен, когда ты применяешь машинное обучение.

#### Простой пример

| имя  | дата\_рождения |
| ---- | -------------- |
| Анна | 2000-05-15     |
| Петр | 1995-08-23     |  

Сейчас у нас только дата рождения, а модели будет сложно с ней работать.  
Поэтому мы создаём новый признак — возраст.  

| имя  | дата\_рождения | возраст |
| ---- | -------------- | ------- |
| Анна | 2000-05-15     | 25      |
| Петр | 1995-08-23     | 30      |  

Вот это и есть **Feature Engineering** — мы извлекли полезный признак "возраст" из существующего.

## 7. Modeling
Моделирование - это создание и настройка модели, которая будет делать предсказания на основе данных.  
**Цель моделирования** - Построить модель, которая описывает закономерности или предсказывает результат
  
В моделировании мы не просто запускаем модель, но настраиваем параметры, чтобы улучшить её точность.
#### Например:  
- Если ошибиться с предсказанием "человек будет болеть", и он не заболел — это ложноположительная ошибка (**False Positive**).  
- А если он реально заболел, а модель сказала "всё ок" — это ложноотрицательная ошибка (**False Negative**), и она может быть куда опаснее.

## 8. Evaluation
Оценка модели идёт рука об руку с её построением. Поэтому стадии моделирования и оценки выполняются итеративно (повторяются по кругу).  
**Она отвечает на вопрос:**  
Реально ли эта модель отвечает на исходный вопрос? Или её нужно подправить?

### Cпособы оценки:
1. **Диагностические меры**:  
Например, точность (accuracy), чувствительность (sensitivity), полнота (recall), ROC-кривая и т. д.
2. **Статистическая значимость**:  
Проверяем, можно ли доверять результатам статистически.

#### Что такое ROC-кривая?
ROC = Receiver Operating Characteristic  
\- Это диагностический инструмент, который показывает,
насколько хорошо бинарная модель различает классы "Да" и "Нет"
при изменении определённого критерия.

## 9. Deployment
Когда модель прошла оценку и дата-сайентист уверен, что она будет работать, её развёртывают и подвергают окончательному тестированию. В зависимости от назначения модели, её могут сначала запустить для ограниченной группы пользователей или в тестовой среде, чтобы убедиться в надёжности результатов перед масштабным внедрением.

## 10. Feedback
Когда модель уже оценена и дата-сайентист уверен, что она работает, её внедряют и подвергают главному испытанию — реальному использованию в полевых условиях. 

Обратная связь от пользователей помогает улучшать её и оценивать её производительность и влияние.  
Ценность модели напрямую зависит от того, насколько успешно в неё будет включена обратная связь и внесены корректировки, пока решение остаётся актуальным.

---

# Сторителлинг
Роль сторителлинга в жизни аналитика данных невозможно переоценить. **Очень важно хорошо уметь рассказывать истории с помощью данных**. 

Искусство сторителлинга играет огромную роль в жизни аналитика данных. Неважно, сколько или какую ценную информацию вы нашли — если вы не сможете донести её до своей аудитории, будь то конечный пользователь, директор или руководитель компании, то вся работа пропадёт впустую. Нужно найти способ донести эту информацию, и чаще всего это лучше делать визуально или через рассказ истории, чтобы они поняли, как эти данные могут быть полезны.