# Этапы анализа данных

### Понимание задачи
Тип задачи:
- регрессия $Y \in \mathbb{R}$
- классификация $Y =\{0,1\}$
- кластеризация Y=?

Метрики:
- Регрессия 
    - MSE $\frac{1}{l}\sum_{i=1}^l(a(x_x)-y_i)^2$
    - MAE $\frac{1}{l}\sum_{i=1}^l|a(x_x)-y_i|$
- Классификация
    - доля верных ответов $\frac{1}{l}\sum_{i=1}^l[a(x_i)=y_i]$
    - точность и полнота
    - AUC-ROC, AUC-PRC
- Кластеризация
    - зависит от задачи
    
Бизнес-метрики: убедиться, что зависит от маинного обучения, а не от других факторов


### Данные
Типы признаков:
- числовые
- категориальные
- текстовые
- изображение
- координаты


### Формирование признаков
Задача: получить матрицу объекты-признаки  
Преобразование числовых признаков  
Извлечение числовых признаков из сырых данных  


###  Предобработка данных 
Данные могут быть грязными:
- выбросы
- шумы в признаках
- пропущенные значения

Помнить: мусор на входе - мусор на выходе


### Построение алгоритма
Основные семейства в задачах обучения с учителем:
- линейные модели
- композиции деревьев (градаентны бустинг, случайный лес)
- нейронные сети 

Может помочь:
- отбор признаков
- понижение размерности


### Оценивание качества
Оценка качества алгоритма и настройка гиперпараметров:
- отложенная выборка
- кросс-валидация
- разбивание данных на блоки







# Работа с числовыми признаками

### Числовые признаки
Готовы к использованию, но их можно улучшить. Например, получая новый признак из страых с помощью линейной комбинации


### Масштабирование признаков
- среднее и стандартное отклонение: $\tilde{x}^j=\frac{x^j-\mu}{\sigma}$
- нормировка на отрезок (0,1]: $\tilde{x}^j=\frac{x^j-min(x^j)}{max(x^j)-min(x^j)}$


### Трансформация признаков
Качество выше, если распределение близко к нормальному  
Пример, логарифмирование неотрицательных признаков $\tilde{x}^j=log(x^j+1)$ 


# Работа с категориальными и текстовыми признаками

### Категориальные признаки
Dummy-кодирование:
- признак $x^j$ принимает значения из множества $U=\{u_1,...,u_m\}$
- создание новых признаков-индикаторов $x^{j1},...,x^{jm}$: $x^{jk}=[x^k=u_k]$

Проблема: уникалные категории (алгоритму трудно подобрать зависимость)
Решение: объединить редкие категории в одну $\sum_{i=1}^l[x^j_i=u]<r$

При большом количестве уникальных значений для признаков возникнет проблема обучения алгоритма


### Счетчики
Пример применения:
- задача классификации $Y=\{0,1\}$
- оценка вероятности первого класса при уловии значения признака: $c(u_k)=p(y=1|x^j=u_k)=\frac{\sum_{i=1}^l [x^j_i=u_k][y_i=1]}{\sum_{i=1}^l [x^j_i=u_k]}$
- заменяем категориалный признак $x^j$ на числовой $\tilde{x}^j$: $\tilde{x}^j_i=c(x_i^j)$
- для борьбы с переобучением можно вычислять счетчики с помощью-кросс валидации 
     - выборка разбивается на k-частей
     - для i-й части используются оценки вероятностей, полученные по остальным частям
     - для контрольной выборки используются оценки, полученные по всей обучающей выборке


### Текстовые признаки
Значение признака $x^j$ - последовательность слов $(w_1, w_2,...)$

Мешок слов:
- выводы о тексте можно делать даже по перемешанным словам
- слова из текста принадлежат словарю $W=\{w_1,...,w_m\}$
- Создадим m новых признаков-индикаторов: $x^{j_1},...,x^{j_m}$: $x^{jk}=n_{w_k}$, $n_{w_k}$ - число вхождения слова $w_k$ в документ
- аналог Dummy-кодирования, но теперь несколько признаков могут быть больше нуля


### TF-IDF
Вычислять не количество вхождений слов, а оценки их важности для текста
- чем чаще слово встречается в документе, тем оно важнее
- чем реже слово встречается в остальных документах, тем оно важнее

$n_{iw}$ (term frequency) - число вхождения слова w в текст $x^j_i$
$N_w$ (document frequency) - число текстов, содержащих w

Важность слова w для документа $x^j_i$: $TF-IDF(i, w)=n_{dw}*log(\frac{l}{N_w})$, TF(i, d)=$n_{dw}$ - term frequency, IDF(w)= $log(\frac{l}{N_w})$ - document frequency


### N-граммы
Часто важны не только слова, но и словосочетания

N-граммы:
- добавим в словарь W все возможные пары слов
- добавим признаки-индикаторы для пар слов: $x_i^{jks}=[(w_k, w_s)\in x_i^j]$
- многие пары не встретились ни разу - выбрасываем

# Предобработка данных

### Фильтрация выбросов
Статистики:
- первая квартиль $Q_1:\ \frac{1}{l}\sum_{i=1}^l[x_i\leq Q_1]=0.25$
- третья квартиль $Q_3:\ \frac{1}{l}\sum_{i=1}^l[x_i\leq Q_3]=0.75$
- интерквартильный размах: $IQR=Q_3-Q1$

Эвристика: выбросы лежат за пределами отрезка $[Q_1-1.5IQR,Q_3+1.5IQR]$


### Пропуски в числовых признаках
Пропуски в числовых признаках:
- замена на среднее
- замена на медиану

Пропуски в категориальных признаках:
- замена на самое популярное значение
- замена на новое значение
- случайный выбор из распределения значений


# Оценивание качества

### Проверка качества алгоритма
- обучающая выборка (алгоритм настроен на этих данных, при переобучении качество будет хорошим при отсутствии обобщающей способности)
- по отложенной выборке
- с помщью кросс-валидации


### Отложенная выборка
Выборка разбивается на обучающую и валидационную

Особенности:
- если обучающая выборка маленькая, то оценка качества будет слишком пессимистичной
- если валидационная выборка маленькая, то оценка будет неточной
- 70/30

Проблемы:
- результат сильно зависит от разбиения - каждый объект участвует или только в обучении, или только в валидации
- если сравнивать много моделей, то есть риск подгонки под конкретную валидационную выборку


### Кросс-валидация
Выборка разбивается на k частей. Каждая по очереди выступает как валидацинная

Выбор количества частей для разбиения:
- небольшие k - пессимистичные, но точные
- большие k - несмещенныес большой дисперсией
- k=5 или 10

Проблема:
- нужно обучать k алгоритмов


### Разбивание выборки
Методы предполагают, что все объекты принадлежат одному распределению и независимы


### Отбор признаков
- выбирается обучающая и тестовая выборки в кросс-валидации
- находятся оптимальные признаки по обучающей выборке
- проверяется качество на тестовой выборке


# Отбор алгоритмов

### Линейные методы
- регрессия $Y=\mathbb{R}$ - линейная регрессия: $a(x)=\langle w, x \rangle,\ Q(w)=\sum_{i=1}^l(\langle w, x \rangle-y_i)^2 \to min_w$
- классификация Y={-1,+1} - логистическая регресия: $a(x)=sign\langle w, x \rangle,\ Q(w)=\sum_{i=1}^llog(exp(-y_i\langle w, x \rangle))\to min_w$


Регуляризация для штрафов за переусложнение модели:
- $Q(w)+\sum_{j=1}^d w_j^2\to min_w$
- $Q(w)+\sum_{j=1}^d |w_j|\to min_w$

Преимущества:
- мало параметров, быстро обучаются
- могут настраиваться стохастическим градиентым спуском, не требуют хранения выборки в памяти
- инерпретируемые
- хорошо подходят для задач с малым числом объектов и большим числом признаков
- хорошоо подходят для разреженных данных

Недостатки:
- низкая выразительность
- требуют предобработки данных


### Случайные леса
Средний прогноз решающих деревьев: $a(x)=\frac{1}{N}\sum_{n=1}^Nb_n(x)$

Обучение:
- деревья строятся незавмисимо
- каждое дерево обучается по подвыборке объектов
- лучший признак для разбиния в верщине выбирается из подмножества признаков
- дерево строится до тех пор, пока в каждом листе не окажется по одному объекту
- отдельные деревья крайне переобучены, усреднение прогнозов устраняет проблему

Преимущества:
- сильный алгоритм, способен восстанавливать сложные зависимости
- не требует масштабирования признаков
- устойчив к шумам в признаках
- легко распараллелить: каждое дерево обучается независимо
- очень мало гиперпараметров
- нет переобучения при увеличении числа деревьев

Недостатки:
- могут долго обучаться из-за большой глубины
- из-за большого размера долго строится предсказание
- трудно настраивать на сложные меры качества
- плохо подходит для разреженных данных


### Градиентный бустинг над деревьями
Сумма прогнозов решающих деревьев: $a(x)=\sum_{n=1}^N\alpha_nb_n(x)$

Обучение:
- деревья строятся последовательно
- деревья ограничиваются по глубине
- каждое следующее дерево приближает градиент ошибки построенной композици

Преимущества:
- сильный алгоритм, способен восстанавливать сложные зависимости
- не требует масштабирования признаков
- устойчив к шумам в признаках
- может настраиваться на любую дифференцируемую меру качества
- настраивается быстрее случайного леса

Недостатки:
- может переобучаться
- необходимо подбирать число деревьев
- плохо подходит для разреженных данных
