# Поговорим о типах данных!

> 🚀 В этой практике нам понадобятся: `numpy==1.21.2, pandas==1.5.0, scikit-learn==0.24.2, seaborn==0.11.2` 

> 🚀 Установить вы их можете с помощью команды: `%pip install numpy==1.21.2 pandas==1.5.0 scikit-learn==0.24.2 seaborn==0.11.2` 


## Содержание

* [Типы данных](#Типы-данных)
  * [Числовая](#Числовая)
  * [Категориальная](#Категориальная)
  * [Категориальная - бинарная](#Категориальная---бинарная)
  * [Категориальная - номинальная](#Категориальная---номинальная)
  * [Категориальная - последовательная](#Категориальная---последовательная)
  * [Даты-время](#Даты-время)
  * [Текстовые](#Текстовые)
  * [Отсутствие данных](#Отсутствие-данных)
* [Заполнение пропусков](#Заполнение-пропусков)
* [Числовые переменные](#Числовые-переменные)
* [Категориальные переменные](#Категориальные-переменные)
  * [Категориальные номинальные переменные](#Категориальные-номинальные-переменные)
  * [Категориальные последовательные переменные](#Категориальные-последовательные-переменные)
* [Даты](#Даты)
* [Вывод](#Вывод)
* [Задание](#Задание)
* [Вопросы для закрепления](#Вопросы-для-закрепления)


Вот и подошла к концу первая часть курса, которая была нацелена на то, чтобы познакомить вас с азами машинного обучения! Вы её прошли и хотите ещё нового и интересного? Есть у меня для вас!

Например, сегодня, мы заострим внимание на типах данных в табличных датасетах.

Мы не будем говорить о таких вариациях, как изображения, аудио-записи, ренген снимки, большие статьи и т.д. Это тоже свои отдельные типы данных, так как они содержат в себе информацию. Но мы поговорим о базовых типах, которые хранятся в таблицах!

Итак, поехали!

In [None]:
# Настройки для визуализации
# Если используется темная тема - лучше текст сделать белым
import matplotlib
import numpy as np
import pandas as pd
import random
import seaborn as sns
TEXT_COLOR = 'black'

matplotlib.rcParams['figure.figsize'] = (15, 10)
matplotlib.rcParams['text.color'] = TEXT_COLOR
matplotlib.rcParams['font.size'] = 14
matplotlib.rcParams['lines.markersize'] = 15
matplotlib.rcParams['axes.labelcolor'] = TEXT_COLOR
matplotlib.rcParams['xtick.color'] = TEXT_COLOR
matplotlib.rcParams['ytick.color'] = TEXT_COLOR

sns.set_style('darkgrid')

# Зафиксируем состояние случайных чисел
RANDOM_SEED = 42
np.random.seed(RANDOM_SEED)
random.seed(RANDOM_SEED)

## Типы данных

Если посмотреть на те данные, которые нам довелось пощупать, то мы видели числовые переменные (вещественные и целочисленные) и строковые (названия классов). 

Это, практически, все виды данных, которые можно найти в подобных датасетах. 

Остаётся добавить типы "Дата" и "Отсутсвие данных" и на этом можно составить весь список видов данных:
- Числовые - вещественные и целочисленные
- Строковые - короткие строки и длинные тексты
- Даты
- Отсутствие данных - NaN (Not a Number), NaD (Not a Date), NaT (Not a Time)

Но такое разделение вызывает сложности, так как строковые данные могут быть как короткие, так и длинные и в результате обычно делают классификацию типов данных по тому, как с ними работать и что они означают:
- Числовые переменные - вещественные и целочисленные
- Категориальные переменные - несколько уникальных значений
    - Бинарные (дихотомические) - два уникальных значения
    - Номинальные - не имеют внутренней упорядоченности
    - Последовательные - уникальные значения имеют порядок
- Даты - переменная содержит даты в качестве значений
- Текстовые - обычно строковые значения и не повторяются
- Отсутствие данных - пропущенные значения

Вот такая классификация позволит нам пройтись и разобрать по каждому типу то, как надо с каждым работать и обрабатывать! Давайте кратко пройдемся по примерам

### Числовая

Обычно такие переменные сразу представлены числами. 

Это может быть характеристика длины стебля, время на обработку запроса или для целочисленного примера - возраст.

### Категориальная

Вот этот тип может быть представлен как числом (обычно целочисленным), так и строкой (обычно небольшой, но не обязательно однословной). 

Главная суть в повторении, так как, если переменная содержит только уникальные значения, то это трудно назвать категориальнйо переменной. Часто её связывают с признаками, при сборе данных которых, есть выбор из фиксированного набора вариантов.

### Категориальная - бинарная

Тут всё просто - да/нет, красный/зеленый (вроде не противоположности, но в данных всего два значения в переменной), 0/1, делает зарядку по утрам или нет и т.д.

### Категориальная - номинальная

Важной характеристикой этого типа является отсутствие последовательности в уникальных значениях. Например, города: Москва, СПб, Самара, Казань и т.д. Можно, конечно, привязать последовательность, учитывать население, но это уже специальное насаждение смысла на переменную, что не во всех ситуациях применимо, но допустимо.

### Категориальная - последовательная

Вот тут уже уникальные категории имеют порядок. Например, "плохо", "средне", "хорошо", "отлично". Тут явно выделяется порядок в оценке. В этом главное отличие от номинальной.

### Даты-время

Ну, это всякие разные форматы представления дат (может и со временем): 24.01.2011, 01-24-2011, 2011-01-24 и т.д. Вообще, можно сказать, что всё вертится вокруг формата [Unix timestamp](https://www.unixtimestamp.com/) как наиболее универсального офрмата представления времени и даты. Вообще, стоит обратить внимание на стандарт [ISO 8601](https://ru.wikipedia.org/wiki/ISO_8601), который как раз описывает разные форматы представления дат и времени.

### Текстовые

Это строчные значения, которые обычно не повторяются. Например, заявки пользователей, комментарии, жалобы, пожелания и т.д. Часто это связано с открытым вводом пользователей.

На самом деле, в ходе обработки, текстовые данные могут превратиться в категорильные, например, в каждом значении текстовой переменной говорится то о Москве (треть примеров), то о СПб (другая треть), то о Казани (последняя треть). Мы может вытащить название города и получить новую переменную, которая по сути будет иметь всего три уникальных значения на весь датасет, а значит больше похоже на категориальную!

### Отсутствие данных

Ну, это просто пропущенные значения. Может быть много разных причин, почему значения пропущены - анонимизация датасета, необязательные поля и т.д. Главное, как и с пониманием данных, если вы знаете, почему случились пропуски - это может помочь в их заполнении!

Отлично, прошлись быстренько по основам и примерам, а теперь давайте по каждому разберемся, какие типы как лучше или **нужно** обрабатывать!

Вы ведь помните, что модели ML не умеют работать со строками? Вот, например, с категориальными переменными и датами придется сделать обязательную обработку. Тексты мы будем разбирать в другой практике, так как для них нужно намного больше времени и внимания.

## Заполнение пропусков

В ходе разбора каждой переменной мы разберём в том числе и заполнение пропусков, так как оно часто зависит от типа переменной.

В целом, можно выделить и независимые стратегии обработки пропусков:
- Удаление переменной (столбца)
- Удаление примера (строки)

**Принятие решения об удалении как примера, так и признака должно приниматься взвешенно, так как это потеря данных!**

Обоснованным решением можно считать удаление признака, если в нём слишком много пропусков - неинформативный признак, сравнимо с равномерным распределением признака или единственным уникальным значением признака (в столбце одно и то же значение).

Для строки весомым решением на удаление будет: если присутствует слишком большое количество пропусков -  можно приравнять к выбросу в данных.

Пару других методов мы рассмотрим при анализе переменных, но важно понимать, что этот список будет не исчерпывающий, поэтому не бойтесь самостоятельно искать новые методы - может в вашей ситуации с данными они помогут лучше рассмотренных!

[Содержание](#conten)

## Числовые переменные

С этим типом переменной мы работаем уже очень давно, нас им уже не напугаешь! 

Обычно предобработка переменной опциональная, например, масштабирование, которое критично для линейных моделей, но менее важно для лесов и алгоритмов на основе бустинга (ещё рассмотрим). Таким образом, можно выделить предобработку масштабированием.

Другим вариантом предобработки является дискретизация вещественной переменной. Давайте посмотрим:

In [None]:
numeric_variable = np.random.RandomState(RANDOM_SEED).rand(1000)*3
numeric_variable = np.exp(numeric_variable)+5
df_data = pd.DataFrame({'num_var': numeric_variable})

df_data.head(10)

In [None]:
sns.displot(df_data['num_var'], height=8)

Смотрите, у нас есть числовая переменная, но она сильно смещена. 

Один из способов предобработки - превратить переменную в дискретную, то есть превратить численную переменную в набор диапазонов, распределение которых будет более ровным. 

Попробуем:

In [None]:
from sklearn.preprocessing import KBinsDiscretizer

bins_discr = KBinsDiscretizer(n_bins=3, encode='ordinal')

disretized_variable = bins_discr.fit_transform(df_data)

disretized_variable[:10]

In [None]:
# Отобразим границы бинов (бина 3, границ 3+1=4)
bins_discr.bin_edges_

In [None]:
# Посмотрим на распределение
sns.histplot(disretized_variable)

Как видим, после дискретизации переменная превратилась в категориальную переменную (целочисленную) с равным распределением. Это может помочь в обучении модели.

Таким образом, предобработка численной переменной может быть разнообразной, но всё нацелено на улучшение понимания моделью данных. Что является необходимым в обработке численных переменных - заполнение пропусков, так как как и со строками, с пропусками модель работать не умеет.

Наиболее распространёнными методами заполнения пропусков числовых переменных являются:
- Заполнение средним
- Заполнение константой (обычно, сильно привязано к бизнесс-задаче)
- Заполнение медианным значением

Для этого sklearn реализует простой класс для заполнения со всеми перечисленными вариантами [SimpleImputer](https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html):

In [None]:
# Добавим пропусков в данные
df_data_nans = df_data.copy()

df_data_nans.iloc[[2, 8, 15, 20, 60, 100]] = np.nan

df_data_nans.isna().sum()

In [None]:
df_data_nans.head(10)

In [None]:
sns.displot(df_data_nans)

In [None]:
from sklearn.impute import SimpleImputer

imputer = SimpleImputer(strategy='mean')

imputer.fit(df_data_nans)
imputer.statistics_

Как видно, на основе выбранной стратегии рассчитывается показатель, а затем он заполняется в данных:

In [None]:
data_filled_na = df_data_nans.copy()

data_filled_na['num_var_filled'] = imputer.transform(df_data_nans[['num_var']])

data_filled_na.head(10)

Значение подставилось прямиком в места, где ранее были NaN. Сработало! 

Давайте глянем на распределение:

In [None]:
sns.displot(data_filled_na)

В середине бин подрос, значений этого бина стало больше. 

Указанные стратегии заполнения работают, если пропущенных не так много, так как при их большом количестве, результат может иметь сильно искажённое распределение и слишком большое количество будет иметь одно и то же значение.

Отлично! Мы научились ещё одному методу предобработки численных переменных и заполнению пропущенных значений в них!

Теперь нас ничто не может остановить, так как это основные необходимые вещи, которые нужны, чтобы построить baseline можель на любых данных! Круто!

## Категориальные переменные

Вот тут начинается самое интересное! 

В некоторых случаях вам повезёт и у вас уже будут категориальные переменные в виде чисел (скорее всего целочисленных) и без пропусков! 

Но не спешите пропускать эту главу. В худшем случае категории будут представлены строками и иметь пропуски. Вот тогда вы и вспомните, чему мы тут сейчас научимся! 

По сути, что строковое представление, что пропуски - не позволяют обучать модель, поэтому с этим в любом случае надо что-то делать!

Начнём с предобработки. Основной и самой необходимой является кодирование категорий. 

В этом нам поможет mapping из строк в числа. Например, мы имеем такие данные:

In [None]:
categorical_variable = np.random.RandomState(RANDOM_SEED).choice(["Red", "Blue", "Black", "White"], size=(100,), replace=True)
df_data = pd.DataFrame({'cat_var': categorical_variable})

df_data.head(10)

In [None]:
df_data.info()

In [None]:
# Первое, что важно сделать в работе с категориями - привести к правильному типу
df_data['cat_var'] = df_data['cat_var'].astype('category')

df_data.info()

In [None]:
# Тогда в pandas появляются полезные оптимизации в работе с mapping и возможность быстро посмотреть категории
df_data.cat_var.cat.categories

In [None]:
# Допустим, что можно сделать так
df_data_enc = df_data.copy()
df_data_enc['cat_var_enc'] = df_data['cat_var'].map({
    "White": 0, "Black": 1, "Red": 2, "Blue": 3
})

df_data_enc.head(10)

Да, можно вот так закодировать и получить числа вместо строк! Вроде всё хорошо, но есть две прблемы:
- Нужно вручную прописывать все категории, а что если их по 50?
- Если White ~ 0, Blue ~ 3, Red ~ 2, значит, Red ближе к Blue, чем к White?

Если с первой проблемой можно побороться, написав автоматизацию формирования такого мапирования, то вторая проблема - смысловая.

Модель может выявить эту зависимость и заложиться на неё, хотя у нас и в мыслях не было давать ей такие факты. Мы просто хотели преобразовать строки в числа! Не виноватая я! (с)

Значит, что не любые средства хороши - нам нужно выбирать в зависимости от типа категориальной переменной.

Мы сразу пропустим бинарную, так как два значения достаточно преобразоватьв 0-1 значения и этого хватает - давайте лучше разберёмся с номинальными и последовательными!

### Категориальные номинальные переменные

Пример с цветами нам уже показывает пример того, как выглядят номинальные данные и почему нельзя просто закодировать какими-то числами категории.

Тогда что же нам делать? 

А что, если мы для каждой категории создадим свою переменную, который будет просто индикатором (0 или 1), который отвечает на вопрос "Является ли пример этой категорией?"

То есть, мы из таких данных

In [None]:
df_data.head(10)

Попробуем сделать матрицу с четыремя колонками, каждая из которых будет индикатором каждого цвета. Первая колонка - "является ли пример цветом Black?". Вторая - для Blue и т.д.

Для этого нам поможет [OneHotEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OneHotEncoder.html):

In [None]:
from sklearn.preprocessing import OneHotEncoder

nom_enc = OneHotEncoder(sparse=False)

categorical_columns = ['cat_var']

encoded_data = nom_enc.fit_transform(df_data[categorical_columns])

encoded_df = pd.DataFrame(encoded_data.astype(int), columns=nom_enc.get_feature_names(categorical_columns))
encoded_df['cat_var'] = df_data['cat_var']
encoded_df.head()

Что нам даёт такое кодирование? 

Независимость категорий между собой! Как и задумано в номинальной категориальной переменной!

> 🔥 Обратите внимание, `categorical_columns` - это переменная, которая хранит список имён признаков, которые содержат номинальные категориальные переменные. Это нужно, чтобы в реальном датасете не передать на кодирование все колонки, в том числе и числовые, и с датами.

Вот так несложно, но с очень важным смыслом мы смогли превратить строковые категории в числа, что уже позволяет обучать модель!

> 🔥 `sparse=False` здесь задан специально для примера, в реальной работе может быть много категорий и матрица получится очень **разряженной**. Sparse представление матрицы позволяет неплохо сэкономить память!

### Категориальные последовательные переменные

Ну, а с последовательными то мы можем кодировать числами??

Конечно! Здесь нет ограничения на независимость, но есть важность последовательности, поэтому в [OrdinalEncoder](https://scikit-learn.org/stable/modules/generated/sklearn.preprocessing.OrdinalEncoder.html) важно передать список категорий в той последовательности, в которой они должны стоять!

In [None]:
categorical_variable = np.random.RandomState(RANDOM_SEED).choice(["Bad", "Good", "Nice", "Very well"], size=(100,), replace=True)
df_data = pd.DataFrame({'cat_var': categorical_variable})
df_data['cat_var'] = df_data['cat_var'].astype('category')

df_data.head(10)

In [None]:
from sklearn.preprocessing import OrdinalEncoder

seq_enc = OrdinalEncoder(categories=[["Bad", "Good", "Nice", "Very well"]])

categorical_columns = ['cat_var']

encoded_data = seq_enc.fit_transform(df_data[categorical_columns])

encoded_df = pd.DataFrame(encoded_data.astype(int), columns=['cat_var_enc'])
encoded_df['cat_var'] = df_data['cat_var']
encoded_df.head(10)

Прекрасно! Вот так легко и изящно мы научились кодировать категориальные переменные любого типа!

Важно не забывать, ради чего всё это делается и тогда становится понятно, какие подходы лучше использовать в той или иной ситуации! Мы же стараемся подготовить данные для модели, чтобы она лучше поняла данные, а не запутать её!

Пополнив арсенал, важно не забывать, что есть ещё одна беда - пропуски в категориях. И при этом у нас нет в категориях ни медиан, ни средних!

> Если по секрету, то OHEncoder не терпит пропусков, поэтому важно сначала обработать пропуски, а затем только кодировать.

Что же нам делать с категориями, если нам нужно заполнить пропуски? Всё очень просто, top-value подход!

Заключается он в том, что мы берём самую частую категорию и её подставляем на место пропусков.

Посмотрим, как это выглядит:

In [None]:
df_data_nans = df_data.copy()

na_idxs = [2, 6, 65, 12, 55, 33, 98, 16]

df_data_nans.iloc[na_idxs] = np.nan
df_data_nans.isna().sum()

In [None]:
df_data_nans.head(10)

In [None]:
sns.countplot(data=df_data_nans, x='cat_var')

Вот мы видим распределение, а теперь остаётся выбрать правильную стратегию у [SimpleImputer](https://scikit-learn.org/stable/modules/generated/sklearn.impute.SimpleImputer.html):

In [None]:
imputer = SimpleImputer(strategy='most_frequent')

imputer.fit(df_data_nans)
imputer.statistics_

Видите, Imputer вычислил наиболее частую категорию, а теперь просто подставит вместо NaN:

In [None]:
df_data_filled = df_data_nans.copy()

df_data_filled['cat_var_filled'] = imputer.transform(df_data_filled[['cat_var']])

df_data_filled.head(10)

Вот такие несложные хитрости помогут вам легко и изящно предобработать ваши данные так, чтобы появилась возможность обучать модели машинного обучения!

> ⚠️ Напоминаем, что выбор стратегии заполнения должен быть хорошо продуман, так как слишком большое количество заполненных полей может исказить зависимости в данных!

> 🤓 Если на этом этапе вам кажется, что это всё слишком просто, то можете попробовать [мульвариантный](https://scikit-learn.org/stable/modules/impute.html#multivariate-feature-imputation) способ заполнения, который заключается в обучении отдельной модели, которая по другим признакам заполняет недостающие!

## Даты

Данный тип данных достаточно распространён в датасетах, но мы не будем заострять на нём внимание, так как для его описания различных подходов обработки может потребоваться отдельный день =)

Важным аспектом является то, что сырые даты ML модели не могут съесть, поэтому часто стратегия подготовки включает вытаскивание различной информации из дат:
- Номер дня в неделе
- Номер дня в месяце (абсолютный и относительный - так как месяца имеют разное кол-во дней)
- Номер месяца в году
- Прошедшее число лет от определённой даты
- (Если даты две) разница между признаками - длительность события

В плане пропусков может помочь стратегия перевода дат в Unix timestamp, в котором даты представляют собой числовые значения.

## Вывод

Сегодня мы с вами проделали огромную работу! 

Мы научились правильно обрабатывать различные типы переменных и заполнять пропуски! Это очень важный инструмент, так как качество данных (пропуски - один из факторов) часто бывает достаточно низким, поэтому важно уметь правильно обработать и подготовить данные для модели!

## Задание

Вы думали, вы останетесь без задания? Ну что же так!

Вот [датасет заработка взрослых людей](https://archive-beta.ics.uci.edu/ml/datasets/2) (или [Kaggle версия](https://www.kaggle.com/wenruliu/adult-income-dataset)). Попробуйте проанализировать и подготовить данные, а затем, чтобы точно убедиться, что навыки закреплены - обучите модель и посмотрите, что можно улучшить! Успехов!

> 🤓 Проверьте, насколько лучше работает модель, если категории в категориальных колонках, которых очень мало, объединить под одну Other.

## Вопросы для закрепления

А теперь пара вопросов, чтобы закрепить материал!

1. Зачем нужно заполнять пропуски в данных?
2. Зачем нужно кодирование строковых переменных?
3. *Для чего существует стратегия добавления индикационной колонки перед заполнением NaN, которая содержит бинарный флаг "был Nan или нет до заполнения"?
4. *Подумайте и предложите способ заполнения пропусков как в числовых, так и в категориальных признаках, который базируется не на вычислении одного числа, а на sampling подходе. Попробуйте использовать распределения признаков.