# Визуализация данных

Визуализация данных - первый шаг в решении практически любой задачи анализа данных, в частности, при участии в соревновании. Визуализация помогает решить, какую предобработку данных нужно провести, какие методы лучше использовать для предсказания, какие признаки добавить. В этом Peer Review мы будем работать с данными [kaggle-соревнования](https://www.kaggle.com/c/prudential-life-insurance-assessment), завершившегося зимой 2016 года.

__Задача соревнования:__ по характеристикам человека и его заявки на медицинскую страховку предсказать степень риска, характерную для данной страховки.

__Что предстоит сделать:__
* рассматривать данные;
* пробовать разные методы визуализации;
* анализировать графики и пытаться сделать выводы, полезные для следующих этапов решения задачи.

Целевой признак (степень риска) в задаче номинальный: целые числа от 1 до 8, а метрика качества, предложенная организаторами соревнования, оценивает степень согласованности двух рейтингов. Поэтому задачу можно решать и методами классификации, и методами регрессии (в последнем случае придется округлять предсказания). Это стоит учитывать при анализе результатов визуализации.

Мы будем визуализировать только обучающую выборку. Часто при решении конкурсов полезно визуализировать также тестовую выборку (на которой нужно сделать предсказание), чтобы убедиться, что данные идентичны.

Визуализацию в python часто делают с помощью библиотеки seaborn. Установить ее можно командой pip install seaborn. Если вы по каким-то причинам не можете установить библиотеку, вам придется строить некоторые графики самостоятельно или использовать их аналоги в pyplot. Pandas также использует seaborn, чтобы строить графики.

In [2]:
import numpy as np
import pandas
from matplotlib import pyplot as plt
import seaborn as sns
%matplotlib inline

Считываем данные:

In [3]:
data = pandas.read_csv("train.csv", na_values="NaN")

In [4]:
data.head()

In [5]:
real_features = ["Product_Info_4", "Ins_Age", "Ht", "Wt", "BMI", "Employment_Info_1", "Employment_Info_4", "Employment_Info_6",
                 "Insurance_History_5", "Family_Hist_2", "Family_Hist_3", "Family_Hist_4", "Family_Hist_5"]
discrete_features = ["Medical_History_1", "Medical_History_10", "Medical_History_15", "Medical_History_24", "Medical_History_32"]
cat_features = data.columns.drop(real_features).drop(discrete_features).drop(["Id", "Response"]).tolist()

### Первичный анализ

Сначала рассмотрим числовые признаки, затем - категориальные.

##### Выведем статистики вещественных и целочисленных признаков:

In [6]:
print(data.shape)
print("half:", data.shape[0]/2)
data[real_features].isna().sum()

In [7]:
data[discrete_features].isna().sum()

In [8]:
print("Min (real)\n", data[real_features].min())
print("\nMax (real)\n", data[real_features].max())
print("\nMin (discrete)\n", data[discrete_features].min())
print("\nMax (discrete)\n", data[discrete_features].max())

__Ответьте на вопросы:__
* Есть ли пропуски в данных? Перечислите вещественные и целочисленные признаки, которые известны для всех объектов.
   * Ответ: пропуски есть. Признаки в которых нет пропусков: Product_Info_4, Ins_Age, Ht, Wt, BMI
* Перечислите вещественные и целочисленные признаки, значение которых известно менее, чем для половины объектов.
   * Ответ: Medical_History_10, Medical_History_15, Medical_History_24, Medical_History_32
* Одинаков ли масштаб вещественных признаков? Масштаб целочисленных признаков?
    * Ответ: Масштабы что у вещественных признаков, что у целочисленных одинаков

$^*$ Будем считать, что масштаб двух признаков одинаков, если их минимумы отличаются не более, чем в 2 раза, и аналогично с максимумами.

Мы видим, что в датасете есть признаки, которые не известны почти для всех объектов. Кроме того, легко проверить, что в выборке нет объектов, для которых известны все признаки, даже если рассматривать только вещественные. Значит, при решении задачи нужно было бы использовать более сложные методы обработки пропусков, чем удаление объектов.

##### Постройте гистограммы вещественных и целочисленных признаков.
Вместо того, чтобы в цикле по признакам строить отдельно каждую гистограмму, стоит воспользоваться методом hist датафрейма. Рекомендуется отдельно вывести гистограммы вещественных и целочисленных признаков. Установите размер изображения (20, 20) для первой группы признаков и  (10, 10) для второй, для обеих групп bins=100.

In [9]:
# Код 1. Постройте гистограммы.
data[real_features].hist(bins=100, figsize=(20, 20))
data[discrete_features].hist(bins=100, figsize=(10, 10))

__Ответьте на вопросы:__
* Есть ли константные признаки среди вещественных и целочисленных? Признак является константным, если множество его значений состоит из единственного элемента.
    * Ответ: Нету.
* Предположим, что мы составили выборку, в которую вошли все и только вещественные признаки. Можно ли ее описать многомерным нормальным распределением? $^*$
    * Ответ: Нет, некоторые признаки (например, Product_Info_4) не куполообразны и даже близко несимметричны.
    
$^*$
Плотность многомерного нормального распределения во всех проекциях на отдельные переменные должна быть симметрична, куполообразна, а значит, унимодальна.

Среди вещественных есть признаки с очень большим перекосом в сторону какого-то одного значения (например, Employmennt_Info_4), возможно, их стоило бы прологарифмировать при решении задачи. Кроме того, есть признаки со сложной структурой гистограммы.
Распределения целочисленных признаков (относящихся к группе медицинских) имеют схожую структуру.

В целом данные разнородны, и описать их одним вероятностным распределением непросто.

##### Теперь визуализируем признаки попарно.
Построим scatterplot для пар вещественных признаков. Для этого в seaborn есть функция pairplot. Исключим признаки, распределение которых не похоже на колокол (хотя бы скошенный и неровный), тем самым мы уменьшим размер таблицы пар. На диагоналях таблицы будут стоять оценки распределений признаков (гистограммы или восстановленные плотности, diag_kind="hist" или "kde"). Если указать параметр hue = дискретный целевой признак, то разные его значения будут отображаться разными цветами.

In [10]:
sns.pairplot(data[real_features].drop(["Product_Info_4",
                                       "Employment_Info_1",
                                       "Employment_Info_4",
                                       "Employment_Info_6",
                                       "Insurance_History_5"], axis=1))

Классы накрывают друг друга, и графики не очень информативны. Но они позволяют ответить на некоторые вопросы о взаимоотношениях признаков и соотношений признаков и классов.

__Ответьте на вопросы:__
* Есть ли пары признаков, у которых облака точек разных классов отличаются? Иными словами, есть ли графики, на которых видны облака разных классов, а не только последнего нарисованного?
    * Ответ: Есть, например Family_Hist_5
* Есть ли объекты-выбросы, то есть такие точки, которые стоят далеко от общего облака точек?
    * Ответ: Есть, например в сравнении c признаком Ht

В целом облака точек выглядят достаточно компактно (в неформальном понимании этого слова), их можно приблизить искривленным кругом.

Теперь постройте такие же графики для целочисленных признаков (никакие признаки удалять не нужно, потому что таких признаков и так немного).

In [11]:
sns.pairplot(data[discrete_features])

Графики выглядят еще менее информативно. Заметна тенденция, что пары признаков сконцентрированы либо на сторона квадрата [0, 240] x [0, 240], либо на его диагонали, то есть признаки как-то связаны.

##### Посмотрим на корреляции признаков, чтобы узнать, не нужно ли удалять какие-то признаки перед (гипотетическим) построением модели.

Для визуализации матрицы попарных корреляций удобно использовать функцию seaborn.heatmap, она автоматически подпишет признаки на осях и покажет colorbar. Мы вычисляем корреляции только между вещественными признаками, для целочисленных признаков корреляции вычисляется по другим формулам.

In [12]:
plt.figure(figsize=(10, 5))
sns.heatmap(data[real_features].corr(), cmap="coolwarm", annot=True)

__Ответьте на вопрос__:
* Есть ли пара (несовпадающих) признаков, корреляция между которыми больше 0.9 (можно проверить программно)? Если есть, то выпишите эту пару. Матрица корреляций симметрична, и дважды выписывать одну пару признаков не нужно.
    * Ответ: (Family_Hist_2, Family_Hist_4)

Перейдем к визуализации категориальных признаков.

##### Посчитаем количество значений для каждого признака.
Строим много графиков вручную (а не с помощью готовой функции, как с hist или pairplot). Для этого создаем новую pyplot-фигуру, указываем, сколько графиков на ней будет, задаем размер; параметр sharey говорит не подписывать все оси отдельно, а подписать их только один раз слева; здесь это уместно, потому что масштабы всех счетчиков одни и те же.

В цикле по всем категориальным признакам строим countplot признака с помощью seaborn. Указываем параметр data, какой признак визуализировать, а также передаем ссылку на конкретную ячейку таблицы, в которой нужно изобразить график. Признаков всего 108, поэтому последние две ячейки таблицы графиков размером 11 x 10 останутся пустыми.

In [13]:
n_rows, n_cols = 18, 6
fig, axes = plt.subplots(n_rows, n_cols, figsize=(15, 75) , sharey=True)

for i, col in enumerate(cat_features):
    row, col_idx = divmod(i, n_cols)
    sns.countplot(data=data, x=col, ax=axes[row, col_idx])
    axes[row, col_idx].tick_params(axis='x', rotation=45)

__Ответьте на вопросы (Блок 5)__:
* Есть ли среди категориальных признаков константные?
    * Ответ: Есть
* Есть ли признаки с количеством возможных категорий (число значений признака) больше 5?
    * Ответ: Есть

У нас есть много признаков с сильными перекосами в сторону отдельного признака. Учитывая, что среди категориальных признаков много медицинских показателей, можно предположить, что именно эти признаки сильно влияют на увеличение риска (целевой признак). Проверить это предположение можно, построив такие же countplot с разбивкой каждого значения дополнительно по классам (то есть у нас будет несколько групп столбиков, и в каждой группе их будет 8). Это можно сделать, указав параметр hue в этой функции аналогично тому, как мы это делали выше.

Постройте графики countplot для признаков 'Medical_Keyword_23', 'Medical_Keyword_39', 'Medical_Keyword_45' (признаки выбраны случайно) с разбивкой по классам.

In [14]:
selected_features = ['Medical_Keyword_23', 'Medical_Keyword_39', 'Medical_Keyword_45']
# Код 3. Постройте countplot

fig, axes = plt.subplots(1, 3, figsize=(18, 6), sharey=True)

# Построение countplot с разбивкой по классам (hue)
for i, feature in enumerate(selected_features):
    sns.countplot(data=data, x=feature, hue='Response', ax=axes[i], palette='tab10')
    axes[i].set_title(feature, fontsize=12)
    axes[i].tick_params(axis='x', rotation=45)

# Финальная настройка и отображение
plt.tight_layout()
plt.show()

__Ответьте на вопрос__:
* Наличие каких из этих трех факторов сильно повышает риск? Будем считать, что наличие признака сильно повышает риск, если количество человек, имеющих этот признак (то есть он для них равен 1) и отнесенных к категории риска 8, больше, чем такая же величина для любой другой категории риска.
* Ответ: Medical_Keyword_39, Medical_Keyword_45

##### Наконец, посмотрим на распределение целевого признака, чтобы узнать, сбалансированы ли классы:

In [19]:
plt.figure(figsize=(18, 6))
sns.countplot(data=data, x='Response')

### Визуализация с помощью понижения размерности

Далее можно воспользоваться средствами понижения размерности. Для задачи с дискретным целевым признаком это позволит понять, какие классы хорошо разделяются, а какие - нет.

Такие методы строят матрицу попарных расстояний между объектами, которая в случае, когда объектов много, будет занимать много памяти. Кроме того, отображать много точек на scatter plot (а именно его используют для визуализации результата понижения размерности) неудобно. Поэтому мы перемешаем выборку (и далее будем использовать ее).

In [58]:
from sklearn.utils import shuffle
from sklearn.preprocessing import scale

In [59]:
sdata = shuffle(data, random_state=321)

Методы sklearn не принимают матрицы с пропусками (nan). Чтобы избежать этой проблемы, не будем рассматривать признаки, которые имеют много пропусков (последние четыре в списке вещественных признаков). Кроме того, ограничимся рассмотрением вещественных признаков.

В следующей ячейке отбираем нужные признаки, затем находим объекты, у которых все признаки известны (нет пропусков в выбранных признаках), а затем создаем отдельно матрицу объекты-признаки для работы методов понижения размерности и отдельно вектор правильных ответов на этих объектах: data_subset и response_subset. Кроме того, мы дополнительно стандартизуем нашу маленькую выборку, потому что методы понижения размерности очень чувствительны к разномасштабным данным (это отдельно указано в [туториале](http://scikit-learn.org/stable/modules/manifold.html#multidimensional-scaling) в sklearn)

In [60]:
subset_l  = 1000
selected_features = real_features[:-4]
objects_with_nan = sdata.index[np.any(np.isnan(sdata[selected_features].values), axis=1)]
data_subset = scale(sdata[selected_features].drop(objects_with_nan, axis=0)[:subset_l])
response_subset = sdata["Response"].drop(objects_with_nan, axis=0)[:subset_l]

Будем строить визуализацию методами, разобранными на лекции: t-SNE, U-Map и MDS.

In [61]:
from sklearn.manifold import TSNE
import matplotlib.cm as cm # импортируем цветовые схемы, чтобы рисовать графики.

Методы понижения размерности имеют такой же интерфейс, как классификаторы и регрессоры. Для построения визуализации t-SNE нужно создать объект класса и вызвать его метод fit_transform, который вернет матрицу размера число объектов x новая размерность; по умолчанию новая размерность равна 2. Выполните эти действия и запишите результат работы метода в переменную tsne_representation. Рекомендуем ознакомиться с параметрами метода на [странице документации TSNE](http://scikit-learn.org/stable/modules/generated/sklearn.manifold.TSNE.html#sklearn.manifold.TSNE). <font color="red"> Зафиксируйте случайное приближение random_state=321, чтобы результат визуализации у всех был одинаковый. </font>

In [62]:
# Код 4. Присвойте переменной tsne_representation результат понижения размерности методом tSNE с параметрами по умолчанию

tsne = TSNE(random_state=321)
tsne_representation = tsne.fit_transform(data_subset, response_subset)

Визуализируем полученное представление. Для этого создадим набор цветов по количеству классов, а затем в цикле по классам будем отображать представления точек, относящихся к этому классу. Будем указывать параметр alpha=0.5, чтобы сделать точки полупрозрачными, это лучше в ситуации, когда точки накладываются.

In [84]:
n_classes = len(np.unique(response_subset))
colors = plt.cm.tab10(np.linspace(0, 1, n_classes + 1))

plt.figure(figsize=(10, 6))

for cls in np.unique(response_subset):
    class_points = tsne_representation[response_subset == cls]
    
    plt.scatter(class_points[:, 0], class_points[:, 1], 
                alpha=0.5,
                color=colors[cls],
                label=f'{cls}')

plt.legend()

plt.show()

Теперь сделаем то же с MDS.

In [77]:
from sklearn.manifold import MDS
from sklearn.metrics.pairwise import cosine_distances

In [64]:
# Код 5. Присвойте переменной MDS_transformed результат понижения размерности методом MDS с параметрами по умолчанию
MDS_transformed = MDS(random_state=321).fit_transform(data_subset)

In [85]:
n_classes = len(np.unique(response_subset))
colors = plt.cm.tab10(np.linspace(0, 1, n_classes + 1))

plt.figure(figsize=(10, 6))

for cls in np.unique(response_subset):
    class_points = MDS_transformed[response_subset == cls]
    
    plt.scatter(class_points[:, 0], class_points[:, 1], 
                alpha=0.5,
                color=colors[cls],
                label=f'{cls}')
    
plt.legend()

plt.xlim((-5, 5))
plt.ylim((-5, 5))
plt.show()

Для построения представления можно пробовать разные метрики, их список доступен в [документации scipy](http://docs.scipy.org/doc/scipy-0.14.0/reference/generated/scipy.spatial.distance.pdist.html) (потому что sklearn использует метрики scipy). Вы можете попробовать использовать разные метрики в t-SNE и MDS и смотреть получающиеся визуализации.

В t_SNE метрику можно указать при создании объекта класса TSNE, в MDS это реализуется несколько сложнее. Нужно указать dissimilarity="precomputed", а в fit_transform подать не матрицу объектов, а матрицу попарных расстояний между объектами. Создать ее можно с помощью функции pairwise_distances с параметрами: матрица объектов, метрика.

In [80]:
# Код 6. Присвойте переменной MDS_transformed_cos результат понижения размерности методом MDS с косинусной метрикой
cosine_data_subset = cosine_distances(data_subset)

MDS_transformed_cos = MDS(random_state=321).fit_transform(cosine_data_subset)

In [86]:
n_classes = len(np.unique(response_subset))
colors = plt.cm.tab10(np.linspace(0, 1, n_classes + 1))

plt.figure(figsize=(10, 6))

for cls in np.unique(response_subset):
    class_points = MDS_transformed_cos[response_subset == cls]
    
    plt.scatter(class_points[:, 0], class_points[:, 1], 
                alpha=0.5,
                color=colors[cls],
                label=f'{cls}')
    
plt.legend()

plt.show()

__Ответьте на вопросы:__ Будем нумеровать визуализации от 1 до 3: tSNE, MDS по умолчанию, MDS с косинусной метрикой.
* Есть ли визуализация, на которой классы хорошо разделяются? Классы хорошо разделяются, если между облаками точек разных классов можно проводить границы. Если есть, укажите хотя бы одну такую визуализацию.
    * Ответ: 3
* Есть ли визуализации, по которым видно, что объекты с наименьшим риском (1 и 2) отличаются от объектов с высоким риском (7 и 8)? Будем считать, что объекты классов A и B отличаются, если можно выделить область плоскости, в которой в целом больше точек класса A, и можно выделить область, в которой больше точек класса B. Если есть, укажите хотя бы одну такую визуализацию.
    * Ответ: 1
* Есть ли визуализации, на которым видны отдельно стоящие (от общего облака) точки? Если есть, укажите хотя бы одну такую визуализацию.
    * Ответ: 2

Визуализации разными методами достаточно сильно отличаются, но на каждой можно условно выделить направление, вдоль которого происходит увеличение риска от 1 до 8 (то есть точки постепенно меняют цвет). Если бы это не выполнялось, можно было бы предположить, что задача не решаема.

Теперь то же самое для U-Map

In [128]:
# https://umap-learn.readthedocs.io/en/latest/
import umap.umap_ as umap

model = umap.UMAP(random_state=321)

umap_transformed = model.fit_transform(data_subset)

In [129]:
n_classes = len(np.unique(response_subset))
colors = plt.cm.tab10(np.linspace(0, 1, n_classes + 1))

plt.figure(figsize=(10, 6))

for cls in np.unique(response_subset):
    class_points = umap_transformed[response_subset == cls]

    plt.scatter(class_points[:, 0], class_points[:, 1],
                alpha=0.5,
                color=colors[cls],
                label=f'{cls}')

plt.legend()

plt.show()

### Поиск аномалий

Воспользуемся методами поиска аномалий, рассмотренными в лекции.

##### One class SVM
Для простоты выберем вещественные признаки, которые известны для всех объектов: Product_Info_4, Ins_Age, Ht, Wt, BMI. Оставим только те, которые относятся к человеку, то есть не будем рассматривать Product_Info_4. Получится, что мы отбираем нестандартных по комбинации вес/рост/возраст людей.

In [130]:
from sklearn import svm

In [131]:
person_features = ["Ins_Age", "Ht", "Wt", "BMI"]

Два ключевых параметра OC_SVM - gamma и nu. Первый влияет на то, как хорошо граница будет приближать данные, второй - сколько точек нужно относить к выбросам. Вы можете попробовать разные значения, в том числе, значения по умолчанию, и убедиться, что при них алгоритм работает не очень адекватно. Запустите следующую ячейку, на ее выполнение может понадобиться некоторое время.

In [132]:
svm_ = svm.OneClassSVM(gamma=10, nu=0.01)
svm_.fit(sdata[person_features])

labels = svm_.predict(sdata[person_features])

(labels==1).mean()

У вас должно получиться, что около 98% объектов не признаются выбросами.

Попытаемся визуализировать, какие объекты отнесены к шумовым. Для этого нужно построить scatter-графики для каждой пары признаков в person_features (всего 6 графиков). На каждом графике нужно отдельно отобразить точки с labels==1 и labels==-1.

Создайте pyplot-фигуру с 6 графиками: 2 x 3, укажите размер фигуры (12, 8). Затем в цикле по __парам признаков__ из person_features отобразите scatter-графики точек (сделайте точки с разными labels разных цветов: синие, c="blue", - обычные точки, у которых labels==1, красные, c="red",  - шумовые, у которых labels==-1.) Для построения графика можно пользоваться командой axes[...].scatter(...), вместо ... - ваш код. Функция scatter принимает две вектора одинаковой длины, абсциссы и ординаты точек, и дополнительные параметры, например, цвет c и коэффициент прозрачности точек alpha. Подпишите оси названиями признаков, это можно сделать с помощью команды axes[...].set_xlabel(...) или axes[...].ylabel(...).

In [135]:
# Код 7. Постройте 6 графиков

fig, axes = plt.subplots(2, 3, figsize=(12, 8))

# Список всех пар признаков из person_features
feature_pairs = [(person_features[i], person_features[j]) 
                 for i in range(len(person_features)) 
                 for j in range(i+1, len(person_features))]


for idx, (f1, f2) in enumerate(feature_pairs):
    ax = axes[idx // 3, idx % 3] 
    
    normal_points = sdata[labels == 1]
    outlier_points = sdata[labels == -1]
    
    ax.scatter(normal_points[f1], normal_points[f2], c="blue", alpha=0.5, label="Normal", s=10)
    ax.scatter(outlier_points[f1], outlier_points[f2], c="red", alpha=0.5, label="Outlier", s=10)
    
    ax.set_xlabel(f1)
    ax.set_ylabel(f2)
    
    ax.legend()

# Показываем графики
plt.show()

Вы должны увидеть, что, во-первых, облака синие точки заполняют почти все облако точек, а во-вторых, красные точки находятся на границе или далеко от облака (интуитивно понятно, что это аномальные объекты).

##### Непараметрическое восстановление плотности.
Искать аномалии можно, анализируя непараметрически восстановленную плотность одномерного распределения. Так можно заметить, что какие-то объекты выбиваются из общей тенденции.

В seaborn это удобно делать с помощью метода distplot. Посмотрев на гистограммы в начале ноутбука, выберем для ближайшего рассмотрения признаки BMI, Employment_Info_1, Medical_History_32.

Примените метод distplot к этим трем признакам, указав bins=50. Рекомендуется удалять значения nan с помощью метода датафрейма .dropna().

In [140]:
# Код 8. Восстановите плотности для трех указанных признаков
distplot_features = ['BMI', 'Employment_Info_1', 'Medical_History_32']

for feature in distplot_features:
    sns.displot(sdata[feature].dropna(), bins=50)

На трех графиках видно, что в конце множества значений признака есть скачок, и это явление очень похоже на аномалию.