# Обнаружение аномалий в данных
<font color=darkblue>Рассмотрим набор данных статистики по регионам и обнаружим аномальные месяцы в данных</font>

In [1]:
#import warnings
#warnings.filterwarnings("ignore")

import numpy as np
np.set_printoptions(precision=2, suppress=True)
from sklearn.preprocessing import StandardScaler, MinMaxScaler, LabelEncoder
from sklearn.neighbors import LocalOutlierFactor
from sklearn.decomposition import PCA
from sklearn.manifold import TSNE

from IPython.html import widgets
from IPython.display import display, clear_output, HTML
from ipywidgets import HBox, VBox, Layout, Output

import mpld3
import matplotlib.pyplot as plt
%matplotlib inline



<font color=darkblue>Загрузка данных</font>

In [2]:
import pandas as pd
pd.options.display.float_format = '{:.2f}'.format
df = pd.read_csv(u'../data/sberbank.csv')
df.describe()

Unnamed: 0,В среднем депозитов в руб. на человека,В среднем руб. на текущем счете на человека,Количество заявок на ипотечные кредиты,Количество заявок на потребительские кредиты,Количество новых депозитов,Средние расходы по картам,Средние траты в ресторане,Средние траты в ресторане фастфуд,Средний чек в формате Ресторан,Средний чек в формате Фастфуд,Средняя зарплата,Средняя пенсия,Средняя сумма заявки на ипотечный кредит,Средняя сумма заявки на потребительский кредит,Средняя сумма нового депозита
count,4452.0,4452.0,5459.0,5460.0,4452.0,4452.0,3444.0,3444.0,3444.0,3444.0,3444.0,4452.0,5459.0,5460.0,4452.0
mean,390008.71,19895.5,2346.24,20427.1,46512.28,8544.97,1548.04,922.69,589.73,340.93,28250.19,14024.36,1512325.01,224534.39,282162.04
std,230240.7,10547.91,11162.33,95041.21,224030.21,4164.34,448.34,223.32,189.02,60.98,12922.41,4002.18,463815.18,69153.2,174739.3
min,163332.0,5081.0,1.0,1.0,148.0,2334.0,715.0,482.0,239.0,199.0,7726.0,1440.0,300000.0,116468.0,77830.0
25%,272306.75,13615.75,352.0,4107.25,6806.0,5573.0,1244.75,760.0,455.0,301.0,20470.5,11817.0,1197482.5,180213.5,197419.75
50%,331575.5,16882.0,744.0,7727.5,16387.5,7615.0,1462.0,881.0,560.0,332.0,24308.5,13284.5,1379216.0,205114.0,244455.5
75%,417426.25,21563.0,1491.0,13909.0,30262.0,10386.0,1744.0,1042.0,691.0,372.0,31560.0,15466.75,1661994.5,243138.25,318988.0
max,2093545.0,87331.0,170936.0,1249665.0,4732173.0,28101.0,3484.0,2190.0,1594.0,624.0,121765.0,43521.0,4600000.0,875000.0,6631650.0


<font color=darkblue>Сформируем переменные признаков и метки регионов и дат. Даты и регионы будем использовать для подсветки значений</font>

In [3]:
features = df.columns.values.tolist()
features.remove("date")
features.remove("region")
regions = sorted(df["region"].value_counts().index.tolist())
dates = sorted(df["date"].value_counts().index.tolist())

<font color=darkblue>Сформируем строку подпись для точек</font>

In [4]:
region_dates = ["{0}, {1}".format(x, y) for x, y in zip(df["region"], df["date"])]
region_dates[:5]

['Алтайский край, 2013-01-15',
 'Амурская область, 2013-01-15',
 'Архангельская область, 2013-01-15',
 'Астраханская область, 2013-01-15',
 'Белгородская область, 2013-01-15']

<font color=darkblue>создадим из массива признаков 2 с разными вариантами преобразования ("MinMax", "StandartScaler")</font>

In [5]:
df_minmax_nan = df.copy()
df_std_nan = df.copy()
minmax_scaler = MinMaxScaler()
std_scaler = StandardScaler(with_mean=False)
for feature in features:
    notnan_values = np.vstack(df[feature][df[feature].notnull()])
    minmax_scaler.fit(notnan_values)
    std_scaler.fit(notnan_values)
    df_minmax_nan[feature] = df_minmax_nan[feature].apply(lambda x: minmax_scaler.transform(x)[0, 0] if not np.isnan(x) else x)
    df_std_nan[feature] = df_std_nan[feature].apply(lambda x: std_scaler.transform(x)[0, 0] if not np.isnan(x) else x)    

ValueError: Expected 2D array, got scalar array instead:
array=184588.0.
Reshape your data either using array.reshape(-1, 1) if your data has a single feature or array.reshape(1, -1) if it contains a single sample.

In [None]:
df_minmax.head()

<font color=darkblue>Заполняем пустые значения средними</font>

In [None]:
df_minmax = df_minmax_nan.copy()
df_std = df_std_nan.copy()
for region in regions:
    region_index = df["region"] == region
    df_minmax.loc[region_index, features] = df_minmax[features][region_index].apply(lambda x: x.fillna(x.mean()), axis=0)
    df_std.loc[region_index, features] = df_std[features][region_index].apply(lambda x: x.fillna(x.mean()), axis=0)

In [None]:
df_minmax.head()

In [None]:
df_std.head()

In [None]:
minmax_array = np.vstack(df_minmax[features].values)
std_array = np.vstack(df_std[features].values)

print(minmax_array)
print()
print(std_array)

<font color=darkblue>Закодируем название региона</font>

In [None]:
le = LabelEncoder()
labels = le.fit_transform(df["region"])
labels

<font color=darkblue>Применим PCA - понижение размерности по 2-х координат.</font>

In [None]:
pca = PCA(n_components=2, random_state=0, svd_solver='randomized')
minmax_pca = pca.fit_transform(minmax_array)
std_pca = pca.fit_transform(std_array)


<font color=darkblue>Изобразим наши данные на графике, при наведении на точку всплывает подсказка.</font>

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(13,7))

scatter1 = ax1.scatter(minmax_pca[:, 0], minmax_pca[:, 1], c=labels)
tooltip1 = mpld3.plugins.PointLabelTooltip(scatter1, labels=region_dates)
mpld3.plugins.connect(fig, tooltip1)

scatter2 = ax2.scatter(std_pca[:, 0], std_pca[:, 1], c=labels)
tooltip2 = mpld3.plugins.PointLabelTooltip(scatter2, labels=region_dates)
mpld3.plugins.connect(fig, tooltip2)

mpld3.display(fig)

<font color=darkblue>Применение модели t-SNE для приведения к 2-м координатам 

In [None]:
tsne = TSNE(n_components=2, init='pca', random_state=0)
minmax_tsne = tsne.fit_transform(minmax_array)
std_tsne = tsne.fit_transform(std_array)

<font color=darkblue>Визаулизация данных с помощью метода t-SNE</font>

In [None]:
fig, (ax1, ax2) = plt.subplots(1, 2, figsize=(13,7))

scatter1 = ax1.scatter(minmax_tsne[:, 0], minmax_tsne[:, 1], c=labels)
tooltip1 = mpld3.plugins.PointLabelTooltip(scatter1, labels=region_dates)
mpld3.plugins.connect(fig, tooltip1)

scatter2 = ax2.scatter(std_tsne[:, 0], std_tsne[:, 1], c=labels)
tooltip2 = mpld3.plugins.PointLabelTooltip(scatter2, labels=region_dates)
mpld3.plugins.connect(fig, tooltip2)

mpld3.display(fig)

<font color=darkblue>Обнаружение аномалий на плоскости (после уменьшения размерности методами PCA и t-SNE)</font>

In [None]:
lof = LocalOutlierFactor(metric='euclidean',
                         contamination=0.05)


def show_plot(region):
    indices = [index for (index, item) in enumerate(df["region"]) if item == region]

    train1 = minmax_pca[indices]
    preds1 = lof.fit_predict(train1)
    
    train2 = minmax_tsne[indices]
    preds2 = lof.fit_predict(train2)
    
    train3 = std_pca[indices]
    preds3 = lof.fit_predict(train3)
    
    train4 = std_tsne[indices]
    preds4 = lof.fit_predict(train4)
    
    with out:
        clear_output()
        
        fig, axes = plt.subplots(2, 2, figsize=(12, 12))
        scatter1 = axes[0, 0].scatter(train1[:,0], train1[:,1], c=preds1)
        tooltip1 = mpld3.plugins.PointLabelTooltip(scatter1, labels=dates)
        mpld3.plugins.connect(fig, tooltip1)
        axes[0, 0].set_title('minmax, PCA')        
        
        scatter2 = axes[0, 1].scatter(train2[:,0], train2[:,1], c=preds2)
        tooltip2 = mpld3.plugins.PointLabelTooltip(scatter2, labels=dates)
        mpld3.plugins.connect(fig, tooltip2)
        axes[0, 1].set_title('minmax, TSNE')
        
        scatter3 = axes[1, 0].scatter(train3[:,0], train3[:,1], c=preds3)
        tooltip3 = mpld3.plugins.PointLabelTooltip(scatter3, labels=dates)
        mpld3.plugins.connect(fig, tooltip3)
        axes[1, 0].set_title('std, PCA')
        
        scatter4 = axes[1, 1].scatter(train4[:,0], train4[:,1], c=preds4)
        tooltip4 = mpld3.plugins.PointLabelTooltip(scatter4, labels=dates)
        mpld3.plugins.connect(fig, tooltip4)
        axes[1, 1].set_title('std, TSNE')
        
        mpld3.enable_notebook()
        

style = {'description_width': 'initial'}
region_list = widgets.Select(options=regions, description="Регион", rows=10)
i = widgets.interactive(show_plot, region=region_list)

out = Output()

VBox([i, out])

<font color=darkblue>Обнаружение аномалий в начальном пространстве и отображение затем на плоскости методами PCA и t-SNE</font>

In [None]:
lof = LocalOutlierFactor(metric='euclidean',
                         contamination=0.05)


def show_plot(region):
    indices = [index for (index, item) in enumerate(df["region"]) if item == region]

    train1 = minmax_array[indices]
    preds1 = lof.fit_predict(train1)
    
    train2 = std_array[indices]
    preds2 = lof.fit_predict(train2)
    
    data1 = minmax_pca[indices]
    data2 = minmax_tsne[indices]
    data3 = std_pca[indices]
    data4 = std_tsne[indices]
    
    with out:
        clear_output()
        
        fig, axes = plt.subplots(2, 2, figsize=(12, 12))
        scatter1 = axes[0, 0].scatter(data1[:,0], data1[:,1], c=preds1)
        tooltip1 = mpld3.plugins.PointLabelTooltip(scatter1, labels=dates)
        mpld3.plugins.connect(fig, tooltip1)
        axes[0, 0].set_title('minmax, PCA')        
        
        scatter2 = axes[0, 1].scatter(data2[:,0], data2[:,1], c=preds1)
        tooltip2 = mpld3.plugins.PointLabelTooltip(scatter2, labels=dates)
        mpld3.plugins.connect(fig, tooltip2)
        axes[0, 1].set_title('minmax, TSNE')
        
        scatter3 = axes[1, 0].scatter(data3[:,0], data3[:,1], c=preds2)
        tooltip3 = mpld3.plugins.PointLabelTooltip(scatter3, labels=dates)
        mpld3.plugins.connect(fig, tooltip3)
        axes[1, 0].set_title('std, PCA')
        
        scatter4 = axes[1, 1].scatter(data4[:,0], data4[:,1], c=preds2)
        tooltip4 = mpld3.plugins.PointLabelTooltip(scatter4, labels=dates)
        mpld3.plugins.connect(fig, tooltip4)
        axes[1, 1].set_title('std, TSNE')
        
        mpld3.enable_notebook()
        

style = {'description_width': 'initial'}
region_list = widgets.Select(options=regions, description="Регион", rows=10)
i = widgets.interactive(show_plot, region=region_list)

out = Output()

VBox([i, out])

<font color=darkblue>Можно проверить исходные данные по определнному региону</font>

In [None]:
mpld3.disable_notebook()
def show_plot2(region):
    df_region_minmax = df_minmax_nan[df_minmax_nan["region"] == region]
    df_region_std = df_std_nan[df_std_nan["region"] == region]
    
    with out:
        fig, (ax1, ax2) = plt.subplots(2, 1, figsize=(15, 15))
        fig.subplots_adjust(hspace=0.7)

        for feature in features:
            ax1.plot(dates, df_region_minmax[feature])
            ax2.plot(dates, df_region_std[feature])
        
        plt.sca(ax1)
        plt.xticks(dates, dates, rotation="vertical")
        ax1.set_title("minmax", y=1.3)
        
        plt.sca(ax2)
        plt.xticks(dates, dates, rotation="vertical")
        ax2.set_title("std", y=1.3)

style = {'description_width': 'initial'}
region_list = widgets.Select(options=regions, description="Регион", rows=10)
i = widgets.interactive(show_plot2, region=region_list)

out = Output()

VBox([i, out])