<center>
<img src="../../img/ods_stickers.jpg" />
    
## [mlcourse.ai](https://mlcourse.ai) – Отворен курс за машинно обучение

Автор: [Егор Полусмак](https://www.linkedin.com/in/egor-polusmak/). Преведено и редактирано от [Юрий Кашницки](https://yorko.github.io) и [Юанюан Пао](https://www.linkedin.com/in/yuanyuanpao/). Този материал е предмет на правилата и условията на лиценза [Creative Commons CC BY-NC-SA 4.0](https://creativecommons.org/licenses/by-nc-sa/4.0/). Безплатното използване е разрешено за всякакви нетърговски цели.

# <center>Тема 2. Визуален анализ на данни в Python
## <center>Част 1. Визуализация: от прости разпределения до намаляване на размерността

В областта на машинното обучение, *визуализацията на данни* не е просто създаване на фантастични графики за отчети; той се използва широко в ежедневната работа за всички фази на проекта.

Да започнем с това, че визуалното изследване на данни е първото нещо, което човек обикновено прави, когато се занимава с нова задача. Извършваме предварителни проверки и анализи, като използваме графики и таблици, за да обобщим данните и да пропуснем по-малко важните подробности. За нас, хората, е много по-удобно да разберем основните точки по този начин, отколкото като четем много редове необработени данни. Удивително е колко прозрения могат да бъдат получени от привидно прости диаграми, създадени с налични инструменти за визуализация.

След това, когато анализираме ефективността на даден модел или докладваме резултатите, често използваме диаграми и изображения. Понякога, за да интерпретираме сложен модел, трябва да проектираме високомерни пространства върху по-разбираеми 2D или 3D фигури.

Като цяло, визуализацията е сравнително бърз начин да научите нещо ново за вашите данни. Ето защо е жизненоважно да научите най-полезните му техники и да ги направите част от ежедневния си набор от инструменти за ML.

В тази статия ще придобием практически опит с визуално изследване на данни с помощта на популярни библиотеки като `pandas`, `matplotlib` и `seaborn`.

### Схема на статията

1. [Набор от данни](#1.-Набор от данни)
2. [Едновариантна визуализация](#2.-Едновариантна-визуализация)
    * 2.1 [Количествени характеристики](#2.1-Количествени характеристики)
    * 2.2 [Категорични и двоични характеристики](#2.2-Категорични-и-бинарни-характеристики)
3. [Многовариантна визуализация](#3.-Многовариантна-визуализация)
    * 3.1 [Количествено срещу Количествено](#3.1-Количествено-срещу Количествено)
    * 3.2 [Количествено срещу категорично] (#3.2-Количествено срещу категорично)
    * 3.3 [Категоричен срещу категоричен](#3.3-Категоричен-срещу-Категоричен)
4. [Визуализации на целия набор от данни](#4.-Визуализации на целия набор от данни)
    * 4.1 [Наивен подход](#4.1-A-naive-approach)
    * 4.2 [Намаляване на размерността] (#4.2-Намаляване на размерността)
    * 4.3 [t-SNE](#4.3-t-SNE)
5. [Демо задание](#6.-Демо-задаване)
6. [Полезни ресурси](#6.-Полезни-ресурси)

## 1. Набор от данни

Преди да стигнем до данните, нека инициализираме нашата среда:

In [None]:
# Matplotlib forms basis for visualization in Python
import matplotlib.pyplot as plt
import numpy as np
import pandas as pd
# We will use the Seaborn library
import seaborn as sns

sns.set()

# Graphics in SVG format are more sharp and legible
%config InlineBackend.figure_format = 'svg'

В първата статия разгледахме данните за отлив на клиенти за телеком оператор. Ще презаредим същия набор от данни в „DataFrame“:

In [None]:
df = pd.read_csv("../../data/telecom_churn.csv")

За да се запознаете с нашите данни, нека да разгледаме първите 5 записа с помощта на `head()`:

In [None]:
df.head()

Here is the description of our features:

|  Name  | Description | Value Type | Statistical Type |
|---         |---       |---     |---
| **State** | State abbreviation (like KS = Kansas) | String | Categorical |
| **Account length** | How long the client has been with the company | Numerical | Quantitative |
| **Area code** | Phone number prefix | Numerical | Categorical |
| **International plan** | International plan (on/off) | String, "Yes"/"No" | Categorical/Binary |
| **Voice mail plan** | Voicemail (on/off) | String, "Yes"/"No" | Categorical/Binary |
| **Number vmail messages** | Number of voicemail messages | Numerical | Quantitative |
| **Total day minutes** |  Total duration of daytime calls | Numerical | Quantitative |
| **Total day calls** | Total number of daytime calls  | Numerical | Quantitative |
| **Total day charge** | Total charge for daytime services | Numerical | Quantitative |
| **Total eve minutes** | Total duration of evening calls | Numerical | Quantitative |
| **Total eve calls** | Total number of evening calls | Numerical | Quantitative |
| **Total eve charge** | Total charge for evening services | Numerical | Quantitative |
| **Total night minutes** | Total duration of nighttime calls | Numerical | Quantitative |
| **Total night calls** | Total number of nighttime calls | Numerical | Quantitative |
| **Total night charge** | Total charge for nighttime services | Numerical | Quantitative |
| **Total intl minutes** | Total duration of international calls  | Numerical | Quantitative |
| **Total intl calls** | Total number of international calls | Numerical | Quantitative |
| **Total intl charge** | Total charge for international calls | Numerical | Quantitative |
| **Customer service calls** | Number of calls to customer service | Numerical | Categorical/Ordinal |

The last data column, **Churn**, is our target variable. It is binary: *True* indicates that that the company eventually lost this customer, and *False* indicates that the customer was retained. Later, we will build models that predict this feature based on the remaining features. This is why we call it a *target*.

## 2. Едновариантна визуализация

*Едновариантният* анализ разглежда една функция наведнъж. Когато анализираме функция независимо, обикновено се интересуваме най-вече от *разпределението на нейните стойности* и игнорираме други характеристики в набора от данни.

По-долу ще разгледаме различни статистически типове характеристики и съответните инструменти за техния индивидуален визуален анализ.

#### 2.1 Количествени характеристики

*Количествените характеристики* приемат подредени числени стойности. Тези стойности могат да бъдат *дискретни*, като цели числа, или *непрекъснати*, като реални числа, и обикновено изразяват преброяване или измерване.

##### Хистограми и диаграми на плътност

Най-лесният начин да разгледате разпределението на числова променлива е да начертаете нейната *хистограма* с помощта на метода на `DataFrame` [`hist()`](https://pandas.pydata.org/pandas-docs /stable/generated/pandas.DataFrame.hist.html).

In [None]:
features = ["Total day minutes", "Total intl calls"]
df[features].hist(figsize=(10, 4));

Хистограмата групира стойностите в *контейнери* с еднакъв диапазон на стойност. Формата на хистограмата може да съдържа улики за основния тип разпределение: гаусово, експоненциално и т.н. Можете също така да забележите неравности във формата й, когато разпределението е почти редовно, но има някои аномалии. Познаването на разпределението на стойностите на характеристиките става важно, когато използвате методи за машинно обучение, които приемат определен тип (най-често Гаус).

В горния график виждаме, че променливата *Общо минути за деня* е нормално разпределена, докато *Общо международни повиквания* е видимо изкривено надясно (опашката й е по-дълга вдясно).

Има и друг, често по-ясен начин за разбиране на разпределението: *графики на плътност* или, по-официално, *Графики на плътност на ядрото*. Те могат да се считат за [изгладена](https://en.wikipedia.org/wiki/Kernel_smoother) версия на хистограмата. Основното им предимство пред последните е, че не зависят от размера на кошчетата. Нека създадем графики на плътността за същите две променливи:

In [None]:
df[features].plot(
    kind="density", subplots=True, layout=(1, 2), sharex=False, figsize=(10, 4)
);

Също така е възможно да се начертае разпределение на наблюденията с [`distplot()`] на `seaborn` (https://seaborn.pydata.org/generated/seaborn.distplot.html). Например, нека да разгледаме разпределението на *Общо дневни минути*. По подразбиране диаграмата показва хистограмата с [оценка на плътността на ядрото](https://en.wikipedia.org/wiki/Kernel_density_estimation) (KDE) отгоре.
It is also possible to plot a distribution of observations with `seaborn`'s [`distplot()`](https://seaborn.pydata.org/generated/seaborn.distplot.html). For example, let's look at the distribution of *Total day minutes*. By default, the plot displays the histogram with the [kernel density estimate](https://en.wikipedia.org/wiki/Kernel_density_estimation) (KDE) on top.

In [None]:
sns.distplot(df["Total intl calls"]);

Височината на лентите на хистограмата тук е нормирана и показва плътността, а не броя на примерите във всеки контейнер.

##### Box plot

Друг полезен тип визуализация е *кутия графика*. `seaborn` върши чудесна работа тук:


In [None]:
sns.boxplot(x="Total intl calls", data=df);

Нека да видим как да интерпретираме графика в кутия. Неговите компоненти са *кутия* (очевидно затова се нарича *кутия графика*), така наречените *мустаци* и редица индивидуални точки (*извънредности*).

Кутията сама по себе си илюстрира интерквартилното разпространение на разпределението; дължината му се определя от $25-ия \, (\text{Q1})$ и $75-ия \, (\text{Q3})$ персентил. Вертикалната линия вътре в полето маркира медианата ($50\%$) на разпределението.

Мустаците са линиите, простиращи се от кутията. Те представляват цялото разпръскване на точки от данни, по-специално точките, които попадат в интервала $(\text{Q1} - 1,5 \cdot \text{IQR}, \text{Q3} + 1,5 \cdot \text{IQR})$ , където $\text{IQR} = \text{Q3} - ​​\text{Q1}$ е [интерквартилен диапазон](https://en.wikipedia.org/wiki/Interquartile_range).

Отклоненията, които попадат извън обхвата, ограничен от мустаците, се нанасят индивидуално като черни точки по централната ос.

Виждаме, че голям брой международни разговори са доста редки в нашите данни.

##### Сюжет за цигулка

Последният тип разпределителни сюжети, които ще разгледаме, е *цигулков сюжет*.

Вижте фигурите по-долу. Отляво виждаме вече познатата кутия. Вдясно има *цигулкова графика* с оценка на плътността на ядрото от двете страни.

In [None]:
_, axes = plt.subplots(1, 2, sharey=True, figsize=(6, 4))
sns.boxplot(data=df["Total intl calls"], ax=axes[0])
sns.violinplot(data=df["Total intl calls"], ax=axes[1]);

Разликата между графиките в кутия и цигулка е, че първата илюстрира определени статистически данни относно отделни примери в набор от данни, докато графиката в цигулка се концентрира повече върху изгладеното разпределение като цяло.

В нашия случай диаграмата на цигулката не допринася с допълнителна информация за данните, тъй като всичко е ясно само от графиката на кутията.

##### describe()

В допълнение към графичните инструменти, за да получим точната числена статистика на разпределението, можем да използваме метода [`describe()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas .DataFrame.describe.html) на `DataFrame`:

In [None]:
df[features].describe()

Резултатът му е най-вече очевиден. *25%*, *50%* и *75%* са съответните [перцентили](https://en.wikipedia.org/wiki/Percentile).

#### 2.2 Категориални и двоични характеристики

*Категоричните характеристики* приемат фиксиран брой стойности. Всяка от тези стойности приписва наблюдение на съответна група, известна като *категория*, която отразява някакво качествено свойство на този пример. *Бинарните* променливи са важен специален случай на категорични променливи, когато броят на възможните стойности е точно 2. Ако стойностите на категориална променлива са подредени, тя се нарича *ординална*.

##### Честотна таблица

Нека проверим баланса на класа в нашия набор от данни, като разгледаме разпределението на целевата променлива: *степента на отлив*. Първо, ще получим честотна таблица, която показва колко честа е всяка стойност на категориалната променлива. За целта ще използваме метода [`value_counts()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.Series.value_counts.html):

In [None]:
df["Churn"].value_counts()

По подразбиране записите в изхода са сортирани от най-често до най-рядко срещаните стойности.

В нашия случай данните не са *балансирани*; тоест нашите два целеви класа, лоялни и нелоялни клиенти, не са представени еднакво в набора от данни. Само малка част от клиентите се отказаха от абонамента си за услугата на телекома. Както ще видим в следващите статии, този факт може да наложи някои ограничения върху измерването на ефективността на класификацията и в бъдеще може да искаме допълнително да санкционираме грешките на нашия модел при прогнозиране на малцинствения клас „Churn“.

##### Бар парцел

Стълбовата диаграма е графично представяне на честотната таблица. Най-лесният начин да го създадете е да използвате функцията на `seaborn` [`countplot()`](https://seaborn.pydata.org/generated/seaborn.countplot.html). Има друга функция в `seaborn`, която донякъде объркващо се нарича [`barplot()`](https://seaborn.pydata.org/generated/seaborn.barplot.html) и се използва най-вече за представяне на някои основни статистики на числена променлива, групирана по категоричен признак.

Нека начертаем разпределенията за две категорични променливи:

In [None]:
_, axes = plt.subplots(nrows=1, ncols=2, figsize=(12, 4))

sns.countplot(x="Churn", data=df, ax=axes[0])
sns.countplot(x="Customer service calls", data=df, ax=axes[1]);

Докато хистограмите, обсъдени по-горе, и лентовите диаграми може да изглеждат подобни, има няколко разлики между тях:
1. *Хистограмите* са най-подходящи за разглеждане на разпределението на числови променливи, докато *стълбовидните диаграми* се използват за категорични характеристики.
2. Стойностите по оста Х в *хистограмата* са числени; *стълбовидната диаграма* може да има всякакъв тип стойности по оста X: числа, низове, булеви стойности.
3. Оста X на *хистограмата* е *декартова координатна ос*, по която стойностите не могат да се променят; подреждането на *лентите* не е предварително дефинирано. Все пак е полезно да се отбележи, че лентите често са сортирани по височина, тоест честотата на стойностите. Също така, когато разглеждаме *обикновени* променливи (като *Обаждания от обслужване на клиенти* в нашите данни), лентите обикновено са подредени по стойност на променлива.

Лявата диаграма по-горе ясно илюстрира дисбаланса в нашата целева променлива. Стълбовата диаграма за *Обаждания към обслужване на клиенти* вдясно подсказва, че по-голямата част от клиентите разрешават проблемите си с максимум 2–3 обаждания. Но тъй като искаме да можем да предвидим малцинствената класа, може да се интересуваме повече от това как се държат по-малкото недоволни клиенти. Може да се окаже, че опашката на този стълбовиден график съдържа по-голямата част от нашия отлив. Засега това са само хипотези, така че нека да преминем към някои по-интересни и мощни визуални техники.

## 3. Многовариантна визуализация

*Многовариантните* диаграми ни позволяват да видим връзки между две или повече различни променливи, всички в една фигура. Точно както в случая на едномерни диаграми, специфичният тип визуализация ще зависи от типовете на анализираните променливи.

#### 3.1 Количествено срещу количествено

##### Корелационна матрица

Нека да разгледаме корелациите между числените променливи в нашия набор от данни. Тази информация е важно да се знае, тъй като има алгоритми за машинно обучение (например линейна и логистична регресия), които не се справят добре с силно корелирани входни променливи.

Първо ще използваме метода [`corr()`](https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.corr.html) на `DataFrame`, който изчислява корелацията между всяка двойка функции. След това предаваме получената *корелационна матрица* на [`heatmap()`](https://seaborn.pydata.org/generated/seaborn.heatmap.html) от `seaborn`, което изобразява цветно кодирана матрица за предоставените стойности:

In [None]:
# Drop non-numerical variables
numerical = list(
    set(df.columns)
    - set(
        [
            "State",
            "International plan",
            "Voice mail plan",
            "Area code",
            "Churn",
            "Customer service calls",
        ]
    )
)

# Calculate and plot
corr_matrix = df[numerical].corr()
sns.heatmap(corr_matrix);

От цветната корелационна матрица, генерирана по-горе, можем да видим, че има 4 променливи като *Обща дневна такса*, които са изчислени директно от броя минути, изразходвани за телефонни разговори (*Общи дневни минути*). Те се наричат ​​*зависими* променливи и следователно могат да бъдат пропуснати, тъй като не допринасят с допълнителна информация. Нека се отървем от тях:

In [None]:
numerical = list(
    set(numerical)
    - set(
        [
            "Total day charge",
            "Total eve charge",
            "Total night charge",
            "Total intl charge",
        ]
    )
)

##### Точкова диаграма

*Диаграмата на разсейване* показва стойностите на две числови променливи като *декартови координати* в 2D пространство. Възможни са и точкови диаграми в 3D.

Нека изпробваме функцията [`scatter()`](https://matplotlib.org/devdocs/api/_as_gen/matplotlib.pyplot.scatter.html) от библиотеката `matplotlib`:

In [None]:
plt.scatter(df["Total day minutes"], df["Total night minutes"]);

Получаваме безинтересна картина на две нормално разпределени променливи. Освен това изглежда, че тези характеристики не са свързани, защото подобната на елипса форма е подравнена с осите.

Има малко по-фантастична опция за създаване на точкова диаграма с библиотеката `seaborn`:

In [None]:
sns.jointplot(x="Total day minutes", y="Total night minutes", data=df, kind="scatter");

Функцията [`jointplot()`](https://seaborn.pydata.org/generated/seaborn.jointplot.html) чертае две хистограми, които могат да бъдат полезни в някои случаи.

Използвайки същата функция, можем също да получим изгладена версия на нашето двумерно разпределение:

In [None]:
sns.jointplot(
    "Total day minutes", "Total night minutes", data=df, kind="kde", color="g"
);

Това е основно двувариантна версия на *Диграфика на гъстотата на ядрото*, обсъден по-рано.

##### Матрица на точечната диаграма

В някои случаи може да поискаме да начертаем *матрица на диаграмата на разсейване* като тази, показана по-долу. Неговият диагонал съдържа разпределенията на съответните променливи, а диаграмите на разсейване за всяка двойка променливи запълват останалата част от матрицата.

In [None]:
# `pairplot()` may become very slow with the SVG format
%config InlineBackend.figure_format = 'png'
sns.pairplot(df[numerical]);

In [None]:
%config InlineBackend.figure_format = 'svg'

Понякога подобна визуализация може да помогне да се направят заключения относно данните; но в този случай всичко е доста ясно, без изненади.

#### 3.2 Количествени спрямо категорични

В този раздел ще направим нашите прости количествени диаграми малко по-вълнуващи. Ще се опитаме да придобием нови прозрения за прогнозиране на отлив от взаимодействията между числените и категориалните характеристики.

По-конкретно, нека да видим как входните променливи са свързани с целевата променлива Churn.

По-рано научихте за диаграмите на разсейване. Освен това техните точки могат да бъдат кодирани с цвят или размер, така че стойностите на трета категорична променлива също да бъдат представени на същата фигура. Можем да постигнем това с функцията `scatter()`, видяна по-горе, но нека опитаме нова функция, наречена [`lmplot()`](https://seaborn.pydata.org/generated/seaborn.lmplot.html) и използвайте параметъра „hue“, за да посочите нашата категорична характеристика, която представлява интерес:

In [None]:
sns.lmplot(
    "Total day minutes", "Total night minutes", data=df, hue="Churn", fit_reg=False
);

Изглежда, че нашата малка част от нелоялните клиенти се навеждат към горния десен ъгъл; това означава, че такива клиенти са склонни да прекарват повече време на телефона както през деня, така и през нощта. Но това не е абсолютно ясно и няма да правим окончателни заключения от тази диаграма.

Сега нека създадем диаграми с кутии, за да визуализираме статистическите данни за разпределението на числовите променливи в две несвързани групи: лоялните клиенти („Churn=False“) и тези, които са напуснали („Churn=True“).

In [None]:
# Sometimes you can analyze an ordinal variable just as numerical one
numerical.append("Customer service calls")

fig, axes = plt.subplots(nrows=3, ncols=4, figsize=(10, 7))
for idx, feat in enumerate(numerical):
    ax = axes[int(idx / 4), idx % 4]
    sns.boxplot(x="Churn", y=feat, data=df, ax=ax)
    ax.set_xlabel("")
    ax.set_ylabel(feat)
fig.tight_layout();

От тази диаграма можем да видим, че най-голямото несъответствие в разпределението между двете групи е за три променливи: *Общо минути за деня*, *Обаждания от обслужване на клиенти* и *Брой vmail съобщения*. По-късно в този курс ще научим как да определяме важността на характеристиките в класификацията с помощта на *Случайна гора* или *Усилване на градиент*; там ще видим, че първите две характеристики са наистина много важни за прогнозиране на отлив.

Нека разгледаме разпределението на дневните минути, изговорени за лоялни и нелоялни клиенти поотделно. Ние ще създадем графики за кутия и цигулка за *Общо минути за деня*, групирани по целевата променлива.

In [None]:
_, axes = plt.subplots(1, 2, sharey=True, figsize=(10, 4))

sns.boxplot(x="Churn", y="Total day minutes", data=df, ax=axes[0])
sns.violinplot(x="Churn", y="Total day minutes", data=df, ax=axes[1]);

В този случай графиката на цигулката не допринася с допълнителна информация за нашите данни, тъй като всичко е ясно само от графиката в кутията: нелоялните клиенти са склонни да говорят повече по телефона.

**Интересно наблюдение**: средно клиентите, които прекратяват договорите си, са по-активни потребители на комуникационни услуги. Може би те не са доволни от тарифите, така че възможна мярка за предотвратяване на оттеглянето може да бъде намаляване на тарифите за разговори. Компанията ще трябва да предприеме допълнителен икономически анализ, за ​​да разбере дали подобни мерки биха били от полза.

Когато искаме да анализираме количествена променлива в две категорични измерения наведнъж, има подходяща функция за това в библиотеката `seaborn`, наречена [`catplot()`](https://seaborn.pydata.org/generated/seaborn .factorplot.html). Например, нека визуализираме взаимодействието между *Общо минути за деня* и две категориални променливи в една и съща графика:

In [None]:
sns.catplot(
    x="Churn",
    y="Total day minutes",
    col="Customer service calls",
    data=df[df["Customer service calls"] < 8],
    kind="box",
    col_wrap=4,
    height=3,
    aspect=0.8,
);

От това можем да заключим, че като се започне с 4 обаждания, *Общо минути за деня* може вече да не е основният фактор за отлив на клиенти. Може би, в допълнение към предишното ни предположение за тарифите, има клиенти, които са недоволни от услугата поради други проблеми, които могат да доведат до по-малко дневни минути, изразходвани за разговори.

#### 3.3 Категоричен срещу категоричен

Както видяхме по-рано в тази статия, променливата *Customer service calls* има няколко уникални стойности и следователно може да се счита или за числова, или за редна. Вече видяхме разпределението му с *графика за преброяване*. Сега се интересуваме от връзката между тази ординална характеристика и целевата променлива *Churn*.

Нека да разгледаме разпределението на броя обаждания до обслужването на клиенти, като отново използваме *графика за преброяване*. Този път нека предадем и параметъра `hue=Churn`, който добавя категорично измерение към графиката:

In [None]:
sns.countplot(x="Customer service calls", hue="Churn", data=df);

**Наблюдение**: степента на оттегляне се увеличава значително след 4 или повече обаждания до отдела за обслужване на клиенти.

Сега нека да разгледаме връзката между *Churn* и двоичните функции, *Международен план* и *План за гласова поща*.

In [None]:
_, axes = plt.subplots(1, 2, sharey=True, figsize=(10, 4))

sns.countplot(x="International plan", hue="Churn", data=df, ax=axes[0])
sns.countplot(x="Voice mail plan", hue="Churn", data=df, ax=axes[1]);

**Наблюдение**: когато *Международен план* е активиран, процентът на напускане е много по-висок; използването на международния план от клиента е силна характеристика. Не наблюдаваме същия ефект с *плана за гласова поща*.

##### Таблица за непредвидени случаи

В допълнение към използването на графични средства за категориален анализ, има традиционен инструмент от статистиката: *таблица за непредвидени обстоятелства*, наричана още *кръстосана таблица*. Той показва многовариантно честотно разпределение на категориални променливи в таблична форма. По-специално, това ни позволява да видим разпределението на една променлива условно спрямо другата, като погледнем по колона или ред.

Нека се опитаме да видим как *Churn* е свързано с категоричната променлива *State* чрез създаване на кръстосана таблица:

In [None]:
pd.crosstab(df["State"], df["Churn"]).T

В случая на *State* броят на отделните стойности е доста висок: 51. Виждаме, че има само няколко точки с данни за всеки отделен щат – само 3 до 17 клиенти във всеки щат са изоставили оператора. Нека пренебрегнем това за секунда и изчислим степента на оттегляне за всяко състояние, сортирайки го от високо към ниско:

In [None]:
df.groupby(["State"])["Churn"].agg([np.mean]).sort_values(by="mean", ascending=False).T

На пръв поглед изглежда, че процентът на оттегляне в *Ню Джърси* и *Калифорния* е над 25% и под 6% за Хавай и Аляска. Тези заключения обаче се основават на твърде малко примери и нашето наблюдение може да бъде просто свойство на нашия конкретен набор от данни. Можем да потвърдим това с корелацията [Matthews](https://en.wikipedia.org/wiki/Matthews_correlation_coefficient) и [Cramer](https://en.wikipedia.org/wiki/Cram%C3%A9r%27s_V) хипотези, но това би било извън обхвата на тази статия.


## 4. Визуализации на целия набор от данни

#### 4.1 Наивен подход

Разглеждахме различни *фасети* на нашия набор от данни, като отгатвахме интересни характеристики и избирахме малък брой от тях наведнъж за визуализация. Работихме само с две до три променливи наведнъж и успяхме лесно да наблюдаваме структурата и връзките в данните. Но какво ще стане, ако искаме да покажем всички функции и все пак да можем да интерпретираме получената визуализация?

Можем да използваме `hist()` или да създадем матрица на точкова диаграма с `pairplot()` за целия набор от данни, за да разгледаме всички наши функции едновременно. Но когато броят на характеристиките е достатъчно голям, този вид визуален анализ бързо става бавен и неефективен. Освен това все още ще анализираме нашите променливи по двойки, а не всички наведнъж.

#### 4.2 Намаляване на размерността

Повечето набори от данни в реалния свят имат много функции, понякога много хиляди от тях. Всеки от тях може да се разглежда като измерение в пространството от точки от данни. Следователно, по-често имаме работа с набори от данни с големи размери, където цялостната визуализация е доста трудна.

За да разгледаме набора от данни като цяло, трябва да намалим броя на измеренията, използвани във визуализацията, без да губим много информация за данните. Тази задача се нарича *намаляване на размерността* и е пример за проблем с *неконтролирано обучение*, тъй като трябва да извлечем нови характеристики с ниска размерност от самите данни, без никакво контролирано въвеждане.

Един от добре познатите методи за намаляване на размерността е *Анализ на основните компоненти* (PCA), който ще изучаваме по-късно в този курс. Неговото ограничение е, че е *линеен* алгоритъм, който предполага определени ограничения върху данните.

Съществуват и много нелинейни методи, наричани заедно *Множествено обучение*. Един от най-известните от тях е *t-SNE*.

#### 4.3 t-SNE

Нека създадем [t-SNE](https://en.wikipedia.org/wiki/T-distributed_stochastic_neighbor_embedding) представяне на същите данни за отлив, които сме използвали.

Името на метода изглежда сложно и малко смущаващо: *t-разпределено стохастично вграждане на съседи*. Неговата математика също е впечатляваща (няма да се задълбочаваме тук, но ако се чувствате смели, ето [оригиналната статия](http://www.jmlr.org/papers/volume9/vandermaaten08a/vandermaaten08a.pdf) от Laurens van der Maaten и Geoffrey Hinton от [JMLR](http://www.jmlr.org/)). Основната му идея е проста: намерете проекция за високомерно пространствено пространство върху равнина (или 3D хиперравнина, но тя почти винаги е 2D), така че тези точки, които са били далеч една от друга в първоначалното n-мерно пространство, ще завършат далеч един от друг в самолета. Тези, които първоначално са били близки, ще останат близки един до друг.

По същество *вграждането на съседи* е търсене на ново представяне на данни с по-малко размери, което запазва съседството на примерите.

Сега, нека направим малко практика. Първо, трябва да импортираме някои допълнителни класове:

In [None]:
from sklearn.manifold import TSNE
from sklearn.preprocessing import StandardScaler

Ще оставим функциите *State* и *Churn* и ще преобразуваме стойностите „Да“/„Не“ на двоичните характеристики в числени стойности, използвайки [`pandas.Series.map()`](http://pandas. pydata.org/pandas-docs/stable/generated/pandas.Series.map.html):


In [None]:
X = df.drop(["Churn", "State"], axis=1)
X["International plan"] = X["International plan"].map({"Yes": 1, "No": 0})
X["Voice mail plan"] = X["Voice mail plan"].map({"Yes": 1, "No": 0})

Също така трябва да нормализираме данните. За целта ще извадим средната стойност от всяка променлива и ще я разделим на нейното стандартно отклонение. Всичко това може да се направи със `StandardScaler`.


In [None]:
scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

Сега нека изградим t-SNE представяне:

In [None]:
%%time
tsne = TSNE(random_state=17)
tsne_repr = tsne.fit_transform(X_scaled)

и го начертайте:

In [None]:
plt.scatter(tsne_repr[:, 0], tsne_repr[:, 1], alpha=0.5);

Нека оцветим това представяне на t-SNE според оттока (синьо за лоялни клиенти и оранжево за тези, които са се оттеглили).

In [None]:
plt.scatter(
    tsne_repr[:, 0],
    tsne_repr[:, 1],
    c=df["Churn"].map({False: "blue", True: "orange"}),
    alpha=0.5,
);

Можем да видим, че клиентите, които са се отказали, са концентрирани в няколко области на по-нискоизмерното функционално пространство.

За да разберем по-добре картината, можем също да я оцветим с останалите двоични функции: *Международен план* и *Гласова поща*. Оранжевите точки тук показват случаи, които са положителни за съответната двоична характеристика.

In [None]:
_, axes = plt.subplots(1, 2, sharey=True, figsize=(12, 5))

for i, name in enumerate(["International plan", "Voice mail plan"]):
    axes[i].scatter(
        tsne_repr[:, 0],
        tsne_repr[:, 1],
        c=df[name].map({"Yes": "orange", "No": "blue"}),
        alpha=0.5,
    )
    axes[i].set_title(name);

Сега е ясно, че например много недоволни клиенти, които са анулирали абонамента си, са събрани в един клъстер, представляващ хората с международен план, но без гласова поща.

И накрая, нека отбележим някои недостатъци на t-SNE:
- Висока изчислителна сложност. [Внедряването](http://scikit-learn.org/stable/modules/generated/sklearn.manifold.TSNE.html) в `scikit-learn` е малко вероятно да бъде осъществимо в реална задача. Ако имате голям брой проби, трябва вместо това да опитате [Multicore-TSNE](https://github.com/DmitryUlyanov/Multicore-TSNE).
- Сюжетът може да се промени много в зависимост от произволното семе, което усложнява интерпретацията. [Тук](http://distill.pub/2016/misread-tsne/) има добър урок за t-SNE. Като цяло не трябва да правите дълбоки заключения въз основа на такива графики, защото това може да се равнява на обикновено предположение. Разбира се, някои открития в снимките на t-SNE могат да вдъхновят идея и да бъдат потвърдени чрез по-задълбочени изследвания надолу по линията, но това не се случва много често.

Понякога, използвайки t-SNE, можете да получите наистина добра интуиция за данните. Следва добър документ, който показва пример за това за ръкописни цифри: [Visualizing MNIST](https://colah.github.io/posts/2014-10-Visualizing-MNIST/).

<img src='../../img/tsne_mnist.png' />

## 5. Демо задание
За да практикувате визуален анализ на данни, можете да завършите [това задание](https://www.kaggle.com/kashnitsky/a2-demo-analyzing-cardiovascular-data), където ще анализирате данни за сърдечно-съдови заболявания.

## 6. Полезни ресурси
- Същият бележник като интерактивно уеб базирано [Kaggle Kernel](https://www.kaggle.com/kashnitsky/topic-2-visual-data-analysis-in-python)
- ["Сюжет за интерактивни сюжети"](https://nbviewer.jupyter.org/github/Yorko/mlcourse.ai/blob/master/jupyter_english/tutorials/plotly_tutorial_for_interactive_plots_sankovalev.ipynb) - урок от Александър Ковалев в mlcourse.ai (пълният списък с уроци е [тук](https://mlcourse.ai/tutorials))
– [„Вдъхнете живот на сюжетите си с анимации на Matplotlib“](https://nbviewer.jupyter.org/github/Yorko/mlcourse.ai/blob/master/jupyter_english/tutorials/bring_your_plots_to_life_with_matplotlib_animations_kyriacos_kyriacou.ipynb) – урок от Kyriaco с Кириаку в рамките на mlcourse.ai
- ["Някои подробности за Matplotlib"](https://nbviewer.jupyter.org/github/Yorko/mlcourse.ai/blob/master/jupyter_english/tutorials/some_details_in_matplotlib_pisarev_ivan.ipynb) - урок от Иван Писарев в mlcourse.ai
- Основен курс [сайт](https://mlcourse.ai), [репо за курс](https://github.com/Yorko/mlcourse.ai) и YouTube [канал](https://www.youtube. com/watch?v=QKTuw4PNOsU&list=PLVlY_7IJCMJeRfZ68eVfEcu-UcN9BbwiX)
- Средна ["история"](https://medium.com/open-machine-learning-course/open-machine-learning-course-topic-2-visual-data-analysis-in-python-846b989675cd) въз основа този тефтер
- Материали за курса като [Набор от данни на Kaggle](https://www.kaggle.com/kashnitsky/mlcourse)
- Ако четете руски: [статия](https://habrahabr.ru/company/ods/blog/323210/) на Habrahabr със ~ същия материал. И [лекция](https://youtu.be/vm63p8Od0bM) в YouTube
- Ето официалната документация за библиотеките, които използвахме: [`matplotlib`](https://matplotlib.org/contents.html), [`seaborn`](https://seaborn.pydata.org/introduction.html ) и [`pandas`](https://pandas.pydata.org/pandas-docs/stable/).
- [Галерия](http://seaborn.pydata.org/examples/index.html) с примерни диаграми, създадени с `seaborn`, е много добър ресурс.
- Също така, вижте [документацията](http://scikit-learn.org/stable/modules/manifold.html) относно многообразното обучение в `scikit-learn`.
- Ефективно изпълнение на t-SNE [Multicore-TSNE](https://github.com/DmitryUlyanov/Multicore-TSNE).
- „Как да използваме t-SNE ефективно“, [Distill.pub](https://distill.pub/2016/misread-tsne/).