<center>
<img src="../../img/ods_stickers.jpg">
## Отворен курс по машинно обучение
Автор на материала: програмист-изследовател в Mail.ru Group, старши преподавател във Факултета по компютърни науки на Висшето училище по икономика Юрий Кашницки. Материалът се разпространява съгласно условията на лиценза [Creative Commons CC BY-NC-SA 4.0](https://creativecommons.org/licenses/by-nc-sa/4.0/). Можете да го използвате за всякакви цели (редактиране, коригиране и използване като основа), освен търговски, но със задължителното споменаване на автора на материала.

# <center>Тема 2. Визуален анализ на данни с Python
## <center>Част 2. Пример за визуален анализ на данни

Ние четем в DataFrame данните за изтичането на клиенти на телекомуникационния оператор, с които сме запознати от [първата статия] (https://habrahabr.ru/company/ods/blog/322626/).

In [None]:
from __future__ import division, print_function

# отключим всякие предупреждения Anaconda
import warnings

warnings.filterwarnings("ignore")
import numpy as np
import pandas as pd

pd.set_option("display.max.columns", 100)
import pylab as plt

%matplotlib inline
import seaborn as sns
from matplotlib import pyplot as plt

plt.rcParams["figure.figsize"] = (10, 8)

In [None]:
df = pd.read_csv("../../data/telecom_churn.csv")

Нека проверим дали всичко е изчислено правилно - вижте първите 5 реда (методът `head`).

In [None]:
df.head()

Брой редове (клиенти) и колони (функции):

In [None]:
df.shape

Нека да разгледаме знаците и да се уверим, че няма пропуски в нито един от тях - навсякъде има 3333 записа.

In [None]:
df.info()

Описание на характеристиките

| Заглавие | Описание | Тип |
|--- |--: | |
| **Държава** | Държавен буквен код | номинален |
| **Дължина на акаунта** | От колко време клиента се обслужва от компанията | количествен |
| **Код на региона** | Префикс на телефонен номер | количествен |
| **Международен план** | Международен роуминг (свързан/несвързан) | двоичен |
| **План за гласова поща** | Гласова поща (свързана/несвързана) | двоичен |
| **Брой vmail съобщения** | Брой гласови съобщения | количествен |
| **Общо минути за деня** | Обща продължителност на разговора през деня | количествен |
| **Общо разговори за деня** | Общ брой разговори през деня | количествен |
| **Обща такса за деня** | Общо плащане за услуги през деня | количествен |
| **Общо минути** | Обща продължителност на разговора вечер | количествен |
| **Общо разговори в навечерието** | Общ брой обаждания вечер | количествен |
| **Обща такса за навечерието** | Общо плащане за услугите вечер | количествен |
| **Общо нощни минути** | Обща продължителност на разговора през нощта | количествен |
| **Общо нощни разговори** | Общ брой повиквания през нощта | количествен |
| **Обща нощувка** | Обща сума на плащане за услуги през нощта | количествен |
| **Общо инт. минути** | Обща продължителност на международните разговори | количествен |
| **Общо международни разговори** | Общ брой международни разговори | количествен |
| **Общо международен разход** | Обща сума на плащане за международни разговори | количествен |
| **Обаждания за обслужване на клиенти** | Брой обаждания до сервизния център | количествен |

Целева променлива: **Churn** – Знак за отлив, двоичен (1 – загуба на клиент, т.е. отлив). След това ще изградим модели, които предвиждат тази характеристика въз основа на другите, поради което я нарекохме цел.

Нека да разгледаме разпределението на целевия клас - отлив на клиенти.

In [None]:
df["Churn"].value_counts()

In [None]:
df["Churn"].value_counts().plot(kind="bar", label="Churn")
plt.legend()
plt.title("Распределение оттока клиентов");

Нека подчертаем следните групи функции (с изключение на *Churn*):
 - двоичен: *Международен план*, *План за гласова поща*
 - категоричен: *Държава*
 - редни: *Обаждания от обслужване на клиенти*
 - количествени: всички останали

Нека да разгледаме корелациите на количествените характеристики. Цветната корелационна матрица показва, че функции като *Обща дневна такса* се изчисляват на базата на изговорени минути (*Общо дневни минути*). Тоест, 4 знака могат да бъдат изхвърлени, те не носят полезна информация.

In [None]:
corr_matrix = df.drop(
    ["State", "International plan", "Voice mail plan", "Area code"], axis=1
).corr()

In [None]:
sns.heatmap(corr_matrix);

Сега нека разгледаме разпределенията на всички количествени характеристики, които ни интересуват. Ще разгледаме бинарните/категориалните/ординалните характеристики отделно.

In [None]:
features = list(
    set(df.columns)
    - set(
        [
            "State",
            "International plan",
            "Voice mail plan",
            "Area code",
            "Total day charge",
            "Total eve charge",
            "Total night charge",
            "Total intl charge",
            "Churn",
        ]
    )
)

df[features].hist(figsize=(20, 12));

Виждаме, че повечето функции се разпространяват нормално. Изключения са броят на обажданията до сервизния център (*Обаждания за обслужване на клиенти*) (тук е по-подходящо разпределението на Поасон) и броят гласови съобщения (*Брой vmail съобщения*, пик при нула, т.е. това са тези, които нямат свързана гласова поща) . Разпределението на броя на международните разговори (*Общо международни разговори*) също е изместено.

Също така е полезно да се създават картини като тази, където разпределенията на характеристиките са начертани по главния диагонал и диаграми на разсейване за двойки характеристики извън главния диагонал. Случва се това да води до някакви заключения, но в този случай всичко е приблизително ясно, без изненади.

In [None]:
sns.pairplot(df[features + ["Churn"]], hue="Churn");

**След това нека видим как знаците са свързани с целта – отлив.**



Нека да изградим boxplots, които описват статистика на разпределението на количествените характеристики в две групи: сред лоялни и напуснали клиенти.

In [None]:
fig, axes = plt.subplots(nrows=3, ncols=4, figsize=(16, 10))

for idx, feat in enumerate(features):
    sns.boxplot(x="Churn", y=feat, data=df, ax=axes[int(idx / 4), idx % 4])
    axes[int(idx / 4), idx % 4].legend()
    axes[int(idx / 4), idx % 4].set_xlabel("Churn")
    axes[int(idx / 4), idx % 4].set_ylabel(feat);

На око виждаме най-голяма разлика за атрибутите *Общо дневни минути*, *Обаждания за обслужване на клиенти* и *Брой vmail съобщения*. Впоследствие ще се научим да определяме важността на характеристиките в класификационен проблем, използвайки произволна гора (или градиентно усилване) и се оказва, че първите две наистина са много важни характеристики за прогнозиране на отлив.

Нека да разгледаме поотделно снимките с разпределението на минутите разговори през деня между лоялни/леви. Отляво са познатите боксплоти, отдясно са изгладени хистограми на разпределението на числов атрибут в две групи (по-скоро просто красива картина, всичко вече е ясно от боксплота).

Интересно **наблюдение:** средно напусналите клиенти използват връзката повече. Може би те са недоволни от тарифите и една от мерките за борба с изтичането ще бъде намаляването на тарифните ставки (цената на мобилните комуникации). Но компанията ще трябва да проведе допълнителен икономически анализ, за ​​да определи дали подобни мерки наистина ще бъдат оправдани.

In [None]:
_, axes = plt.subplots(1, 2, sharey=True, figsize=(16, 6))

sns.boxplot(x="Churn", y="Total day minutes", data=df, ax=axes[0])
sns.violinplot(x="Churn", y="Total day minutes", data=df, ax=axes[1]);

Сега нека изобразим разпределението на броя обаждания до сервизния център (построихме такава картина в първата статия). Няма много уникални стойности на атрибута (атрибутът може да се счита или за количествено цяло число, или за порядък) и е по-ясно да се изобрази разпределението с помощта на `countplot`. **Наблюдение:** степента на оттегляне се увеличава значително след 4 обаждания до сервизния център.

In [None]:
sns.countplot(x="Customer service calls", hue="Churn", data=df);

Сега нека разгледаме връзката между двоичните атрибути *Международен план* и *План за гласова поща* с изходящ поток. **Наблюдение**: Когато роумингът е активиран, процентът на напускане е много по-висок, т.е. наличието на международен роуминг е силен знак. Не може да се каже същото за гласовата поща.

In [None]:
_, axes = plt.subplots(1, 2, sharey=True, figsize=(16, 6))

sns.countplot(x="International plan", hue="Churn", data=df, ax=axes[0])
sns.countplot(x="Voice mail plan", hue="Churn", data=df, ax=axes[1]);

И накрая, нека да разгледаме как категоричният атрибут *State* е свързан с оттока. Вече не е толкова приятно да се работи, тъй като броят на уникалните състояния е доста голям - 51. Първо можете да изградите обобщена таблица или да изчислите процента на изтичане за всяко състояние. Но виждаме, че няма достатъчно данни за всяко състояние поотделно (има само 3 до 17 липсващи състояния), така че може би атрибутът *State* не трябва да се добавя към класификационните модели по-късно поради риска от *пренастройване* (но ще проверим това при *кръстосано валидиране*, следете!).


In [None]:
pd.crosstab(df["State"], df["Churn"]).T

Изходящи дялове за всеки щат:

In [None]:
df.groupby(["State"])["Churn"].agg([np.mean]).sort_values(by="mean", ascending=False).T

Вижда се, че в Ню Джърси и Калифорния делът на оттока е над 25%, а в Хавай и Аляска е под 5%. Но тези заключения се основават на твърде скромна статистика и може би това са просто характеристики на наличните данни (тук можете също да тествате хипотези за корелациите на Матюс и Крамър, но това е извън обхвата на тази статия).

И накрая, нека изградим t-SNE представяне на данните. Името на метода е сложно - t-разпределено Stohastic Neighbor Embedding, математиката също е страхотна (и няма да се задълбочаваме в нея), но основната идея е проста като врата: нека намерим такова картографиране от многомерен пространствени характеристики към равнина (или в 3D, но почти винаги избирайте 2D), така че точките, които са били далеч една от друга в равнината, също се оказват отдалечени, а близките точки също са картографирани към близки. Тоест вграждането на съсед е вид търсене на ново представяне на данни, което запазва съседството.
 
Няколко подробности: нека изхвърлим състоянията и знака за изтичане, преобразуваме двоичните знаци Да/Не в числа (използвайки [`pandas.Series.map`](http://pandas.pydata.org/pandas-docs/stable /generated/pandas .Series.map.html)). Трябва също така да мащабирате извадката - извадете нейната средна стойност от всяка характеристика и разделете на стандартното отклонение, това се прави от `StandardScaler`.

In [None]:
from sklearn.manifold import TSNE
from sklearn.preprocessing import StandardScaler

In [None]:
# преобразуем все признаки в числовые, выкинув штаты
X = df.drop(["Churn", "State"], axis=1)
X["International plan"] = X["International plan"].map({"Yes": 1, "No": 0})
X["Voice mail plan"] = X["Voice mail plan"].map({"Yes": 1, "No": 0})

scaler = StandardScaler()
X_scaled = scaler.fit_transform(X)

In [None]:
%%time
tsne = TSNE(random_state=17)
tsne_representation = tsne.fit_transform(X_scaled)

In [None]:
plt.scatter(tsne_representation[:, 0], tsne_representation[:, 1]);

Нека оцветим полученото t-SNE представяне на данни за отлив (синьо – лоялни, оранжево – напуснали клиенти).

In [None]:
plt.scatter(
    tsne_representation[:, 0],
    tsne_representation[:, 1],
    c=df["Churn"].map({0: "blue", 1: "orange"}),
);

Виждаме, че напусналите клиенти са предимно „групирани“ в някои области на пространството на функциите.

За да разберете по-добре картината, можете да я оцветите и според други бинарни характеристики - роуминг и гласова поща. Сините области съответстват на обекти, които имат тази двоична функция.

In [None]:
_, axes = plt.subplots(1, 2, sharey=True, figsize=(16, 6))

axes[0].scatter(
    tsne_representation[:, 0],
    tsne_representation[:, 1],
    c=df["International plan"].map({"Yes": "blue", "No": "orange"}),
)
axes[1].scatter(
    tsne_representation[:, 0],
    tsne_representation[:, 1],
    c=df["Voice mail plan"].map({"Yes": "blue", "No": "orange"}),
)
axes[0].set_title("International plan")
axes[1].set_title("Voice mail plan");

Сега е ясно, че например много напуснали клиенти са групирани в левия клъстер от хора с активиран роуминг, но без гласова поща.


И накрая, нека да отбележим недостатъците на t-SNE (да, също е по-добре да напишете отделна статия за него):
 - висока изчислителна сложност. Тази реализация на sklearn най-вероятно няма да помогне в реалната ви задача; за по-големи проби трябва да погледнете към [Multicore-TSNE](https://github.com/DmitryUlyanov/Multicore-TSNE);
 - картината може да се промени значително при промяна на `произволното семе`, това усложнява тълкуването. [Тук](http://distill.pub/2016/misread-tsne/) има добър урок за t-SNE. Но като цяло не трябва да правите дълбоки заключения от такива снимки - не трябва да гадаете по утайката от кафе. Понякога нещо хваща окото и се потвърждава при преглед, но това не се случва често.
 
Ето още няколко снимки. С t-SNE наистина можете да получите добър изглед на данните (както в случая с ръкописни числа, [тук](https://colah.github.io/posts/2014-10-Visualizing-MNIST/) е добра статия), така че и просто нарисувайте играчка за коледно дърво.

<img src='../../img/tsne_mnist.png' />

<img src='../../img/tsne_christmas_toy.jpg'/>