
# Проверка гипотез с помощью python.

## Задание

* Выполненить проверку предложенной гипотезы
* Выполненить проверку статистической гипотезы для проверки нормальности числовых признаков
* Проверка мультиколлинеарности
* Все статистические тесты должны быть выполнены с 95%-ным уровнем достоверности (т.е. значение р < 0,05)

## Датасет

Как данные представлены заказчиком:

<table>
<thead><tr>
<th><strong>Feature Name</strong></th>
<th><strong>Description</strong></th>
<th><strong>Data Type</strong></th>
</tr>
</thead>
<tbody>
<tr>
<td>customerID</td>
<td>Содержит идентификатор клиента</td>
<td>categorical</td>
</tr>
<tr>
<td>gender</td>
<td>Пол клиента</td>
<td>categorical</td>
</tr>
<tr>
<td>SeniorCitizen</td>
<td>Является ли клиент пожилым гражданином</td>
<td>numeric, int</td>
</tr>
<tr>
<td>Partner</td>
<td>Есть ли у клиента партнер</td>
<td>categorical</td>
</tr>
<tr>
<td>Dependents</td>
<td>Является ли клиент кормильцем</td>
<td>categorical</td>
</tr>
<tr>
<td>tenure</td>
<td>Количество месяцев, в течение которых клиент оставался в компании</td>
<td>numeric, int</td>
</tr>
<tr>
<td>PhoneService</td>
<td>Есть ли у клиента телефонная связь</td>
<td>categorical</td>
</tr>
<tr>
<td>MultipleLines</td>
<td>Есть ли у клиента несколько линий</td>
<td>categorical</td>
</tr>
<tr>
<td>InternetService</td>
<td>Интернет-провайдер клиента</td>
<td>categorical</td>
</tr>
<tr>
<td>OnlineSecurity</td>
<td>Есть ли у клиента онлайн-безопасность</td>
<td>categorical</td>
</tr>
<tr>
<td>OnlineBackup</td>
<td>Есть ли у клиента онлайн-резервное копирование</td>
<td>categorical</td>
</tr>
<tr>
<td>DeviceProtection</td>
<td>Имеет ли клиент защиту устройства</td>
<td>categorical</td>
</tr>
<tr>
<td>TechSupport</td>
<td>Есть ли у клиента техническая поддержка</td>
<td>categorical</td>
</tr>
<tr>
<td>streamingTV</td>
<td>Есть ли у клиента потоковое телевидение</td>
<td>categorical</td>
</tr>
<tr>
<td>streamingMovies</td>
<td>Есть ли у клиента стриминговые сервисы</td>
<td>categorical</td>
</tr>
<tr>
<td>Contract</td>
<td>Срок действия контракта заказчика</td>
<td>categorical</td>
</tr>
<tr>
<td>PaperlessBilling</td>
<td>имеет ли клиент безналичные счета</td>
<td>categorical</td>
</tr>
<tr>
<td>PaymentMethod</td>
<td>Способ оплаты клиента</td>
<td>categorical</td>
</tr>
<tr>
<td>MonthlyCharges</td>
<td>Сумма, взимаемая с клиента ежемесячно </td>
<td> numeric , int</td>
</tr>
<tr>
<td>TotalCharges</td>
<td>Общая сумма, списанная с клиента</td>
<td>object</td>
</tr>
<tr>
<td>Churn</td>
<td>Ушел ли клиент</td>
<td>categorical</td>
</tr>
</tbody>
</table>

Описание от заказчика:

Каждая строка представляет клиента, каждый столбец содержит атрибуты клиента.

Набор данных включает информацию о:

- Клиенты, которые ушли в течение последнего месяца - колонка называется `Churn`
- Услуги, на которые подписался каждый клиент - телефон, несколько линий, интернет, онлайн-безопасность, резервное копирование, защита устройств, техническая поддержка, потоковое ТВ и фильмы.
- Информация о счетах клиентов - как долго они являются клиентами, контракт, способ оплаты, безналичные счета, ежемесячные платежи и общая сумма платежей.
- Демографическая информация о клиентах - пол, возраст, наличие партнеров и иждивенцев.

## 1. Импорт Библиотек 

Импортируйте необходимые библиотеки

In [161]:
import numpy as np
import pandas as pd
from matplotlib import pyplot as plt
pd.set_option('display.max_columns', None) # отобразить все колонки

from scipy import stats
import warnings
warnings.filterwarnings('ignore')

## 2. Данные

In [77]:
df = pd.read_csv("churn.csv")
df.head()

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,Yes,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
1,5575-GNVDE,Male,0,No,No,34,Yes,No,DSL,Yes,No,Yes,No,No,No,One year,No,Mailed check,56.95,1889.5,No
2,3668-QPYBK,Male,0,No,No,2,Yes,No,DSL,Yes,Yes,No,No,No,No,Month-to-month,Yes,Mailed check,53.85,108.15,Yes
3,7795-CFOCW,Male,0,No,No,45,No,No phone service,DSL,Yes,No,Yes,Yes,No,No,One year,No,Bank transfer (automatic),42.3,1840.75,No
4,9237-HQITU,Female,0,No,No,2,Yes,No,Fiber optic,No,No,No,No,No,No,Month-to-month,Yes,Electronic check,70.7,151.65,Yes


## 2. Описательный анализ данных

Рассмотрите данные - изучите медианы, средние, дисперсии и т.д. 

Что можете сказать о данных? Сделайте вывод.

In [78]:
df.shape

(7043, 21)

In [79]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   gender            7043 non-null   object 
 2   SeniorCitizen     7043 non-null   int64  
 3   Partner           7043 non-null   object 
 4   Dependents        7043 non-null   object 
 5   tenure            7043 non-null   int64  
 6   PhoneService      7043 non-null   object 
 7   MultipleLines     7043 non-null   object 
 8   InternetService   7043 non-null   object 
 9   OnlineSecurity    7043 non-null   object 
 10  OnlineBackup      7043 non-null   object 
 11  DeviceProtection  7043 non-null   object 
 12  TechSupport       7043 non-null   object 
 13  StreamingTV       7043 non-null   object 
 14  StreamingMovies   7043 non-null   object 
 15  Contract          7043 non-null   object 
 16  PaperlessBilling  7043 non-null   object 


In [80]:
df.describe()

Unnamed: 0,SeniorCitizen,tenure,MonthlyCharges
count,7043.0,7043.0,7043.0
mean,0.162147,32.371149,64.761692
std,0.368612,24.559481,30.090047
min,0.0,0.0,18.25
25%,0.0,9.0,35.5
50%,0.0,29.0,70.35
75%,0.0,55.0,89.85
max,1.0,72.0,118.75


**Вывод:**
- Всего у нас 7043 строки и 21 столбец
- Нулевых значений нет
- Числовой тип данных имеют столбцы `SeniorCitizen` (является ли клиент пожилым), `tenure` (количество месяцев, в течение которых клиент оставаляся в компании), `MonthlyCharges` (сумма, взимаемая с клиента ежемесячно)
- Большинство людей не являются пожилыми
- В среднем клиент остается в компании примерно ~29-32 месяца
- Максимально клиент оставался в компании на 72 месяца
- В среднем списывается сумма примерно 65-70 долларов
- Минимум списывают 18.25 долларов, максмум - 118.75

### Уникальные значения для всех столбцов

Рассмотрите уникальные значения категориальных признаков. 

Сделайте вывод.

**Подсказка:** можете воспользоваться методом `describe(include='object')`

In [81]:
df.describe(include='object').T

Unnamed: 0,count,unique,top,freq
customerID,7043,7043,3186-AJIEK,1
gender,7043,2,Male,3555
Partner,7043,2,No,3641
Dependents,7043,2,No,4933
PhoneService,7043,2,Yes,6361
MultipleLines,7043,3,No,3390
InternetService,7043,3,Fiber optic,3096
OnlineSecurity,7043,3,No,3498
OnlineBackup,7043,3,No,3088
DeviceProtection,7043,3,No,3095


**Вывод:**
- Большинство признаков содержат порядковые данные, которые так или иначе содержат варианты `Yes` или `No`, а также какие-то дополнительные данные
- Столбец `TotalCharges` (общая сумма, списанная с клиента) содержит 6531 уникальное значение из 7043 (возможно можно будет перевести в числовой тип)

## 3. Предобработка данных

### Дубликаты

Предобработайте датасет - проверьте на наличие дубликатов и удалите, если они есть.

In [82]:
df.duplicated().sum()

np.int64(0)

Дубликатов нет

### Отсутствующие значения

Пояснение к данному датасету:

Не всегда в данных есть явные пропуски, которые легко индексируются средствами Pandas. К сожалению бывают проблемы с выгрузками данных, некачественными источниками, или когда данные записываются вручную - часто присутствует человеческий фактов. По мере работы с новыми данными лучше проверять на наличие таких данных, иначе из-за этого исследование может исказиться.

Рассмотрим такой случай:

In [83]:
df.isna().sum()

customerID          0
gender              0
SeniorCitizen       0
Partner             0
Dependents          0
tenure              0
PhoneService        0
MultipleLines       0
InternetService     0
OnlineSecurity      0
OnlineBackup        0
DeviceProtection    0
TechSupport         0
StreamingTV         0
StreamingMovies     0
Contract            0
PaperlessBilling    0
PaymentMethod       0
MonthlyCharges      0
TotalCharges        0
Churn               0
dtype: int64

Не видно пропусков. Но почему тогда столбец `TotalCharges` не отобразился изначально как числовой столбец?

Проверим все столбцы:

In [84]:
for col in df:
    if df[col].dtype == 'object':
        nans = df[col].apply(lambda x: len(x.strip())==0).sum()
        if nans > 0:
            print(f'Неявные пропуски столбца {col}:', df[col].apply(lambda x: len(x.strip())==0).sum())

Неявные пропуски столбца TotalCharges: 11


Что мы можем сделать в таком случае?

1) По этому же фильтру удалить строки с пропусками, чтобы не искажать данные
2) Перевести тип столбца на числовой и с параметром `errors = 'coerce'` и удалить

Но можно не удалять, чтобы потерять данные, а:

1) Заменить значения на среднюю
2) Поменять на другое - но только в том случае, если есть какая-то зависимость в данных.

Давайте изменим тип и найдем зависимость:

In [85]:
df["TotalCharges"] = pd.to_numeric(df["TotalCharges"], errors = 'coerce')

df[df["TotalCharges"].isna()]

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
488,4472-LVYGI,Female,0,Yes,Yes,0,No,No phone service,DSL,Yes,No,Yes,Yes,Yes,No,Two year,Yes,Bank transfer (automatic),52.55,,No
753,3115-CZMZD,Male,0,No,Yes,0,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,20.25,,No
936,5709-LVOEQ,Female,0,Yes,Yes,0,Yes,No,DSL,Yes,Yes,Yes,No,Yes,Yes,Two year,No,Mailed check,80.85,,No
1082,4367-NUYAO,Male,0,Yes,Yes,0,Yes,Yes,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,25.75,,No
1340,1371-DWPAZ,Female,0,Yes,Yes,0,No,No phone service,DSL,Yes,Yes,Yes,Yes,Yes,No,Two year,No,Credit card (automatic),56.05,,No
3331,7644-OMVMY,Male,0,Yes,Yes,0,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,19.85,,No
3826,3213-VVOLG,Male,0,Yes,Yes,0,Yes,Yes,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,25.35,,No
4380,2520-SGTTA,Female,0,Yes,Yes,0,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,20.0,,No
5218,2923-ARZLG,Male,0,Yes,Yes,0,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,One year,Yes,Mailed check,19.7,,No
6670,4075-WKNIU,Female,0,Yes,Yes,0,Yes,Yes,DSL,No,Yes,Yes,Yes,Yes,No,Two year,No,Mailed check,73.35,,No


**Но как выглядят наши данные обычно?**

In [86]:
df.sample(5)

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
5220,2282-YGNOR,Female,0,No,No,29,Yes,No,DSL,Yes,No,Yes,Yes,No,No,One year,No,Credit card (automatic),58.0,1734.5,No
6201,6458-CYIDZ,Female,1,No,No,5,Yes,No,Fiber optic,Yes,Yes,No,No,No,No,Month-to-month,No,Electronic check,80.7,374.8,No
4806,6729-FZWSY,Male,0,No,No,67,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,One year,Yes,Mailed check,19.45,1195.95,No
1747,3198-VELRD,Female,0,Yes,Yes,3,Yes,Yes,Fiber optic,No,No,No,No,No,Yes,Month-to-month,Yes,Bank transfer (automatic),84.75,264.85,Yes
5829,6933-VLYFX,Male,0,Yes,Yes,31,No,No phone service,DSL,Yes,No,Yes,Yes,Yes,Yes,One year,No,Electronic check,59.95,1848.8,No


**Ничего не заметили?**

Может общая сумма, списанная с клиента, равна сумме, взимаемой с клиента ежемесячно умноженное на количество времени?

Давайте посмострим.

In [87]:
df[(df['TotalCharges'] / df['MonthlyCharges']) == df['tenure']].head()

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
0,7590-VHVEG,Female,0,Yes,No,1,No,No phone service,DSL,No,Yes,No,No,No,No,Month-to-month,Yes,Electronic check,29.85,29.85,No
20,8779-QRDMV,Male,1,No,No,1,No,No phone service,DSL,No,No,Yes,No,No,Yes,Month-to-month,Yes,Electronic check,39.65,39.65,Yes
22,1066-JKSGK,Male,0,No,No,1,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Month-to-month,No,Mailed check,20.15,20.15,Yes
27,8665-UTDHZ,Male,0,Yes,Yes,1,No,No phone service,DSL,No,Yes,No,No,No,No,Month-to-month,No,Electronic check,30.2,30.2,Yes
33,7310-EGVHZ,Male,0,No,No,1,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Month-to-month,No,Bank transfer (automatic),20.2,20.2,No


Нашей гипотезе есть место быть.

Но давайте проверим:

In [88]:
print('Количество совпадений по нашей теории:')
print(df[(df['TotalCharges'] / df['MonthlyCharges']) == df['tenure']]['customerID'].count())
print('Количество различий:')
print(df[(df['TotalCharges'] / df['MonthlyCharges']) != df['tenure']]['customerID'].count())

Количество совпадений по нашей теории:
614
Количество различий:
6429


**Как видно**, что различий очень много, относительно одинаковых значений.

Но, а если мы проверим наше различие в долях или процентах? Проверяем:

In [89]:
# cоздаем series и считаем TotalCharges вручную
new_total = df['MonthlyCharges'] * df['tenure']

# посчитаем во сколько раз в среднем отличается наш new_total и TotalCharges - в процентном отношении
perc = abs(100 - (new_total / df['TotalCharges']).mean() * 100)

print(f'В среднем new_total отличается от TotalCharges на {perc:.4f}%')

В среднем new_total отличается от TotalCharges на 0.2311%


Как видно, они различаются незначительно (меньше `1%`), от чего мы можем предположить, что `TotalCharges` = `MonthlyCharges` * `время`. Скорее всего такие маленькие различия связаны с тем, что `tenure` округлялся.

В данном датасете указано только количество месяцев, без уточнения времени (до дней), потому будет грубо просто перемножить один столбец на другой. Но пропуски мы уже можем заменить на `0`, так как в тех строках `tenure` == 0. Такое небольшое исследование было сделано для того, чтобы заполнить наши пропуски нужным числом.

Заменим пропуски на нужное нам число.

In [90]:
df['TotalCharges'].fillna(0, inplace=True)

### Изменение типа данных

Рассмотрев все данные, замените типы на нужные (при необходимости):

- Если есть числа - на `int` или `float`
- Если категории - можно оставить `object`

In [91]:
df.sample(5)

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
3886,3786-WOVKF,Female,1,Yes,No,72,Yes,Yes,Fiber optic,Yes,Yes,No,No,Yes,Yes,One year,Yes,Bank transfer (automatic),106.85,7677.4,No
380,5651-CRHKQ,Female,0,Yes,No,41,Yes,No,Fiber optic,No,Yes,Yes,Yes,No,No,One year,Yes,Bank transfer (automatic),86.2,3339.05,No
5039,4713-LZDRV,Female,1,No,No,2,Yes,No,Fiber optic,No,No,No,No,No,Yes,Month-to-month,Yes,Electronic check,79.6,195.05,Yes
949,6169-PPETC,Male,0,Yes,Yes,35,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Bank transfer (automatic),20.5,759.35,No
3522,0969-RGKCU,Male,0,Yes,Yes,37,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,One year,No,Credit card (automatic),19.8,677.05,No


In [92]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   gender            7043 non-null   object 
 2   SeniorCitizen     7043 non-null   int64  
 3   Partner           7043 non-null   object 
 4   Dependents        7043 non-null   object 
 5   tenure            7043 non-null   int64  
 6   PhoneService      7043 non-null   object 
 7   MultipleLines     7043 non-null   object 
 8   InternetService   7043 non-null   object 
 9   OnlineSecurity    7043 non-null   object 
 10  OnlineBackup      7043 non-null   object 
 11  DeviceProtection  7043 non-null   object 
 12  TechSupport       7043 non-null   object 
 13  StreamingTV       7043 non-null   object 
 14  StreamingMovies   7043 non-null   object 
 15  Contract          7043 non-null   object 
 16  PaperlessBilling  7043 non-null   object 


**Вывод:**
- Тут данные не требуют преобразований

# 4 Проверка гипотез

Задание: сравнить сравнить две выборки - `Churn='No'` и `Churn='Yes'` 

Гипотеза - среднее количество месяцев, в течение которых клиент оставался в компании, отличается между двумя выборками.

In [93]:
tenure_churn_yes = df.loc[df['Churn'] == 'Yes', 'tenure']
tenure_churn_no = df.loc[df['Churn'] == 'No', 'tenure']

In [94]:
alpha = .05

_, pvalue = stats.ttest_ind(tenure_churn_no, tenure_churn_yes)

if pvalue < alpha:
    print(f'pvalue = {pvalue:.5f}. Выборки НЕ равны')
else:
    print(f'pvalue = {pvalue:.5f}. Выборки равны')

pvalue = 0.00000. Выборки НЕ равны


**Вывод:**
- Среднее количество месяцев отличается между выборками

## 5 Статистический анализ на норму

Задание: выберите числовые признаки и проведите анализ - соответсвуют ли распредения нормальному?

In [95]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   gender            7043 non-null   object 
 2   SeniorCitizen     7043 non-null   int64  
 3   Partner           7043 non-null   object 
 4   Dependents        7043 non-null   object 
 5   tenure            7043 non-null   int64  
 6   PhoneService      7043 non-null   object 
 7   MultipleLines     7043 non-null   object 
 8   InternetService   7043 non-null   object 
 9   OnlineSecurity    7043 non-null   object 
 10  OnlineBackup      7043 non-null   object 
 11  DeviceProtection  7043 non-null   object 
 12  TechSupport       7043 non-null   object 
 13  StreamingTV       7043 non-null   object 
 14  StreamingMovies   7043 non-null   object 
 15  Contract          7043 non-null   object 
 16  PaperlessBilling  7043 non-null   object 


- 4 числовых признака: `SeniorCitizen`, `tenure`, `MonthlyCharges`, `TotalCharges`

In [96]:
_, pvalue = stats.normaltest(df.SeniorCitizen)

if pvalue < .05:
    print(f'pvalue = {pvalue}. Данные НЕ распределены нормально')
else:
    print(f'pvalue = {pvalue}. Данные распределены нормально')

pvalue = 0.0. Данные НЕ распределены нормально


In [97]:
_, pvalue = stats.normaltest(df.tenure)

if pvalue < .05:
    print(f'pvalue = {pvalue}. Данные НЕ распределены нормально')
else:
    print(f'pvalue = {pvalue}. Данные распределены нормально')

pvalue = 0.0. Данные НЕ распределены нормально


In [98]:
_, pvalue = stats.normaltest(df.MonthlyCharges)

if pvalue < .05:
    print(f'pvalue = {pvalue}. Данные НЕ распределены нормально')
else:
    print(f'pvalue = {pvalue}. Данные распределены нормально')

pvalue = 0.0. Данные НЕ распределены нормально


In [99]:
_, pvalue = stats.normaltest(df.TotalCharges)

if pvalue < .05:
    print(f'pvalue = {pvalue}. Данные НЕ распределены нормально')
else:
    print(f'pvalue = {pvalue}. Данные распределены нормально')

pvalue = 2.6049140547884825e-176. Данные НЕ распределены нормально


**Вывод:**
- Нет данных, которые были бы распределены нормально

## 6 ЗАДАЧИ PRO

Мы провели базовый анализ выше и сделали выводы.

Но требование заказчика - выяснить причину ухода клиента.

Ваша задача - провести полный анализ с помощью статистических гипотез взаимосвязи всех признаков с нашим таргетом `Churn` (целевым признаком). 

**Этапы:**

1) Предобработка данных - измените датасет, в части: категориальные признаки надо перевести в числовые представления (закодировать). Главное - понимать взаимосвязь: бинарный признак, порядковый, просто категории или что-то иное. 
2) Выберите нужные гипотезы, основываясь на типах признаков.
3) Проведите анализ, и выясните, почему клиент уходит, с чем коррелирует `Churn`, может это зависит от пола клиента? Или есть иные обстоятельства?
4) После проверки гипотез, постройте тепловую карту корреляции `Phik` и сделайте дополнительный вывод.
5) Дополните общий вывод. 

**Примечание:** задание не ограничено только этими этапами. Можно их дополнить - может стоит сделать фильтр данных, рассмотреть данные под другим углом и провести дополнительную аналитику? Средствами и методами не ограничены.

**Подсказка:** для того, чтобы перевести наши категориальные переменные в числа (`0`, `1`, `2` и т.д.), можно воспользоваться функцией в `pandas`:

```python
pd.factorize(data[col])
```
Результат будет таким (если взять столбец `gender`):
- `(array([0, 1, 1, ..., 0, 1, 1]), Index(['Female', 'Male'], dtype='object'))`

Где:
- `(array([0, 1, 1, ..., 0, 1, 1])` - это наш новый array, которым можем заменить значения
- `Index(['Female', 'Male'], dtype='object'))` - старые значения, соответствующие числам выше (`Female`=`0`, `Male`=`1`)

Соответственно, можем заменить значения в категориях на числа такой командой (если взять столбец `gender`):
```python
df['gender'] = pd.factorize(df['gender'])[0]
```

> **Примечание:** когда **категориальная** переменная изменяется на числа, она все равно остается **категориальной**! Просто теперь наш признак стал **закодированным** (то есть мы изменили слова на числа). 

In [100]:
df.describe(include='object').T

Unnamed: 0,count,unique,top,freq
customerID,7043,7043,3186-AJIEK,1
gender,7043,2,Male,3555
Partner,7043,2,No,3641
Dependents,7043,2,No,4933
PhoneService,7043,2,Yes,6361
MultipleLines,7043,3,No,3390
InternetService,7043,3,Fiber optic,3096
OnlineSecurity,7043,3,No,3498
OnlineBackup,7043,3,No,3088
DeviceProtection,7043,3,No,3095


In [101]:
df['Churn'].unique()

array(['No', 'Yes'], dtype=object)

In [102]:
df['gender'] = df['gender'].replace({'Male': 1, 'Female': 0})
df['Partner'] = df['Partner'].replace({'Yes': 1, 'No': 0})
df['Dependents'] = df['Dependents'].replace({'Yes': 1, 'No': 0})
df['PhoneService'] = df['PhoneService'].replace({'Yes': 1, 'No': 0})
df['MultipleLines'] = df['MultipleLines'].replace({'No phone service': 2, 'Yes': 1, 'No': 0})
df['InternetService'] = df['InternetService'].replace({'DSL': 2, 'Fiber optic': 1, 'No': 0})
df['OnlineSecurity'] = df['OnlineSecurity'].replace({'No internet service': 2, 'Yes': 1, 'No': 0})
df['OnlineBackup'] = df['OnlineBackup'].replace({'No internet service': 2, 'Yes': 1, 'No': 0})
df['DeviceProtection'] = df['DeviceProtection'].replace({'No internet service': 2, 'Yes': 1, 'No': 0})
df['TechSupport'] = df['TechSupport'].replace({'No internet service': 2, 'Yes': 1, 'No': 0})
df['StreamingTV'] = df['StreamingTV'].replace({'No internet service': 2, 'Yes': 1, 'No': 0})
df['StreamingMovies'] = df['StreamingMovies'].replace({'No internet service': 2, 'Yes': 1, 'No': 0})
df['Contract'] = df['Contract'].replace({'Two year': 2, 'One year': 1, 'Month-to-month': 0})
df['PaperlessBilling'] = df['PaperlessBilling'].replace({'Yes': 1, 'No': 0})
df['PaymentMethod'] = df['PaymentMethod'].replace({'Electronic check': 3, 'Mailed check': 2, 'Bank transfer (automatic)': 1, 'Credit card (automatic)': 0})
df['Churn'] = df['Churn'].replace({'Yes': 1, 'No': 0})


### Сравниваем пребывание клиента в компании при различных условиях

In [103]:
def test_ind(a, b):
    alpha = .05
    _, pvalue = stats.ttest_ind(a, b)

    if pvalue < alpha:
        print(f'pvalue = {round(pvalue, 2)}. !!!!!! Выборки разные. Есть какая-то зависимость')
    else:
        print(f'pvalue = {round(pvalue, 2)}. Выборки одинаковые. Не зависит')

In [104]:
a = df.loc[df['Partner'] == 1, 'tenure']
b = df.loc[df['Partner'] == 0, 'tenure']
test_ind(a, b)

pvalue = 0.0. !!!!!! Выборки разные. Есть какая-то зависимость


In [126]:
print(f'''При наличии партнера клиент остается в среднем на {df.loc[df['Partner'] == 1, 'tenure'].mean()} месяцев
Без партнера клиент остается в среднем на {df.loc[df['Partner'] == 0, 'tenure'].mean()}''')
print(f'''При наличии партнера клиент остается по медиане на {df.loc[df['Partner'] == 1, 'tenure'].median()} месяцев
Без партнера клиент остается по медиане на {df.loc[df['Partner'] == 0, 'tenure'].median()}''')

При наличии партнера клиент остается в среднем на 42.01763668430335 месяцев
Без партнера клиент остается в среднем на 23.357868717385333
При наличии партнера клиент остается по медиане на 46.0 месяцев
Без партнера клиент остается по медиане на 16.0


In [105]:
a = df.loc[df['gender'] == 1, 'tenure']
b = df.loc[df['gender'] == 0, 'tenure']
test_ind(a, b)

pvalue = 0.67. Выборки одинаковые. Не зависит


In [106]:
a = df.loc[df['Dependents'] == 1, 'tenure']
b = df.loc[df['Dependents'] == 0, 'tenure']
test_ind(a, b)

pvalue = 0.0. !!!!!! Выборки разные. Есть какая-то зависимость


In [127]:
print(f'''При статусе кормильца клиент остается в среднем на {df.loc[df['Dependents'] == 1, 'tenure'].mean()} месяцев
Без статуса кормильца клиент остается в среднем на {df.loc[df['Dependents'] == 0, 'tenure'].mean()}''')
print(f'''При статусе кормильца клиент остается по медиане на {df.loc[df['Dependents'] == 1, 'tenure'].median()} месяцев
Без статуса кормильца клиент остается по медиане на {df.loc[df['Dependents'] == 0, 'tenure'].median()}''')

При статусе кормильца клиент остается в среднем на 38.36824644549763 месяцев
Без статуса кормильца клиент остается в среднем на 29.8060004054328
При статусе кормильца клиент остается по медиане на 39.0 месяцев
Без статуса кормильца клиент остается по медиане на 25.0


In [136]:
a = df.loc[df['PhoneService'] == 1, 'tenure']
b = df.loc[df['PhoneService'] == 0, 'tenure']
test_ind(a, b)

pvalue = 0.48. Выборки одинаковые. Не зависит


In [108]:
a = df.loc[df['MultipleLines'] == 1, 'tenure']
b = df.loc[df['MultipleLines'] == 0, 'tenure']
c = df.loc[df['MultipleLines'] == 2, 'tenure']
test_ind(a, b)
test_ind(a, c)
test_ind(b, c)

pvalue = 0.0. !!!!!! Выборки разные. Есть какая-то зависимость
pvalue = 0.0. !!!!!! Выборки разные. Есть какая-то зависимость
pvalue = 0.0. !!!!!! Выборки разные. Есть какая-то зависимость


In [130]:
print(f"{df.loc[df['MultipleLines'] == 0, 'tenure'].mean()} No phone service")
print(f"{df.loc[df['MultipleLines'] == 1, 'tenure'].mean()} Yes")
print(f"{df.loc[df['MultipleLines'] == 2, 'tenure'].mean()} No")

24.13480825958702 No phone service
41.91450690003366 Yes
31.737536656891496 No


In [109]:
a = df.loc[df['InternetService'] == 1, 'tenure']
b = df.loc[df['InternetService'] == 0, 'tenure']
c = df.loc[df['InternetService'] == 2, 'tenure']
test_ind(a, b)
test_ind(a, c)
test_ind(b, c)

pvalue = 0.0. !!!!!! Выборки разные. Есть какая-то зависимость
pvalue = 0.89. Выборки одинаковые. Не зависит
pvalue = 0.0. !!!!!! Выборки разные. Есть какая-то зависимость


In [134]:
print(f"{df.loc[df['InternetService'] == 1, 'tenure'].mean()} Fiber optic")
print(f"{df.loc[df['InternetService'] == 2, 'tenure'].mean()} DSL")

32.91795865633075 Fiber optic
32.82156133828996 DSL


In [110]:
a = df.loc[df['OnlineSecurity'] == 1, 'tenure']
b = df.loc[df['OnlineSecurity'] == 0, 'tenure']
c = df.loc[df['OnlineSecurity'] == 2, 'tenure']
test_ind(a, b)
test_ind(a, c)
test_ind(b, c)

pvalue = 0.0. !!!!!! Выборки разные. Есть какая-то зависимость
pvalue = 0.0. !!!!!! Выборки разные. Есть какая-то зависимость
pvalue = 0.0. !!!!!! Выборки разные. Есть какая-то зависимость


In [139]:
print(f"{df.loc[df['OnlineSecurity'] == 1, 'tenure'].mean()} Yes")
print(f"{df.loc[df['OnlineSecurity'] == 2, 'tenure'].mean()} No internet service")
print(f"{df.loc[df['OnlineSecurity'] == 0, 'tenure'].mean()} No")

45.04655770183259 Yes
30.54718217562254 No internet service
25.850771869639793 No


In [111]:
a = df.loc[df['OnlineBackup'] == 1, 'tenure']
b = df.loc[df['OnlineBackup'] == 0, 'tenure']
c = df.loc[df['OnlineBackup'] == 2, 'tenure']
test_ind(a, b)
test_ind(a, c)
test_ind(b, c)

pvalue = 0.0. !!!!!! Выборки разные. Есть какая-то зависимость
pvalue = 0.0. !!!!!! Выборки разные. Есть какая-то зависимость
pvalue = 0.0. !!!!!! Выборки разные. Есть какая-то зависимость


In [140]:
print(f"{df.loc[df['OnlineBackup'] == 1, 'tenure'].mean()} Yes")
print(f"{df.loc[df['OnlineBackup'] == 2, 'tenure'].mean()} No internet service")
print(f"{df.loc[df['OnlineBackup'] == 0, 'tenure'].mean()} No")

44.56525319061342 Yes
30.54718217562254 No internet service
23.680699481865286 No


In [112]:
a = df.loc[df['DeviceProtection'] == 1, 'tenure']
b = df.loc[df['DeviceProtection'] == 0, 'tenure']
c = df.loc[df['DeviceProtection'] == 2, 'tenure']
test_ind(a, b)
test_ind(a, c)
test_ind(b, c)

pvalue = 0.0. !!!!!! Выборки разные. Есть какая-то зависимость
pvalue = 0.0. !!!!!! Выборки разные. Есть какая-то зависимость
pvalue = 0.0. !!!!!! Выборки разные. Есть какая-то зависимость


In [141]:
print(f"{df.loc[df['DeviceProtection'] == 1, 'tenure'].mean()} Yes")
print(f"{df.loc[df['DeviceProtection'] == 2, 'tenure'].mean()} No internet service")
print(f"{df.loc[df['DeviceProtection'] == 0, 'tenure'].mean()} No")

44.60487200660611 Yes
30.54718217562254 No internet service
23.696930533117932 No


In [113]:
a = df.loc[df['TechSupport'] == 1, 'tenure']
b = df.loc[df['TechSupport'] == 0, 'tenure']
c = df.loc[df['TechSupport'] == 2, 'tenure']
test_ind(a, b)
test_ind(a, c)
test_ind(b, c)

pvalue = 0.0. !!!!!! Выборки разные. Есть какая-то зависимость
pvalue = 0.0. !!!!!! Выборки разные. Есть какая-то зависимость
pvalue = 0.0. !!!!!! Выборки разные. Есть какая-то зависимость


In [142]:
print(f"{df.loc[df['TechSupport'] == 1, 'tenure'].mean()} Yes")
print(f"{df.loc[df['TechSupport'] == 2, 'tenure'].mean()} No internet service")
print(f"{df.loc[df['TechSupport'] == 0, 'tenure'].mean()} No")

44.82289628180039 Yes
30.54718217562254 No internet service
25.84422689317593 No


In [114]:
a = df.loc[df['StreamingTV'] == 1, 'tenure']
b = df.loc[df['StreamingTV'] == 0, 'tenure']
c = df.loc[df['StreamingTV'] == 2, 'tenure']
test_ind(a, b)
test_ind(a, c)
test_ind(b, c)

pvalue = 0.0. !!!!!! Выборки разные. Есть какая-то зависимость
pvalue = 0.0. !!!!!! Выборки разные. Есть какая-то зависимость
pvalue = 0.0. !!!!!! Выборки разные. Есть какая-то зависимость


In [143]:
print(f"{df.loc[df['StreamingTV'] == 1, 'tenure'].mean()} Yes")
print(f"{df.loc[df['StreamingTV'] == 2, 'tenure'].mean()} No internet service")
print(f"{df.loc[df['StreamingTV'] == 0, 'tenure'].mean()} No")

41.066124861470264 Yes
30.54718217562254 No internet service
24.98540925266904 No


In [115]:
a = df.loc[df['StreamingMovies'] == 1, 'tenure']
b = df.loc[df['StreamingMovies'] == 0, 'tenure']
c = df.loc[df['StreamingMovies'] == 2, 'tenure']
test_ind(a, b)
test_ind(a, c)
test_ind(b, c)

pvalue = 0.0. !!!!!! Выборки разные. Есть какая-то зависимость
pvalue = 0.0. !!!!!! Выборки разные. Есть какая-то зависимость
pvalue = 0.0. !!!!!! Выборки разные. Есть какая-то зависимость


In [144]:
print(f"{df.loc[df['StreamingMovies'] == 1, 'tenure'].mean()} Yes")
print(f"{df.loc[df['StreamingMovies'] == 2, 'tenure'].mean()} No internet service")
print(f"{df.loc[df['StreamingMovies'] == 0, 'tenure'].mean()} No")

41.19729136163983 Yes
30.54718217562254 No internet service
24.712387791741474 No


In [116]:
a = df.loc[df['Contract'] == 1, 'tenure']
b = df.loc[df['Contract'] == 0, 'tenure']
c = df.loc[df['Contract'] == 2, 'tenure']
test_ind(a, b)
test_ind(a, c)
test_ind(b, c)

pvalue = 0.0. !!!!!! Выборки разные. Есть какая-то зависимость
pvalue = 0.0. !!!!!! Выборки разные. Есть какая-то зависимость
pvalue = 0.0. !!!!!! Выборки разные. Есть какая-то зависимость


In [145]:
print(f"{df.loc[df['Contract'] == 1, 'tenure'].mean()} One year")
print(f"{df.loc[df['Contract'] == 2, 'tenure'].mean()} two year")
print(f"{df.loc[df['Contract'] == 0, 'tenure'].mean()} Month-to-month")

42.044806517311606 One year
56.73510324483776 two year
18.036645161290323 Month-to-month


In [117]:
a = df.loc[df['PaperlessBilling'] == 1, 'tenure']
b = df.loc[df['PaperlessBilling'] == 0, 'tenure']
test_ind(a, b)

pvalue = 0.61. Выборки одинаковые. Не зависит


In [121]:
a = df.loc[df['PaymentMethod'] == 1, 'tenure']
b = df.loc[df['PaymentMethod'] == 0, 'tenure']
c = df.loc[df['PaymentMethod'] == 2, 'tenure']
d = df.loc[df['PaymentMethod'] == 3, 'tenure']
test_ind(a, b)
test_ind(a, c)
test_ind(a, d)
test_ind(b, c)
test_ind(b, d)
test_ind(c, d)

pvalue = 0.64. Выборки одинаковые. Не зависит
pvalue = 0.0. !!!!!! Выборки разные. Есть какая-то зависимость
pvalue = 0.0. !!!!!! Выборки разные. Есть какая-то зависимость
pvalue = 0.0. !!!!!! Выборки разные. Есть какая-то зависимость
pvalue = 0.0. !!!!!! Выборки разные. Есть какая-то зависимость
pvalue = 0.0. !!!!!! Выборки разные. Есть какая-то зависимость


In [146]:
print(f"{df.loc[df['PaymentMethod'] == 1, 'tenure'].mean()} Bank transfer (automatic)")
print(f"{df.loc[df['PaymentMethod'] == 2, 'tenure'].mean()} Mailed check")
print(f"{df.loc[df['PaymentMethod'] == 0, 'tenure'].mean()} Credit card (automatic)")
print(f"{df.loc[df['PaymentMethod'] == 3, 'tenure'].mean()} Electronic check")

43.65673575129534 Bank transfer (automatic)
21.830024813895783 Mailed check
43.269382391590014 Credit card (automatic)
25.17463002114165 Electronic check


In [120]:
a = df.loc[df['Churn'] == 1, 'tenure']
b = df.loc[df['Churn'] == 0, 'tenure']
test_ind(a, b)

pvalue = 0.0. !!!!!! Выборки разные. Есть какая-то зависимость


In [147]:
print(f"{df.loc[df['Churn'] == 1, 'tenure'].mean()}")
print(f"{df.loc[df['Churn'] == 0, 'tenure'].mean()}")

17.979133226324237
37.56996521066873


### Корреляции

In [155]:
def correlation(a, b, col):
    
    print('=================================================================')
    print(f'Проверяем {col}')

    correlation, pvalue = stats.pearsonr(a, b)

    print(f'Корреляция Пирсона равна {correlation}')
    if pvalue < .05:
        print(f'pvalue = {pvalue}.!!!!! Данные между собой зависимы')
    else:
        print(f'pvalue = {pvalue}. Данные между собой НЕзависимы')

    print('=================================================================')

    correlation, pvalue = stats.spearmanr(a, b)

    print(f'Корреляция Спирмена равна {correlation}')
    if pvalue < .05:
        print(f'pvalue = {pvalue}.!!!!! Данные между собой зависимы')
    else:
        print(f'pvalue = {pvalue}. Данные между собой НЕзависимы')

    print('=================================================================')

In [149]:
cols = ['gender', 'Partner', 'Dependents', 'PhoneService', 'MultipleLines', 'InternetService', 
        'OnlineSecurity', 'OnlineBackup', 'DeviceProtection', 'TechSupport', 'StreamingTV', 
        'StreamingMovies', 'Contract', 'PaperlessBilling', 'PaymentMethod', 'tenure']

In [156]:
for col in cols:
    correlation(df[col], df['Churn'], col)

Проверяем gender
Корреляция Пирсона равна -0.008612095078997796
pvalue = 0.46990453909804414. Данные между собой НЕзависимы
Корреляция Спирмена равна -0.00861209507899781
pvalue = 0.4699045390980453. Данные между собой НЕзависимы
Проверяем Partner
Корреляция Пирсона равна -0.1504475449591766
pvalue = 6.220731129619536e-37.!!!!! Данные между собой зависимы
Корреляция Спирмена равна -0.15044754495917653
pvalue = 6.2207311296213015e-37.!!!!! Данные между собой зависимы
Проверяем Dependents
Корреляция Пирсона равна -0.16422140157972528
pvalue = 9.140432989090262e-44.!!!!! Данные между собой зависимы
Корреляция Спирмена равна -0.16422140157972526
pvalue = 9.140432989088978e-44.!!!!! Данные между собой зависимы
Проверяем PhoneService
Корреляция Пирсона равна 0.011941980029003053
pvalue = 0.31631478134317265. Данные между собой НЕзависимы
Корреляция Спирмена равна 0.011941980029003079
pvalue = 0.3163147813431695. Данные между собой НЕзависимы
Проверяем MultipleLines
Корреляция Пирсона равна 0

In [166]:
print(f"{df.loc[df['OnlineSecurity'] == 2, 'Churn'].mean()} No internet service")
print(f"{df.loc[df['OnlineSecurity'] == 1, 'Churn'].mean()} Yes")
print(f"{df.loc[df['OnlineSecurity'] == 0, 'Churn'].mean()} No")

0.07404980340760157 No internet service
0.14611193660227836 Yes
0.4176672384219554 No


In [167]:
print(f"{df.loc[df['Partner'] == 1, 'Churn'].mean()} Yes")
print(f"{df.loc[df['Partner'] == 0, 'Churn'].mean()} No")

0.1966490299823633 Yes
0.32957978577313923 No


In [168]:
print(f"{df.loc[df['Dependents'] == 1, 'Churn'].mean()} Yes")
print(f"{df.loc[df['Dependents'] == 0, 'Churn'].mean()} No")

0.15450236966824646 Yes
0.3127914048246503 No


In [169]:
print(f"{df.loc[df['OnlineBackup'] == 2, 'Churn'].mean()} No internet service")
print(f"{df.loc[df['OnlineBackup'] == 1, 'Churn'].mean()} Yes")
print(f"{df.loc[df['OnlineBackup'] == 0, 'Churn'].mean()} No")

0.07404980340760157 No internet service
0.21531494442157267 Yes
0.39928756476683935 No


In [170]:
print(f"{df.loc[df['DeviceProtection'] == 2, 'Churn'].mean()} No internet service")
print(f"{df.loc[df['DeviceProtection'] == 1, 'Churn'].mean()} Yes")
print(f"{df.loc[df['DeviceProtection'] == 0, 'Churn'].mean()} No")

0.07404980340760157 No internet service
0.2250206440957886 Yes
0.3912762520193861 No


In [171]:
print(f"{df.loc[df['TechSupport'] == 2, 'Churn'].mean()} No internet service")
print(f"{df.loc[df['TechSupport'] == 1, 'Churn'].mean()} Yes")
print(f"{df.loc[df['TechSupport'] == 0, 'Churn'].mean()} No")

0.07404980340760157 No internet service
0.15166340508806261 Yes
0.4163547365390153 No


In [172]:
print(f"{df.loc[df['StreamingTV'] == 2, 'Churn'].mean()} No internet service")
print(f"{df.loc[df['StreamingTV'] == 1, 'Churn'].mean()} Yes")
print(f"{df.loc[df['StreamingTV'] == 0, 'Churn'].mean()} No")

0.07404980340760157 No internet service
0.30070188400443293 Yes
0.33523131672597867 No


In [173]:
print(f"{df.loc[df['StreamingMovies'] == 2, 'Churn'].mean()} No internet service")
print(f"{df.loc[df['StreamingMovies'] == 1, 'Churn'].mean()} Yes")
print(f"{df.loc[df['StreamingMovies'] == 0, 'Churn'].mean()} No")

0.07404980340760157 No internet service
0.29941434846266474 Yes
0.33680430879712747 No


In [174]:
print(f"{df.loc[df['Contract'] == 2, 'Churn'].mean()} Two years")
print(f"{df.loc[df['Contract'] == 1, 'Churn'].mean()} One year")
print(f"{df.loc[df['Contract'] == 0, 'Churn'].mean()} month to month")

0.02831858407079646 Two years
0.11269517990495587 One year
0.4270967741935484 month to month


In [175]:
print(f"{df.loc[df['PaperlessBilling'] == 1, 'Churn'].mean()} Yes")
print(f"{df.loc[df['PaperlessBilling'] == 0, 'Churn'].mean()} No")

0.33565092304003835 Yes
0.1633008356545961 No


In [176]:
print(f"{df.loc[df['PaymentMethod'] == 3, 'Churn'].mean()} Electronic check")
print(f"{df.loc[df['PaymentMethod'] == 2, 'Churn'].mean()} Mailed check")
print(f"{df.loc[df['PaymentMethod'] == 1, 'Churn'].mean()} Bank transfer (automatic)")
print(f"{df.loc[df['PaymentMethod'] == 0, 'Churn'].mean()} Credit card (automatic)")

0.4528541226215645 Electronic check
0.19106699751861042 Mailed check
0.16709844559585493 Bank transfer (automatic)
0.15243101182654403 Credit card (automatic)


# Общий вывод

Опишите данные и результат исследования, основываясь на предыдущих шагах:

1. Сначала через stats.ttest_ind было выяснено, что влияет на продолжительность предывания клиентов в компании
2. Далее была вычислена корреляция
3. Потом на основе наиболее значимых данных было высчитано среднее значение ушедших на сгруппированных признаках с наиболее высокими корреляциями

- Клиент остается в компании на 16-20 месяцев меньше без партнера, чем те, у кого есть партнер
- Те, кто не является кормильцем остаются в компании примерно на 10 месяцев меньше
- В среднем те, у кого нет нескольких линий сидят в компании на 10 месяцев меньше, в отличие от тех, у кого она есть, и на 20 месяцев меньше сидят в компании те, у кого нет сервиса телефона
- В среднем те, у кого DSL или Fiber optic сидят в компании на 2 месяца дольше, чем люди без интернет сервисов
- В среднем те, у кого есть онлайн-безопасность на 15 месяцев дольше остаются в компании, чем те, у кого нет интернет сервиса и на 20 месяцев остаются дольше чем те, у кого нет онлайн безопасности
- Такая же тенденция с теми клиентами, у которых есть онлайн резервное копирование
- Такая же тенденция с теми, у кого защита устройства
- Такая же тенденция с теми, у кого техническая поддержка
- В среднем те, у кого есть стриминговое тв на 10 месяцев дольше остаются в компании, чем те, у кого нет интернет сервиса и на 15 месяцев остаются дольше чем те, у кого нет стриминговых сервисов
- Та же тенденция со стриминговыми сервисами
- В среднем у кого контракт на 2 года остаются почти на 57 месяцев, у кого 1 год - 42 месяца, и те, у кого ежемесячная оплата остаются на 18 месяцев
- У кого способ оплаты с помощью автоматического списания с банка или с карты в среднем остаются на 43 месяца, у кого электронный чек, остаются на 25 месяцев, у кого чек по почте на 21 месяц
- те, которые ушли оставались на 17 месяцев, те которые нет сидят в компании в среднем 37 месяцев
============================================================================================================================================
- Больше 40% из тех кто ушел не имели сервиса онлайн защиты
- 33% из тех кто ушел не имели партнера
- 31% из тех кто ушел не являлся кормильцем
- 40% из тех кто ушел не использовали бэкапы
- 40% из тех кто уше не имели защиту устройства
- у 40% из тех кто ушел не было тех поддержки
- у почти 43% был контракт ежемесячный

- Клиенты, у которых есть партнер или семья, остаются в компании дольше. Это может указывать на то, что компания может использовать семейные пакеты или предложения для клиентов с партнерами.

- Клиенты, у которых есть онлайн-безопасность, защита устройства и техническая поддержка, остаются значительно дольше. Это свидетельствует о важности этих услуг для удержания клиентов.

- Наличие нескольких линий и телефонных сервисов также связано с более длительным временем пребывания. Это может означать, что компании следует предлагать комплексные пакеты услуг.

- Клиенты, имеющие доступ к интернет-сервисам (DSL или Fiber optic), остаются дольше. Это говорит о том, что улучшение качества и скорости интернета может способствовать удержанию клиентов.

- Долгосрочные контракты (на 2 года) способствуют удержанию, в то время как месячные контракты связаны с более низким временем пребывания. Кроме того, автоматическое списание с банковского счета или кредитной карты также увеличивает время, проведенное клиентами в компании.

- Можно разработать более привлекательные пакеты услуг, включая онлайн-безопасность, резервное копирование и техническую поддержку, чтобы клиенты ощущали дополнительную ценность.

- Можно ввести специальные предложения для клиентов с партнерами или семьями, чтобы увеличить удержание клиентов.

- Предложить клиентам больше разнообразия в пакетах услуг, включая различные комбинации телефонных и интернет-сервисов, чтобы повысить привлекательность.

- Рассмотреть возможность более гибкого подхода к контрактам, возможно, предлагать выгодные условия для долгосрочных клиентов, чтобы увеличить их лояльность.

- Повысить информированность клиентов о доступных услугах и пакетах, особенно о тех, которые могут повысить их уровень безопасности и удобства.

- Проводить регулярный анализ данных о клиентах для выявления дополнительных причин ухода и корректировки стратегий удержания.

- Создать каналы для обратной связи, чтобы понять, что именно вызывает недовольство клиентов, и работать над улучшением этих аспектов.