
# Проверка гипотез с помощью python.

## Задание

* Выполненить проверку предложенной гипотезы
* Выполненить проверку статистической гипотезы для проверки нормальности числовых признаков
* Проверка мультиколлинеарности
* Все статистические тесты должны быть выполнены с 95%-ным уровнем достоверности (т.е. значение р < 0,05)

## Датасет

Как данные представлены заказчиком:

<table>
<thead><tr>
<th><strong>Feature Name</strong></th>
<th><strong>Description</strong></th>
<th><strong>Data Type</strong></th>
</tr>
</thead>
<tbody>
<tr>
<td>customerID</td>
<td>Содержит идентификатор клиента</td>
<td>categorical</td>
</tr>
<tr>
<td>gender</td>
<td>Пол клиента</td>
<td>categorical</td>
</tr>
<tr>
<td>SeniorCitizen</td>
<td>Является ли клиент пожилым гражданином</td>
<td>numeric, int</td>
</tr>
<tr>
<td>Partner</td>
<td>Есть ли у клиента партнер</td>
<td>categorical</td>
</tr>
<tr>
<td>Dependents</td>
<td>Является ли клиент кормильцем</td>
<td>categorical</td>
</tr>
<tr>
<td>tenure</td>
<td>Количество месяцев, в течение которых клиент оставался в компании</td>
<td>numeric, int</td>
</tr>
<tr>
<td>PhoneService</td>
<td>Есть ли у клиента телефонная связь</td>
<td>categorical</td>
</tr>
<tr>
<td>MultipleLines</td>
<td>Есть ли у клиента несколько линий</td>
<td>categorical</td>
</tr>
<tr>
<td>InternetService</td>
<td>Интернет-провайдер клиента</td>
<td>categorical</td>
</tr>
<tr>
<td>OnlineSecurity</td>
<td>Есть ли у клиента онлайн-безопасность</td>
<td>categorical</td>
</tr>
<tr>
<td>OnlineBackup</td>
<td>Есть ли у клиента онлайн-резервное копирование</td>
<td>categorical</td>
</tr>
<tr>
<td>DeviceProtection</td>
<td>Имеет ли клиент защиту устройства</td>
<td>categorical</td>
</tr>
<tr>
<td>TechSupport</td>
<td>Есть ли у клиента техническая поддержка</td>
<td>categorical</td>
</tr>
<tr>
<td>streamingTV</td>
<td>Есть ли у клиента потоковое телевидение</td>
<td>categorical</td>
</tr>
<tr>
<td>streamingMovies</td>
<td>Есть ли у клиента стриминговые сервисы</td>
<td>categorical</td>
</tr>
<tr>
<td>Contract</td>
<td>Срок действия контракта заказчика</td>
<td>categorical</td>
</tr>
<tr>
<td>PaperlessBilling</td>
<td>имеет ли клиент безналичные счета</td>
<td>categorical</td>
</tr>
<tr>
<td>PaymentMethod</td>
<td>Способ оплаты клиента</td>
<td>categorical</td>
</tr>
<tr>
<td>MonthlyCharges</td>
<td>Сумма, взимаемая с клиента ежемесячно </td>
<td> numeric , int</td>
</tr>
<tr>
<td>TotalCharges</td>
<td>Общая сумма, списанная с клиента</td>
<td>object</td>
</tr>
<tr>
<td>Churn</td>
<td>Ушел ли клиент</td>
<td>categorical</td>
</tr>
</tbody>
</table>

Описание от заказчика:

Каждая строка представляет клиента, каждый столбец содержит атрибуты клиента.

Набор данных включает информацию о:

- Клиенты, которые ушли в течение последнего месяца - колонка называется `Churn`
- Услуги, на которые подписался каждый клиент - телефон, несколько линий, интернет, онлайн-безопасность, резервное копирование, защита устройств, техническая поддержка, потоковое ТВ и фильмы.
- Информация о счетах клиентов - как долго они являются клиентами, контракт, способ оплаты, безналичные счета, ежемесячные платежи и общая сумма платежей.
- Демографическая информация о клиентах - пол, возраст, наличие партнеров и иждивенцев.

## 1. Импорт Библиотек 

Импортируйте необходимые библиотеки

In [3]:
import numpy as np
import pandas as pd
pd.set_option('display.max_columns', None) # отобразить все колонки

from scipy import stats

## 2. Данные

In [4]:
df = pd.read_csv("./churn.csv")
df.head().T

Unnamed: 0,0,1,2,3,4
customerID,7590-VHVEG,5575-GNVDE,3668-QPYBK,7795-CFOCW,9237-HQITU
gender,Female,Male,Male,Male,Female
SeniorCitizen,0,0,0,0,0
Partner,Yes,No,No,No,No
Dependents,No,No,No,No,No
tenure,1,34,2,45,2
PhoneService,No,Yes,Yes,No,Yes
MultipleLines,No phone service,No,No,No phone service,No
InternetService,DSL,DSL,DSL,DSL,Fiber optic
OnlineSecurity,No,Yes,Yes,Yes,No


## 2. Описательный анализ данных

Рассмотрите данные - изучите медианы, средние, дисперсии и т.д. 

Что можете сказать о данных? Сделайте вывод.

In [5]:
# ваше решение
print('средняя:',df.loc[:,['SeniorCitizen','tenure','MonthlyCharges']].mean())
print('медиана:',df.loc[:,['SeniorCitizen','tenure','MonthlyCharges']].median())
print('дисперсия:',df.loc[:,['SeniorCitizen','tenure','MonthlyCharges']].var())

средняя: SeniorCitizen      0.162147
tenure            32.371149
MonthlyCharges    64.761692
dtype: float64
медиана: SeniorCitizen      0.00
tenure            29.00
MonthlyCharges    70.35
dtype: float64
дисперсия: SeniorCitizen       0.135875
tenure            603.168108
MonthlyCharges    905.410934
dtype: float64


**Вывод:**

1.  Среднее значение SeniorCitizen равно 0.16, что означает, что в целом меньше 20% абонентов являются  пожилыми . 
Дисперсия равна 0.14, что говорит о том, что данные в этой колонке распределены довольно равномерно.
2. Tenure: Среднее значение составляет примерно 32 месяца, а медиана - 29 месяцев. Это может означать, что большинство клиентов проводят относительно долгий срок с компанией. Дисперсия данных о tenure довольно высока – 603.17, что может указывать на различия в продолжительности клиентских отношений.
3. MonthlyCharges: Средний месячный платеж составляет около 64.76 долларов, с медианным значением около 70.35.
Данные о месячных платежах также довольно разнообразны, с дисперсией в размере 905.41, что может указывать на большой разброс сумм платежей.


### Уникальные значения для всех столбцов

Рассмотрите уникальные значения категориальных признаков. 

Сделайте вывод.

**Подсказка:** можете воспользоваться методом `describe(include='object')`

In [6]:
# ваше решение
df.describe(include='object').T

Unnamed: 0,count,unique,top,freq
customerID,7043,7043,7590-VHVEG,1
gender,7043,2,Male,3555
Partner,7043,2,No,3641
Dependents,7043,2,No,4933
PhoneService,7043,2,Yes,6361
MultipleLines,7043,3,No,3390
InternetService,7043,3,Fiber optic,3096
OnlineSecurity,7043,3,No,3498
OnlineBackup,7043,3,No,3088
DeviceProtection,7043,3,No,3095


**Вывод:**


Из этих уникальных значений видно, что большинство признаков имеют два или три значения, за исключением PaymentMethod, который имеет четыре уникальных значения. Кроме того, можно увидеть, что большинство клиентов не оставили компанию (Churn: No), большинство пользуются услугами телефонии (PhoneService: Yes), а также большинство клиентов не имеют партнера (Partner: No) и не имеют иждивенцев (Dependents: No). 


## 3. Предобработка данных

### Дубликаты

Предобработайте датасет - проверьте на наличие дубликатов и удалите, если они есть.

In [7]:
# ваше решение
df.duplicated().sum()

0

Дубликатов нет.

### Отсутствующие значения

Пояснение к данному датасету:

Не всегда в данных есть явные пропуски, которые легко индексируются средствами Pandas. К сожалению бывают проблемы с выгрузками данных, некачественными источниками, или когда данные записываются вручную - часто присутствует человеческий фактов. По мере работы с новыми данными лучше проверять на наличие таких данных, иначе из-за этого исследование может исказиться.

Рассмотрим такой случай:

In [8]:
df.isna().sum()

customerID          0
gender              0
SeniorCitizen       0
Partner             0
Dependents          0
tenure              0
PhoneService        0
MultipleLines       0
InternetService     0
OnlineSecurity      0
OnlineBackup        0
DeviceProtection    0
TechSupport         0
StreamingTV         0
StreamingMovies     0
Contract            0
PaperlessBilling    0
PaymentMethod       0
MonthlyCharges      0
TotalCharges        0
Churn               0
dtype: int64

Да, не видно пропусков. Но почему тогда столбец `TotalCharges` не отобразился изначально как числовой столбец?

Проверим все столбцы:

In [9]:
for col in df:
    if df[col].dtype == 'object':
        nans = df[col].apply(lambda x: len(x.strip())==0).sum()
        if nans > 0:
            print(f'Неявные пропуски столбца {col}:', df[col].apply(lambda x: len(x.strip())==0).sum())

Неявные пропуски столбца TotalCharges: 11


Что мы можем сделать в таком случае?

1) По этому же фильтру удалить строки с пропусками, чтобы не искажать данные
2) Перевести тип столбца на числовой и с параметром `errors = 'coerce'` и удалить

Но можно не удалять, чтобы потерять данные, а:

1) Заменить значения на среднюю
2) Поменять на другое - но только в том случае, если есть какая-то зависимость в данных.

Давайте изменим тип и найдем зависимость:

In [10]:
df["TotalCharges"] = pd.to_numeric(df["TotalCharges"], errors = 'coerce')

df[df["TotalCharges"].isna()]

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
488,4472-LVYGI,Female,0,Yes,Yes,0,No,No phone service,DSL,Yes,No,Yes,Yes,Yes,No,Two year,Yes,Bank transfer (automatic),52.55,,No
753,3115-CZMZD,Male,0,No,Yes,0,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,20.25,,No
936,5709-LVOEQ,Female,0,Yes,Yes,0,Yes,No,DSL,Yes,Yes,Yes,No,Yes,Yes,Two year,No,Mailed check,80.85,,No
1082,4367-NUYAO,Male,0,Yes,Yes,0,Yes,Yes,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,25.75,,No
1340,1371-DWPAZ,Female,0,Yes,Yes,0,No,No phone service,DSL,Yes,Yes,Yes,Yes,Yes,No,Two year,No,Credit card (automatic),56.05,,No
3331,7644-OMVMY,Male,0,Yes,Yes,0,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,19.85,,No
3826,3213-VVOLG,Male,0,Yes,Yes,0,Yes,Yes,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,25.35,,No
4380,2520-SGTTA,Female,0,Yes,Yes,0,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Mailed check,20.0,,No
5218,2923-ARZLG,Male,0,Yes,Yes,0,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,One year,Yes,Mailed check,19.7,,No
6670,4075-WKNIU,Female,0,Yes,Yes,0,Yes,Yes,DSL,No,Yes,Yes,Yes,Yes,No,Two year,No,Mailed check,73.35,,No


**Но как выглядят наши данные обычно?**

In [11]:
df.sample(5).T

Unnamed: 0,4939,3374,1687,1061,5676
customerID,9975-SKRNR,7580-UGXNC,8332-OSJDW,4829-ZLJTK,9103-CXVOK
gender,Male,Female,Male,Female,Male
SeniorCitizen,0,1,0,1,0
Partner,No,No,Yes,Yes,Yes
Dependents,No,No,Yes,No,Yes
tenure,1,2,12,72,1
PhoneService,Yes,Yes,Yes,Yes,Yes
MultipleLines,No,No,Yes,Yes,No
InternetService,No,DSL,No,Fiber optic,No
OnlineSecurity,No internet service,Yes,No internet service,Yes,No internet service


**Ничего не заметили?**

Может общая сумма, списанная с клиента, равна сумме, взимаемой с клиента ежемесячно умноженное на количество времени?

Давайте посмострим.

In [12]:
df[(df['TotalCharges'] / df['MonthlyCharges']) == df['tenure']].head().T

Unnamed: 0,0,20,22,27,33
customerID,7590-VHVEG,8779-QRDMV,1066-JKSGK,8665-UTDHZ,7310-EGVHZ
gender,Female,Male,Male,Male,Male
SeniorCitizen,0,1,0,0,0
Partner,Yes,No,No,Yes,No
Dependents,No,No,No,Yes,No
tenure,1,1,1,1,1
PhoneService,No,No,Yes,No,Yes
MultipleLines,No phone service,No phone service,No,No phone service,No
InternetService,DSL,DSL,No,DSL,No
OnlineSecurity,No,No,No internet service,No,No internet service


Нашей гипотезе есть место быть.

Но давайте проверим:

In [13]:
print('Количество совпадений по нашей теории:')
print(df[(df['TotalCharges'] / df['MonthlyCharges']) == df['tenure']]['customerID'].count())
print('Количество различий:')
print(df[(df['TotalCharges'] / df['MonthlyCharges']) != df['tenure']]['customerID'].count())

Количество совпадений по нашей теории:
614
Количество различий:
6429


**Как видно**, что различий очень много, относительно одинаковых значений.

Но, а если мы проверим наше различие в долях или процентах? Проверяем:

In [14]:
# cоздаем series и считаем TotalCharges вручную
new_total = df['MonthlyCharges'] * df['tenure']

# посчитаем во сколько раз в среднем отличается наш new_total и TotalCharges - в процентном отношении
perc = abs(100 - (new_total / df['TotalCharges']).mean() * 100)

print(f'В среднем new_total отличается от TotalCharges на {perc:.4f}%')

В среднем new_total отличается от TotalCharges на 0.2311%


Как видно, они различаются незначительно (меньше `1%`), от чего мы можем предположить, что `TotalCharges` = `MonthlyCharges` * `время`. Скорее всего такие маленькие различия связаны с тем, что `tenure` округлялся.

В данном датасете указано только количество месяцев, без уточнения времени (до дней), потому будет грубо просто перемножить один столбец на другой. Но пропуски мы уже можем заменить на `0`, так как в тех строках `tenure` == 0. Такое небольшое исследование было сделано для того, чтобы заполнить наши пропуски нужным числом.

Заменим пропуски на нужное нам число.

In [15]:
df['TotalCharges'].fillna(0, inplace=True)

The behavior will change in pandas 3.0. This inplace method will never work because the intermediate object on which we are setting values always behaves as a copy.

For example, when doing 'df[col].method(value, inplace=True)', try using 'df.method({col: value}, inplace=True)' or df[col] = df[col].method(value) instead, to perform the operation inplace on the original object.


  df['TotalCharges'].fillna(0, inplace=True)


### Изменение типа данных

Рассмотрев все данные, замените типы на нужные (при необходимости):

- Если есть числа - на `int` или `float`
- Если категории - можно оставить `object`

In [16]:
# ваше решение
df.info()


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   gender            7043 non-null   object 
 2   SeniorCitizen     7043 non-null   int64  
 3   Partner           7043 non-null   object 
 4   Dependents        7043 non-null   object 
 5   tenure            7043 non-null   int64  
 6   PhoneService      7043 non-null   object 
 7   MultipleLines     7043 non-null   object 
 8   InternetService   7043 non-null   object 
 9   OnlineSecurity    7043 non-null   object 
 10  OnlineBackup      7043 non-null   object 
 11  DeviceProtection  7043 non-null   object 
 12  TechSupport       7043 non-null   object 
 13  StreamingTV       7043 non-null   object 
 14  StreamingMovies   7043 non-null   object 
 15  Contract          7043 non-null   object 
 16  PaperlessBilling  7043 non-null   object 


**Вывод:** Все норм, все соответствует:)


# 4 Проверка гипотез

Задание: сравнить сравнить две выборки - `Churn='No'` и `Churn='Yes'` 

Гипотеза - среднее количество месяцев, в течение которых клиент оставался в компании, отличается между двумя выборками.

In [17]:
# ваше решение
df1=df.loc[df.Churn=='No']
df1.head().T

Unnamed: 0,0,1,3,6,7
customerID,7590-VHVEG,5575-GNVDE,7795-CFOCW,1452-KIOVK,6713-OKOMC
gender,Female,Male,Male,Male,Female
SeniorCitizen,0,0,0,0,0
Partner,Yes,No,No,No,No
Dependents,No,No,No,Yes,No
tenure,1,34,45,22,10
PhoneService,No,Yes,No,Yes,No
MultipleLines,No phone service,No,No phone service,Yes,No phone service
InternetService,DSL,DSL,DSL,Fiber optic,DSL
OnlineSecurity,No,Yes,Yes,No,Yes


In [18]:
df2=df.loc[df.Churn=='Yes']
df.head().T

Unnamed: 0,0,1,2,3,4
customerID,7590-VHVEG,5575-GNVDE,3668-QPYBK,7795-CFOCW,9237-HQITU
gender,Female,Male,Male,Male,Female
SeniorCitizen,0,0,0,0,0
Partner,Yes,No,No,No,No
Dependents,No,No,No,No,No
tenure,1,34,2,45,2
PhoneService,No,Yes,Yes,No,Yes
MultipleLines,No phone service,No,No,No phone service,No
InternetService,DSL,DSL,DSL,DSL,Fiber optic
OnlineSecurity,No,Yes,Yes,Yes,No


In [19]:
group_no = df.loc[df['Churn'] == 'No']['tenure']
group_yes = df.loc[df['Churn'] == 'Yes']['tenure']

In [20]:
t_stat,p_val = stats.ttest_ind(group_no,group_yes)
print('P-значение:', p_val)
alpha = 0.05
if p_val < alpha:
    print('Отвергаем нулевую гипотезу: средние различаются.')
else:
    print('Не отвергаем нулевую гипотезу: средние не различаются.')

P-значение: 7.99905796059022e-205
Отвергаем нулевую гипотезу: средние различаются.


**Вывод:**

Hа основе результатов t-теста можно сделать вывод, что есть статистически значимое различие в среднем количестве месяцев, проведенных в компании, между клиентами, ушедшими  и оставшимися  в компании.

## 5 Статистический анализ на норму

Задание: выберите числовые признаки и проведите анализ - соответсвуют ли распредения нормальному?

In [28]:

numeric_features = ['tenure', 'MonthlyCharges', 'TotalCharges']
for feature in numeric_features:
    stat, p = shapiro(df[feature])
    alpha = 0.05
    print(f'Feature: {feature}')
    print(f'p-value: {p}')
    if p > alpha:
        print('Распределение похоже на нормальное\n')
    else:
        print('Распределение не является нормальным\n')


Feature: tenure
p-value: 7.527283766475706e-55
Распределение не является нормальным

Feature: MonthlyCharges
p-value: 2.2295643949027034e-51
Распределение не является нормальным

Feature: TotalCharges
p-value: 8.938367040191913e-62
Распределение не является нормальным



In [29]:
for feature in numeric_features:
    stat, p = stats.normaltest(df[feature])
    alpha = 0.05
    print(f'Feature: {feature}')
    print(f'p-value: {p}')
    if p > alpha:
        print('Распределение похоже на нормальное\n')
    else:
        print('Распределение не является нормальным\n')


Feature: tenure
p-value: 0.0
Распределение не является нормальным

Feature: MonthlyCharges
p-value: 0.0
Распределение не является нормальным

Feature: TotalCharges
p-value: 2.6049140547884825e-176
Распределение не является нормальным



In [33]:
for feature in numeric_features:
    result = stats.anderson(df[feature])
    for i in range(len(result.critical_values)):
        sl, cv = result.significance_level[i], result.critical_values[i]
        if result.statistic < result.critical_values[i]:
            print(f'Уровень значимости {sl:.2f}% : критическое значение {cv:.3f}, данные выглядят нормально (не удается отклонить H0)')
        else:
            print(f'Уровень значимости {sl:.2f}% : критическое значение {cv:.3f}, данные не выглядят нормально (отклоняем H0)')

Уровень значимости 15.00% : критическое значение 0.576, данные не выглядят нормально (отклоняем H0)
Уровень значимости 10.00% : критическое значение 0.656, данные не выглядят нормально (отклоняем H0)
Уровень значимости 5.00% : критическое значение 0.787, данные не выглядят нормально (отклоняем H0)
Уровень значимости 2.50% : критическое значение 0.917, данные не выглядят нормально (отклоняем H0)
Уровень значимости 1.00% : критическое значение 1.091, данные не выглядят нормально (отклоняем H0)
Уровень значимости 15.00% : критическое значение 0.576, данные не выглядят нормально (отклоняем H0)
Уровень значимости 10.00% : критическое значение 0.656, данные не выглядят нормально (отклоняем H0)
Уровень значимости 5.00% : критическое значение 0.787, данные не выглядят нормально (отклоняем H0)
Уровень значимости 2.50% : критическое значение 0.917, данные не выглядят нормально (отклоняем H0)
Уровень значимости 1.00% : критическое значение 1.091, данные не выглядят нормально (отклоняем H0)
Уровен

**Вывод:**
Во всех трех статистических тестах на норму H0 отклоняется, т.е. распределение выборки не является нормальным