
# Проверка гипотез с помощью python.

## Задание

* Выполненить проверку предложенной гипотезы
* Выполненить проверку статистической гипотезы для проверки нормальности числовых признаков
* Проверка мультиколлинеарности
* Все статистические тесты должны быть выполнены с 95%-ным уровнем достоверности (т.е. значение р < 0,05)

## Датасет

Как данные представлены заказчиком:

<table>
<thead><tr>
<th><strong>Feature Name</strong></th>
<th><strong>Description</strong></th>
<th><strong>Data Type</strong></th>
</tr>
</thead>
<tbody>
<tr>
<td>customerID</td>
<td>Содержит идентификатор клиента</td>
<td>categorical</td>
</tr>
<tr>
<td>gender</td>
<td>Пол клиента</td>
<td>categorical</td>
</tr>
<tr>
<td>SeniorCitizen</td>
<td>Является ли клиент пожилым гражданином</td>
<td>numeric, int</td>
</tr>
<tr>
<td>Partner</td>
<td>Есть ли у клиента партнер</td>
<td>categorical</td>
</tr>
<tr>
<td>Dependents</td>
<td>Является ли клиент кормильцем</td>
<td>categorical</td>
</tr>
<tr>
<td>tenure</td>
<td>Количество месяцев, в течение которых клиент оставался в компании</td>
<td>numeric, int</td>
</tr>
<tr>
<td>PhoneService</td>
<td>Есть ли у клиента телефонная связь</td>
<td>categorical</td>
</tr>
<tr>
<td>MultipleLines</td>
<td>Есть ли у клиента несколько линий</td>
<td>categorical</td>
</tr>
<tr>
<td>InternetService</td>
<td>Интернет-провайдер клиента</td>
<td>categorical</td>
</tr>
<tr>
<td>OnlineSecurity</td>
<td>Есть ли у клиента онлайн-безопасность</td>
<td>categorical</td>
</tr>
<tr>
<td>OnlineBackup</td>
<td>Есть ли у клиента онлайн-резервное копирование</td>
<td>categorical</td>
</tr>
<tr>
<td>DeviceProtection</td>
<td>Имеет ли клиент защиту устройства</td>
<td>categorical</td>
</tr>
<tr>
<td>TechSupport</td>
<td>Есть ли у клиента техническая поддержка</td>
<td>categorical</td>
</tr>
<tr>
<td>streamingTV</td>
<td>Есть ли у клиента потоковое телевидение</td>
<td>categorical</td>
</tr>
<tr>
<td>streamingMovies</td>
<td>Есть ли у клиента стриминговые сервисы</td>
<td>categorical</td>
</tr>
<tr>
<td>Contract</td>
<td>Срок действия контракта заказчика</td>
<td>categorical</td>
</tr>
<tr>
<td>PaperlessBilling</td>
<td>имеет ли клиент безналичные счета</td>
<td>categorical</td>
</tr>
<tr>
<td>PaymentMethod</td>
<td>Способ оплаты клиента</td>
<td>categorical</td>
</tr>
<tr>
<td>MonthlyCharges</td>
<td>Сумма, взимаемая с клиента ежемесячно </td>
<td> numeric , int</td>
</tr>
<tr>
<td>TotalCharges</td>
<td>Общая сумма, списанная с клиента</td>
<td>object</td>
</tr>
<tr>
<td>Churn</td>
<td>Ушел ли клиент</td>
<td>categorical</td>
</tr>
</tbody>
</table>

Описание от заказчика:

Каждая строка представляет клиента, каждый столбец содержит атрибуты клиента.

Набор данных включает информацию о:

- Клиенты, которые ушли в течение последнего месяца - колонка называется `Churn`
- Услуги, на которые подписался каждый клиент - телефон, несколько линий, интернет, онлайн-безопасность, резервное копирование, защита устройств, техническая поддержка, потоковое ТВ и фильмы.
- Информация о счетах клиентов - как долго они являются клиентами, контракт, способ оплаты, безналичные счета, ежемесячные платежи и общая сумма платежей.
- Демографическая информация о клиентах - пол, возраст, наличие партнеров и иждивенцев.

## 1. Импорт Библиотек 

Импортируйте необходимые библиотеки

In [2]:
import numpy as np
import pandas as pd
pd.set_option('display.max_columns', None) # отобразить все колонки

from scipy import stats

## 2. Данные

In [3]:
path = r'D:\SynologyDrive\data\4.Training\IT\1._Study\1._1t\1._DS\1t_HomeWork\Home_work\3_1.6\churn.csv'# Считываем наш датафрейм из csv файла
df = pd.read_csv(path, encoding='utf-8') 
df.sample(5)

Unnamed: 0,customerID,gender,SeniorCitizen,Partner,Dependents,tenure,PhoneService,MultipleLines,InternetService,OnlineSecurity,OnlineBackup,DeviceProtection,TechSupport,StreamingTV,StreamingMovies,Contract,PaperlessBilling,PaymentMethod,MonthlyCharges,TotalCharges,Churn
1607,4154-AQUGT,Male,1,Yes,No,13,Yes,No,Fiber optic,No,Yes,No,Yes,No,Yes,Month-to-month,Yes,Bank transfer (automatic),89.05,1169.35,Yes
994,7277-KAMWT,Male,0,No,No,13,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,No,Credit card (automatic),20.0,268.45,No
6943,0032-PGELS,Female,0,Yes,Yes,1,No,No phone service,DSL,Yes,No,No,No,No,No,Month-to-month,No,Bank transfer (automatic),30.5,30.5,Yes
6197,1585-MQSSU,Male,0,No,No,17,Yes,No,DSL,No,No,No,Yes,No,No,Month-to-month,No,Mailed check,51.5,900.5,Yes
405,7606-BPHHN,Male,0,No,No,72,Yes,No,No,No internet service,No internet service,No internet service,No internet service,No internet service,No internet service,Two year,Yes,Credit card (automatic),19.8,1468.75,No


## 2. Описательный анализ данных

Рассмотрите данные - изучите медианы, средние, дисперсии и т.д. 

Что можете сказать о данных? Сделайте вывод.

In [54]:
print('----- Количество NaN в DataFrame -----\n')
df.isna().sum()

----- Количество NaN в DataFrame -----



customerID          0
gender              0
SeniorCitizen       0
Partner             0
Dependents          0
tenure              0
PhoneService        0
MultipleLines       0
InternetService     0
OnlineSecurity      0
OnlineBackup        0
DeviceProtection    0
TechSupport         0
StreamingTV         0
StreamingMovies     0
Contract            0
PaperlessBilling    0
PaymentMethod       0
MonthlyCharges      0
TotalCharges        0
Churn               0
dtype: int64

In [52]:
print(df.info(), df.shape, "---- Размерность DataFrame ----")

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 7043 entries, 0 to 7042
Data columns (total 21 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   customerID        7043 non-null   object 
 1   gender            7043 non-null   object 
 2   SeniorCitizen     7043 non-null   int64  
 3   Partner           7043 non-null   object 
 4   Dependents        7043 non-null   object 
 5   tenure            7043 non-null   int64  
 6   PhoneService      7043 non-null   object 
 7   MultipleLines     7043 non-null   object 
 8   InternetService   7043 non-null   object 
 9   OnlineSecurity    7043 non-null   object 
 10  OnlineBackup      7043 non-null   object 
 11  DeviceProtection  7043 non-null   object 
 12  TechSupport       7043 non-null   object 
 13  StreamingTV       7043 non-null   object 
 14  StreamingMovies   7043 non-null   object 
 15  Contract          7043 non-null   object 
 16  PaperlessBilling  7043 non-null   object 


In [115]:
print(f'\n ----- Количество дубликатов в DataFrame = {df.duplicated().sum()} ----- \n')
df.describe(include='all').fillna('-').T


 ----- Количество дубликатов в DataFrame = 0 ----- 



Unnamed: 0,count,unique,top,freq,mean,std,min,25%,50%,75%,max
customerID,7043.0,7043,7590-VHVEG,1,-,-,-,-,-,-,-
gender,7043.0,2,Male,3555,-,-,-,-,-,-,-
SeniorCitizen,7043.0,-,-,-,0.162147,0.368612,0.0,0.0,0.0,0.0,1.0
Partner,7043.0,2,No,3641,-,-,-,-,-,-,-
Dependents,7043.0,2,No,4933,-,-,-,-,-,-,-
tenure,7043.0,-,-,-,32.371149,24.559481,0.0,9.0,29.0,55.0,72.0
PhoneService,7043.0,2,Yes,6361,-,-,-,-,-,-,-
MultipleLines,7043.0,3,No,3390,-,-,-,-,-,-,-
InternetService,7043.0,3,Fiber optic,3096,-,-,-,-,-,-,-
OnlineSecurity,7043.0,3,No,3498,-,-,-,-,-,-,-


**`Вывод`:**
- Средний клиент подключен по оптике + использует предлагаемую телефонию платит электронно раз в месяц, не подключает доп сервисы и это в основном женщины.
- Данные выглядят достаточно усредненно со всех сторон (почти во всех категориях баланс)

- ----------------------------

### Уникальные значения для всех столбцов

Рассмотрите уникальные значения категориальных признаков. 

Сделайте вывод.

**Подсказка:** можете воспользоваться методом `describe(include='object')`

In [114]:
display(df.describe(include=object).T) # получаем стату только по столбцам содержащим объекты (строка)

Unnamed: 0,count,unique,top,freq
customerID,7043,7043,7590-VHVEG,1
gender,7043,2,Male,3555
Partner,7043,2,No,3641
Dependents,7043,2,No,4933
PhoneService,7043,2,Yes,6361
MultipleLines,7043,3,No,3390
InternetService,7043,3,Fiber optic,3096
OnlineSecurity,7043,3,No,3498
OnlineBackup,7043,3,No,3088
DeviceProtection,7043,3,No,3095


In [98]:
for column in df.columns:          # перебираем все столбцы в df.columns и выводим .describe для каждого
    display(df[column].describe())

count           7043
unique          7043
top       7590-VHVEG
freq               1
Name: customerID, dtype: object

count     7043
unique       2
top       Male
freq      3555
Name: gender, dtype: object

count    7043.000000
mean        0.162147
std         0.368612
min         0.000000
25%         0.000000
50%         0.000000
75%         0.000000
max         1.000000
Name: SeniorCitizen, dtype: float64

count     7043
unique       2
top         No
freq      3641
Name: Partner, dtype: object

count     7043
unique       2
top         No
freq      4933
Name: Dependents, dtype: object

count    7043.000000
mean       32.371149
std        24.559481
min         0.000000
25%         9.000000
50%        29.000000
75%        55.000000
max        72.000000
Name: tenure, dtype: float64

count     7043
unique       2
top        Yes
freq      6361
Name: PhoneService, dtype: object

count     7043
unique       3
top         No
freq      3390
Name: MultipleLines, dtype: object

count            7043
unique              3
top       Fiber optic
freq             3096
Name: InternetService, dtype: object

count     7043
unique       3
top         No
freq      3498
Name: OnlineSecurity, dtype: object

count     7043
unique       3
top         No
freq      3088
Name: OnlineBackup, dtype: object

count     7043
unique       3
top         No
freq      3095
Name: DeviceProtection, dtype: object

count     7043
unique       3
top         No
freq      3473
Name: TechSupport, dtype: object

count     7043
unique       3
top         No
freq      2810
Name: StreamingTV, dtype: object

count     7043
unique       3
top         No
freq      2785
Name: StreamingMovies, dtype: object

count               7043
unique                 3
top       Month-to-month
freq                3875
Name: Contract, dtype: object

count     7043
unique       2
top        Yes
freq      4171
Name: PaperlessBilling, dtype: object

count                 7043
unique                   4
top       Electronic check
freq                  2365
Name: PaymentMethod, dtype: object

count    7043.000000
mean       64.761692
std        30.090047
min        18.250000
25%        35.500000
50%        70.350000
75%        89.850000
max       118.750000
Name: MonthlyCharges, dtype: float64

count     7043
unique    6531
top           
freq        11
Name: TotalCharges, dtype: object

count     7043
unique       2
top         No
freq      5174
Name: Churn, dtype: object

In [130]:
df['MonthlyCharges'].value_counts(bins=20)

MonthlyCharges
(18.148999999999997, 23.275]    1187
(78.55, 83.575]                  503
(73.525, 78.55]                  460
(83.575, 88.6]                   450
(88.6, 93.625]                   444
(68.5, 73.525]                   433
(93.625, 98.65]                  429
(23.275, 28.3]                   419
(98.65, 103.675]                 389
(103.675, 108.7]                 365
(53.425, 58.45]                  331
(48.4, 53.425]                   309
(43.375, 48.4]                   263
(58.45, 63.475]                  248
(63.475, 68.5]                   226
(108.7, 113.725]                 198
(33.325, 38.35]                  106
(38.35, 43.375]                  102
(113.725, 118.75]                 96
(28.3, 33.325]                    85
Name: count, dtype: int64

**`Вывод`:**
- в столбце TotalCharges присутствуют пробелы " " (видно из вывода) dtype: object ( хотя - значения это общая  сумма списаний с клиента,dtype должно быть float)
- клиенты в основной платят за услуги от 18.15 до 23.26 - это 16.8% 
---------------


## 3. Предобработка данных

### Дубликаты

Предобработайте датасет - проверьте на наличие дубликатов и удалите, если они есть.

In [131]:
df.duplicated().count()

7043

### Отсутствующие значения

Пояснение к данному датасету:

Не всегда в данных есть явные пропуски, которые легко индексируются средствами Pandas. К сожалению бывают проблемы с выгрузками данных, некачественными источниками, или когда данные записываются вручную - часто присутствует человеческий фактов. По мере работы с новыми данными лучше проверять на наличие таких данных, иначе из-за этого исследование может исказиться.

Рассмотрим такой случай:

In [132]:
df.isna().sum()

customerID          0
gender              0
SeniorCitizen       0
Partner             0
Dependents          0
tenure              0
PhoneService        0
MultipleLines       0
InternetService     0
OnlineSecurity      0
OnlineBackup        0
DeviceProtection    0
TechSupport         0
StreamingTV         0
StreamingMovies     0
Contract            0
PaperlessBilling    0
PaymentMethod       0
MonthlyCharges      0
TotalCharges        0
Churn               0
dtype: int64

Да, не видно пропусков. Но почему тогда столбец `TotalCharges` не отобразился изначально как числовой столбец?

Проверим все столбцы:

In [133]:
for col in df:
    if df[col].dtype == 'object':
        nans = df[col].apply(lambda x: len(x.strip())==0).sum()
        if nans > 0:
            print(f'Неявные пропуски столбца {col}:', df[col].apply(lambda x: len(x.strip())==0).sum())

Неявные пропуски столбца TotalCharges: 11


Что мы можем сделать в таком случае?

1) По этому же фильтру удалить строки с пропусками, чтобы не искажать данные
2) Перевести тип столбца на числовой и с параметром `errors = 'coerce'` и удалить

Но можно не удалять, чтобы потерять данные, а:

1) Заменить значения на среднюю
2) Поменять на другое - но только в том случае, если есть какая-то зависимость в данных.

Давайте изменим тип и найдем зависимость:

In [137]:
df["TotalCharges"] = pd.to_numeric(df["TotalCharges"], errors = 'coerce') # Все значения которые не могут стать числами они станут NaN

df[df["TotalCharges"].isna()].T

Unnamed: 0,488,753,936,1082,1340,3331,3826,4380,5218,6670,6754
customerID,4472-LVYGI,3115-CZMZD,5709-LVOEQ,4367-NUYAO,1371-DWPAZ,7644-OMVMY,3213-VVOLG,2520-SGTTA,2923-ARZLG,4075-WKNIU,2775-SEFEE
gender,Female,Male,Female,Male,Female,Male,Male,Female,Male,Female,Male
SeniorCitizen,0,0,0,0,0,0,0,0,0,0,0
Partner,Yes,No,Yes,Yes,Yes,Yes,Yes,Yes,Yes,Yes,No
Dependents,Yes,Yes,Yes,Yes,Yes,Yes,Yes,Yes,Yes,Yes,Yes
tenure,0,0,0,0,0,0,0,0,0,0,0
PhoneService,No,Yes,Yes,Yes,No,Yes,Yes,Yes,Yes,Yes,Yes
MultipleLines,No phone service,No,No,Yes,No phone service,No,Yes,No,No,Yes,Yes
InternetService,DSL,No,DSL,No,DSL,No,No,No,No,DSL,DSL
OnlineSecurity,Yes,No internet service,Yes,No internet service,Yes,No internet service,No internet service,No internet service,No internet service,No,Yes


**Но как выглядят наши данные обычно?**

In [138]:
df.sample(5).T

Unnamed: 0,5049,4201,3788,4169,5919
customerID,2955-PSXOE,1166-PQLGG,1725-IQNIY,3663-MITLP,6625-IUTTT
gender,Female,Female,Male,Female,Male
SeniorCitizen,0,0,0,0,0
Partner,No,Yes,Yes,No,No
Dependents,No,Yes,No,No,No
tenure,1,72,54,15,67
PhoneService,Yes,Yes,Yes,Yes,Yes
MultipleLines,No,No,No,No,No
InternetService,No,No,Fiber optic,Fiber optic,DSL
OnlineSecurity,No internet service,No internet service,Yes,No,Yes


**Ничего не заметили?**

Может общая сумма, списанная с клиента, равна сумме, взимаемой с клиента ежемесячно умноженное на количество времени?

Давайте посмострим.

In [149]:
df[(df['TotalCharges'] / df['MonthlyCharges']) == df['tenure']].head().T

Unnamed: 0,0,20,22,27,33
customerID,7590-VHVEG,8779-QRDMV,1066-JKSGK,8665-UTDHZ,7310-EGVHZ
gender,Female,Male,Male,Male,Male
SeniorCitizen,0,1,0,0,0
Partner,Yes,No,No,Yes,No
Dependents,No,No,No,Yes,No
tenure,1,1,1,1,1
PhoneService,No,No,Yes,No,Yes
MultipleLines,No phone service,No phone service,No,No phone service,No
InternetService,DSL,DSL,No,DSL,No
OnlineSecurity,No,No,No internet service,No,No internet service


Нашей гипотезе есть место быть.

Но давайте проверим:

In [141]:
print('Количество совпадений по нашей теории:')
print(df[(df['TotalCharges'] / df['MonthlyCharges']) == df['tenure']]['customerID'].count())
print('Количество различий:')
print(df[(df['TotalCharges'] / df['MonthlyCharges']) != df['tenure']]['customerID'].count())

Количество совпадений по нашей теории:
614
Количество различий:
6429


**Как видно**, что различий очень много, относительно одинаковых значений.

Но, а если мы проверим наше различие в долях или процентах? Проверяем:

In [143]:
# cоздаем series и считаем TotalCharges вручную
new_total = df['MonthlyCharges'] * df['tenure']

# посчитаем во сколько раз в среднем отличается наш new_total и TotalCharges - в процентном отношении
perc = abs(100 - (new_total / df['TotalCharges']).mean() * 100)

print(f'В среднем new_total отличается от TotalCharges на {perc:.5f}%')

В среднем new_total отличается от TotalCharges на 0.23113%


Как видно, они различаются незначительно (меньше `1%`), от чего мы можем предположить, что `TotalCharges` = `MonthlyCharges` * `время`. Скорее всего такие маленькие различия связаны с тем, что `tenure` округлялся.

В данном датасете указано только количество месяцев, без уточнения времени (до дней), потому будет грубо просто перемножить один столбец на другой. Но пропуски мы уже можем заменить на `0`, так как в тех строках `tenure` == 0. Такое небольшое исследование было сделано для того, чтобы заполнить наши пропуски нужным числом.

Заменим пропуски на нужное нам число.

In [144]:
df['TotalCharges'].fillna(0, inplace=True)

### Изменение типа данных

Рассмотрев все данные, замените типы на нужные (при необходимости):

- Если есть числа - на `int` или `float`
- Если категории - можно оставить `object`

In [148]:
df.TotalCharges.astype(int)
print(df.dtypes)

customerID           object
gender               object
SeniorCitizen         int64
Partner              object
Dependents           object
tenure                int64
PhoneService         object
MultipleLines        object
InternetService      object
OnlineSecurity       object
OnlineBackup         object
DeviceProtection     object
TechSupport          object
StreamingTV          object
StreamingMovies      object
Contract             object
PaperlessBilling     object
PaymentMethod        object
MonthlyCharges      float64
TotalCharges        float64
Churn                object
dtype: object


**`Вывод`:**
- после получения датасета большей частью работы вероятнее всего будет его очистка и приведение типов данных в правильное объектное состояние


------------------------

# 4 Проверка гипотез

Задание: сравнить две выборки - `Churn='No'` и `Churn='Yes'` 

Гипотеза - среднее количество месяцев, в течение которых клиент оставался в компании, отличается между двумя выборками.

    Решение:
- Для проверки данной гипотезы можно использовать статистический тест, такой как t-тест или U-тест Манна-Уитни. Эти тесты позволяют определить, есть ли статистически значимая разница между средними значениями двух выборок.
Также стоит отметить, что результаты теста зависят от объема выборки и уровня значимости. 

In [169]:
### Использование t-теста ###

# 1. Разделим данные на две выборки по значению 'Churn'
churn_no = df[df['Churn'] == 'No']        # создаем два новых DF куда разделяем данные из столбца Churn по значениям No и Yes 
churn_yes = df[df['Churn'] == 'Yes']

# 2. Сравниваем средние значения количества месяцев в каждой выборке
mean_churn_no = churn_no['tenure'].mean()
mean_churn_yes = churn_yes['tenure'].mean()

# 3. Проводим статистический тест для проверки гипотезы о равенстве средних значений. Применяем t-тест
from scipy.stats import ttest_ind

t_statistic, p_value = ttest_ind(churn_no['tenure'], churn_yes['tenure'])
print('p_value = ', p_value)
print('значение t_statistic = ', p_value)  # мера разницы между средними значениями выборок

p_value =  7.99905796059022e-205
значение t_statistic =  7.99905796059022e-205


In [168]:
### Использование U-тест Манна-Уитни ###
from scipy.stats import mannwhitneyu

statistic, p_value = mannwhitneyu(churn_no['tenure'], churn_yes['tenure'])

print("Статистика U:", statistic)
print("p-значение:", p_value)

Статистика U: 7154668.0
p-значение: 2.419635517951866e-208


In [185]:
# Критерий Шапиро-Уилка
from scipy.stats import kstest

_, pvalue = stats.kstest(churn_no['tenure'], churn_yes['tenure'])

alpha = .05

if pvalue < alpha:
    print(f'P-value:{pvalue:.3f}. Нулевая гипотеза отвергается')
else:
    print(f'P-value:{pvalue:.3f}. Подтверждается нулевая гипотеза')

P-value:0.000. Нулевая гипотеза отвергается


**`Вывод`:**
- так как при проведении t-теста p_value много меньше 0.05, это показывает статистически значимое различие между средними значениями двух данных выборок
- p_value в t-тесте стремиться к 0, что указывает на статическую значимость различий

- при проведении U-теста была получено большое значение  U-Статистики: что указывает на большие различия между этими выборками.
- p_value в U-тесте стремиться к 0, что указывает на то, что вероятность принятия 0й  гипотезы (равенство выборок) стремиться к 0 -> 
нам следует принять обратную гипотизу
- ОБА теста показывают, что выборки разные, различия в них существенные!
--------------------

## 5 Статистический анализ на норму

тест Колмогорова - Сморнова

In [188]:
from scipy.stats import kstest

_, pvalue = stats.kstest(churn_no['tenure'], churn_yes['tenure'])

alpha = .05

if pvalue < alpha:
    print(f'P-value:{pvalue:.3f}. Нулевая гипотеза "О Нормальности распределения" отвергается')
else:
    print(f'P-value:{pvalue:.3f}. Подтверждается нулевая гипотеза "О Нормальности распределения"')

P-value:0.000. Нулевая гипотеза "О Нормальности распределения" отвергается


Критерий Шапиро-Уилка

-- Пробуем сравнить! тест не расчитан на работу с таким количеством значений

In [176]:
from scipy.stats import shapiro

# Проводим тест Шапиро-Уилка для первого признака
statistic1, p_value1 = shapiro(churn_no['tenure'])

# Проводим тест Шапиро-Уилка для второго признака
statistic2, p_value2 = shapiro(churn_yes['tenure'])

# Выводим результаты для первого признака
alpha = 0.05  # уровень значимости
print('Результаты анализа для первого признака:')
print('Статистика теста:', statistic1)
print('p-значение:', p_value1)

if p_value1 > alpha:
    print('Распределение первого признака соответствует нормальному')
else:
    print('Распределение первого признака не соответствует нормальному')

# Выводим результаты для второго признака
print('\nРезультаты анализа для второго признака:')
print('Статистика теста:', statistic2)
print('p-значение:', p_value2)

if p_value2 > alpha:
    print('Распределение второго признака соответствует нормальному')
else:
    print('Распределение второго признака не соответствует нормальному')


Результаты анализа для первого признака:
Статистика теста: 0.9176814556121826
p-значение: 0.0
Распределение первого признака не соответствует нормальному

Результаты анализа для второго признака:
Статистика теста: 0.8199726343154907
p-значение: 1.466178583223056e-41
Распределение второго признака не соответствует нормальному




In [190]:
# Цикл отбирает колонки с числовыми типами данных 'int64', 'float64'
num = df.select_dtypes(include=['int64', 'float64'])

for col in num.columns:
    print(f'название столбца -  {col}')
    pValue = kstest(num[col], 'norm')[1]
    if pValue < 0.05:
        print(f'{col} не нормальное распределение')
        print('-'*60)
    else:
        print(f'{col} нормальное распределение')
        print('-'*60)


название столбца -  SeniorCitizen
SeniorCitizen не нормальное распределение
------------------------------------------------------------
название столбца -  tenure
tenure не нормальное распределение
------------------------------------------------------------
название столбца -  MonthlyCharges
MonthlyCharges не нормальное распределение
------------------------------------------------------------
название столбца -  TotalCharges
TotalCharges не нормальное распределение
------------------------------------------------------------


**`Вывод`:**
- Провели одномерный анализ на норму
- во всех приведенных тестах не нормальное распределение
----------------

## 6 ЗАДАЧИ PRO

Мы провели базовый анализ выше и сделали выводы.

Но требование заказчика - выяснить причину ухода клиента.

Ваша задача - провести полный анализ с помощью статистических гипотез взаимосвязи всех признаков с нашим таргетом `Churn` (целевым признаком). 

**Этапы:**

1) Предобработка данных - измените датасет, в части: категориальные признаки надо перевести в числовые представления (закодировать). Главное - понимать взаимосвязь: бинарный признак, порядковый, просто категории или что-то иное. 
2) Выберите нужные гипотезы, основываясь на типах признаков.
3) Проведите анализ, и выясните, почему клиент уходит, с чем коррелирует `Churn`, может это зависит от пола клиента? Или есть иные обстоятельства?
4) После проверки гипотез, постройте тепловую карту корреляции `Phik` и сделайте дополнительный вывод.
5) Дополните общий вывод. 

**Примечание:** задание не ограничено только этими этапами. Можно их дополнить - может стоит сделать фильтр данных, рассмотреть данные под другим углом и провести дополнительную аналитику? Средствами и методами не ограничены.

**Подсказка:** для того, чтобы перевести наши категориальные переменные в числа (`0`, `1`, `2` и т.д.), можно воспользоваться функцией в `pandas`:

```python
pd.factorize(data[col])
```
Результат будет таким (если взять столбец `gender`):
- `(array([0, 1, 1, ..., 0, 1, 1]), Index(['Female', 'Male'], dtype='object'))`

Где:
- `(array([0, 1, 1, ..., 0, 1, 1])` - это наш новый array, которым можем заменить значения
- `Index(['Female', 'Male'], dtype='object'))` - старые значения, соответствующие числам выше (`Female`=`0`, `Male`=`1`)

Соответственно, можем заменить значения в категориях на числа такой командой (если взять столбец `gender`):
```python
df['gender'] = pd.factorize(df['gender'])[0]
```

> **Примечание:** когда **категориальная** переменная изменяется на числа, она все равно остается **категориальной**! Просто теперь наш признак стал **закодированным** (то есть мы изменили слова на числа). 

In [17]:
# ваше решение

# Общий вывод

Опишите данные и результат исследования, основываясь на предыдущих шагах: