# Исследование надёжности заёмщиков


**Автор**: Григорьев Павел   


**Описание проекта**: Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.  
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.  


**Цель**: Составить рекомендации для кредитного отдела банка, которые будут учтены при построении модели кредитного скоринга.  
Определить влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок.  

**Источники данных**: Данные предоставленны кредитным отделом банка.


**Вывод**: тут помещаем самое главное из общего вывода, примерно до полустраницы, чтобы не было сильно много и при этом указать все главные выводы


**Оглавление** 
* [1. Описание и изучение данных](#1)
    * [1.1 Изучение данных](#1-1)
    * [1.2 Изучение данных](#1-2)



(опционально, зависит от того есть ли оглавление по умолчанию, но лучше сделать скрываемое, так как не везде будет автоматическое):  
создаем оглавление с гиперссылками  
Тут важно давать развернутые названия разделам в работе, но и не сильно большие (пиши - сокращай).  
Все таки это название главы и оно должно быть не более 5-7 слов. Некоторые могут быть длиннее, если сильно нужно,  
но основная часть названий разделов и глав долны быть достаточно кратикими.   
Чтобы понять длинные ли заголовки - смотрим на оглавление и думаем не сильно ли шировкие строчки.  
Чтобы в оглавление хорошо читалось и было понятно про что каждый раздел и глава и чтобы  
можно было прочитать, понять и перейти к разделу. Нельзя писать сильно кратко, так как люди не знакомы с работой и им нужно более развернутые  
названия глав, чтобы понимать о чем там будет идти речь  
Оглавление делаем со сворачивающимися списками, то есть каждую главу можно свернуть, можно развернуть и пеерейти на уровень ниже,  
как в сводных таблицах экселя, так удобнее, так как места занимает мало, если скрыть все подразделы, а если нужно, то раскроют  
В каждом блоке сделать гиперссылку 'к содержанию', чтобы можно было вернуться к содержанию,  
но тут важно, чтобы на одной странице не было больше 1 такой ссылки.   
Заголовки разделов и глав не нужно писать в стиле 'посчитаем, выясним, исследуем и подобное', так как названия глав и разделов это более официальные  
названия. Нужно более формально их называть.  
Название главы или раздела должно нести в себе основной смысл этого раздела или главы, так и нужно называть.  
1. Описание данных
2. Предобработка данных
3. Расчет метрик
    3.1 Продуктовые метрики
        3.1.1 Расчет MAU, DAU, WAU
        3.1.2 Рачет ASL
4. Подведение итогов и регкомендации       


### Загрузка библиотек

In [30]:
import pandas as pd
import numpy as np
import plotly.express as px
import seaborn as sns
import matplotlib.pyplot as plt
from ipywidgets import widgets, Layout
from IPython.display import display, display_html, display_markdown
import my_module
import importlib
import re
import itertools
from pymystem3 import Mystem
importlib.reload(my_module)
import chart_studio
import chart_studio.plotly as py
sns.set(style="white")
from termcolor import colored
import scipy.stats as stats
import statsmodels.stats.api as stm
# with httpimport.remote_repo('http://my-codes.example.com/python_packages'):
#     import package1

# chart_studio.tools.set_credentials_file(username="bestorlov1992", api_key="TOnnvREBwfkILt9ABEr5")
# # from jupyter to chart studio
# py.plot(fig, filename = "plot name", auto_open = True)

### 1. Описание и изучение данных <a class="anchor" id="1"></a>

#### 1.1 Описание данных <a class="anchor" id="1-1"></a>
- children - количество детей в семье
- days_employed - общий трудовой стаж в днях
- dob_years - возраст клиента в годах
- education - уровень образования клиента
- education_id - идентификатор уровня образования
- family_status - семейное положение
- family_status_id - идентификатор семейного положения
- gender - пол клиента
- income_type - тип занятости
- debt - имел ли задолженность по возврату кредитов
- total_income - ежемесячный доход
- purpose - цель получения кредита

#### 1.2 Изучение данных <a class="anchor" id="1-2"></a>

In [2]:
dtype = {'education': 'category', 'education_id': 'category', 'family_status': 'category', 'family_status_id': 'category', 'gender': 'category', 'income_type': 'category', 'debt': 'category'}
df = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv', dtype=dtype)
df.sample(5, random_state=7)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
4042,1,-2885.142188,50,среднее,1,женат / замужем,0,F,сотрудник,0,80236.028323,приобретение автомобиля
19177,2,-1803.080913,36,Среднее,1,женат / замужем,0,F,сотрудник,0,163292.220004,строительство собственной недвижимости
7372,1,-305.540665,27,СРЕДНЕЕ,1,гражданский брак,1,F,сотрудник,0,69799.488812,ремонт жилью
16245,1,-1593.946336,50,среднее,1,женат / замужем,0,F,сотрудник,1,107486.332934,на покупку подержанного автомобиля
11563,0,-1025.402943,64,высшее,0,женат / замужем,0,M,госслужащий,0,706401.47579,профильное образование


In [28]:
gen = my_module.my_info_gen(df)

In [10]:
next(gen)

Output()

**Наблюдения:**  
В датафрейме есть строки дубликаты. 54 строки. Меньше 1 % от всего датафрейма.  
Если заменить все пробелы на 1, привести к нижнему регистру, то дополнительно появляется 31 дубликат.  
Нужно детаельнее изучить дубликаты.  

In [11]:
next(gen)

0it [00:00, ?it/s]

0it [00:00, ?it/s]

GridBox(children=(Output(), Output(), Output(), Output(), Output(), Output()), layout=Layout(grid_template_col…

**Наблюдения:**  
- В столбце с количеством детей нет пропущенных значений.  
- Уникальных всего 8 значений. Это нормально. Количество детей не может сильно варьироваться. 
- Наличие нулей нормально, это люди без детей, таких 66 %.  
- Есть отрицательные значения.  47 штук. Меньше 1 процента. Это явно ошибка. В реальных данных таких не должно быть.   
Нужно выяснить почему появились отрицательное количество детей.  
- Максимальное количество детей 20. В принципе это может быть правдой.  
- 66 прцоентов имеют 0 детей, 22 прцоента имеют 1 ребенка, 10 % имеют 2 детей и меньше 5 % имеют более 2 детей.  
- Распределение детей соответсвует реальности, больше всего людей без детей.


In [25]:
next(gen)

GridBox(children=(Output(), Output(), Output(), Output(), Output(), Output()), layout=Layout(grid_template_col…

**Наблюдения:**  
- В колонке общий трудовой стаж есть 10 % пропущенных значений.  
- 90 % уникальных значений, это нормально, так как стаж в днях.  
- 74 % отрицаетльных значений. Так быть не должно.   
Нужно выяснить как считаются дни стажа и разобраться откуда появляются отрицательные значения.  
- Максимальное количество дней стажа больше 400 тысяч дней, это больше 1000 лет. Явно это выброс.  
- Данные совершенно некоректные, нужно разбираться что является причиной.  

In [32]:
next(gen)

GridBox(children=(Output(), Output(), Output(), Output(), Output(), Output()), layout=Layout(grid_template_col…

**Наблюдения:**  
- В колонке возраста нет пропущенных значений.  
- 58 уникаьных значений (<1%), похоже на правду.  
- 101 нулевое значени. Это явно ошибки.  
- Максимальный возраст 75 лет. Впролне реально.  
- Медиана 42 года, первый квартиль 33 года, можно сделать вывод, что у нас восновном люди старше 30 лет.  
- Больше всего людей около 40 лет.  
- Только 5 процентов людей моложе 25 лет.  
- Распределение похоже на нормальное. Так и должно быть.  

In [33]:
next(gen)

GridBox(children=(Output(), Output(), Output(), Output(), Output(), Output()), layout=Layout(grid_template_col…

**Наблюдения:**  
- В столбце дохода 10 процентов пропущенных значений.  
- Есть дубликаты, но это нормально.  
- максимальный доход больше 2 млн, нужно проверить это, кажется что это нереально.  
- Минимальная зарплата 20 тысяч, это похоже на истину.  
- Распределение зарплат соответствует реальности.  
- Меньше 5 % людей имеют зарплату меньша 63 тысяч.  
Можно сделать вывод, что большинство имеет высокий доход.  
При этом 25 % имеют доход больше 200 тысяч.  

In [34]:
next(gen)

0it [00:00, ?it/s]

GridBox(children=(Output(), Output(), Output()), layout=Layout(grid_template_columns='auto auto auto'))

**Наблюдения:**
- В колонке образование пропусков нет.  
- Уникальных значений 15
- Присутствуют явные дубли из за разных регистров слов.  
- Болше всего людей со средним образованием 71 %
- Высшее образование у 24 % 

In [35]:
next(gen)

GridBox(children=(Output(), Output(), Output()), layout=Layout(grid_template_columns='auto auto auto'))

**Наблюдения:**  
- В колонке с id образонвания 5 униклаьных значений, хотя в колонке образования, если не учитывать регистр, 4 значения.  
Нужно разбираться.  

In [36]:
next(gen)

GridBox(children=(Output(), Output(), Output()), layout=Layout(grid_template_columns='auto auto auto'))

**Наблюдения:**  
- В колонке семейного статуса пропусков нет
- Проблем не обнаружено
- 58 % женаты либо замужем
- 19 % в гражданском браке
- Можно сделать вывод что большинство в браке.  

In [37]:
next(gen)

GridBox(children=(Output(), Output(), Output()), layout=Layout(grid_template_columns='auto auto auto'))

**Наблюдения:**
- Колонке семейный статус id проблем не обнаружено, значения совпадают со столбцом семейный статус

In [38]:
next(gen)

GridBox(children=(Output(), Output(), Output()), layout=Layout(grid_template_columns='auto auto auto'))

**Наблюдения:**
- В возрасте пропусков нет
- 3 уникальных значения 
- Значение XNA меньше чем у 1 %, возможно не указали пол
- 66 % женщины, можно сделать вывод, что большинство женщины

In [39]:
next(gen)

GridBox(children=(Output(), Output(), Output()), layout=Layout(grid_template_columns='auto auto auto'))

**Наблюдения:**
- В столбце тип занятости 8 уникальных значений.  
- Больше всего сотрудников (52 %)
- 24 % компаньены
- 18 % пенсионеры
- Меньше 1 % безработных. 
- Можно сделать вывод, что большинство либо пенсионеры, либо имеют занятость
- Также меньше 1 % предприниматели.

In [42]:
next(gen)

GridBox(children=(Output(), Output(), Output()), layout=Layout(grid_template_columns='auto auto auto'))

**Наблюдения:**  
- В колонке наличия долга 2 значения.  
- Пропусков нет
- 92 % не имеют долга

In [43]:
next(gen)

GridBox(children=(Output(), Output(), Output()), layout=Layout(grid_template_columns='auto auto auto'))

**Наблюдения:**
- В колонке цель кредита пропуско нет  
- 38 униклаьных значений, немного, но все таки есть похожие цели, нужно будет объеденить в одно значение
- Ярко выраженной цели кредита нет, но сложно точно определить, нужно объеденить сначала похожие цели.  

Проверка на ошибки целостности  
Если у нас есть столбцы, в которых значения должны совпдаать попарно, то проверяем на это.

In [47]:
my_module.get_non_matching_rows(df, 'education', 'education_id')

Нет строк для которых значения в col1 имеют разные значения в col2


Нет проблем с целостностью в образонвании, несмотря на дубли в образовании. 

In [48]:
my_module.get_non_matching_rows(df, 'family_status', 'family_status_id')

Нет строк для которых значения в col1 имеют разные значения в col2


В семейном статусе также нет проблем с целостностью.  

Проверим на дубли

Плсмльоим на дубли во всем датафрейме

In [56]:
dupl_df = my_module.check_duplicated(df)

Duplicated is 54 rows


У нас 54 полных дубля в таблице. Посмотрим на них. 

In [58]:
dupl_df.head(10)

Unnamed: 0_level_0,Unnamed: 1_level_0,Unnamed: 2_level_0,Unnamed: 3_level_0,Unnamed: 4_level_0,Unnamed: 5_level_0,Unnamed: 6_level_0,Unnamed: 7_level_0,Unnamed: 8_level_0,Unnamed: 9_level_0,Unnamed: 10_level_0,Unnamed: 11_level_0,Count
children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,Unnamed: 12_level_1
0,,58,среднее,1,гражданский брак,1,f,пенсионер,0,,сыграть свадьбу,3
0,,62,среднее,1,женат / замужем,0,f,пенсионер,0,,ремонт жилью,3
0,,47,среднее,1,женат / замужем,0,f,сотрудник,0,,ремонт жилью,3
0,,71,среднее,1,гражданский брак,1,f,пенсионер,0,,на проведение свадьбы,3
0,,58,среднее,1,гражданский брак,1,m,сотрудник,0,,на проведение свадьбы,3
0,,54,высшее,0,женат / замужем,0,m,компаньон,0,,операции с коммерческой недвижимостью,2
0,,41,среднее,1,женат / замужем,0,f,сотрудник,0,,свой автомобиль,2
2,,39,среднее,1,гражданский брак,1,f,сотрудник,0,,сыграть свадьбу,2
0,,56,среднее,1,гражданский брак,1,f,сотрудник,0,,сыграть свадьбу,2
1,,37,среднее,1,женат / замужем,0,f,сотрудник,0,,покупка недвижимости,2


**Наблюдения:**
- Так как у нас нет уникального идентификатора клиентов, то дубли это нормально
- Также у нас в строках с дублями есть пропуски в некоторых столбцах, если бы не было пропусков,  
то возможно дублей было бы меньше, так как было бы больше детализации

Посмотрим сколько у нас дублей в каждой колонке

In [67]:
series_duplicated = my_module.find_columns_with_duplicates(df)
series_duplicated.apply(lambda x: x.shape[0]).to_frame(name='duplicated')

Unnamed: 0,duplicated
children,21517
days_employed,2173
dob_years,21467
education,21510
education_id,21520
family_status,21520
family_status_id,21520
gender,21522
income_type,21517
debt,21523


Посмотрим на дубликаты между парами колонок

In [3]:
gen = my_module.check_duplicated_combinations_gen(df)

In [5]:
next(gen)

Group by 2 columns


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
children,,,,,,,,,,,,
days_employed,2166.0,,,,,,,,,,,
dob_years,21236.0,2118.0,,,,,,,,,,
education,21496.0,2170.0,21300.0,,,,,,,,,
education_id,21496.0,2170.0,21300.0,21520.0,,,,,,,,
family_status,21488.0,2169.0,21253.0,21502.0,21502.0,,,,,,,
family_status_id,21488.0,2169.0,21253.0,21502.0,21502.0,21520.0,,,,,,
gender,21508.0,2172.0,21410.0,21514.0,21514.0,21514.0,21514.0,,,,,
income_type,21489.0,2169.0,21304.0,21501.0,21501.0,21499.0,21499.0,21510.0,,,,
debt,21510.0,2172.0,21412.0,21516.0,21516.0,21515.0,21515.0,21520.0,21512.0,,,


**Наблюдения:**
- У нас большинство колонок имеют попраные дубликаты, это скорее всего вызвано пропусками
- Если бы не было пропусков в колонках стажа и дохода, то дублей было бы меньше

Проверяем на пропуски    

In [240]:
series_missed = my_module.find_columns_with_missing_values(df)
size = df.shape[0]
missed = df.isna().sum()
missed[missed != 0].apply(lambda x: f'{x} ({(x / size):.1%})').to_frame(name='missed')

Unnamed: 0,missed
days_employed,2174 (10.1%)
total_income,2174 (10.1%)


У нас пропуски в колонке со стажем и в колокне с доходом.  
Посмотрим на строки датафрейма с пропусками.  

In [None]:
df.isna().sum()

In [14]:
days_employed_missed = series_missed['days_employed']
total_income_missed = series_missed['total_income']

Количество пропусков совпдаает с точностью до строки.  
Выдвигаем гипотезу, что пропуски в обоих колонках в одних и тех же строках. 

Проверим эту гипотезу

Посмотрим на стаж

In [11]:
days_employed_missed.sample(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
4634,0,,64,среднее,1,в разводе,3,F,сотрудник,0,,высшее образование
8086,0,,23,среднее,1,Не женат / не замужем,4,M,сотрудник,0,,приобретение автомобиля
9096,0,,47,среднее,1,женат / замужем,0,F,сотрудник,0,,покупка жилья для семьи
1052,2,,35,среднее,1,женат / замужем,0,M,сотрудник,0,,операции с недвижимостью
5802,0,,29,высшее,0,женат / замужем,0,F,сотрудник,0,,операции с коммерческой недвижимостью
9374,0,,38,высшее,0,гражданский брак,1,F,компаньон,0,,на проведение свадьбы
12911,0,,52,среднее,1,Не женат / не замужем,4,M,пенсионер,1,,на покупку своего автомобиля
16395,0,,29,высшее,0,гражданский брак,1,F,сотрудник,0,,сыграть свадьбу
11754,0,,42,высшее,0,гражданский брак,1,F,сотрудник,0,,сыграть свадьбу
12937,1,,38,среднее,1,женат / замужем,0,M,компаньон,0,,автомобили


**Наблюдения:**
- 10 случайно взятых строк подтверждают гипотезу

Посмотрим на доход

In [17]:
total_income_missed.sample(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
16328,0,,51,среднее,1,Не женат / не замужем,4,F,компаньон,0,,покупка недвижимости
19433,0,,48,высшее,0,гражданский брак,1,F,компаньон,0,,на проведение свадьбы
2644,2,,40,среднее,1,гражданский брак,1,F,сотрудник,0,,на проведение свадьбы
3062,0,,42,среднее,1,женат / замужем,0,M,сотрудник,0,,операции с жильем
20501,2,,33,высшее,0,женат / замужем,0,M,компаньон,0,,заняться высшим образованием
15571,0,,36,Среднее,1,женат / замужем,0,M,сотрудник,0,,операции со своей недвижимостью
8128,0,,36,среднее,1,Не женат / не замужем,4,M,сотрудник,0,,приобретение автомобиля
14742,0,,23,среднее,1,Не женат / не замужем,4,F,сотрудник,0,,строительство недвижимости
16148,0,,45,среднее,1,гражданский брак,1,F,компаньон,0,,свадьба
14378,0,,36,среднее,1,гражданский брак,1,M,сотрудник,0,,жилье


**Наблюдения:**
- 10 случайно взятых строк подтверждают гипотезу

Посмотрим сколько пропусков в обоих колонках вместе

In [18]:
df_missed_employed_income = my_module.check_na_in_both_columns(df, ['days_employed', 'total_income'])
df_missed_employed_income.shape[0]

2174

**Наблюдения:**
- Видим, что совместно пропуски в таком количестве строк как и по отдельности. 
Гипотеза подтвердилась. У нас пропуски в строке стаж связаны с пропусками в строке доход.  
Возможно это вызвано тем, что при расчете дохода испльзуется стаж, либо существует другое влияние одного на другое.  

Изучаем выбросы

Посмотрим на выбросы через квантили

In [85]:
series_outliers = my_module.detect_outliers_quantile(df)

children,days_employed,dob_years,total_income
503,1936,1877,1936


**Наблюдения:** 
- интересно что количество выбросво, кроме колонки количество детей, примерно одинаковое

Изучим выбросы в разрезе категорий

In [186]:
def outliers_gen(series_outliers):
    for col in series_outliers.index:
        display(series_outliers[col][col].value_counts().to_frame('outliers').head(10).style.set_caption(f'{col}')
                .set_table_styles([{'selector': 'caption',
                                    'props': [('font-size', '18px'), ("text-align", "left"), ("font-weight", "bold")]
                                    }]))
        yield
        series_outliers['children'].sample(5)
        gen = my_module.get_outlier_quantile_proportion_by_category(df, col)
        for _ in gen:
            yield
gen = outliers_gen(series_outliers)            

In [187]:
next(gen)

Unnamed: 0,outliers
3,330
20,76
-1,47
4,41
5,9


**Наблюдения:** 
- Видим, что клиенты с количеством больше 2 попали в выбросы, что логично
- Также -1 попало в выброс, что тоже верно

In [103]:
next(gen)

family_status,total_count,outlier_count,outlier_in_category_pct,outlier_in_column_pct,total_count_pct
Не женат / не замужем,2813,24,0.9%,4.8%,13.1%
в разводе,1195,18,1.5%,3.6%,5.6%
вдовец / вдова,960,15,1.6%,3.0%,4.5%
гражданский брак,4177,83,2.0%,16.5%,19.4%
женат / замужем,12380,363,2.9%,72.2%,57.5%


**Наблюдения:**
- женат / замужем содержит значительно больше выбросов, даже учитывая что в общем количестве их тоже больше

In [105]:
next(gen)

gender,total_count,outlier_count,outlier_in_category_pct,outlier_in_column_pct,total_count_pct
F,14236,313,2.2%,62.2%,66.1%
M,7288,190,2.6%,37.8%,33.9%
XNA,1,0,0.0%,0.0%,0.0%


**Наблюдения:**
- У мужчин немного побольше выбросов, учитывая размер группы мужчин

In [106]:
next(gen)

income_type,total_count,outlier_count,outlier_in_category_pct,outlier_in_column_pct,total_count_pct
безработный,2,0,0.0%,0.0%,0.0%
в декрете,1,0,0.0%,0.0%,0.0%
госслужащий,1459,50,3.4%,9.9%,6.8%
компаньон,5085,114,2.2%,22.7%,23.6%
пенсионер,3856,24,0.6%,4.8%,17.9%
предприниматель,2,0,0.0%,0.0%,0.0%
сотрудник,11119,315,2.8%,62.6%,51.7%
студент,1,0,0.0%,0.0%,0.0%


**Наблюдения:**
- Больше всего выбросов у сотрудников, даже болше чем пропорция сотрудников в общем количестве

In [198]:
next(gen)

family_status,total_count,outlier_count,outlier_in_category_pct,outlier_in_column_pct,total_count_pct
Не женат / не замужем,2813,182,6.5%,9.4%,13.1%
в разводе,1195,118,9.9%,6.1%,5.6%
вдовец / вдова,960,169,17.6%,8.7%,4.5%
гражданский брак,4177,346,8.3%,17.9%,19.4%
женат / замужем,12380,1121,9.1%,57.9%,57.5%


**Наблюдения:**
- вдовец / вдова имеет больше процент пропусков чем пропроция в общем количестве

In [200]:
next(gen)

gender,total_count,outlier_count,outlier_in_category_pct,outlier_in_column_pct,total_count_pct
F,14236,1544,10.8%,79.8%,66.1%
M,7288,392,5.4%,20.2%,33.9%
XNA,1,0,0.0%,0.0%,0.0%


**Наблюдения:**
- У женщин выбросов в стаже намного болше чем у мужчин, даже учитывая что женщин больше всего

In [201]:
next(gen)

income_type,total_count,outlier_count,outlier_in_category_pct,outlier_in_column_pct,total_count_pct
безработный,2,1,50.0%,0.1%,0.0%
в декрете,1,0,0.0%,0.0%,0.0%
госслужащий,1459,183,12.5%,9.5%,6.8%
компаньон,5085,173,3.4%,8.9%,23.6%
пенсионер,3856,967,25.1%,49.9%,17.9%
предприниматель,2,0,0.0%,0.0%,0.0%
сотрудник,11119,612,5.5%,31.6%,51.7%
студент,1,0,0.0%,0.0%,0.0%


**Наблюдения:**
- У пенсионеров значительно болше выбросов в стаже

In [202]:
next(gen)

debt,total_count,outlier_count,outlier_in_category_pct,outlier_in_column_pct,total_count_pct
0,19784,1838,9.3%,94.9%,91.9%
1,1741,98,5.6%,5.1%,8.1%


**Наблюдения:**
- У женщин выбросов в стаже намного болше чем у мужчин, даже учитывая что женщин больше всего

In [203]:
next(gen)

Unnamed: 0,outliers
24,264
23,254
65,194
66,183
22,183
67,167
21,111
0,101
68,99
69,85


**Наблюдения:**
- В выбросы попали самые молодые и самые старые по возрасту, что логично, также попал 0

In [206]:
next(gen)

family_status,total_count,outlier_count,outlier_in_category_pct,outlier_in_column_pct,total_count_pct
Не женат / не замужем,2813,465,16.5%,24.8%,13.1%
в разводе,1195,75,6.3%,4.0%,5.6%
вдовец / вдова,960,176,18.3%,9.4%,4.5%
гражданский брак,4177,385,9.2%,20.5%,19.4%
женат / замужем,12380,776,6.3%,41.3%,57.5%


**Наблюдения:**
- Не женат / не замужем выделяется по выбросам, учитывая пропроцию в общем количестве

In [209]:
next(gen)

income_type,total_count,outlier_count,outlier_in_category_pct,outlier_in_column_pct,total_count_pct
безработный,2,0,0.0%,0.0%,0.0%
в декрете,1,0,0.0%,0.0%,0.0%
госслужащий,1459,69,4.7%,3.7%,6.8%
компаньон,5085,333,6.5%,17.7%,23.6%
пенсионер,3856,792,20.5%,42.2%,17.9%
предприниматель,2,0,0.0%,0.0%,0.0%
сотрудник,11119,682,6.1%,36.3%,51.7%
студент,1,1,100.0%,0.1%,0.0%


**Наблюдения:**
- У пенсионеров болше выбросов по возрасту, что логично

In [214]:
next(gen)

family_status,total_count,outlier_count,outlier_in_category_pct,outlier_in_column_pct,total_count_pct
Не женат / не замужем,2813,217,7.7%,11.2%,13.1%
в разводе,1195,96,8.0%,5.0%,5.6%
вдовец / вдова,960,95,9.9%,4.9%,4.5%
гражданский брак,4177,336,8.0%,17.4%,19.4%
женат / замужем,12380,1192,9.6%,61.6%,57.5%


**Наблюдения:**
- У женатых больше выбросов по доходу

In [217]:
next(gen)

income_type,total_count,outlier_count,outlier_in_category_pct,outlier_in_column_pct,total_count_pct
безработный,2,1,50.0%,0.1%,0.0%
в декрете,1,1,100.0%,0.1%,0.0%
госслужащий,1459,140,9.6%,7.2%,6.8%
компаньон,5085,488,9.6%,25.2%,23.6%
пенсионер,3856,500,13.0%,25.8%,17.9%
предприниматель,2,1,50.0%,0.1%,0.0%
сотрудник,11119,805,7.2%,41.6%,51.7%
студент,1,0,0.0%,0.0%,0.0%


**Наблюдения:**
- У пенсионеров больше выбросов по доходу

In [218]:
next(gen)

debt,total_count,outlier_count,outlier_in_category_pct,outlier_in_column_pct,total_count_pct
0,19784,1811,9.2%,93.5%,91.9%
1,1741,125,7.2%,6.5%,8.1%


**Наблюдения:**
- Без задолженности немного больше выбросов по доходу.  

#### 1.2 Промежуточный вывод

- В датафрейме есть строки дубликаты. 54 строки. Меньше 1 % от всего датафрейма.  
Так как у нас нет уникального идентификатора клиентов, то эти дубли не выглядят ошибкой.  
Также у нас в строках с дублями есть пропуски в некоторых столбцах, если бы не было пропусков,  
то возможно дублей было бы меньше, так как было бы больше детализации
- В столбце с количеством детей есть отрицательные значения.  47 штук. Меньше 1 процента. Также есть клиенты с 20 детьми. Что странно.  
- 66 прцоентов имеют 0 детей, 22 прцоента имеют 1 ребенка, 10 % имеют 2 детей и меньше 5 % имеют более 2 детей.  
- В колонке общий трудовой стаж есть 10 % пропущенных значений.  
- 74 % отрицаетльных значений. Так быть не должно.  
- Максимальное количество дней стажа больше 400 тысяч дней, это больше 1000 лет. Явно это выброс.  
- Столбец со стажем выглядит некорректно. Нужно высянить методику расчета и разобраться в чем проблема.  
- В колонке возраста 101 нулевое значени. Это явно ошибки.  
- Медиана 42 года, первый квартиль 33 года, можно сделать вывод, что у нас восновном люди старше 30 лет.  
- Больше всего людей около 40 лет.  
- Только 5 процентов людей моложе 25 лет.  
- максимальный доход больше 2 млн, нужно проверить это, кажется что это нереально.  
- Меньше 5 % людей имеют зарплату меньша 63 тысяч.  
Можно сделать вывод, что большинство имеет высокий доход.  
При этом 25 % имеют доход больше 200 тысяч.  
- В колонке с образованием присутствуют одни и те же знчения с разными регистрами. Нужно выяснить почему так происходит при загрузке.  
При этом в колонке с id образования все впрорядке.    
- Болше всего людей со средним образованием 71 %. Высшее образование у 24 %.
- 58 % женаты либо замужем. 19 % в гражданском браке. Можно сделать вывод что большинство в браке.  
- В колонке пола присутствует значение XNA меньше чем у 1 %, возможно не указали пол.
- 66 % женщины, можно сделать вывод, что большинство женщины
- В столбце занятость больше всего сотрудников (52 %). Меньше 1 % безработных. Предпринимететей также 1 %. Можно сделать вывод, что большинство либо пенсионеры, либо имеют занятость.
- 92 % не имеют долга
- В колонке цель кредита 38 униклаьных значений, немного, но все таки есть похожие цели, нужно будет объеденить в одно значение.
- Выделяющейся по количеству заявок цели кредита нет.  
- У нас пропуски в колонке со стажем и в колокне с доходом.  
- Гипотеза, что пропуски в обоих колонках расположены в одних и тех же строках подтветрдилась.  
Возможно это вызвано тем, что при расчете дохода испльзуется стаж, либо существует другое влияние одного на другое.  
- Категория семейного статуса 'женат / замужем' содержит значительно больше выбросов по количеству детей, даже учитывая что в общем количестве их тоже больше
- У мужчин немного побольше выбросов по количеству детей, учитывая размер группы мужчин.
- Больше всего выбросов по количеству детей у категории занятости 'сотрудник'
- У женщин выбросов в стаже намного болше чем у мужчин, даже учитывая что женщин больше всего
- У пенсионеров значительно болше выбросов в стаже
- Категория семейного статуса 'Не женат / не замужем' выделяется по выбросам, учитывая пропроцию в общем количестве.
- У пенсионеров болше выбросов по возрасту, что логично
- Категория семейного статуса 'Не женат / не замужем' имеет больше выбросов по доходу
- У пенсионеров больше выбросов по доходу
- У людей без задолженности немного больше выбросов по доходу.  

### 2. Предобработка данных

#### Выбор нужных столбцов для дальнейшей работы и нормализация таблицы

In [220]:
df.head(1)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья


Для дальнейшего анализа нам не нужно 2 колонки с образованием и с семейным статусом.   
Удалим колонки с id образования и семейного статуса, так как нам для графиков лучше подойдут названия, а не id.

Сохраним исходный датафрейм в переменную df_origin, чтобы была возможность вернуться к нему

In [222]:
df_origin = df.copy()

In [223]:
df = df.drop(['education_id', 'family_status_id'], axis=1)
df.head(1)

Unnamed: 0,children,days_employed,dob_years,education,family_status,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,женат / замужем,F,сотрудник,0,253875.639453,покупка жилья


### Обработка пропусков

In [239]:
size = df.shape[0]
missed = df.isna().sum()
missed[missed != 0].apply(lambda x: f'{x} ({(x / size):.1%})').to_frame(name='missed')

Unnamed: 0,missed
days_employed,2174 (10.1%)
total_income,2174 (10.1%)


У нас 10 процентов пропусков в стаже и в доходе.  
Удалять нельзя. Попробуем заменить.  

Доход мы можем заполнить пропуски учитывая категории.  
Выберем категории следующие - образование, семейный статус, пол, занятость.  
Выбраны эти категории, так как они могут оказывать влияние на  доход.  

In [None]:
my_module.fill_na_with_function_by_categories()

In [244]:
my_module.my_info(df[['days_employed']])

0it [00:00, ?it/s]

0it [00:00, ?it/s]

0it [00:00, ?it/s]

Output()

GridBox(layout=Layout(grid_template_columns='1fr 1fr 1fr 1fr 1fr'))

GridBox(children=(Output(), Output(), Output(), Output(), Output(), Output()), layout=Layout(grid_template_col…

GridBox(layout=Layout(grid_template_columns='auto auto auto'))

### Промежуточный вывод

### Работа с выбросами

- Помним про нулевые и отрицательные значения
- Нулевые значения, отрицательные значения являются выбросами, если они не могут быть у этой колонки.  
- Очень важно понимать, когда выброс можно отбросить и он реально выброс и когда нельзя.  
Опираемся на физику параметра, думаем это значение физически возможно.  
- Также выброс может казаться выбрасом, но для бизнеса это не выброс.  
Например у нас суммы покупок и одна покупка сильно выделяется, а там просто человек купил супе дорогой каньяк, например.  
- Когда хотим обрезать выбросы, то думаем, какой порог может быть физически реальным и по нему режем, а не просто так берем какой-то перцентиль.  
Всегда нужно думать с точки зрения физического возможного значения параметра и по нему резать (подумать а какое значение может быть максимально реальным и по нему обрезать)
- Если мы имеем дело со строгой отчестностью, то выбросы убирать нельзя, нужно разобраться откуда они.  
- Если мы не можем с увереностью сказать, что это выброс, то нам не стоит его выкидывать, но работать как то нужно с ними,  
тогда, логарифмируем (лучше использовать натуральный логарифм) эту колонку и работаем с такими значениями (тогда выбросы сожмуться).  

### Промежуточный вывод

### Обработка дубликатов

Посмотрим снова на дубли после обработки пропусков

`check_duplicated`  
`check_duplicated_combinations_gen`  
`get_duplicates_value_proportion_by_category`  
В первую функцию можно передавать весь датафрейм и можно выбирать нужные столбцы для проверки на дубли и передавать их.  

Если есть дубли, и мы считаем, что это не дубли, а просто разделились данные,    
то объединеняем записи, которые имеют одинаковые значения ключевых признаков.  
`merge_duplicates`

Если мы не уверены, что дубль является дублем и не хотим удалять, то можно  использовать  
маркировку дублей,  можно добавить новую колонку, которая будет содержать информацию о том,   
является ли строка дубликатом или нет.  
`df['is_duplicate'] = df.duplicated()`

Подумать, а можем ли мы обогатить данные, что разделит дубли.  
То есть возможно в наших данных нет какого-то столбца, и тогда дубли уже не будут дублями. 

Если уверены, что это дубли, то удаляем их  
`df.drop_duplicates()`

### Промежуточный вывод

### Промежуточный вывод

### Категоризация данных

Придумываем какие колонки можно дополнительно сделать из имеющихся.  
Например у нас есть колонка длительность звонков, и 0 это пропущенный звонок,  
мы можем сделать колонку is_missed, в которой будет true или false  

Очень важно, когда мы создаем новые колонки, в которых используем несколько дургих, то нужно проверить распределение этой новой переменной, особенно выбросы.  
Например, у нас начальная и конечная дата сессии и мы считаем длительность сессии. Вот тут нужно посмотреть какая минимальная длительность  
и какая максимальная. Ну и естественно проверить есть ли длительность 0 и меньше нуля.  
Таким образом мы можем найти инсайты уже после создания новых колонок, хотя в изначальных данных этих инсайдов не было видно.  

#### Обычная категоризация данных

Категоризация помогает избежать проблемы с разреженными данными, когда у нас есть слишком много групп с небольшим количеством элементов.   
Это может привести к некорректным выводам и ошибкам в анализе.
Категоризация нужна, чтобы образовать группы, в которых достаточно значений для использования статистических методов.  
И вообще, если в группе 1-10 элементов, например у нас возраст пользователей и 5 человек с возрастом 22, 3 человека с возрастом 23 и так далее.  
Мы не можем разбивать по таким группам, так как их размер небльшой и выводы будут некорректные, поэтому нам нужно собрать их в группы,  
чтобы у нас были группы с достаточным размером.  

- Если у нас категориальная переменная имеет много значений, то мы не можем номрально с ней работать.  
Так как мы не можем построить графики по ним, так как их много и они не числовые. Не можем сравнить их все.  
Поэтому нам нужно сократить категории.  
- Нужно посмотреть на данные и подумать можем ли мы разделить их по сегментам рынка или по другим категориям, которые нам помогут.  
- Мы можем категоризировать на основе и числовых и категориальных столбцов. То есть мы можем из категориальной переменной сделать  
другую категориальную, уменьшив или увеличив разбиение.   
- добавление категорий обогощает данные, при чем категории могут формироваться не из одной колонки, а из серии, то есть чтобы попасть  
в определенную категорию значения столбцов должно быть такое то, а не только один столбец определяет категорию.  
- категории могут быть да нет, то есть состоять из двух значений, например, у нас есть данные о рекламе и столбец где она показвалась,  
и у нас много много разных устройств. Мы можем разбить на да нет, то есть показвалась реклама по телеку или нет

Мы можем разбить данные на категории двумя способами
- разбивать на равные части  
подходит, когда 
    - диапазон значений является равномерным и имеет линейную структуру  
    - мы понимаем на какие интервалы хотим разбить данные    
    - мы хотим разделить диапазон значений на равные части для удобства анализа.
- разбить на основе квантилей  
подходит, если   
    - диапазон значений имеет неравномерную структуру
    - мы не можем понять какие интервалы выбрать
    - хотим выделить группы с конкретными характеристиками (например, группы с низким доходом, средним доходом и высоким доходом)

Выбираем нужные способ и используем  
`create_category_column`

#### Категоризация с использованием лемматизации

Если у нас есть столбец и мы хотим его лематизировать, то используем функцию  
`lemmatize_column`

С помощью лематизации мы можем сократить количество категорий.  

Например мы можем выделить группы:
- операции с автомобилем (ключевое слово - автомобиль)
- операции с недвижимостью (ключевые слова: жилье, недвижимость)
- проведение свадьбы (ключевое слово: свадьба)
- получение образования (ключевое слово: образование)


Используем функцию  
`categorize_column_by_lemmatize`

### Промежуточный вывод

### Feature engineering

Если мы хотим преобразовать категории в числа, то мы можем использовать 
- lable encoding  
Заменяем быквы числами. Хорошо работает, когда у нас порядковые категориальные переменные.  
Не забываем про порядок, если у нас алфавитный порядок наших категорий соотвествует числовому, то ок,  
если нет, то нам нужно самим определить порядок чисел, чтобы они соответствовали категориям в нужном порядке.  
- one hot encoding  
Если у нас категориальная переменная не упорядочиваемая, то лучше использовать one hot encoding, чтобы разница между числами не вносила шум,  
так как черный и белый и красный цвет закодированные 1, 2, 3 вносят смысл количества, но они не имеют этого свойства.  
-  target encoding  
замена категориальной переменной на каую-то статистику по одной из категорий внутри этой переменной.  
Например у нас категориальная переменная это наличие задержки. Значение задержан / незадержан. Мы кодируем их как 0 и 1. Далее мы берем и считаем по каждой группе (для задержан и для незадержан)  
статистику, например, среднее и получаем столбец, где вместо каждой буквы будет ее среднее.  
Тут важно делать регуляризацию. Так как маленькие группы могут иметь сильно  зашумленные статистики, так как если у нас  
группа из 5 значений, то среди них может быть легко экстремальное одно и оно сбивает статистику, поэтому добавляем штраф всем статистикам.  
Регуляризация это что-то похожее на сглаживание.  
Как это делается 
    - берем считаем среднее по таргету (целевой переменной, то есть той, по которой мы счтаем статистику) всей таблице (то есть не делим на категории)  
    - Далее используем следующую формулу для сглаженного значения среднего по конкретной группе:   
      (среднее по группе * количество элементов в группе + среднее по таргету без учета категорий * размер регуляризирующей группы) / (количество элементов в категории + размер регуляризирующей группы)  
      Количество элементов в регуляризационнной группе выбирает эмперически. То есть это количество элементов, которым мы сглаживаем.    
      Смысл в том, что мы берем сколько-то элементов с занчением для всех категорий и сглаживаем им наши отдельные категории.    
    - Размер регуляризирующей группы обычно выбирают с помощью grid search, то есть берут цикл для размера этой группы и считают результат модели для каждого размера,  
    и потом выбирают тот размер, для которого результат лучше.    
    
`target_encoding_linear`  
`target_encoding_bayes`      
    



### Использование кластеризации для категоризации

Можно понизить размерность до 3  
и построить 3 д график  
По этому графику посмотреть есть ли у нас возможные кластеры  
Если есть, то выделить их  
Причем для понижения размерности можно брать все столбцы, а можно только часть.

### Промежуточный вывод

### Обогощение таблиц (соединение с другими)

Проверка соответствия:   
Если у нас в разных таблицах есть значения, которые дожны быть одинакоые,    
то нужно проверить, что значения в одном столбце соответствуют значениям в другом столбце. 

In [None]:
df['column_name1'].equals(df['column_name2'])

Обоготить данные можно следующими способами
- взять поле нашей таблицы и найти дополнительные данные в интернете или ещё где-то и потом связать с нашей колонкой по этому полю  
Самое просто это дата, если у нас есть дата, то мы можем много разной доп информации внести в наши данные связывая по дате.  
Также, например, у нас есть какие-то коды чего-то, мы ищем информацию по этим кодам и находим табличку с доп инфой по этим кодам и можем обоготить ими   
нашу таблицу. Например, у нас города или страны, мы можем по ним также внести доп инфу из какого-то источника, которая нам поможет.  
Вообще любое поле нашей таблицы это потенцильная нить для обогощения. Главное понять с чем полезным мы можем соеденить  
через конкретное поле, чтобы получить больше полезной информации для анализа, по сути для детализации наших зависимостей или для поиска  
новых зависимостей и инсайтов в них.  
Процесс следующий - мы берем каждую колонку нашего дата сета и думаем, с чем через нее мы можем связать и если придумываем, то идешь ищем эту информацию и  
в итоге соединяем.  
- Можно пойти от обратного. Сначал подумтаь какие данные нам могут помочь и поискать их в интернете например, а потом уже думать как их соеденить с нашими   
данными. Оба способа лучше делать одновременно.  

Каждый раз, когда мы работаем с дата сетом, мы должны понять что является сущностью этого дата сета.  
Например событие, человек и прочее.  
Далее нам нужно поянть а можем ли мы его идентифицировать по текущим данным (не всегда есть уникальный ай ди).   
Если не можем, то нужно думта как обогатить данные, чтобы четко идентифицировать сущности

Что нужно обязательно првоерить после соединения
- если мы соединяем по полю, которое уникально в обеих таблицах
    - количество строк в левом датафрейме равно количеству строк в итоговом
    - параметры каждого дата сета не изменились (если мы соединили правильно, то итоговые суммы по столбцам не должны измениться)
        - используем `df.sum(numeric_only=True)` для каждой таблицы до соединения и для общей таблицы и сравниваем значения
        - можно использвоать `df.describe` также до и после объединения и сравнивать параметры
- если у нас в одной из колонок для соединения не уникальные значения (то есть для одной строки в левой таблице будет несколько в итоговй)    
    - Сначала группируем таблицы, чтобы поле для соединения в обеих таблицах было уникальное
    и применяем предыдущий шаг с количеством строк в левой и итоговой и суммой значений в левой и итоговой одинаковой
    - Если нам нужно соеденить без группировки (но это редко может быть, поэтому нужно подумать точно ли не моежм сгруппировать)  
    тогда нет выбора и остаются только следующие варианты  
        - если в левой таблице уникальные записи в колонке, по которйо соединяем    
            - тогда считаем сколько было записей в левой таблице в колонке для соединения и сравниваем с количеством **уникальных** записей в итоговой  
            они должны совпадать, но тут важно в итоговой брать уникальные записи
        - есил и в левой и правой нет уникальных
            - тут считаем сколько **уникальных** в левой до и сколько **уникальных** в итоговой, должно совпадать

Если у нас что-то не сходится после соединения таблиц, то нужно внимально изучить это.  
Тут может быть инсайт (кто-то не правильно вносит информацию, какие-то значения неверные или кто-то что-то хотел спрятать, не указать и прчоее).  
Когда видим нестыковки после соединения таблиц, то должна загораться красная лампочка. Это потенциальный инсайт, баг, который мы можем найти и сообщить, чтобы его починили. 

помним, что метод соединения inner стоит по умолчанию в merge

В колонках, по которым будем соеднить, проверяем, нет ли пропусков, пропуски нужно заменить нулями.  
Иначе будет либо ошибка, либо пропуски сджойнятся с пропусками

Проблема справочников  
При объединение таблиц важно помнить про то, что в разных таблицах не только названия столбцов может быть разное,  
но и одно значение может быть записано по разному в разных таблицах, например, названия профессий, названия городов,  
имя в одной таблице на русском, а в другой на английском, номер телефона с черточкой или плюсом и без черточки или плюса.  
Поэтому не забываем привести все значения таблиц к нижнему регистру, чтобы не было проблем разными регистрами для одного слова

Проблема временных зон  
В одной таблице может быть выгрузка по местному времени, а в другом по московскому  


Проблема курсов валют  
Разыне системы могут брать курс за разные промежутки вермени, например, одна система берет курс в гугле (раз в час обновляется),  
а другая система берет курс в ЦБ (обновляется раз в сутки)  
И поэтому итоговые резултаты могут не состыковаться, поэтому, когда видим курсы валют, то нужно убедиться. что они взяты из одного испточника  
и за один промежуток времени  

Когда мы работаем с данными, нам важно четко идентифицировать клиентов, событие или другую сущность, с которой мы работаем.  
Иначе у нас будет шум, так как мы одного и того же клиента учтем более одного  раза.

Как можно обоготить данные, чтобы лучше идентифицировать сущности
- Добавить для клиента email, телефон, устройство, 4 цифры карты и другое, что может помочь его идентифицировать  
    Это важно так как у клиента могут быть разные телефоны, устройства, карты, но все это вместе поможет его идентифицировать точнее
- Добавить для события локацию, погоду, связанные событие, праздники, что поможет нам идентифицировать событие   

### Сравнение метрик между собой

Топ n значений одного столбца по значениям в другом

Сделать функцию, чтобы в столбцах, где бльше 20 уникльных значений посмотреть топ n значений по другой колонке.  
Например, топ 10 покупателей по сумме покупок и прочее.  
Идея в том, что если  в столбце до 20 уникальных значений, то мы проанализируем комбинации с другими стобцами на графиках.  
А вот если у нас столбец не числовой и в нем больше 20 уникальных значений, то на графике мы не сможем понять топ n.

Чтобы сравнить метрики между собой мы можем
- использовать корреляционный анализ (Пирсена, Спирмена, Кенделла)


`heatmap(df.corr())`

Использование регрессии и случайного леса для определения влияния переменных  

Коэффициенты регрессии позволяют оценить влияние каждой переменной на целевую переменную, учитывая влияние других переменных,  
в то время как важные компоненты в случайном лесе позволяют оценить важность каждой переменной для предсказания целевой переменной.

Используем регрессиию 

Чтобы построить регрессию и посмотреть стат значимость и коэффициенты удобно использовать модуль statsmodel

VIF означает Variance Inflation Factor (Фактор инфляции дисперсии). Это статистическая метрика,   
используемая для обнаружения мультиколлинеарности (сильной корреляции) между предикторами (фичами) в линейной регрессии.

Обычно, VIF интерпретируется следующим образом:

- VIF < 5: слабая мультиколлинеарность
- 5 ≤ VIF < 10: умеренная мультиколлинеарность
- VIF ≥ 10: сильная мультиколлинеарность


Смотрим R2 (коэффициент детерминации)
- использовать коэффициенты у регресси
Мы строим регрессию и смотрим, у каких метрик больше коэффициенты. Таким образом мы поймем какие метрики сильнее зависят с целевой.  
Важно, чтобы независимые переменные некоррелировали по отдельности и вместе (мультиколлиниарность).  
По отдельности смотрим матрицу корреляции.  
Чтобы определить коррелириуют ли вместе, береме независимые переменные,  
и перебираем их выбирая одну из них целевой и смотрим R2.  
Если R2 большой, то значит эта метрика (которая целевая на этом шаге) хорошо описывается другими и ее можно выбросить.
Также не забываем поправки на гетероскедостичность (HC0, HC1, HC2, HC3) в статпакетах.  
Нам нужно ответить на следующие вопросы
    - Влияет ли метрика на целевую?
    Оцениваем коэффициенты в уравнении регресси у каждой метрики.  
    - Как влияет метрика на целевую?
    Смотрим R2 (коэффициент детерминации). И определяем какая часть целевой переменной определяется независимыми метриками.  
    - Коэффициенты при метриках в уравнении статистически значим? При какаом уровне значимости?
    Смотрим в стат пакете p value для каждого коэффициента, что нам говорит значим ли этот коэффициент.  
    То есть мы не просто смотрим его абсолютное значение, а учитываем p value.   
    - Дайте содержательную интерпретацию коэффицентам?
    При увеличении метрики k на 1, целевая метрика увеличивается на $b_{k} * 1$
    То есть нужно перевести коэффициенты в реальное сравнение, насколько увелчисться целевая метрика при изменении определенной метрики на 1
    - Найдите 95 процентный доверительный интервал.
    В стат пакете смотрим значение и оно говорит, что если мы многократно повторим ноши вычисления с новыми данными, то 95 процентов наших  
    полученных коэффицентов будут лежать в этом диапазоне.  

Строим модель и изучаем результат  
`linear_regression_with_vif`

Испльзовать коэффициенты у классификацию    
Строим случайный лес какие метрики сильнее всего влияют на решения модели.   
`plot_feature_importances_classifier`   
`plot_feature_importances_regression`

На основе полученных данных формулируем гипотезы, которые будем проверять в блоке проверки гипотез

 используем быблиотеку `shap`, чтобы определить метрики, которые лучше других помогают предсказывать целевую перемменную

### Когортный анализ

Не забывать про когортный анализ. Если у нас есть параметр, по которому мы можем наши данные разбить на когорты, то  
нужно разложить на когорты и посмотреть динамику по когортам.  
Когорты это например, пользователи пришедшие в одни день или месяц.  
Если мы объеденим пользователей в когорты и посмотрим динамику какого-то параметра по месяцам например, то увидим как изменяется.  
Тут также нужно помнить, что если значение например за 3 месяц больше значения за 4 месяц, то это ничего не значит само по себе.  
Так как мы имеем дело с выборкой, то нам нужно проверить статистически значимая это разница.  
Тут нам понядобятся стат тесты.  


### Промежуточный вывод

### 3 Анализ взаимосвязей переменных на графиках

Сначала раздел графиков  
На основе графиков формируются гипотезы (например, у нас у мужчин зп больше)
И после раздела графиков идет раздел проверки гипотез. Тут мы првоеряем разные гипотезы новые и те, что увидели на графиках.  
Это правильная последовательность сначала изучили графики и потом на основе их сформировали гипоетзы
Перед разделом про графики идет раздел с корреляцией и поиском главных компонет случайного леса.  
Мы выбиарем переменную, для которой мы далее хотим посмотреть разыне зависимости и указываем ее целевой для сучайного леса  
И смотрим какие фичи сильнее влияют.  
И теперь можем построить графики с целевой перменно и этими главными фичами и в выводе можно указать про то что это важные компоненты случаного леса

На основе полученных данных формулируем гипотезы, которые будем проверять в блоке проверки гипотез

#### Изучаем зависимости временем и другими переменными

Строим когортный анализ, если есть возможность

Если у нас есть даты, то мы можем посмотреть не просто абсолютные значения на каждую дату какой-то метрики,  
а посмотреть относительные значения относительно предыдущего значения.  
Для этого нужно составить таблицу, в которой будет изменение в процентах относительно предыдущего значения.  
И затем визуализировать для каждой даты динамику этого показателя 

#### Изучаем зависимости между числовыми переменными

Изучаем scatter plots

In [None]:
pairplot = sns.pairplot(df, markers=["o"], 
                        plot_kws={'color': (128/255, 60/255, 170/255, 0.9)},
                        diag_kws={'color': (128/255, 60/255, 170/255, 0.9)})

In [None]:
import plotly.express as px
df = px.data.iris()
fig = px.density_contour(df, x="sepal_width", y="sepal_length")
fig.show()

#### Изучаем зависимости между категориальными переменными

Строим матрицу тепловой карты для категориальных переменных и изучаем зависимости  
`categorical_heatmap_matrix_gen`

Строим treemap  
`treemap`   
`treemap_dash`   
```
app = treemap_dash(df)
if __name__ == '__main__':
    app.run_server(debug=True)
```

Строим parallel_categories    
`parallel_categories `  
`parallel_categories_dash `  
```
app = treemap_dash(df)
if __name__ == '__main__':
    app.run_server(debug=True)
```

Строим Sankey  
`sankey `   
`sankey_dash`

```
app = treemap_dash(df)
if __name__ == '__main__':
    app.run_server(debug=True)
```

#### Изучаем зависимости между числовыми и категориальными переменными

```graph_analysis```

### 4 Формулирование и провера гипотез

Подход следуюищй - мы до раздела проверка гипотез, когда изучаем данные (разделы пропусков, выбросов, дубликатов, зависиместей между перменными и графики),  
то мы делаем выводы и формируем наблюдеия.  
Вот эти наблюдения и выводы нужно проверить в проверке гипотез.  
И потом в основном выводе уже писать не просто, что у нас мужчин больше чем женьшин, а писать, что на уровен значисомти таком то у нас мужчина больше чем  
женщин с таким то доверительным интервалом.  
Таким образом выводы по вомзожности должны проходить через этап проверки гипотез, тогда эти выводы становятся более существенными.  

- Гипотезы появляются, когда мы задаем вопросы данным. Мы изучили данные, преобработали и теперь начинаем задавать вопросы.  
- Выдвигаем гипотезу (заметили что-то необычное и хотим проверить), далее формулируем ее и далее проверяем.  
- Не забываем формулировать гипотезы словами. Пишем что является гипотезой H0, а что гипотезой H1  
- Формулируем все гипотезы, которые хотим проверить. Если будет 100 гипотез, то все 100 нужно сформулировать и потом проверить и сделать вывод.  
- Гипотезы могут быть и простыми вопросами без гипотез H0 и H1, такие гипотезы мы проверяем графиками или анализируя таблицу.  
- Восновном, когда мы собиаремся применить стат аппарат для проверки гипотезы, то мы должны записать ее через H0 и H1.  

Алгоритм проверки статистических гипотез

- постановка задачи
    - Сформулировать, что мы хотим узнать о выборках с точки зрения бизнес задачи (равны ли средние доходы в группах)
    - перевод бизнес-вопроса на язык статистики: средний доход в группах - проверка равенства средних значений
- формулировка гипотез
    - формулировка нулевой гипотезы - с т.зр. равенства стат прараметров оцениваемых выборок   
    (Н0: Средние траты клиентов по группе А равны средним тратам клинентов по группе В)
    - формулировка альтернативной гипотезы - с точки зрения неравенства параметров  
    (Н1: Средние траты клиентов по группе А не равны средним тратам клинентов по группе В)
- выбор критерия alpha (почему 0.05 или 0.01)
    - цена ошибки первого рода (при большой цене ошибки - в мед исследованиях, потенциальном ущербе ) - значение может быть больше, например 0.1
    - в ежедневных бизнес задачах, обычно - 0.05
- анализ распределения
    - визуальная оценка
    - следим за выбросами
    - проверка гипотез о типе распредеделения (например критерий Шапиро-Уилка)
    - если распределение не нормальное и размер выборки достаточный (больше 30-50 элементов)  
    может быть использован t-test именно для проверки гипотезы о равенстве средних.  
    Согласно ЦПТ (центральная предельная теорема) средние этих выборок будут распределены нормально. См. статью Зотова
- выбор критерия
    - при оценке равенства средних T-test или Welch T-test (если есть сомнения, то лучше Уэлча)
        - при рвенстве дисперсий используем обычный т тест
        - если дисперсии в выборках разные, то используем т теста Уэлча
- получение результата
    - расчет p-value
- интерпретация p-value
    - сравнение p-value и alpha
    - если альфа > p-value - отвергаем нулевую гипотезу
    - если альфа < p-value - не можем отвергнуть нулевую гипотезу

In [3]:
df.head(1)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья


In [None]:
Какая у нас задача
- Исследовать взаимосвязь между 2 переменными
    - обе переменные наминативные
        - Хи-квадрат Пирсона (не чувствителен к гетероскедастичности) (нормальность не обязательна)
    - обе переменные количественные
        - Коэффициент корреляции Пирсона (параметрика) (чувствителен к выбросам) (только непрерывные переменные) 
        - Коэффициент корреляции Спирмена (чувствителен к выбросам) / Кендалла (менее чувствителен к выбросам) (непараметрика) (непрерывные переменные и порядковые категориальные переменные)  
    - одна переменная номинативная (принимает 2 занчения), вторая количественная
        - значения
            - Т-критерий Стьюдента (параметрика) (желательно нормальность) (чувствителен к выбросам) (чувствителен к гетероскедастичности)
                - если дисперсии равны (тест левена, барлета) и количество в группах равно (тест на равенство пропорций), то используем обычный т тест (эта формула более точно даст результат для этого случая)
                - если дисперсии не равны (тест левена, барлета) или количество в группах не равно (тест на равенство пропорций), то используем тест Уэлча (эта формула использует больше неопределенности и лучше подходит для этого случая)
            - U-критерий Манна-Уитни (непараметрика) (нормальность не обязательна) (не чувствителен к гетероскедастичности)
            Если тестируемая фича полностью сдвигает выборку на некий коэффициент theta или масштабирует выборку на некий параметр theta (theta > 0),  
            то критерий Манна-Уитни применим
        - доли
            - Z тест для долей (параметрика) (желательно нормальность) (чувствителен к выбросам) (чувствителен к гетероскедастичности)
            - Chi-square тест для долей (непараметрика) (нормальность не обязательна) (не чувствителен к гетероскедастичности)
- Исследовать взаимосвязь между несколькими переменными
    - Дисперсионный анализ (параметрика) (дисперсии в группах должны быть примерно равны) (желательно нормальность) (чувствителен к выбросам) (чувствителен к гетероскедастичности)
    - Welch's ANOVA (устройчив к разной дисперсии в группах) (требует более больших размеров групп для точных результатов) (желательно нормальность) (чувствителен к выбросам) (не чувствителен к гетероскедастичности)
    - Критерий Краскела-Уоллиса (непараметрика) (нормальность не обязательна) (не чувствителен к гетероскедастичности)
    - Тест Тьюки (если anova или Краскела-Уоллиса нашил различия) (дисперсии в группах должны быть примерно равны) (параметрика) (желательно нормальность) (чувствителен к выбросам) (чувствителен к гетероскедастичности)
- Проверить на равенство дисперсий в группах перед anova
    - Levene's test (не требует нормальность) (менее чувствительный)
    - Bartlett's test (требует нормальность) (более чувствительный)

Отличная статья про доверительные интервалы для разных статистик  
https://habr.com/ru/articles/807051/

In [84]:
df.head(1)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья


In [96]:
sample1 = df.dropna()[df.gender == 'M']['total_income']
sample2 = df.dropna()[df.gender == 'F']['total_income']

  """Entry point for launching an IPython kernel.
  


Bootstrapping

В бутстрепе, если мы хотим сравнить две выборки, то нельзя смотреть  
где находится исходная разница средних в бутстрапированной выборке  
Так как мы берем бутстреп из наших выборок и впролне реально.что наша разность  
будет близка к с реднему бутстропированной выборки  
Поэтому p value нужно определять по месту нуля в бутстропированной выборке

Посмотрим p value для 0 (если различий нет, то разница должна быть 0)
Для этого посчитаем cdf для + и - среднего, чтобы получить 2 значения cdf
а теперь возьмем минимум и умножим на 2, так как альт гипотеза у нас.что
просто не равно 0, значит и справа и слева

In [12]:
df.head()

Unnamed: 0,group,outcome
0,A,1
1,A,1
2,A,1
3,A,1
4,A,1


In [15]:
sample1 = df[df.gender=='M'].total_income.dropna()
sample2 = df[df.gender=='F'].total_income.dropna()

In [51]:
def my_statistic(sample1, sample2, axis=-1):
     return np.mean(sample1, axis=-1) - np.mean(sample2, axis=-1)
data = (sample1.to_numpy(), sample2.to_numpy())
res = stats.bootstrap(data, my_statistic, method='percentile', n_resamples=1000, random_state=1)
print(res.confidence_interval)

ConfidenceInterval(low=35705.11632121437, high=42218.55994410035)


In [183]:
bootstrap_single_sample(sample1)

Bootstrapping:   0%|          | 0/1000 [00:00<?, ?it/s]

Bootstrap resampling
ci =  (190377.8301310357, 196283.7926258746)


In [16]:
1 - 10 / 12

0.16666666666666663

In [None]:
Estimating the power of a non-parametric test using bootstrapping involves simulating the testing process multiple times to estimate the probability of rejecting the null hypothesis. Here's a general outline of the steps:

**Specify the null and alternative hypotheses **: Define the null and alternative hypotheses for your test. For example, the null hypothesis might be that the two groups have the same distribution, and the alternative hypothesis might be that the two groups have different distributions.

Generate simulated data: Generate simulated data that reflects the null hypothesis. For example, you could generate two groups of random data from the same distribution.

Perform the Mann-Whitney U test: Perform the Mann-Whitney U test on the simulated data to obtain a p-value.

Repeat steps 2-3 many times: Repeat steps 2-3 many times (e.g., 1000 times) to generate a distribution of p-values under the null hypothesis.

Estimate the power: Estimate the power of the test by calculating the proportion of times the p-value is below a certain significance level (e.g., 0.05) when the alternative hypothesis is true. To do this, you'll need to generate simulated data that reflects the alternative hypothesis and repeat steps 2-4.

### Промежуточный вывод

### Примеры гипотез

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

### Расчеты

Важно следить за количеством недель в году, если мы создаем столбец месяца.  
Проверять чтобы у нас не появлялась неделя дополнительная, из за того, что мы захватили предыдущий год

### Промежуточный вывод

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

### Промежуточный вывод

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

### Промежуточный вывод

- Как разные цели кредита влияют на его возврат в срок?

### Вывод

### 4. Общий вывод

Что нужно сообщить в выводе
- информацию о том, что удалось подтвердить гипотезы (тут пишем только те, которые удалось подтвердить)
- всю информацию о датасете, которые важны. Дубликаты, которые несут практическую пользу и рекомендации по ним, пропуски также с рекомендациями  
и остальные моменты по данным и рекомендации. Тут важно указывать именно найденные аномалии, которые имеют практическую пользу, которые нужно исправить и прочее.  
Пишем, что были найдены выбросы, они были связаны возможно с тем то и тем то. 
- и в конце обязательно call to action 
написать что необходимо сделать с этими результатами

Советы по оформлению общего выывод
- не нужно вставлять таблицы и графики в вывод. 
В выводе пишем словами самое важное и практически полезное, что мы получили, причем в порядке убывания важности.  
И когда мы пишем, что увидели то-то, то приводим гиперссылку на график или результат ячейки, где это получено.  
Так будет компактный вывод и при необходимости человек сможет быстро перейти и посмотреть график или таблицу  

**Удалось подтвердить гипотезу** о влиянии различных характеристик клиента на факт погашения кредита в срок. Каждый из рассмотренных параметров оказывает влияние на надёжность заёмщика. Рассмотренные факторы по-разному влияют на надёжность заёмщиков. Например, семейное положение оказалось более значимым фактором, чем уровень дохода.


- В ходе анализа исходного набора данных было проведено (были устранены пропуски в двух колонках с числовыми значениями - 'total_income' и 'days_employed').  
- После __устранения явных и скрытых дупликатов__ и удаления оставшихся после обогащения пропусков объем датасета сократился на 0.05%
- Были устранены __выбросы__ в колонках 'days_employed' и 'children': в первом случае выбросы возникли в результате системной ошибки (данные были внесены в часах, а не в днях); во втором случае ошибка, вероятнее всего была допущена людьми, вносившими данные в систему
- ...

**Необходимо**

1. Запросить в отделе по работе с клиентами информацию о возможности брать кредит без подтверждения дохода. 

2. Сообщить коллегам, занимающимся выгрузкой о наличие дубликатов, если вопрос не разрешится, запросить индентификационный номер клиента к датасету.

3. Прописать в задаче на поставку данных формат данных (пол только F и M, положительные значения). Приложить информацию о найденных аномалиях.

In [98]:
importlib.reload(my_module)

<module 'my_module' from 'c:\\Git\\Projects\\Исследование надёжности заёмщиков\\my_module.py'>