# Исследование надёжности заёмщиков


**Автор**: Григорьев Павел   


**Описание проекта**: Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.  
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.  


**Цель**: Составить рекомендации для кредитного отдела банка, которые будут учтены при построении модели кредитного скоринга.  
Определить влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок.  

**Источники данных**: Данные предоставленны кредитным отделом банка.

**Условия проведения анализа днных**: указываем временной интервал выборки  
Например, 'для анализ будут использоваться данные за год с 1 июня 2017 по 31 мая 2018 года'


**Вывод**: тут помещаем самое главное из общего вывода, примерно до полустраницы, чтобы не было сильно много и при этом указать все главные выводы


**Оглавление** 
* [1. Описание и изучение данных](#1)
    * [1.1 Изучение данных](#1-1)
    * [1.2 Изучение данных](#1-2)



(опционально, зависит от того есть ли оглавление по умолчанию, но лучше сделать скрываемое, так как не везде будет автоматическое):  
создаем оглавление с гиперссылками  
Тут важно давать развернутые названия разделам в работе, но и не сильно большие (пиши - сокращай).  
Все таки это название главы и оно должно быть не более 5-7 слов. Некоторые могут быть длиннее, если сильно нужно,  
но основная часть названий разделов и глав долны быть достаточно кратикими.   
Чтобы понять длинные ли заголовки - смотрим на оглавление и думаем не сильно ли шировкие строчки.  
Чтобы в оглавление хорошо читалось и было понятно про что каждый раздел и глава и чтобы  
можно было прочитать, понять и перейти к разделу. Нельзя писать сильно кратко, так как люди не знакомы с работой и им нужно более развернутые  
названия глав, чтобы понимать о чем там будет идти речь  
Оглавление делаем со сворачивающимися списками, то есть каждую главу можно свернуть, можно развернуть и пеерейти на уровень ниже,  
как в сводных таблицах экселя, так удобнее, так как места занимает мало, если скрыть все подразделы, а если нужно, то раскроют  
В каждом блоке сделать гиперссылку 'к содержанию', чтобы можно было вернуться к содержанию,  
но тут важно, чтобы на одной странице не было больше 1 такой ссылки.   
Заголовки разделов и глав не нужно писать в стиле 'посчитаем, выясним, исследуем и подобное', так как названия глав и разделов это более официальные  
названия. Нужно более формально их называть.  
Название главы или раздела должно нести в себе основной смысл этого раздела или главы, так и нужно называть.  
1. Описание данных
2. Предобработка данных
3. Расчет метрик
    3.1 Продуктовые метрики
        3.1.1 Расчет MAU, DAU, WAU
        3.1.2 Рачет ASL
4. Подведение итогов и регкомендации       


### Загрузка библиотек

In [116]:
import pandas as pd
import numpy as np
import plotly.express as px
import seaborn as sns
import matplotlib.pyplot as plt
from ipywidgets import widgets, Layout
from IPython.display import display, display_html, display_markdown
import my_module
import importlib
import re
import itertools
# with httpimport.remote_repo('http://my-codes.example.com/python_packages'):
#     import package1

### 1. Описание и изучение данных <a class="anchor" id="1"></a>

#### 1.1 Описание данных <a class="anchor" id="1-1"></a>
- children - количество детей в семье
- days_employed - общий трудовой стаж в днях
- dob_years - возраст клиента в годах
- education - уровень образования клиента
- education_id - идентификатор уровня образования
- family_status - семейное положение
- family_status_id - идентификатор семейного положения
- gender - пол клиента
- income_type - тип занятости
- debt - имел ли задолженность по возврату кредитов
- total_income - ежемесячный доход
- purpose - цель получения кредита

#### 1.2 Изучение данных <a class="anchor" id="1-2"></a>

In [185]:
dtype = {'education': 'category', 'family_status': 'category', 'gender': 'category', 'income_type': 'category'}
df = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv', dtype=dtype)
df.sample(5, random_state=7)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
4042,1,-2885.142188,50,среднее,1,женат / замужем,0,F,сотрудник,0,80236.028323,приобретение автомобиля
19177,2,-1803.080913,36,Среднее,1,женат / замужем,0,F,сотрудник,0,163292.220004,строительство собственной недвижимости
7372,1,-305.540665,27,СРЕДНЕЕ,1,гражданский брак,1,F,сотрудник,0,69799.488812,ремонт жилью
16245,1,-1593.946336,50,среднее,1,женат / замужем,0,F,сотрудник,1,107486.332934,на покупку подержанного автомобиля
11563,0,-1025.402943,64,высшее,0,женат / замужем,0,M,госслужащий,0,706401.47579,профильное образование


In [None]:
- изучить строки с пропусками
data_isnull = data[data['total_income'].isnull()]
- проверить пропуски на симметричность
data[data['days_employed'].isna() & data['total_income'].isna()].shape[0]
- посмотреть как пропуски распределеены по какой-то категориальной пременной

In [194]:
def find_columns_with_missing_values(df) -> pd.Series:
    '''
    Фукнция проверяет каждый столбец в таблице,  
    если есть пропуски, то помещает строки исходного 
    дата фрейма с этими пропусками в Series. 
    Индекс - название колонки. 
    Если нужно соеденить фреймы в один, то используем 
    pd.concat(res.to_list())
    '''
    dfs_na = pd.Series(dtype=int)
    for col in df.columns:
        is_na = df[col].isna()
        if is_na.any():
            dfs_na[col] = df[is_na]
    return dfs_na


In [197]:
pd.concat(res.to_list())

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Среднее,1,женат / замужем,0,M,компаньон,0,,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости


In [37]:
importlib.reload(my_module)

<module 'my_module' from 'c:\\Git\\Projects\\Исследование надёжности заёмщиков\\my_module.py'>

In [106]:
df_fig = df.education.value_counts(ascending=True)
df_fig.iloc[:10]

УЧЕНАЯ СТЕПЕНЬ           1
Ученая степень           1
ученая степень           4
Начальное               15
НАЧАЛЬНОЕ               17
НЕОКОНЧЕННОЕ ВЫСШЕЕ     29
Неоконченное высшее     47
начальное              250
Высшее                 268
ВЫСШЕЕ                 274
Name: education, dtype: int64

In [None]:
!pip install chart_studio

In [53]:
col = df.days_employed
df.duplicated().sum()

54

In [82]:
a = 'дом  \tСад     стол\n'
b = 'дДм    саД      стол'
regex = re.compile(r'\s+')
temp = pd.DataFrame({'col1': [a, b]})
temp.applymap(lambda x: regex.sub(' ', x.lower().strip()))

Unnamed: 0,col1
0,дом сад стол
1,ддм сад стол


в `describe` можно указать перцентили `percentiles = [0.05, 0,5, 0.95]`

После каждой ячейки, где есть использования любой функции и графика для описания данных (то есть есть какой-то результат) нужно рассказать: 
- Неплохо писать слово жирным шрифтом `Наблюдения:` и с нового абзаца писать рассуждения списком булитами - или *, цифрами не нужно. Так будет и понятно и будет за что зацепиться глазу, выход не пропустят.  
- Очень важно помнить, что если мы посчитали какой-то показатель, то лучше сначала его отобразить в виде графика, также привести среднее значение,  
и тогда делать выводы.  
Например, мы посчитали DAU за год. Будет отлично, если мы выведем измение его во времени, также можно показать график violine и числом вывести  
среднее значение. И вот теперь уже делать выводы.  
Среднее значение важно, так как его можно использовать в формулах для экономических параметров
- что обнаружили, 
- сделать предположения, почему могло так произойти  
- Очень важно помнить, что если у нас распределение метрики не нормальное, то нельзя делать выводы на основе среднего.  
Например у нас метрика количество дней до первой покупки и оно имеет экспоненциальное распределение.  
Если мы посчитаем среднее, то поулчим значение, например, 15. Но у нас больше всего покупок совершают в первые дни.  
И если мы сделаем вывод, что до первой покупки проходит в среднем 15 дней, тоэто будет вводить в заблуждение.  
Среднее занчение используем только для симметричных и нормальных распределений. Для других моду или медиану.  
И думаем правильно ли мы выбрали, не противоречит ли значение реальности, доносим ли мы тот смысл, который хотим.  
- не забывать, если у нас по оси x время, то проанализировать сезонность, почему в одно время есть рост или спад или нет измений  
также нужно оценить сильно ли меняется метрика на графике, выявить минимальные и максимальные значения метрики  
- подумать а так и должно было получиться, основываясь на понимании физики параметра  
даже если прсото посчитали среднее значение в столбце, аналитик задаст вопрос себе а такое среднее и должно было получиться  
и это везде, после любого результата и вывода, думаем, а так и должно было быть, если нет, то пишем предположения почему так случилось,  
проверяем свои догадки и возможно получаем инсайты
- выдвигаем гипотезы (все эти пункты и нужны, чтобы выдвинуть гипотезу, 
так как самый главный результат любой ячеки с анализом это гипотеза, которую стоит проверить)
- *придумать способы проверки, 
- *если это возможно, реализовать их в следующих шагах
Когда мы выдвинули гипотезу, то думаем, а можем ли мы ее проверить по теущим данным.  
Например, у нас гипотеза, что пропуски вызваны тем, что безработные писали в доход 0 или оставляли пустым,  
но у нас есть поле статус, по которому мы видим, что статус у всех разный с null. Поэтому гипотеза не подтвердилась.  
Вот так нужно в этом пункте рассуждать. Выдвигаем гипотезу, думаем можем ее проверить, если не можем, то пишем рекомендации о проверке.  
- *зафиксировать возможные рекомендации
Булиты со * это то, что делает аналитика аналитиком, именно этим отличается джун от следующего уровня  
Например, мы вывели блок describe и пишем по колонку количество детей:
Мы видим, что минимальное занчение количества детей отрицательное. Также видим, что максимальное количество детей равно 20.  
При чем как мы видим по квартилям, 75 наших данных лежит между 0 и 1.  
В колонке количество детей есть все значения. Это хорошо, значит пропусков тут нет.  
Подумаем почему могло появиться отрицательное значение количества детей. Возможно это связано с тем, что случайно нажали -.  
Максимальное значение 20 может быть связано с тем, что случайно нажали лишний 0.  
Следует проверить почему появлись такие необычные значения. Узнать откуда появились эти данные. Кто их заполнял.  
Было бы хоршо добавить защиту от ввода таких значений.  
- Когда мы считаем размеры групп (когорт) и выводим табличку размера когорт (кстати ее лучше транспонировать, если она длинная в высоту),  
то будет отлично дабавить ещё колонку весов каждой когорты. То есть взять размер каждой когорты и разделить ее на общий размер всех когорт.  
И тогда когда дальше будет считается не просто среднее значение по когортам, а средневзвешенное, что обязательно нужно считать, то уже будут коэффициенты.  
То есть если мы хотим посчитать среднее значение по всем когортам какого-то показателя, то мы не просто суммируем все значения в когортах и делим на  
число когорт, мы взвешиваем какждое значение когорты.  
Есить 2 способа
    - умножать значение каждой когорты на ее размер и потом всю эту сумму разделить на общий размер всех когорт
    - сразу дать веса каждой когорты, то есть определить долю каждой когорты в общем.  
Берем размер когорты и делим на размер всех когорт. И потом умнажаем значения в когортах на коэффиценты.  



Когда строим гистограмму, нужно понять почему именно такое распределение метрики.  
Совпадет это с логикой этой метрики. Если подумать, то можно предположить какое будет распределение у какой-то величины,  
и вотэто предполагаемое распределение должно совпадать с полученным.  
Если не совпадет, то загорается красная лампоча и думаем, что не так.  
Могут быть инсайты.  

Также когда строим гистограммы и вайолин плот, то не просто фиксируем, что есть тяжелые хвосты, разброс между квартилями такой-то.  
А думаем почему так, пытаемся связать это с физикой параметра. Должно быть физическое объяснение всех аномалий.  
Если объяснения нет, то возможно это инсайт.  
Аналитик тем и отличается от других, что он не просто констатирует, что видит, а пытается понять почему это так,  
а должно это так быть, это нормально для данной переменной.  

Также важно, если мы ничего не обнаружили, то такие ячейки нужно убирать.  
Остаются только ячейки, после которых есть вывод, то есть мы что-то получили полезное от этой ячейки.  

Важно убедиться, что у нас есть данные на все источники, которые заявлены. Например, мы изучаем источники трафика и у нас они в разных таблицах.  
Нужно убедиться, что во всех таблицах есть все источники, и проверить нет ли аномалий, возможно какой-то сильно выбивается или какого-то вообще где-то нет.  

И очень важно сверить, что периоды в разных таблицах (если у нас больше одной таблицы) совпадают.  
Так как для анализа мы можем брать данных, только если эти периоды есть во всех датасетах, остальное мы не можем соединять и вынуждены будем отбросить.  

Вообще, когда у нас несколько таблиц и там есть категориальные переменные или время, то  
мы должны взять уникальные значения категориальных переменных из каждой таблицы (одниаковые переменные) и сравнить.  
Количество уникальных должно совпадать, иначе нужно разбираться  
И с верменем как минимум мин и макс даты должны совпадать до дня, а лушше до минуты часа

Очень важно, если у нас есть стартовая дата чего-то и конечная, то обязательно нужно проверить,  
нет ли у нас записей, где конечная дата меньше стартовой.  

Также очень важно проверить все ли периоды в дате присутствуют, не потерялся ли какой-нибудь день.  
Иначе мы будем получать неточные занчени.  
Смотрим какая детализация даты у нас.  
Далее группируем по году, месяцу и дню и смотрим все ли года присутствуют, также можно вывести количество продаж, пользователей для этого года,  
чтобы посмотреть нет ли явных просадок 
Если диапазон большой, то можно по очереди группировать по годам и месяцам, проверить,  
а дни потом проверить  отдельно.  
Дни (также можно часы, минуты и секунды, если нужно) можно проверить так
- сгруппировать по году, месяцу, дню (часу, минуте, секунде, если нужно)
- и пройти в apply и поставить 1, где есть разрыв даты (берем генерим все даты через datetime и идем по нашим строкам исмотрим есть все даты  
в наших данных)
- затем фильтруем по 1 и получаем даты, возле которых есть разрывы, изучаем

Важная проверка, если у нас есть категории и даты, то сгруппировать по категориями и 
вывести количество занчений, минимальную и максимальную дату  
Таким образом мы сразу поймем распределение в категории и  
увидем какие временные интервалы у каждой категории  
Если у нас все категории должны бть в один день, то мы поймем нет ли багов

Вообще очень важно смотреть не только на аномалии в значениях, но и аномалии в категориальных переменных.  
А тут аномалией будет отстутствие какого-то значения, хотя в описании или поставновке задачи оно есть.  
Также совпадение количества значений категориальных переменных в разных таблицах.  

Важно на дубли проверить и отдельные строки и целиком таблицу и подумать какие группы столбцов могут дать дубли и на это тоже проверить.  

Если в дублях у нас есть ай ди клиента, то тут понятно, если нет ай ди, то пишем рекомендацию, чтобы данные приходили с ай ди,  
чтобы можно было понять это один человек или нет 

Если у нас id пользователя встречается не одни раз в таблице и есть другие поля которые должны быть всегда одни и те же,  
напримем пол и прочее, то нужно проверить у всех ли пользователей все значения одинаковые в этом столбце.  
Это может быть не только ай ди, любое уникальное поле, которое повторяется и для каждого этого поля есть другое  
поле, которое не должно меняться, нужно проверять а действительно ли это поле не меняется.  
Можно сделать так
- взять в список униклаьные значения с неизменяемым полем (которое должно быть постоянно одно и то же для всех ай ди)
- сгруппировать по ай ди и вязть среднее
- и теперь проверить есть ли это среднее в наших уникальных значениях, так как если есть одно не равное всем, то среднее отклонится  
Можно улучшить алгоритм, главное обязательно проверять и если нашли аномалии, то изучаем их.  
Нужно написать прсото функцию, которая будет это делтаь для любых задач 

In [None]:
vals = df.col2.unique()
df.groupby('col1').nunique().query('col1 > 1')

In [None]:
# важно оставлять две строки дубля, так как мы по номеру строки (индексу) можем понять а рядом ли были эти дубли,  
# если они были рядом, то скорее всего это просто дубль из одного ввода, но если строки далеко, то это явно было в разное время сделано 

data[data.duplicated(keep=False)].sort_values(['dob_years'])

Исследуем null

In [None]:
# исследуем отдельно проблемные строки

data_isnull = data[data['total_income'].isnull()]

Если у нас в двух колонках есть Null, то стоит проверить на симметричность  
Возможно у нас пропущены значения в двух колнках в одних строках

In [None]:
# проверка предположения о симметричности пропусков

data[data['days_employed'].isna() & data['total_income'].isna()].shape[0]

In [None]:
# value_counts() по каждому интересному признаку

Важно проверить соответствуют ли временной период данных тому, который заявлен в задании,  
определиться что будем делать с неполными периодами.  

#### 1.2 Промежуточный вывод

Принимаем решение, как именно мы будем проводить обработку, почему именно так, *зафиксировать рекомендации.  
То есть отвечаем на вопрос, что будем делать с выбросами, что будем делать с null.  
Будет идеально если тут зафиксировать рекомендации  


**Промежуточный вывод**

- **children** Присутствует 47 отрицательных значений с "-1", а также аномалия в виде 20 детей ...
- **days_employed** Большая часть данных стобца со знаком "-". Однако, эти данные представляют из себя 84% всей выборки. ... будут заменены на .. исходя из определенного критерия, который будет описан далее. 
    - Причины пропущенных значений в столбцах **days_employed** и **income**:
        - Во-первых, это может быть из-за неправильной выгрузки данных. Оставим это предположение до того момента, пока не убедимся в неверности других предположений.**Наиболее вероятно**
        - Во-вторых, одной из гипотез было предположение об отсутствии трудового опыта у данной части выборки. Однако, если распределение по возрасту в данной группе равномерное по всем возрастам выборки. Также большая доля этой части выборки трудоустроена. **Гипотеза не подтверждена**
        - В-третьих, возможно, что эта часть выборки не имеет официального трудоустройства. Данная гипотеза вызывает сомнение в связи с тем, что при наличии достаточно большого стажа работы у представителей выборки у ее представителей нет официального трудового стажа. К тому же 18.9% данной выборки являются госслужащими. **Гипотез не подтверждена**
- **age** .. 0 возраст у 101 человека.
- **education & education_id** Необходимо будет привести данную категорийнуй переменную к общему виду. Избавиться от разного регистра. Но можно не тратить на это время и использовать следующий столбец **education_id**. Это позволит использовать меньше памяти и не повлияет на качество анализа.
- ...

### 2. Предобработка данных

#### 2.1 Обрезание неполных временных периодов

Если у нас датасет за год, например, и первый или последний месяц неполные, то их лучше выбрасить, если мы будем  
расчитывать месячные метрики.  
Но сначала конечно нужно проанализировать столбцы без обрезания, чтобы убедиться, что там нет ничего необычного.  

#### 2.2 Выбор нужных столбцов для дальнейшей работы и нормализация таблицы

- Думаем, какие колонки нам нужны, выбираем только их для дальнейшей работы.  
Остальные убираем в другой датасет. Просто делаем новый датафрейм и в него помещяем не нужные колонки. Так как потом могут пригодиться.  
Важно делать это после изучения данных и выдвижения гипотез и рекомендаций.  
Так как даже если нам столбец не нужен, там могут быть важные моменты по сбору этих данных или инсайды,  
которые помогут улучшить качество сбора данных. И потом если нам нужен будет тот столбец, то мы получим более чистые данные.  
- Тут важно сначала убрать не нужные столбцы, а потом уже заниматься удалением пропусков и выбросов.  
Так как может получиться так, что мы сначала удалим строки, так как в этой колонке пустые значения, а потом удалим и всю колонку,  
в итоге мы зря удалили строки, так как в других колонках не было пропусков.  
Поэтому думаем прежде чем удалять строки, так как возможно лучше удалить столбец и строки удалять будет не нужно.  

### Замена типа данных и приведение названий столбцов к нижнему регистру

Важно привести названия столбцов к нижнему регистру, убрать пробелы (заменить их на _),  
так как в том же merge могту быть проблемы, если это не сделать и вообще будет удобнее работать 

Если после попытки привести тип к нужному, мы получили ошибку,  
то обязательно изучаем эти строки. Именно строки, не только сами занчения, которые не можем преобразовать.  
Часто бывает у нас в ругих столбцах есть категория например, которая портит все,  
и при этом это выброс может быть.  Поэтому обязательно првоеряем строки, в которых строки не преобразуются в нужный тип.  

Очень важно писать код, чтобы не учитывался порядок столбцов. Чтобы если порядок изменится, то наш скрипт будет работать верно.  

Все значения в колонках во всех таблицах нужно привести к нижнему регистру и по возможности к одному языку,  
для перевода к одному языку можно использовать словарь, с помощью которого изменить неправильный язык  
Это нужно, чтобы когда будем соединять таблицы, у нас условие соеденения правильно сравнивало равные значения.  

In [None]:
# замена типа astype(), приведение к нижнему регистру str.lower(), удаление аномалий
dict_types = dict(col1=float
                  , co2_id=int)
df = df.astype(dict_types)

Также важно категориальные столбцы привести к типу `category` и для столбцов, которые имеют малый диапазон значений заменить на меньший тип,  
например на `int8`  
`.astype('category')`

Очень важно следить, чтобы не появлялись дополнтиельные недели, когда мы делаем столбец год-месяц и столбец неделя,  
то есть мы берем для каждого лога с временем считаем начало недели и указываем это значение как начало недели  
Но если у нас первый и последний день месяца не пн и не вс, то у нас будут лишние недели, так как если  
первый день года среда, то наш расчет возмет начало недели с прошлого года.  
Чтобы такого не было лучше использовтаь для вычисления недили  
`col_with_time.astype('datetime64[W]')`  

Также важно, когда мы создаем столбцы для расчета `mau / dau` и в этих стобцах недели,  
убедиться, что недель столько сколько и должно быть в выбранном году (например 52)

### Промежуточный вывод

Увидели пропуск — подумайте, нормально ли это. Сколько вообще пропусков может быть в этом столбце?   
К примеру, в списке с электронными адресами пользователей, согласных на рассылку, будет много пропусков. Далеко не все предоставляют email.

### Обработка пропусков

Можно использвоать такой подход
- если количество пропусков меньше 5 процентов, то удаляем (лучше меньше 1 процента)
- если количество пропусков от 5 до 20 процентов, то подбираем чем заменить, удалять не стоит
- если больше 20 процентов, то не трогаем, так как исказим

Но оставляя пропуски, нам нужно помнить, что мы не можем по этим полям считать корреляцию с другими,   
так как пропуски испортят расчет коэффициента корреляции. Аналогично другие метрики могут считаться некорректно.  
Поэтому, если мы будем считать показатели по столбцу с пропусками, то их нужно либо убирать, либо этот столбец не использовать для расчетов.  

Если пропуск вызван просто отстутствием значения (просто нет категории у чего-то или просто нету чего-то), то можно для каетгориальны перменммых  
ставить пустую строку, это будет логично. Нет значения - пустая ячейка.  

Для категориальных переменных оставлять пропуски нельзя, так как мы скорее всего будем группировать по ним и смотреть разные разрезы.  
Поэтому в худшем случае, если не можем ничем заменить, и нет уверености, что пропуск можно заполнить пустой строкой (если значения физически нет),  
то создаем категорию например `other` из пропусков.  

Когда мы встречаем пропуски, прежде всего, нужно ответить на вопрос, существует ли закономерность в появлении пропусков.   
Иными словами, не случайно ли их возникновение в наборе данных.  
Случайно, значит нет закономерности с соседними столбцами, то есть пропуски есть для разных значений.  
А могут быть неслучайные, то есть существует явная закономерностЬ, что пропуски есть только у сторок с общими занчениями в другом столбце.    
Чтобы это проверить, нужно взять столбец с пропусками, отфильтровать только пропуски (взять их) и  
посмотреть как эти пропуски распределены по другой переменной.  
Например, у нас пропуски в источнике трафика и пропуски в email. Причем среди источников есть источник email (то есть пришли через почтовую рассылку)
Мы фильтруем источники и оставляем только пропуски в них и фильтруем email без пропусков и видим, что все наши пропуски в источнике имеют email.  
В итоге можно сделать вывод, что это источники трафика через email. И заменить пропуски на источник email.  
Но нужно это проверить и выяснить, почему они так отобразились, почему не отнеслись в источник email.  

Важно сначала посмотреть корреляцию.  И тогда, если у переменной с пропусками есть коррелирующая переменная,  
то мы можем взять значение в столбце без пропусков такое же как то, что пропущено и просто заменить на наше.  
То есть корреляция позволяет нам заменять пропуски, дополнительно можно испоьзовать группировки, то есть заменять на значение группы.  

- Первое что нужно сделать, когда мы видим пропуск или выброс, это проверить является ли оно случайным.  
То есть посмотреть не относятся ли все выбросы к одной категории. Если это так, то это уже не случайно и мы нашли аномалию, которую можно изучать.  
Если у нас случайны разброс пропусков в категориях, то значит тут есть случайность.  
Например, у нас возраст 0, и мы видим, что больше всего это у женщин. Следовательно получаем гипотезу, что женщины не хотят сообщать свой возраст.  
- Сначала мы изучаем столбцы отдельно в разделе изучение данные, смотрим выбросы, строим гипотезы и строим предпожения.  
Только когда мы изучили все столбцы по отдельности, мы можем дропать записи. Почему это важно.  
Если мы увидели пустые значения, изучили, выдвинули гипотезы и решили сразу дропунть, то мы параллельно дропним и 
значение в другом столбце, а это значение возможно нам может что-то сказать о другом столбце.  
Поэтому сначала изучили всё отдельно, и только потом дропаем. Даже если пустых значений в этой колонке очень мало.  
- Если у нас одна переменная имеет много пропусков, и мы ее не можем выкинуть, то можно попробовать заполнить по другим колонкам.  
То есть мы берем и делаем словарь по не пустым значениям. То ключ у нас будет значение из строки без пропусков, а значение из столбца с пропусками  
Тут мы испльзуем медиану, моду, или другие статистики и методы, чтобы определить какая категория (знчение) из одного столбца подходит для другого  
И потом просто заменяем пропуски используя этот словаь, смотрим строку, берем значение из столбца без пропусков и идем в словарь.  
- Также можно заполнять пуропуски не медианной по всему дата сету, а взять колонку коррелирующую с колонкой с пропусками и сгруппировать  
по ней и уже внутри этой группы заполнить пропуски медианами.  
Например у нас в доходе пропуски. И у нас есть категория стунедт, рабочий, пенсионер, то мы можем заоплнять медианами для каждой категории.  
Тогда у нас человек с пропуском из категории студент получить медиану студента, что правильнее.  
- В пропусках мы можем определить какие категории, платформы и прочее не собираются данные. Смотрим пропуски, далее смотрим у каких категорий их больше,  
и получаем вывод, что нужно обратить внимание на эти категории или системы, почему там пропуски
- Также пропуски могут быть аномалиями. Например, кто-то что-то  придумал для обхода системы и его не детектируют и прочее. Поэтому пропуски нужно  
внимательно изучить, даже если мы хотим их дропнуть.  
- Если у нас пропуски в категориальной переменной и есть разные периоды или просто данные разбиты на части (то есть эта категориальная переменная повторяется),  
то мы можем взять ещё какую-нибудь переменную, у которой нет пропусков, где пропуски у первой переменной и далее посмотреть другие периоды  
Таким образом у нас будет предыдущий период, где будет занчение второй переменной и первой и если в нескольких периодах они одинаковые, то мы можем  
заполнить и пропуски этим значением.   
Например, у нас есть продажи по дням и за какой-то месяц много пропусков в описании товара, но есть код товара, мы идем и смотрим другие месяца, где встречаются  
коды в строчках с пропусками в описании. И если находим, то можем заменить пропуски на эти значения.  
То есть пропуски в данных могут быть вызваны ошибками заоплнения и прочим, но в этой же таблице могут быть верно  заполнениые занчения, тогда имея  
другую колонку, по которой мы можем идентифицировать наши пропуски, мы можем заполнить эти пропуски  
Можно взять колнку с пропусками и колонку с кодами (только их) и отсортировать по коду, тогда мы увдием для каждого кода описание и пустые поля и сразу будет видно  
Ещё раз схема такая - берем 2 поля одно с пропусками, другое без, получаем новую таблицу, в этой таблице оставляем только униклаьные значения в поле без пропусков,  
по этому полю будем джойнить. Далее в основнйо таблице дропаем описание и создаем новое описание из таблицы справочника.  
- Не забываем про сингулярное разложение (svd) для заполнение пропусков и методы машинного обучения для этого же.  

In [None]:
# последовательность действий

In [None]:
# что-то изменили - > посмотрели не изменилось ли количество дублей

In [None]:
# обработка пустых значений

data['total_income'].fillna(data.groupby(['age_group','education','gender'])['total_income'].transform('median'))
df.fillna()

### Промежуточный вывод

### Работа с выбросами

- Очень важно понимать, когда выброс можно отбросить и он реально выброс и когда нельзя.  
Напрмер у нас колонка размер чаевых. И у нас будут выбросы большие. Логично, что это реальные большие чаевые, которые  
нам важны. Другое дело, когда у нас чаевые например сильно большие и мы понимаем, что такое очень редкое событие и  
мы можем для визуального аналаиза их отбросить.  
То есть прежде чем отбросить выбросы, нужно подумать, а не потеряем ли мы информацию после этого и что нам даст отбрасывание.  
Если мы получим пользу больше, чем потеряем информации, то можно отбросить.  
- Также выброс может казаться выбрасом, но для бизнеса это не выброс.  
Например у нас суммы покупок и одна покупка сильно выделяется, а там просто человек купил супе дорогой каньяк, например.  
Для бизнеса это не выброс. Поэтому нужно всегда сначал поянть может ли в данной ситуации быть такое значение, если да, то это не выброс.  
- Когда хотим обрезать выбросы, то думаем, какой порог может быть физически реальным и по нему режем, а не просто так берем какой-то перцентиль.  
Всегда нужно думать с точки зрения физического возможного значения параметра и по нему резать (подумать а какое значение может быть максимально реальным и по нему обрезать)
Напрмер, мы скачали данные с циана и у нас цена сверху и снизу явно нереальная, то мы думаем какая может быть самая дешевая и самая дорогая цена и по ним режем.  
- Выбросы это не только просто сильно большое или сильно маленькое значение.  
Выбросы нужно также смотреть по мультипараметрам, с помощью моделей и искать аномалии.  
Выбросы нужно изучить отдельно.  
Очень часто в выбросах содержаться инсайты иномалии, которые помогут сделать практически полезные выводы.  
Выброс это то, что отделяется от других, что выбивается из общей картины. Следовательно это что-то особенное.  
Бывает кто-то придумал что-то новое и это естествественно будет выделяться. Поэтому нужно внимательно изучать выбросы.  
- Тажке выбросы говорят не только о плюсах, но и о минусах. Выбросы могут сказать, что у нас что-то сломалось.  
Что-то не записывается, или работает с багами. Все это можно увдитеь по выбрасам и аномалиям.  
- Обязательно посмотреть выбросы в разрезе категорий, так как мы сможем сделать выводы об их источнике.  
- Если мы работаем со строгой отчетностью, то тут любой выброс это уже инсайт и нужно идти разбираться откуда это взялось.  
- Если мы не можем с увереностью сказать, что это выброс, то нам не стоит его выкидывать, но работать как то нужно с ними,  
тогда, логарифмируем (лучше использовать натуральный логарифм) эту колонку и работаем с такими значениями (тогда выбросы сожмуться).  

### Промежуточный вывод

### Обработка дубликатов

- Важно помнить, что если у нас есть id и название товара, то названия товара все равно нужно проверить на дубли,  
возможно у нас 2 ай ди с одним названием.
- Дубли могут быть такие 'Смартфон Redmi' и 'смартфон redmi'  
поэтому перед провекой на дубли приводим к нижнему регистру  
Также могут быть разыне пробельные символы и другие символы, которые создают 2 элемента, когда на самом деле это дубли  
Такое нуно находить, так как иначе у нас будет неверные расчеты, так как у нас либо дубль,  
либо может один товар забит в разных местах по разному и у нас половинится расчет на разные названия.   
- Дубликаты могут быть не полностью строка датафрейма, а напрмер 2 и более строчек формируют дубликат. В идеале изучить возможные комбинации колонок  
на дубли. То есть взять перембрать по 2-3-..-n колонок и фильтрануть фрейм по ним, чтобы посмотреть какие записи во всем датафрейме с такими дублями.  
Например, у нас есть описание чего-то и стоимость, они одинаковые у двух строк, но другие поля разные, если мы будем смотреть дубли всех колонок, то мы  
этот дубль не заметим. А возможно тут явный дубль. 
- Также важно в каждой отдельной колонке проверить дубли и если их много, то посмотреть на соседние колонки, что там происходит
- Дубликаты часто носят скрытый характер.  
То есть это могут быть поля, которые записаны  по разному, но относятся к одному и тому же.  
Поэтому важно, если у нас категориальный признак, изучить нет ли повторящихся категорий, которые записаны немного по разному.  
Так как это создает шум, мы по сути имеем две разные категории, но на самом деле это одна. Нужно собрать их в одну.  
- Дубликаты обязательно сначала изучаем, делаем гипотезы, проверяем их, если есть практическая польза то формируем рекомендации и записиываем в вывод для шага  
и потом возможно в общий вывод.  
И только после этого удалеяем. Сначала нужно обязательно изучаем.  
- И очень важно, если мы не подтвердили, что это действительно дубликат (например у нас нет ай ди клиента и мы не смогли выяснить один и тот же ли это человек),  
то нужно аккуратно удалять их. Но и оставлять много дублей плохо, так как они вносят шумы и искажения.  
- Помним, что наличие дубликата не говорит точно, что это дубль, возможно у нас нет ещё колонок, котоыре бы детализировали и разделили эти дубли.  
Поэтому тут могут быть рекомендации, чтобы добавли в фрейм доп колонки, которые помогут убрать дубли (либо сам ищешь ещё поля)


Если у нас дубли в какой-то колонке и нам их нужно не удалять, а соеденить в один,  
то можно сгруппировать колонку с дублями и суммировать поле, которое нужно объеденить  
Потом дропнуть дубли и заменить поле в котором нужно объеденить занчения на занчение из слваря  
```
dict_cnt = stock.groupby('item')['count'].sum().to_dict()
stock = stock[~stock.item.duplicated()]
stock['count'] = stock['item'].map(dict_cnt)
```

### Промежуточный вывод

### Лемматизация

- С помощью лематизации мы можем сократить количество категорий.  

In [None]:
# лемматизация

unique_purpose = data['purpose'].unique()
lemmas_list = []
m = Mystem()
for purpose in unique_purpose:
    lemmas = ''.join(m.lemmatize(purpose)).strip()
    lemmas_list.append(lemmas)


Выделяются группы:
- операции с автомобилем (ключевое слово - автомобиль)
- операции с недвижимостью (ключевые слова: жилье, недвижимость)
- проведение свадьбы (ключевое слово: свадьба)
- получение образования (ключевое слово: образование)


In [None]:
# Функция для назначения категории цели

def create_category_purpose(row):
    lem_purpose = m.lemmatize(row['purpose'])
    try:
        if 'автомобиль' in lem_purpose:
            return 'операции с автомобилем'
        if ('жилье' in lem_purpose) or ('недвижимость' in lem_purpose ):
            return 'операции с недвижимостью'
        if 'свадьба' in lem_purpose:
            return 'проведение свадьбы'
        if 'образование' in lem_purpose:
            return 'получение образования'
    except:
        return 'нет категории'

### Промежуточный вывод

### Категоризация данных

Категоризация нужна, чтобы образовать группы, в которых достаточно значений для использования статистических методов.  
И вообще, если в группе 1-10 элементов, например у нас возраст пользователей и 5 человек с возрастом 22, 3 человека с возрастом 23 и так далее.  
Мы не можем разбивать по таким группам, так как их размер небльшой и выводы будут некорректные, поэтому нам нужно собрать их в группы,  
чтобы у нас были группы с достаточным размером.  

- Если у нас есть столбцы с ай ди и столбцы, где эти ай ди расписаны словами, то лучше сделать словарь, где ай ди будут клчюами,  
а занчениями будут расписаные словами ай ди. И убрать столбец с расшифровкой. Это очень экономит память. И если нам нужно будет,  
то мы подтяним описание.  Это можно делать не только с айди. Если у нас есть столбец с описанием и в нем много повторов, то лучше  
сделать словарь, так как числа меньше весят и их быстрее обрабатывать.  
- Вообще любые столбцы, где у нас текст и много повторов, лучше убрать в словарь, то есть нормализовать.  
И когда нам будет нужно, то мы сформируем снова этот столбец. Мы так намного уменьшим память и ускорим процессы работы с таблицей.  


In [None]:
# категории: "на глазок", value_counts(), функция, пандаметод
# вариант разбивки на категории по квартилям

pd.qcut(data['total_income'], 4, ['очень низкий доход', 'низкий доход', 'средний доход', 'высокий доход'])

# словари

educ_dict = data[['education_id', 'education']]
educ_dict = educ_dict.drop_duplicates().reset_index(drop=True)

- Если у нас категориальная переменная имеет много значений, то мы не можем номрально с ней работать.  
Так как мы не можем построить графики по ним, так как их много и они не числовые. Не можем сравнить их все.  
Поэтому нам нужно сократить категории.  
- Нужно посмотреть на данные и подумать можем ли мы разделить их по сегментам рынка или по другим категориям, которые нам помогут.  
- Мы можем категоризировать на основе и числовых и категориальных столбцов. То есть мы можем из категориальной переменной сделать  
другую категориальную, уменьшив или увеличив разбиение.   
- добавление категорий обогощает данные, при чем категории могут формироваться не из одной колонки, а из серии, то есть чтобы попасть  
в определенную категорию значения столбцов должно быть такое то, а не только один столбец определяет категорию.  
- категории могут быть да нет, то есть состоять из двух значений, например, у нас есть данные о рекламе и столбец где она показвалась,  
и у нас много много разных устройств. Мы можем разбить на да нет, то есть показвалась реклама по телеку или нет

### Промежуточный вывод

### Feature engineering

Если мы хотим преобразовать категории в числа, то мы можем использовать 
- lable encoding  
Заменяем быквы числами. Хорошо работает, когда у нас порядковые категориальные переменные.  
Не забываем про порядок, если у нас алфавитный порядок наших категорий соотвествует числовому, то ок,  
если нет, то нам нужно самим определить порядок чисел, чтобы они соответствовали категориям в нужном порядке.  
- one hot encoding  
Если у нас категориальная переменная не упорядочиваемая, то лучше использовать one hot encoding, чтобы разница между числами не вносила шум,  
так как черный и белый и красный цвет закодированные 1, 2, 3 вносят смысл количества, но они не имеют этого свойства.  
- замена категориальной переменной на каую-то статистику по одной из категорий внутри этой переменной.  
Например у нас категориальная переменная это наличие задержки. Значение задержан / незадержан. Мы кодируем их как 0 и 1. Далее мы берем и считаем по каждой группе (для задержан и для незадержан)  
статистику, например, среднее и получаем столбец, где вместо каждой буквы будет ее среднее.  
Тут важно делать регуляризацию. Так как маленькие группы могут иметь сильно  зашумленные статистики, так как если у нас  
группа из 5 значений, то среди них может быть легко экстремальное одно и оно сбивает статистику, поэтому добавляем штраф всем статистикам.  
Регуляризация это что-то похожее на сглаживание.  
Как это делается 
    - берем считаем среднее по таргету (целевой переменной, то есть той, по которой мы счтаем статистику) всей таблице (то есть не делим на категории)  
    - Далее используем следующую формулу для сглаженного значения среднего по конкретной группе:   
      (среднее по группе * количество элементов в группе + среднее по таргету без учета категорий * размер регуляризирующей группы) / (количество элементов в категории + размер регуляризирующей группы)  
      Количество элементов в регуляризационнной группе выбирает эмперически. То есть это количество элементов, которым мы сглаживаем.    
      Смысл в том, что мы берем сколько-то элементов с занчением для всех категорий и сглаживаем им наши отдельные категории.    
    - Размер регуляризирующей группы обычно выбирают с помощью grid search, то есть берут цикл для размера этой группы и считают результат модели для каждого размера,  
    и потом выбирают тот размер, для которого результат лучше.  
    



Придумываем какие колонки можно дополнительно сделать из имеющихся.  
Например у нас есть колонка длительность звонков, и 0 это пропущенный звонок,  
мы можем сделать колонку is_missed, в которой будет true или false  

Очень важно, когда мы создаем новые колонки, в которых используем несколько дургих, то нужно проверить распределение этой новой переменной, особенно  
выбросы. Например, у нас начальная и конечная дата сессии и мы считаем длительность сессии. Вот тут нужно посмотреть какая минимальная длительность  
и какая максимальная. Ну и естественно проверить есть ли длительность 0 и меньше нуля.  
Таким образом мы можем найти инсайты уже после создания новых колонок, хотя в изначальных данных этих инсайдов не было видно.  

### Промежуточный вывод

### Обогощение таблиц (соединение с другими)

Обоготить данные можно следующими способами
- взять поле нашей таблицы и найти дополнительные данные в интернете или ещё где-то и потом связать с нашей колонкой по этому полю  
Самое просто это дата, если у нас есть дата, то мы можем много разной доп информации внести в наши данные связывая по дате.  
Также, например, у нас есть какие-то коды чего-то, мы ищем информацию по этим кодам и находим табличку с доп инфой по этим кодам и можем обоготить ими   
нашу таблицу. Например, у нас города или страны, мы можем по ним также внести доп инфу из какого-то источника, которая нам поможет.  
Вообще любое поле нашей таблицы это потенцильная нить для обогощения. Главное понять с чем полезным мы можем соеденить  
через конкретное поле, чтобы получить больше полезной информации для анализа, по сути для детализации наших зависимостей или для поиска  
новых зависимостей и инсайтов в них.  
Процесс следующий - мы берем каждую колонку нашего дата сета и думаем, с чем через нее мы можем связать и если придумываем, то идешь ищем эту информацию и  
в итоге соединяем.  
- Можно пойти от обратного. Сначал подумтаь какие данные нам могут помочь и поискать их в интернете например, а потом уже думать как их соеденить с нашими   
данными. Оба способа лучше делать одновременно.  

Прежде чем соединять 2 таблицы, смотрим есть ли поля, которые уникально описывают строчки в обеих таблицах.  
В напрмер, в одной таблице у нас есть ай ди пользователя и месяца (ай ди не уникальны, месяца тоже, но вместе уникальны),  
и в другой таблице также, тогда мы соединяем таблицы по составному ключу [айди, месяц]

Очень важно соединять таблицы по полям с id,  
если мы соединяем поля по текстовым полям, то это будет намного дольше, так как будут сравниваться строки  

Что нужно обязательно првоерить после соединения
- если мы соединяем по полю, которое уникально в обеих таблицах
    - количество строк в левом датафрейме равно количеству строк в итоговом
    - параметры каждого дата сета не изменились (если мы соединили правильно, то итоговые суммы по столбцам не должны измениться)
        - используем `df.sum(numeric_only=True)` для каждой таблицы до соединения и для общей таблицы и сравниваем значения
        - можно использвоать `df.describe` также до и после объединения и сравнивать параметры
- если у нас в одной из колонок для соединения не уникальные значения (то есть для одной строки в левой таблице будет несколько в итоговй)    
    - Сначала группируем таблицы, чтобы поле для соединения в обеих таблицах было уникальное
    и применяем предыдущий шаг с количеством строк в левой и итоговой и суммой значений в левой и итоговой одинаковой
    - Если нам нужно соеденить без группировки (но это редко может быть, поэтому нужно подумать точно ли не моежм сгруппировать)  
    тогда нет выбора и остаются только следующие варианты  
        - если в левой таблице уникальные записи в колонке, по которйо соединяем    
            - тогда считаем сколько было записей в левой таблице в колонке для соединения и сравниваем с количеством **уникальных** записей в итоговой  
            они должны совпадать, но тут важно в итоговой брать уникальные записи
        - есил и в левой и правой нет уникальных
            - тут считаем сколько **уникальных** в левой до и сколько **уникальных** в итоговой, должно совпадать

Если у нас что-то не сходится после соединения таблиц, то нужно внимально изучить это.  
Тут может быть инсайт (кто-то не правильно вносит информацию, какие-то значения неверные или кто-то что-то хотел спрятать, не указать и прчоее).  
Когда видим нестыковки после соединения таблиц, то должна загораться красная лампочка. Это потенциальный инсайт, баг, который мы можем найти и сообщить, чтобы его починили. 

Лучше привыкать везеде соединять таблицы как left join, чтобы наверняка не потерять данные.  
А если вылезит не нужный Null, то с ним уже можно будет разобраться, это лучше чем случайно забыть использовать left  
и потерять данные

Также лучше привыкать соединять таблицы, у которых поле для соединения уникальное в обоих таблицах.  
Нужно соеденить таблицы, смотрим уникальные ли поля, если нет, то думаем что мы будем делать после соединения,  
скорее всего аггрегировать, тогда нужно до соединения аггрегировать таблицу, где поле не уникально, и потом соединять.   

используем merge, join, append, concat  
но помним, что часто метод соединения inner стоит по умолчанию,  
а мы хотим обогатить данные, то есть у нас в правой таблице может не быть того, что в левой,  
поэтому правильно использовать left join иногда outer join 

Очень важно после каждого соединения проверять, что количество строк в итоговом дата сете равно количеству строк в левом датасете.  
Это очень часто забывают проверять, а от этого очень много ошибок, которые потом сложно искать.  
Если запомнить и постоянно проверять количество строк после соединения, то избавимся от многих потенциальных проблем.  

Если у нас поле, по которому мы хотим соеденить не уникальное в однйо из таблиц, то думаем о аггрегации.  
Например, у нас в одной таблице клиенты (тут уникальные ай ди), а в другой покупки (тут ай ди могут повторяться),  
тогда нам скорее всего из таблицы с покупками нужно будет что-то аггрегированное (например сумма покупок клиента),  
поэтому сначал думаем что мы хотим анализировать и аггрегируем по этому параметру до соединения.  
Большая ошибка сначала соеденить, а потом аггрегировать.  
Если есть такая возможность и это не влияет на результат, то сначал нужно аггрегировать, чтобы не было проблем с памятью   
Также фильтруем не нужные колонки до соединения, также чтобы не тащить лишние данные в общую большую таблицу

В колонках, по которым будем соеднить, проверяем, нет ли пропусков, какие разделители. пропуски нужно заменить нулями

Каждый раз, когда мы работаем с дата сетом, мы должны понять что является сущностью этого дата сета.  
Например событие, человек и прочее.  
Далее нам нужно поянть а можем ли мы его идентифицировать по текущим данным (не всегда есть уникальный ай ди).   
Если не можем, то нужно думта как обогатить данные, чтобы четко идентифицировать сущности

Проблема разрастания дубликатов  
Если мы соединяем таблицы и используем неправильный способ, то у нас могут появляться дубли и они могут сильно разрастаться  

Проблема потери из-за неиспользования left join, когда важно не потерять данные  
Не забываем каждый раз когда хотим соеденить таблицы задавать себе вопрос, могут ли потеряться данные,  
если я использую просто join, важно ли мне не потерять даннные. И только после ответа на этот вопрос выбирать вариант соединения.  

Проблема справочников  
При объединение таблиц важно помнить про то, что в разных таблицах не только названия столбцов может быть разное,  
но и одно значение может быть записано по разному в разных таблицах, например, названия профессий, названия городов,  
имя в одной таблице на русском, а в другой на английском, номер телефона с черточкой или плюсом и без черточки или плюса.  
Поэтому не забываем привести все значения таблиц к нижнему регистру, чтобы не было проблем разными регистрами для одного слова

Проблема временных зон  
В одной таблице может быть выгрузка по местному времени, а в другом по московскому  


Проблема курсов валют  
Разыне системы могут брать курс за разные промежутки вермени, например, одна система берет курс в гугле (раз в час обновляется),  
а другая система берет курс в ЦБ (обновляется раз в сутки)  
И поэтому итоговые резултаты могут не состыковаться, поэтому, когда видим курсы валют, то нужно убедиться. что они взяты из одного испточника  
и за один промежуток времени  

Когда мы работаем с данными, нам важно четко идентифицировать клиентов, событие или другую сущность, с которой мы работаем.  
Иначе у нас будет шум, так как мы одного и того же клиента учтем более одного  раза.

Как можно обоготить данные, чтобы лучше идентифицировать сущности
- Добавить для клиента email, телефон, устройство, 4 цифры карты и другое, что может помочь его идентифицировать  
    Это важно так как у клиента могут быть разные телефоны, устройства, карты, но все это вместе поможет его идентифицировать точнее
- Добавить для события локацию, погоду, связанные событие, праздники, что поможет нам идентифицировать событие   

### Сравнение метрик между собой

Чтобы сравнить метрики между собой мы можем
- использовать корреляционный анализ
Мы строим матрицу корреляции всего со всем и смотрим на коэффициенты корреляции.  
Смотрим R2 (коэффициент детерминации)
- использовать коэффициенты у регресси
Мы строим регрессию (может быть обычная, а может быть решающий случайный лес и другие варианты) и смотрим,   
у каких метрик больше коэффициенты. Таким образом мы поймем какие метрики сильнее зависят с целевой.  
Будет правильно выбирать разные целевые метрики и смотреть как на них влияют основные (смотрим R2).  
То есть проверять на мультиколлиниарность, чтобы определить не просто поарную корреляцию, а совместную.  
Также не забываем поправки на гетероскедостичность (HC0, HC1, HC2, HC3) в статпакетах.  
Нам нужно ответить на следующие вопросы
    - Влияет ли метрика на целевую?
    Оцениваем коэффициенты в уравнении регресси у каждой метрики.  
    - Как влияет метрика на целевую?
    Смотрим R2 (коэффициент детерминации). И определяем какая часть целевой переменной определяется независимыми метриками.  
    - Коэффициенты при метриках в уравнении статистически значим? При какаом уровне значимости?
    Смотрим в стат пакете p value для каждого коэффициента, что нам говорит значим ли этот коэффициент.  
    То есть мы не просто смотрим его абсолютное значение, а учитываем p value.   
    - Дайте содержательную интерпретацию коэффицентам?
    При увеличении метрики k на 1, целевая метрика увеличивается на $b_{k} * 1$
    То есть нужно перевести коэффициенты в реальное сравнение, насколько увелчисться целевая метрика при изменении определенной метрики на 1
    - Найдите 95 процентный доверительный интервал.
    В стат пакете смотрим значение и оно говорит, что если мы многократно повторим ноши вычисления с новыми данными, то 95 процентов наших  
    полученных коэффицентов будут лежать в этом диапазоне.  
- испльзовать коэффициенты у классификацию  
Строим логистическую регрессию, случайный лес и другие модели и смотрим какие метрики сильнее всего влияют на решения модели.  
- используем быблиотеку `shap`, чтобы определить метрики, которые лучше других помогают предсказывать целевую перемменную

Чтобы построить регрессию и посмотреть стат значимость и коэффициенты удобно использовать модуль statsmodel

In [None]:
import statsmodels.formula.api as smf   
from statsmodels.stats.outliers_influence import variance_inflation_factor
# формула записывать так "Целевая переменная ~ метрика1 + метрика2 + ..."
# ols модель линейной регрессии
formula = 'Price ~ DEN + polyamid + lykra + cotton + wool'
reg = smf.ols(formula, df).fit(cov_type='HC1')
reg.summary()
var = reg.model.exog
VIF = [variance_inflation_factor(var, i) for i in range(var.shape[1])]
VIF

### Когортный анализ

Не забывать про когортный анализ. Если у нас есть параметр, по которому мы можем наши данные разбить на когорты, то  
нужно разложить на когорты и посмотреть динамику по когортам.  
Когорты это например, пользователи пришедшие в одни день или месяц.  
Если мы объеденим пользователей в когорты и посмотрим динамику какого-то параметра по месяцам например, то увидим как изменяется.  
Тут также нужно помнить, что если значение например за 3 месяц больше значения за 4 месяц, то это ничего не значит само по себе.  
Так как мы имеем дело с выборкой, то нам нужно проверить статистически значимая это разница.  
Тут нам понядобятся стат тесты.  


### Дополнительные моменты, которые стоит проверить и изучить 
- привести значения стобцов к одному регистру, если заглваные буквы не несут смысл
- привести все к одному языку, если названия, например, на руссом и на английсом  
- важно проверить на корректность данные, то есть смотрим по отдельности каждый столбец и изучаем мин, макс, и другие параметры, и  
думаем, это физически реально. И особенно, когда у нас несколько связаных параметров, нет ли между ними противоречия.  
Например, у нас есть дата показа рекламы и есть дата создания рекламы, естественно создание должно быть раньше, это нужно проверить.  
- вообще нужно придумать разные проверки для колонок, особенно связанных. И провести эту проверку. 

### Промежуточный вывод

### 3 Формулирование и провера гипотез

- Гипотезы появляются, когда мы задаем вопросы данным. Мы изучили данные, преобработали и теперь начинаем задавать вопросы.  
- Выдвигаем гипотезу (заметили что-то необычное и хотим проверить), далее формулируем ее и далее проверяем.  
- Не забываем формулировать гипотезы словами. Пишем что является гипотезой H0, а что гипотезой H1  
- Формулируем все гипотезы, которые хотим проверить. Если будет 100 гипотез, то все 100 нужно сформулировать и потом проверить и сделать вывод.  
- Гипотезы могут быть и простыми вопросами без гипотез H0 и H1, такие гипотезы мы проверяем графиками или анализируя таблицу.  
- Восновном, когда мы собиаремся применить стат аппарат для проверки гипотезы, то мы должны записать ее через H0 и H1.  

Алгоритм проверки статистических гипотез

- постановка задачи
    - Сформулировать, что мы хотим узнать о выборках с точки зрения бизнес задачи (равны ли средние доходы в группах)
- формулировка гипотез
    - перевод бизнес-вопроса на язык статистики: средний доход в группах - проверка равенства средних значений
    - формулировка нулевой гипотезы - с т.зр. равенства стат прараметров оцениваемых выборок   
    (Н0: Средние траты клиентов по группе А равны средним тратам клинентов по группе В)
    - формулировка альтернативной гипотезы - с точки зрения неравенства параметров  
    (Н1: Средние траты клиентов по группе А не равны средним тратам клинентов по группе В)
- выбор критерия alpha (почему 0.05 или 0.01)
    - цена ошибки первого рода (при большой цене ошибки - в мед исследованиях, потенциальном ущербе ) - значение может быть больше, например 0.1
    - в ежедневных бизнес задачах, обычно - 0.05
- анализ распределения
    - визуальная оценка
    - следим за выбросами
    - проверка гипотез о типе распредеделения (например критерий Шапиро-Уилка)
    - если распределение не нормальное и размер выборки достаточный (больше 30-50 элементов)  
    может быть использован t-test именно для проверки гипотезы о равенстве средних.  
    Согласно ЦПТ (центральная предельная теорема) средние этих выборок будут распределены нормально. См. статью Зотова
- выбор критерия
    - при оценке равенства средних T-test или Welch T-test (если есть сомнения, то лучше Уэлча)
        - при рвенстве дисперсий используем обычный т тест
        - если дисперсии в выборках разные, то используем т теста Уэлча
- получение результата
    - расчет p-value
- интерпретация p-value
    - сравнение p-value и alpha
    - если альфа > p-value - отвергаем нулевую гипотезу
    - если альфа < p-value - не можем отвергнуть нулевую гипотезу

### Промежуточный вывод

### Примеры гипотез

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

### Промежуточный вывод

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

### Промежуточный вывод

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

### Промежуточный вывод

- Как разные цели кредита влияют на его возврат в срок?

### Вывод

### 4. Общий вывод

Что нужно сообщить в выводе
- информацию о том, что удалось подтвердить гипотезы (тут пишем только те, которые удалось подтвердить)
- всю информацию о датасете, которые важны. Дубликаты, которые несут практическую пользу и рекомендации по ним, пропуски также с рекомендациями  
и остальные моменты по данным и рекомендации. Тут важно указывать именно найденные аномалии, которые имеют практическую пользу, которые нужно исправить и прочее.  
Пишем, что были найдены выбросы, они были связаны возможно с тем то и тем то. 
- и в конце обязательно call to action 
написать что необходимо сделать с этими результатами

Советы по оформлению общего выывод
- не нужно вставлять таблицы и графики в вывод. 
В выводе пишем словами самое важное и практически полезное, что мы получили, причем в порядке убывания важности.  
И когда мы пишем, что увидели то-то, то приводим гиперссылку на график или результат ячейки, где это получено.  
Так будет компактный вывод и при необходимости человек сможет быстро перейти и посмотреть график или таблицу  

**Удалось подтвердить гипотезу** о влиянии различных характеристик клиента на факт погашения кредита в срок. Каждый из рассмотренных параметров оказывает влияние на надёжность заёмщика. Рассмотренные факторы по-разному влияют на надёжность заёмщиков. Например, семейное положение оказалось более значимым фактором, чем уровень дохода.


- В ходе анализа исходного набора данных было проведено (были устранены пропуски в двух колонках с числовыми значениями - 'total_income' и 'days_employed').  
- После __устранения явных и скрытых дупликатов__ и удаления оставшихся после обогащения пропусков объем датасета сократился на 0.05%
- Были устранены __выбросы__ в колонках 'days_employed' и 'children': в первом случае выбросы возникли в результате системной ошибки (данные были внесены в часах, а не в днях); во втором случае ошибка, вероятнее всего была допущена людьми, вносившими данные в систему
- ...

**Необходимо**

1. Запросить в отделе по работе с клиентами информацию о возможности брать кредит без подтверждения дохода. 

2. Сообщить коллегам, занимающимся выгрузкой о наличие дубликатов, если вопрос не разрешится, запросить индентификационный номер клиента к датасету.

3. Прописать в задаче на поставку данных формат данных (пол только F и M, положительные значения). Приложить информацию о найденных аномалиях.

### Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  открыт файл;
- [ ]  файл изучен;
- [ ]  определены пропущенные значения;
- [ ]  заполнены пропущенные значения;
- [ ]  есть пояснение, какие пропущенные значения обнаружены;
- [ ]  описаны возможные причины появления пропусков в данных;
- [ ]  объяснено, по какому принципу заполнены пропуски;
- [ ]  заменен вещественный тип данных на целочисленный;
- [ ]  есть пояснение, какой метод используется для изменения типа данных и почему;
- [ ]  удалены дубликаты;
- [ ]  есть пояснение, какой метод используется для поиска и удаления дубликатов;
- [ ]  описаны возможные причины появления дубликатов в данных;
- [ ]  выделены леммы в значениях столбца с целями получения кредита;
- [ ]  описан процесс лемматизации;
- [ ]  данные категоризированы;
- [ ]  есть объяснение принципа категоризации данных;
- [ ]  есть ответ на вопрос: "Есть ли зависимость между наличием детей и возвратом кредита в срок?";
- [ ]  есть ответ на вопрос: "Есть ли зависимость между семейным положением и возвратом кредита в срок?";
- [ ]  есть ответ на вопрос: "Есть ли зависимость между уровнем дохода и возвратом кредита в срок?";
- [ ]  есть ответ на вопрос: "Как разные цели кредита влияют на его возврат в срок?";
- [ ]  в каждом этапе есть выводы;
- [ ]  есть общий вывод.