# Исследование надёжности заёмщиков


**Автор**: Григорьев Павел   


**Описание проекта**: Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.  
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.  


**Цель**: Составить рекомендации для кредитного отдела банка, которые будут учтены при построении модели кредитного скоринга.  
Определить влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок.  

**Источники данных**: Данные предоставленны кредитным отделом банка.

**Условия проведения анализа днных**: указываем временной интервал выборки  
Например, 'для анализ будут использоваться данные за год с 1 июня 2017 по 31 мая 2018 года'


**Вывод**: тут помещаем самое главное из общего вывода, примерно до полустраницы, чтобы не было сильно много и при этом указать все главные выводы


**Оглавление** 
* [1. Описание и изучение данных](#1)
    * [1.1 Изучение данных](#1-1)
    * [1.2 Изучение данных](#1-2)



(опционально, зависит от того есть ли оглавление по умолчанию, но лучше сделать скрываемое, так как не везде будет автоматическое):  
создаем оглавление с гиперссылками  
Тут важно давать развернутые названия разделам в работе, но и не сильно большие (пиши - сокращай).  
Все таки это название главы и оно должно быть не более 5-7 слов. Некоторые могут быть длиннее, если сильно нужно,  
но основная часть названий разделов и глав долны быть достаточно кратикими.   
Чтобы понять длинные ли заголовки - смотрим на оглавление и думаем не сильно ли шировкие строчки.  
Чтобы в оглавление хорошо читалось и было понятно про что каждый раздел и глава и чтобы  
можно было прочитать, понять и перейти к разделу. Нельзя писать сильно кратко, так как люди не знакомы с работой и им нужно более развернутые  
названия глав, чтобы понимать о чем там будет идти речь  
Оглавление делаем со сворачивающимися списками, то есть каждую главу можно свернуть, можно развернуть и пеерейти на уровень ниже,  
как в сводных таблицах экселя, так удобнее, так как места занимает мало, если скрыть все подразделы, а если нужно, то раскроют  
В каждом блоке сделать гиперссылку 'к содержанию', чтобы можно было вернуться к содержанию,  
но тут важно, чтобы на одной странице не было больше 1 такой ссылки.   
Заголовки разделов и глав не нужно писать в стиле 'посчитаем, выясним, исследуем и подобное', так как названия глав и разделов это более официальные  
названия. Нужно более формально их называть.  
Название главы или раздела должно нести в себе основной смысл этого раздела или главы, так и нужно называть.  
1. Описание данных
2. Предобработка данных
3. Расчет метрик
    3.1 Продуктовые метрики
        3.1.1 Расчет MAU, DAU, WAU
        3.1.2 Рачет ASL
4. Подведение итогов и регкомендации       


### Загрузка библиотек

In [1]:
import pandas as pd
import numpy as np
import plotly.express as px
import seaborn as sns
import matplotlib.pyplot as plt
from ipywidgets import widgets, Layout
from IPython.display import display, display_html, display_markdown
import my_module
import importlib
import re
import itertools
from pymystem3 import Mystem
importlib.reload(my_module)
import chart_studio
import chart_studio.plotly as py
sns.set(style="white")
# with httpimport.remote_repo('http://my-codes.example.com/python_packages'):
#     import package1

# chart_studio.tools.set_credentials_file(username="bestorlov1992", api_key="TOnnvREBwfkILt9ABEr5")
# # from jupyter to chart studio
# py.plot(fig, filename = "plot name", auto_open = True)

### 1. Описание и изучение данных <a class="anchor" id="1"></a>

#### 1.1 Описание данных <a class="anchor" id="1-1"></a>
- children - количество детей в семье
- days_employed - общий трудовой стаж в днях
- dob_years - возраст клиента в годах
- education - уровень образования клиента
- education_id - идентификатор уровня образования
- family_status - семейное положение
- family_status_id - идентификатор семейного положения
- gender - пол клиента
- income_type - тип занятости
- debt - имел ли задолженность по возврату кредитов
- total_income - ежемесячный доход
- purpose - цель получения кредита

#### 1.2 Изучение данных <a class="anchor" id="1-2"></a>

сначала грузим 5-10 строк (указываем в `pd.read_csv` `nrow`)

Изучаем данные и определяемся с типами, потом их указваем в `pd.read`

Важно привести названия столбцов к нижнему регистру, убрать пробелы (заменить их на _),  
так как в том же merge могту быть проблемы, если это не сделать и вообще будет удобнее работать 

Если после попытки привести тип к нужному, мы получили ошибку,  
то обязательно изучаем эти строки. Именно строки, не только сами занчения, которые не можем преобразовать.  
Часто бывает у нас в ругих столбцах есть категория например, которая портит все,  
и при этом это выброс может быть.  Поэтому обязательно првоеряем строки, в которых строки не преобразуются в нужный тип.  

Очень важно писать код, чтобы не учитывался порядок столбцов. Чтобы если порядок изменится, то наш скрипт будет работать верно.  

Все значения в колонках во всех таблицах нужно привести к нижнему регистру и по возможности к одному языку,  
для перевода к одному языку можно использовать словарь, с помощью которого изменить неправильный язык  
Это нужно, чтобы когда будем соединять таблицы, у нас условие соеденения правильно сравнивало равные значения.  

Также важно категориальные столбцы привести к типу `category` и для столбцов, которые имеют малый диапазон значений заменить на меньший тип,  
например на `int8`  

In [2]:
dtype = {'education': 'category', 'family_status': 'category', 'gender': 'category', 'income_type': 'category'}
df = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv', dtype=dtype)
df.sample(5, random_state=7)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
4042,1,-2885.142188,50,среднее,1,женат / замужем,0,F,сотрудник,0,80236.028323,приобретение автомобиля
19177,2,-1803.080913,36,Среднее,1,женат / замужем,0,F,сотрудник,0,163292.220004,строительство собственной недвижимости
7372,1,-305.540665,27,СРЕДНЕЕ,1,гражданский брак,1,F,сотрудник,0,69799.488812,ремонт жилью
16245,1,-1593.946336,50,среднее,1,женат / замужем,0,F,сотрудник,1,107486.332934,на покупку подержанного автомобиля
11563,0,-1025.402943,64,высшее,0,женат / замужем,0,M,госслужащий,0,706401.47579,профильное образование


Используем метод `my_info` или `my_info_gen` для вывода информации о датасете и колонках

Везде где нужно написать свои мысли по результату, пишем слово жирным шрифтом `Наблюдения:`   
и с нового абзаца писать рассуждения списком булитами - или *

сделать предположения, почему могло так произойти, выдвигаем гипотезы

придумать способы проверки выдвинутых гипотез и записать

если у нас по оси x время, то проанализировать сезонность

подумать а так и должно было получиться, основываясь на понимании физики параметра  

зафиксировать возможные рекомендации

Для гистограмм, нужно понять почему именно такое распределение метрики.  
Совпадет это с логикой этой метрики. 

Также когда строим гистограммы и вайолин плот, то не просто фиксируем, что есть тяжелые хвосты, разброс между квартилями такой-то.  
А думаем почему так, пытаемся связать это с физикой параметра. Должно быть физическое объяснение всех аномалий.  
Если объяснения нет, то возможно это инсайт.  

Важно убедиться, что у нас есть данные на все источники, которые заявлены. Например, мы изучаем источники трафика и у нас они в разных таблицах.  
Нужно убедиться, что во всех таблицах есть все источники, и проверить нет ли аномалий, возможно какой-то сильно выбивается или какого-то вообще где-то нет.  

И очень важно сверить, что периоды в разных таблицах (если у нас больше одной таблицы) совпадают.  

Важно проверить соответствуют ли временной период данных тому, который заявлен в задании,  
определиться что будем делать с неполными периодами.  

Вообще, когда у нас несколько таблиц и там есть категориальные переменные или время, то  
мы должны взять уникальные значения категориальных переменных из каждой таблицы (одниаковые переменные) и сравнить.  
Количество уникальных должно совпадать, иначе нужно разбираться  
И с верменем как минимум мин и макс даты должны совпадать до дня, а лушше до минуты часа

Очень важно, если у нас есть стартовая дата чего-то и конечная, то обязательно нужно проверить,  
нет ли у нас записей, где конечная дата меньше стартовой.  

Важная проверка, если у нас есть категории и даты, то сгруппировать по категориями и 
вывести количество занчений, минимальную и максимальную дату  
Таким образом мы сразу поймем распределение в категории и  
увидем какие временные интервалы у каждой категории  
Если у нас все категории должны быть в один день, то мы поймем нет ли багов

Вообще очень важно смотреть не только на аномалии в значениях, но и аномалии в категориальных переменных.  
А тут аномалией будет отстутствие какого-то значения, хотя в описании или поставновке задачи оно есть.  
Также совпадение количества значений категориальных переменных в разных таблицах.  

Внимательно посмотреть на столбцы, если есть столбцы, в которых могут быть потенциальные анамали, то проверить их.  
Например, есть столбец возрасти стаж работы, проверить, что возраст больше стажа.  
И подобные случаи.  

Проверка на нарушения уникальности   
Убедить, что столбцы, значения в которых не должны повторяться и должны быть уникальными, такие в действительности.    
Смотрим на результат функции `my_info`

Проверка на ошибки целостности  
Если у нас есть столбцы, в которых значения должны совпдаать попарно, то проверяем на это  
`get_non_matching_rows`

Проверка условий  
Проверьте, что данные в датафрейме удовлетворяют определенным условиям, таким как "возраст > 18" или "страна == 'Россия'"

Проверяем на дубли  
- Важно помнить, что если у нас есть id и название товара, то названия товара все равно нужно проверить на дубли,  
возможно у нас 2 ай ди с одним названием. 
- Также важно в каждой отдельной колонке проверить дубли и если их много, то посмотреть на соседние колонки, что там происходит
- Дубликаты часто носят скрытый характер.  
То есть это могут быть поля, которые записаны  по разному, но относятся к одному и тому же.  
Поэтому важно, если у нас категориальный признак, изучить нет ли повторящихся категорий, которые записаны немного по разному.  
Так как это создает шум, мы по сути имеем две разные категории, но на самом деле это одна. Нужно собрать их в одну.  
- И очень важно, если мы не подтвердили, что это действительно дубликат (например у нас нет ай ди клиента и мы не смогли выяснить один и тот же ли это человек),  
то нужно аккуратно удалять их. Но и оставлять много дублей плохо, так как они вносят шумы и искажения.  
- Помним, что наличие дубликата не говорит точно, что это дубль, возможно у нас нет ещё колонок, котоыре бы детализировали и разделили эти дубли.  
Поэтому тут могут быть рекомендации, чтобы добавли в фрейм доп колонки, которые помогут убрать дубли (либо сам ищешь ещё поля)


`check_duplicated`  
`check_duplicated_combinations`  
`get_duplicates_value_proportion_by_category`  
В первую функцию можно передавать весь датафрейм и можно выбирать нужные столбцы для проверки на дубли и передавать их.  

Важно на дубли проверить и отдельные строки и целиком таблицу и подумать какие группы столбцов могут дать дубли и на это тоже проверить.  

Если в дублях у нас есть ай ди клиента, то тут понятно, если нет ай ди, то пишем рекомендацию, чтобы данные приходили с ай ди,  
чтобы можно было понять это один человек или нет 

Если у нас id пользователя встречается не одни раз в таблице и есть другие поля которые должны быть всегда одни и те же,  
напримем пол и прочее, то нужно проверить у всех ли пользователей все значения одинаковые в этом столбце.  
Это может быть не только ай ди, любое уникальное поле, которое повторяется и для каждого этого поля есть другое  
поле, которое не должно меняться, нужно проверять а действительно ли это поле не меняется.  

Проверяем на пропуски    
Когда мы встречаем пропуски, прежде всего, нужно ответить на вопрос, существует ли закономерность в появлении пропусков.   
Иными словами, не случайно ли их возникновение в наборе данных.  
Случайно, значит нет закономерности с соседними столбцами, то есть пропуски есть для разных значений.  
А могут быть неслучайные, то есть существует явная закономерностЬ, что пропуски есть только у сторок с общими занчениями в другом столбце.    
Чтобы это проверить, нужно взять столбец с пропусками, отфильтровать только пропуски (взять их) и  
посмотреть как эти пропуски распределены по другой переменной.    

- Первое что нужно сделать, когда мы видим пропуск или выброс, это проверить является ли оно случайным.  
То есть посмотреть не относятся ли все выбросы к одной категории. Если это так, то это уже не случайно и мы нашли аномалию, которую можно изучать.  
Если у нас случайны разброс пропусков в категориях, то значит тут есть случайность.  
Например, у нас возраст 0, и мы видим, что больше всего это у женщин. Следовательно получаем гипотезу, что женщины не хотят сообщать свой возраст.  
- В пропусках мы можем определить какие категории, платформы и прочее не собираются данные. Смотрим пропуски, далее смотрим у каких категорий их больше,  
и получаем вывод, что нужно обратить внимание на эти категории или системы, почему там пропуски

`find_columns_with_missing_values`  
`check_na_in_both_columns`  
`get_missing_value_proportion_by_category`

Изучаем выбросы

- Выбросы это не только просто сильно большое или сильно маленькое значение.  
- Выбросы нужно также смотреть по мультипараметрам, с помощью моделей и искать аномалии.  
- Выброс это то, что отделяется от других, что выбивается из общей картины. Следовательно это что-то особенное.  
- Тажке выбросы говорят не только о плюсах, но и о минусах. Выбросы могут сказать, что у нас что-то сломалось.  
Что-то не записывается, или работает с багами. Все это можно увдитеь по выбрасам и аномалиям.  
- Обязательно посмотреть выбросы в разрезе категорий, так как мы сможем сделать выводы об их источнике.  
- Если мы работаем со строгой отчетностью, то тут любой выброс это уже инсайт и нужно идти разбираться откуда это взялось.  

Смотрим на выбросы используя Z-score  
`detect_outliers_Zscore`

Смотрим на выбросы используя Z-score  
`detect_outliers_quantile`

Изучить выбросы по категориями  
`get_outlier_quantile_proportion_by_category`  
`get_outlier_proportion_by_category_modified_z_score`

Сделать функцию определения выбросов на основе машинного обучения

Дополнительные моменты, которые стоит проверить и изучить 
- важно проверить на корректность данные, то есть смотрим по отдельности каждый столбец и изучаем мин, макс, и другие параметры, и  
думаем, это физически реально. И особенно, когда у нас несколько связаных параметров, нет ли между ними противоречия.  
Например, у нас есть дата показа рекламы и есть дата создания рекламы, естественно создание должно быть раньше, это нужно проверить.  
- Проверяем данные ошибки  
Ошибки которые не являются дублями, пропусками или выбросами.  
Это сложно сделать, хотя бы заметить явные ошибки
- Проверить на ошибки согласованности  
Например, у нас пользователь с одним ай ди имеет разные имена. 
`display(df.groupby('name')['age'].nunique())`
- вообще нужно придумать разные проверки для колонок, особенно связанных. И провести эту проверку. 

#### 1.2 Промежуточный вывод

Принимаем решение, как именно мы будем проводить обработку, почему именно так, *зафиксировать рекомендации.  
То есть отвечаем на вопрос, что будем делать с выбросами, что будем делать с null.  
Будет идеально если тут зафиксировать рекомендации  


**Промежуточный вывод**

- **children** Присутствует 47 отрицательных значений с "-1", а также аномалия в виде 20 детей ...
- **days_employed** Большая часть данных стобца со знаком "-". Однако, эти данные представляют из себя 84% всей выборки. ... будут заменены на .. исходя из определенного критерия, который будет описан далее. 
    - Причины пропущенных значений в столбцах **days_employed** и **income**:
        - Во-первых, это может быть из-за неправильной выгрузки данных. Оставим это предположение до того момента, пока не убедимся в неверности других предположений.**Наиболее вероятно**
        - Во-вторых, одной из гипотез было предположение об отсутствии трудового опыта у данной части выборки. Однако, если распределение по возрасту в данной группе равномерное по всем возрастам выборки. Также большая доля этой части выборки трудоустроена. **Гипотеза не подтверждена**
        - В-третьих, возможно, что эта часть выборки не имеет официального трудоустройства. Данная гипотеза вызывает сомнение в связи с тем, что при наличии достаточно большого стажа работы у представителей выборки у ее представителей нет официального трудового стажа. К тому же 18.9% данной выборки являются госслужащими. **Гипотез не подтверждена**
- **age** .. 0 возраст у 101 человека.
- **education & education_id** Необходимо будет привести данную категорийнуй переменную к общему виду. Избавиться от разного регистра. Но можно не тратить на это время и использовать следующий столбец **education_id**. Это позволит использовать меньше памяти и не повлияет на качество анализа.
- ...

### 2. Предобработка данных

#### 2.1 Обрезание неполных временных периодов

Если у нас датасет за год, например, и первый или последний месяц неполные, то их лучше выбрасить, если мы будем  
расчитывать месячные метрики.  
Но сначала конечно нужно проанализировать столбцы без обрезания, чтобы убедиться, что там нет ничего необычного.  

#### 2.2 Выбор нужных столбцов для дальнейшей работы и нормализация таблицы

- Думаем, какие колонки нам нужны, выбираем только их для дальнейшей работы.  
Остальные убираем в другой датасет. 
- Важно после изученя данных сначала убрать не нужные столбцы, а потом уже заниматься преобразованием (удалением пропусков и выбросов).  
Думаем прежде чем удалять строки, так как возможно лучше удалить столбец и строки удалять будет не нужно.  
- Пишем почему выбираем определенные столбцы

### Промежуточный вывод

### Обработка пропусков

что-то изменили - > посмотрели не изменилось ли количество дублей   
`check_duplicated`

Увидели пропуск — подумайте, нормально ли это. Сколько вообще пропусков может быть в этом столбце?   
К примеру, в списке с электронными адресами пользователей, согласных на рассылку, будет много пропусков. Далеко не все предоставляют email.

Можно использвоать такой подход
- если количество пропусков меньше 5 процентов, то удаляем (лучше меньше 1 процента)
- если количество пропусков от 5 до 20 процентов, то подбираем чем заменить, удалять не стоит
- если больше 20 процентов, то не трогаем, так как исказим

Но оставляя пропуски, нам нужно помнить, что мы не можем по этим полям считать корреляцию с другими,   
так как пропуски испортят расчет коэффициента корреляции. Аналогично другие метрики могут считаться некорректно.  
Поэтому, если мы будем считать показатели по столбцу с пропусками, то их нужно либо убирать, либо этот столбец не использовать для расчетов.  

Для категориальных переменных оставлять пропуски нельзя, так как мы скорее всего будем группировать по ним и смотреть разные разрезы.  
Поэтому в худшем случае, если не можем ничем заменить, и нет уверености, что пропуск можно заполнить пустой строкой (если значения физически нет),  
то создаем категорию например `other` из пропусков.  

Если у нас пропуски в категориальной переменной и есть разные периоды или просто данные разбиты на части (то есть эта категориальная переменная повторяется),  
то мы можем взять ещё какую-нибудь переменную, у которой нет пропусков, где пропуски у первой переменной и далее посмотреть другие периоды  
Таким образом у нас будет предыдущий период, где будет занчение второй переменной и первой и если в нескольких периодах они одинаковые, то мы можем  
заполнить и пропуски этим значением.   
Ещё раз схема такая - берем 2 поля одно с пропусками, другое без, получаем новую таблицу, в этой таблице оставляем только униклаьные значения в поле без пропусков,  
по этому полю будем джойнить. Далее в основнйо таблице дропаем описание и создаем новое описание из таблицы справочника.    
`fill_missing_values_using_helper_column`

Заполняем пропуски учитвая категории  
`fill_na_with_function_by_categories`

Сделать функцию заполнения пропусков с помощью машинного обучения

### Промежуточный вывод

### Работа с выбросами

- Очень важно понимать, когда выброс можно отбросить и он реально выброс и когда нельзя.  
Опираемся на физику параметра, думаем это значение физически возможно.  
- Также выброс может казаться выбрасом, но для бизнеса это не выброс.  
Например у нас суммы покупок и одна покупка сильно выделяется, а там просто человек купил супе дорогой каньяк, например.  
- Когда хотим обрезать выбросы, то думаем, какой порог может быть физически реальным и по нему режем, а не просто так берем какой-то перцентиль.  
Всегда нужно думать с точки зрения физического возможного значения параметра и по нему резать (подумать а какое значение может быть максимально реальным и по нему обрезать)
- Если мы имеем дело со строгой отчестностью, то выбросы убирать нельзя, нужно разобраться откуда они.  
- Если мы не можем с увереностью сказать, что это выброс, то нам не стоит его выкидывать, но работать как то нужно с ними,  
тогда, логарифмируем (лучше использовать натуральный логарифм) эту колонку и работаем с такими значениями (тогда выбросы сожмуться).  

### Промежуточный вывод

### Обработка дубликатов

Если есть дубли, и мы считаем, что это не дубли, а просто разделились данные,    
то объединеняем записи, которые имеют одинаковые значения ключевых признаков.  
`merge_duplicates`

Если мы не уверены, что дубль является дублем и не хотим удалять, то можно  использовать  
маркировку дублей,  можно добавить новую колонку, которая будет содержать информацию о том,   
является ли строка дубликатом или нет.  
`df['is_duplicate'] = df.duplicated()`

Подумать, а можем ли мы обогатить данные, что разделит дубли.  
То есть возможно в наших данных нет какого-то столбца, и тогда дубли уже не будут дублями. 

Если уверены, что это дубли, то удаляем их  
`df.drop_duplicates()`

### Промежуточный вывод

### Промежуточный вывод

### Категоризация данных

Придумываем какие колонки можно дополнительно сделать из имеющихся.  
Например у нас есть колонка длительность звонков, и 0 это пропущенный звонок,  
мы можем сделать колонку is_missed, в которой будет true или false  

Очень важно, когда мы создаем новые колонки, в которых используем несколько дургих, то нужно проверить распределение этой новой переменной, особенно выбросы.  
Например, у нас начальная и конечная дата сессии и мы считаем длительность сессии. Вот тут нужно посмотреть какая минимальная длительность  
и какая максимальная. Ну и естественно проверить есть ли длительность 0 и меньше нуля.  
Таким образом мы можем найти инсайты уже после создания новых колонок, хотя в изначальных данных этих инсайдов не было видно.  

#### Обычная категоризация данных

Категоризация помогает избежать проблемы с разреженными данными, когда у нас есть слишком много групп с небольшим количеством элементов.   
Это может привести к некорректным выводам и ошибкам в анализе.
Категоризация нужна, чтобы образовать группы, в которых достаточно значений для использования статистических методов.  
И вообще, если в группе 1-10 элементов, например у нас возраст пользователей и 5 человек с возрастом 22, 3 человека с возрастом 23 и так далее.  
Мы не можем разбивать по таким группам, так как их размер небльшой и выводы будут некорректные, поэтому нам нужно собрать их в группы,  
чтобы у нас были группы с достаточным размером.  

- Если у нас категориальная переменная имеет много значений, то мы не можем номрально с ней работать.  
Так как мы не можем построить графики по ним, так как их много и они не числовые. Не можем сравнить их все.  
Поэтому нам нужно сократить категории.  
- Нужно посмотреть на данные и подумать можем ли мы разделить их по сегментам рынка или по другим категориям, которые нам помогут.  
- Мы можем категоризировать на основе и числовых и категориальных столбцов. То есть мы можем из категориальной переменной сделать  
другую категориальную, уменьшив или увеличив разбиение.   
- добавление категорий обогощает данные, при чем категории могут формироваться не из одной колонки, а из серии, то есть чтобы попасть  
в определенную категорию значения столбцов должно быть такое то, а не только один столбец определяет категорию.  
- категории могут быть да нет, то есть состоять из двух значений, например, у нас есть данные о рекламе и столбец где она показвалась,  
и у нас много много разных устройств. Мы можем разбить на да нет, то есть показвалась реклама по телеку или нет

Мы можем разбить данные на категории двумя способами
- разбивать на равные части  
подходит, когда 
    - диапазон значений является равномерным и имеет линейную структуру  
    - мы понимаем на какие интервалы хотим разбить данные    
    - мы хотим разделить диапазон значений на равные части для удобства анализа.
- разбить на основе квантилей  
подходит, если   
    - диапазон значений имеет неравномерную структуру
    - мы не можем понять какие интервалы выбрать
    - хотим выделить группы с конкретными характеристиками (например, группы с низким доходом, средним доходом и высоким доходом)

Выбираем нужные способ и используем  
`create_category_column`

#### Категоризация с использованием лемматизации

Если у нас есть столбец и мы хотим его лематизировать, то используем функцию  
`lemmatize_column`

С помощью лематизации мы можем сократить количество категорий.  

Например мы можем выделить группы:
- операции с автомобилем (ключевое слово - автомобиль)
- операции с недвижимостью (ключевые слова: жилье, недвижимость)
- проведение свадьбы (ключевое слово: свадьба)
- получение образования (ключевое слово: образование)


Используем функцию  
`categorize_column_by_lemmatize`

### Промежуточный вывод

### Feature engineering

Если мы хотим преобразовать категории в числа, то мы можем использовать 
- lable encoding  
Заменяем быквы числами. Хорошо работает, когда у нас порядковые категориальные переменные.  
Не забываем про порядок, если у нас алфавитный порядок наших категорий соотвествует числовому, то ок,  
если нет, то нам нужно самим определить порядок чисел, чтобы они соответствовали категориям в нужном порядке.  
- one hot encoding  
Если у нас категориальная переменная не упорядочиваемая, то лучше использовать one hot encoding, чтобы разница между числами не вносила шум,  
так как черный и белый и красный цвет закодированные 1, 2, 3 вносят смысл количества, но они не имеют этого свойства.  
-  target encoding  
замена категориальной переменной на каую-то статистику по одной из категорий внутри этой переменной.  
Например у нас категориальная переменная это наличие задержки. Значение задержан / незадержан. Мы кодируем их как 0 и 1. Далее мы берем и считаем по каждой группе (для задержан и для незадержан)  
статистику, например, среднее и получаем столбец, где вместо каждой буквы будет ее среднее.  
Тут важно делать регуляризацию. Так как маленькие группы могут иметь сильно  зашумленные статистики, так как если у нас  
группа из 5 значений, то среди них может быть легко экстремальное одно и оно сбивает статистику, поэтому добавляем штраф всем статистикам.  
Регуляризация это что-то похожее на сглаживание.  
Как это делается 
    - берем считаем среднее по таргету (целевой переменной, то есть той, по которой мы счтаем статистику) всей таблице (то есть не делим на категории)  
    - Далее используем следующую формулу для сглаженного значения среднего по конкретной группе:   
      (среднее по группе * количество элементов в группе + среднее по таргету без учета категорий * размер регуляризирующей группы) / (количество элементов в категории + размер регуляризирующей группы)  
      Количество элементов в регуляризационнной группе выбирает эмперически. То есть это количество элементов, которым мы сглаживаем.    
      Смысл в том, что мы берем сколько-то элементов с занчением для всех категорий и сглаживаем им наши отдельные категории.    
    - Размер регуляризирующей группы обычно выбирают с помощью grid search, то есть берут цикл для размера этой группы и считают результат модели для каждого размера,  
    и потом выбирают тот размер, для которого результат лучше.    
    
`target_encoding_linear`  
`target_encoding_bayes`      
    



### Использование кластеризации для категоризации

Можно понизить размерность до 3  
и построить 3 д график  
По этому графику посмотреть есть ли у нас возможные кластеры  
Если есть, то выделить их  
Причем для понижения размерности можно брать все столбцы, а можно только часть.

### Промежуточный вывод

### Обогощение таблиц (соединение с другими)

Проверка соответствия:   
Если у нас в разных таблицах есть значения, которые дожны быть одинакоые,    
то нужно проверить, что значения в одном столбце соответствуют значениям в другом столбце. 

In [None]:
df['column_name1'].equals(df['column_name2'])

Обоготить данные можно следующими способами
- взять поле нашей таблицы и найти дополнительные данные в интернете или ещё где-то и потом связать с нашей колонкой по этому полю  
Самое просто это дата, если у нас есть дата, то мы можем много разной доп информации внести в наши данные связывая по дате.  
Также, например, у нас есть какие-то коды чего-то, мы ищем информацию по этим кодам и находим табличку с доп инфой по этим кодам и можем обоготить ими   
нашу таблицу. Например, у нас города или страны, мы можем по ним также внести доп инфу из какого-то источника, которая нам поможет.  
Вообще любое поле нашей таблицы это потенцильная нить для обогощения. Главное понять с чем полезным мы можем соеденить  
через конкретное поле, чтобы получить больше полезной информации для анализа, по сути для детализации наших зависимостей или для поиска  
новых зависимостей и инсайтов в них.  
Процесс следующий - мы берем каждую колонку нашего дата сета и думаем, с чем через нее мы можем связать и если придумываем, то идешь ищем эту информацию и  
в итоге соединяем.  
- Можно пойти от обратного. Сначал подумтаь какие данные нам могут помочь и поискать их в интернете например, а потом уже думать как их соеденить с нашими   
данными. Оба способа лучше делать одновременно.  

Каждый раз, когда мы работаем с дата сетом, мы должны понять что является сущностью этого дата сета.  
Например событие, человек и прочее.  
Далее нам нужно поянть а можем ли мы его идентифицировать по текущим данным (не всегда есть уникальный ай ди).   
Если не можем, то нужно думта как обогатить данные, чтобы четко идентифицировать сущности

Что нужно обязательно првоерить после соединения
- если мы соединяем по полю, которое уникально в обеих таблицах
    - количество строк в левом датафрейме равно количеству строк в итоговом
    - параметры каждого дата сета не изменились (если мы соединили правильно, то итоговые суммы по столбцам не должны измениться)
        - используем `df.sum(numeric_only=True)` для каждой таблицы до соединения и для общей таблицы и сравниваем значения
        - можно использвоать `df.describe` также до и после объединения и сравнивать параметры
- если у нас в одной из колонок для соединения не уникальные значения (то есть для одной строки в левой таблице будет несколько в итоговй)    
    - Сначала группируем таблицы, чтобы поле для соединения в обеих таблицах было уникальное
    и применяем предыдущий шаг с количеством строк в левой и итоговой и суммой значений в левой и итоговой одинаковой
    - Если нам нужно соеденить без группировки (но это редко может быть, поэтому нужно подумать точно ли не моежм сгруппировать)  
    тогда нет выбора и остаются только следующие варианты  
        - если в левой таблице уникальные записи в колонке, по которйо соединяем    
            - тогда считаем сколько было записей в левой таблице в колонке для соединения и сравниваем с количеством **уникальных** записей в итоговой  
            они должны совпадать, но тут важно в итоговой брать уникальные записи
        - есил и в левой и правой нет уникальных
            - тут считаем сколько **уникальных** в левой до и сколько **уникальных** в итоговой, должно совпадать

Если у нас что-то не сходится после соединения таблиц, то нужно внимально изучить это.  
Тут может быть инсайт (кто-то не правильно вносит информацию, какие-то значения неверные или кто-то что-то хотел спрятать, не указать и прчоее).  
Когда видим нестыковки после соединения таблиц, то должна загораться красная лампочка. Это потенциальный инсайт, баг, который мы можем найти и сообщить, чтобы его починили. 

помним, что метод соединения inner стоит по умолчанию в merge

В колонках, по которым будем соеднить, проверяем, нет ли пропусков, пропуски нужно заменить нулями.  
Иначе будет либо ошибка, либо пропуски сджойнятся с пропусками

Проблема справочников  
При объединение таблиц важно помнить про то, что в разных таблицах не только названия столбцов может быть разное,  
но и одно значение может быть записано по разному в разных таблицах, например, названия профессий, названия городов,  
имя в одной таблице на русском, а в другой на английском, номер телефона с черточкой или плюсом и без черточки или плюса.  
Поэтому не забываем привести все значения таблиц к нижнему регистру, чтобы не было проблем разными регистрами для одного слова

Проблема временных зон  
В одной таблице может быть выгрузка по местному времени, а в другом по московскому  


Проблема курсов валют  
Разыне системы могут брать курс за разные промежутки вермени, например, одна система берет курс в гугле (раз в час обновляется),  
а другая система берет курс в ЦБ (обновляется раз в сутки)  
И поэтому итоговые резултаты могут не состыковаться, поэтому, когда видим курсы валют, то нужно убедиться. что они взяты из одного испточника  
и за один промежуток времени  

Когда мы работаем с данными, нам важно четко идентифицировать клиентов, событие или другую сущность, с которой мы работаем.  
Иначе у нас будет шум, так как мы одного и того же клиента учтем более одного  раза.

Как можно обоготить данные, чтобы лучше идентифицировать сущности
- Добавить для клиента email, телефон, устройство, 4 цифры карты и другое, что может помочь его идентифицировать  
    Это важно так как у клиента могут быть разные телефоны, устройства, карты, но все это вместе поможет его идентифицировать точнее
- Добавить для события локацию, погоду, связанные событие, праздники, что поможет нам идентифицировать событие   

### Сравнение метрик между собой

Чтобы сравнить метрики между собой мы можем
- использовать корреляционный анализ


`heatmap(df.corr())`

Использование регрессии и случайного леса для определения влияния переменных  

Коэффициенты регрессии позволяют оценить влияние каждой переменной на целевую переменную, учитывая влияние других переменных,  
в то время как важные компоненты в случайном лесе позволяют оценить важность каждой переменной для предсказания целевой переменной.

Используем регрессиию 

Чтобы построить регрессию и посмотреть стат значимость и коэффициенты удобно использовать модуль statsmodel

VIF означает Variance Inflation Factor (Фактор инфляции дисперсии). Это статистическая метрика,   
используемая для обнаружения мультиколлинеарности (сильной корреляции) между предикторами (фичами) в линейной регрессии.

Обычно, VIF интерпретируется следующим образом:

- VIF < 5: слабая мультиколлинеарность
- 5 ≤ VIF < 10: умеренная мультиколлинеарность
- VIF ≥ 10: сильная мультиколлинеарность


Смотрим R2 (коэффициент детерминации)
- использовать коэффициенты у регресси
Мы строим регрессию и смотрим, у каких метрик больше коэффициенты. Таким образом мы поймем какие метрики сильнее зависят с целевой.  
Важно, чтобы независимые переменные некоррелировали по отдельности и вместе (мультиколлиниарность).  
По отдельности смотрим матрицу корреляции.  
Чтобы определить коррелириуют ли вместе, береме независимые переменные,  
и перебираем их выбирая одну из них целевой и смотрим R2.  
Если R2 большой, то значит эта метрика (которая целевая на этом шаге) хорошо описывается другими и ее можно выбросить.
Также не забываем поправки на гетероскедостичность (HC0, HC1, HC2, HC3) в статпакетах.  
Нам нужно ответить на следующие вопросы
    - Влияет ли метрика на целевую?
    Оцениваем коэффициенты в уравнении регресси у каждой метрики.  
    - Как влияет метрика на целевую?
    Смотрим R2 (коэффициент детерминации). И определяем какая часть целевой переменной определяется независимыми метриками.  
    - Коэффициенты при метриках в уравнении статистически значим? При какаом уровне значимости?
    Смотрим в стат пакете p value для каждого коэффициента, что нам говорит значим ли этот коэффициент.  
    То есть мы не просто смотрим его абсолютное значение, а учитываем p value.   
    - Дайте содержательную интерпретацию коэффицентам?
    При увеличении метрики k на 1, целевая метрика увеличивается на $b_{k} * 1$
    То есть нужно перевести коэффициенты в реальное сравнение, насколько увелчисться целевая метрика при изменении определенной метрики на 1
    - Найдите 95 процентный доверительный интервал.
    В стат пакете смотрим значение и оно говорит, что если мы многократно повторим ноши вычисления с новыми данными, то 95 процентов наших  
    полученных коэффицентов будут лежать в этом диапазоне.  

Строим модель и изучаем результат  
`linear_regression_with_vif`

Испльзовать коэффициенты у классификацию    
Строим случайный лес какие метрики сильнее всего влияют на решения модели.   
`plot_feature_importances_classifier`   
`plot_feature_importances_regression`

На основе полученных данных формулируем гипотезы, которые будем проверять в блоке проверки гипотез

 используем быблиотеку `shap`, чтобы определить метрики, которые лучше других помогают предсказывать целевую перемменную

### Когортный анализ

Не забывать про когортный анализ. Если у нас есть параметр, по которому мы можем наши данные разбить на когорты, то  
нужно разложить на когорты и посмотреть динамику по когортам.  
Когорты это например, пользователи пришедшие в одни день или месяц.  
Если мы объеденим пользователей в когорты и посмотрим динамику какого-то параметра по месяцам например, то увидим как изменяется.  
Тут также нужно помнить, что если значение например за 3 месяц больше значения за 4 месяц, то это ничего не значит само по себе.  
Так как мы имеем дело с выборкой, то нам нужно проверить статистически значимая это разница.  
Тут нам понядобятся стат тесты.  


### Промежуточный вывод

### 3 Анализ взаимосвязей переменных на графиках

Сначала раздел графиков  
На основе графиков формируются гипотезы (например, у нас у мужчин зп больше)
И после раздела графиков идет раздел проверки гипотез. Тут мы првоеряем разные гипотезы новые и те, что увидели на графиках.  
Это правильная последовательность сначала изучили графики и потом на основе их сформировали гипоетзы
Перед разделом про графики идет раздел с корреляцией и поиском главных компонет случайного леса.  
Мы выбиарем переменную, для которой мы далее хотим посмотреть разыне зависимости и указываем ее целевой для сучайного леса  
И смотрим какие фичи сильнее влияют.  
И теперь можем построить графики с целевой перменно и этими главными фичами и в выводе можно указать про то что это важные компоненты случаного леса

На основе полученных данных формулируем гипотезы, которые будем проверять в блоке проверки гипотез

#### Изучаем зависимости временем и другими переменными

Строим когортный анализ, если есть возможность

Если у нас есть даты, то мы можем посмотреть не просто абсолютные значения на каждую дату какой-то метрики,  
а посмотреть относительные значения относительно предыдущего значения.  
Для этого нужно составить таблицу, в которой будет изменение в процентах относительно предыдущего значения.  
И затем визуализировать для каждой даты динамику этого показателя 

#### Изучаем зависимости между числовыми переменными

Изучаем scatter plots

In [None]:
pairplot = sns.pairplot(df, markers=["o"], 
                        plot_kws={'color': (128/255, 60/255, 170/255, 0.9)},
                        diag_kws={'color': (128/255, 60/255, 170/255, 0.9)})

In [None]:
import plotly.express as px
df = px.data.iris()
fig = px.density_contour(df, x="sepal_width", y="sepal_length")
fig.show()

#### Изучаем зависимости между категориальными переменными

Строим матрицу тепловой карты для категориальных переменных и изучаем зависимости  
`categorical_heatmap_matrix_gen`

Строим treemap  
`treemap`   
`treemap_dash`   
```
app = treemap_dash(df)
if __name__ == '__main__':
    app.run_server(debug=True)
```

Строим parallel_categories    
`parallel_categories `  
`parallel_categories_dash `  
```
app = treemap_dash(df)
if __name__ == '__main__':
    app.run_server(debug=True)
```

Строим Sankey  
`sankey `   
`sankey_dash`

```
app = treemap_dash(df)
if __name__ == '__main__':
    app.run_server(debug=True)
```

#### Изучаем зависимости между числовыми и категориальными переменными

In [286]:
dff = df.copy()

In [32]:
df.head(1)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья


In [None]:
import plotly.graph_objects as go
import pandas as pd

# Создаем график Plotly
func = 'sum'
cat_columns = ['education']
num_columns = ['dob_years']
df_t = df[cat_columns + num_columns].groupby(cat_columns).agg({num_columns[0]: func}).reset_index().sort_values(num_columns[0], ascending=False)

# Создаем графики для каждого типа
bar_fig = go.Bar(x=df_t['education'], y=df_t['dob_years'])
line_fig = go.Scatter(x=df_t['education'], y=df_t['dob_years'], mode='lines', visible=False)
area_fig = go.Scatter(x=df_t['education'], y=df_t['dob_years'], mode='lines', fill='tozeroy', visible=False)

# Создаем кнопки для смены типа графика
buttons = [
    dict(label='Bar', method='update', args=[{'visible': [True, False, False]}]),
    dict(label='Line', method='update', args=[{'visible': [False, True, False]}]),
    dict(label='Area', method='update', args=[{'visible': [False, False, True]}])
]


# Создаем layout графика
fig = go.Figure(data=[bar_fig, line_fig, area_fig])
fig.update_layout(
    updatemenus=[
        dict(
            type="buttons",
            direction="left",
            buttons=buttons,
            pad={"r": 10, "t": 70},
            showactive=True,
            x=0.11,
            xanchor="center",
            y=1,
            yanchor="bottom"
        ),
    ],
    margin=dict(t=100)  # добавляем верхний отступ для кнопок
)

# Показываем график
fig.show(config=dict(displayModeBar=True))

In [232]:
importlib.reload(my_module)

<module 'my_module' from 'c:\\Git\\Projects\\Исследование надёжности заёмщиков\\my_module.py'>

In [99]:
np.union1d(np.array([1,2,3]), np.array([1,2,4,5,]))

array([1, 2, 3, 4, 5])

In [None]:
df.head(1)       

In [None]:
'col1'

In [None]:
print(px.line([1,2,3], markers=True))

In [61]:
df.education.astype('object').dtype

dtype('O')

In [3]:
df.head(1)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья


In [None]:
df.nunique

In [None]:
cat_columns = ['education', 'gender']
num_column = 'dob_years'
(df[[*cat_columns, num_column]]
            .groupby(cat_columns)
            .agg(count = (num_column, 'count'), nunique = (num_column, 'nunique'),modes = (num_column, lambda x: '')) 
)            

In [None]:
# , 'text': [[', '.join(map(str,x)) for x in prepare_df(config)['modes'].to_list()]]
# , 'hovertemplate': '<br>Value: %{y:.2f}<br>Modes: %{text}'
# , 'marker': {'color': ['#049CB3' if len(x) > 1 else 'rgba(128, 60, 170, 0.9)' for x in prepare_df(config)['modes'].to_list()]}


# , 'text': ['']
# , 'hovertemplate': '<br>Value: %{y:.2f}'
# , 'marker': {'color': ['rgba(128, 60, 170, 0.9)' for x in prepare_df(config)['modes'].to_list()]}

In [219]:
def treemap(df, columns, values=None):
    """
    Creates an interactive treemap using Plotly.

    Parameters:
    df (pandas.DataFrame): dataframe with data for the treemap.
    columns (list): list of columns to use for the treemap.
    values (str): column for values, if None - values  will be calculated as count.
    Returns:
    fig (plotly.graph_objs.Figure): interactive treemap figure.
    """
    fig = px.treemap(df, path=[px.Constant('All')] + columns
                     , values = values
                     , color_discrete_sequence=[
                         'rgba(148, 100, 170, 1)',
                         'rgba(50, 156, 179, 1)',
                         'rgba(99, 113, 156, 1)',
                         'rgba(92, 107, 192, 1)',
                         'rgba(0, 90, 91, 1)',
                         'rgba(3, 169, 244, 1)',
                         'rgba(217, 119, 136, 1)',
                         'rgba(64, 134, 87, 1)',
                         'rgba(134, 96, 147, 1)',
                         'rgba(132, 169, 233, 1)'
                     ])
    fig.update_traces(root_color="silver", hovertemplate="<b>%{label}<br>%{value:.2f}</b>")
    fig.update_layout(margin=dict(t=50, l=25, r=25, b=25))
    fig.update_traces(hoverlabel=dict(bgcolor="white"))
    return fig

In [None]:
df.groupby(['education', 'gender'], as_index=False)[['dob_years']].mean()

In [None]:
import plotly.express as px
import plotly.graph_objects as go
from plotly.subplots import make_subplots
import numpy as np
import pandas as pd
# Create heatmap
# Create heatmap
# Create heatmap
# piv = df.pivot_table(index='gender', columns='education', values='dob_years', aggfunc='sum')
pagr = df.groupby(['education', 'gender'], as_index=False)[['dob_years']].mean()
fig_treemap = treemap(pagr, ['education', 'gender'], 'dob_years')
# fig_treemap.show()
def prepare_data_treemap(df, cat_columns, value_column, func='sum'):
    df_in = df[cat_columns + [value_column]].copy()
    prefix = 'All/'
    df_grouped_second_level = df_in[[*cat_columns, value_column]].groupby(cat_columns).agg({value_column: func}).reset_index()
    df_grouped_second_level['ids'] = df_grouped_second_level[cat_columns].apply(lambda x: f'{prefix}{x[cat_columns[0]]}/{x[cat_columns[1]]}', axis=1)
    df_grouped_second_level['parents'] = df_grouped_second_level[cat_columns].apply(lambda x: f'{prefix}{x[cat_columns[0]]}', axis=1)
    df_grouped_second_level = df_grouped_second_level.sort_values(cat_columns[::-1], ascending=False)
    # df_grouped = df_grouped.drop(cat_columns[0], axis=1)
    df_grouped_first_level = df_grouped_second_level.groupby(cat_columns[0]).sum().reset_index()
    df_grouped_first_level['ids'] = df_grouped_first_level[cat_columns[0]].apply(lambda x: f'{prefix}{x}')
    df_grouped_first_level['parents'] = 'All'
    df_grouped_first_level = df_grouped_first_level.sort_values(cat_columns[0], ascending=False)
    all_value = df_grouped_first_level[value_column].sum()
    res_df = pd.concat([df_grouped_second_level.rename(columns={cat_columns[1]: 'labels', value_column: 'values'}).drop(cat_columns[0], axis=1)
                        , df_grouped_first_level.rename(columns={cat_columns[0]: 'labels', value_column: 'values'})
                        , pd.DataFrame({'parents': '', 'labels': 'All',  'values': all_value, 'ids': 'All'}, index=[0])]
                        , axis=0)
    return res_df
# fig_heatmap.update_layout(
#     annotations=[
#         dict(
#             text=f"{value:.2f}",
#             x=x,
#             y=y,
#             xref="x",
#             yref="y",
#             showarrow=False,
#         )
#         for y, row in enumerate(piv.values)
#         for x, value in enumerate(row)
#     ]
# )
# Create bar chart
fig_bar = px.histogram(x=df['education'], y=df['dob_years'])

# Create a subplot with both graphs
fig = go.Figure()
fig.add_trace(sankey(df, ['education', 'gender']).data[0])
fig.add_trace(fig_bar.data[0])
# fig.update_layout(coloraxis=dict(colorscale=[(0, 'rgba(204, 153, 255, 0.1)'), (1, 'rgb(127, 60, 141)')])
#                   , hoverlabel=dict(bgcolor='white'),)
# Add annotations to the subplot layout
# fig.update_layout(annotations=annotations)

# Set initial visibility of traces
fig.data[0].visible = True
# fig.data[1].visible = False
# fig.data[0].xgap=3
# fig.data[0].ygap=3
# fig.data[0].colorscale = [(0, 'rgba(204, 153, 255, 0.1)'), (1, 'rgb(127, 60, 141)')]
# fig.data[1].colo color_continuous_scale=[(0, 'rgba(204, 153, 255, 0.1)'), (1, 'rgb(127, 60, 141)')]
df_treemap = prepare_data_treemap(df, ['education', 'gender'], 'dob_years', 'mean')
treemap_ids = df_treemap['ids'].to_numpy()
treemap_parents = df_treemap['parents'].to_numpy()
treemap_labels = df_treemap['labels'].to_numpy()
treemap_values = df_treemap['values'].to_numpy()
# display(treemap_ids)
# display(treemap_parents)
# display(treemap_labels)
# display(treemap_values)
# pagr = df.groupby(['education', 'gender'], as_index=False)[['dob_years']].mean()
# treemap_trace = treemap(df, ['education', 'gender'], 'dob_years')
# treemap_ids = treemap_trace.data[0].ids
# treemap_parents = treemap_trace.data[0].parents
# treemap_labels = treemap_trace.data[0].labels
# treemap_values = treemap_trace.data[0].values
# display(treemap_parents)

df_bar = df.groupby('education')[['dob_years']].mean().reset_index()
x_bar = df_bar['education']
y_bar = df_bar['dob_years']

df_bar_sum = df.groupby('education')[['dob_years']].sum().reset_index()
x_bar_sum = df_bar_sum['education']
y_bar_sum = df_bar_sum['dob_years']
# display(piv_renew)
# display(df_bar)
buttons = [
    {'label': 'Heatmap', 
     'method': 'update', 
     'args': [{'visible': [True, False]
            #    , 'xaxis': {'visible': False}
            #    , 'yaxis': {'visible': False}
    },
                                    # {'xaxis': {'visible': False}
                                    # , 'yaxis': {'visible': False}}                                                
              ]},                

    {'label': 'Bar Chart', 
     'method': 'update', 
     'args': [{'visible': [False, True]
            #    , 'xaxis': {'visible': False}
            #    , 'yaxis': {'visible': False}
    }, 
                                    #     {'xaxis': {'visible': True}
                                    # , 'yaxis': {'visible': True}}
                                    ]},
    {'label': 'Mean', 
     'method': 'update', 
     'args': [{
                'orientation': ['h', 'h']
            #    , 'ids': [treemap_ids]
            #    , 'parents': [treemap_parents]
            #    , 'labels': [treemap_labels]
            #    , 'values': [treemap_values]
            #    , 'hovertemplate': 
    }          
            #   ,
            #                         {
            #                             'xaxis': [None, {'visible': True}]
            #                         , 'yaxis': [None, {'visible': True}]}                                   
              ]},  
    # {'label': 'Sum', 
    #  'method': 'restyle', 
    #  'args': [{
    #              'x': [x_heatmap_sum, x_bar_sum]
    #            , 'y': [y_heatmap_sum, y_bar_sum]
    #            , 'z': [z_heatmap_sum]
    #            , 'hovertemplate': ['heatmap=%{z:.0f}<extra></extra>'
    #                                , 'x=%{x}<br>y=%{y}<extra></extra>']
    # }]},      
]    
buttons.append(dict(label='Ver', method='restyle', args=[{'orientation': 'v'}]))
buttons.append(dict(label='Hor', method='restyle', args=[{'orientation': 'h'}]))

# Update layout with button
fig.update_layout(
    updatemenus=[
        {'type': "buttons", 'buttons': buttons, 'direction': 'down', 'showactive': True, 'x': 0.5, 'y': 1.2}
    ],
)
fig.show()

In [4]:
def heatmap(df, title='', xtick_text=None, ytick_text=None, xaxis_label=None, yaxis_label=None, width=None, height=None, decimal_places=2, font_size=14):
    """
    Creates a heatmap from a Pandas DataFrame using Plotly.

    Parameters:
    - `df`: The Pandas DataFrame to create the heatmap from.
    - `title`: The title of the heatmap (default is an empty string).
    - `xtick_text`: The custom tick labels for the x-axis (default is None).
    - `ytick_text`: The custom tick labels for the y-axis (default is None).
    - `xaxis_label`: The label for the x-axis (default is None).
    - `yaxis_label`: The label for the y-axis (default is None).
    - `width`: The width of the heatmap (default is None).
    - `height`: The height of the heatmap (default is None).
    - `decimal_places`: The number of decimal places to display in the annotations (default is 2).
    - `font_size`: The font size for the text in the annotations (default is 14).

    Returns:
    - A Plotly figure object representing the heatmap.

    Notes:
    - If `xtick_text` or `ytick_text` is provided, it must have the same length as the number of columns or rows in the DataFrame, respectively.
    - The heatmap is created with a custom colorscale and hover labels.
    - The function returns a Plotly figure object, which can be displayed using `fig.show()`.
    """
    # Create figure
    fig = go.Figure(data=go.Heatmap(
        z=df.values,
        x=df.columns,
        y=df.index,
        xgap=3,
        ygap=3,
        colorscale=[[0, 'rgba(204, 153, 255, 0.1)'], [1, 'rgb(127, 60, 141)']],
        hoverongaps=False,
        hoverinfo="x+y+z",
        hoverlabel=dict(
            bgcolor="white",
            # Increase font size to font_size
            font=dict(color="black", size=font_size)
        )
    ))

    # Create annotations
    center_color_bar = (df.max().max() + df.min().min()) * 0.7
    annotations = [
        dict(
            text=f"{df.values[row, col]:.{decimal_places}f}",
            x=col,
            y=row,
            showarrow=False,
            font=dict(
                color="black" if df.values[row, col] <
                    center_color_bar else "white",
                size=font_size
            )
        )
        for row, col in np.ndindex(df.values.shape)
    ]

    # Update layout
    fig.update_layout(
        title=title,
        annotations=annotations,
        xaxis=dict(showgrid=False),
        yaxis=dict(showgrid=False)
    )

    # Update axis labels if custom labels are provided
    if xtick_text is not None:
        if len(xtick_text) != len(df.columns):
            raise ValueError(
                "xtick_text must have the same length as the number of columns in the DataFrame")
        fig.update_layout(xaxis=dict(tickvals=range(
            len(xtick_text)), ticktext=xtick_text))

    if ytick_text is not None:
        if len(ytick_text) != len(df.index):
            raise ValueError(
                "ytick_text must have the same length as the number of rows in the DataFrame")
        fig.update_layout(yaxis=dict(tickvals=range(
            len(ytick_text)), ticktext=ytick_text))

    # Update axis labels if custom labels are provided
    if xaxis_label is not None:
        fig.update_layout(xaxis=dict(title=xaxis_label))

    if yaxis_label is not None:
        fig.update_layout(yaxis=dict(title=yaxis_label))

    # Update figure size if custom size is provided
    if width is not None:
        fig.update_layout(width=width)
    if height is not None:
        fig.update_layout(height=height)

    return fig

In [5]:
def treemap(df, columns, values=None):
    """
    Creates an interactive treemap using Plotly.

    Parameters:
    df (pandas.DataFrame): dataframe with data for the treemap.
    columns (list): list of columns to use for the treemap.
    values (str): column for values
    Returns:
    fig (plotly.graph_objs.Figure): interactive treemap figure.
    """
    fig = px.treemap(df, path=[px.Constant('All')] + columns
                     , values = values
                     , color_discrete_sequence=[
                         'rgba(148, 100, 170, 1)',
                         'rgba(50, 156, 179, 1)',
                         'rgba(99, 113, 156, 1)',
                         'rgba(92, 107, 192, 1)',
                         'rgba(0, 90, 91, 1)',
                         'rgba(3, 169, 244, 1)',
                         'rgba(217, 119, 136, 1)',
                         'rgba(64, 134, 87, 1)',
                         'rgba(134, 96, 147, 1)',
                         'rgba(132, 169, 233, 1)'
                     ]
                     , labels={'values': 'Mean Value'})
    fig.update_traces(root_color="silver", hovertemplate="<b>%{label}<br>%{value}</b>")
    fig.update_layout(margin=dict(t=50, l=25, r=25, b=25))
    fig.update_traces(hoverlabel=dict(bgcolor="white"))
    return fig

In [6]:
def sankey(df, columns, values_column=None, func='sum', mode='fig'):
    """
    Создает Sankey-диаграмму

    Parameters:
    df (pandas.DataFrame): входной DataFrame
    columns (list): список столбцов для Sankey-диаграммы

    Returns:
    fig (plotly.graph_objects.Figure): Sankey-диаграмма
    """
    def prepare_data(df, columns, values_column, func):
        """
        Подготавливает данные для Sankey-диаграммы.

        Parameters:
        df (pandas.DataFrame): входной DataFrame
        columns (list): список столбцов для Sankey-диаграммы

        Returns:
        sankey_df (pandas.DataFrame): подготовленный DataFrame для Sankey-диаграммы
        """
        df_in = df.fillna(value={values_column: 0}).copy()
        columns_len = len(columns)
        temp_df = pd.DataFrame()
        if func == 'mode':
            func = lambda x: x.mode().iloc[0] 
        if func == 'range':
            func = lambda x: x.max() - x.min()
        for i in range(columns_len - 1):
            current_columns = columns[i:i+2]
            if values_column:
                df_grouped = df_in[current_columns+[values_column]].groupby(current_columns)[[values_column]].agg(value = (values_column, func)).reset_index()
            else:
                df_grouped = df_in[current_columns].groupby(current_columns).size().reset_index().rename(columns={0: 'value'})
            temp_df = pd.concat([temp_df, df_grouped
                                        .rename(columns={columns[i]: 'source_name', columns[i+1]: 'target_name'})], axis=0)
        sankey_df = temp_df.reset_index(drop=True)
        return sankey_df

    def create_sankey_nodes(sankey_df):
        """
        Создает узлы для Sankey-диаграммы.

        Parameters:
        sankey_df (pandas.DataFrame): подготовленный DataFrame для Sankey-диаграммы
        colors (list): список цветов для узлов

        Returns:
        nodes_with_indexes (dict): словарь узлов с индексами
        node_colors (list): список цветов узлов
        """
        nodes = pd.concat([sankey_df['source_name'], sankey_df['target_name']], axis=0).unique().tolist()
        nodes_with_indexes = {key: [val] for val, key in enumerate(nodes)}
        colors = [
            'rgba(148, 100, 170, 1)',
            'rgba(50, 156, 179, 1)',
            'rgba(99, 113, 156, 1)',
            'rgba(92, 107, 192, 1)',
            'rgba(0, 90, 91, 1)',
            'rgba(3, 169, 244, 1)',
            'rgba(217, 119, 136, 1)',
            'rgba(64, 134, 87, 1)',
            'rgba(134, 96, 147, 1)',
                'rgba(132, 169, 233, 1)']
        node_colors = []
        colors = itertools.cycle(colors)
        for node in nodes_with_indexes.keys():
            color = next(colors)
            nodes_with_indexes[node].append(color)
            node_colors.append(color)
        return nodes_with_indexes, node_colors

    def create_sankey_links(sankey_df, nodes_with_indexes):
        """
        Создает связи для Sankey-диаграммы.

        Parameters:
        sankey_df (pandas.DataFrame): подготовленный DataFrame для Sankey-диаграммы
        nodes_with_indexes (dict): словарь узлов с индексами

        Returns:
        link_color (list): список цветов связей
        """
        link_color = [nodes_with_indexes[source][1].replace(', 1)', ', 0.2)') for source in sankey_df['source_name']]
        return link_color
    sankey_df = prepare_data(df, columns, values_column, func)
    nodes_with_indexes, node_colors = create_sankey_nodes(sankey_df)
    link_color = create_sankey_links(sankey_df, nodes_with_indexes)
    sankey_df['source'] = sankey_df['source_name'].apply(lambda x: nodes_with_indexes[x][0])
    sankey_df['target'] = sankey_df['target_name'].apply(lambda x: nodes_with_indexes[x][0])
    sankey_df['sum_value'] = sankey_df.groupby('source_name')['value'].transform('sum')
    sankey_df['value_percent'] = round(sankey_df['value'] * 100 / sankey_df['sum_value'], 2)
    sankey_df['value_percent'] = sankey_df['value_percent'].apply(lambda x: f"{x}%")
    if mode == 'fig':
        fig = go.Figure(data=[go.Sankey(
            domain = dict(
            x =  [0,1],
            y =  [0,1]
            ),
            orientation = "h",
            valueformat = ".0f",
            node = dict(
            pad = 10,
            thickness = 15,
            line = dict(color = "black", width = 0.1),
            label =  list(nodes_with_indexes.keys()),
            color = node_colors
            ),
            link = dict(
            source = sankey_df['source'],
            target = sankey_df['target'],
            value  = sankey_df['value'],
            label = sankey_df['value_percent'],
            color = link_color
        )
        )])

        layout = dict(
                title = f"Sankey Diagram for {', '.join(columns+[values_column])}" if values_column else
                f"Sankey Diagram for {', '.join(columns)}",
                height = 772,
                font = dict(
                size = 10),)

        fig.update_layout(layout)  
        return fig
    if mode == 'data':
        sankey_dict = {}
        sankey_dict['sankey_df'] = sankey_df
        sankey_dict['nodes_with_indexes'] = nodes_with_indexes
        sankey_dict['node_colors'] = node_colors
        sankey_dict['link_color'] = link_color
        return sankey_dict


In [None]:
import plotly.graph_objects as go
import pandas as pd
colorway_for_bar = ['rgba(128, 60, 170, 0.9)', '#049CB3', '#84a9e9', '#B690C4',
                    '#5c6bc0', '#005A5B', '#63719C', '#03A9F4', '#66CCCC', '#a771f2'
                    , 'rgba(128, 60, 170, 0.9)', '#049CB3', '#84a9e9', '#B690C4',
                    '#5c6bc0', '#005A5B', '#63719C', '#03A9F4', '#66CCCC', '#a771f2'
                    , 'rgba(128, 60, 170, 0.9)', '#049CB3', '#84a9e9', '#B690C4',
                    '#5c6bc0', '#005A5B', '#63719C', '#03A9F4', '#66CCCC', '#a771f2'
                    , 'rgba(128, 60, 170, 0.9)', '#049CB3', '#84a9e9', '#B690C4',
                    '#5c6bc0', '#005A5B', '#63719C', '#03A9F4', '#66CCCC', '#a771f2']
def prepare_df(config):
    df = config['df']
    cat_column_color = [config['cat_column_color']] if config['cat_column_color'] else []
    cat_columns = [config['cat_column_x']] + cat_column_color  
    num_column = config['num_column_y']
    # print(config)
    # print(cat_columns)
    # print(num_column)
    func = config.get('func', 'sum')  # default to 'sum' if not provided
    if func == 'mode':
        func = lambda x: x.mode().iloc[0] 
        func_for_modes = lambda x: tuple(x.mode().to_list())
    else:
        func_for_modes = lambda x: ''
    if func == 'range':
        func = lambda x: x.max() - x.min()
    func_df = (df[[*cat_columns, num_column]]
        .groupby(cat_columns) 
        .agg(num = (num_column, func), modes = (num_column, func_for_modes)) 
        .sort_values('num', ascending=False)
        .rename(columns={'num': num_column})
    )
    if config['cat_column_color']:
        func_df = func_df.unstack(level=1)        
        func_df['sum'] = func_df.sum(axis=1, numeric_only=True)
        func_df = func_df.sort_values('sum', ascending=False).drop('sum', axis=1)
        func_df = pd.concat([func_df[num_column], func_df['modes']], keys=['num', 'modes'])
        func_df = func_df.sort_values(func_df.index[0], axis=1, ascending=False)
        return func_df
    else:
        return func_df
def prepare_data_treemap(df, cat_columns, value_column, func='sum'):
    df_in = df[cat_columns + [value_column]].copy()
    prefix = 'All/'
    if func == 'mode':
        func = lambda x: x.mode().iloc[0] 
    if func == 'range':
        func = lambda x: x.max() - x.min()    
    df_grouped_second_level = df_in[[*cat_columns, value_column]].groupby(cat_columns).agg({value_column: func}).reset_index()
    df_grouped_second_level['ids'] = df_grouped_second_level[cat_columns].apply(lambda x: f'{prefix}{x[cat_columns[0]]}/{x[cat_columns[1]]}', axis=1)
    df_grouped_second_level['parents'] = df_grouped_second_level[cat_columns].apply(lambda x: f'{prefix}{x[cat_columns[0]]}', axis=1)
    df_grouped_second_level = df_grouped_second_level.sort_values(cat_columns[::-1], ascending=False)
    # df_grouped = df_grouped.drop(cat_columns[0], axis=1)
    df_grouped_first_level = df_grouped_second_level.groupby(cat_columns[0]).sum().reset_index()
    df_grouped_first_level['ids'] = df_grouped_first_level[cat_columns[0]].apply(lambda x: f'{prefix}{x}')
    df_grouped_first_level['parents'] = 'All'
    df_grouped_first_level = df_grouped_first_level.sort_values(cat_columns[0], ascending=False)
    all_value = df_grouped_first_level[value_column].sum()
    res_df = pd.concat([df_grouped_second_level.rename(columns={cat_columns[1]: 'labels', value_column: 'values'}).drop(cat_columns[0], axis=1)
                        , df_grouped_first_level.rename(columns={cat_columns[0]: 'labels', value_column: 'values'})
                        , pd.DataFrame({'parents': '', 'labels': 'All',  'values': all_value, 'ids': 'All'}, index=[0])]
                        , axis=0)
    return res_df
def create_figure(config):
    fig = go.Figure()
    # 1
    config['cat_column_x'] = config['cat_columns'][0]
    config['cat_column_color'] = ''    
    df_for_fig = prepare_df(config)
    x = df_for_fig.index.tolist()
    y = df_for_fig[config['num_column_y']].values.tolist()
    bar_traces = px.bar(x=x
       , y=y
       ).data
    line_traces = px.line(x=x
       , y=y
       , markers=True
       ).data
    area_traces = px.area(x=x
       , y=y
       , markers=True
       ).data    
    fig.add_traces(bar_traces + line_traces + area_traces)
    # 2
    config['cat_column_x'] = config['cat_columns'][1]
    config['cat_column_color'] = ''    
    df_for_fig = prepare_df(config)
    x = df_for_fig.index.tolist()
    y = df_for_fig[config['num_column_y']].values.tolist()
    bar_traces = px.bar(x=x
       , y=y
       ).data
    line_traces = px.line(x=x
       , y=y
       , markers=True
       ).data
    area_traces = px.area(x=x
       , y=y
       , markers=True
       ).data    
    fig.add_traces(bar_traces + line_traces + area_traces)
    # 12
    config['cat_column_x'] = config['cat_columns'][0]
    config['cat_column_color'] = config['cat_columns'][1]
    df_for_fig = prepare_df(config).loc['num', :].stack().reset_index(name=config['num_column_y'])
    x = df_for_fig[config['cat_column_x']].values.tolist()
    y = df_for_fig[config['num_column_y']].values.tolist()
    color = df_for_fig[config['cat_column_color']].values if config['cat_column_color'] else None    
    bar_traces = px.bar(x=x
       , y=y
       , color=color
       , barmode='group'
       ).data
    config['traces_cnt12'] = len(bar_traces)
    line_traces = px.line(x=x
       , y=y
       , color=color
       , markers=True
       ).data
    area_traces = px.area(x=x
       , y=y
       , color=color
       , markers=True
       ).data    
    fig.add_traces(bar_traces + line_traces + area_traces)

    # 21
    config['cat_column_x'] = config['cat_columns'][1]
    config['cat_column_color'] = config['cat_columns'][0]
    df_for_fig = prepare_df(config).loc['num', :].stack().reset_index(name=config['num_column_y'])
    x = df_for_fig[config['cat_column_x']].values.tolist()
    y = df_for_fig[config['num_column_y']].values.tolist()
    color = df_for_fig[config['cat_column_color']].values if config['cat_column_color'] else None    
    bar_traces = px.bar(x=x
       , y=y
       , color=color
       , barmode='group'
       ).data
    config['traces_cnt21'] = len(bar_traces)
    line_traces = px.line(x=x
       , y=y
       , color=color
       , markers=True
       ).data
    area_traces = px.area(x=x
       , y=y
       , color=color
       , markers=True
       ).data    
    fig.add_traces(bar_traces + line_traces + area_traces)
   
    # # heatmap
    pivot_for_heatmap = config['df'].pivot_table(index=config['cat_columns'][0], columns=config['cat_columns'][1], values=config['num_column_y'])
    heatmap_trace = px.imshow(pivot_for_heatmap, text_auto=".0f").data[0]
    heatmap_trace.xgap=3
    heatmap_trace.ygap=3
    fig.add_trace(heatmap_trace)
    fig.update_layout(coloraxis=dict(colorscale=[(0, 'rgba(204, 153, 255, 0.1)'), (1, 'rgb(127, 60, 141)')])
                                            , hoverlabel=dict(bgcolor='white'))
    # treemap
    treemap_trace = columns = treemap(config['df'], config['cat_columns'], config['num_column_y']).data[0]
    fig.add_trace(treemap_trace)
    
    # sankey
    sankey_trace =  sankey(config['df'], config['cat_columns'], config['num_column_y'], func='sum').data[0]
    fig.add_trace(sankey_trace)
    
    for i, trace in enumerate(fig.data):
        # при старте показываем только первый trace
        if i:
            trace.visible = False
        if trace.type == 'scatter':
            trace.line.width = 2
            # trace.marker.size = 7      
    return fig

def create_buttons(config):
    buttons = []
    buttons.append(dict(label='Ver', method='update', args=[{'orientation': 'v'}]))
    buttons.append(dict(label='Hor', method='update', args=[{'orientation': 'h'}]))
    buttons.append(dict(label='stack', method='relayout', args=[{'barmode': 'stack'}]))
    buttons.append(dict(label='group', method='relayout', args=[{'barmode': 'group'}]))
    # buttons.append(dict(label='overlay', method='relayout', args=[{'barmode': 'overlay'}]))
            
#    add range, distinct count
    for i, func in enumerate(['sum', 'mean', 'median', 'count', 'nunique', 'mode', 'std', 'min', 'max', 'range']):
        config['func'] = func
        if func == 'mode':
            # 12
            config['cat_column_x'] = config['cat_columns'][0]
            config['cat_column_color'] = config['cat_columns'][1]
            df_for_update = prepare_df(config)
            df_num12 = df_for_update.loc['num', :]
            x_12 = df_num12.index.tolist()
            y_12 = df_num12.values.T.tolist()
            name_12 = df_num12.columns.tolist()
            modes_array12 = df_for_update.loc['modes', :].fillna('').values.T
            text_12 = [[', '.join(map(str, col)) if col else '' for col in row] for row in modes_array12]
            colors = [['orange' if len(col) > 1 else colorway_for_bar[i] for col in row] for i, row in enumerate(modes_array12)]
            colors12 = [{'color': col_list} for col_list in colors]
            # 21
            config['cat_column_x'] = config['cat_columns'][1]
            config['cat_column_color'] = config['cat_columns'][0]
            df_for_update = prepare_df(config)
            df_num21 = df_for_update.loc['num', :]
            x_21 = df_num21.index.tolist()
            y_21 = df_num21.values.T.tolist()
            name_21 = df_num21.columns.tolist()
            modes_array21 = df_for_update.loc['modes', :].fillna('').values.T
            text_21 = [[', '.join(map(str, col)) if col else '' for col in row] for row in modes_array21]
            colors = [['orange' if len(col) > 1 else colorway_for_bar[i] for col in row] for i, row in enumerate(modes_array21)]
            colors21 = [{'color': col_list} for col_list in colors]            
            # 1
            config['cat_column_x'] = config['cat_columns'][0]
            config['cat_column_color'] = ''    
            df_for_update = prepare_df(config)
            x_1 = df_for_update.index.tolist()
            y_1 = df_for_update[config['num_column_y']].values.tolist()
            modes_array1 = df_for_update['modes'].to_list()
            text_1 = [[', '.join(map(str,x)) for x in modes_array1]]
            colors_1 =[{'color': ['orange' if len(x) > 1 else colorway_for_bar[0] for x in modes_array1]}]

            # 2
            config['cat_column_x'] = config['cat_columns'][1]
            config['cat_column_color'] = ''    
            df_for_update = prepare_df(config)
            x_2 = df_for_update.index.tolist()
            y_2 = df_for_update[config['num_column_y']].values.tolist()  
            modes_array2 = df_for_update['modes'].to_list()
            text_2 = [[', '.join(map(str,x)) for x in modes_array2]]
            colors_2 = [{'color': ['orange' if len(x) > 1 else colorway_for_bar[0] for x in modes_array2]}]   
            # heatmap
            func_for_heatmap = lambda x: x.mode().iloc[0]          
            pivot_for_heatmap = config['df'].pivot_table(index=config['cat_columns'][0], columns=config['cat_columns'][1], values=config['num_column_y'], aggfunc=func_for_heatmap)            
            x_heatmap = pivot_for_heatmap.index.tolist()
            y_heatmap = pivot_for_heatmap.columns.tolist()
            z_heatmap = pivot_for_heatmap.values
            # Так как heatmap постоянно меняет ориентацию и 'orientation': 'v' не помогает,  
            # то приходится использовать костыль, чтобы при последовательном проходе по функциям транспонирование  
            # подстраивало данные для Heatmap            
            if i % 2 == 0:
                z_heatmap = z_heatmap.T    
            # treemap
            treemap_ids = []
            treemap_parents = []
            treemap_labels = []
            treemap_values = []

            # sankey
            sankey_df = []
            nodes_with_indexes = {}
            node_colors = []
            link_color = []    
            link = []    
            buttons.append(dict(label=f'{func.capitalize()}'
                                , method='update'
                                , args2=[{'orientation': 'h'}, {'title': f"{func} &nbsp;&nbsp;&nbsp;&nbsp;num = {config['num_column_y']}&nbsp;&nbsp;&nbsp;&nbsp; cat1 = {config['cat_columns'][0]}&nbsp;&nbsp;&nbsp;&nbsp; cat2 = {config['cat_columns'][1]}"}]
                                , args=[{
                                    'orientation': ['v'] * 3 + ['v'] * 3
                                            + ['v'] * config['traces_cnt12'] * 3
                                            + ['v'] * config['traces_cnt21'] * 3
                                            + ['v'] + ['v'] + ['h']
                                    # для каждго trace должент быть свой x, поэтому x умножаем на количество trace
                                    , 'x': [x_1] * 3 + [x_2] * 3
                                            + [x_12] * config['traces_cnt12'] * 3
                                            + [x_21] * config['traces_cnt21'] * 3
                                            + [x_heatmap] + [] + []
                                    # для y1 и y2 нужно обренуть в список
                                    , 'y': [y_1] * 3 + [y_2] * 3 + y_12 * 3 +  y_21 * 3  + [y_heatmap] + [] + []
                                    # , 'z': [z_heatmap]
                                    # , 'orientation': 'v'
                                    , 'z': [] * 3 + [] * 3 + [] * config['traces_cnt12'] * 3 +  [] * config['traces_cnt21'] * 3  + [z_heatmap] + [] + []
                                    # treemap
                                    , 'ids': [] * 3 + [] * 3 + [] * config['traces_cnt12'] * 3 +  [] * config['traces_cnt21'] * 3  + [] + [treemap_ids] + []
                                    , 'labels': [] * 3 + [] * 3 + [] * config['traces_cnt12'] * 3 +  [] * config['traces_cnt21'] * 3  + [] + [treemap_labels] + []
                                    , 'parents': [] * 3 + [] * 3 + [] * config['traces_cnt12'] * 3 +  [] * config['traces_cnt21'] * 3  + [] + [treemap_parents] + []
                                    , 'values': [] * 3 + [] * 3 + [] * config['traces_cnt12'] * 3 +  [] * config['traces_cnt21'] * 3  + [] + [treemap_values] + [] 
                                    # sankey
                                    , 'label': [] * 3 + [] * 3 + [] * config['traces_cnt12'] * 3 +  [] * config['traces_cnt21'] * 3  + [] + [] + [list(nodes_with_indexes.keys())]
                                    , 'color':[] * 3 + [] * 3 + [] * config['traces_cnt12'] * 3 +  [] * config['traces_cnt21'] * 3  + [] + [] + [node_colors]
                                    , 'link': [] * 3 + [] * 3 + [] * config['traces_cnt12'] * 3 +  [] * config['traces_cnt21'] * 3  + [] + [] 
                                                + [link ]    
                                    # для 1 и 2 нет цветов, поэтому названия делаем пустыми
                                    , 'name': [''] * 3 + [''] * 3 + name_12 * 3 +  name_21 * 3 + ['']
                                    , 'hovertemplate': 'color=%{data.name}<br>x=%{x}<br>y=%{y}<br>modes=%{text}<br>heatmap=%{z:.0f}<br>treemap=%{value:.0f}<extra></extra>'
                                    , 'hovertemplate': ['x=%{x}<br>y=%{y}<br>modes=%{text}'] * 6
                                                        + ['x=%{x}<br>y=%{y}<br>color=%{data.name}<br>modes=%{text}'] * (config['traces_cnt12'] + config['traces_cnt21']) * 3
                                                        + ['x=%{x}<br>y=%{y}<br>z=%{z:.0f}']
                                                        + ['%{label}<br>%{value}'] + [[]]                                    
                                    , 'text': text_1 * 3 + text_2 * 3 + text_12 * 3 + text_21 * 3 + [[]] + [[]] + [[]]
                                    , 'marker': colors_1 * 3 + colors_2 * 3 + colors12 * 3 + colors21 * 3 + [[]] + [[]] + [[]]
                                    , 'textposition': 'none'
                                    , 'textfont': {'color': 'black'}
                                }, {'title': f"num = {config['num_column_y']}&nbsp;&nbsp;&nbsp;&nbsp; cat1 = {config['cat_columns'][0]}&nbsp;&nbsp;&nbsp;&nbsp; cat2 = {config['cat_columns'][1]}"}
                                    # {'xaxis': {'visible': [True, True, True] + [True] * 3
                                    #                          + [True] * config['traces_cnt12']
                                    #                          + [True] * config['traces_cnt12'] + [True] * config['traces_cnt12']
                                    #                          + [True] * config['traces_cnt21']
                                    #                          + [True] * config['traces_cnt21'] + [True] * config['traces_cnt21']
                                    #                          + [True] + [False]}
                                    # , 'yaxis': {'visible': [True, True, True] + [True] * 3
                                    #                          + [True] * config['traces_cnt12']
                                    #                          + [True] * config['traces_cnt12'] + [True] * config['traces_cnt12']
                                    #                          + [True] * config['traces_cnt21']
                                    #                          + [True] * config['traces_cnt21'] + [True] * config['traces_cnt21']
                                    #                          + [True] + [False]}}                                     
                                        ]))
        else:
            # 12 
            config['cat_column_x'] = config['cat_columns'][0]
            config['cat_column_color'] = config['cat_columns'][1]
            df_for_update = prepare_df(config)
            df_num12 = df_for_update.loc['num', :]
            # if func == 'sum':
            #     display(df_for_update)
            x_12 = df_num12.index.tolist()
            y_12 = df_num12.values.T.tolist()
            name_12 = df_num12.columns.tolist()
            modes_array12 = df_for_update.loc['modes', :].fillna('').values.T
            text_12 = [['' for col in row] for row in modes_array12]
            colors = [[colorway_for_bar[i] for col in row] for i, row in enumerate(modes_array12)]
            colors12 = [{'color': col_list} for col_list in colors]
            # 21
            config['cat_column_x'] = config['cat_columns'][1]
            config['cat_column_color'] = config['cat_columns'][0]
            df_for_update = prepare_df(config)
            df_num21 = df_for_update.loc['num', :]
            x_21 = df_num21.index.tolist()
            y_21 = df_num21.values.T.tolist()
            name_21 = df_num21.columns.tolist()
            modes_array21 = df_for_update.loc['modes', :].fillna('').values.T
            text_21 = [[''for col in row] for row in modes_array21]
            colors = [[colorway_for_bar[i] for col in row] for i, row in enumerate(modes_array21)]
            colors21 = [{'color': col_list} for col_list in colors]            
            # 1
            config['cat_column_x'] = config['cat_columns'][0]
            config['cat_column_color'] = ''    
            df_for_update = prepare_df(config)
            x_1 = df_for_update.index.tolist()
            y_1 = df_for_update[config['num_column_y']].values.tolist()
            modes_array1 = df_for_update['modes'].to_list()
            text_1 = ['']
            colors_1 =[{'color': [colorway_for_bar[0] for x in modes_array1]}]


            # 2
            config['cat_column_x'] = config['cat_columns'][1]
            config['cat_column_color'] = ''    
            df_for_update = prepare_df(config)
            x_2 = df_for_update.index.tolist()
            y_2 = df_for_update[config['num_column_y']].values.tolist()  
            modes_array2 = df_for_update['modes'].to_list()
            text_2 = ['']
            colors_2 = [{'color': [colorway_for_bar[0] for x in modes_array2]}]              
            # heatmap
            if func == 'range':
                func_for_heatmap = lambda x: x.max() - x.min()
            else:
                func_for_heatmap = func         
            pivot_for_heatmap = config['df'].pivot_table(index=config['cat_columns'][0], columns=config['cat_columns'][1], values=config['num_column_y'], aggfunc=func_for_heatmap)            
            x_heatmap = pivot_for_heatmap.index.tolist()
            y_heatmap = pivot_for_heatmap.columns.tolist()
            z_heatmap = pivot_for_heatmap.values
            
            # Так как heatmap постоянно меняет ориентацию и 'orientation': 'v' не помогает,  
            # то приходится использовать костыль, чтобы при последовательном проходе по функциям транспонирование  
            # подстраивало данные для Heatmap
            if i % 2 == 0:
                z_heatmap = z_heatmap.T            
           
            if func in ['sum', 'count', 'nunique']:
                 # treemap
                df_treemap = prepare_data_treemap(config['df'], config['cat_columns'], config['num_column_y'], func)
                treemap_ids = df_treemap['ids'].to_numpy()
                treemap_parents = df_treemap['parents'].to_numpy()
                treemap_labels = df_treemap['labels'].to_numpy()
                treemap_values = df_treemap['values'].to_numpy()
                # "args": [{"traces": [bar_fig.data[0]]}, {"layout": fig.layout}],
                # if func== 'sum':
                #     display(x_heatmap)
                #     display(y_heatmap)
                #     display(z_heatmap)
                # sankey
                sankey_dict = sankey(config['df'], config['cat_columns'], config['num_column_y'], func, mode='data')
                sankey_df = sankey_dict['sankey_df'] 
                nodes_with_indexes = sankey_dict['nodes_with_indexes'] 
                node_colors = sankey_dict['node_colors']
                link_color = sankey_dict['link_color']
                link = dict(
                            source = sankey_df['source'],
                            target = sankey_df['target'],
                            value  = sankey_df['value'],
                            label = sankey_df['value_percent'],
                            color = link_color
                        )         
                sankey_labels = list(nodes_with_indexes.keys())   
            else:
                 # treemap
                treemap_ids = None
                treemap_parents = None
                treemap_labels = None
                treemap_values = None

                # sankey
                sankey_df = None
                nodes_with_indexes = None
                node_colors = None
                link_color = None    
                link = None        
            
            buttons.append(dict(label=f'{func.capitalize()}'
                                , method='update'
                                , args2=[{'orientation': 'h'}, {'title': f"{func} &nbsp;&nbsp;&nbsp;&nbsp;num = {config['num_column_y']}&nbsp;&nbsp;&nbsp;&nbsp; cat1 = {config['cat_columns'][0]}&nbsp;&nbsp;&nbsp;&nbsp; cat2 = {config['cat_columns'][1]}"}]
                                , args=[{
                                    'orientation': ['v'] * 3 + ['v'] * 3
                                            + ['v'] * config['traces_cnt12'] * 3
                                            + ['v'] * config['traces_cnt21'] * 3
                                            + ['v'] + ['v'] + ['h']
                                    # для каждго trace должент быть свой x, поэтому x умножаем на количество trace
                                    , 'x': [x_1] * 3 + [x_2] * 3
                                            + [x_12] * config['traces_cnt12'] * 3
                                            + [x_21] * config['traces_cnt21'] * 3
                                            + [x_heatmap] + [None] + [None]
                                    # для y1 и y2 нужно обренуть в список
                                    , 'y': [y_1] * 3 + [y_2] * 3 + y_12 * 3 +  y_21 * 3  + [y_heatmap] + [None] + [None]
                                    # , 'z': [z_heatmap]
                                    # , 'orientation': 'v'
                                    , 'z': [None] * 3 + [None] * 3 + [None] * config['traces_cnt12'] * 3 +  [None] * config['traces_cnt21'] * 3  + [z_heatmap] + [None] + [None]
                                    # treemap
                                    , 'ids': [None] * 3 + [None] * 3 + [None] * config['traces_cnt12'] * 3 +  [None] * config['traces_cnt21'] * 3  + [None] + [treemap_ids] + [None]
                                    , 'labels': [None] * 3 + [None] * 3 + [None] * config['traces_cnt12'] * 3 +  [None] * config['traces_cnt21'] * 3  + [None] + [treemap_labels] + [None]
                                    , 'parents': [None] * 3 + [None] * 3 + [None] * config['traces_cnt12'] * 3 +  [None] * config['traces_cnt21'] * 3  + [None] + [treemap_parents] + [None]
                                    , 'values': [None] * 3 + [None] * 3 + [None] * config['traces_cnt12'] * 3 +  [None] * config['traces_cnt21'] * 3  + [None] + [treemap_values] + [None] 
                                    # sankey
                                    , 'label': [None] * 3 + [None] * 3 + [None] * config['traces_cnt12'] * 3 +  [None] * config['traces_cnt21'] * 3  + [None] + [None] + [sankey_labels]
                                    , 'color':[None] * 3 + [None] * 3 + [None] * config['traces_cnt12'] * 3 +  [None] * config['traces_cnt21'] * 3  + [None] + [None] + [node_colors]
                                    , 'link': [None] * 3 + [None] * 3 + [None] * config['traces_cnt12'] * 3 +  [None] * config['traces_cnt21'] * 3  + [None] + [None] 
                                                + [link]                
                                    # , 'layout.annotations': annotations
                                    # для 1 и 2 нет цветов, поэтому названия делаем пустыми
                                    , 'name': [''] * 3 + [''] * 3 + name_12 * 3 +  name_21 * 3 + [''] + [''] + ['']
                                    , 'hovertemplate': ['x=%{x}<br>y=%{y}'] * 6
                                                        + ['x=%{x}<br>y=%{y}<br>color=%{data.name}'] * (config['traces_cnt12'] + config['traces_cnt21']) * 3
                                                        + ['x=%{x}<br>y=%{y}<br>z=%{z:.0f}']
                                                        + ['%{label}<br>%{value}'] + [None]
                                        # '{config["cat_columns"]}=%{data.name}<br>x=%{x}<br>y=%{y}<br>heatmap=%{z:.0f}<br>treemap=%{value:.0f}<extra></extra>'
                                    , 'text': text_1 * 3 + text_2 * 3 + text_12 * 3 + text_21 * 3 + [None] + [None] + [None]
                                    , 'marker': colors_1 * 3 + colors_2 * 3 + colors12 * 3 + colors21 * 3 + [None] + [None] + [None]
                                    , 'textposition': 'none'
                                    , 'textfont': {'color': 'black'}}
                                    , {'title': f"num = {config['num_column_y']}&nbsp;&nbsp;&nbsp;&nbsp; cat1 = {config['cat_columns'][0]}&nbsp;&nbsp;&nbsp;&nbsp; cat2 = {config['cat_columns'][1]}"}
                                    #    , 'annotations': [''] * 3 + [''] * 3 + [''] * config['traces_cnt12'] * 3 +  [''] * config['traces_cnt21'] * 3  + annotations + [''] + ['']}
                                    # {'xaxis': {'visible': [True, True, True] + [True] * 3
                                    #                          + [True] * config['traces_cnt12']
                                    #                          + [True] * config['traces_cnt12'] + [True] * config['traces_cnt12']
                                    #                          + [True] * config['traces_cnt21']
                                    #                          + [True] * config['traces_cnt21'] + [True] * config['traces_cnt21']
                                    #                          + [True] + [False]}
                                    # , 'yaxis': {'visible': [True, True, True] + [True] * 3
                                    #                          + [True] * config['traces_cnt12']
                                    #                          + [True] * config['traces_cnt12'] + [True] * config['traces_cnt12']
                                    #                          + [True] * config['traces_cnt21']
                                    #                          + [True] * config['traces_cnt21'] + [True] * config['traces_cnt21']
                                    #                          + [True] + [False]}}   
                                        ]))     
    # For start state 
    config['func'] = 'sum'
    # 12 
    config['cat_column_x'] = config['cat_columns'][0]
    config['cat_column_color'] = config['cat_columns'][1]
    df_for_update = prepare_df(config)
    df_num12 = df_for_update.loc['num', :]
    # if func == 'sum':
    #     display(df_for_update)
    x_12 = df_num12.index.tolist()
    y_12 = df_num12.values.T.tolist()
    name_12 = df_num12.columns.tolist()
    modes_array12 = df_for_update.loc['modes', :].fillna('').values.T
    text_12 = [['' for col in row] for row in modes_array12]
    colors = [[colorway_for_bar[i] for col in row] for i, row in enumerate(modes_array12)]
    colors12 = [{'color': col_list} for col_list in colors]
    # 21
    config['cat_column_x'] = config['cat_columns'][1]
    config['cat_column_color'] = config['cat_columns'][0]
    df_for_update = prepare_df(config)
    df_num21 = df_for_update.loc['num', :]
    x_21 = df_num21.index.tolist()
    y_21 = df_num21.values.T.tolist()
    name_21 = df_num21.columns.tolist()
    modes_array21 = df_for_update.loc['modes', :].fillna('').values.T
    text_21 = [[''for col in row] for row in modes_array21]
    colors = [[colorway_for_bar[i] for col in row] for i, row in enumerate(modes_array21)]
    colors21 = [{'color': col_list} for col_list in colors]            
    # 1
    config['cat_column_x'] = config['cat_columns'][0]
    config['cat_column_color'] = ''    
    df_for_update = prepare_df(config)
    x_1 = df_for_update.index.tolist()
    y_1 = df_for_update[config['num_column_y']].values.tolist()
    modes_array1 = df_for_update['modes'].to_list()
    text_1 = ['']
    colors_1 =[{'color': [colorway_for_bar[0] for x in modes_array1]}]


    # 2
    config['cat_column_x'] = config['cat_columns'][1]
    config['cat_column_color'] = ''    
    df_for_update = prepare_df(config)
    x_2 = df_for_update.index.tolist()
    y_2 = df_for_update[config['num_column_y']].values.tolist()  
    modes_array2 = df_for_update['modes'].to_list()
    text_2 = ['']
    colors_2 = [{'color': [colorway_for_bar[0] for x in modes_array2]}]  
    traces_visible = {'1b': [[False]], '1l': [[False]], '1a': [[False]], '2b': [[False]], '2l': [[False]], '2a': [[False]]
          , '12b': [[False] * config['traces_cnt12']], '12l': [[False] * config['traces_cnt12']], '12a': [[False] * config['traces_cnt12']]
          , '21b': [[False] * config['traces_cnt21']], '21l': [[False] * config['traces_cnt21']], '21a': [[False] * config['traces_cnt21']]
          ,'heatmap': [[False]], 'treemap': [[False]], 'sankey': [[False]]}
    traces_visible_df = pd.DataFrame(traces_visible)
    traces_lables_bar = {'1b': '1', '2b': '2', '12b': '12', '21b': '21'}
    traces_lables_line = {'1l': '1', '2l': '2', '12l': '12', '21l': '21'}
    traces_lables_area = {'1a': '1', '2a': '2', '12a': '12', '21a': '21', 'heatmap': 'heatmap', 'treemap': 'treemap', 'sankey': 'sankey'}
    traces_lables = {**traces_lables_bar, **traces_lables_line, **traces_lables_area}
    for button_label in traces_lables:
        traces_visible_df_copy = traces_visible_df.copy()
        traces_visible_df_copy[button_label] = traces_visible_df_copy[button_label].apply(lambda x: [True for _ in x])
        visible_mask = [val for l in traces_visible_df_copy.loc[0].values for val in l]
        data = {'visible': visible_mask
                                    , 'orientation': ['v'] * 3 + ['v'] * 3
                                            + ['v'] * config['traces_cnt12'] * 3
                                            + ['v'] * config['traces_cnt21'] * 3
                                            + ['v'] + ['v'] + ['h']
                                    # для каждго trace должент быть свой x, поэтому x умножаем на количество trace
                                    , 'x': [x_1] * 3 + [x_2] * 3
                                            + [x_12] * config['traces_cnt12'] * 3
                                            + [x_21] * config['traces_cnt21'] * 3
                                            + [x_heatmap] + [None] + [None]
                                    # для y1 и y2 нужно обренуть в список
                                    , 'y': [y_1] * 3 + [y_2] * 3 + y_12 * 3 +  y_21 * 3  + [y_heatmap] + [None] + [None]
                                    , 'name': [''] * 3 + [''] * 3 + name_12 * 3 +  name_21 * 3 + [''] + [''] + ['']
                }
        layout = {'xaxis': {'visible': False}, 'yaxis': {'visible': False}} if button_label in ['treemap', 'sankey'] \
            else {'xaxis': {'visible': True}, 'yaxis': {'visible': True}}
        layout = {**layout, 'height': 800} if button_label == 'sankey' \
            else {**layout, 'height': 600}
        visible = True if button_label in list(traces_lables_bar.keys()) + ['heatmap', 'treemap', 'sankey'] else False
        buttons.append(dict(label=traces_lables[button_label], method='update', args=[data, layout], visible=visible))
    
    buttons.append(dict(
        label='Bar',
        method='relayout',
        args=[{**{f'updatemenus[2].buttons[{i}].visible': True for i in range(4)}, **{f'updatemenus[2].buttons[{i}].visible': False for i in range(4, 12)}}]
    ))
    buttons.append(dict(
        label='Line',
        method='relayout',
        args=[{**{f'updatemenus[2].buttons[{i}].visible': False for i in list(range(4)) + list(range(8, 12))}, **{f'updatemenus[2].buttons[{i}].visible': True for i in range(4, 8)}}]
    )) 
    buttons.append(dict(
        label='Area',
        method='relayout',
        args=[{**{f'updatemenus[2].buttons[{i}].visible': False for i in range(8)}, **{f'updatemenus[2].buttons[{i}].visible': True for i in range(8, 12)}}]
    ))        

    
    return buttons

def update_layout(fig, buttons):
    fig.update_layout(
        updatemenus=[
             dict(
                type="buttons",
                direction="left",
                buttons=buttons[:4],  # first 3 buttons (Bar, Line, Area)
                pad={"r": 10, "t": 70},
                showactive=True,
                x=0,
                xanchor="left",
                y=1.05,
                yanchor="bottom"
            ),        
             dict(
                type="buttons",
                direction="left",
                buttons=buttons[4:14],  # first 3 buttons (Bar, Line, Area)
                pad={"l": 240, "r": 10, "t": 70},
                showactive=True,
                x=0,
                xanchor="left",
                y=1.05,
                yanchor="bottom"
            ),                 
            dict(
                type="buttons",
                direction="left",
                buttons=buttons[14:29],  # first 3 buttons (Bar, Line, Area)
                pad={"r": 10, "t": 70},
                showactive=True,
                x=0,
                xanchor="left",
                y=1.2,
                yanchor="bottom"
            ),   
            # dict(
            #     type="buttons",
            #     direction="left",
            #     buttons=buttons[21:25],  # first 3 buttons (Bar, Line, Area)
            #     pad={"r": 10, "t": 70},
            #     showactive=True,
            #     visible = False,
            #     x=0,
            #     xanchor="left",
            #     y=1.2,
            #     yanchor="bottom"
            # ),  
            # dict(
            #     type="buttons",
            #     direction="left",
            #     buttons=buttons[25:29],  # first 3 buttons (Bar, Line, Area)
            #     pad={"r": 10, "t": 70},
            #     showactive=True,
            #     visible = False,
            #     x=0,
            #     xanchor="left",
            #     y=1.2,
            #     yanchor="bottom"
            # ),           
            dict(
                type="buttons",
                direction="left",
                buttons=buttons[29:],  # first 3 buttons (Bar, Line, Area)
                pad={"l": 415, "r": 10, "t": 70},
                showactive=True,
                x=0,
                xanchor="left",
                y=1.2,
                yanchor="bottom"
            ),                              
            # dict(
            #     type="buttons",
            #     direction="left",
            #     buttons=buttons[17:20],  # first 3 buttons (Bar, Line, Area)
            #     pad={"l": 150, "r": 10, "t": 70},
            #     showactive=True,
            #     x=0,
            #     xanchor="left",
            #     y=1.2,
            #     yanchor="bottom"
            # ),   
            # dict(
            #     type="buttons",
            #     direction="left",
            #     buttons=buttons[20:23],  # first 3 buttons (Bar, Line, Area)
            #     pad={"l": 300, "r": 10, "t": 70},
            #     showactive=True,
            #     x=0,
            #     xanchor="left",
            #     y=1.2,
            #     yanchor="bottom"
            # ),   
            # dict(
            #     type="buttons",
            #     direction="left",
            #     buttons=buttons[23:],  # first 3 buttons (Bar, Line, Area)
            #     pad={"l": 480, "r": 10, "t": 70},
            #     showactive=True,
            #     x=0,
            #     xanchor="left",
            #     y=1.2,
            #     yanchor="bottom"
            # ),                                                                    
        ]
    )

config = {
    'df': df,
    'num_column_y': 'dob_years',
    'cat_columns': ['education', 'gender'],
    'cat_column_x': 'gender',
    'cat_column_color': 'education',
    'func': 'sum'
}
fig = create_figure(config)
buttons = create_buttons(config)
update_layout(fig, buttons)
fig.update_layout(height = 600
                 , title={'text': f"num = {config['num_column_y']}&nbsp;&nbsp;&nbsp;&nbsp; cat1 = {config['cat_columns'][0]}&nbsp;&nbsp;&nbsp;&nbsp; cat2 = {config['cat_columns'][1]}", 'y': 0.92}
                  , xaxis={'title': None}
                  , yaxis={'title': None}
                #   , margin=dict(l=50, r=50, b=50, t=70),
                  )
fig.show()
# # print(fig)
# chart_studio.tools.set_credentials_file(username="bestorlov1992", api_key="TOnnvREBwfkILt9ABEr5")
# # from jupyter to chart studio
# py.plot(fig, filename = "plot name", auto_open = True)

In [None]:
traces_visible = {'1b': [[False]], '1l': [[False]], '1a': [[False]], '2b': [[False]], '2l': [[False]], '2a': [[False]]
        , '12b': [[False] * config['traces_cnt12']], '12l': [[False] * config['traces_cnt12']], '12a': [[False] * config['traces_cnt12']]
        , '21b': [[False] * config['traces_cnt21']], '21l': [[False] * config['traces_cnt21']], '21a': [[False] * config['traces_cnt21']]
        ,'heatmap': [[False]], 'treemap': [[False]], 'sankey': [[False]]}
traces_visible_df = pd.DataFrame(traces_visible)
traces_lables = {'1b': '1', '2b': '2', '12b': '12', '21b': '21', 'heatmap': 'heatmap', 'treemap': 'treemap', 'sankey': 'sankey'}
traces_visible_df
# for button_label in traces_lables:
#         traces_visible_df_copy = traces_visible_df.copy()
#         traces_visible_df_copy[button_label] = traces_visible_df_copy[button_label].apply(lambda x: [True for _ in x])
#         visible_mask = [val for l in traces_visible_df_copy.loc[0].values for val in l]
#         print(visible_mask)
#         print()


In [None]:
import plotly.graph_objects as go
from plotly.offline import iplot

# Create a figure with a bar chart
fig = px.histogram(x=df['education'], y= df['dob_years'], color=df['gender'])

# Add a button to change the orientation
fig.update_layout(
    updatemenus=[
        go.layout.Updatemenu(
            active=0,
            buttons=list([
                dict(label='Vertical',
                      method='update',
                      args=['barmode', 'group']),
                dict(label='Horizontal',
                      method='update',
                      args=['barmode', 'stack']),
            ]),
            direction="down",
            pad={"r": 10, "t": 10},
            showactive=True,
            x=0.5,
            xanchor="left",
            y=1.1,
            yanchor="top"
        )
    ]
)

# Display the graph
iplot(fig)

In [None]:
visibles_list_for_traces ={'1': [True, False, False], '2': [True, False, False] * 3
                           , '12': [True] + config['traces_cnt12'] + [False] * 2 * config['traces_cnt12']
                           , '21': [True] + config['traces_cnt21'] + [False] * 2 * config['traces_cnt21']
                           , 'heatmap':  [True], 'treemap':  [True], 'sankey':  [True]}
for button_label in visibles_list_for_traces:
    mask = [True for _ in visibles_list_for_traces[button_label]]
    visible_mask = visibles_list_for_traces.copy()
    visible_mask[button_label] = mask
    # flat list
    visible_mask = [el for l in visible_mask.values() for el in l]
    print(visible_mask)
    print()
    buttons.append(dict(label=button_label, method='restyle', args=[{'visible': visible_mask
                                                                    , 'xaxis': {'visible': False}
                                                                    , 'yaxis': {'visible': False}
                                                                    }]))

In [None]:
buttons = []
visibles_list_for_traces = [False] * 3 + [False] * 3 \
                        + [False] * config['traces_cnt12'] \
                        + [False] * config['traces_cnt12'] + [False] * config['traces_cnt12'] \
                        + [False] * config['traces_cnt21'] \
                        + [False] * config['traces_cnt21'] + [False] * config['traces_cnt21'] \
                        + [False] + [False] + [False]
button_labels = {'1': 3, '2': 3, '12': 3 * config['traces_cnt12'], '21': 3 * config['traces_cnt21'], 'heatmap': 1, 'treemap': 1, 'sankey': 1}   
cnt_vissible = 0    
prev_cnt_vissible = 0    
for i, (button_label, n_traces) in enumerate(button_labels.items()):
    visibles_list_for_traces[prev_cnt_vissible] = False
    visibles_list_for_traces[cnt_vissible] = True
    prev_cnt_vissible =  cnt_vissible
    cnt_vissible = cnt_vissible + n_traces
    # print(visibles_list_for_traces)
    # print()
    # if i >4:
    #     break
    buttons.append(dict(label=button_label, method='restyle', args=[{'visible': visibles_list_for_traces
                                                            , 'xaxis': {'visible': False}
                                                            , 'yaxis': {'visible': False}
                                                            }]))
    

In [None]:
df.groupby(['education', 'gender'])[['dob_years']].sum().sort_values('dob_years', ascending=False)

In [None]:
treemap(df, ['education', 'gender'], 'dob_years')

In [None]:
print(treemap(df, ['education', 'gender'], 'dob_years').data[0])

In [None]:
print(treemap(df, ['education', 'gender'], 'dob_years'))

In [None]:
func = 'sum'
cat_column = 'education'
num_column = 'dob_years'
func = lambda x: x.mode()[0]
# df[[cat_column, num_column]].groupby(cat_column).agg({num_column: lambda x: x.mode().iloc[0]}).reset_index().sort_values(num_column, ascending=False) #['dob_years']
df[[cat_column, num_column]]\
                .groupby(cat_column) \
                .agg(num = (num_column, func), modes = (num_column, lambda x: '')) \
                .reset_index() \
                .sort_values('num', ascending=False).rename(columns={'num': num_column})
                                    
                    

In [38]:
import plotly.io as pio
import plotly.graph_objects as go

colorway_for_line=['rgb(127, 60, 141)', 'rgb(17, 165, 121)', 'rgb(231, 63, 116)', '#03A9F4', 'rgb(242, 183, 1)'
          , '#8B9467', '#FFA07A', '#005A5B', '#66CCCC', '#B690C4']
colorway_for_bar = ['rgba(128, 60, 170, 0.9)', '#049CB3', '#84a9e9', '#B690C4',
                    '#5c6bc0', '#005A5B', '#63719C', '#03A9F4', '#66CCCC', '#a771f2']
# default setting for Plotly
# for line plot
pio.templates["custom_theme_for_line"] = go.layout.Template(
    layout=go.Layout(
        colorway=colorway_for_line
    )
)
# pio.templates.default = 'simple_white+custom_theme_for_line'
# for bar plot
pio.templates["custom_theme_for_bar"] = go.layout.Template(
    layout=go.Layout(
        colorway=colorway_for_bar
    )
)
pio.templates.default = 'simple_white+custom_theme_for_bar'

# default setting for Plotly express
px.defaults.template = "simple_white"
px.defaults.color_continuous_scale = color_continuous_scale = [
    [0, 'rgba(0.018, 0.79, 0.703, 1.0)'],
    [0.5, 'rgba(64, 120, 200, 0.9)'],
    [1, 'rgba(128, 60, 170, 0.9)']
]
# px.defaults.color_discrete_sequence = colorway_for_line
px.defaults.color_discrete_sequence = colorway_for_bar
# px.defaults.color_discrete_sequence =  px.colors.qualitative.Bold
# px.defaults.width = 500
# px.defaults.height = 300


In [100]:
def plotly_default_settings(fig):
    fig.update_layout(
        title_font=dict(size=24, color="rgba(0, 0, 0, 0.6)"),
        title={'text': f'<b>{fig.layout.title.text}</b>'},
        font=dict(size=14, family ="Lora", color="rgba(0, 0, 0, 1)"),  # Для подписей и меток
        xaxis_title_font=dict(size=18, color="rgba(0, 0, 0, 0.5)"),
        yaxis_title_font=dict(size=18, color="rgba(0, 0, 0, 0.5)"),
        xaxis_tickfont=dict(size=14, color="rgba(0, 0, 0, 0.5)"),
        yaxis_tickfont=dict(size=14, color="rgba(0, 0, 0, 0.5)"),
        xaxis_linecolor="rgba(0, 0, 0, 0.5)",
        # xaxis_linewidth=2,
        yaxis_linecolor="rgba(0, 0, 0, 0.5)",
        # yaxis_linewidth=2
        margin=dict(l=50, r=50, b=50, t=70), 
        hoverlabel=dict(bgcolor="white")
    )

In [197]:
importlib.reload(my_module)

<module 'my_module' from 'c:\\Git\\Projects\\Исследование надёжности заёмщиков\\my_module.py'>

In [106]:
import dash
from dash import dcc, html
from dash.dependencies import Input, Output
import plotly.express as px
import pandas as pd

### 4 Формулирование и провера гипотез

Подход следуюищй - мы до раздела проверка гипотез, когда изучаем данные (разделы пропусков, выбросов, дубликатов, зависиместей между перменными и графики),  
то мы делаем выводы и формируем наблюдеия.  
Вот эти наблюдения и выводы нужно проверить в проверке гипотез.  
И потом в основном выводе уже писать не просто, что у нас мужчин больше чем женьшин, а писать, что на уровен значисомти таком то у нас мужчина больше чем  
женщин с таким то доверительным интервалом.  
Таким образом выводы по вомзожности должны проходить через этап проверки гипотез, тогда эти выводы становятся более существенными.  

- Гипотезы появляются, когда мы задаем вопросы данным. Мы изучили данные, преобработали и теперь начинаем задавать вопросы.  
- Выдвигаем гипотезу (заметили что-то необычное и хотим проверить), далее формулируем ее и далее проверяем.  
- Не забываем формулировать гипотезы словами. Пишем что является гипотезой H0, а что гипотезой H1  
- Формулируем все гипотезы, которые хотим проверить. Если будет 100 гипотез, то все 100 нужно сформулировать и потом проверить и сделать вывод.  
- Гипотезы могут быть и простыми вопросами без гипотез H0 и H1, такие гипотезы мы проверяем графиками или анализируя таблицу.  
- Восновном, когда мы собиаремся применить стат аппарат для проверки гипотезы, то мы должны записать ее через H0 и H1.  

Алгоритм проверки статистических гипотез

- постановка задачи
    - Сформулировать, что мы хотим узнать о выборках с точки зрения бизнес задачи (равны ли средние доходы в группах)
- формулировка гипотез
    - перевод бизнес-вопроса на язык статистики: средний доход в группах - проверка равенства средних значений
    - формулировка нулевой гипотезы - с т.зр. равенства стат прараметров оцениваемых выборок   
    (Н0: Средние траты клиентов по группе А равны средним тратам клинентов по группе В)
    - формулировка альтернативной гипотезы - с точки зрения неравенства параметров  
    (Н1: Средние траты клиентов по группе А не равны средним тратам клинентов по группе В)
- выбор критерия alpha (почему 0.05 или 0.01)
    - цена ошибки первого рода (при большой цене ошибки - в мед исследованиях, потенциальном ущербе ) - значение может быть больше, например 0.1
    - в ежедневных бизнес задачах, обычно - 0.05
- анализ распределения
    - визуальная оценка
    - следим за выбросами
    - проверка гипотез о типе распредеделения (например критерий Шапиро-Уилка)
    - если распределение не нормальное и размер выборки достаточный (больше 30-50 элементов)  
    может быть использован t-test именно для проверки гипотезы о равенстве средних.  
    Согласно ЦПТ (центральная предельная теорема) средние этих выборок будут распределены нормально. См. статью Зотова
- выбор критерия
    - при оценке равенства средних T-test или Welch T-test (если есть сомнения, то лучше Уэлча)
        - при рвенстве дисперсий используем обычный т тест
        - если дисперсии в выборках разные, то используем т теста Уэлча
- получение результата
    - расчет p-value
- интерпретация p-value
    - сравнение p-value и alpha
    - если альфа > p-value - отвергаем нулевую гипотезу
    - если альфа < p-value - не можем отвергнуть нулевую гипотезу

### Промежуточный вывод

### Примеры гипотез

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

### Расчеты

Важно следить за количеством недель в году, если мы создаем столбец месяца.  
Проверять чтобы у нас не появлялась неделя дополнительная, из за того, что мы захватили предыдущий год

### Промежуточный вывод

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

### Промежуточный вывод

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

### Промежуточный вывод

- Как разные цели кредита влияют на его возврат в срок?

### Вывод

### 4. Общий вывод

Что нужно сообщить в выводе
- информацию о том, что удалось подтвердить гипотезы (тут пишем только те, которые удалось подтвердить)
- всю информацию о датасете, которые важны. Дубликаты, которые несут практическую пользу и рекомендации по ним, пропуски также с рекомендациями  
и остальные моменты по данным и рекомендации. Тут важно указывать именно найденные аномалии, которые имеют практическую пользу, которые нужно исправить и прочее.  
Пишем, что были найдены выбросы, они были связаны возможно с тем то и тем то. 
- и в конце обязательно call to action 
написать что необходимо сделать с этими результатами

Советы по оформлению общего выывод
- не нужно вставлять таблицы и графики в вывод. 
В выводе пишем словами самое важное и практически полезное, что мы получили, причем в порядке убывания важности.  
И когда мы пишем, что увидели то-то, то приводим гиперссылку на график или результат ячейки, где это получено.  
Так будет компактный вывод и при необходимости человек сможет быстро перейти и посмотреть график или таблицу  

**Удалось подтвердить гипотезу** о влиянии различных характеристик клиента на факт погашения кредита в срок. Каждый из рассмотренных параметров оказывает влияние на надёжность заёмщика. Рассмотренные факторы по-разному влияют на надёжность заёмщиков. Например, семейное положение оказалось более значимым фактором, чем уровень дохода.


- В ходе анализа исходного набора данных было проведено (были устранены пропуски в двух колонках с числовыми значениями - 'total_income' и 'days_employed').  
- После __устранения явных и скрытых дупликатов__ и удаления оставшихся после обогащения пропусков объем датасета сократился на 0.05%
- Были устранены __выбросы__ в колонках 'days_employed' и 'children': в первом случае выбросы возникли в результате системной ошибки (данные были внесены в часах, а не в днях); во втором случае ошибка, вероятнее всего была допущена людьми, вносившими данные в систему
- ...

**Необходимо**

1. Запросить в отделе по работе с клиентами информацию о возможности брать кредит без подтверждения дохода. 

2. Сообщить коллегам, занимающимся выгрузкой о наличие дубликатов, если вопрос не разрешится, запросить индентификационный номер клиента к датасету.

3. Прописать в задаче на поставку данных формат данных (пол только F и M, положительные значения). Приложить информацию о найденных аномалиях.