<font size="3">
Надежность клиента. 
Влияние социального статуса заемщика на способность погашения кредита.

Описание.
--

   Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку. Работа будет проводиться на данных банковской организации, которые помогут ответить на некоторые вопросы. Конкретно, это статистика о платёжеспособности клиентов. Рзульат данного исследования поможет ответить на актуальные запросы бизнеса в финасовом секторе.

Цель иследования.
--

   Подтвердить следующие гипоезы с помощью анализа даных:
1. Есть ли зависимость между количеством детей и возвратом кредита в срок?
2. Есть ли зависимость между семейным положением и возвратом кредита в срок?
3. Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
4. Как разные цели кредита влияют на его возврат в срок?

Ход исследования. 
--

Данные о клиентах получим из файла data.csv, качество которых необходимо проверить. Сделаем обзор информации, прежче чем приступать к подтверждению гипотиз. Проверим данные на ошибки, пропуски, дупликаты, и оценим их влияние на исследование. Затем, на этапе предобработки внесем изменения и исправим самые критичные ошибки. Ответы будут сопровождены интерпритацией - пояснением, о чём именно говорит полученный результат. 
    
   Таким образом, исследование резделено на несколько этапов:
- Обзор данных
- Предобработка данных
- Исследование данных и ответы на вопросы
- Вывод


Что важно учесть при выполнении проекта?
--

Как известно данные не идельны. Во время загрузки, преоразования из одного формата в другой могут возникнуть технологические 
ошибки. Так же во время наполнения базы данных сотрудники банка могли допустить различные опечатки, либо перепутать переменные в столбцах, ведь человеческий фактор присутствует в любой сфере. Поэтому для качественного выполнения проекта необходимо основательно сделать предобработку данных и обратить внимание на следующие моменты:

1. Детально описать найденные в данных проблемы.
2. Применить различные методы: замену типов данных, обработку пропусков случайных, неслучайных и полностью случайных, обработку явных и не явных дубликатов.
3. Использовать категоризацию данных.
4. Применить четкую  структуру проекта и придерживаться хорошего стиля при написании кода.
5. Обозначить выводы по этапам.
6. Кратко комментировать шаги.

Обзор данных.
--


**Задание 1.** Составим первое представление о банковских данных. Загрузим статистику платёжеспособности.

In [1]:
import pandas as pd
try:
    data = pd.read_csv('C:\\Users\\ripzo\\Desktop\\Data Science\\Practicum\\Sprint 6\\data.csv')
except:
    data = pd.read_csv('data.csv')

**Задание 2.** Выведем первые 20 строк.

In [2]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Задание 3.** Выведем основную информацию о датафрейме.

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


В представленной таблице есть колонки, которые имеют следующее значение:
```
   children — количество детей в семье,
   days_employed — общий трудовой стаж в днях,
   dob_years — возраст клиента в годах,
   education — уровень образования клиента,
   education_id — идентификатор уровня образования,
   family_status — семейное положение,
   family_status_id — идентификатор семейного положения,
   gender — пол клиента,
   income_type — тип занятости,
   debt — имел ли задолженность по возврату кредитов,
   total_income — ежемесячный доход,
   purpose — цель получения кредита.
```

После просмотра ясно следующее:

- количество ненулевых (non-null) значений в столбцах *days_employed* и *total_income* отличается, присутствуют пропуски.
- в колонке *days_employed* есть отрицательные значения,
- в колонке *education* буквы заглавные и строчные,
- в колонке *children* встречаются аномальные значения,
- в колонке *total_income* большое количество символов после запятой,
- в датасете присутствуют дупликаты.

**Вывод.** Определенно есть различные ошибки, которые могут исказить рзультаты исследования. Предобработке данных быть.

Предобработка данных.
--

Подготовка данных для анализа называется предобработкой. Необходимо найти проблемы в данных, оценить их масштаб и 
устранить. Предобработка следует принципу GIGO (от англ. garbage in — garbage out, буквально «мусор на входе — мусор на выходе»). Это значит, что при ошибках во входных данных даже правильный алгоритм работы приведёт к неверным результатам.

### Удаление пропусков

**Задание 4.** В обзорной части проекта обнаружили различные ошибки в категоильных и количественных данных, их нужно исправить. 
В первую очередь исправим пропуски, они присутствуют в двух столбцах, *days_employed* и *total_income*. Выведем количество пропущенных значений для каждого столбца, комбинируем 2 метода.

In [4]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**Задание 5.** В двух столбцах *days_employed* и *total_income* есть пропущенные значения. Столбец *total_income* 
отвечает за доход в месяц. На эту сумму сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца *income_type*. Например, у человека с типом занятости сотрудник пропуск в столбце *total_income* должен быть заполнен медианным доходом среди всех записей с тем же типом. Для наглядности выведем на экран информацию, в каком типе занятости присутствуют пропуски.

In [5]:
# переменная для группировки и агрегации данных
data_isna = (
    data[data['total_income'].isna()]
    .groupby('income_type')
    .agg({'total_income': ['median']})
)
data_isna['total_income']['median']

income_type
госслужащий       NaN
компаньон         NaN
пенсионер         NaN
предприниматель   NaN
сотрудник         NaN
Name: median, dtype: float64

Для замены пропусков используем метод `fillna()`. Далее перезаписываем датафрейм с заданными инструкциями.

In [6]:
# в аргументе метода сочетаются методы группировки и трансформации.
data['total_income'] = (
    data['total_income']
    .fillna(data.groupby('income_type')['total_income'].transform('median'))
)

### Обработка аномальных значений

**Задание 6.** В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и 
появились по какой-то ошибке. Таким артефактом будет отрицательное количество дней трудового стажа в столбце *days_employed*. Для реальных данных это нормально. Аномалия, скорее всего, возникла при сохранении или выгрузке данных. Чтобы её исправить, нужно заменить отрицательные значения положительными. Применив метод `abs()` к столбцу датафрейма, можно получить новый столбец, в котором все значения станут неотрицательными. Метод вернёт абсолютное значение каждого числа. Обработаем значения в этом столбце и провери результат.

In [7]:
data['days_employed'] = data['days_employed'].abs() 
data['days_employed']

0          8437.673028
1          4024.803754
2          5623.422610
3          4124.747207
4        340266.072047
             ...      
21520      4529.316663
21521    343937.404131
21522      2113.346888
21523      3112.481705
21524      1984.507589
Name: days_employed, Length: 21525, dtype: float64

**Задание 7.** Для каждого типа занятости выведем медианное значение трудового стажа в днях.

In [8]:
# группировка в сочетании с методом медианы
data.groupby('income_type')['days_employed'].median()

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

У двух типов (безработные и пенсионеры) получатся аномально большие значения, оставим их как есть.

**Задание 8.** Выведем перечень уникальных значений столбца *children.*

In [9]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

**Задание 9.** В столбце *children* есть два аномальных значения. Удалим строки, в которых встречаются такие значения из датафрейма и 
проверим результат.

In [10]:
# логическая индексаия с разными условиями
data = data[(data['children'] != -1) & (data['children'] != 20)] 

**Задание 10.** Ещё раз вывеем перечень уникальных значений столбца *children*, чтобы убедиться в отсутствии артефактов.

In [11]:
data['children'].unique()

array([1, 0, 3, 2, 4, 5], dtype=int64)

### Удаление пропусков (продолжение)

**Задание 11.** Аналогично замене пропусков в столбце *total_incom* используем метод `fillna()` и заполним пропуски в столбце 
*days_employed*. Далее перезаписываем датафрейм с заданными инструкциями и роверим результат.

In [12]:
# в аргументе метода сочетаются методы группировки и трансформации. 
data['days_employed'] = (
    data['days_employed']
    .fillna(data.groupby('income_type')['days_employed'].transform('median'))
)
data.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Изменение типов данных

**Задание 13.** Заменим вещественный тип данных в столбце total_income на целочисленный с помощью метода `astype()`.

In [13]:
data['total_income'] = data['total_income'].astype('int')

### Обработка дубликатов

**Задание 14.** Обработаем неявные дубликаты в столбце *education*. В этом столбце есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Приведем их к нижнему регистру и проверим.

In [14]:
data['education'] = data['education'].str.lower()
data['education'].unique()

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

В столбце *family_status* есть категория клиентов *Не женат / не замужем*. По отношения к другим группам 
название категории отличается по регистру. Отформатируем название как строчные буквы, проверим резульат.

In [15]:
data['family_status'] = data['family_status'].str.lower()
data['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'не женат / не замужем'], dtype=object)

**Задание 15.** Выведем на экран количество строк-дубликатов в данных.

In [16]:
data.duplicated().sum()

71

In [17]:
# Присутствуют дупликаты, удалим их
data = data.drop_duplicates()

Сбрасывать индексы после удаления строк дубликатов с помощью `reset_index(drop=True)` здесь не требуется.

### Категоризация данных

**Задание 16.** На основании диапазонов, указанных ниже, создадем в датафрейме столбец *total_income_category* с категориями:
- 0–30000 — 'E';
- 30001–50000 — 'D';
- 50001–200000 — 'C';
- 200001–1000000 — 'B';
- 1000001 и выше — 'A'.

Например, гражданину с доходом 25000 нужно назначить категорию 'E', а клиенту, получающему 235000, — 'B'. 
Используем собственную функцию с именем `categorize_income()` и применим метод `apply()` для создания стобца с категорями.

In [18]:
def categorize_income(row):
    if  0 < row <= 30000:
        return 'E'
    elif 30001 <= row <= 50000:
        return 'D'
    elif 50001 <= row <= 200000:
        return 'C'
    elif 200001 <= row <= 1000000:
        return 'B'
    elif row >= 1000001:
        return 'A'

Следующим этапом создаем новый столбец *total_income_category* в таблице и поместим в него результат работы метода 
`apply(categorize_purpose)` и созданной функции.

In [19]:
data['total_income_category'] = data['total_income'].apply(categorize_income)

**Задание 17.** Выведем на экран перечень уникальных целей взятия кредита из столбца *purpose*.

In [20]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

**Задание 18.** Создаем функцию, которая на основании данных из столбца *purpose* сформирует новый столбец *purpose_category*, куда войдут 
следующие категории:
- 'операции с автомобилем',
- 'операции с недвижимостью',
- 'проведение свадьбы',
- 'получение образования'.

Например, если в столбце *purpose* находится подстрока *'на покупку автомобиля'*, то в столбце *purpose_category* должна появиться строка *'операции с автомобилем'*. Используем собственную функцию с именем `categorize_purpose()` и метод `apply()`. Изучиим данные в столбце *purpose* и определим, какие подстроки помогут правильно определить категорию.

Описание работы функции `categorize_purpose(row)`. 
1. Задаем название с одним параметром `row` (строка)
2. В теле функции описываем работу с логическим оператором
3. Если ключевое слово *'авто'* встречается в строке, функция возвращает категорию *'операции с автомобилем'*
4. Кроме, если ключевое слово *'жиль'* встречается в строке или ключевое слово *'недвижимос'* встречается в строке, функция возвращает категорию *'операции с недвижимостью'*
5. Кроме, если ключевое слово *'свадьб'* встречается в строке, функция возвращает категорию *'проведение свадьбы'*
6. Кроме, если ключевое слово *'образовани'* встречается в строке, функция возвращает категорию *'получение образования'*

In [21]:
def categorize_purpose(row):
    if 'авто' in row:
        return 'операции с автомобилем'
    elif 'жиль' in row or 'недвижимос' in row:
        return 'операции с недвижимостью'
    elif 'свадьб' in row:
        return 'проведение свадьбы'
    elif 'образовани' in  row:
        return 'получение образования'

Следующим этапом сздаем новый столбец *purpose_category* в таблице и помещаем в него результат работы метода 
`apply(categorize_purpose)` и созданной функции.

In [22]:
data['purpose_category'] = data['purpose'].apply(categorize_purpose)

Категизация по заданным условиям в датасете сделана с помощью собственной функции и метода `apply()`. Для проверки 
результата выполним поиск по ключевому слову методом `str.contains()` и выведем первые 10 строк.

In [23]:
data[data['purpose'].str.contains('недвижимост')].head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
10,2,4171.483647,36,высшее,0,женат / замужем,0,M,компаньон,0,113943,покупка недвижимости,C,операции с недвижимостью
11,0,792.701887,40,среднее,1,женат / замужем,0,F,сотрудник,0,77069,покупка коммерческой недвижимости,C,операции с недвижимостью
14,0,1844.956182,56,высшее,0,гражданский брак,1,F,компаньон,1,165127,покупка жилой недвижимости,C,операции с недвижимостью
15,1,972.364419,26,среднее,1,женат / замужем,0,F,сотрудник,0,116820,строительство собственной недвижимости,C,операции с недвижимостью
16,0,1719.934226,35,среднее,1,женат / замужем,0,F,сотрудник,0,289202,недвижимость,B,операции с недвижимостью
17,0,2369.99972,33,высшее,0,гражданский брак,1,M,сотрудник,0,90410,строительство недвижимости,C,операции с недвижимостью
20,1,1311.604166,36,среднее,1,женат / замужем,0,M,сотрудник,0,209552,недвижимость,B,операции с недвижимостью
24,1,338551.952911,57,среднее,1,не женат / не замужем,4,F,пенсионер,0,290547,операции с коммерческой недвижимостью,B,операции с недвижимостью
25,0,363548.489348,67,среднее,1,женат / замужем,0,M,пенсионер,0,55112,покупка недвижимости,C,операции с недвижимостью
27,0,529.191635,28,высшее,0,женат / замужем,0,M,сотрудник,0,308848,строительство собственной недвижимости,B,операции с недвижимостью


Результат соответствует заданным условиям категоризации и имеет четкую структуру.

Исследование данных и ответы на вопросы
--

**Задание 19.** Есть ли зависимость между количеством детей и возвратом кредита в срок?

Чтобы ответить на этот вопрос, необходимо рассмотреть следующие столбцы: *children* и *debt*. В представленном датафрейме 
в стлбце *debt* цифра 0 означает, что клиент вернул кредит в срок. Значит необходимо сгруппировать данные по количеству детей и посчитать конверсию, то есть отношение вернувших кредит вовремя к общему числу заемщиков в каждой грппе.

In [29]:
# общее количество кредитов в каждой группе
count_debt_children = data.groupby('children')['debt'].count()

# количество возврата кредитов в срок
okay_debt_children = (
    (data.loc[data['debt'] == 0])
    .groupby('children')['debt']
    .count()
)

# отношение вернувших кредит вовремя к общему числу заемщиков
# и метод округления десятичного числа до одного знака, аргумент после запятой
conversion_debt_children = round(
    okay_debt_children / count_debt_children * 100, 
    1
)

# создаем переменную для отображения групп клиентов с конверсией
result_debt_children = pd.DataFrame({
    'count_debt_children': count_debt_children,
    'okay_debt_children': okay_debt_children,
    'conversion_debt_children': conversion_debt_children
})

# сортировка по убыванию в столбце conversion_children
result_debt_children = result_debt_children.sort_values(
    by='conversion_debt_children', 
    ascending=False
)

# применение стилей для вывода таблицы здесь.
styled_result_debt_children = result_debt_children.style.set_table_styles(
    [{'selector': 'th', 'props': [('text-align', 'left')]}]
)

styled_result_debt_children

Unnamed: 0_level_0,count_debt_children,okay_debt_children,conversion_debt_children
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
5,9,9,100.0
0,14091,13028,92.5
3,330,303,91.8
1,4808,4364,90.8
2,2052,1858,90.5
4,41,37,90.2


Полсе расчета конверсии возврата кредита ясно:
- самые надежные клиенты без детей;
- судя по таблице выше в группах с тремя, четырьмя, и пятью детьми количество кредитов очень маленькое. Даже если объеденить их в группу, как многодетные семьи, количество составит всего 380 кредитов. Для адекватного анализа данных такое количество является нерепрезентативным, всего 1.78% от общего количества заемщиков;
- худший результат у клиентов с четырмя детьми.

**Вывод.** Четко выделются клиенты с пятью детьми, у них 100% возврат кредита в срок. Но, так как количество этих клиентов очень маленькое, около 0.0004% от всего числа заемщиков, использовать их для анализа не рационально. В остальных группах резултьтат метрики нажедности находится в диапазоне 90.2-92.5%. Клиенты без детей чаще всего берут кредит и составляют 66% от общего числа заемщиков. В других группах клиенты берут кредиты значительно меньше, но и выплачивают долг хуже. Учитывая факты из анализа сделаем вывод, что зависимость между количеством детей и возвратом кредита в срок определенно есть.

**Задание 20.** Есть ли зависимость между семейным положением и возвратом кредита в срок?

Чтобы ответить на этот вопрос, необходимо рассмотреть следующие столбцы: *family_status* и *debt*. В представленном 
датафрейме в стлбце *debt* цифра 0 означает, что клиент вернул кредит в срок. Значит необходимо сгруппировать данные по семейному положению и посчитать конверсию, то есть отношение вернувших кредит вовремя к общему числу заемщиков в каждой грппе.

In [25]:
# общее количество кредитов в каждой группе
count_debt_family = data.groupby('family_status')['debt'].count()

# количество возврата кредитов в срок
okay_debt_family = (
    data.loc[data['debt'] == 0]
).groupby('family_status')['debt'].count() 

# отношение вернувших кредит вовремя к общему числу заемщиков
# и метод округления десятичного числа до одного знака, аргумент после запятой
conversion_debt_family = round(okay_debt_family / count_debt_family * 100, 1)

# создаем переменную для отображения групп клиентов с конверсией
result_debt_family = pd.DataFrame({
    'count_debt_family': count_debt_family,
    'okay_debt_family': okay_debt_family,
    'conversion_debt_family': conversion_debt_family
})

# сортировка по убыванию в столбце conversion_children
result_debt_family = result_debt_family.sort_values(
    by='conversion_debt_family', 
    ascending=False
) 

# применение стилей для вывода таблицы
styled_result_debt_family = result_debt_family.style.set_table_styles(
    [{'selector': 'th', 'props': [('text-align', 'left')]}]
)

styled_result_debt_family

Unnamed: 0_level_0,count_debt_family,okay_debt_family,conversion_debt_family
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
вдовец / вдова,951,888,93.4
в разводе,1189,1105,92.9
женат / замужем,12261,11334,92.4
гражданский брак,4134,3749,90.7
не женат / не замужем,2796,2523,90.2


Полсе расчета конверсии возврата кредита ясно следующее:

- самый надежны клиент из группы *вдовец / вдова*.
- худший результат у клиентов из группы *не женат / не замужем*

**Вывод.** Метрика надежности находится в диапазоне 90,2-93,4%. Учитывая, что уровень долговой нагрузки населения России перед банками около 24 трлн рублей разница между группами клиентов в 3.2% имеет большое значение. Поэтому зависимость между семейным положением и возвратом кредита в срок есть.

**Задание 21.** Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

Чтобы ответить на этот вопрос, необходимо рассмотреть следующие столбцы: *total_income_category* и *debt*. Методика 
расчета аналогична предыдущим расчетам. Необходимо сгруппировать данные по ежемесячному доходу и посчитать конверсию, то есть отношение вернувших кредит вовремя к общему числу заемщиков в каждой грппе.

In [26]:
# общее количество кредитов в каждой группе
count_debt_income = data.groupby('total_income_category')['debt'].count()

# количество возврата кредитов в срок
okay_debt_income = (
    data.loc[data['debt'] == 0]
).groupby('total_income_category')['debt'].count() 

# отношение вернувших кредит вовремя к общему числу заемщиков
# в паре с методом округления десятичного числа до одного знака, 
# аргумент после запятой
conversion_debt_income = round(okay_debt_income / count_debt_income * 100, 1)

# создаем переменную для отображения групп клиентов с конверсией
result_debt_income = pd.DataFrame({
    'count_debt_income': count_debt_income,
    'okay_debt_income': okay_debt_income,
    'conversion_debt_income': conversion_debt_income
})

# сортировка по убыванию в столбце conversion_children
result_debt_income = result_debt_income.sort_values(
    by='conversion_debt_income', 
    ascending=False
) 

# применение стилей для вывода таблицы
styled_result_debt_income = result_debt_income.style.set_table_styles(
    [{'selector': 'th', 'props': [('text-align', 'left')]}]
)

styled_result_debt_income

Unnamed: 0_level_0,count_debt_income,okay_debt_income,conversion_debt_income
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
D,349,328,94.0
B,5014,4660,92.9
A,25,23,92.0
C,15921,14568,91.5
E,22,20,90.9


Полсе расчета конверсии возврата кредита ясно следующее:

- самые надежные клиенты из группы с месячным доходом от 30 000р до 50 000р.
- худший результат у клиентов из группы с месячным доходом до 30 000р.

**Вывод.** Метрика надежности находится в диапазоне 90.9 - 94%. Разница между группами клиентов в 3.1% имеет большое значение. Даже клиенты с уровнем дохода выше 1 млн рублей не отличаются надежноестью и имеют средний результат среди групп. Самая массовая группа заемщиков с уровнем дохода 50 000 - 200 000 рублей не отличается высоким процентом возврата. Интересно, что количество должников с суммой займа 200 000 – 1 000 000 рублей в 3 раза меньше, чем самая массовая группа клиентов, но метрика надежности у них выше на 1.4%. Судя по представленным банковским данным и анализу зависимость между уровнем дохода и возвратом кредита в срок есть.

**Задание 22.** Как разные цели кредита влияют на его возврат в срок?

Чтобы ответить на этот вопрос, необходимо рассмотреть следующие столбцы: *purpose_category* и *debt*. Методика 
расчета аналогична предыдущим расчетам. Необходимо сгруппировать данные по цели получения кредита и посчитать конверсию, то есть отношение вернувших кредит вовремя к общему числу заемщиков в каждой грппе.

In [27]:
# общее количество кредитов в каждой группе
count_debt_purpose = data.groupby('purpose_category')['debt'].count()

# количество возврата кредитов в срок
okay_debt_purpose = (
    data.loc[data['debt'] == 0]
).groupby('purpose_category')['debt'].count() 

# отношение вернувших кредит вовремя к общему числу заемщиков
# и метод округления десятичного числа до одного знака
conversion_debt_purpose = round(okay_debt_purpose / count_debt_purpose\
                                * 100, 1)

# создаем переменную для отображения групп клиентов с конверсией
result_debt_purpose = pd.DataFrame({
    'count_debt_purpose': count_debt_purpose,
    'okay_debt_purpose': okay_debt_purpose,
    'conversion_debt_purpose': conversion_debt_purpose
})

# сортировка по убыванию в столбце conversion_children
result_debt_purpose = result_debt_purpose.sort_values(
    by='conversion_debt_purpose', 
    ascending=False
) 

# применение стилей для вывода таблицы
styled_result_debt_purpose = result_debt_purpose.style.set_table_styles(
    [{'selector': 'th', 'props': [('text-align', 'left')]}]
)

styled_result_debt_purpose

Unnamed: 0_level_0,count_debt_purpose,okay_debt_purpose,conversion_debt_purpose
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с недвижимостью,10751,9971,92.7
проведение свадьбы,2313,2130,92.1
операции с автомобилем,4279,3879,90.7
получение образования,3988,3619,90.7


Полсе расчета конверсии возврата кредита ясно следующее:

1. Самые надежные клиенты из группы с целью *операции с недвижимостью.*
2. Худший результат у клиентов из группы *операции с автомобилем* и *получение образования*

**Вывод.** Метрика находится в диапазоне 90.7 - 92.7%, все группы клиентов отличаются по количеству кредитов незначительно. Но выделяются клиенты занимающие деньги для операций с недвижимостью. У них самое вольшое количество заявок и лучший процент надежности. Представленные группы являются репрезентабельными выборками. Значит, разные цели кредита не значительно влияют на его возврат в срок.

**Задание 23.** Приведите возможные причины появления пропусков в исходных данных.

Как известно данные не идельны. Пропуски в датасете от банка возможно появились по нескольком причинам: клиент не имеет 
трудового стажа, либо в анкете пустые строки с доходом и стажем. Еще во время загрузки, преобразования из одного формата в другой могут возникнуть технологические 
ошибки. Так же во время наполнения базы данных сотрудники банка могли допустить различные опечатки, либо перепутать переменные в столбцах, ведь человеческий фактор присутствует в любой сфере.

**Задание 24.** Объясните, почему заполнить пропуски медианным значением — лучшее решение для количественных переменных.

Удаление строк с пропущенными значениями чревато потере важной информации, поэтому самыq оптимальный вариант заполять 
пропуски медианным значением. В представленном датасете есть значения, которые очень сильно отличаются от остальных. Если использовать среднее значение для заполнения пропусков они сдвинут результат в свою сторону. Поэтому пропуски оптимальнее заполнять медианными значениями.

Вывод
--


В проектной работе изучили общую информацию о датасете. Исправили различные ошибки, аномалии, дупликаты, пропуски.
Исследуя представленные банковские данные определили ключевую метрику надежности для различных категорий клентов и получили следующий результат:

1. Количеством детей в семье. Метрика нажедности находится в диапазоне 100% - 92.5%. Четко выделются клиенты с пятью детьми, у них 100% возврат кредита в срок. Но, если создать отдельную группу для многодетных семей, количество составит всего 380 кредитов. Для адекватного анализа данных такое количество является нерепрезентативным, всего 1.78% от общего количества заемщиков. Поэтому значимый результат в группе без детей. Такие клиенты чаще всего берут кредит, что составляет 66% от общего числа заемщиков, а по метрике уступают только клиентам с пятью детьми.

2. Семейное положение. Метрика нажедности находится в диапазоне 90,2-93,4%. Самые надежные клиенты из группы *вдовец / вдова*. Учитывая, что уровень долговой нагрузки населения России перед банками около 24 трлн рублей разница между группами клиентов в 3.2% имеет большое значение. Поэтому семейное положение влияет на возврат кредита в срок.

3. Уровнень дохода. Метрика надежности находится в диапазоне 90.9 - 94%. Самые надежные клиенты из группы с месячным доходом 30 000 - 50 000 рублей. Даже клиенты с уровнем дохода выше 1 млн рублей имеют средний результат в группе. Самая массовая группа заемщиков с уровнем дохода 50 000 - 200 000 рублей не отличается высоким процентом возврата. А количество должников с суммой займа 200 000 – 1 000 000 рублей в 3 раза меньше, чем самая массовая группа клиентов, но метрика надежности у них выше на 1.4% по сравнению с самой массовой группой. Судя по представленным банковским данным и анализу уровнь дохода влияет на возврат кредита в срок. Разница между группами в 3.1% имеет большое значение.

Обращаем внимание на представленные категории месячного дохода клиентов, они крайне несбалансированны. Для качественного анализа необходимо равное количество заемщиков в каждой группе, по 5 332 чееловек, например выборки могут выглядеть так:
- до 107 620 рублей
- от 107 620 до 142 594 рублей
- от 142 594 до 195 818 рублей
- от 195 818 рублей и выше.

5. Цель кредита. Метрика находится в диапазоне 90.7 - 92.7%, все группы клиентов отличаются по количеству кредитов незначительно. Но выделяются клиенты, занимающие деньги для операций с недвижимостью. У них самое вольшое количество заявок и лучший процент надежности. Представленные группы являются репрезентабельными выборками, значит разные цели не влияют на возврат кредита в срок.

6. На основе полученной метрики выделим заемщиков с худшим результатом невозврата кредита:

- в категории с количеством детей - клиенты с четырьмя детьми,
- в категории семейное положение - клиенты с статусом *не женат / не замужем*. 
- в категории уровнень дохода - у клиентов с месячным доходом до 30 000 рублей. Клиент допускает просрочку, возможно из-за очень низкой зарплаты. 
- в категории цель кредита - у клиентов *операции с автомобилем* и *получение образования*.