# Исследование надежности заемщиков.

<div style="border:solid green 2px; padding: 20px">


**Заказчик** — кредитный отдел банка. 
    
**Цель** - Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. 
    
    
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.
    
**Входные данные от банка** — статистика о платёжеспособности клиентов.
    
*Описание данных*
- children — количество детей в семье
- days_employed — общий трудовой стаж в днях
- dob_years — возраст клиента в годах
- education — уровень образования клиента
- education_id — идентификатор уровня образования
- family_status — семейное положение
- family_status_id — идентификатор семейного положения
- gender — пол клиента
- income_type — тип занятости
- debt — имел ли задолженность по возврату кредитов
- total_income — ежемесячный доход
- purpose — цель получения кредита

    ---
    
*Вопросы, поставленные заказчиком и требующие подтверждения*
- Вопрос 1 - Есть ли зависимость между количеством детей и возвратом кредита в срок?
- Вопрос 2 - Есть ли зависимость между семейным положением и возвратом кредита в срок?
- Вопрос 3 - Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
- Вопрос 4 - Как разные цели кредита влияют на его возврат в срок?
- Вопрос 5 - Как рабочий стаж заемщика влияет на возврат кредита в срок?

## Обзор данных

In [1]:
#импорт библиотеки
import pandas as pd

In [2]:
df = pd.read_csv('/datasets/data.csv')

In [3]:
df.head(40)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [4]:
df.columns

Index(['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose'],
      dtype='object')

In [5]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


### Вывод по первичному обзору данных

При первичном изучении датафрейма обнаружены следующие проблемы:
- Отлицательные значения стажа работы у заемщиков;
- Пропуски значений в указании стажа;
- Разные регистры; 
- Отрицательные значения в графе наличия детей;
- Пропуски значений в указании прибыли заемщика (возможно кто-то не смог подтвердить свой доход, а кто-то отказался предоставлять информацию о нем);

Также, на данный момент не понятно в каких единицах указан трудовой стаж, но исходя из названия столбца days_employed, предположим, что речь идет о днях (в идеале этот момент уточнить у разработчиков, предоставивших базу данных).

В возвращенных ранее строках датафрейма в глаза бросается стаж свыше 300 тысяч. Если придерживаться изначального предположения, что стаж указан в днях, то общий стаж работы перевалит за 900 лет, что, объективно, невозможно (если конечно это не некий Владислав Дракула из Румынии). Так как доступа к разработчикам у меня по прежнему нет, предположим, что в данных ячейках стаж и вовсе указан в часах, что не стоит оставлять без внимания при дальнейшем приведении датафрейма в порядок.

При помощи методов min() и max() определим минимальное и максимальное значение в столбце стажа для понимания разброса данных.

In [6]:
display(df['days_employed'].min())
df['days_employed'].max()

-18388.949900568383

401755.40047533

In [7]:
# проверка доли пропущеных значений
df.isna().mean()

children            0.000000
days_employed       0.100999
dob_years           0.000000
education           0.000000
education_id        0.000000
family_status       0.000000
family_status_id    0.000000
gender              0.000000
income_type         0.000000
debt                0.000000
total_income        0.100999
purpose             0.000000
dtype: float64

Пропуски данных обнаружены в указании стажа работы (10% от всех данных) и в данных о доходах (также 10%). Как было отмечено ранее, данные пропуски могут быть вызваны следующими факторами:

<font color='red'>*Информация о стаже работы:*</font>
- заемщик может быть трудоустроен неофициально, в связи с чем не смог предоставить информацию, подтверждающую рабочий стаж;
- заемщик может не иметь работы по разным причинам.

<font color='red'>*Информация о доходе:*</font>
- заемщик не смог предоставить информацию, подтвверждающую его доход;
- заемщик мог сознательно скрыть информацию о доходе.

Так как 10% отсутствующих данных могут повлиять на общие выводы по исследованию, стоит воздержаться от удаления данных строк. Можно было бы заменить отсутсвующие значения на 'no_info', но это повлияет на дальнейшие рассчеты, так как столбцы содержат числовые значения. Ввиду отсутсвия альтернативы, заполним пропуски медианным значением.

## Работа с пропусками

In [8]:
df['total_income'].min()

20667.26379327158

Отрицательных значений в столбце дохода нет, можно определить медианное значение.

In [9]:
df['total_income'].median()

145017.93753253992

Медианное значение по общему доходу приемлимое для дальнейшего исследования, но мы должны помнить о погрешности в 10%. Мы заполним пропуски в данном столбце медианным значением и пока закроем глаза на то, что пенсионер без стажа работы из стоки с 12 индексом имеет доход в 145 тысяч.

In [10]:
# заполнение пропущенных значений
df['total_income'] = df['total_income'].fillna(df.groupby('income_type')['total_income'].transform("median"))

In [11]:
df.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Пропуски в столбце с доходом заполнены.

In [12]:
df['days_employed'].median()

-1203.369528770489

Так как в датафрейме указаны отрицательные значения, медианное значение, ожидаемо стало отрицательным. Заменять пропуски данным значением было бы некоректно. Понимая, что отрицательного стажа быть не может, необходимо изменить данные на адекатные.

## Проверка данных на аномалии и исправления.

Отрицательные значения могли образоваться при подсчете даты в базе схожих по формату с UTC (в смысле отсчета от определенной даты), то есть "минусовые дни" - это дни работы до определенной даты, например даты оформления кредита. 

Далее я пишу цикл, по которому формирую новый список с положительными значениями, за счет использования функции. После эти значения мы подставим в колонку стажа, изменив первоначальный датафрейм.

In [13]:
def good_days(bad_days):
    if bad_days < 0:
        return bad_days * -1
    return bad_days

In [14]:
gd_employed = []
for days in df['days_employed']:
    gd_employed.append(good_days(days))

df['days_employed'] = gd_employed
df['days_employed']   

0          8437.673028
1          4024.803754
2          5623.422610
3          4124.747207
4        340266.072047
             ...      
21520      4529.316663
21521    343937.404131
21522      2113.346888
21523      3112.481705
21524      1984.507589
Name: days_employed, Length: 21525, dtype: float64

Мы заменили все отрицательные значения в столбце стажа на положительные. Число пропусков сохранилось. Но считать медиану по данным значениям на данном этапе считаю преждевременным - нужно разобраться с выбросами в сотни лет работы.

Далее я попробую решить свою гипотезу по выбросам, что часть данных указана не в днях, а в часах. Допустим, что заемщик начинает свою работу в 16 лет (срок когда по закону есть возможность завести ту же трудовую книжку). Срок выхода на пенсию - 65 лет (возьмем максимальное значение, так как углубиться в результаты изменения пенсионного возраста и разного срока выхода на пенсию у мужчин и женщин пока не предполагается возможным). То есть заемщик до выхода на пенсию максимально мог работать 49 лет или 17885 дней. 

Далее по проекту я считаю, что все данные выше указанного числа дней (17855) - это данные указанные в часах. Заменю эти значения через цикл с применением функции.

In [15]:
def norm_days(days):
    if days > 17885:
        return days / 24 # делим на 24 часа, чтобы получить число дней работы
    return days

In [16]:
norm_days(300000)

12500.0

Работает!:)

In [17]:
norm_employed = []
for days in df['days_employed']:
    norm_employed.append(norm_days(days))
    
df['days_employed'] = norm_employed

df['days_employed']

0         8437.673028
1         4024.803754
2         5623.422610
3         4124.747207
4        14177.753002
             ...     
21520     4529.316663
21521    14330.725172
21522     2113.346888
21523     3112.481705
21524     1984.507589
Name: days_employed, Length: 21525, dtype: float64

Теперь мы можем посчитать медианное значение и заполнить им пропуски.

In [18]:
df['days_employed'].median()

2194.2169684631217

In [19]:
df['days_employed'] = df['days_employed'].fillna(df.groupby('income_type')['days_employed'].transform("median"))

In [20]:
df.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,14177.753002,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [21]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Все пропуски в датафрейме заполнены и можно двигаться дальше.

Изучим на аномалии другие числовые колонки:
- дети;
- возраст.

Предполагаю, что в данных ячейках нет такого разброса в данных, как в стаже и доходе, поэтому ознакомлюсь с уникальными значениями в этих столбцах.

In [22]:
display('Уникальные значения в столбце дети:', df['children'].unique())
display('Уникальные значения в столбце возраст:', df['dob_years'].unique())      

'Уникальные значения в столбце дети:'

array([ 1,  0,  3,  2, -1,  4, 20,  5])

'Уникальные значения в столбце возраст:'

array([42, 36, 33, 32, 53, 27, 43, 50, 35, 41, 40, 65, 54, 56, 26, 48, 24,
       21, 57, 67, 28, 63, 62, 47, 34, 68, 25, 31, 30, 20, 49, 37, 45, 61,
       64, 44, 52, 46, 23, 38, 39, 51,  0, 59, 29, 60, 55, 58, 71, 22, 73,
       66, 69, 19, 72, 70, 74, 75])

При изучении уникальных значений обнаружены следующие проблемы:

*Дети:*
- отрицательное число детей;
- 20 детей.

Отрицательное число детей в дальнейшем приведем в порядок. 
Там где указано 20 детей - необходимо изучить в скольких строках указано данное значение. Если данная аномалия встречается несколько раз, то вероятнее всего это опечатка в указании 2 детей. Если же это значение встречается однажды, можно предположить, что это потранажная семья, которая занимается воспитанием приемных детей, в том числе. В этом случае значение можно оставить без изменений.

*Возраст:*
- возраст 0 лет.

Необходимо изучить, как часто встречается данное значение. Возможно, его можно будет заменить медианным значением, или же удалить строку, есть процент таких значений, по отношению ко всей базе данных, ничтожный.

In [23]:
df.groupby('children')['children'].count()

children
-1        47
 0     14149
 1      4818
 2      2055
 3       330
 4        41
 5         9
 20       76
Name: children, dtype: int64

 Значения -1 в столбце дети встречается 47 раз. Значение 20 в столбце дети встречается 76 раз. Можно было бы допустить одного заемщика, в чьей семье 20 детей, но 76 статистически маловероятно. Поэтому далее я заменю эти значения на 1 и 2 соответсвенно.

In [24]:
df['children'] =  df['children'].replace(-1, 1)
df['children'] =  df['children'].replace(20, 2)   
df['children'].unique()

array([1, 0, 3, 2, 4, 5])

Столбец "дети" приведен в порядок и избавлен от аномальных значений.

Проверю, как часто встречается возраст 0 лет в колонке возраста.

In [25]:
df.groupby('dob_years')['dob_years'].count()

dob_years
0     101
19     14
20     51
21    111
22    183
23    254
24    264
25    357
26    408
27    493
28    503
29    545
30    540
31    560
32    510
33    581
34    603
35    617
36    555
37    537
38    598
39    573
40    609
41    607
42    597
43    513
44    547
45    497
46    475
47    480
48    538
49    508
50    514
51    448
52    484
53    459
54    479
55    443
56    487
57    460
58    461
59    444
60    377
61    355
62    352
63    269
64    265
65    194
66    183
67    167
68     99
69     85
70     65
71     58
72     33
73      8
74      6
75      1
Name: dob_years, dtype: int64

Посчитаю сколько процентов от общего числа данны составляют строки, где указан возраст 0 лет.

In [26]:
age_zero = 101 #число строк со значением возраста 0
age_total = 21525 #общее число строк
age_rate = age_zero / age_total * 100
age_rate

0.4692218350754936

Значение возраста "0 лет" встречается в таблице 101 раз, что составляет менее 1%. Заменить данные ячейки медианным значением мне не кажется объективным. В идеале эти значения можно удалить, так как их доля несущественна, но так как эти значения не влияют на запрос в задаче, то оставлю все как есть.

## Изменение типов данных.

В столбце о доходе мы имеем дело с некими денежными еденицами, в связи с чем значения после запятой можно считать лишними. Изменим тим данных в данном столбце на целые числа.

In [27]:
df['total_income'] = df['total_income'].astype('int')
df['total_income'].head(10)


0    253875
1    112080
2    145885
3    267628
4    158616
5    255763
6    240525
7    135823
8     95856
9    144425
Name: total_income, dtype: int64

Тип данных в столбце дохода изменен. 

Также стоит поступить и со столбцом о стаже работы, но мне в нем не нравится тот факт, что информация о рабочем стаже представлена в днях. Такая информация не совсем понятна для обывателя, так как кажный из нас привык к информации о стаже в годах.

Для этого подвергнем столбец стажа испытанию циклом, который приведет значения в нужный мне вид. Эту задачу можно было бы решить только лишь циклом, но я снова напишу функцию, просто потому что мне нравится использовать функции:)

In [28]:
def days_to_years(days):
    return days / 365 #  сперва мы делим на 365 дней, чтобы получить число лет стажа

In [29]:
years_employed = []
for days in df['days_employed']:
    years_employed.append(days_to_years(days))

row = []    
for year in years_employed:
    row.append(format(year, '.1f'))      
    
df['days_employed'] = row
df['days_employed']

0        23.1
1        11.0
2        15.4
3        11.3
4        38.8
         ... 
21520    12.4
21521    39.3
21522     5.8
21523     8.5
21524     5.4
Name: days_employed, Length: 21525, dtype: object

Приведу данные из столбца стажа в числовой вид и сразу изменю наимнование столбца со стажем, чтобы потом не возникало вопросов в каких единицах указаны данные.

In [30]:
df['days_employed'] = df['days_employed'].astype('float')
df = df.rename(columns={'days_employed': 'years_employed'})
df.head(20)

Unnamed: 0,children,years_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,23.1,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,11.0,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,15.4,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,11.3,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,38.8,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,2.5,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья
6,0,7.9,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем
7,0,0.4,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823,образование
8,2,19.0,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,6.0,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи


По утогу проделанной работы, как мне кажется, база данных существвенно пробразилась:
- стаж теперь указан в более привычных для понимания годах, и если изучить обновленный датафрейм, все похоже на правду (например в строке с индексом 4 53-летний заемщик имеет стаж работы 38 лет).
- колонка дохода приобрела читаемый числовой вид.
- отрицательных детей больше нет (с числовой точки зрения, а не стороны детского естества).    
- аномальных значений больше нет (я надеюсь).

Теперь можно продолжить работу с датафреймом, приведя его еще в более совершенный вид, избавив несчастного от дубликатов.

## Удаление дубликатов.

Изучим на аномалии другие колонки:
- образование;
- статус семейный;
- пол;
- социальный статус;
- цель кредита.

Предполагаю, что в данных ячейках нет такого разброса в данных, как в стаже и доходе, поэтому ознакомлюсь с уникальными значениями в этих столбцах.

In [31]:
df['education'].sort_values().unique()

array(['ВЫСШЕЕ', 'Высшее', 'НАЧАЛЬНОЕ', 'НЕОКОНЧЕННОЕ ВЫСШЕЕ',
       'Начальное', 'Неоконченное высшее', 'СРЕДНЕЕ', 'Среднее',
       'УЧЕНАЯ СТЕПЕНЬ', 'Ученая степень', 'высшее', 'начальное',
       'неоконченное высшее', 'среднее', 'ученая степень'], dtype=object)

В данных имеются неявные дубликаты, которые могли появится в ходе разного подхода у разных заемщиков к заполнению заявки на кредит. Приведем значения к единому регистру. 

In [32]:
df['education'] = df['education'].str.lower()
df['education'].sort_values().unique()

array(['высшее', 'начальное', 'неоконченное высшее', 'среднее',
       'ученая степень'], dtype=object)

Столбец с информацией об образовании избавлен от неявных дубликатов.

In [33]:
df['family_status'].sort_values().unique()

array(['Не женат / не замужем', 'в разводе', 'вдовец / вдова',
       'гражданский брак', 'женат / замужем'], dtype=object)

В данном столбце также имеются названия, начинающися на строчные буквы. Есть предположение, что в заявке на кредит, в данном пункте, необходимо было поставить галочку, и в перечислении вариант 'Не женат / не замужем' был указан первым, почему и начинается со строчной буквы. 

Это никак не влияет на данные и не создает неявных дубликатов, но для дальнейшего удобства приведем все значения к нижнему регистру.

In [34]:
df['family_status'] = df['family_status'].str.lower()
df['family_status'].sort_values().unique()

array(['в разводе', 'вдовец / вдова', 'гражданский брак',
       'женат / замужем', 'не женат / не замужем'], dtype=object)

Данные в столбце о семейном статусе изменены для дальнейшего удобства при работе с датафреймом.

In [35]:
df['gender'].sort_values().unique()

array(['F', 'M', 'XNA'], dtype=object)

Помимо женщин 'F' и мужчин 'M', в столбце имеется значение пола 'XNA'. Обстоятельства зарождения данного гендера в датафрейме пока остается для меня загадкой (без предположений). Необходимо понять, как часто оно встречается и влияется ли на данные в целом. Применю группировку, как и ранее, чтобы это понять.

In [36]:
df.groupby('gender')['gender'].count()

gender
F      14236
M       7288
XNA        1
Name: gender, dtype: int64

Гендер 'XNA' встречается лишь однажны, поэтому если бы по условиям, заданным банком, необходимо было обнаружить какие-либо зависимости от пола, строку можно было бы удалить. Я же ее оставлю, так как запроса зависимости от пола не было, а данные, которые есть в строке помимо него, несут пользу.

In [37]:
df['income_type'].sort_values().unique()

array(['безработный', 'в декрете', 'госслужащий', 'компаньон',
       'пенсионер', 'предприниматель', 'сотрудник', 'студент'],
      dtype=object)

Данные, находящиеся в строке о занятости, с точки зрения текущего исследования, меня устраивают. Если бы было необходимо определить зависимость от наличия работы, можно было сузить число групп с 8 до 5, например на: 
- безработный;
- студент;
- пенсионер;
- в декрете;
- трудоустроен.

В текущем кейсе от этого можно отказаться.

### Категоризация целей кредита, в том числе, с целью избавления от неявных дубликатов
Этот шаг по структуре проекта был позже, после категоризации по доходу, но я сделала его раньше, чтобы избавиться от дубликатов. 

In [38]:
df['purpose'].sort_values().unique()

array(['автомобили', 'автомобиль', 'высшее образование',
       'дополнительное образование', 'жилье',
       'заняться высшим образованием', 'заняться образованием',
       'на покупку автомобиля', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля', 'на проведение свадьбы',
       'недвижимость', 'образование', 'операции с жильем',
       'операции с коммерческой недвижимостью',
       'операции с недвижимостью', 'операции со своей недвижимостью',
       'покупка жилой недвижимости', 'покупка жилья',
       'покупка жилья для сдачи', 'покупка жилья для семьи',
       'покупка коммерческой недвижимости', 'покупка недвижимости',
       'покупка своего жилья', 'получение высшего образования',
       'получение дополнительного образования', 'получение образования',
       'приобретение автомобиля', 'профильное образование',
       'ремонт жилью', 'свадьба', 'свой автомобиль',
       'сделка с автомобилем', 'сделка с подержанным автомобилем',
       'строительство 

Видно, что в целях кредита имеются дублирующие значения, прописанные по разному. 
Для их обработкине обходимо создать новый столбец датафрейма, в котором цели кредита будут преведены к следующим категориям:
- операции с автомобилем;
- операции с недвижимостью;
- проведение свадьбы;
- получение образования.

Создам функцию, которая при наличии определенного значения (например 'авто' для 'автомобиля') добавит в новый столбец категорию.


In [39]:
def purpose_category(purpose):
    """
    Возвращает категорию кредита по цели кредита в столбце purpose, используя правила:
    - 'операции с автомобилем', если 'авто' в purpose;
    - 'операции с недвижимостью', если 'недвиж' или 'жил' в purpose;
    - 'проведение свадьбы' — если 'свадьб' в purpose;
    - 'получение образования' - если 'образ' в purpose
    """
    if 'авто' in purpose:
        return 'операции с автомобилем'
    if 'недвиж' in purpose or 'жил' in purpose:
        return 'операции с недвижимостью'   
    if 'свадьб' in purpose:
        return 'проведение свадьбы'
    if 'образ' in purpose:
        return 'получение образования'

In [40]:
# проверяю работу функции
purpose_category('жилое помещение')

'операции с недвижимостью'

In [41]:
# добавляю новый столбец с категориями кредита в датафрейм
df['purpose_category'] = df['purpose'].apply(purpose_category)
df.head(10)

Unnamed: 0,children,years_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category
0,1,23.1,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,операции с недвижимостью
1,1,11.0,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,операции с автомобилем
2,0,15.4,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,операции с недвижимостью
3,3,11.3,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,получение образования
4,0,38.8,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,проведение свадьбы
5,0,2.5,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,покупка жилья,операции с недвижимостью
6,0,7.9,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с жильем,операции с недвижимостью
7,0,0.4,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,образование,получение образования
8,2,19.0,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,на проведение свадьбы,проведение свадьбы
9,0,6.0,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,покупка жилья для семьи,операции с недвижимостью


В датафрейм добавлен новый столбец с категориями кредита. Для того чтобы убедиться в наличии всех значений еще раз проверю информацию о датафрейме.

In [42]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   years_employed    21525 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  int64  
 11  purpose           21525 non-null  object 
 12  purpose_category  21525 non-null  object 
dtypes: float64(1), int64(6), object(6)
memory usage: 2.1+ MB


Все столбцы датафрейма имеют одинаковое число значений в ячейках.

Теперь можно приступить к избавлению от явнях дубликатов. Так как теперь датафрейм имеет столбец с едиными категориями кредита, можно удалить столбец purpose, который содержит ту же информацию, но в иных формулировках.

In [43]:
df = df.drop(['purpose'], axis = 1)
df.head(10)

Unnamed: 0,children,years_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose_category
0,1,23.1,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,операции с недвижимостью
1,1,11.0,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,операции с автомобилем
2,0,15.4,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,операции с недвижимостью
3,3,11.3,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,получение образования
4,0,38.8,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,проведение свадьбы
5,0,2.5,27,высшее,0,гражданский брак,1,M,компаньон,0,255763,операции с недвижимостью
6,0,7.9,43,высшее,0,женат / замужем,0,F,компаньон,0,240525,операции с недвижимостью
7,0,0.4,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823,получение образования
8,2,19.0,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856,проведение свадьбы
9,0,6.0,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425,операции с недвижимостью


На завершающем этапе предобрабдотки данных, когда датафрейм был приведен в надлежащий вид, можно проверить его на наличие явных дубликатов.

In [44]:
df.duplicated().sum()

405

Датафрейм содержит 405 явных дубликатов. Они могли появиться при оформлении повторных заявок на кредит. От этих данных можно избавивться.

In [45]:
df = df.drop_duplicates().reset_index(drop = True)
df.duplicated().sum() # повторная проверка наличия дубликатов

0

По итогу предобработки данных датафрейм:
- очищен от аномальных значений;
- очищен от неявных дубликатов;
- очищен от явных дубликатов;
- приведен в порядок столбец с информацией о стаже, в нем теперь содержится информация в годах, которая имеет числовые значения, подвласные арифметическим операциям;
- приведен в порядок столбец с информацией о доходах заемщика, он также теперь имеем более простой для восприятия числовой формат, подвлаастный различным вычислительным операциям;
- цели получения кредита приведены в единый ввид, подвластный последующе категорезации.

Датафрейм готов к анализу.

## Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

In [46]:
df_education = df[['education', 'education_id']]
df_education = df_education.drop_duplicates().reset_index(drop = True)
df_education.head(15)

Unnamed: 0,education,education_id
0,высшее,0
1,среднее,1
2,неоконченное высшее,2
3,начальное,3
4,ученая степень,4


Созднан новый датафрейм, где каждому значению в столбце об образоввании соответсвует идендификатор. К нему можно обращаться, как к словарю если это потребуется.

In [47]:
df_family = df[['family_status', 'family_status_id']]
df_family = df_family.drop_duplicates().reset_index(drop = True)
df_family.head(10)

Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,гражданский брак,1
2,вдовец / вдова,2
3,в разводе,3
4,не женат / не замужем,4


Созднан новый датафрейм, где каждому значению в столбце о семейном статусе соответсвует идендификатор. Это потребуется для дальнейшего анализа в качестве словаря.

In [48]:
df = df.drop(['education','family_status'], axis = 1)
df.head(10)

Unnamed: 0,children,years_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose_category
0,1,23.1,42,0,0,F,сотрудник,0,253875,операции с недвижимостью
1,1,11.0,36,1,0,F,сотрудник,0,112080,операции с автомобилем
2,0,15.4,33,1,0,M,сотрудник,0,145885,операции с недвижимостью
3,3,11.3,32,1,0,M,сотрудник,0,267628,получение образования
4,0,38.8,53,1,1,F,пенсионер,0,158616,проведение свадьбы
5,0,2.5,27,0,1,M,компаньон,0,255763,операции с недвижимостью
6,0,7.9,43,0,0,F,компаньон,0,240525,операции с недвижимостью
7,0,0.4,50,1,0,M,сотрудник,0,135823,получение образования
8,2,19.0,35,0,1,F,сотрудник,0,95856,проведение свадьбы
9,0,6.0,41,1,0,M,сотрудник,0,144425,операции с недвижимостью


Датафрейм, с которым я работаю в ходе анализа, освобожден от колонок с наименованием семейного статуса и образования. Данные колонки мне больше не нужны, так как были созданы словари df_education и df_family, к которым я буду обращаться далее для получения нужных мне значений.

## Категоризация дохода.

Ранее на этапе предобработки данных была была проведена работа по обработке столбца дохода. Столбец приведен в более понятный для восприятия вид. Однако разброс значений огромный. Можно это проверить через определение суммы уникальных значений в столбце.

In [49]:
df['total_income'].nunique()

18608

Метод nunique() я погуглила, поэтому для того чтобы проверить верно ли он показывает число уникальных значений, перепроверю расчет через знакомый мне len()

In [50]:
len(df['total_income'].unique())

18608

Столбец с информацией о размере дохода заемщика содержит более 18,5 тысяч уникальных значений. Использовать эти данные для анализа не удобно. Поэтому разделю всех заемщиков на категории в зависимости от размера их дохода:
- 0–30000 — категория 'E';
- 30001–50000 — категория 'D';
- 50001–200000 — категория 'C';
- 200001–1000000 — категория 'B';
- 1000001 и выше — категория 'A'.

Это будет сделано через создание функции.

In [51]:
def total_income_category(total_income):
    """
    Возвращает категорию дохода по значению в столбце total_income, используя правила:
    - 'E' если total_income <= 30000;
    - 'D' если total_income <= 50000;
    - 'C' если total_income <= 200000;
    - 'B' если total_income <= 1000000;
    - 'A' если total_income >= 1000001
    """
    if total_income <= 30000:
        return 'E'
    if total_income <= 50000:
        return 'D'
    if total_income <= 200000:
        return 'C'
    if total_income <= 1000000:
        return 'B'
    if total_income >= 1000001:
        return 'A'  
    
    return 'Что-то не так'

In [52]:
# проверю как работает функция
display(total_income_category(10))
display(total_income_category(1000001))
display(total_income_category(67000))
display(total_income_category(199999))

'E'

'A'

'C'

'C'

Функция работает. Можно приступить к формированию нового столбца датафрейма total_income_category, в котором будет отображена категория заемщика в заввисимости от его дохода.

In [53]:
df['total_income_category'] = df['total_income'].apply(total_income_category)
df.head(10)

Unnamed: 0,children,years_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose_category,total_income_category
0,1,23.1,42,0,0,F,сотрудник,0,253875,операции с недвижимостью,B
1,1,11.0,36,1,0,F,сотрудник,0,112080,операции с автомобилем,C
2,0,15.4,33,1,0,M,сотрудник,0,145885,операции с недвижимостью,C
3,3,11.3,32,1,0,M,сотрудник,0,267628,получение образования,B
4,0,38.8,53,1,1,F,пенсионер,0,158616,проведение свадьбы,C
5,0,2.5,27,0,1,M,компаньон,0,255763,операции с недвижимостью,B
6,0,7.9,43,0,0,F,компаньон,0,240525,операции с недвижимостью,B
7,0,0.4,50,1,0,M,сотрудник,0,135823,получение образования,C
8,2,19.0,35,0,1,F,сотрудник,0,95856,проведение свадьбы,C
9,0,6.0,41,1,0,M,сотрудник,0,144425,операции с недвижимостью,C


Теперь значительно проще составить картину о заемщиках, после того как каждый из них разделен на категории.

## Работа с вопросами, поставленными заказчиком

### Есть ли зависимость между количеством детей и возвратом кредита в срок?

Для ответа на заданный вопрос, первоначально построим сводную таблицу.

In [54]:
df_child = df.groupby(by=['children'])['debt'].agg(['count','sum'])
df_child['conversion'] = df_child['sum'] / df_child['count']

df_child

Unnamed: 0_level_0,count,sum,conversion
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,13829,1061,0.076723
1,4798,445,0.092747
2,2115,202,0.095508
3,329,27,0.082067
4,40,4,0.1
5,9,0,0.0


#### Вывод 1:

<div style="border:solid black 1px; padding: 20px">

Построенный датафрейм включает в себя столбец conversion, в котором отображена конверсия по возврату кредита. Из данных таблицы видно, что:
- чаще всего задерживают выплаты по кредиту заемщики с 4 детьми - 10% процентов от общего числа. 
- заемщики имеющие 1, 2 ребенка, задерживают выплаты в 9% случаев. 
- близко к предыдущим заемщики с 3 детьми - задержка в 8% случаев. 
- заемщики не имеющие детей задерживают выплаты в примерно 7% случаев.

Также по таблице видно, что самые благонадежные заемщики - те у кого 5 детей, но стоит сразу обратить внимание, что такие заемщики в целом встречаются очень редко, из-за чего выборка не репрезентативна и делать выводы по ней нецелесообразно.

### Есть ли зависимость между семейным положением и возвратом кредита в срок?

Для ответа на поставленный вопрос также необходимо составить сводную таблицу, но уже основываясь на данных о семейном положении. В данном случае я обращаюсь к ранее созданному словарю df_family.

In [55]:
df_fam = df.merge(df_family, on='family_status_id', how='left')

df_fam.head(10)

Unnamed: 0,children,years_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose_category,total_income_category,family_status
0,1,23.1,42,0,0,F,сотрудник,0,253875,операции с недвижимостью,B,женат / замужем
1,1,11.0,36,1,0,F,сотрудник,0,112080,операции с автомобилем,C,женат / замужем
2,0,15.4,33,1,0,M,сотрудник,0,145885,операции с недвижимостью,C,женат / замужем
3,3,11.3,32,1,0,M,сотрудник,0,267628,получение образования,B,женат / замужем
4,0,38.8,53,1,1,F,пенсионер,0,158616,проведение свадьбы,C,гражданский брак
5,0,2.5,27,0,1,M,компаньон,0,255763,операции с недвижимостью,B,гражданский брак
6,0,7.9,43,0,0,F,компаньон,0,240525,операции с недвижимостью,B,женат / замужем
7,0,0.4,50,1,0,M,сотрудник,0,135823,получение образования,C,женат / замужем
8,2,19.0,35,0,1,F,сотрудник,0,95856,проведение свадьбы,C,гражданский брак
9,0,6.0,41,1,0,M,сотрудник,0,144425,операции с недвижимостью,C,женат / замужем


In [56]:
df_pivot = df_fam.pivot_table(index=['family_status_id'], columns = 'family_status', values = 'debt', aggfunc='mean')
df_pivot

family_status,в разводе,вдовец / вдова,гражданский брак,женат / замужем,не женат / не замужем
family_status_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
0,,,,0.076929,
1,,,0.094083,,
2,,0.066808,,,
3,0.071249,,,,
4,,,,,0.09842


In [57]:
df_fam_fin = df_fam.groupby(by=['family_status'])['debt'].agg(['count','sum'])
df_fam_fin['conversion'] = df_fam_fin['sum'] / df_fam_fin['count']

df_fam_fin

Unnamed: 0_level_0,count,sum,conversion
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
в разводе,1193,85,0.071249
вдовец / вдова,943,63,0.066808
гражданский брак,4124,388,0.094083
женат / замужем,12076,929,0.076929
не женат / не замужем,2784,274,0.09842


#### Вывод 2:

<div style="border:solid black 1px; padding: 20px">

На основании потроенной таблицы очевидны следующие выводы:
- чаще всего задерживают оплату по кредиту заемщики, не состоящие браке, и состоящие в гражданском браке - задержка в 9% случаев.
- реже всего задерживают выплаты овдовевшие заемщики - в 6% случаев.
- разведенные и замужние(женатые) заемщики задерживают выплаты в 7% случев.

### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [58]:
df_income = df.groupby(by=['total_income_category'])['debt'].agg(['count','sum'])
df_income['conversion'] = df_income['sum'] / df_income['count']

df_income

Unnamed: 0_level_0,count,sum,conversion
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,25,2,0.08
B,5042,356,0.070607
C,15681,1358,0.086602
D,350,21,0.06
E,22,2,0.090909


#### Вывод 3

<div style="border:solid black 1px; padding: 20px">

При изучении конверсии в данной таблице можно сделать следующие выводы:
- заемщики, имеющие сверх низкий доход, находящиеся в категории Е задерживают кредит в 9% случев, но стоит обратить внимание, что заемщиков с таким доходом целом мало, от чего выборка нерепрезентативна, и делать объективные выводы сложно. Однако низкий доход и задерка по кредиту - весьма вероятный исход.
- реже всего задерживают оплату по кредитам заемщики с доходами от 30 до 50 тысяч (группа D) - в 6% случаев и заемщики с доходом от 200 тыс. до 1 млн. - в 7 процентах случаев. Но тоже необходимо обратить внимание, что заемщиков в категории D не много.
- чаще всего задерживают выплаты по кредитам заемщики со средним доходом от 50 до 200 тыс. и со сверх высоким доходом свыше 1 млн. При этом заемщиков со сверх высоким доходом также мало - из 25 заемщиков только 2 задержали оплату. В обоих группах процент задержки составляет 8.

При этом нужно помнить, что в группу заемщиков со средним уровнем дохода попали, в том числе, ячейки, которые были заполнены медианным значением (заемщик не предоставил информацио о доходе или не смог его подтердить), поэтому реальная конверсия, при наличии всех данных без пропусков могла бы отличаться.

### Как разные цели кредита влияют на его возврат в срок?

In [59]:
df_purpose = df.groupby(by=['purpose_category'])['debt'].agg(['count','sum'])
df_purpose['conversion'] = df_purpose['sum'] / df_purpose['count']

df_purpose

Unnamed: 0_level_0,count,sum,conversion
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с автомобилем,4272,402,0.094101
операции с недвижимостью,10578,781,0.073832
получение образования,3964,370,0.09334
проведение свадьбы,2306,186,0.080659


#### Вывод 4:

<div style="border:solid black 1px; padding: 20px">

При изучении конверции по возврату кредита в зависимости от его цели можно сделать следующие выводы:
- примерно в равном числе случаев происходят задержки с выплатой кредитов полученных на операции с автомобилем и на получение образования - в 9% случаев.
- реже всего задерживают выплаты заемщики, берущие кредит на операции с нежвижимостью - примерно в 7% случаев. Согласно данным, некоторые заемщики брали кредит на приобретение коммерческой недвижимости, или недвижимости для сдачи в аренду, поэтому можно предположить, что низкий процент в этой категории обусловлен доходом, получаемым заемщиком от купленной недвижимости.
- заемщики, берущие кредит на проведение свадьбы задерживают выплаты в 8% случаев.

### Как рабочий стаж заемщика влияет на возврат кредита в срок?

Так как я потратила значительное время на обработку именно этого столбца, было бы преступлением не проверить зависимость от рабочего стажа. 
Для этого я также сгруппирую заемщиков по категориям:
- 'junior' - трудовой стаж от 0 до 3 лет
- 'midle' - трудовой стаж от 3 до 6 лет
- 'senior' - трудовой стаж свыше 6 лет

In [60]:
def years_employed_category(years_employed):

    if years_employed < 3:
        return 'junior'
    if years_employed < 6:
        return 'midle'
    if years_employed >= 6:
        return 'senior'
 
    
    return 'Что-то не так'

years_employed_category(8) # проверка работы функции

'senior'

In [61]:
df['years_employed_category'] = df['years_employed'].apply(years_employed_category)
df.head(10)

Unnamed: 0,children,years_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose_category,total_income_category,years_employed_category
0,1,23.1,42,0,0,F,сотрудник,0,253875,операции с недвижимостью,B,senior
1,1,11.0,36,1,0,F,сотрудник,0,112080,операции с автомобилем,C,senior
2,0,15.4,33,1,0,M,сотрудник,0,145885,операции с недвижимостью,C,senior
3,3,11.3,32,1,0,M,сотрудник,0,267628,получение образования,B,senior
4,0,38.8,53,1,1,F,пенсионер,0,158616,проведение свадьбы,C,senior
5,0,2.5,27,0,1,M,компаньон,0,255763,операции с недвижимостью,B,junior
6,0,7.9,43,0,0,F,компаньон,0,240525,операции с недвижимостью,B,senior
7,0,0.4,50,1,0,M,сотрудник,0,135823,получение образования,C,junior
8,2,19.0,35,0,1,F,сотрудник,0,95856,проведение свадьбы,C,senior
9,0,6.0,41,1,0,M,сотрудник,0,144425,операции с недвижимостью,C,senior


In [62]:
df_years_employed = df.groupby(by=['years_employed_category'])['debt'].agg(['count','sum'])
df_years_employed['conversion'] = df_years_employed['sum'] / df_years_employed['count']

df_years_employed

Unnamed: 0_level_0,count,sum,conversion
years_employed_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
junior,5642,625,0.110776
midle,5324,467,0.087716
senior,10154,647,0.063719


#### Вывод 5:

<div style="border:solid black 1px; padding: 20px">

Выводы из таблицы максимально приближены к реальности:
- чаще всего задерживают выплаты по кредиту заемщики, имеющие стаж работы менее 3 лет - 11% случаев.
- реже всего задерживают выплаты по кредитам заемщики, имеющие стаж работы более 6 лет - в 6% случаем. При этом это самая крупная группа заемщиков.
- заемщики, имеющие стаж работы от 3 до 6 лет задерживают выплаты по кредитам в 8% случаев.

## Общий вывод по исследованию

<div style="border:solid green 2px; padding: 20px">

<font color='red'>Самым благонадержным заемщиком является клиент:</font>
- овдовевший, находящийся в браке или разведенный
- не имеющий детей
- имеющий доход свыше 200 тысяч
- берущий кредит на недвижимость
- и имеющий рабочий стаж свыше 6 лет


<font color='red'>Самым неблагонадежным заемщиком является клиент:</font>
- холостой или состоящий в гражданском браке
- имеющий детей (преимущественно 1-2)
- имеющий доход до 30 тысяч
- берущий автокредит или кредит на получение образования
- имеющий общий стаж работы менее 3 лет

Каждый из пяти заданных вопросов нашел подтвеждение влияния на возврат кредита.