# Исследование надёжности заёмщиков

## Описание данных
- children — количество детей в семье
- days_employed — общий трудовой стаж в днях
- dob_years — возраст клиента в годах
- education — уровень образования клиента
- education_id — идентификатор уровня образования
- family_status — семейное положение
- family_status_id — идентификатор семейного положения
- gender — пол клиента
- income_type — тип занятости
- debt — имел ли задолженность по возврату кредитов
- total_income — ежемесячный доход
- purpose — цель получения кредита

### Описание проекта
Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.
Ответить на вопросы:
- Есть ли зависимость между наличием детей и возвратом кредита в срок?
- Есть ли зависимость между семейным положением и возвратом кредита в срок?
- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
- Как разные цели кредита влияют на его возврат в срок?

## Обзор общей информации

In [2]:
import pandas as pd

In [3]:
data=pd.read_csv('borrow.csv')

In [4]:
display(data.head(3))
print('Количество строк',len(data))
print('..................................................')
unique_children=len(data['children'].unique())
print('количество уникальных значений children ',unique_children)
print('children',data['children'].unique())
print('..................................................')
unique_dob_years=len(data['dob_years'].unique())
print('количество уникальных значений dob_years ',unique_dob_years)
print('dob_years',data['dob_years'].unique())
print('..................................................')
unique_education=len(data['education'].unique())
print('количество уникальных значений education ',unique_education)
print('education',data['education'].unique())
print('..................................................')
unique_education_id=len(data['education_id'].unique())
print('количество уникальных значений education_id ',unique_education_id)
print('education_id',data['education_id'].unique())
print('..................................................')
unique_family_status=len(data['family_status'].unique())
print('количество уникальных значений family_status ',unique_family_status)
print('family_status',data['family_status'].unique())
print('..................................................')
unique_family_status_id=len(data['family_status_id'].unique())
print('количество уникальных значений family_status_id ',unique_family_status_id)
print('family_status_id',data['family_status_id'].unique())
print('..................................................')
unique_income_type=len(data['income_type'].unique())
print('количество уникальных значений income_type ',unique_income_type)
print('income_type',data['income_type'].unique())
print('..................................................')
unique_purpose=len(data['purpose'].unique())
print('количество уникальных значений purpose ',unique_purpose)
print('purpose',data['purpose'].unique())

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья


Количество строк 21525
..................................................
количество уникальных значений children  8
children [ 1  0  3  2 -1  4 20  5]
..................................................
количество уникальных значений dob_years  58
dob_years [42 36 33 32 53 27 43 50 35 41 40 65 54 56 26 48 24 21 57 67 28 63 62 47
 34 68 25 31 30 20 49 37 45 61 64 44 52 46 23 38 39 51  0 59 29 60 55 58
 71 22 73 66 69 19 72 70 74 75]
..................................................
количество уникальных значений education  15
education ['высшее' 'среднее' 'Среднее' 'СРЕДНЕЕ' 'ВЫСШЕЕ' 'неоконченное высшее'
 'начальное' 'Высшее' 'НЕОКОНЧЕННОЕ ВЫСШЕЕ' 'Неоконченное высшее'
 'НАЧАЛЬНОЕ' 'Начальное' 'Ученая степень' 'УЧЕНАЯ СТЕПЕНЬ'
 'ученая степень']
..................................................
количество уникальных значений education_id  5
education_id [0 1 2 3 4]
..................................................
количество уникальных значений family_status  5
family_status ['женат

In [5]:
# рассмотрим есть ли пропуски и соответствуют ли типы данных необходимым
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [8]:
data.duplicated().sum()

54

In [6]:
data.isna().mean()

children            0.000000
days_employed       0.100999
dob_years           0.000000
education           0.000000
education_id        0.000000
family_status       0.000000
family_status_id    0.000000
gender              0.000000
income_type         0.000000
debt                0.000000
total_income        0.100999
purpose             0.000000
dtype: float64

In [7]:
data.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


В столбцах days_employed, total_income есть пропуски (10%).Скорее всего данные пропуски появились из-за того что клиенты не стали указывать данную информацию.
В таблицы 54 дубликата. В столбцах purpose, education необходимо привести категории к единому значению. Есть ошибки: в столбце children 2 ошибки (-1 и 20); dob_years - 0; days_employed есть отрицательные значения

#### Предобработка данных

Пропуски

In [9]:
#проверяем количество пропусков:
data['days_employed'].value_counts()
print(data[data['days_employed'].isnull()].count())
print(data['days_employed'].count())

children            2174
days_employed          0
dob_years           2174
education           2174
education_id        2174
family_status       2174
family_status_id    2174
gender              2174
income_type         2174
debt                2174
total_income           0
purpose             2174
dtype: int64
19351


In [11]:
#в столбцах days_employed и total_income есть пустые значения;
# циклом заменим их на средние значения отдельно для каждой категории дохода
for element in data['income_type'].unique():
    days_employed_mean=data['days_employed'][data['income_type']== element].mean()
    data.loc[data['income_type']== element,'days_employed']=data.loc[data['income_type']== element,'days_employed']\
                 .fillna(days_employed_mean)
#проверяем
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [12]:
#так же заполняем пропуски в столбце total_income
for element in data['income_type'].unique():
    total_income_mean=data['total_income'][data['income_type']== element].mean()
    data.loc[data['income_type']== element,'total_income']=data.loc[data['income_type']== element,'days_employed']\
            .fillna(total_income_mean)
#проверяем
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Пропуски были в 2-ч стодбцах (стаж и доход). Данные пропуски можно заменить на среднее количество стажа и дохода по каждому источнику дохода в отдельности. После замены пропусков - проверяем их отсутствие

Дубликаты

In [13]:
# удалим дубликаты
data=data.drop_duplicates()

In [14]:
#меняем некорректно количество детей (-1;20) - скорее всего отпечатки 
data[data['children'] == -1] = data.replace(-1, 0)
print(data['children'].unique())
data['children'].value_counts()
data[data['children'] == 20] = data.replace(20, 2)
print(data['children'].unique())
data['children'].value_counts()

[ 1  0  3  2  4 20  5]
[1 0 3 2 4 5]


0    14154
1     4809
2     2128
3      330
4       41
5        9
Name: children, dtype: int64

In [15]:
#еще надо заменить 0 возраст; посмотрим у каких категорий возраст = 0
data.loc[data['dob_years'] == 0, 'income_type'].value_counts()

сотрудник      55
пенсионер      20
компаньон      20
госслужащий     6
Name: income_type, dtype: int64

In [16]:
#заменим 0ьвозраст на средний возраст соответсвующих групп

for element in data['income_type'].unique():
    dob_years_mean=data['dob_years'][data['income_type']== element].mean()
    data.loc[(data['dob_years']==0)&(data['income_type']== element),'dob_years']=dob_years_mean
                                        
#проверяем

data.loc[data['dob_years'] == 0, 'income_type'].value_counts()

Series([], Name: income_type, dtype: int64)

In [17]:
#меняем отрицательный стаж на положительный и делаем его целым
data['days_employed']=data['days_employed'].abs().astype(int)
data['days_employed']=data['days_employed']/365

In [34]:
#у кого стаж более 50 лет:
data[data['days_employed']>50]['dob_years'].value_counts().reset_index().sort_values(by='index')

Unnamed: 0,index,dob_years


In [35]:
#у кого стаж более 50 лет:
data[data['days_employed']>50]['income_type'].value_counts().reset_index()

Unnamed: 0,index,income_type


У 3837 пенсионеров стаж более 50 лет, также у 2 безработных и 1 сотрудника. Данные не корректны надо заменить на средние значения. Если посмотреть по возрасту - есть трудовой стаж более 50 лет у клиентов 50 лет и моложе)) Данную некорректную информацию заменим средним значением трудового стажа менее 50 лет

In [32]:
for element in data['income_type'].unique():
    days_employed_avr=data.loc[(data['days_employed']<50)&(data['income_type']== element),'days_employed'].mean()
    data.loc[(data['days_employed']>50)&(data['income_type']== element),'days_employed']=days_employed_avr

In [36]:
# проверяем
data[data['days_employed']>50]['income_type'].value_counts()

Series([], Name: income_type, dtype: int64)

In [37]:
#проверяем есть ли отрицательный доход 
data[data['total_income']<0]['income_type'].value_counts()

сотрудник          11091
компаньон           5080
госслужащий         1457
предприниматель        2
студент                1
в декрете              1
Name: income_type, dtype: int64

In [38]:
#делаем доход положительным и целым
data['total_income']=data['total_income'].abs().astype(int)

In [39]:
data.loc[data['total_income']< 0, 'income_type'].value_counts()

Series([], Name: income_type, dtype: int64)

In [40]:
data.loc[data['total_income']==0, 'income_type'].value_counts()

Series([], Name: income_type, dtype: int64)

Большое количестово данных пришлось скорректировать: количество детей (-1 и 20), отрицательный стаж и стаж более 50 лет, отрицательный доход. Для того чтобы сделать значения положительными использовалась abs(); для того чтобы сделать значения целочисленными astype(int). Для замены не корректных значений на среднее - цикл

 Обработка дубликатов

In [41]:
#поиск дубликатов
print('дубликаты education', data['education'].duplicated().sum())
print('число клиентов по образованию:', data['education'].value_counts())

дубликаты education 21456
число клиентов по образованию: среднее                13705
высшее                  4710
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   273
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64


In [42]:
#приведем все к нижнему регистру family_status
data['family_status']=data['family_status'].str.lower()
data['family_status'].value_counts()

женат / замужем          12344
гражданский брак          4163
не женат / не замужем     2810
в разводе                 1195
вдовец / вдова             959
Name: family_status, dtype: int64

In [43]:
#дубликаты получаются из-за разного написания; применим нижний регистр
data['education']=data['education'].str.lower()
data['education'].value_counts()

среднее                15188
высшее                  5251
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

In [44]:
#в income_type есть 2 схожих вида деятельности - компаньон и предпринематель
print('количество компаньонов:' ,data[data['income_type']=='компаньон']['income_type'].count())
print('количество предпринемателей:',data[data['income_type']=='предприниматель']['income_type'].count())
#предпринемателей всего 2 - заменим их на компаньон
data['income_type']=data['income_type'].replace('предприниматель','компаньон')
data['income_type'].value_counts()

количество компаньонов: 5080
количество предпринемателей: 2


сотрудник      11091
компаньон       5082
пенсионер       3837
госслужащий     1457
безработный        2
студент            1
в декрете          1
Name: income_type, dtype: int64

Дубликаты появились в датафрейме из-за написания одни и те же слова по-разному. Для исправления (семейное положение, образование) приведем все к нижнему регистру. Также большое количество дубликатов в целях кредита (одна и та же цель написана по-разному(например: на покупку жилья, недвижимость, собственное жилье...) Для исправления данных дубликатов нужно применить лемматизацию

### Лемматизация

In [47]:
pip install pymystem3

Collecting pymystem3
  Downloading pymystem3-0.2.0-py3-none-any.whl (10 kB)
Installing collected packages: pymystem3
Successfully installed pymystem3-0.2.0
Note: you may need to restart the kernel to use updated packages.


In [48]:
from pymystem3 import Mystem
m = Mystem()
#создаем список уникальных значений
unique=data['purpose'].unique()

#создаем столбец из лемматизированных слов
lemmas = []
for i in unique:
    purpose_new = m.lemmatize(i)
    lemmas.append(purpose_new)
    purpose_new = ' '.join(m.lemmatize(i)).strip()
print(lemmas)

#функция которая будет пребразовать слова по ключевому слову(если жилье - тогда недвижимость...)
def purpose_new (data):
    if ('жилье' in data) or ('недвижимость' in data) or ('недвижимости' in data) or ('жилья' in data) or ('жилой' in data):
        return 'недвижимость'
    if ('свадьба' in data) or ('свадьбы' in data) or ('свадьбу' in data):
        return 'свадьба'
    if ('автомобиль' in data) or ('автомобили' in data) or ('автомобиля' in data) or ('автомобилем' in data):
        return 'авто'
    if ('образование'  in data) or ('образование' in data)or ('образования' in data):
        return 'образование'
    if ('жилью' in data):
        return 'недвижимость'
    return 'прочее'
      
#создаем новый столбец
data['purpose_new'] = data['purpose'].apply(purpose_new)


Installing mystem to C:\Users\MaNi/.local/bin\mystem.exe from http://download.cdn.yandex.net/mystem/mystem-3.1-win-64bit.zip


[['покупка', ' ', 'жилье', '\n'], ['приобретение', ' ', 'автомобиль', '\n'], ['дополнительный', ' ', 'образование', '\n'], ['сыграть', ' ', 'свадьба', '\n'], ['операция', ' ', 'с', ' ', 'жилье', '\n'], ['образование', '\n'], ['на', ' ', 'проведение', ' ', 'свадьба', '\n'], ['покупка', ' ', 'жилье', ' ', 'для', ' ', 'семья', '\n'], ['покупка', ' ', 'недвижимость', '\n'], ['покупка', ' ', 'коммерческий', ' ', 'недвижимость', '\n'], ['покупка', ' ', 'жилой', ' ', 'недвижимость', '\n'], ['строительство', ' ', 'собственный', ' ', 'недвижимость', '\n'], ['недвижимость', '\n'], ['строительство', ' ', 'недвижимость', '\n'], ['на', ' ', 'покупка', ' ', 'подержать', ' ', 'автомобиль', '\n'], ['на', ' ', 'покупка', ' ', 'свой', ' ', 'автомобиль', '\n'], ['операция', ' ', 'с', ' ', 'коммерческий', ' ', 'недвижимость', '\n'], ['строительство', ' ', 'жилой', ' ', 'недвижимость', '\n'], ['жилье', '\n'], ['операция', ' ', 'со', ' ', 'свой', ' ', 'недвижимость', '\n'], ['автомобиль', '\n'], ['заниматьс

In [49]:
#проверяем
data.groupby('purpose_new')['purpose'].value_counts()

purpose_new   purpose                               
авто          на покупку своего автомобиля              505
              автомобиль                                494
              сделка с подержанным автомобилем          486
              свой автомобиль                           479
              автомобили                                478
              на покупку подержанного автомобиля        478
              на покупку автомобиля                     472
              приобретение автомобиля                   461
              сделка с автомобилем                      455
недвижимость  операции с недвижимостью                  675
              покупка коммерческой недвижимости         662
              операции с жильем                         652
              покупка жилья для сдачи                   652
              операции с коммерческой недвижимостью     650
              жилье                                     646
              покупка жилья                    

### Категоризация данных

In [50]:
#для анализа данных необходимо созать категорию по наличию детей
def children_group(kids):
    if kids==0:
        return 'нет детей'
    return 'дети есть'
#children(4)
data['kids']=data['children'].apply(children_group)
print(data['kids'].value_counts())

нет детей    14154
дети есть     7317
Name: kids, dtype: int64


У большинства нет детей.

##### - Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [18]:
data.pivot_table(index='kids',values='debt',aggfunc=['count','mean'])

Unnamed: 0_level_0,count,mean
Unnamed: 0_level_1,debt,debt
kids,Unnamed: 1_level_2,Unnamed: 2_level_2
дети есть,7329,0.092373
нет детей,14196,0.074951


Среди клиентов с детьми больше количестово "плохих" заемщиков, нежели у тех у кого нет детей (средний показатель выше). Зависимость прямая: есть дети - вероятность не выплаты долга выше

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [51]:
#расмотрим семейное положение
data.groupby('family_status')['family_status_id'].value_counts()

family_status          family_status_id
в разводе              3                    1195
вдовец / вдова         2                     959
гражданский брак       1                    4163
женат / замужем        0                   12344
не женат / не замужем  4                    2810
Name: family_status_id, dtype: int64

In [52]:
data.pivot_table(index='family_status',values=['debt'],aggfunc=['count','mean'])

Unnamed: 0_level_0,count,mean
Unnamed: 0_level_1,debt,debt
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2
в разводе,1195,0.07113
вдовец / вдова,959,0.065693
гражданский брак,4163,0.093202
женат / замужем,12344,0.075421
не женат / не замужем,2810,0.097509


In [53]:
data[['family_status','debt']].corr()

Unnamed: 0,debt
debt,1.0


In [54]:
(data.groupby('family_status')['debt']
.agg(['count', 'mean'])
.sort_values('count',ascending=False)
.style
.format({
    'mean': '{:,.1%}'.format,
})
.applymap(
     lambda x: 'background-color : red' if x>0.3 else '', 
     subset=['mean']))


Unnamed: 0_level_0,count,mean
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1
женат / замужем,12344,7.5%
гражданский брак,4163,9.3%
не женат / не замужем,2810,9.8%
в разводе,1195,7.1%
вдовец / вдова,959,6.6%


Большинство клиентов женаты/замужем и у них достаточно хороший показатель по выплате кредита. Больше всего не выплат по кредиту у тех кто не обременен семейными узами или кто официально не зарегистировал свои отношения
Зависимость прямая- женатые клиенты вызывают больше доверия

In [55]:
data.pivot_table(index='family_status',columns='kids',values=['debt'],aggfunc=['count','mean'])

Unnamed: 0_level_0,count,count,mean,mean
Unnamed: 0_level_1,debt,debt,debt,debt
kids,дети есть,нет детей,дети есть,нет детей
family_status,Unnamed: 1_level_3,Unnamed: 2_level_3,Unnamed: 3_level_3,Unnamed: 4_level_3
в разводе,407,788,0.07371,0.069797
вдовец / вдова,108,851,0.092593,0.06228
гражданский брак,1417,2746,0.112209,0.083394
женат / замужем,4842,7502,0.085502,0.068915
не женат / не замужем,543,2267,0.117864,0.092633


Если посмотреть наличие задолжности по наличию детей и семейному положению, то видна четкая тенденция увеличения задолжности у не замужних/женатых с детьми и самый низкий показатель у тех кто без детей в разводе или вдовец/вдова. Также не плохой показатель по задолжностям у семейных людей, но без детей.


##### - Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [61]:
data['income_group'] = pd.cut(data['total_income'],[0,10000,20000,300000,350000,375000,400000,410000])

In [64]:
data.groupby('income_group')['debt'].agg(['count','mean']).reset_index()

Unnamed: 0,income_group,count,mean
0,"(0, 10000]",17372,0.087267
1,"(10000, 20000]",260,0.030769
2,"(20000, 300000]",0,
3,"(300000, 350000]",1024,0.052734
4,"(350000, 375000]",1598,0.060075
5,"(375000, 400000]",1135,0.055507
6,"(400000, 410000]",82,0.04878


Группировка данных показывает , что чем выше доход - тем ниже задолжность у клиентов.

##### - Как разные цели кредита влияют на его возврат в срок?

In [65]:
data.pivot_table(index='purpose_new',values='debt',aggfunc=['count','mean'])

Unnamed: 0_level_0,count,mean
Unnamed: 0_level_1,debt,debt
purpose_new,Unnamed: 1_level_2,Unnamed: 2_level_2
авто,4308,0.093547
недвижимость,10814,0.072314
образование,4014,0.092177
свадьба,2335,0.079657


Больше возвращают кредит те клиенты которые берут деньги с целью покупки недвижимости и на свадьбу

In [66]:
data.pivot_table(index=['purpose_new','family_status'],values='debt',aggfunc=['count','mean'])

Unnamed: 0_level_0,Unnamed: 1_level_0,count,mean
Unnamed: 0_level_1,Unnamed: 1_level_1,debt,debt
purpose_new,family_status,Unnamed: 2_level_2,Unnamed: 3_level_2
авто,в разводе,281,0.074733
авто,вдовец / вдова,218,0.091743
авто,гражданский брак,434,0.117512
авто,женат / замужем,2738,0.083638
авто,не женат / не замужем,637,0.128728
недвижимость,в разводе,676,0.069527
недвижимость,вдовец / вдова,542,0.051661
недвижимость,гражданский брак,990,0.091919
недвижимость,женат / замужем,7010,0.06933
недвижимость,не женат / не замужем,1596,0.081454


Клиенты которые берут деньги с целью покупки авто - чаще возвращяют те кто в разводе, на покупку недвижимости - вдовец/вдова, образование - в разводе.

### Общий вывод

Для того чтобы приступить к анализу данных необходимо обработать и привести в порядок данные с которыми нужно работать. В DataFrame были выявлены пропуски и заменены на средние показатели, выявлены и изменены дубликаты. Для облегчения дальнейшего анализа создана категория клиентов по наличию детей.
Анализ данных показал, что задолженности по кредиту меньше всего у женатых либо разведенных людей и обязательно без детей. Чем выше доход- тем больше вероятность возвращения кредита. Меньшая задолженность у клиентов которые берут кредит на покупку недвижимости и свадьбу.
Больше всего задолженности у тех кто не замужем/женат или проживающие гражданским браком с детьми.