# Исследование надежности заемщиков


## Описание проекта

Я являюсь аналитиком, выполняющим заказ кредитного отдела банка.  Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.


### Входные данные

Мне дан датасет `data`, который включает в себя:

- `children` — количество детей в семье
- `days_employed` — общий трудовой стаж в днях
- `dob_years` — возраст клиента в годах
- `education` — уровень образования клиента
- `education_id` — идентификатор уровня образования
- `family_status` — семейное положение
- `family_status_id` — идентификатор семейного положения
- `gender` — пол клиента
- `income_type` — тип занятости
- `debt` — имел ли задолженность по возврату кредитов
- `total_income` — ежемесячный доход
- `purpose` — цель получения кредита

### Цели исследования: 

Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

## Предобработка данных

In [25]:
import pandas as pd


In [26]:
try:
    data = pd.read_csv('/datasets/data.csv')
except:
    data = pd.read_csv('https://code.s3.yandex.net/datasets/data.csv')

In [27]:
data.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [28]:
data.info()
data.isna().sum()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

В  столбцах `days_employed` и `total_income` находятся пропуски. На а сумму дохода сильнее всего влияет тип занятости, поэтому заполнить пропуски в этом столбце нужно медианным значением по каждому типу из столбца `income_type`. По такому же принципу заполню и другой столбец.

In [29]:
data.groupby('income_type')['total_income'].agg('median')

income_type
безработный        131339.751676
в декрете           53829.130729
госслужащий        150447.935283
компаньон          172357.950966
пенсионер          118514.486412
предприниматель    499163.144947
сотрудник          142594.396847
студент             98201.625314
Name: total_income, dtype: float64

In [30]:
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете           -3296.759962
госслужащий         -2689.368353
компаньон           -1547.382223
пенсионер          365213.306266
предприниматель      -520.848083
сотрудник           -1574.202821
студент              -578.751554
Name: days_employed, dtype: float64

Как можно заметить, что часть столбцов имеет отрицательное значение. Это скорее всего аномалия и следует её исправить

In [31]:
data['days_employed'] = data['days_employed'].abs()
data.groupby('income_type')['days_employed'].agg('median')

income_type
безработный        366413.652744
в декрете            3296.759962
госслужащий          2689.368353
компаньон            1547.382223
пенсионер          365213.306266
предприниматель       520.848083
сотрудник            1574.202821
студент               578.751554
Name: days_employed, dtype: float64

In [32]:
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['total_income'].isna()), 'total_income'] = \
    data.loc[(data['income_type'] == t), 'total_income'].median()
    
for t in data['income_type'].unique():
    data.loc[(data['income_type'] == t) & (data['days_employed'].isna()), 'days_employed'] = \
    data.loc[(data['income_type'] == t), 'days_employed'].median()    
    
data.isna().sum()    

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

Проверю на аномалие столбцец с информацией по количеству детей.

In [33]:
data['children'].unique()

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

In [34]:
data = data[(data['children'] != -1) & (data['children'] != 20)]
data['children'].unique()

array([1, 0, 3, 2, 4, 5], dtype=int64)

Изменю тип данных в столбце `total_income`

In [35]:
data['total_income'] = data['total_income'].astype(int)

При просмотре датафрейма, было замечено, что строки в столбце `education` могут быть записаны заглавными буквами. Исправлю это

In [36]:
data['education'] = data['education'].str.lower()

Проверю датафрейм на дубликаты и при необходимости удалю их

In [37]:
print('Количество дубликатов в датафрейме:', data.duplicated().sum())
data = data.drop_duplicates()
print('Количество дубликатов в датафрейме:', data.duplicated().sum())

Количество дубликатов в датафрейме: 71
Количество дубликатов в датафрейме: 0


На основании диапазонов, указанных ниже, создам в датафрейме `data` столбец `total_income_category` с категориями платежеспособности

- 0–30000 — `'E'`;
- 30001–50000 — `'D'`;
- 50001–200000 — `'C'`;
- 200001–1000000 — `'B'`;
- 1000001 и выше — `'A'`.

In [44]:
def categorize_income(income):
    try:
        if 0 <= income <= 30000:
            return 'E - до 30 тысяч '
        elif 30001 <= income <= 50000:
            return 'D - до 50 тысяч'
        elif 50001 <= income <= 200000:
            return 'C - до 200 тысяч'
        elif 200001 <= income <= 1000000:
            return 'B - до 1 миллиона' 
        elif income >= 1000001:
            return 'A - более 1 миллиона'
    except:
        pass

data['total_income_category'] = data['total_income'].apply(categorize_income)
data.info()
data.head()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21331 entries, 0 to 21524
Data columns (total 13 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   children               21331 non-null  int64  
 1   days_employed          21331 non-null  float64
 2   dob_years              21331 non-null  int64  
 3   education              21331 non-null  object 
 4   education_id           21331 non-null  int64  
 5   family_status          21331 non-null  object 
 6   family_status_id       21331 non-null  int64  
 7   gender                 21331 non-null  object 
 8   income_type            21331 non-null  object 
 9   debt                   21331 non-null  int64  
 10  total_income           21331 non-null  int32  
 11  purpose                21331 non-null  object 
 12  total_income_category  21331 non-null  object 
dtypes: float64(1), int32(1), int64(5), object(6)
memory usage: 2.2+ MB


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,B - до 1 миллиона
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,C - до 200 тысяч
2,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,C - до 200 тысяч
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,B - до 1 миллиона
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,C - до 200 тысяч


Изучу цели взятия кредита

In [42]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Добавлю еще одну категорию для целей:
- `'операции с автомобилем'`,
- `'операции с недвижимостью'`,
- `'проведение свадьбы'`,
- `'получение образования'`.
    

In [45]:
def categorize_purpose(row):
    try:
        if 'автом' in row:
            return 'операции с автомобилем'
        elif 'жил' in row or 'недвиж' in row:
            return 'операции с недвижимостью'
        elif 'свад' in row:
            return 'проведение свадьбы'
        elif 'образов' in row:
            return 'получение образования'
    except:
        return 'нет категории'
data['purpose_category'] = data['purpose'].apply(categorize_purpose)
data.info()
data.head()

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21331 entries, 0 to 21524
Data columns (total 14 columns):
 #   Column                 Non-Null Count  Dtype  
---  ------                 --------------  -----  
 0   children               21331 non-null  int64  
 1   days_employed          21331 non-null  float64
 2   dob_years              21331 non-null  int64  
 3   education              21331 non-null  object 
 4   education_id           21331 non-null  int64  
 5   family_status          21331 non-null  object 
 6   family_status_id       21331 non-null  int64  
 7   gender                 21331 non-null  object 
 8   income_type            21331 non-null  object 
 9   debt                   21331 non-null  int64  
 10  total_income           21331 non-null  int32  
 11  purpose                21331 non-null  object 
 12  total_income_category  21331 non-null  object 
 13  purpose_category       21331 non-null  object 
dtypes: float64(1), int32(1), int64(5), object(7)
memory us

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,B - до 1 миллиона,операции с недвижимостью
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,C - до 200 тысяч,операции с автомобилем
2,0,5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,C - до 200 тысяч,операции с недвижимостью
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,B - до 1 миллиона,получение образования
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,C - до 200 тысяч,проведение свадьбы


### Вывод

По итогу работы выполнены следующие действия - данные приведены к стилистически верному типу, удалены пропуски и дубликаты, убраны аномальные значения, добавлены категории для работы

## Анализ данных

Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [46]:
children_and_credit = data.pivot_table(index = ['children'], values = 'debt', aggfunc = {'count','sum'})
children_and_credit = children_and_credit.rename(columns={'count':'total','sum':'target'})
children_and_credit['share'] = round(children_and_credit['target']/children_and_credit['total'], 3)
children_and_credit = children_and_credit.sort_values(by='share', ascending = False)
display(children_and_credit)

Unnamed: 0_level_0,total,target,share
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
4,41,4,0.098
2,2052,194,0.095
1,4808,444,0.092
3,330,27,0.082
0,14091,1063,0.075
5,9,0,0.0


### Краткий вывод

Количество детей напрямую влияет как на возможность выплачивать кредит, так и на решение банка выдавать ли его клиенту.

Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [47]:
family_and_credit = data.pivot_table(index = [ 'family_status'], values = 'debt', aggfunc = {'count','sum'})
family_and_credit = family_and_credit.rename(columns={'count':'total','sum':'target'})
family_and_credit['share'] = round(family_and_credit['target']/family_and_credit['total'], 3)
family_and_credit = family_and_credit.sort_values(by='share', ascending=False)
display(family_and_credit)# Ваш код будет здесь. Вы можете создавать новые ячейки.

Unnamed: 0_level_0,total,target,share
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Не женат / не замужем,2796,273,0.098
гражданский брак,4134,385,0.093
женат / замужем,12261,927,0.076
в разводе,1189,84,0.071
вдовец / вдова,951,63,0.066


### Краткий вывод

Семейное положение сильно влияет на надежность клиента. В случае если клиент один или находится в гражданском браке, он является менее благонадежным, нежели лицо, которое закрепило свои отношение

Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [48]:
rich_and_credit = data.pivot_table(index = ['total_income_category'], values = 'debt', aggfunc = {'count','sum'})
rich_and_credit = rich_and_credit.rename(columns={'count':'total','sum':'target'})
rich_and_credit['share'] = round(rich_and_credit['target']/rich_and_credit['total'], 3)
rich_and_credit = rich_and_credit.sort_values(by='total_income_category', ascending=False)
display(rich_and_credit)

Unnamed: 0_level_0,total,target,share
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
E - до 30 тысяч,22,2,0.091
D - до 50 тысяч,349,21,0.06
C - до 200 тысяч,15921,1353,0.085
B - до 1 миллиона,5014,354,0.071
A - более 1 миллиона,25,2,0.08


Считаю, для более точного вывода не хватает важной информации - в какой момент времени была сделана выгрузка. Вернемся к выводу из начала проекта. Постараемся слегка разобраться.

In [49]:
data_moment = (data['income_type'].value_counts())
display(data_moment)

сотрудник          11015
компаньон           5047
пенсионер           3812
госслужащий         1451
безработный            2
предприниматель        2
студент                1
в декрете              1
Name: income_type, dtype: int64

Ввиду того, в базе практически отсутствуют лица в категориях "безработный", "предприниматель", "в декрете", "студент", выдвигаю предположение, что данные о лицах не обновлялись после получения кредита, так как данные категории лиц являются наименее благонадежными.

### Краткий вывод

Cуществует четкая взаимосвязь между доходами клиента и его расходами, однако ввиду отсутствия такой информации о том, как изменилась жизненная ситуация у клиентов банка (потеря работы, смерть одного из членов семьи или наоборот, появлении нового и т.п.) сложно сделать однозначный вывод.

Как разные цели кредита влияют на его возврат в срок?¶

In [51]:
credit_purpose = data.pivot_table(index = [ 'purpose_category'], values = 'debt', aggfunc = {'count','sum'})
credit_purpose = credit_purpose.rename(columns={'count':'total','sum':'target'})
credit_purpose['share'] = round(credit_purpose['target']/credit_purpose['total'], 3)
credit_purpose = credit_purpose.sort_values(by='share', ascending=True)
display(credit_purpose)

Unnamed: 0_level_0,total,target,share
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с недвижимостью,10751,780,0.073
проведение свадьбы,2313,183,0.079
операции с автомобилем,4279,400,0.093
получение образования,3988,369,0.093


### Краткий вывод
Цель кредиования влияет на шанс его выплаты.

### Какие возможные причины появления пропусков в исходных данных?

Из начала проекта нам известно, что пропуски есть в столбцах с общим трудовым стажем и ежемесячный доход.  Более того, значение пропусков одинаковое. 

По первому пункту можно сказать, что люди зачастую могут не помнить свой общий трудовой стаж, не хотят разглашать информацию и т.д. и тому подобное. Иными словами - причиной пропусков в данном столбце являются сами клиенты.

С другой стороны, на вопрос о среднем уровне доходов сотрудник банка обязан узнать, либо же, если клиент имеет зарплатный проект в банке или использует банк-кредитор как основной. Иными словами - данная информация однозначно должна быть в базе.

Из этого делаю вывод, что в самой системе, из которой выгружена база, есть некая связь между данными и в случае отсутствия одного из значений, данные о доходе не сохраняются в системе. 

### Почему заполнить пропуски медианным значением — лучшее решение для количественных переменных?

Ввиду того, что среднее арифметическое не берет в расчет разброс данных, могла произойти ситуация с некорректным заполнением пропусков.

## Итоги исследования

Разберем возможные связи каждой из групп в порядке возрастание благонадежности клиента. При анализе я учитываю, что хоть нам и известна цель кредита, нам неизвестна его форма - потребительский ли это кредит, кредитная карта, рассрочка, ипотека и т.д.

Наименее благонадежными являются одинокие люди. Это может быть связанно со многими факторами, например с тем, что это молодые девушки и юноши, которые не смогли рассчитать свои расходы, они взяли кредит изначально не планируя его выплачивать и т.д.

Следующей группой являются лица в гражданском браке. Особенность данный формой сожительства является то, что хоть данные лица в большинстве своем ведут совместный бюджет, они не разделяют кредитные обязательства. Предполагаю, что хоть нагрузка на бюджет каждого из члена пары и становится легче, это не является достаточным фактором для снижения количества просрочек.

Резкий скачок мы наблюдаем с группы лиц, которые находятся в браке. Имея общий семейный бюджет, этой категории людей намного проще выплачивать по своим обязательствам.

Люди, находящиеся в разводе, зачастую стараются погасить кредиты как можно быстрее, так как один из них может являться поручителем, либо, в случае развода в судебном порядке, кредитные обязательства могли быть разъединены, что также стимулирует к скорейшему закрытию своих обязательств.

Наименее рискованной группой лиц являются вдовцы/вдовы. Зачастую кредиты имеют страховку, гарантирующие, что в случае смерти клиента банка, его долговые обязательства не передаются по наследству, либо другие послабляющие факторы, например перерасчет кредита. Банки, в данной ситуации, стараются вернуть максимум из возможного, так что людям довольно часто легко закрыть долг. С другой стороны и сами клиенты, если они являются вдовцами/вдовами, не стремятся брать кредит, а сами банки его выдавать, так как семейный бюджет сократился, а расходы на содержание, например ребенка, никуда не делись.

В данном случае произведем сортировку по мере роста доходов клиента банка и проведем краткий анализ и выдвенем предположения относительно благонадежности лица.

Лица с доходом менее тридцати тысяч являются наименее благонадежными клиентами. Надо отметить, что их малое количество в базе может быть следствием низкого дохода, а значит нежеланием банка рисковать выдачей кредита. Предполагаю, что лица с низким уровня дохода могут регулярно оказываться в ситуации, когда возникают непредвиденные, но обязательные траты, что приводит к невозможности внесения платежа.

Резкий спад мы наблюдаем у лиц с доходом от тридцати до пятидесяти тысяч рублей. Такие клиенты являются более благонадежными, так как их бюджет позволяет откладывать на неожиданные расходы, что позволяет избежать большинства ситуаций с невозможностью выплат.

В категории С можно вновь наблюдать резкий скачок благонадежности, но уже в отрицательную сторону. Кажется, что с увеличением доходов, финансовая подушка безопасности должна быть больше, а значит возможность выплачивать кредит выше, но этого не наблюдается.

Отметим предпринимателй - зачастую ИП не могут брать кредит на самих себя как ФИЗ-лицо и пользуются услугами юридической службы банка. Если же мы говорим о владельце бизнеса, зарегистрированного как ЮР-лицо, то практически всегда он является сотрудником компании.

Из этого делаю вывод, что определить влияли ли какие-то внешние факторы, например экономические или политические кризисы, природные катаклизмы и т.п., не представляется возможным.

Возвращаясь к группе С - предполагаю, что данные лица могли взять дополнительные кредиты и не рассчитать свою финансовую безопасность, что и привело к увеличению просрочек. С другой стороны, возможно из-за финансовой подушки или других факторов, им легче дается погашение кредита нежели группе Е

Вновь мы видим спад долгов в группе B. Считаю, что причины примерно такие же, как и в группе D.

Аналогичная ситуация и в группе А - вновь подъем неблагонадежности. Могу предположить, что данные лица владельцы бизнеса и начали испытывать трудности в своей деятельности.

Операции с недвижемостью являются наиболее благонадежными, т.к. зачастую сама недвижимость является залогом кредита, причем безопасным - шанс потери имущества крайне низок. С другой стороны данный залог является наиболее ценным у клиента, так как потерять место для жилья никому не хочется, что и побуждает к выплате кредитов.

Проведение свадьбы - предполагаю, что это небольшие или краткосрочные кредиты, которые можно погасить достаточно просто. Считаю, что небольшой рост рисков может быть связан с финансовой неграмотностью, малой подушкой финансов или внезапными событиями.

Резкий скачок можно наблюдать у авто-группы. Автомобиль - имущество с рисками, он может поломаться, возможно ДТП и много других факторов. При этом это же имущество может являться источником дохода и проблемы с ним приводят к невозможности выплаты кредитов.

Ситуация с получением образования несколько иная. Как мы видели из вывода выше, на момент взятия кредита, количество безработных или студентов можно списать на статистическую ошибку. Следовательно - люди, которые брали данный кредит, уже имели источник дохода, а получение образования является попыткой улучшить условия жизни.

И опять же, нам неизвестно, сколько времени прошло между получением кредита и возникновением задолженности, что не позволяет ответить на вопрос - окончилось ли обучение у данных людей и с каким итогом. Предположу, что либо у должников процесс обучения еще не закончен и они не могут применить новые знания в работе, либо он окончился, но результат не оправдал себя - клиент не смог изменить уровень своего дохода в лучшую сторону.

## Результаты исследования


Я считаю, что очень сложно сделать окончательный вывод, так как у нас нет возможности сравнить данные о клиенте банка на момент взятия кредита и возникновения просрочек. Однако, если делать вывод, опираясь на идею, что статусы клиентов не меняются (не считая возраста) на протяжении всего срока кредитования, то можно сказать следующее.

Если объединить все показатели наиболее благожелательного клиента, то это человек в разводе или вдовец, с тремя, пятью или без детей, при этом его заработок составляет до 50000 и кредит он берёт для покупки жилья. В среднем выходит человек с тремя детьми, находящийся в разводе, заработок меньше 50000 тысяч из-за алиментов, при этом он берет кредит на покупку жилья. 

Как можно заметить, как раз такому типу людей банк вряд ли одобрит кредит.

Но это не говорит, что есть какая-то ошибка в данных. Убежден, во-первых данные (кроме заполненных пропусков) актуальны, во-вторых - сочетание некоторых факторов действительно может помочь в оценке благонадежности клиента.

Однако, без сравнения двух баз, сделать действительно хороший скоринг невозможно.

Мой вывод таков: будь я аналитиком, который столкнулся с данной задачей - я бы запросил две базы, а именно статус клиентов на момент получения кредита и статус клиента на момент закрытия кредита, после их сравнения можно было бы дать более точный ответ на вопрос "Влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок?" 

Но если ограничиваться лишь данной базой, то ответ будет следующим - **Да, семейное положение и количество детей влияет на факт погашения кредита в срок.**


