## Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка.   
Задача — разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок.  

Входные данные от банка — статистика о платёжеспособности клиентов. В данном исследовании представлено несколько таблиц, позволяющих оценить способность потенциального заёмщика вернуть кредит банку.



#### Часть 1. Подготовка
* [1.Изучение файлов, предоставленных банком, получение общей информации.](#part1)

#### Часть 2. Предобработка данных
* [1. Обработка пропусков.](#part2.1)
* [2. Замена типов данных.](#part2.2)
* [3. Удаление дубликатов](#part2.3)
* [4. Лемматизация](#part2.4)
* [5. Категоризация](#part2.5)

#### Часть 3. Результаты обработки данных
* [1. Зависимость между наличием детей и возвратом кредита в срок](#part3.1)
* [2. Зависимость между семейным положением и возвратом кредита в срок](#part3.2)
* [3. Зависимость между уровнем дохода и возвратом кредита в срок](#part3.3)
* [4. Зависимость между целью кредита и возвратом кредита в срок](#part3.4)


#### [Общий вывод](#part4)





## Часть 1. Подготовка.
<a id='part1'></a>
### Изучение файлов, предоставленных банком, получение общей информации.

In [1]:
#импорт библиотек и открытие файла
import matplotlib.pyplot as plt
import pandas as pd
data = pd.read_csv('/datasets/data.csv')


#перевод стажа к одному виду - положительное число в годах и последующее переименование столбца
data.loc[data['days_employed'] > 0, 'days_employed'] = data['days_employed'] / 24 / 365
data.loc[data['days_employed'] < 0, 'days_employed'] = data['days_employed'] * (-1) / 365
data.rename(columns={'days_employed': 'years_employed', 'dob_years':'age'}, inplace=True)
data.info()

print(data.head(20))

print(data['children'].value_counts())
print(data['education'].value_counts())
print(data['education_id'].value_counts())
print(data['family_status'].value_counts())
print(data['family_status_id'].value_counts())
print(data['gender'].value_counts())
print(data['income_type'].value_counts())
print(data['debt'].value_counts())
print(data['total_income'].value_counts())
print(data['purpose'].value_counts())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
years_employed      19351 non-null float64
age                 21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB
    children  years_employed  age            education  education_id  \
0          1       23.116912   42               высшее             0   
1          1       11.026860   36              среднее             1   
2          0       15.406637   33              Среднее             1   
3          3       11.300677   32       

### Вывод

Присутствуют пропуски в столбцах 'days_employed' и 'total_income'. Переменные количественные, следовательно можно заполнить пропуски характерными значениями. 

В столбце 'days_employed' представлены данные двух типов: отрицательный стаж в днях и положительный стаж в часах. В первую очередь необходимо привести столбец к одному виду - положительному количеству дней.

Стаж и ежемесячный доход хранятся в переменных типа float, что не имеет смысла. Можно заменить на int. Также можно перевести стаж в днях в стаж в годах.

В столбце 'education' за счет разного регистра встречается различное написание одинаковых значений. Следовательно, перед удалением дубликатов необходимо все привести к одному виду.


<a id='part2'></a>
## Часть 2. Предобработка данных.

<a id='part2.1'></a>
### Обработка пропусков

Причиной появления пропусков в данных могли быть не указывания этих данных при подаче заявки на кредит.

Пропуски в стаже будем заполнять усреднением стажа людей, близких по возрасту (с разницей не больше 2 лет), и имеющих такое же образование.

Пропуски в доходе заполним медианой дохода людей, имеющих схожий стаж (с разницей не больше 2 лет) и имеющих такой же тип занятости.

В процессе обработки данных о возрасте оказалось, что в 101 случае возраст не был указан. Заполним это значение средним.

В столбце "Тип занятости" присутствует 8 типов занятости, причем 4 из них встречаются 1 или 2 раза. На фоне общей выборки эти данные не имеют значения, поэтому удаляем.

В столбце 'children' 76 человек указало, что у них 20 детей. Это явный артефакт, поэтому эти строки можно удалить.
Также в столбце 'children' присутствуют отрицательные значения (47 значений). Эти значения тоже удалим.

In [2]:
# считаем количество людей, не указавших возраст.
print(data['age'][data['age'] < 18].count())
# Заполняем эти значения средним
data.loc[data['age'] == 0, 'age'] = data['age'].mean()

print(data['children'].value_counts())

# Удаляем лишние строки
data = data.loc[(data['income_type'] != 'предприниматель') &
                (data['income_type'] != 'безработный') &
                (data['income_type'] != 'в декрете') &
                (data['income_type'] != 'студент') &
                (data['children'] != 20) &
                (data['children'] != -1)]
#убеждаемся, что осталось 4 типа занятости
print(data['income_type'].value_counts())


# функция для заполнения пропусков в стаже средними значениями стажа людей с таким же образованием и возрастом +- 1 год
def fill_years_employed(row):
    years_employed = row['years_employed']
    education_id = row['education_id']
    age = row['age']
    if pd.isnull(years_employed):
        return data['years_employed'].loc[(data['age'] <= age + 1) &
                                          (data['age'] >= age - 1) &
                                          (data['education_id'] == education_id)].mean()
    else:
        return years_employed

#применяем функцию, создаем новый столбец с данными и заменяем данные в старом столбце на новые
data['new_years_employed'] = data.apply(fill_years_employed, axis=1)
data['years_employed'] = data['new_years_employed']


# функция для заполнения пропусков в доходе медианой значений дохода людей с таким же типом занятости и стажем +- 1 год
def fill_total_income(row):
    total_income = row['total_income']
    years_employed = row['years_employed']
    income_type = row['income_type']
    education_id = row['education_id']

    if pd.isnull(total_income):
        counted_income = data['total_income'].loc[(data['years_employed'] <= years_employed + 2) &
                                                  (data['years_employed'] >= years_employed - 2) &
                                                  (data['income_type'] == income_type)].median()
        if not pd.isnull(counted_income):
            return counted_income
        else:
            # если не получается заполнить значения исходя из типа занятости, используем стаж и образование
            return data['total_income'].loc[(data['years_employed'] <= years_employed + 2) &
                                            (data['years_employed'] >= years_employed - 2) &
                                            (data['education_id'] == education_id)].median()
    else:
        return total_income

#применяем функцию, создаем новый столбец с данными и заменяем данные в старом столбце на новые
data['new_total_income'] = data.apply(fill_total_income, axis=1)
data['total_income'] = data['new_total_income']

#удаляем вспомогательные столбцы
data.drop(['new_total_income', 'new_years_employed'], axis='columns', inplace=True)

data.info()

101
 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64
сотрудник      11050
компаньон       5054
пенсионер       3839
госслужащий     1453
Name: income_type, dtype: int64


  return np.nanmean(a, axis, out=out, keepdims=keepdims)


<class 'pandas.core.frame.DataFrame'>
Int64Index: 21396 entries, 0 to 21524
Data columns (total 12 columns):
children            21396 non-null int64
years_employed      21396 non-null float64
age                 21396 non-null float64
education           21396 non-null object
education_id        21396 non-null int64
family_status       21396 non-null object
family_status_id    21396 non-null int64
gender              21396 non-null object
income_type         21396 non-null object
debt                21396 non-null int64
total_income        21396 non-null float64
purpose             21396 non-null object
dtypes: float64(3), int64(4), object(5)
memory usage: 2.1+ MB


#### Вывод

В результате обработки были заполнены пропуски в столбцах: возраст, стаж и средний доход заемщиков. 

Значения были выбраны близкими по смыслу, что является наиболее подходящим методом для этой задачи.

Это действие дает возможность более полно провести последующую обработку и ответить на ключевые вопросы заказчика.

<a id='part2.2'></a>
### Замена типа данных

Как было сказано выше, стаж и ежемесячный доход хранятся в переменных типа float. И то и другое значение стоит заменить на тип int, чтобы не учитывать копейки в ежемесячном доходе и месяца в стаже.
В результате заполнения столбца "возраст" средним значением, его тип сменился на float. Его тоже переведем в int.

In [3]:
data['years_employed'] = data['years_employed'].astype(int)
data['total_income'] = data['total_income'].astype(int)
data['age'] = data['age'].astype(int)
data.info()
print(data.head(20))

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21396 entries, 0 to 21524
Data columns (total 12 columns):
children            21396 non-null int64
years_employed      21396 non-null int64
age                 21396 non-null int64
education           21396 non-null object
education_id        21396 non-null int64
family_status       21396 non-null object
family_status_id    21396 non-null int64
gender              21396 non-null object
income_type         21396 non-null object
debt                21396 non-null int64
total_income        21396 non-null int64
purpose             21396 non-null object
dtypes: int64(7), object(5)
memory usage: 2.1+ MB
    children  years_employed  age            education  education_id  \
0          1              23   42               высшее             0   
1          1              11   36              среднее             1   
2          0              15   33              Среднее             1   
3          3              11   32              среднее  

#### Вывод

Теперь все данные имеют либо тип int, либо object.

<a id='part2.3'></a>
### Обработка дубликатов

В первую очередь посчитаем количество дубликатов методом duplicated.

Удаляем дубликаты из столбца education

In [4]:
print(data['education'].value_counts())
print(data['income_type'].value_counts())
print(data['family_status'].value_counts())


#
#приводим столбец education к одному виду методом lower
data['education'] = data['education'].str.lower()
print('Обнаружено дубликатов:',data.duplicated().sum())
#удаляем дубликаты
data = data.drop_duplicates().reset_index(drop=True)

среднее                13666
высшее                  4695
СРЕДНЕЕ                  765
Среднее                  703
неоконченное высшее      665
ВЫСШЕЕ                   271
Высшее                   267
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64
сотрудник      11050
компаньон       5054
пенсионер       3839
госслужащий     1453
Name: income_type, dtype: int64
женат / замужем          12299
гражданский брак          4158
Не женат / не замужем     2798
в разводе                 1189
вдовец / вдова             952
Name: family_status, dtype: int64
Обнаружено дубликатов: 71


#### Вывод

Удален 71 дубликат.

Возможные причины появления дубликатов:
1. Подача нескольких заявлений в разных отделениях банка
2. Ошибки ввода данных (при вводе значений образования в разных регистрах)

<a id='part2.4'></a>
### Лемматизация

In [5]:
# Проведем лемматизацию целей кредита с помощью библиотеки pymystem3 и выведем данные в отдельный столбец
from pymystem3 import Mystem
m = Mystem()
data['lemmas'] = data['purpose'].apply(m.lemmatize)
#изучаем полученные леммы
print(data['lemmas'].value_counts())

[автомобиль, \n]                                          966
[свадьба, \n]                                             790
[на,  , проведение,  , свадьба, \n]                       762
[сыграть,  , свадьба, \n]                                 760
[операция,  , с,  , недвижимость, \n]                     672
[покупка,  , коммерческий,  , недвижимость, \n]           658
[покупка,  , жилье,  , для,  , сдача, \n]                 648
[операция,  , с,  , жилье, \n]                            647
[операция,  , с,  , коммерческий,  , недвижимость, \n]    645
[жилье, \n]                                               641
[покупка,  , жилье, \n]                                   640
[покупка,  , жилье,  , для,  , семья, \n]                 637
[недвижимость, \n]                                        631
[строительство,  , собственный,  , недвижимость, \n]      627
[операция,  , со,  , свой,  , недвижимость, \n]           623
[строительство,  , жилой,  , недвижимость, \n]            620
[строите

#### Вывод

В результате лемматизации был получен список целей кредита, глядя на которые можно выделить четыре категории.

<a id='part2.5'></a>
### Категоризация данных

In [17]:
#определим категории целей кредита: "автомобиль", "свадьба", "недвижимость", "образование"
#функция, определяющая категорию цели кредита

def purpose_cat(row):
    lemmas = row['lemmas']
    
    for i in range(len(lemmas)):
        if lemmas[i] == 'автомобиль':
            return 'автомобиль'
        if lemmas[i] == 'свадьба':
            return 'свадьба'
        if lemmas[i] == 'образование':
            return 'образование'
        if lemmas[i] == 'недвижимость' or lemmas[i] == 'жилье':
            return 'недвижимость'
data['purpose_cat'] = data.apply(purpose_cat, axis=1)
#print(data)
#data.head(5)
print(data['purpose_cat'].value_counts())

недвижимость    10747
автомобиль       4278
образование      3988
свадьба          2312
Name: purpose_cat, dtype: int64


In [7]:
data.head(5)

Unnamed: 0,children,years_employed,age,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemmas,purpose_cat
0,1,23,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,"[покупка, , жилье, \n]",недвижимость
1,1,11,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,"[приобретение, , автомобиль, \n]",автомобиль
2,0,15,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,"[покупка, , жилье, \n]",недвижимость
3,3,11,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,"[дополнительный, , образование, \n]",образование
4,0,38,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,"[сыграть, , свадьба, \n]",свадьба


#### Вывод

В результате категоризации каждому заемщику присвоена одна из четырех категорий кредита: "автомобиль", "свадьба", "недвижимость", "образование".

## Часть 3. Результаты обработки данных.
<a id='part3.1'></a>
### Зависимость между наличием детей и возвратом кредита в срок.

In [8]:
#print(data['children'].value_counts())

# посчитаем количество бездетных всего
child_no = data['children'].loc[(data['children'] == 0)].count()
# посчитаем количество бездетных, не выплативших кредит
child_no_debt_yes = data['children'].loc[(data['children'] == 0) & (data['debt'] == 1)].count()

# посчитаем количество с детьми всего
child_yes = data['children'].loc[(data['children'] != 0)].count()
# посчитаем количество с детьми, не выплативших кредит
child_yes_debt_yes = data['children'].loc[(data['children'] != 0) & (data['debt'] == 1)].count()

print('Всего бездетных:', child_no)
print('Всего бездетных с задолженностями:', child_no_debt_yes)
print('Бездетных с задолженностями: {:.1%}'.format(child_no_debt_yes / child_no))
print('')
print('Всего с детьми:', child_yes)
print('Всего с детьми с задолженностями:', child_yes_debt_yes)
print('С детьми с задолженностями: {:.1%}'.format(child_yes_debt_yes / child_yes))



Всего бездетных: 14087
Всего бездетных с задолженностями: 1063
Бездетных с задолженностями: 7.5%

Всего с детьми: 7238
Всего с детьми с задолженностями: 667
С детьми с задолженностями: 9.2%


#### Вывод

Люди, имеющие детей, не выплачивают кредит на 1.7% чаще.

<a id='part3.2'></a>
### Зависимость между семейным положением и возвратом кредита в срок.

In [9]:
#функция для подсчета количества должников
def family_status_and_debt(family_status):
    #общее число с выбранным статусом
    total = data['family_status'].loc[(data['family_status'] == family_status)].count()
    #число должников с выбранным статусом
    total_debt = data['family_status'].loc[(data['family_status'] == family_status) & (data['debt'] == 1)].count()
    
    return [total, total_debt, total_debt / total]

#создадим таблицу для вывода
data_family_status = pd.DataFrame(columns=['Всего заемщиков', 'Всего должников', 'Отношение'])
j=0
for i in data['family_status'].unique():
    data_family_status.loc[j] = family_status_and_debt(i)
    j+=1
#переименуем индексы
data_family_status.index = data['family_status'].unique()
#отсортируем по убыванию и сделаем вывод в %
data_family_status = data_family_status.sort_values(by='Отношение', ascending=False)
print(data_family_status.to_string(formatters={'Отношение':'{:,.1%}'.format}))


                       Всего заемщиков  Всего должников Отношение
Не женат / не замужем           2795.0            273.0      9.8%
гражданский брак                4132.0            385.0      9.3%
женат / замужем                12258.0            925.0      7.5%
в разводе                       1189.0             84.0      7.1%
вдовец / вдова                   951.0             63.0      6.6%


#### Вывод

Холостые и стостоящие в гражданском браке платят хуже всех (9.8% и 9.3% соответственно).

Лучше всех кредиты выплачивают вдовцы(6.6%).

<a id='part3.3'></a>
### Зависимость между уровнем дохода и возвратом кредита в срок.

In [10]:
print('Медианный среднемесячный доход:',data['total_income'].median())

# Разделим доход на 5 групп с разными доходами:
def income_id(row):
    total_income = row['total_income']
    inc_med = data['total_income'].median()
    if total_income <= 0.5 * inc_med:
        return 'Низкий'
    if inc_med * 0.8 >= total_income >= 0.5 * inc_med:
        return 'Ниже среднего'
    if inc_med * 1.2 >= total_income >= 0.8 * inc_med:
        return 'Средний'
    if inc_med * 1.5 >= total_income >= 1.2 * inc_med:
        return 'Выше среднего'
    if total_income >= 1.5 * inc_med:
        return 'Высокий'
data['total_income_id'] = data.apply(income_id, axis=1)

# функция для подсчета количества должников
def income_id_and_debt(total_income_id):
    #общее число с выбранным статусом
    total = data['total_income_id'].loc[(data['total_income_id'] == total_income_id)].count()
    #число должников с выбранным статусом
    total_debt = data['total_income_id'].loc[(data['total_income_id'] == total_income_id) & (data['debt'] == 1)].count()
    
    return [total, total_debt, total_debt / total]


#создадим таблицу для вывода
data_income_id = pd.DataFrame(columns=['Всего заемщиков', 'Всего должников', 'Отношение'])
j=0
for i in data['total_income_id'].unique():
#    #print(i)
    data_income_id.loc[j] = income_id_and_debt(i)
    j+=1

#переименуем индексы
data_income_id.index = data['total_income_id'].unique()

#отсортируем по убыванию и сделаем вывод в %
data_income_id = data_income_id.sort_values(by='Отношение', ascending=False)
print(data_income_id.to_string(formatters={'Отношение':'{:,.1%}'.format}))



Медианный среднемесячный доход: 145667.0
               Всего заемщиков  Всего должников Отношение
Средний                 7587.0            668.0      8.8%
Ниже среднего           4855.0            413.0      8.5%
Выше среднего           3153.0            243.0      7.7%
Высокий                 4057.0            290.0      7.1%
Низкий                  1673.0            116.0      6.9%


#### Вывод

Хуже всего кредит выплачивают люди со средним доходом (0.8-1.2 медианы) и доходом ниже среднего(0.5-0.8 медианы).
Лучше всего кредит выплачивают люди с низким доходом(<0.5 медианы).

<a id='part3.4'></a>
### Зависимость между целью кредита и возвратом кредита в срок.

In [11]:
# создадим сводную таблицу с разделением по категориям цели кредита
data_pivot = data.pivot_table(index=['purpose_cat', 'purpose'], columns='debt', aggfunc='size', fill_value=0)
data_pivot[0] = data_pivot[0] + data_pivot[1]
data_pivot['%'] = data_pivot[1] / data_pivot[0]
data_pivot.columns=['Всего заемщиков', 'Всего должников', 'Отношение']
# создадим таблицу с обобщенными данными по всем категориям
data_cat = data_pivot.sum(level='purpose_cat')
data_cat['Отношение'] = data_cat['Всего должников'] / data_cat['Всего заемщиков']
# вывод обеих таблиц
print(data_cat.to_string(formatters={'Отношение':'{:,.1%}'.format}))
print(data_pivot.to_string(formatters={'Отношение':'{:,.1%}'.format}))

              Всего заемщиков  Всего должников Отношение
purpose_cat                                             
автомобиль               4278              399      9.3%
недвижимость            10747              779      7.2%
образование              3988              369      9.3%
свадьба                  2312              183      7.9%
                                                     Всего заемщиков  Всего должников Отношение
purpose_cat  purpose                                                                           
автомобиль   автомобили                                          476               44      9.2%
             автомобиль                                          490               40      8.2%
             на покупку автомобиля                               469               44      9.4%
             на покупку подержанного автомобиля                  471               35      7.4%
             на покупку своего автомобиля                        504              

#### Вывод

Люди, взявшие кредит на образование или автомобиль, выплачивали кредит хуже, чем люди, взявшие кредит на проведение свадьбы или недвижимость.

In [12]:
# создадим сводную таблицу с разделением по категориям цели кредита
data_pivot1 = data.pivot_table(index=['purpose_cat'], columns='debt', aggfunc='size', fill_value=0)
data_pivot1[0] = data_pivot1[0] + data_pivot1[1]
data_pivot1['%'] = data_pivot1[1] / data_pivot1[0]
data_pivot1.columns=['Всего заемщиков', 'Всего должников', 'Отношение']
print(data_pivot1.to_string(formatters={'Отношение':'{:,.1%}'.format}))

              Всего заемщиков  Всего должников Отношение
purpose_cat                                             
автомобиль               4278              399      9.3%
недвижимость            10747              779      7.2%
образование              3988              369      9.3%
свадьба                  2312              183      7.9%


<a id='part4'></a>
### Общий вывод.

Была проведена предобработка данных о платежеспособности клиентов. Заполнены пропуски, удалены дубликаты, данные приведены к одному виду, проведена лемматизация и категоризация.

Для ответа на вопросы заказчика были получены следующие зависимости:
1. Зависимость между наличием детей и возвратом кредита в срок
2. Зависимость между семейным положением и возвратом кредита в срок
3. Зависимость между уровнем дохода и возвратом кредита в срок
4. Зависимость между целью кредита и возвратом кредита в срок


