## Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

### Шаг 1. Откройте файл с данными и изучите общую информацию. 

In [1]:
import pandas as pd
data = pd.read_csv('/datasets/data.csv')
data.info()
data.head(20)

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [2]:
#Вывел уникальные значения столбцов таблицы
for column in data.columns:
    print(column,':')
    print(data[column].unique())
    print()

children :
[ 1  0  3  2 -1  4 20  5]

days_employed :
[-8437.67302776 -4024.80375385 -5623.42261023 ... -2113.3468877
 -3112.4817052  -1984.50758853]

dob_years :
[42 36 33 32 53 27 43 50 35 41 40 65 54 56 26 48 24 21 57 67 28 63 62 47
 34 68 25 31 30 20 49 37 45 61 64 44 52 46 23 38 39 51  0 59 29 60 55 58
 71 22 73 66 69 19 72 70 74 75]

education :
['высшее' 'среднее' 'Среднее' 'СРЕДНЕЕ' 'ВЫСШЕЕ' 'неоконченное высшее'
 'начальное' 'Высшее' 'НЕОКОНЧЕННОЕ ВЫСШЕЕ' 'Неоконченное высшее'
 'НАЧАЛЬНОЕ' 'Начальное' 'Ученая степень' 'УЧЕНАЯ СТЕПЕНЬ'
 'ученая степень']

education_id :
[0 1 2 3 4]

family_status :
['женат / замужем' 'гражданский брак' 'вдовец / вдова' 'в разводе'
 'Не женат / не замужем']

family_status_id :
[0 1 2 3 4]

gender :
['F' 'M' 'XNA']

income_type :
['сотрудник' 'пенсионер' 'компаньон' 'госслужащий' 'безработный'
 'предприниматель' 'студент' 'в декрете']

debt :
[0 1]

total_income :
[253875.6394526  112080.01410244 145885.95229686 ...  89672.56115303
 244093.050500

### Вывод

<b>В таблице есть данные:</b> 
<ul>
    <li>количество детей в семье - ['children'] (int64)</li>  	 	 	 	 	 	 	 	 	 	 	
    <li>трудовой стаж в днях - ['days_employed'] (float64)</li>  
    <li>возраст клиента в годах - ['dob_years'] (int64)</li>  
    <li>идентификатор образования - ['education_id'] (int64)</li> 
    <li>образование клиента - ['education'] (object)</li>  
    <li>идентификатор семейного положения - ['family_status_id'] (int64)</li> 
    <li>семейное положение - ['family_status'] (object)</li>  
    <li>пол клиента - ['gender'] (object)</li>  
    <li>тип занятости - ['income_type'] (object)</li>  
    <li>имел ли долг по кредиту - ['debt'] (int64)</li>  
    <li>доход в месяц - ['total_income'] (float64)</li>  
    <li>цель получения кредита - ['purpose'] (object)</li>
</ul>

<b>Что обнаружил:</b>
<ol>
    <li>Пропущенные значения в столбцах 'days_employed' и 'total_income', а так же плавающий формат чисел.</li>
    <li>Разный регистр текста в столбце 'education'.</li>
    <li>В столбце 'days_employed' кроме отрицательных чисел, встречаются огромные положительные числа.</li>
    <li>В столбце 'children' артефакты - значения '-1' и '20'.</li>
    <li>Неопределнный пол 'XNA' в столбце 'gender'.</li>
    <li>В столбце 'purpose' одни и те же цели записаны по-разному.</li>
    <li>В столбце 'dob_years' есть нулевые значения.</li>
</ol>


### Шаг 2. Предобработка данных

### Обработка дубликатов

In [3]:
print('Всего дубликатов:',data.duplicated().sum())
data = data.drop_duplicates().reset_index(drop = True)
print('Дубликатов после удаления:',data.duplicated().sum())

Всего дубликатов: 54
Дубликатов после удаления: 0


### Вывод

Дубликаты могут исказить данные при замене NaN на средние значения. Поэтому сперва избавился от них.

Сперва посчитал количество дубликатов в таблице. Затем использовал метод drop_duplicates() для удаления дубликатов. Метод вместе с повторяющимися строками удаляет их индексы. Поэтому вызывал с методом reset_index(): аргумент drop со значением True, чтобы не создавать столбец со старыми значениями индексов.

Дубликаты могли появиться вследствие сбоя в записи данных.

### Обработка пропусков

In [4]:
print('Количество пропусков до обработки:')
print(data.isna().sum())

def check_error(type_name,column):
    count_lines = 0
    wrong_lines = 0
    total = 0

    pens = data[data['income_type'] == type_name][column]
    for row in pens:
        count_lines += 1
        #Конструкция try-except выявляет некорректные строки
        try:
            level = int(row)
            total += level
        except:
            wrong_lines += 1
            
    total_income_mean = total / count_lines
    data.loc[(data.loc[:,'income_type'] == type_name)&(data.loc[:,column].isnull() == True),column] = total_income_mean

    print('{:}:'.format(type_name))
    print('   Кол-во исправлений -',wrong_lines)
    print('   Среднее значение   -',total_income_mean)

unique = data['income_type'].unique()

print('')
print('ОБРАБОТКА ПРОПУСКОВ \'total_income\'') 
for name in unique:
    check_error(name,'total_income')

print('')
print('ОБРАБОТКА ПРОПУСКОВ \'days_employed\'') 
for name in unique:
    check_error(name,'days_employed')
    
print('')
print('Количество пропусков после обработки:')
print(data.isna().sum())

Количество пропусков до обработки:
children               0
days_employed       2120
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2120
purpose                0
dtype: int64

ОБРАБОТКА ПРОПУСКОВ 'total_income'
сотрудник:
   Кол-во исправлений - 1077
   Среднее значение   - 145708.85204219638
пенсионер:
   Кол-во исправлений - 394
   Среднее значение   - 123046.17174876205
компаньон:
   Кол-во исправлений - 503
   Среднее значение   - 182374.50078740157
госслужащий:
   Кол-во исправлений - 145
   Среднее значение   - 153890.12422786548
безработный:
   Кол-во исправлений - 0
   Среднее значение   - 131339.0
предприниматель:
   Кол-во исправлений - 1
   Среднее значение   - 249581.5
студент:
   Кол-во исправлений - 0
   Среднее значение   - 98201.0
в декрете:
   Кол-во исправлений - 0
   Среднее значение   - 53829.0



### Вывод

Количество пропущенных значений в столбцах 'days_employed' и 'total_income' - 2120.
Пропуски случайные, точную причину отстутствия данных установить не удается. Возможно были проблемы при записи или информация по клиенту отсутствует.

Используя функцию check_error() заменил пропущенные значения в столбцах 'days_employed' и 'total_income' на средние по типу клиента. 

### Замена типа данных

In [5]:
data['total_income'] = data['total_income'].astype('int64')
data['days_employed'] = data['days_employed'].astype('int64')
data.head(5)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,-5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


### Вывод

Для удобства восприятия заменил в столбцах 'total_income' и 'days_employed' тип данных с плавающей запятой(float64)  на целочисленный тип данных(int64).

Использовал метод astype(), а в качестве аргумента передал желаемый тип данных: int64.

Типы данных остальных столбцов в норме.

<div style="border:solid green 2px; padding: 20px"> <h1 style="color:green; margin-bottom:20px">Комментарий наставника</h1>

Замена типа данных выполнена верно

### Лемматизация

In [6]:
from pymystem3 import Mystem
from collections import Counter
m = Mystem()

stroke = ','.join(data['purpose'].unique())
lemmas =  list(set(m.lemmatize(stroke)))
print(lemmas)

['приобретение', 'свадьба', 'собственный', 'высокий', 'автомобиль', 'ремонт', 'проведение', 'строительство', 'со', 'дополнительный', 'для', 'жилой', 'покупка', 'сыграть', 'профильный', ',', '\n', 'на', 'недвижимость', 'заниматься', 'с', 'подержать', 'сделка', 'получение', 'сдача', 'образование', 'семья', 'свой', 'операция', 'жилье', 'коммерческий', ' ']


In [7]:
data['education'] = data['education'].str.lower()
data.head(5)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


### Вывод

Для лематизации подключил библиотеки pymystem3 и collections.<br>
В переменную m записал экземпляр класса Mystem библиотеки pymystem3.<br>

В переменную lemmas записал массив уникальных лем. 

Так же привел ячейки в колонке 'education' к нижнему регистру.

### Категоризация данных

Подсчитал количество уникальных значений в столбце 'children'. Значение '20' это артефакт, поэтому приравнял значение к нулю. Затем разделил на категории данные по количеству детей.

In [8]:
print(data.groupby('children')['children'].count())
data.loc[data['children'] == 20,'children'] = 0
print(data.groupby('children')['children'].count())

def children_group(num):
    if num <= 0:
            return 'Нет детей'
    if num == 1:
            return '1 ребёнок'
    if num == 2:
            return '2 ребёнка'
    return 'Многодетные'

data['children_group'] = data['children'].apply(children_group)

children
-1        47
 0     14107
 1      4809
 2      2052
 3       330
 4        41
 5         9
 20       76
Name: children, dtype: int64
children
-1       47
 0    14183
 1     4809
 2     2052
 3      330
 4       41
 5        9
Name: children, dtype: int64


Присвоил столбцу 'age_group' возрастные категории на основе данных столбца 'dob_years'.

In [9]:
def age_group(age):
    if age <= 0:
        return 'Неопределенный возраст'
    if 18 <= age < 25:
            return '18 - 24 года'
    if 25 <= age < 45:
            return '25 - 44 года'
    if 45 <= age <= 64:
            return '45 - 64 года'
    return '65 лет и старше'
    
data['age_group'] = data['dob_years'].apply(age_group)
data.head(5)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,children_group,age_group
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,1 ребёнок,25 - 44 года
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,1 ребёнок,25 - 44 года
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,Нет детей,25 - 44 года
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,Многодетные,25 - 44 года
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,Нет детей,45 - 64 года


Присвоил столбцу 'income_group' возрастные категории на основе данных столбца 'total_income'.

In [17]:
def income_group(income):
    if income <= 25000:
        return 'Меньше 25 000'
    if 25000 < income < 50000:
        return '25 000 - 50 000'
    if 50000 <= income < 100000:
        return '50 000 - 100 000'
    if 100000 < income <= 250000:
        return '100 000 - 250 000'
    if 250000 < income <= 1000000:
        return '250 000 - 1 000 000'
    return 'Больше 1 000 000'
    
data['income_group'] = data['total_income'].apply(income_group)
data.head(5)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,children_group,age_group,income_group,purpose_group
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,1 ребёнок,25 - 44 года,250 000 - 1 000 000,на жилье
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,1 ребёнок,25 - 44 года,100 000 - 250 000,на автомобиль
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,Нет детей,25 - 44 года,100 000 - 250 000,на жилье
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,Многодетные,25 - 44 года,250 000 - 1 000 000,на образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,Нет детей,45 - 64 года,100 000 - 250 000,на свадьбу


На основе выделенных уникальных лемм написал условия внутри функции purpose_group(), которая в качестве аргумента принимает текстовую строку, лемматизирует её и возвращает группу по условиям.<br>

Записал в новую колонку 'purpose_group' результат применения функции apply(purpose_group) к колонке 'purpose', где аргумент это функция описанная выше.

In [11]:
def purpose_group(purpose):
    lemma = set(m.lemmatize(purpose))
    if 'автомобиль' in lemma:
        return 'на автомобиль'
    if 'образование' in lemma:
            return 'на образование'
    if 'свадьба' in lemma:
            return 'на свадьбу'
    if 'жилой' or 'жилье' in lemma:
            return 'на жилье'
    if 'недвижимость' in lemma:
        return 'на комм. недвиж.'
    return 'неопределенно'

data['purpose_group'] = data['purpose'].apply(purpose_group)
data.head(5)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,children_group,age_group,income_group,purpose_group
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,1 ребёнок,25 - 44 года,250 000 - 1 000 000,на жилье
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,1 ребёнок,25 - 44 года,100 000 - 250 000,на автомобиль
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,Нет детей,25 - 44 года,100 000 - 250 000,на жилье
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,Многодетные,25 - 44 года,250 000 - 1 000 000,на образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,Нет детей,45 - 64 года,100 000 - 250 000,на свадьбу


### Вывод

Написал и применил 4 функции категоризации. В результате получил колонки с категориями клиентов по: количеству детей, возрастным группам, уровнем дохода, целям кредита.

### Шаг 3. Ответьте на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [12]:
def correlation(column_name):
    cor_data = []
    unique = data[column_name].unique()
    for name in unique:
        group = data[data[column_name] == name].groupby(column_name)[column_name].count()[0]
        with_debt = data.loc[(data.loc[:,column_name] == name)&(data.loc[:,'debt'] == 1),column_name].count()
        cor_data += [[name,group,percent(group,data.shape[0]),with_debt,percent(with_debt,data.shape[0]),percent(with_debt,group)]]
    result = pd.DataFrame(data = cor_data, columns = ['Группа','Клиенты','Процент','C долгом','% должников от всех','% должн. от группы'])
    return result

def percent(num,num2):
    result = num / num2
    return '{:>12.2%}'.format(result)

correlation('children_group').sort_values(by = '% должн. от группы', ascending = False)

Unnamed: 0,Группа,Клиенты,Процент,C долгом,% должников от всех,% должн. от группы
3,2 ребёнка,2052,9.56%,194,0.90%,9.45%
0,1 ребёнок,4809,22.40%,444,2.07%,9.23%
2,Многодетные,380,1.77%,31,0.14%,8.16%
1,Нет детей,14230,66.28%,1072,4.99%,7.53%


### Вывод

В процентном соотношении групп, клиенты с 1-2 детьми наиболее часто задерживают платеж по кредиту.
В процентном соотношении групп, клиенты без детей наименее часто задерживают платеж по кредиту.

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [13]:
correlation('family_status').sort_values(by = '% должн. от группы', ascending = False)

Unnamed: 0,Группа,Клиенты,Процент,C долгом,% должников от всех,% должн. от группы
4,Не женат / не замужем,2810,13.09%,274,1.28%,9.75%
1,гражданский брак,4163,19.39%,388,1.81%,9.32%
0,женат / замужем,12344,57.49%,931,4.34%,7.54%
3,в разводе,1195,5.57%,85,0.40%,7.11%
2,вдовец / вдова,959,4.47%,63,0.29%,6.57%


### Вывод

По большему счету, в процентном соотношении групп, должниками являются клиенты не состоящие в браке.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [18]:
correlation('income_group').sort_values(by = '% должн. от группы', ascending = False)

Unnamed: 0,Группа,Клиенты,Процент,C долгом,% должников от всех,% должн. от группы
5,Меньше 25 000,8,0.04%,1,0.00%,12.50%
1,100 000 - 250 000,14196,66.12%,1193,5.56%,8.40%
2,50 000 - 100 000,4091,19.05%,331,1.54%,8.09%
4,Больше 1 000 000,25,0.12%,2,0.01%,8.00%
0,250 000 - 1 000 000,2787,12.98%,192,0.89%,6.89%
3,25 000 - 50 000,364,1.70%,22,0.10%,6.04%


### Вывод

Клиентам с уровнем дохода 'меньше 25000' труднее всего закрывать кредит в срок. Лучше всего с кредитом справляются клиенты с уровнем дохода '25000 - 50000'.

- Как разные цели кредита влияют на его возврат в срок?

In [19]:
correlation('purpose_group').sort_values(by = '% должн. от группы', ascending = False)

Unnamed: 0,Группа,Клиенты,Процент,C долгом,% должников от всех,% должн. от группы
1,на автомобиль,4308,20.06%,403,1.88%,9.35%
2,на образование,4014,18.69%,370,1.72%,9.22%
3,на свадьбу,2335,10.88%,186,0.87%,7.97%
0,на жилье,10814,50.37%,782,3.64%,7.23%


### Вывод

Клиенты, берущие кредит на автомобиль и образование, с большей вероятностью от других групп просрочат выплату.

### Шаг 4. Общий вывод

В ходе выполнения работы были получены ответы на вопросы возврата кредита в срок разными группами клиентов. На основе исходных данных можно провести более качественный анализ. Например: категоризировать трудовой стаж; построить зависимости возврата кредита между трудовым стажем, гендером, образованием и типом занятости; выделить портреты идеального заемщика и должника.

### Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  открыт файл;
- [x]  файл изучен;
- [x]  определены пропущенные значения;
- [x]  заполнены пропущенные значения;
- [x]  есть пояснение, какие пропущенные значения обнаружены;
- [x]  описаны возможные причины появления пропусков в данных;
- [x]  объяснено, по какому принципу заполнены пропуски;
- [x]  заменен вещественный тип данных на целочисленный;
- [x]  есть пояснение, какой метод используется для изменения типа данных и почему;
- [x]  удалены дубликаты;
- [x]  есть пояснение, какой метод используется для поиска и удаления дубликатов;
- [x]  описаны возможные причины появления дубликатов в данных;
- [x]  выделены леммы в значениях столбца с целями получения кредита;
- [x]  описан процесс лемматизации;
- [x]  данные категоризированы;
- [x]  есть объяснение принципа категоризации данных;
- [x]  есть ответ на вопрос: "Есть ли зависимость между наличием детей и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Есть ли зависимость между семейным положением и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Есть ли зависимость между уровнем дохода и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Как разные цели кредита влияют на его возврат в срок?";
- [x]  в каждом этапе есть выводы;
- [x]  есть общий вывод.