## Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

### Шаг 1. Откройте файл с данными и изучите общую информацию. 

In [1]:
import pandas as pd
data = pd.read_csv('/datasets/data.csv')
data.info()
#data['debt'].value_counts()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


### Вывод

Предварительно: пропуски в колонках 'days_employed' и 'total_income' - взаимосвязаны. Если человек не работает, у него нет и дохода. Но это не точно.
Для решения дазачи - достаточно анализа количества детей и семейного положения. Однако, есть смысл сразу привести в порядок и категоризировать все данные.

<font color='green'>Данные загружены и предварительно изучены, отлично. Справочные методы и выводы лучше не комментировать, оставлять, как есть.</font>

### Шаг 2. Предобработка данных

### Обработка пропусков

In [2]:
# т.к. все колонки, в которых пропуски 'na' имеют вид float - можем заменить все предварительно на '0'
# это колонки 'days_employed' и 'total_income' 
# в других колонках пропусков нет, ничего не потеряем
data = data.fillna(0)

# отрицательные числа в колонке 'children' заменим на такие же, но положительные 
# предположим, что ошибка ввода
data['children'] = data['children'].replace(-1, 1)

# заменим нулевые значения дохода средними по образованию и типу дохода
data_by_education_and_income_type = data.pivot_table(index = ['education', 'income_type'],
                                                     values = 'total_income', 
                                                     aggfunc = 'median').reset_index()

# напишем функцию, которая заменит нулевое значение в колонке общего дохода 
# медианным значением, вычисленным по двум колонкам - образованию и типу дохода
def replace_total_income(row):
    
    current_education = row['education']
    current_income_type = row['income_type']
    current_total_income = row['total_income']
    
    if current_total_income == 0:
        return data_by_education_and_income_type[(data_by_education_and_income_type['education']==current_education)&
                                                 (data_by_education_and_income_type['income_type']==current_income_type)]['total_income']
    else:
        return current_total_income
    
# применим функцию к таблице
data['total_income'] = data.apply(replace_total_income, axis=1)        

data['total_income'].value_counts()

[128074.39889137895]    754
[106080.38055066072]    309
[149591.92013992445]    273
[155586.80699394172]    210
[190868.872424983]      178
                       ... 
218463.20899321188        1
120162.186005545          1
111248.05145536334        1
240532.4343958589         1
81054.28860716878         1
Name: total_income, Length: 19392, dtype: int64

### Вывод

Т.к. все колонки, в которых пропуски имеют вид float - можем заменить все предварительно на '0'. Это колонки 'days_employed' и 'total_income', в других колонках пропусков нет, ничего не потеряем.
После замены, количество данных во всех колонках совпадает с длиной таблицы. Пропусков нет.

Также считаю необходимым сразу заменить отрицательные значения в колонке 'children' на положительные.

<font color='grey'>Заменять возраст не стал, т.к. не нашел однозначных данных, чтобы его вычислить. Совокупный доход заменил на медианное значение по ключу категорий "образование" и "вид дохода". Что касается количества детей. Конечно, скорее всего, число **20** - это ошибка ввода и его можно заменить на **2**. Можно было провести также проверку по возрасту. Не заменил значение, потому что:
    
<font color='grey'>1. Такая ситуация возможна в жизни.
        
<font color='grey'>2. Нет необходимости проверять зависимость от количества детей, только от их наличия.
        
<font color='grey'>3. Понимаю, что влияет на написанную ниже функцию определения категории уровня дохода.
        

### Замена типа данных

In [3]:
data['days_employed'] = data['days_employed'].astype('int')
data['total_income'] = data['total_income'].astype('int')
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


### Вывод

Заменили данные float на целочисленные. Во-первых, так сказано в задании, во-вторых, в тех колонках, где был тип с плавающей точкой, не теряем в точности, т.к. это дни занятости и доход. Копейки и минуты вряд-ли повлияют на результат.

### Обработка дубликатов

In [4]:
# для образования - самый лучший способ - привести к нижнему регистру
data['education'] = data['education'].str.lower()
data['education'].value_counts()

среднее                15233
высшее                  5260
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

### Вывод

Дубликаты в данных нашел только в образовании. Причина - скорее всего текстовое поле для заполнения или несколько источников.

### Лемматизация

In [5]:

# импортируем библиотеку лемматизации
from pymystem3 import Mystem
m = Mystem()

# для обработки таблицы создадим метод, лемматизирующий строку
def lemmatize_row(row):
    return m.lemmatize(row)

# на всякий случай запишем данные в новую колонку
data['purpose_lemmatized'] = data['purpose'].apply(lemmatize_row)

# объединим все цели и лемматизируем строку
full_string_lemmas = m.lemmatize(','.join(data['purpose']))

# посчитаем количество уникальных
from collections import Counter
counter_lemmas = Counter(full_string_lemmas)

counter_lemmas
#data['purpose_lemmatized'].value_counts()

Counter({'покупка': 5912,
         ' ': 33677,
         'жилье': 4473,
         ',': 21524,
         'приобретение': 462,
         'автомобиль': 4315,
         'дополнительный': 909,
         'образование': 4022,
         'сыграть': 774,
         'свадьба': 2348,
         'операция': 2610,
         'с': 2924,
         'на': 2233,
         'проведение': 777,
         'для': 1294,
         'семья': 641,
         'недвижимость': 6367,
         'коммерческий': 1315,
         'жилой': 1233,
         'строительство': 1881,
         'собственный': 635,
         'подержать': 858,
         'свой': 2235,
         'со': 630,
         'заниматься': 908,
         'сделка': 944,
         'получение': 1316,
         'высокий': 1375,
         'подержанный': 110,
         'профильный': 436,
         'сдача': 653,
         'ремонт': 612,
         '\n': 1})

### Вывод

Основные цели (на первый взгляд) - недвижимость, автомобили и образование. Хотя встречаются уникумы, которые берут кредит на свадьбу)). Для остальных текстовых полей лемматизация не требуется, т.к. там более однозначные понятия, пригодные для категоризации без предварительной лемматизации.

<font color='grey'>В текущей задаче - не самый лучший способ для данной выборки. Т.к. достаточно часто встречается слово 'операция'. В моем случае, его видно, т.к. оно всегда стоит рядом с "недвижимость" или "жилье". А в общем списке - можно ошибиться.

### Категоризация данных

In [6]:
# категоризируем семейное положение
# официальный брак от гражданского отличается только штампом в паспорте. 
# приравняем эти понятия
# то же касается всех остальных понятий - приравняем их к "незамужнести"
# и на всякий случай приведем к нижнему регистру

# для обработки семейного положения создадим метод, возвращающий категорию
def categorize_family_status(row):
    if (row == 'гражданский брак'):
        return 'женат / замужем'
    elif (row == 'в разводе') or (row == 'вдовец / вдова'):
        return 'не женат / не замужем'
    else:    
        return row.lower()

data['family_category'] = data['family_status'].apply(categorize_family_status)
#data['family_category'].value_counts()



# категоризируем тип дохода
# делим на три типа: доход от бизнеса, заработная плата, поступления из бюджета

# для обработки типа дохода создадим метод, возвращающий категорию
def categorize_income_type(row):
    if (row == 'сотрудник'):
        return 'заработная плата'
    elif (row == 'компаньон') or (row == 'предприниматель'):
        return 'доход от бизнеса'
    else:    
        return 'поступления из бюджета'

data['income_category'] = data['income_type'].apply(categorize_income_type)
#data['income_category'].value_counts()



#data['income_category', 'family_category'].head(20)
#data.head(20)

# для уровня дохода необходимо вычислить доход на члена семьи и затем его привязать к официальному классификатору 
def categorize_total_income(row):
    # получим общий доход один раз
    total_income = row['total_income']
    
    # получим количество детей
    children_count = row['children']
    
    # добавим количество взрослых
    if (row['family_category'] == 'не женат / не замужем'):
        adults_count = 1
    else:
        adults_count = 2
    
    #получим доход на члена семьи
    income_per_member = (total_income - 1000 * children_count) / (children_count + adults_count)

    # вернем категорию в зависмости от дохода
    if income_per_member == 0:
        return 'AXX'
    elif income_per_member <= 10000:
        return 'A01'
    elif income_per_member <= 15000:
        return 'A02'
    elif income_per_member <= 18000:
        return 'A03'
    elif income_per_member <= 36000:
        return 'A04'
    elif income_per_member <= 100000:
        return 'A05'
    elif income_per_member <= 150000:
        return 'A06'
    elif income_per_member <= 250000:
        return 'A07'
    elif income_per_member <= 500000:
        return 'A08'
    elif income_per_member <= 1000000:
        return 'A09'
    else:
        return 'A10'
    
data['income_level'] = data.apply(categorize_total_income, axis=1)        
    
#data.info()

# выделим категорию бездетных
def categorize_having_children(row):
    if (row == 0):
        return 0
    else:    
        return 1

data['children_having'] = data['children'].apply(categorize_having_children)
#data['children_having'].value_counts()

# категоризируем цель кредита
data['purpose_lemmatized'].value_counts()

def categorize_purpose(row):
    # проверим, на что кредит
    category = 'автомобиль'

    #if ('ремонт' in row):
    #    return "ремонт"
    #elif ('автомобиль' in row):
    if ('автомобиль' in row):
        return 'автомобиль'
    elif ('недвижимость' in row):
        if ('коммерческий' in row):
            return 'коммерческая недвижимость'
        else:    
            return 'личная недвижимость'
    elif ('жилье' in row):
        if ('сдача' in row):
            return 'коммерческая недвижимость'
        else:    
            return 'личная недвижимость'
    elif ('образование' in row):
        return "образование"
    elif ('свадьба' in row):
        return "свадьба"
    else:    
        return "прочее"

data['purpose_category'] = data['purpose_lemmatized'].apply(categorize_purpose)

#data[data['purpose_category']=='прочее']['purpose_lemmatized'].value_counts()
data['purpose_category'].value_counts()

#data

личная недвижимость          8872
автомобиль                   4315
образование                  4022
свадьба                      2348
коммерческая недвижимость    1968
Name: purpose_category, dtype: int64

### Вывод

При категоризации семейного положения принял за основу следующие утверждения:

1. Официальный брак от гражданского отличается только штампом в паспорте, соответственно это одна категория
2. Все остальные категории считаем "незамужними"

При категоризации типа дохода выделил три категории:

1. доход от бизнеса - партнеры и предприниматели 
2. заработная плата - сотрудники
3. поступления из бюджета - пенсионеры, госслужащие, студенты, декретники, безработные и пр.

Для категоризации уровня дохода взял официальный классификатор категорий (от A1 до A10). Расчет выполняется исходя из уровня дохода на члена семьи. При этом на ребенка необходима +1 000 рублей. Расчет категории делается следующим образом. Вычисляется количество детей и от общего дохода отнимается по 1 000 рублей на каждого ребенка. После этого вычисляется общее количество членов семьи и оставшийся совокупный доход делится на их количество. Исходя из этой суммы и вычисляется категория. Отдельно выделил тех, кто не указал доход (категория AXX).

По условию необходимо проверить гипотезу, влияет ли наличие детей на честность заемщика. Поэтому только две категории - есть дети или нет.

Для категоризации цели кредитования выделил пять категорий, найденных в леммах:

1. личная недвижимость
2. автомобиль
3. образование
4. свадьба
5. коммерческая недвижимость

Принял решение разделить личную и коммерческую недвижимость, т.к. по сути это разные цели. Ремонт недвижимости отдельно не выделял.

### Шаг 3. Ответьте на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [7]:
# всего заемщиков с детьми
#with_children = data[data['children_having']==1]['children_having'].count()

# всего заемщиков без детей
#without_children = data[data['children_having']==0]['children_having'].count()

# количество должников с детьми
#with_children_with_debt = data[(data['children_having']==1)&(data['debt']==1)]['children_having'].count()

# количество должников без детей
#without_children_with_debt = data[(data['children_having']==0)&(data['debt']==1)]['children_having'].count()

# процент должников с детьми
#percentage_debt_with_children = with_children_with_debt / with_children

# процент должников без детей
#percentage_debt_without_children = without_children_with_debt / without_children

#percentage_debt_with_children
#percentage_debt_without_children

# соотношение должников
#if percentage_debt_with_children > percentage_debt_without_children:
#    dividing_of_percentage = (percentage_debt_with_children - percentage_debt_without_children) / percentage_debt_without_children
#else:
#    dividing_of_percentage = (percentage_debt_without_children - percentage_debt_with_children) / percentage_debt_with_children
    
#dividing_of_percentage

data_children_levels = data.pivot_table(index = ['children_having'],
                                                     values = 'debt', 
                                                     aggfunc = ['count', 'sum']).reset_index()

data_children_levels['debt_percentage'] = data_children_levels['sum'] / data_children_levels['count']

data_children_levels


Unnamed: 0_level_0,children_having,count,sum,debt_percentage
Unnamed: 0_level_1,Unnamed: 1_level_1,debt,debt,Unnamed: 4_level_1
0,0,14149,1063,0.075129
1,1,7376,678,0.09192


### Вывод

<font color='grey'>Разница в ответственности между заемщиками, имеющими детей и не имеющими детей несущественна - 9,1% и 7,5% соответственно. Разница составляет 1,6 %. Возможно, это погрешность выборки, обусловленная тем, что заемщиков без детей в выборке почти в два раза больше, чем заемщиков с детьми. То есть из 1000 человек не отдадут кредит на 16 человек больше.

Гипотеза подтверждается.

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [8]:
# всего заемщиков живущих в паре
#pairs = data[data['family_category']=='женат / замужем']['children_having'].count()

# всего заемщиков живущих отдельно
#single = data[data['family_category']=='не женат / не замужем']['children_having'].count()

# количество должников живущих в паре
#pairs_with_debt = data[(data['family_category']=='женат / замужем')&(data['debt']==1)]['children_having'].count()

# количество должников живущих отдельно
#single_with_debt = data[(data['family_category']=='не женат / не замужем')&(data['debt']==1)]['children_having'].count()

# процент должников живущих в паре
#percentage_debt_pairs = pairs_with_debt / pairs

# процент должников живущих отдельно
#percentage_debt_single = single_with_debt / single

#if percentage_debt_pairs > percentage_debt_single:
#    dividing_of_percentage = (percentage_debt_pairs - percentage_debt_single) / percentage_debt_single
#else:
#    dividing_of_percentage = (percentage_debt_single - percentage_debt_pairs) / percentage_debt_pairs
    
#dividing_of_percentage
#percentage_debt_pairs
#percentage_debt_single

data_family_levels = data.pivot_table(index = ['family_category'],
                                                     values = 'debt', 
                                                     aggfunc = ['count', 'sum']).reset_index()

data_family_levels['debt_percentage'] = data_family_levels['sum'] / data_family_levels['count']

data_family_levels

Unnamed: 0_level_0,family_category,count,sum,debt_percentage
Unnamed: 0_level_1,Unnamed: 1_level_1,debt,debt,Unnamed: 4_level_1
0,женат / замужем,16557,1319,0.079664
1,не женат / не замужем,4968,422,0.084944


### Вывод

Разница в ответственности между заемщиками, живущими в парах и живущими отдельно несущественна 7,9% и 8,4% соответственно. 
Отношение нечестных земщиков между этими категориями также несущественно. Разница составляет всего - 6,6%.

Гипотеза не подтверждается.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [9]:
# заменим нулевые значения дохода средними по образованию и типу дохода
data_income_levels = data.pivot_table(index = ['income_level'],
                                                     values = 'debt', 
                                                     aggfunc = ['count', 'sum']).reset_index()

data_income_levels['debt_percentage'] = data_income_levels['sum'] / data_income_levels['count']

#data_income_levels = data.groupby('income_level').agg({'debt': ['count', 'sum']})
#data_income_levels['debt_percentage'] = data_income_levels['debt']['sum'] / data_income_levels['debt']['count']
data_income_levels

Unnamed: 0_level_0,income_level,count,sum,debt_percentage
Unnamed: 0_level_1,Unnamed: 1_level_1,debt,debt,Unnamed: 4_level_1
0,A01,87,9,0.103448
1,A02,134,17,0.126866
2,A03,199,10,0.050251
3,A04,2790,247,0.08853
4,A05,12322,1005,0.081561
5,A06,3485,255,0.073171
6,A07,1896,152,0.080169
7,A08,563,42,0.0746
8,A09,46,4,0.086957
9,A10,3,0,0.0


### Вывод

На первый взгляд бросается в глаза большой процент в категории А2 (12,7%) и маленький в категории А3 (5%). Однако, если посмотреть на признаки категоризации, то это может быть погрешностью, т.к. уровень дохода на члена семьи в этих двух категориях 15 000 руб. и 18 000 руб., соответственно. Если же взять процент недобросовестных заемщиков по этим двум категориям, он будет 8,1%, что вполне соответствует общей выборке. Те, что не указали свой доход, также находятся в пределах того же процента, соответственно, гипотеза не подтвердилась.
    
<font color='grey'> Наибольший процент людей не отдающих кредиты - среди наиболее бедных слоев населения. Это категории А01 и А02. Это может быть вызвано погрешностью выборки, т.к. людей берущих кредиты в этой категории в выборке меньше всего. Если взять процент недобросовестных заемщиков по первым трем категориям, он будет составлять 8,5%, что вполне соответствует общей выборке, гипотеза не подтвердилась

- Как разные цели кредита влияют на его возврат в срок?

In [10]:
data_goal_levels = data.pivot_table(index = ['purpose_category'],
                                                     values = 'debt', 
                                                     aggfunc = ['count', 'sum']).reset_index()

data_goal_levels['debt_percentage'] = data_goal_levels['sum'] / data_goal_levels['count']

# data_goal_levels = data.groupby('purpose_category').agg({'debt': ['count', 'sum']})
# data_goal_levels['debt_percentage'] = data_goal_levels['debt']['sum'] / data_goal_levels['debt']['count']

data_goal_levels

Unnamed: 0_level_0,purpose_category,count,sum,debt_percentage
Unnamed: 0_level_1,Unnamed: 1_level_1,debt,debt,Unnamed: 4_level_1
0,автомобиль,4315,403,0.093395
1,коммерческая недвижимость,1968,151,0.076728
2,личная недвижимость,8872,631,0.071123
3,образование,4022,370,0.091994
4,свадьба,2348,186,0.079216


### Вывод

Хуже всего с дисциплиной у тех, кто берет кредит на автомобиль и на образование. Однако разброс незначительный и я считаю что гипотеза не подтвердилась. 

### Шаг 4. Общий вывод

<font color='grey'>**ВЫВОДЫ**
    1. Наличие детей снижает вероятность возврата кредита в срок, поэтому более надежными будут заемщики не имеющие детей.
    2. Малоимущие реже обращаются за кредитом и поэтому статистика по ним имеет достаточно большую погрешность. В целом, сказать, что они реже отдают кредиты, чем заемщики имеющие более высокий уровень дохода, нельзя. 
    3. Что касается целей кредита, самый высокий процент небодросовестных заемщиков - среди берущих кредит на покупку автомобиля (на 1,2% выше, чем в среднем по выборке). На втором месте - берущие кредит на образование (+1% к среднему по выборке). А самыми надежными заемщиками являются берущие кредит на недвижимость.

---

### Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  открыт файл;
- [x]  файл изучен;
- [x]  определены пропущенные значения;
- [x]  заполнены пропущенные значения;
- [x]  есть пояснение, какие пропущенные значения обнаружены;
- [x]  описаны возможные причины появления пропусков в данных;
- [x]  объяснено, по какому принципу заполнены пропуски;
- [x]  заменен вещественный тип данных на целочисленный;
- [x]  есть пояснение, какой метод используется для изменения типа данных и почему;
- [x]  удалены дубликаты;
- [x]  есть пояснение, какой метод используется для поиска и удаления дубликатов;
- [x]  описаны возможные причины появления дубликатов в данных;
- [x]  выделены леммы в значениях столбца с целями получения кредита;
- [x]  описан процесс лемматизации;
- [x]  данные категоризированы;
- [x]  есть объяснение принципа категоризации данных;
- [x]  есть ответ на вопрос: "Есть ли зависимость между наличием детей и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Есть ли зависимость между семейным положением и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Есть ли зависимость между уровнем дохода и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Как разные цели кредита влияют на его возврат в срок?";
- [x]  в каждом этапе есть выводы;
- [x]  есть общий вывод.