## Исследование надёжности заемщиков

У вас есть статистика о платежеспособности клиентов одного из банков. В проекте нужно разобраться влияет ли семейное положение и количество детей клиента на вероятность возврата кредита в срок. Полученные результаты помогут понять какие признаки стоит учитывать при построении скоринговой модели и как оптимизировать процесс оформления заявки на кредит. 

**Инструкция по выполнению**

Шаг 1. Откройте данные и просмотрите общую информацию о них

Шаг 2. Предобработайте данные

- определить и заполнить пропущенные значения
- заменить вещественный тип данных на целочисленный
- удалить дубликаты
- выделить леммы в столбце с целями получения кредита
- категоризировать данные

Шаг 3. Ответить на вопросы

- есть ли зависимость возврата кредита и наличия детей?
- зависимость между возвратом кредита и семейным положением
- есть ли зависимость между уровнем дохода и возвратом кредита в срок?
- определить возможные цели кредита и их влияние на возврат кредита в срок.

Исследование наличия связи между признаками позволит ответить на основные вопросы: 
- какие из имеющихся признаков стоит учитывать для построения моделей скоринга (т. е. платежеспособности заемщика)
- "несущественные" поля можно будет удалить из анкет, чтобы ускорить процесс оформления нового клиента и сэкономить ресурсы по их обработке
- для значимых полей проработать глубину детализации в анкетах и решить технические проблемы (например, разные варианты написания одних и тех же ответов)

## Содержание

## [Шаг  1](#step_1) - знакомство с данными
1. [Получение общей информации о данных](#step_1_1)
2. [Формирование перечня подлежащих к решению задач](#step_1_2)

## [Шаг  2](#step_2) - предобработка данных
3. [Работа с пропусками](#step_2_1)
4. [Аномальные значения](#step_2_2)
5. [Поиск дубликатов](#step_2_3)
6. [Изменение типов данных](#step_2_4)
7. [Категоризация данных:](#step_2_5)
 - типовые причины оформления кредита;
 - возрастные группы заемщиков;
 - группы клиентов по уровню дохода;
 - наличие в кредитной истории клиента просроченной задолжености.

## [Шаг  3](#step_3) - исследовательская работа
8. [Влияние социального статуса на своевременное погашение задолженности](#step_3_1)
9. [Влияние финансовой обеспеченности и целей заема на потенциальною проблемность кредита](#step_3_2)

## [Шаг  4](#step_4) - общий вывод
10. [Анализ полученных данных](#step4_1)

<a id='step_1'></a>

### Шаг 1


 <a id='step_1_1'></a>

### <span style="color: #CD5C5C">****1 Получение общей информации о данных****</span><br>


In [1]:
import pandas as pd
pd.options.display.float_format = '{:,.2f}'.format
financial_data = pd.read_csv('/datasets/data.csv')
financial_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_days            21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [2]:
financial_data.head(10)

Unnamed: 0,children,days_employed,dob_days,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.67,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.64,покупка жилья
1,1,-4024.8,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.01,приобретение автомобиля
2,0,-5623.42,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.95,покупка жилья
3,3,-4124.75,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.55,дополнительное образование
4,0,340266.07,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.08,сыграть свадьбу
5,0,-926.19,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.57,покупка жилья
6,0,-2879.2,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97,операции с жильем
7,0,-152.78,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.93,образование
8,2,-6929.87,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.83,на проведение свадьбы
9,0,-2188.76,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.94,покупка жилья для семьи


NameError: name 'Nan' is not defined

In [3]:
financial_data.tail(10)

Unnamed: 0,children,days_employed,dob_days,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21515,1,-467.69,28,среднее,1,женат / замужем,0,F,сотрудник,1,109486.33,заняться образованием
21516,0,-914.39,42,высшее,0,женат / замужем,0,F,компаньон,0,322807.78,покупка своего жилья
21517,0,-404.68,42,высшее,0,гражданский брак,1,F,компаньон,0,178059.55,на покупку своего автомобиля
21518,0,373995.71,59,СРЕДНЕЕ,1,женат / замужем,0,F,пенсионер,0,153864.65,сделка с автомобилем
21519,1,-2351.43,37,ученая степень,4,в разводе,3,M,сотрудник,0,115949.04,покупка коммерческой недвижимости
21520,1,-4529.32,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.86,операции с жильем
21521,0,343937.4,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.81,сделка с автомобилем
21522,1,-2113.35,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.56,недвижимость
21523,3,-3112.48,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.05,на покупку своего автомобиля
21524,2,-1984.51,40,среднее,1,женат / замужем,0,F,сотрудник,0,82047.42,на покупку автомобиля


In [4]:
financial_data.describe()

Unnamed: 0,children,days_employed,dob_days,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.54,63046.5,43.29,0.82,0.97,0.08,167422.3
std,1.38,140827.31,12.57,0.55,1.42,0.27,102971.57
min,-1.0,-18388.95,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.42,33.0,1.0,0.0,0.0,103053.15
50%,0.0,-1203.37,42.0,1.0,0.0,0.0,145017.94
75%,1.0,-291.1,53.0,1.0,1.0,0.0,203435.07
max,20.0,401755.4,75.0,4.0,4.0,1.0,2265604.03


 <a id='step_1_2'></a>

### <span style="color: #CD5C5C">****2 Формирование перечня подлежащих к решению задач****</span><br>


### Выявленные проблемы в данных:

- days_employed - есть как пропуски (скорее всего случайный, так как не все клиенты имеют стаж работы), так и аномальные значения,
- визуально выбивающиеся из выборки (например, 373995 дней стажа это несколько тысяч лет работы - здесь надо крепко подумать);
- education - явно заполняется пользователем, так как данные имеют не только разный регистр, хоть и не имеют пропусков;
- education_id -не имеет явной последовательности в присвоении айди (требуется сгруппировать, чтобы проанализировать подробнее);
- children - имеет аномальные значения;
- family_status_id - аналогично (сложно проследить закономерность)
- total_income - содержит пропуски
- purpose - указывается пользователем и явно содержит неочевидные дубликаты

<a id='step_2'></a>

### Шаг 2

 <a id='step_2_1'></a>

### <span style="color: #CD5C5C">****3. Работа с пропусками****</span><br>

 <span style="color: #c3b091">*****days_employed*****</span><br>

- заменим выявленные пропуски столбца days_employed на медианные значения, (в ходе исследования влияние стажа на вероятность своевременного погашения кредита выявляться не будет и данное допущение не повлияет на ход работы).

In [5]:
financial_data['days_employed'] = financial_data['days_employed'].fillna(value = financial_data['days_employed'].median())

 <span style="color: #c3b091">*****total_income*****</span><br>

- заменим выявленные пропуски столбца total_income, но прежде проанализируем, является ли пропуск данных о доходе случайным или же он значим для исследования:

In [6]:
financial_data.groupby('income_type')['total_income'].count()

income_type
безработный            2
в декрете              1
госслужащий         1312
компаньон           4577
пенсионер           3443
предприниматель        1
сотрудник          10014
студент                1
Name: total_income, dtype: int64

Как мы видим, пропуски относятся к типам занятости, однозначно подразумевающим доход. Заменим пропуски на медианное значение.

In [7]:
financial_data['total_income'] = financial_data['total_income'].fillna(value = financial_data['total_income'].median())

Проверим совершенные действия:

In [8]:
financial_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_days            21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [9]:
financial_data.describe()

Unnamed: 0,children,days_employed,dob_days,education_id,family_status_id,debt,total_income
count,21525.0,21525.0,21525.0,21525.0,21525.0,21525.0,21525.0
mean,0.54,56557.34,43.29,0.82,0.97,0.08,165159.49
std,1.38,134922.32,12.57,0.55,1.42,0.27,97866.07
min,-1.0,-18388.95,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2518.17,33.0,1.0,0.0,0.0,107798.17
50%,0.0,-1203.37,42.0,1.0,0.0,0.0,145017.94
75%,1.0,-385.11,53.0,1.0,1.0,0.0,195543.62
max,20.0,401755.4,75.0,4.0,4.0,1.0,2265604.03


 <a id='step_2_2'></a>

### <span style="color: #CD5C5C">****4. Аномальные значения****</span><br>

- В ходе ознакомления с данными, были выявлены аномальные значения в столбцах children (-1 и 20) days_employed (положительные крупные величины) и dob_days (0). В соответствии со сказанным выше, days_employed интереса для исследования не представляет. Проведем работу с оставшимися двумя сериями.

 <span style="color: #c3b091">*****children*****</span><br>

In [10]:
print('Максимальное количество детей в выборке -', financial_data['children'].max())
print('Минимальное количество детей в выборке -', financial_data['children'].min())

Максимальное количество детей в выборке - 20
Минимальное количество детей в выборке - -1


In [11]:
financial_data.groupby(by = 'children')['children'].count()

children
-1        47
 0     14149
 1      4818
 2      2055
 3       330
 4        41
 5         9
 20       76
Name: children, dtype: int64

Вероятно, тут закралась опечатка. "-1" заменим на "1", убрав знак, а от 20 (при всем уважении к многодетным) все же отрежем ноль

In [12]:
financial_data.loc[financial_data['children'] == -1, 'children'] = 1
financial_data.loc[financial_data['children'] == 20, 'children'] = 2


Проверим себя:

In [13]:
financial_data.groupby(by = 'children')['children'].count()


children
0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

 <span style="color: #c3b091">*****dob_days*****</span><br>

In [14]:
print('Максимальный возраст в выборке -', financial_data['dob_days'].max())
print('Минимальный возраст в выборке -', financial_data['dob_days'].min())

Максимальный возраст в выборке - 75
Минимальный возраст в выборке - 0


Так как банки не дают младенцам кредиты (хорошие банки точно), требуется проверить природу этого пропуска.

In [15]:
old_mean = financial_data['dob_days'].mean()
old_mean

43.29337979094077

In [16]:
financial_data.loc[financial_data['dob_days'] == 0, 'dob_days'] = old_mean


Проверим себя:

In [17]:
financial_data['dob_days'].astype('int').min()

19

 <a id='step_2_3'></a>

### <span style="color: #CD5C5C">****5. Поиск дубликатов****</span><br>

 <span style="color: #c3b091">*****education*****</span><br>

In [18]:
financial_data['education'].unique()

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

Приведем все значенияк строчному виду и посмотрим, достаточно ли этого для удаления дубликатов:

In [19]:
financial_data['education'] = financial_data['education'].str.lower()
print(financial_data['education'].unique())

['высшее' 'среднее' 'неоконченное высшее' 'начальное' 'ученая степень']


Проверим как именно присваивается айди к образванию - в самом начале меня смутила непрозрачность этого солбца

In [20]:
financial_data.groupby(by = 'education')['education_id'].mean()

education
высшее                 0
начальное              3
неоконченное высшее    2
среднее                1
ученая степень         4
Name: education_id, dtype: int64

 <span style="color: #c3b091">*****purpose*****</span><br>

In [21]:
financial_data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

In [22]:
financial_data['education'] = financial_data['education'].str.lower()

In [23]:
financial_data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

<a id='step_2_4'></a>

### <span style="color: #CD5C5C">****6. Изменение типов данных****</span><br>

In [24]:
financial_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_days            21525 non-null float64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(3), int64(4), object(5)
memory usage: 2.0+ MB


In [25]:
financial_data['days_employed'] = financial_data['days_employed'].astype('int')
financial_data['dob_days'] = financial_data['dob_days'].astype('int')
financial_data['total_income'] = financial_data['total_income'].astype('int')

In [26]:
financial_data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
dob_days            21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


<a id='step_2_5'></a>

### <span style="color: #CD5C5C">****7. Категоризация данных:****</span><br>

 - типовые причины оформления кредита;
 - возрастные группы заемщиков;
 - группы клиентов по уровню дохода;
 - наличие в кредитной истории клиента просроченной задолжености.

 <span style="color: #c3b091">*****типовые причины оформления кредита*****</span><br>

В первую очередь определим количество клиентов по уникальным значениям причин

In [27]:
financial_data['purpose'].value_counts()

свадьба                                   797
на проведение свадьбы                     777
сыграть свадьбу                           774
операции с недвижимостью                  676
покупка коммерческой недвижимости         664
покупка жилья для сдачи                   653
операции с жильем                         653
операции с коммерческой недвижимостью     651
жилье                                     647
покупка жилья                             647
покупка жилья для семьи                   641
строительство собственной недвижимости    635
недвижимость                              634
операции со своей недвижимостью           630
строительство жилой недвижимости          626
покупка недвижимости                      624
покупка своего жилья                      620
строительство недвижимости                620
ремонт жилью                              612
покупка жилой недвижимости                607
на покупку своего автомобиля              505
заняться высшим образованием      

Затем выделим корни слов, чтобы привести все к общему знаменателю. Для этого импортируем библиотеку и создадим уникальный перечень значений, после чего проведем лемматизацию и подсчитаем количество уникальных значений с помощью контейнера

In [28]:
purpose = financial_data['purpose'].unique().tolist()
purpose

['покупка жилья',
 'приобретение автомобиля',
 'дополнительное образование',
 'сыграть свадьбу',
 'операции с жильем',
 'образование',
 'на проведение свадьбы',
 'покупка жилья для семьи',
 'покупка недвижимости',
 'покупка коммерческой недвижимости',
 'покупка жилой недвижимости',
 'строительство собственной недвижимости',
 'недвижимость',
 'строительство недвижимости',
 'на покупку подержанного автомобиля',
 'на покупку своего автомобиля',
 'операции с коммерческой недвижимостью',
 'строительство жилой недвижимости',
 'жилье',
 'операции со своей недвижимостью',
 'автомобили',
 'заняться образованием',
 'сделка с подержанным автомобилем',
 'получение образования',
 'автомобиль',
 'свадьба',
 'получение дополнительного образования',
 'покупка своего жилья',
 'операции с недвижимостью',
 'получение высшего образования',
 'свой автомобиль',
 'сделка с автомобилем',
 'профильное образование',
 'высшее образование',
 'покупка жилья для сдачи',
 'на покупку автомобиля',
 'ремонт жилью',
 '

In [29]:
from pymystem3 import Mystem
m = Mystem()
from collections import Counter

lemmas = []
for row in purpose:
    
    lemmas += m.lemmatize(row)
   
print(Counter(lemmas))

Counter({' ': 59, '\n': 38, 'покупка': 10, 'недвижимость': 10, 'автомобиль': 9, 'образование': 9, 'жилье': 7, 'с': 5, 'операция': 4, 'на': 4, 'свой': 4, 'свадьба': 3, 'строительство': 3, 'получение': 3, 'высокий': 3, 'дополнительный': 2, 'для': 2, 'коммерческий': 2, 'жилой': 2, 'заниматься': 2, 'сделка': 2, 'приобретение': 1, 'сыграть': 1, 'проведение': 1, 'семья': 1, 'собственный': 1, 'подержать': 1, 'со': 1, 'подержанный': 1, 'профильный': 1, 'сдача': 1, 'ремонт': 1})


Получив контейнер с данным, можем из них выделить несколько отдельных категорий:
- недвижимость
- автомобиль
- образование
- свадьба

(категория жилье - синоним недвижимости, а все причины, содержащие "строительство" в том числе содержат слово "недвижимость", поэтому выделать отдельную категорию нет необходимости)


Теперь напишем функцию, которая будет присваивать определенную категорию причины, на основании выделенных лемм.
и применим к нашей таблице, добавив тип 

In [30]:
def serch_word_in_data(row):
    
    #ищет слова в датафрейме
    
    purpose_in = row['purpose']
    
    if 'недвиж' in purpose_in:
        return 'недвижимость'
    
    if 'жиль' in purpose_in:
        return 'недвижимость'
    
    if 'автом' in purpose_in:
        return 'автомобиль'
    
    if 'образов' in purpose_in:
        return 'образование'
    
    if 'свадьб' in purpose_in:
        return 'свадьба'
    
    return 'что-то пошло не так'

In [31]:
financial_data['purpose_type'] = financial_data.apply(serch_word_in_data, axis=1)
financial_data.head()

Unnamed: 0,children,days_employed,dob_days,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_type
0,1,-8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,недвижимость
1,1,-4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,автомобиль
2,0,-5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,недвижимость
3,3,-4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,свадьба


Проверим правильность выполненных действий:

In [32]:
financial_data.groupby(by = ['purpose_type', 'purpose'] )['purpose'].count()

purpose_type  purpose                               
автомобиль    автомобили                                478
              автомобиль                                495
              на покупку автомобиля                     472
              на покупку подержанного автомобиля        479
              на покупку своего автомобиля              505
              приобретение автомобиля                   462
              свой автомобиль                           480
              сделка с автомобилем                      455
              сделка с подержанным автомобилем          489
недвижимость  жилье                                     647
              недвижимость                              634
              операции с жильем                         653
              операции с коммерческой недвижимостью     651
              операции с недвижимостью                  676
              операции со своей недвижимостью           630
              покупка жилой недвижимости       

 <span style="color: #c3b091">*****возрастные группы заемщиков*****</span><br>

Напишем функую, которая разобьет нам возрастные категории на десятилетия:
 - до 25;
 - до 35;
 - до 45;
 - до 55;
 - до 65;
 - от 65.

In [33]:
def old_group(row):
    
    #ищет слова в датафрейме
    
    old = row['dob_days']
    
    if old <= 25:
        return '0-25'
    
    if 26 < old <= 35:
        return '26-35'
    
    if 36 < old <= 45:
        return '36-45'
    
    if 46 < old <= 55:
        return '46-55'
    
    if 56 < old <= 65:
        return '56-65'
       
    return 'от 65'

In [34]:
financial_data['old_group'] = financial_data.apply(old_group, axis = 1)

Проверим правильность проведенных действий (закомментировала результат для удобства восприятия)

In [35]:
#financial_data.groupby(by = ['old_group', 'dob_days'])['old_group'].count()

 <span style="color: #c3b091">*****группы клиентов по уровню дохода*****</span><br>

In [36]:
print('Максимальный доход - ', financial_data['total_income'].max())
print('Минимальный доход - ', financial_data['total_income'].min())
print('Средний доход -', financial_data['total_income'].mean())
print('Медианный доход - ', financial_data['total_income'].median())
financial_data_un = pd.Series(financial_data['total_income'].unique())
print('Общее число значений', financial_data_un.count())

Максимальный доход -  2265604
Минимальный доход -  20667
Средний доход - 165158.94276422763
Медианный доход -  145017.0
Общее число значений 18606


Число групп: 

- Группа 1: Минимальный доход (20000) + 50000 = до 71000 
- Группа 2: от 71001 до Медианного дохода (до 145000)
- Группа 3: Медианный доход (145000) + 100000 = 245 000 
- Группа 4: от 245 000 до 500 000 
- Грппа 5: от 500 001 и выше 

In [37]:
def total_income_group(row):
    
    #определяет уровень дохода
    
    income = row['total_income']
    
    if income <= 71000:
        return 'Доход до 71 000'
    
    if 71001 < income <= 145000:
        return 'Доход до 145000'
    
    if 145001 < income <= 245000:
        return 'Доход до 245000'
    
    if 245001 < income <= 500000:
        return 'Доход до 500000'
         
    return 'Доход свыше 500001'

In [38]:
financial_data['income_group'] = financial_data.apply(total_income_group, axis = 1)

Проверим правильность проведенных действий (закомментировала результат для удобства восприятия)

In [39]:
#financial_data.groupby(by = ['income_group', 'total_income'])['income_group'].count()

 <span style="color: #c3b091">*****наличие в кредитной истории задолженности*****</span><br>

In [40]:
def serch_word_in_data(row):
    
    #переводит цифры в категории
    
    debt_text = row['debt']
    
    if debt_text == 1:
        return 'Задержка погашения'
    
    return 'Безпроблемный'

In [41]:
financial_data['debt_text'] = financial_data.apply(serch_word_in_data, axis = 1)

Проверим правильность проведенных действий.

In [42]:
financial_data.groupby(by = ['debt_text', 'debt'])['debt_text'].count()

debt_text           debt
Безпроблемный       0       19784
Задержка погашения  1        1741
Name: debt_text, dtype: int64

<a id='step_3'></a>

In [43]:
### Шаг 3

<a id='step_3_1'></a>

### <span style="color: #CD5C5C">****8. Влияние социального статуса на своевременное погашение задолженности****</span><br>

Теперь построим сводные таблицы, чтобы нагладно ознакомиться с данными:
      - исходя из возрастной группы
      - исходя из пола
      - исходя из семейного  положения
      - исходя из количества детей

In [44]:
def magic_pivot(index):
    #собирает маленькие сводники из нужных категорий по столбцам "debt_text"
   

    result_pivot = financial_data.pivot_table(index = index, columns = 'debt_text',  values = 'debt', aggfunc = 'count')
    result_pivot = result_pivot.fillna(0)
    result_pivot ['percent'] = result_pivot['Задержка погашения'] * 100 / (result_pivot['Безпроблемный'] + result_pivot['Задержка погашения'])        
    #result_pivot = result_pivot.sort_values(by = 'percent', ascending = False) - не вышло
    
    return result_pivot

**Каким образом влияет** ***возраст*** **на своевременное погашение кредита?**

In [45]:
old_pivot = magic_pivot('old_group')
old_pivot.sort_values(by = 'percent', ascending = False)

debt_text,Безпроблемный,Задержка погашения,percent
old_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0-25,1103,131,10.62
26-35,4432,520,10.5
36-45,4747,432,8.34
от 65,2434,196,7.45
46-55,4063,290,6.66
56-65,3005,172,5.41


Вывод можно сделать следующий: возраст до 35 лет является важным фактором, при учете риска непогашения кредита.

**Каким образом влияет** ***пол*** **на своевременное погашение кредита?**

In [46]:
gender_pivot = magic_pivot('gender')
gender_pivot.sort_values(by = 'percent', ascending = False)


debt_text,Безпроблемный,Задержка погашения,percent
gender,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
M,6541.0,747.0,10.25
F,13242.0,994.0,6.98
XNA,1.0,0.0,0.0


Мужчины с бОльшей вероятностью просрачивают возврат кредита.

**Каким образом влияет** ***семейное положение*** **на своевременное погашение кредита?**

In [47]:
famaly_pivot = magic_pivot('family_status')
famaly_pivot.sort_values(by = 'percent', ascending = False)

debt_text,Безпроблемный,Задержка погашения,percent
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Не женат / не замужем,2539,274,9.74
гражданский брак,3789,388,9.29
женат / замужем,11449,931,7.52
в разводе,1110,85,7.11
вдовец / вдова,897,63,6.56


Отсутствие брака в юридически оформленном виде так же понижает шансы банка получить обратно собственные деньги. 

**Каким образом влияет** ***наличие детей*** **на своевременное погашение кредита?**

In [48]:
child_pivot = magic_pivot('children')
child_pivot.sort_values(by = 'percent', ascending = False)

debt_text,Безпроблемный,Задержка погашения,percent
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
4,37.0,4.0,9.76
2,1929.0,202.0,9.48
1,4420.0,445.0,9.15
3,303.0,27.0,8.18
0,13086.0,1063.0,7.51
5,9.0,0.0,0.0


Вероятно, по 5 детей заводят только смелые и состоятельные люди, точно знающие, что смогут отдать все, что взяли, чего не скажешь обо всех остальных родителях.
Можно сделать несмелый вывод, что люди без детей с большей вероятностью не допускают просрочек. 

**Каким образом влияет** ***социальный статус*** **на своевременное погашение кредита?**

Для подведения итогов по социальному блоку, сведем в одном датафрейме самые негативные позиции и выявим наиболее неприемлимые группы клиентов.

In [49]:
old_filt = financial_data['old_group'] == '0-25'
gender_filt = financial_data['gender'] == 'M'
fam_filt = financial_data['family_status'] == 'Не женат / не замужем'
child_filt_min = 1 < financial_data['children']
child_filt_max = financial_data['children'] < 5
gender_filtf = financial_data['gender'] == 'F'

*** - группа 1 - молодые мужчины ***

In [50]:
social_problem0 = financial_data.loc[old_filt & gender_filt]

In [51]:
social0_pivot = social_problem0.pivot_table(index = 'debt_text', values = 'debt', aggfunc = 'count' )

In [52]:
social0_pivot

Unnamed: 0_level_0,debt
debt_text,Unnamed: 1_level_1
Безпроблемный,464
Задержка погашения,66


In [53]:
percent0 = 66*100/464
percent0

14.224137931034482

***Клиенты данной группы имеют высокий риск невозврата***

 *** - группа 2 - молодые мужчины не в браке ***

In [54]:
social_problem2 = financial_data.loc[old_filt & gender_filt& fam_filt]

In [55]:
social2_pivot = social_problem2.pivot_table(index = 'debt_text', values = 'debt', aggfunc = 'count' )

In [56]:
social2_pivot

Unnamed: 0_level_0,debt
debt_text,Unnamed: 1_level_1
Безпроблемный,216
Задержка погашения,40


In [57]:
percent2 = 40*100/216
percent2

18.51851851851852

Сравним риски того же возраста, но для клиетов женского пола.

In [58]:
social_problemf = financial_data.loc[old_filt & gender_filtf& fam_filt]

In [59]:
social_pivotf = social_problemf.pivot_table(index = 'debt_text', values = 'debt', aggfunc = 'count' )

In [60]:
social_pivotf

Unnamed: 0_level_0,debt
debt_text,Unnamed: 1_level_1
Безпроблемный,202
Задержка погашения,17


In [61]:
percentf = 17*100/202
percentf

8.415841584158416

***Клиенты данной группы имеют очень высокий риск невозврата (что подтверждается сравнением по женскому полу)***

*** - группа 3 - родители вне брака ***

In [62]:
social_problem1 = financial_data.loc[fam_filt & child_filt_min & child_filt_max]

In [63]:
social1_pivot = social_problem1.pivot_table(index = 'debt_text',  values = 'debt', aggfunc = 'count')

In [64]:
social1_pivot

Unnamed: 0_level_0,debt
debt_text,Unnamed: 1_level_1
Безпроблемный,82
Задержка погашения,12


In [65]:
percent1 = 12*100/82
percent1

14.634146341463415

***Клиенты данной группы имеют высокий риск невозврата***

#### *** - группа 4 - молодые отцы ***

In [66]:
social_problem3 = financial_data.loc[old_filt & child_filt_min & child_filt_max]

In [67]:
social3_pivot = social_problem3.pivot_table(index = 'debt_text', values = 'debt', aggfunc = 'count' )

In [68]:
social3_pivot

Unnamed: 0_level_0,debt
debt_text,Unnamed: 1_level_1
Безпроблемный,56
Задержка погашения,6


In [69]:
percent3 = 6*100/56
percent3

10.714285714285714

***Клиенты данной группы имеют относительно высокий риск невозврата***

### Вывод:

Социальные критерии оценки потенциального клиента могут позволить оценить вероятность своевременного погашения кредита:

 - выборка по мужчинам, в возрасте до 25 демонстрирует 14,2% вероятность задержки платежей;
 - выборка по мужчинам, в возрасте до 25, не состоящих в браке, демонстрирует 18,5% вероятность задержки платежей (при вероятности в 8,4% у женщин той же социальной группы);
 - выборка по одиноким родителям демонстрирует 14,6% вероятность задержки платежей.

<a id='step_3_2'></a>

### <span style="color: #CD5C5C">****9. Влияние финансовой обеспеченности и целей займа на потенциальною проблемность кредита****</span><br>

Теперь построим сводные таблицы, чтобы нагладно ознакомиться с данными:
      - исходя из занятости
      - исходя из дохода
      - исходя из цели кредита
  


**Каким образом влияет** ***тип занятости*** **на своевременное погашение кредита?**

In [70]:
income_pivot = magic_pivot('income_type')
income_pivot.sort_values(by = 'percent', ascending = False)

debt_text,Безпроблемный,Задержка погашения,percent
income_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
в декрете,0.0,1.0,100.0
безработный,1.0,1.0,50.0
сотрудник,10058.0,1061.0,9.54
компаньон,4709.0,376.0,7.39
госслужащий,1373.0,86.0,5.89
пенсионер,3640.0,216.0,5.6
предприниматель,2.0,0.0,0.0
студент,1.0,0.0,0.0


По крупным группам (сотрудники и госслужащие) зависимость не очевидна, но можно с полной уверенность сказать, что безработные и люди, находящиеся в деркетном отпуске, хоть и не часто получают кредиты, так же не часто их и отдают. 

**Каким образом влияет** ***уровень дохода*** **на своевременное погашение кредита?**

In [71]:
income_pivot = magic_pivot('income_group')
income_pivot.sort_values(by = 'percent', ascending = False)

debt_text,Безпроблемный,Задержка погашения,percent
income_group,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Доход до 145000,7427,696,8.57
Доход до 245000,8155,733,8.25
Доход до 71 000,1443,108,6.96
Доход до 500000,2551,190,6.93
Доход свыше 500001,208,14,6.31


Что удивительно, клиенты со средним и выше уровнем достатка гораздо неохотнее соблюдают сроки, но, в сравнении с социальными показателями, такими, как возраст, разница не столь критична.

**Каким образом влияет** ***цель кредита*** **на своевременное погашение кредита?**

In [72]:
purpose_pivot = magic_pivot('purpose_type')
purpose_pivot.sort_values(by = 'percent', ascending = False)

debt_text,Безпроблемный,Задержка погашения,percent
purpose_type,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
автомобиль,3912,403,9.34
образование,3652,370,9.2
свадьба,2162,186,7.92
недвижимость,10058,782,7.21


Приобретение автомобиля и получение образование - самые "рискованные" причины для банка.

**Каким образом влияет** ***финансовое благополучие и цель займа*** **на своевременное погашение кредита?**

Для подведения итогов по финансовому блоку, сведем в одном датафрейме самые негативные позиции и выявим наиболее неприемлимые группы клиентов.

In [73]:
work_filt1 = financial_data['income_type'] == 'сотрудник'
work_filt2 = financial_data['income_type'] == 'безработный'
work_filt3 = financial_data['income_type'] == 'в декрете'

income_filt = financial_data['income_group'] == 'Доход до 145000'
purpose_filt = financial_data['purpose_type'] == 'автомобиль'


*** - группа 1 -  ***

In [74]:
fin_group = financial_data.loc[(work_filt1 | work_filt2 | work_filt3)  & income_filt & purpose_filt]

In [75]:
fin_pivot = fin_group.pivot_table(index = 'debt_text', values = 'debt', aggfunc = 'count' )

In [76]:
fin_pivot

Unnamed: 0_level_0,debt
debt_text,Unnamed: 1_level_1
Безпроблемный,774
Задержка погашения,98


In [77]:
percent_fin = 98*100/774
percent_fin

12.661498708010337

### Вывод:

Финансовый статус оценки потенциального клиента позволяет следующим образом оценить вероятность своевременного погашения кредита:

 - клиенты со среднем уровнем дохода, работающие по найму и желающие получить кредит на преобретение автомобиля, имеют 12,6% вероятность несвоевременного погашения задолженности 

<a id='step_4'></a>

### Шаг 4

 <a id='step_4_1'></a>

### <span style="color: #CD5C5C">****10. Анализ полученных данных****</span><br>

Исходя из *Шага 3* можно сделать вывод, что социальные статусы значительнее влияют на возможность клиента вернуть кредит в срок. Для выделения наиболее рискованной группы клиентов, соеденим полученные данные.

In [78]:
all_problem = financial_data.loc[old_filt & gender_filt & fam_filt & (work_filt1 | work_filt2 | work_filt3) & purpose_filt]

In [79]:
all_pivot = all_problem.pivot_table(index = 'debt_text', values = 'debt', aggfunc = 'count' )

In [80]:
all_pivot

Unnamed: 0_level_0,debt
debt_text,Unnamed: 1_level_1
Безпроблемный,27
Задержка погашения,10


In [81]:
10*100/27

37.03703703703704

## Выводы можно сделать следующие:

*Социальный статус сильно влияет на вероятность непогашения кредита в срок. Критичной группой, нежелательной к выдаче кредита:*
- молодые мужчины в возрасте до 25, работающих по найму, не состоящих в юридически оформленных отношениях и желающие получить финансовые средства на преобретение автомобиля. 

*Отвечая на вопросы проекта, замечу следующее:*
- Тип занятости клиента скорее формирует представление о рискованных группах (слишком малочисленных в представленной выборке), таких как люди, находящиеся в декретном отпуске и безработные, чем указывает на четкую взаимосвязь. Однако, именно по этой группировке можно выделить закономерность по "безопасным" клиентам - пенсионеры.
- Доход клиента сам по себе влияет недостаточно и все группы по уровню дохода имеют вполне сопоставимые риски на невозврат.
- Наличие детей определенно влияет на увеличение вероятности невозврата кредита, но с учетом семейного статуса клиента взаимосвязь становится несколько более четкой.


### Примечание:
В ходе корректировки проекта, к сожалению, комментарии несколько сместились. Надеюсь, что не сильно этим затрудню проверку

![)](http://900igr.net/up/datas/238347/013.jpg)