# Исследование надежности заемщиков.

**Цель проекта**

Проанализировать данные о платёжеспособности клиентов для построения модели кредитного скоринга и определить, влияет ли семейное положение и количество детей клиента на способность потенциального заёмщика вернуть кредит банку в срок. 

**Шаги (задачи) проекта**

0.1 Шаг 1 - открыть таблицу и изучить общую информацию о данных

0.2 Шаг 2.1 - заполнить пропуски

0.3 Шаг 2.2 - проверить данные на аномалии и исправления 

0.4 Шаг 2.3 - изменить типы данных 

0.5 Шаг 2.4 - удалить дубликаты 

0.6 Шаг 2.5 - сформировать дополнительные датафреймы словарей 

0.7 Шаг 2.6 - категоризировать доход

0.8 Шаг 2.7 - категоризировать цели кредита

0.9 Ответить на вопросы 

1.Сделать общий вывод

### Шаг 1. Обзор данных

Импортируем библиотеку pandas для работы с данными.

In [1]:
import pandas as pd # импорт библиотеки pandas

Откроем таблицу с данными.

In [2]:
df = pd.read_csv('/datasets/data.csv') # чтение файла с данными и сохранение в df  

Изучим общую информацию о данных.

In [3]:
df.info() # получение общей информации о структуре таблицы df

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Изучим содержание первых 10 строк таблицы.

In [4]:
df.head(10) # получение первых 10 строк таблицы df

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


<div style="border:solid blue 2px; padding: 20px">  
    
## Вывод    <a class="tocSkip">
    
Таблица открыта, содержит 12 столбцов, 21525 строки. Наименования столбцов оформлены "змеиным стилем", переименование не требуется. В столбцах содержатся данные трех типов:
    
* 2 столбца содержат вещественные числа
* 5 столбцов содержат целые числа
* 5 столбцов содержат строки
    
  
Изучение первых 10 строк таблицы позволяет сделать следующие выводы:
    
1. столбец "days_employed" содержит отрицательные значения наряду с положительными, что может говорить об ошибке в данных
2. данные столбца "education" потребуют обработки и приведения к единому формату для работы с ними
3. данные столбца "family_status" соотносятся с данными столбца "family_status_id": 0 - женат/замужем, 1 - гражданский брак
4. в столбце "purpose" содержится много скрытых дублей    

### Шаг 2.1 Заполнение пропусков

Определим, в каких колонках есть пропущенных значения, и сколько их.

In [5]:
df.head(20) # вывод 20 первых строк датафрейма на экран 

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [6]:
df.isna().sum() # получение информации о столбцах, содержащих пустые значения

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Обнаружены пустые значения в столбцах 'days_employed' и 'total_income'. Эти столбцы содержат числовые значения, значит, в данном случае имеем дело с пропусками в количественных переменных.

Определим долю пропущенных значений в столбцах 'days_employed' и 'total_income'.

In [7]:
# определение доли пропущенных значений в столбце 'days_employed'
# также возможно использование метода .mean() для решения этой задачи
days_employed_nan = (df['days_employed'].isna().sum()) / (df['days_employed'].count() + df['days_employed'].isna().sum())
print(f'{days_employed_nan:.4%}')

10.0999%


In [8]:
# определение доли пропущенных значений в столбце 'total_income'\
# также возможно использование метода .mean() для решения этой задачи
total_income_nan = (df['total_income'].isna().sum()) / (df['total_income'].count() + df['total_income'].isna().sum())
print(f'{total_income_nan:.4%}')

10.0999%


Заполним пустые значения в столбцах 'days_employed' и 'total_income' медианными значениеми по столбцу (характерными
значениями). Данный способ является оптимальным для заполнения пропусков в количественных переменных в данном случае, поскольку позволяет нивелировать влияние "выпадающих" значений (слишком больших или слишком маленьких) на результат. 

*Медиана — это такое число в выборке, что ровно половина элементов больше него, а другая половина — меньше.*

In [10]:
# заполнение пустых значений столбца 'days_employed' медианными значениями данного столбца
df['days_employed'] = df['days_employed'].fillna(df['days_employed'].median()) 

In [11]:
# заполнение пустых значений столбца 'total_income' медианными значениями данного столбца
df['total_income'] = df['total_income'].fillna(df['total_income'].median())

Проверим корректность заполнения: пустые значений остаться не должно.

In [12]:
df.isna().sum() # проверка наличия пустых значений в столбцах таблицы

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

Данные обработаны корректно, пустых значений в столбцах 'days_employed' и 'total_income' не осталось

<div style="border:solid blue 2px; padding: 20px">  
    
## Вывод    <a class="tocSkip">
    
В рамках шага 2.1 проведена проверка данных на наличие пропущенных значений. Такие значения обнаружены в 2х столбцах: 
    
* 'days_employed'
* 'total_income'

Количество и % пропущенных значений в столбцах 'days_employed' и 'total_income' совпадает, что может говорить  о том, что данные отсутствуют в одних и тех же строках, т.е. отностятся к одним и тем же потенциальным заемщикам. Характер пропущенных данных (ежемесячный доход и общий трудовой стаж) может говорить о том, что данные заемщики никогда не были трудоустроены и не имеют постоянного источника дохода. Возможно, это дети, подростки, студенты, молодые мамы. В таком случае пропуски объяснимы реальным положением дел. Также нельзя исключать воззможность технической ошибки в данных, из-за которой данные не попали в датасет.
    
Отсутствующие данные заменены медианными значениями по столбцам, что является оптимальным при работе с количественными переменными данного типа.
Повторная проверка подтвердила успешность замены: пустых строк не осталось.    

### Шаг 2.2 Проверка данных на аномалии и исправление

Проверим данные по столбцам на предмет аномалий. Начнем с первого столбца **'children'**.

In [13]:
df['children'].value_counts() # получение информации о содержании столбца 'children'

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

Очевидно, что значение "-1" в столбце "количество детей" является ошибочным, а значение "20" в том же столбце является ошибочным с большой долей вероятности.

Избавимся от строк, содержащих эти некорректные значения, поскольку:
1. целью проекта является оценка зависимости между этим параметром и вероятностью возврата кредита, соответственно, наличие некорретных значений будет мешать анализу
2. они составляют небольшую долю от всей выборки, следовательно, их удаление не приведет к существенному искажению результатов анализа.

In [14]:
df = df[(df['children'] != -1) & (df['children'] != 20)] 
# удаление из датасета строки с некорректными значениями -1 и 20 в столбце 'children'

In [15]:
df['children'].value_counts() # проверка корректности операции

0    14149
1     4818
2     2055
3      330
4       41
5        9
Name: children, dtype: int64

Удаление произведено корректно, строки со значениями -1 и 20 пропали.

Оценим корректность данных в столбце **'days_employed'**. 
При обзоре датасета на начальной стадии исследования (вывод первые 10 строк) были выявлены отклонения:

1. большое количество отрицательных значений данных в колонке "Общий трудовой стаж в днях"
2. наличие заведомо недостоверных значений, превышающих объективно допустимые (например, 340 256 дней в годах равно 932 годам)

Проверим, какое количество значений первого и второго типа содержит столбец 'days_employed'.

In [16]:
# подсчет количества отрицательных значений в столбце 'days_employed'
df[df['days_employed'] < 0]['days_employed'].count()

17971

In [17]:
# подсчет количества значений в столбце 'days_employed',превышающих объективно допустимые 
df[df['days_employed'] > 17155]['days_employed'].count()

3431

In [18]:
(17971 + 3431)/21525

0.9942857142857143

Таким образом, 99% данных в столбце 'days_employed' отражены в датасете в некорректном формате. Поскольку в этом исследовании данные столбца 'days_employed' не участвуют (на их основании не делаются выводы), оставим столбец без изменений. В случае необходимости анализа этих данных в реальной рабочей ситуации потребуется выяснение причин некорректного формата у стороны, предоставившей датасет. Если значения окажутся отрицательными по причине технической ошибки, можно будет вернуть эти значения по модулю. Значения, превышающие объективно возможные, потребуется заменить, например, на медианные по нескольким возрастным группам.

Оценим корректность данных в столбце **'dob_years'** (возраст клиента в годах).

In [19]:
df['dob_years'].value_counts() # проверка данных в колонке 'dob_years'

35    614
40    603
41    603
34    597
38    595
42    592
33    577
39    572
31    556
36    553
29    543
44    543
30    536
48    536
37    531
43    510
50    509
32    506
49    505
28    501
45    494
27    490
52    483
56    482
47    480
54    476
46    469
58    461
57    457
53    457
51    446
55    441
59    441
26    406
60    376
25    356
61    353
62    351
63    268
64    263
24    263
23    252
65    194
66    183
22    183
67    167
21    110
0     100
68     99
69     83
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

В целом, данные адекватные. Есть 100 строк со значением 0, удалим их как некорректные.

In [20]:
df = df[df['dob_years'] != 0]  # удаление строк с нулевым значением 

Проверим результат.

In [21]:
df[df['dob_years'] == 0]['dob_years'].count() # проверка результата 

0

В датасете больше нет строк со значением 0 в столбце "возраст клиента".

Оценим корректности данных в столбце **'education'** ("образование")

In [22]:
df['education'].value_counts() # проверка данных в колонке 'education'

среднее                13609
высшее                  4666
СРЕДНЕЕ                  764
Среднее                  700
неоконченное высшее      663
ВЫСШЕЕ                   270
Высшее                   266
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

Все данные адекватные, есть скрытые дубли, которые нужно будет обработать на следующем шаге.

Оценим корректности данных в столбце **'education_id'** ("идентификатор уровня образования")

In [23]:
df['education_id'].value_counts()  # проверка данных в колонке 'education_id'

1    15073
0     5202
2      739
3      282
4        6
Name: education_id, dtype: int64

Данные адекватны, соотносимы с данными колонки "Образование".

Оценим корректность данных в столбце **'family_status'** ("семейное положение").

In [24]:
df['family_status'].value_counts() # проверка данных в колонке 'family_status'

женат / замужем          12254
гражданский брак          4139
Не женат / не замужем     2783
в разводе                 1179
вдовец / вдова             947
Name: family_status, dtype: int64

Данные адекватные.

Оценим корректность данных в столбце **'family_status_id'** ("идентификатор семейного положения").

In [25]:
df['family_status_id'].value_counts() # проверка данных в колонке 'family_status_id'

0    12254
1     4139
4     2783
3     1179
2      947
Name: family_status_id, dtype: int64

Данные адекватны, соотносимы с данными колонки "Семейное положение".

Оценим корректность данных в столбце **'gender'** ("пол").

In [26]:
df['gender'].value_counts() # проверка данных в колонке 'gender'

F      14083
M       7218
XNA        1
Name: gender, dtype: int64

Данные адекватны. Обращает на себя внимание тот факт, что женщин в датасете в 2 раза больше, чем мужчин, также по одному клиенту информация о поле не указана, но это не является критичным, поэтому принимаем данный столбец в составе датафрейма в обработку без изменений.

Оценим корректность данных в столбце **'income_type'** ("тип занятости").

In [27]:
df['income_type'].value_counts() # проверка данных в колонке 'income_type'

сотрудник          10996
компаньон           5034
пенсионер           3819
госслужащий         1447
безработный            2
предприниматель        2
студент                1
в декрете              1
Name: income_type, dtype: int64

Данные адекватны; максимально в выборке представлены сотрудники, в 2 раза меньше компаньонов, в 3,5 - пенсионеров, в 10 - госслужащих. 

Оценим корректность данных в столбце **'purpose'** ("цель получения кредита").

In [28]:
df['purpose'].value_counts() # проверка данных в колонке 'purpose'

свадьба                                   791
на проведение свадьбы                     768
сыграть свадьбу                           764
операции с недвижимостью                  670
покупка коммерческой недвижимости         658
покупка жилья для сдачи                   649
операции с коммерческой недвижимостью     644
операции с жильем                         642
покупка жилья для семьи                   639
жилье                                     636
покупка жилья                             635
недвижимость                              628
операции со своей недвижимостью           626
строительство собственной недвижимости    626
строительство недвижимости                620
строительство жилой недвижимости          619
покупка своего жилья                      618
покупка недвижимости                      616
ремонт жилью                              607
покупка жилой недвижимости                600
на покупку своего автомобиля              501
заняться высшим образованием      

Все данные адекватные, есть скрытые дубли, которые нужно будет обработать на следующем шаге.

<div style="border:solid blue 2px; padding: 20px">  
    
## Вывод    <a class="tocSkip">
    
В рамках шага 2.2 проведена проверка данных на наличие аномалий. Такие значения обнаружены в столбцах: 
    
* 'children': значение -1 (ошибочное) и значение 20 (маловероятное); возможная причина их появления - опечатка при внесении данных из анкет сотрудником банка; строки с этими значениями удалены из датасета
* 'days_employed': отрицательные значения и значения, превышающие стаж в 70 лет; возможная причина их появления - техническая ошибка при формировании датасета; строки с этими значениями оставлены без изменений, требуется выяснение причин искажений у предоставивших датафрейм
* 'dob_years': значения 0 (ошибочные); возможная причина их появления - опечатка при внесении данных из анкет сотрудником банка; строки с этими значениями удалены из датасета
* 'gender': отсутствует информация о поле по одному из клиентов; возможная причина появления ошибки - опечатка при внесении данных из анкет сотрудником банка; строка с этим значением оставлена без изменений,
    
В 2х колонках присутствуют скрытые дубликаты, которые потребуется обработать на следующем шаге:    
* 'education'
* 'purpose'
    
В целом датасет содержит релевантные данные и может быть использован для проведения исследования.  

### Шаг 2.3. Изменение типов данных.

Заменим вещественный тип данных в столбце total_income на целочисленный.

In [29]:
# замена вещественног типа данных на цельночисленных при помощи метода astype
df['total_income'] = df['total_income'].astype('int')

Проверим результат.

In [30]:
df['total_income'].head(10) # вывод на просмотр первых 10 строк столбца 'total_income'

0    253875
1    112080
2    145885
3    267628
4    158616
5    255763
6    240525
7    135823
8     95856
9    144425
Name: total_income, dtype: int64

<div style="border:solid blue 2px; padding: 20px">  
    
## Вывод    <a class="tocSkip">
    
В рамках шага 2.3 замена типа данных проведена успешно, все значения столбца приведены к цельночисленным.  

### Шаг 2.4. Удаление дубликатов.

В 2х колонках исследуемого датасета присутствуют дубликаты, которые требуется обработать:

'education' и 'purpose'

Сначала обработаем дубликаты в столбце **'education'**.

In [31]:
df['education'].value_counts() # вывод списка уникальных значений столбца 'education'

среднее                13609
высшее                  4666
СРЕДНЕЕ                  764
Среднее                  700
неоконченное высшее      663
ВЫСШЕЕ                   270
Высшее                   266
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

Очевидно, что основная причина возникновения дубликатов в этом столбце - использование различных регистров при внесении информации в базу данных. Можно убрать дубликаты путем приведения всех значений в столбце к нижнему регистру.

In [32]:
df['education'] = df['education'].str.lower() # исправление регистра на нижний

Проверим результат.

In [33]:
df['education'].value_counts() # проверка результата

среднее                15073
высшее                  5202
неоконченное высшее      739
начальное                282
ученая степень             6
Name: education, dtype: int64

Дубликаты в столбце 'education' удалены, все оставшиеся значения уникальны.

Обработаем дубликаты в столбце **'purpose'**. Дубликаты неявные, основная причина их возникновения - заполнение поля "Цель получения кредита" в произвольной форме, синонимичными фразами.

In [34]:
df['purpose'].unique() # вызов списка уникальных значений столбца 'purpose'

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

Создадим функцию для замены синонимичных фраз.

In [35]:
def replace_syn_values(syn_values, correct_value): # создание функции
    for syn_value in syn_values:
        df['purpose'] = df['purpose'].replace(syn_value, correct_value) 

In [36]:
# применение функции с заданными аргументами для замены синонимов-формулировок цели кредита "покупка жилья" 
duplicates = ['покупка жилья для семьи', 'покупка жилой недвижимости', 'жилье', 'покупка своего жилья', 'покупка жилья для сдачи', 'покупка жилья для семьи'] 
single = 'покупка жилья'
replace_syn_values(duplicates, single)

In [37]:
# применение функции с заданными аргументами для замены синонимов-формулировок цели кредита "приобретение автомобиля" 
duplicates = ['на покупку подержанного автомобиля', 'на покупку своего автомобиля', 'автомобили', 'сделка с подержанным автомобилем', 'автомобиль', 'свой автомобиль', 'сделка с автомобилем', 'на покупку автомобиля'] 
single = 'приобретение автомобиля'
replace_syn_values(duplicates, single)

In [38]:
# применение функции с заданными аргументами для замены синонимов-формулировок цели кредита "организация свадьбы" 
duplicates = ['сыграть свадьбу', 'свадьба', 'на проведение свадьбы'] 
single = 'организация свадьбы'
replace_syn_values(duplicates, single)

In [39]:
# применение функции с заданными аргументами для замены синонимов-формулировок цели кредита "получение высшего образования" 
duplicates = ['высшее образование', 'заняться высшим образованием'] 
single = 'получение высшего образования'
replace_syn_values(duplicates, single)

In [40]:
# применение функции с заданными аргументами для замены синонимов-формулировок цели кредита "образование" 
duplicates = ['дополнительное образование', 'образование', 'заняться образованием', 'получение образования', 'получение дополнительного образования', 'профильное образование'] 
single = 'образование'
replace_syn_values(duplicates, single)

In [41]:
df['purpose'].unique() # проверка результата работы функции

array(['покупка жилья', 'приобретение автомобиля', 'образование',
       'организация свадьбы', 'операции с жильем', 'покупка недвижимости',
       'покупка коммерческой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости',
       'операции со своей недвижимостью', 'операции с недвижимостью',
       'получение высшего образования', 'ремонт жилью'], dtype=object)

Список формулировок цели кредита удалось существенно сократить за счет замены синонимичных фраз.

Проверим датасет на наличие явных дубликатов и удалим их с переиндексацией.

In [42]:
df.duplicated().sum() # проверка наличия явнях дубликатов

179

In [43]:
df = df.drop_duplicates().reset_index(drop=True) # удаление полных явных дубликатов

In [44]:
df.duplicated().sum() # проверка корректности удаления полных явных дубликатов

0

In [45]:
df.info() # проверка сохранности датасета после удаления дубликатов

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21123 entries, 0 to 21122
Data columns (total 12 columns):
children            21123 non-null int64
days_employed       21123 non-null float64
dob_years           21123 non-null int64
education           21123 non-null object
education_id        21123 non-null int64
family_status       21123 non-null object
family_status_id    21123 non-null int64
gender              21123 non-null object
income_type         21123 non-null object
debt                21123 non-null int64
total_income        21123 non-null int64
purpose             21123 non-null object
dtypes: float64(1), int64(6), object(5)
memory usage: 1.9+ MB


<div style="border:solid blue 2px; padding: 20px">  
    
## Вывод    <a class="tocSkip">
    
В рамках шага 2.4 проведена обработка дубликатов в столбцах 'education' и 'purpose'. 
    
В столбце 'education' дубликаты были представлены фразами с использованием разных регистров и были удалены при помощи метода str.lower(). В результате список уникальных значений был сокращен с 15 до 5. 
    
В столбце 'purpose' причиной возникновения дубликатов послужило заполнение анкеты в части цели кредита в сободной форме, что привело к появлению в датасете синонимичных фраз. Удаление дубликатов было проведено при помощи создания функции для замены синонимов на единую формулировку. В результате список уникальных значений был сокращен с 38 до 16. 

### Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

Осуществим классификацию данных по типу, для чего создадим новые датафреймы:
* "education_dict" со столбцами "education_id" и "education"
* "family_status_dict" со столбцами "family_status_id" и "family_status"

In [46]:
education_dict = df[['education_id', 'education']] # создание словаря "education_dict"

In [47]:
education_dict.head(10) # проверка корректности создания словаря

Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,1,среднее
3,1,среднее
4,1,среднее
5,0,высшее
6,0,высшее
7,1,среднее
8,0,высшее
9,1,среднее


In [48]:
family_status_dict = df[['family_status_id', 'family_status']] # создание словаря "family_status_dict"

In [49]:
family_status_dict.head(10) # проверка корректности создания словаря

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,0,женат / замужем
2,0,женат / замужем
3,0,женат / замужем
4,1,гражданский брак
5,1,гражданский брак
6,0,женат / замужем
7,0,женат / замужем
8,1,гражданский брак
9,0,женат / замужем


Удалим из исходного датафрейма столбцы education и family_status, оставив только их идентификаторы: education_id и family_status_id.

In [50]:
df = df.drop(['education', 'family_status'], axis=1) 
# удаление столбцов 'education', 'family_status' из исходного датафрейма

In [51]:
df.head(10) # проверка результата

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,-4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,-5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,-4124.747207,32,1,0,M,сотрудник,0,267628,образование
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,организация свадьбы
5,0,-926.185831,27,0,1,M,компаньон,0,255763,покупка жилья
6,0,-2879.202052,43,0,0,F,компаньон,0,240525,операции с жильем
7,0,-152.779569,50,1,0,M,сотрудник,0,135823,образование
8,2,-6929.865299,35,0,1,F,сотрудник,0,95856,организация свадьбы
9,0,-2188.756445,41,1,0,M,сотрудник,0,144425,покупка жилья


<div style="border:solid blue 2px; padding: 20px">  
    
## Вывод    <a class="tocSkip">
    
В рамках шага 2.5 проведена обработка датасета: осуществлена классификация данных по типу и созданы новые датафреймы - словари "education_dict" и "family_status_dict", к которым можно будет обращаться по идентификатору.
    
В исходном датасете удалены столбцы 'education', 'family_status', оставлены только их идентификаторы - "education_id" и "family_status_id".

### Шаг 2.6. Категоризация дохода.

Дополним датафрейм новым столбцом total_income_category с категориями по уровню дохода:
* 0–30000 — 'E';
* 30001–50000 — 'D';
* 50001–200000 — 'C';
* 200001–1000000 — 'B';
* 1000001 и выше — 'A'.

Для этого создадим функцию, присваивающую категорию дохода.

In [52]:
# создание функции, присваивающей категорию дохода по каждой строке в зависимости от размера дохода в колонке "total_income"
def income_category(total_income):
    if total_income <= 30000:
        return 'E'
    if total_income <= 50000:
        return 'D'
    if total_income <= 200000:
        return 'C'
    if total_income <= 1000000:
        return 'B'
    return 'A'  

In [53]:
income_category(25000) # проверка корректности работы функции

'E'

Функция работает корректно, клиенту с доходом 25000 присвоена категория Е.

Добавим результаты работы функции в таблицу в новый столбец 'total_income_category'.

Вывыдем результат на экран и оценим его корректность.

In [54]:
# добавление нового столбца 'total_income_category'
df['total_income_category'] = df['total_income'].apply(income_category)
df.head(10) # вывод на экран первых 10 строк для оценки корректности

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,-8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,-4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,-5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,-4124.747207,32,1,0,M,сотрудник,0,267628,образование,B
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,организация свадьбы,C
5,0,-926.185831,27,0,1,M,компаньон,0,255763,покупка жилья,B
6,0,-2879.202052,43,0,0,F,компаньон,0,240525,операции с жильем,B
7,0,-152.779569,50,1,0,M,сотрудник,0,135823,образование,C
8,2,-6929.865299,35,0,1,F,сотрудник,0,95856,организация свадьбы,C
9,0,-2188.756445,41,1,0,M,сотрудник,0,144425,покупка жилья,C


Категории в столбце 'total_income_category' присвоены корректно.

In [55]:
df['total_income_category'].value_counts() # проверка корректности присвоения категорий

C    15742
B     4987
D      347
A       25
E       22
Name: total_income_category, dtype: int64

<div style="border:solid blue 2px; padding: 20px">  
    
## Вывод    <a class="tocSkip">
    
В рамках шага 2.6 проведена категоризация данных на основании уровня дохода.
    
Присвоенные категории сохранены в столбце 'total_income_category'. 

### Шаг 2.7. Категоризация целей кредита.

Дополним датафрейм новым столбцом purpose_category с категориями по целям получения кредита:

* 'операции с автомобилем',
* 'операции с недвижимостью',
* 'проведение свадьбы',
* 'получение образования'

Для этого создадим функцию, присваивающую категорию в зависимости от цели получения кредита.

In [56]:
# создание функции, присваивающей категорию по каждой строке в зависимости от цели кредита в колонке "purpose"
def purpose_category(purpose):
    if 'жил' in purpose:
        return 'операции с недвижимостью'
    if 'недвиж' in purpose:
        return 'операции с недвижимостью'
    if 'авто' in purpose:
        return 'операции с автомобилем'
    if 'образ' in purpose:
        return 'получение образования'
    return 'проведение свадьбы'  

In [57]:
purpose_category('покупка жилья') # проверка корректности работы функции

'операции с недвижимостью'

Функция работает корректно, при формулировки цели "покупка жилья" строке присвоена категория "операции с недвижимостью".

Добавим результаты работы функции в таблицу в новый столбец 'purpose_category'.

Вывыдем результат на экран и оценим его корректность.

In [58]:
# добавление нового столбца 'purpose_category'
df['purpose_category'] = df['purpose'].apply(purpose_category)
df.head(10) # вывод на экран первых 10 строк для оценки корректности

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,-8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,-4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,-5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,-4124.747207,32,1,0,M,сотрудник,0,267628,образование,B,получение образования
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,организация свадьбы,C,проведение свадьбы
5,0,-926.185831,27,0,1,M,компаньон,0,255763,покупка жилья,B,операции с недвижимостью
6,0,-2879.202052,43,0,0,F,компаньон,0,240525,операции с жильем,B,операции с недвижимостью
7,0,-152.779569,50,1,0,M,сотрудник,0,135823,образование,C,получение образования
8,2,-6929.865299,35,0,1,F,сотрудник,0,95856,организация свадьбы,C,проведение свадьбы
9,0,-2188.756445,41,1,0,M,сотрудник,0,144425,покупка жилья,C,операции с недвижимостью


<div style="border:solid blue 2px; padding: 20px">  
    
## Вывод    <a class="tocSkip">
    
В рамках шага 2.7 проведена категоризация данных на основании цели получения кредита.
    
Присвоенные категории сохранены в столбце 'purpose_category'.

### Ответы на вопросы.

##### Вопрос 1:

**Есть ли зависимость между количеством детей и возвратом кредита в срок?**	

Для получения ответа на вопрос выведем на экран получившийся в результате обработки датафрейм и построим соответствующую сводную таблицу.

In [59]:
df # вывод на экран датафрейма

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,-8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,-4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,-5623.422610,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,-4124.747207,32,1,0,M,сотрудник,0,267628,образование,B,получение образования
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,организация свадьбы,C,проведение свадьбы
...,...,...,...,...,...,...,...,...,...,...,...,...
21118,1,-4529.316663,43,1,1,F,компаньон,0,224791,операции с жильем,B,операции с недвижимостью
21119,0,343937.404131,67,1,0,F,пенсионер,0,155999,приобретение автомобиля,C,операции с автомобилем
21120,1,-2113.346888,38,1,1,M,сотрудник,1,89672,недвижимость,C,операции с недвижимостью
21121,3,-3112.481705,38,1,0,M,сотрудник,1,244093,приобретение автомобиля,B,операции с автомобилем


Оценим картину по должникам в целом по датафрейму.

In [60]:
df['debt'].mean() # выведем долю должников от всех клиентов датафрейма

0.08156985276712587

In [61]:
df['debt'].sum() # выведем абсолютное количество должников среди всех клиентов датафрейма

1723

Доля должников составляет 8% от всех клиентов датафрейма, всего клиентов-должников 1724.

Построим сводную таблицу для оценки взаимосвязи между количеством детей и возвратом кредита в срок.

In [62]:
# формирование и вывод сводной таблицы по количеству детей и возврату долга
df.pivot_table(index='children',values='debt', aggfunc=['sum','mean'])

Unnamed: 0_level_0,sum,mean
Unnamed: 0_level_1,debt,debt
children,Unnamed: 1_level_2,Unnamed: 2_level_2
0,1057,0.075885
1,441,0.09224
2,194,0.095332
3,27,0.082317
4,4,0.097561
5,0,0.0


Выведем для удобства сравнения данных информацию о численности групп заемщиков с разным количеством детей

In [63]:
df['children'].value_counts() # вывод информации о количестве заемщиков в группе

0    13929
1     4781
2     2035
3      328
4       41
5        9
Name: children, dtype: int64

**Вывод 1**:

При анализе абсолютных значений можно сделать вывод о том, что наличие детей положительно влияет на надежность заемщика. Масимальное количество должников в датасете не имеет детей (1058). Также следует отметить, что с ростом числа детей у заемщика риск невозврата кредита снижается обратно пропорционально - многодетные заемщики с 5 детьми не имеют задолженности по выплате кредита.
Однако, при анализе в разрезе доли должников в группах заемщиков с разным количеством детей становится очевидно, что должников без детей меньше, чем должников с детьми (например, с 4мя). Так, в группе заемщиков без детей должниками являются только 7,5% клиентов, тогда как в группе с 4мя детьми должников больше - 9,76%. Однако в связи с малочисленностью группы клиентов с 4мя детьми (всего 41 человек)  этот вывод требует  перепроверки на бОльшей выборке заемщиков с 4мя детьми.

Таким образом, можно сделать общий вывод о том, что заемщики с детьми становятся должниками чаще, чем заемщики без детей. Это может быть связано  с тем, что заемщикам без детей проще планировать свой бюджет из-за меньшего риска возникновения неожиданных трат.

##### Вопрос 2:

**Есть ли зависимость между семейным положением и возвратом кредита в срок?**

Для получения ответа на вопрос выведем на экран получившийся в результате обработки датафрейм и построим соответствующую сводную таблицу.

In [64]:
df # вывод на экран датафрейма

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,-8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,-4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,-5623.422610,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,-4124.747207,32,1,0,M,сотрудник,0,267628,образование,B,получение образования
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,организация свадьбы,C,проведение свадьбы
...,...,...,...,...,...,...,...,...,...,...,...,...
21118,1,-4529.316663,43,1,1,F,компаньон,0,224791,операции с жильем,B,операции с недвижимостью
21119,0,343937.404131,67,1,0,F,пенсионер,0,155999,приобретение автомобиля,C,операции с автомобилем
21120,1,-2113.346888,38,1,1,M,сотрудник,1,89672,недвижимость,C,операции с недвижимостью
21121,3,-3112.481705,38,1,0,M,сотрудник,1,244093,приобретение автомобиля,B,операции с автомобилем


Построим сводную таблицу для оценки взаимосвязи между семейным положением и возвратом кредита в срок.

In [65]:
# формирование и вывод сводной таблицы по семейному положению и возврату долга
df.pivot_table(index=(family_status_dict['family_status']), values='debt', aggfunc=['sum','mean'])

Unnamed: 0_level_0,sum,mean
Unnamed: 0_level_1,debt,debt
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2
Не женат / не замужем,272,0.098053
в разводе,84,0.071307
вдовец / вдова,62,0.066028
гражданский брак,383,0.093574
женат / замужем,922,0.075954


Выведем для удобства сравнения данных информацию о численности групп заемщиков с разным семейным положением.

In [66]:
family_status_dict['family_status'].value_counts() # вывод информации о количестве заемщиков в группе

женат / замужем          12139
гражданский брак          4093
Не женат / не замужем     2774
в разводе                 1178
вдовец / вдова             939
Name: family_status, dtype: int64

**Вывод 2**:

По данным сводной таблицы видно, что наибольший % должников наблюдается в группе неженатых/незамужних заемщиков (9,77%), далее следуют заемщики в гражданском браке (9,25%). Процент должников в группах женатых и разведенных заемщиков практически равен (7,53% и 7,12% соответственно) и минимален в группе вдовцов (6,55%). При этом следует учитывать, что в выборке группа представлена незначительно (всего 947 клиента, 4,44% от всей выборки). 

На основании этих данных можно предположить, что люди, состоящие/состоявшие в браке, более склонны к тщательному планированию бюджета и выполнению взятых на себя обязательств.

##### Вопрос 3:

**Есть ли зависимость между уровнем дохода и возвратом кредита в срок?**

Для получения ответа на вопрос выведем на экран получившийся в результате обработки датафрейм и построим соответствующую сводную таблицу.

In [67]:
df # вывод на экран датафрейма

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,-8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,-4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,-5623.422610,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,-4124.747207,32,1,0,M,сотрудник,0,267628,образование,B,получение образования
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,организация свадьбы,C,проведение свадьбы
...,...,...,...,...,...,...,...,...,...,...,...,...
21118,1,-4529.316663,43,1,1,F,компаньон,0,224791,операции с жильем,B,операции с недвижимостью
21119,0,343937.404131,67,1,0,F,пенсионер,0,155999,приобретение автомобиля,C,операции с автомобилем
21120,1,-2113.346888,38,1,1,M,сотрудник,1,89672,недвижимость,C,операции с недвижимостью
21121,3,-3112.481705,38,1,0,M,сотрудник,1,244093,приобретение автомобиля,B,операции с автомобилем


Построим сводную таблицу для оценки взаимосвязи между уровнем дохода и возвратом кредита в срок.

In [68]:
df.pivot_table(index='total_income_category',values='debt', aggfunc=['sum','mean'])

Unnamed: 0_level_0,sum,mean
Unnamed: 0_level_1,debt,debt
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2
A,2,0.08
B,353,0.070784
C,1345,0.08544
D,21,0.060519
E,2,0.090909


Выведем для удобства сравнения данных информацию о численности групп заемщиков с разным уровнем дохода:
0–30000 — 'E';
30001–50000 — 'D';
50001–200000 — 'C';
200001–1000000 — 'B';
1000001 и выше — 'A'.

In [69]:
df['total_income_category'].value_counts() # вывод информации о количестве заемщиков в группе

C    15742
B     4987
D      347
A       25
E       22
Name: total_income_category, dtype: int64

**Вывод 3**:

По данным сводной таблицы наибольший % должников (9,09%) присутствует в группе заемщиков с уровнем дохода 0-30000, при этом группа малочисленна, что должно быть учтено при анализе (22 клиента, 10,33% от выборки). Наименьший % должников в группе с доходом 30001–50000 (6,05%).

Общий вывод таков, что прямой зависимости между уровнем дохода и вероятностью возврата кредита в срок нет, при росте дохода не прослеживается четкий рост/снижение вероятности возврата в срок.

##### Вопрос 4:

**Как разные цели кредита влияют на его возврат в срок?**

Для получения ответа на вопрос выведем на экран получившийся в результате обработки датафрейм и построим соответствующую сводную таблицу.

In [70]:
df # вывод на экран датафрейма

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,-8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,-4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,-5623.422610,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,-4124.747207,32,1,0,M,сотрудник,0,267628,образование,B,получение образования
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,организация свадьбы,C,проведение свадьбы
...,...,...,...,...,...,...,...,...,...,...,...,...
21118,1,-4529.316663,43,1,1,F,компаньон,0,224791,операции с жильем,B,операции с недвижимостью
21119,0,343937.404131,67,1,0,F,пенсионер,0,155999,приобретение автомобиля,C,операции с автомобилем
21120,1,-2113.346888,38,1,1,M,сотрудник,1,89672,недвижимость,C,операции с недвижимостью
21121,3,-3112.481705,38,1,0,M,сотрудник,1,244093,приобретение автомобиля,B,операции с автомобилем


Построим сводную таблицу для оценки взаимосвязи между целью получения кредита и возвратом кредита в срок.

In [71]:
purpose_table = df.pivot_table(index='purpose_category',values='debt', aggfunc=['sum','mean'])


In [72]:
((purpose_table['mean']*100).round(2)).sort_values(by='debt', ascending=False)

Unnamed: 0_level_0,debt
purpose_category,Unnamed: 1_level_1
операции с автомобилем,9.38
получение образования,9.35
проведение свадьбы,7.94
операции с недвижимостью,7.28


Выведем для удобства сравнения данных информацию о численности групп заемщиков с разными причинами получения кредита:

In [73]:
df['purpose_category'].value_counts() # вывод информации о количестве заемщиков в группе

операции с недвижимостью    10673
операции с автомобилем       4224
получение образования        3945
проведение свадьбы           2281
Name: purpose_category, dtype: int64

**Вывод 4**:

По данным сводной таблицы наибольшие доли должников присутствуют в группах тех, кто брал кредиты для проведения операций с автомобилем (9,3%) и для получения образования (9,27%). Доли должников в группах, получивших кредиты на свадьбу и для проведения операций с недвижимостью ~ на 2% меньше: 7,79% и 7,24% соответственно. 

Таким образом, кредиты на автомобиль и образование являются более высокорисковыми в плане возврата в срок. 

## Общий вывод:

Отвечая на вопрос, поставленный в начале исследования: "Влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок", можно дать ответ, что да, влияние данных факторов на вероятность возврата кредита в срок прослеживается. 

Наибольшая вероятность по возврату кредита в срок наблюдается по замужним/женатым клиентам, не имеющим детей, с доходом 30001-50000, получавшим кредит на проведение операций с недвижимостью или на свадьбу.
Наличие детей и отсутствие опыта нахождения в браке влияет на риск невозврата кредита в срок в сторону его увеличения.


