# Название проекта: Исследование надёжности заёмщиков

**Описание ситуации**    

    Заказчик — кредитный отдел банка.  Входные данные от банка — статистика о платёжеспособности клиентов.

    Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку. 

**Цель исследования**:    

    выяснить, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок.

**Ход исследования**  
  
    1) Проведём обзор данных и их предобработку: 
    * проверим данные на ошибки (дубликаты, пропуски, неправильные типы данных и другие аномалии)  
    * оценим их влияние на исследование,  
    * поищем возможность исправить самые критичные ошибки данных.  
    2) Далее проведём анализ, ответим на вопросы:
    * Есть ли зависимость между наличием детей и возвратом кредита в срок?  
    * Есть ли зависимость между семейным положением и возвратом кредита в срок?  
    * Есть ли зависимость между уровнем дохода и возвратом кредита в срок?  
    * Как разные цели кредита влияют на его возврат в срок?  
    Найдём среднее количество плательщиков по кредиту для каждой категории клиентов. Сопроводим текущими выводами.
    3) Сделаем общие выводы по проекту.

<h1>Table of Contents<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Название-проекта:-Исследование-надёжности-заёмщиков" data-toc-modified-id="Название-проекта:-Исследование-надёжности-заёмщиков-1">Название проекта: Исследование надёжности заёмщиков</a></span></li><li><span><a href="#Шаг-1.-Изучим-общую-информацию" data-toc-modified-id="Шаг-1.-Изучим-общую-информацию-2">Шаг 1. Изучим общую информацию</a></span><ul class="toc-item"><li><span><a href="#Загрузим-библиотеки-и-посмотрим-на-данные" data-toc-modified-id="Загрузим-библиотеки-и-посмотрим-на-данные-2.1">Загрузим библиотеки и посмотрим на данные</a></span></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-2.2">Вывод</a></span></li></ul></li><li><span><a href="#Шаг-2.-Предобработка-данных" data-toc-modified-id="Шаг-2.-Предобработка-данных-3">Шаг 2. Предобработка данных</a></span><ul class="toc-item"><li><span><a href="#Обработка-пропусков" data-toc-modified-id="Обработка-пропусков-3.1">Обработка пропусков</a></span></li><li><span><a href="#Замена-странных-значений" data-toc-modified-id="Замена-странных-значений-3.2">Замена странных значений</a></span></li><li><span><a href="#Замена-типа-данных" data-toc-modified-id="Замена-типа-данных-3.3">Замена типа данных</a></span></li><li><span><a href="#Обработка-дубликатов" data-toc-modified-id="Обработка-дубликатов-3.4">Обработка дубликатов</a></span></li><li><span><a href="#Лемматизация" data-toc-modified-id="Лемматизация-3.5">Лемматизация</a></span></li><li><span><a href="#Категоризация-данных" data-toc-modified-id="Категоризация-данных-3.6">Категоризация данных</a></span></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-3.7">Вывод</a></span></li></ul></li><li><span><a href="#Шаг-3.-Исследовательский-анализ-данных" data-toc-modified-id="Шаг-3.-Исследовательский-анализ-данных-4">Шаг 3. Исследовательский анализ данных</a></span><ul class="toc-item"><li><span><a href="#Есть-ли-зависимость-между-наличием-детей-и-возвратом-кредита-в-срок?" data-toc-modified-id="Есть-ли-зависимость-между-наличием-детей-и-возвратом-кредита-в-срок?-4.1">Есть ли зависимость между наличием детей и возвратом кредита в срок?</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-4.1.1">Вывод</a></span></li></ul></li><li><span><a href="#Есть-ли-зависимость-между-семейным-положением-и-возвратом-кредита-в-срок?" data-toc-modified-id="Есть-ли-зависимость-между-семейным-положением-и-возвратом-кредита-в-срок?-4.2">Есть ли зависимость между семейным положением и возвратом кредита в срок?</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-4.2.1">Вывод</a></span></li></ul></li><li><span><a href="#Есть-ли-зависимость-между-уровнем-дохода-и-возвратом-кредита-в-срок?" data-toc-modified-id="Есть-ли-зависимость-между-уровнем-дохода-и-возвратом-кредита-в-срок?-4.3">Есть ли зависимость между уровнем дохода и возвратом кредита в срок?</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-4.3.1">Вывод</a></span></li></ul></li><li><span><a href="#Как-разные-цели-кредита-влияют-на-его-возврат-в-срок?" data-toc-modified-id="Как-разные-цели-кредита-влияют-на-его-возврат-в-срок?-4.4">Как разные цели кредита влияют на его возврат в срок?</a></span><ul class="toc-item"><li><span><a href="#Вывод" data-toc-modified-id="Вывод-4.4.1">Вывод</a></span></li></ul></li></ul></li><li><span><a href="#Шаг-4.-Общий-вывод" data-toc-modified-id="Шаг-4.-Общий-вывод-5">Шаг 4. Общий вывод</a></span></li></ul></div>

# Шаг 1. Изучим общую информацию

## Загрузим библиотеки и посмотрим на данные

In [1]:
import pandas as pd # Импорт библиотеки

!pip install pymystem3
from pymystem3 import Mystem # импортируем библиотеку pymystem3 для лемматизации
m = Mystem() 
from collections import Counter # импортируем счётчик



In [2]:
data = pd.read_csv('data.csv')
data.info() # смотрим общую информацию о датафрейме

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [3]:
display(data.head()) # выводим на экран первые и последние строки
display(data.tail())

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.0505,на покупку своего автомобиля
21524,2,-1984.507589,40,среднее,1,женат / замужем,0,F,сотрудник,0,82047.418899,на покупку автомобиля


Посмотрим описательную статистику и уникальные значения в каждом столбце:

In [4]:
for column_name in data.columns:
    display(column_name)
    display(data[column_name].describe())
    display(data[column_name].value_counts().to_frame())
    display('-'*50)

'children'

count    21525.000000
mean         0.538908
std          1.381587
min         -1.000000
25%          0.000000
50%          0.000000
75%          1.000000
max         20.000000
Name: children, dtype: float64

Unnamed: 0,children
0,14149
1,4818
2,2055
3,330
20,76
-1,47
4,41
5,9


'--------------------------------------------------'

'days_employed'

count     19351.000000
mean      63046.497661
std      140827.311974
min      -18388.949901
25%       -2747.423625
50%       -1203.369529
75%        -291.095954
max      401755.400475
Name: days_employed, dtype: float64

Unnamed: 0,days_employed
-327.685916,1
-1580.622577,1
-4122.460569,1
-2828.237691,1
-2636.090517,1
...,...
-7120.517564,1
-2146.884040,1
-881.454684,1
-794.666350,1


'--------------------------------------------------'

'dob_years'

count    21525.000000
mean        43.293380
std         12.574584
min          0.000000
25%         33.000000
50%         42.000000
75%         53.000000
max         75.000000
Name: dob_years, dtype: float64

Unnamed: 0,dob_years
35,617
40,609
41,607
34,603
38,598
42,597
33,581
39,573
31,560
36,555


'--------------------------------------------------'

'education'

count       21525
unique         15
top       среднее
freq        13750
Name: education, dtype: object

Unnamed: 0,education
среднее,13750
высшее,4718
СРЕДНЕЕ,772
Среднее,711
неоконченное высшее,668
ВЫСШЕЕ,274
Высшее,268
начальное,250
Неоконченное высшее,47
НЕОКОНЧЕННОЕ ВЫСШЕЕ,29


'--------------------------------------------------'

'education_id'

count    21525.000000
mean         0.817236
std          0.548138
min          0.000000
25%          1.000000
50%          1.000000
75%          1.000000
max          4.000000
Name: education_id, dtype: float64

Unnamed: 0,education_id
1,15233
0,5260
2,744
3,282
4,6


'--------------------------------------------------'

'family_status'

count               21525
unique                  5
top       женат / замужем
freq                12380
Name: family_status, dtype: object

Unnamed: 0,family_status
женат / замужем,12380
гражданский брак,4177
Не женат / не замужем,2813
в разводе,1195
вдовец / вдова,960


'--------------------------------------------------'

'family_status_id'

count    21525.000000
mean         0.972544
std          1.420324
min          0.000000
25%          0.000000
50%          0.000000
75%          1.000000
max          4.000000
Name: family_status_id, dtype: float64

Unnamed: 0,family_status_id
0,12380
1,4177
4,2813
3,1195
2,960


'--------------------------------------------------'

'gender'

count     21525
unique        3
top           F
freq      14236
Name: gender, dtype: object

Unnamed: 0,gender
F,14236
M,7288
XNA,1


'--------------------------------------------------'

'income_type'

count         21525
unique            8
top       сотрудник
freq          11119
Name: income_type, dtype: object

Unnamed: 0,income_type
сотрудник,11119
компаньон,5085
пенсионер,3856
госслужащий,1459
предприниматель,2
безработный,2
в декрете,1
студент,1


'--------------------------------------------------'

'debt'

count    21525.000000
mean         0.080883
std          0.272661
min          0.000000
25%          0.000000
50%          0.000000
75%          0.000000
max          1.000000
Name: debt, dtype: float64

Unnamed: 0,debt
0,19784
1,1741


'--------------------------------------------------'

'total_income'

count    1.935100e+04
mean     1.674223e+05
std      1.029716e+05
min      2.066726e+04
25%      1.030532e+05
50%      1.450179e+05
75%      2.034351e+05
max      2.265604e+06
Name: total_income, dtype: float64

Unnamed: 0,total_income
169846.427535,1
257737.077768,1
200508.675866,1
106196.235958,1
248730.171354,1
...,...
175057.266090,1
101516.604975,1
239154.168013,1
165009.733021,1


'--------------------------------------------------'

'purpose'

count       21525
unique         38
top       свадьба
freq          797
Name: purpose, dtype: object

Unnamed: 0,purpose
свадьба,797
на проведение свадьбы,777
сыграть свадьбу,774
операции с недвижимостью,676
покупка коммерческой недвижимости,664
покупка жилья для сдачи,653
операции с жильем,653
операции с коммерческой недвижимостью,651
жилье,647
покупка жилья,647


'--------------------------------------------------'

## Вывод

Файл с данными находится в переменной `data`. Всего в нём 21525 строк и 12 колонок. Присутствуют данные типов int64 (целое), float64 (с точкой), object (объект).

Согласно документации в каждом столбце содержатся следующие данные:
  
`children` — количество детей в семье  
`days_employed` — общий трудовой стаж в днях  
`dob_years` — возраст клиента в годах  
`education` — уровень образования клиента  
`education_id` — идентификатор уровня образования  
`family_status` — семейное положение  
`family_status_id` — идентификатор семейного положения  
`gender` — пол клиента  
`income_type` — тип занятости  
`debt` — имел ли задолженность по возврату кредитов  
`total_income` — ежемесячный доход  
`purpose` — цель получения кредита  

Названия столбцов корректны и не требуют исправления.   
  
Описание данных и **аномальные** значения в каждой колонке:  
1. `children` есть 47 отрицательных значений (-1), и 76 подозрительно больших (20 детей). Предполагаю, что это ошибки в данных. Содержит категориальные данные.  
2. `days_employed` много отрицательных, большой разброс и тип float64. По описанию из документации, в этой колонке должны быть целые и неотрицательные числа. Есть пропуски типа NaN. Содержит количественные данные.  
3. `dob_years` 101 значение равно 0, что тоже быть не может, т.к. в таблице данные о кредиторах. Содержит категориальные данные.  
4. `education` много неявных повторов, написано разным шрифтом. Содержит категориальные данные.  
5. `education_id` ОК. Содержит категориальные данные.  
6. `family_status` ОК. Содержит категориальные данные.  
7. `family_status_id` ОК. Содержит категориальные данные.  
8. `gender` 1 странное значение XNA. Содержит категориальные данные.  
9. `income_type` ОК. Содержит категориальные данные.   
10. `debt` ОК. Содержит логические (булевы) данные.   
11. `total_income` Есть пропуски типа NaN. Содержит количественные данные.    
12. `purpose` много неявных повторов. Содержит категориальные данные.

# Шаг 2. Предобработка данных

## Обработка пропусков

Как было написано выше, пропуски есть в двух колонках: `days_employed` и `total_income`.  
Для начала необходимо посмотреть на них:

In [5]:
data[data['days_employed'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Среднее,1,женат / замужем,0,M,компаньон,0,,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости


In [6]:
data[data['total_income'].isna()]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21489,2,,47,Среднее,1,женат / замужем,0,M,компаньон,0,,сделка с автомобилем
21495,1,,50,среднее,1,гражданский брак,1,F,сотрудник,0,,свадьба
21497,0,,48,ВЫСШЕЕ,0,женат / замужем,0,F,компаньон,0,,строительство недвижимости
21502,1,,42,среднее,1,женат / замужем,0,F,сотрудник,0,,строительство жилой недвижимости


Похоже, что данные пропущены в одинаковых строках в двух указанных выше столбцах. 

In [7]:
#определим процент пропущенных значений
display("Процент пропущенных значений: {:.1%}".format(len(data[data['total_income'].isna()])/len(data['total_income'])))

'Процент пропущенных значений: 10.1%'

Как видим, процент пропусков достаточно большой, чтобы его удалять.

Предположим, что данные в столбцах `days_employed` и `total_income` пропущены по случайной причине. Т.к. в этих столбцах находятся количественные переменные, то пропуски есть смысл заменить на характерное значение выборки - среднее значение. Действуя таким образом, мы не потеряем важные данные.  
Однако, в столбце `days_employed` встречаются ещё и отрицательные значения, эта ошибка в данных может испортить среднее в столбце. Предположим, что отрицательные значения появились случайно, и заменим их на модульные значения.

In [8]:
data['days_employed'] = data['days_employed'].abs() # убираем отрицательные значения в столбце days_employed
display(data['days_employed'].describe(percentiles=[.10,.25,.5, .75, .80,.9]).to_frame())

Unnamed: 0,days_employed
count,19351.0
mean,66914.728907
std,139030.880527
min,24.141633
10%,385.009877
25%,927.009265
50%,2194.220567
75%,5537.882441
80%,8795.549101
90%,360310.974923


Значения в столбце `days_employed` стали положительные, изменились и характеристики переменной.

Из описания столбца `days_employed` видно, что в данных есть большой разброс по значениям (std=139030.9, примерно 80% значений в пределах 9000, тогда как последние 10% значений сильно отличаются от основной группы). Возможно, часть данных записана в часах, а остальные в днях. 

Приведём значения к единому формату в днях. Для этого применим логическую индексацию. Предположим, что количество дней стажа не может превышать 30000 (примерно 82 года). 

In [9]:
data.loc[data['days_employed'] > 30000, 'days_employed'] = data.loc[data['days_employed'] >30000, 'days_employed'] / 24 
display(data['days_employed'].describe().to_frame()) #выводим на экран описательную статистику

Unnamed: 0,days_employed
count,19351.0
mean,4641.641176
std,5355.964289
min,24.141633
25%,927.009265
50%,2194.220567
75%,5537.882441
max,18388.949901


Данные и их распределение изменились, нет отрицательных значений и большого разброса.

Расмотрим теперь пропуски. Возможно пропуски связаны с какой-либо переменной. Проверим это: посчитаем процент пропусков для каждой категории для следующих переменных: `children`, `education_id`, `family_status_id`, `gender`, `income_type`.

In [10]:
data['days_employed_nan'] = data['days_employed'].isna() #сохраним в отдельную переменные          
data['total_income_nan'] = data['total_income'].isna()   #пропущенные значения в столбце days_employed и total_income

# Создадим цикл для перебора всех переменных.  
# Внутри цикла сгруппируем значения по выбранной переменной, 
# найдём среднее значение количества пропущенных значений 
# для каждой категории внутри переменной, 
# затем отсортируем полученную таблицу по days_employed_nan по убыванию.
# выводим на экран ещё информацию о количестве каждой категории внутри переменной.

for item in ['children', 'education_id', 'family_status_id', 'gender', 'income_type']:
    display(data.groupby(item).agg({'days_employed_nan': 'mean', 
                                    'total_income_nan': 'mean'}).sort_values(by='days_employed_nan',
                                                                               ascending=False))
    display(data.groupby(item)[item].count().to_frame())

Unnamed: 0_level_0,days_employed_nan,total_income_nan
children,Unnamed: 1_level_1,Unnamed: 2_level_1
4,0.170732,0.170732
20,0.118421,0.118421
5,0.111111,0.111111
3,0.109091,0.109091
0,0.101703,0.101703
2,0.09927,0.09927
1,0.098589,0.098589
-1,0.06383,0.06383


Unnamed: 0_level_0,children
children,Unnamed: 1_level_1
-1,47
0,14149
1,4818
2,2055
3,330
4,41
5,9
20,76


Unnamed: 0_level_0,days_employed_nan,total_income_nan
education_id,Unnamed: 1_level_1,Unnamed: 2_level_1
0,0.103422,0.103422
1,0.101096,0.101096
2,0.092742,0.092742
3,0.074468,0.074468
4,0.0,0.0


Unnamed: 0_level_0,education_id
education_id,Unnamed: 1_level_1
0,5260
1,15233
2,744
3,282
4,6


Unnamed: 0_level_0,days_employed_nan,total_income_nan
family_status_id,Unnamed: 1_level_1,Unnamed: 2_level_1
1,0.105818,0.105818
4,0.102382,0.102382
0,0.099919,0.099919
2,0.098958,0.098958
3,0.093724,0.093724


Unnamed: 0_level_0,family_status_id
family_status_id,Unnamed: 1_level_1
0,12380
1,4177
2,960
3,1195
4,2813


Unnamed: 0_level_0,days_employed_nan,total_income_nan
gender,Unnamed: 1_level_1,Unnamed: 2_level_1
F,0.104243,0.104243
M,0.094676,0.094676
XNA,0.0,0.0


Unnamed: 0_level_0,gender
gender,Unnamed: 1_level_1
F,14236
M,7288
XNA,1


Unnamed: 0_level_0,days_employed_nan,total_income_nan
income_type,Unnamed: 1_level_1,Unnamed: 2_level_1
предприниматель,0.5,0.5
пенсионер,0.107106,0.107106
госслужащий,0.100754,0.100754
компаньон,0.099902,0.099902
сотрудник,0.099379,0.099379
безработный,0.0,0.0
в декрете,0.0,0.0
студент,0.0,0.0


Unnamed: 0_level_0,income_type
income_type,Unnamed: 1_level_1
безработный,2
в декрете,1
госслужащий,1459
компаньон,5085
пенсионер,3856
предприниматель,2
сотрудник,11119
студент,1


Таким образом, я могу сделать следующий вывод: учитывая количество каждой категории для каждой переменной, нет сильных различий в распределении пропущенных значений. В большинстве случаев количество пропущенных значений примерно 10% (+-0,2%).

Явные пропуски находятся в столбцах `days_employed` и `total_income`, т.к. данные в них должны быть связаны с занимаемой должностью, обработаем пропуски по категории `income_type`.

In [11]:
for column_with_nan in ['days_employed','total_income']:
    for income_type in data['income_type'].unique():
        data[column_with_nan] = data[column_with_nan].fillna(data.groupby('income_type')[column_with_nan].transform('median')) 
    
    display(f'Количество пропусков после их замены в столбце {column_with_nan}', data[column_with_nan].isna().sum())

'Количество пропусков после их замены в столбце days_employed'

0

'Количество пропусков после их замены в столбце total_income'

0

Столбцы `days_employed_nan` и `total_income_nan` больше не нужны, можно их удалить.

In [12]:
data = data.drop(columns=['days_employed_nan', 'total_income_nan'])
display(data.head())

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,14177.753002,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


Пропуски в столбцах `days_employed` и `total_income` отсутствуют. 

## Замена странных значений

Ранее было описано, что некоторые столбцы содержат странные значения. А именно:  
1) `children`: есть 47 отрицательных значений (-1), и 76 подозрительно больших (20 детей).  
2) `dob_years`: 101 значение равно 0  
3) `gender`: 1 странное значение XNA. 

Предположим, что природа выявленных аномалий в данных случайна. Тогда:  
1) -1 детей заменим на 1, 20 детей заменим на 2  
2) 0 заменим на среднее значение по столбцу  
3) заменим на М

In [13]:
data.loc[data['children']==-1, 'children'] = 1 # заменяем -1 на 1
data.loc[data['children']==20, 'children'] = 2 # заменяем 20 на 2
data.loc[data['dob_years']==0, 'dob_years'] = data['dob_years'].mean() # 0 заменяем на среднее значение по столбцу 'dob_years'
data.loc[data['gender']=='XNA', 'gender'] = 'M' # XNA заменяем на М

# проверим, все ли значения изменились
for column_name in ['children', 'dob_years', 'gender']: 
    display(data[column_name].value_counts())

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

35.00000    617
40.00000    609
41.00000    607
34.00000    603
38.00000    598
42.00000    597
33.00000    581
39.00000    573
31.00000    560
36.00000    555
44.00000    547
29.00000    545
30.00000    540
48.00000    538
37.00000    537
50.00000    514
43.00000    513
32.00000    510
49.00000    508
28.00000    503
45.00000    497
27.00000    493
56.00000    487
52.00000    484
47.00000    480
54.00000    479
46.00000    475
58.00000    461
57.00000    460
53.00000    459
51.00000    448
59.00000    444
55.00000    443
26.00000    408
60.00000    377
25.00000    357
61.00000    355
62.00000    352
63.00000    269
64.00000    265
24.00000    264
23.00000    254
65.00000    194
22.00000    183
66.00000    183
67.00000    167
21.00000    111
43.29338    101
68.00000     99
69.00000     85
70.00000     65
71.00000     58
20.00000     51
72.00000     33
19.00000     14
73.00000      8
74.00000      6
75.00000      1
Name: dob_years, dtype: int64

F    14236
M     7289
Name: gender, dtype: int64

## Замена типа данных

Данные в столбцах `days_employed` согласно документации содержат информацию о количестве отработанных дней, а в столбеце `total_income` - количестве ежемесячного дохода. Скорее всего значения в этих столбцах должны быть целочисленные, в то время как в датафрейме они относятся к типу float64 (с точкой).  
Заменим тип данных, применив метод astype().

In [14]:
for column_name in ['days_employed','total_income']:
    data[column_name] = data[column_name].astype('int')
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  int32  
 2   dob_years         21525 non-null  float64
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  int32  
 11  purpose           21525 non-null  object 
dtypes: float64(1), int32(2), int64(4), object(5)
memory usage: 1.8+ MB


## Обработка дубликатов

Возможно в данных есть дубликаты. Но для начала работы с ними необходимо привести значения в столбце `education` к единому формату. Применим метод str.lower() для приведения всех строк к нижнему регистру.

In [15]:
data['education'] = data['education'].str.lower()
display(data['education'].value_counts().to_frame()) #проверка результатов

Unnamed: 0,education
среднее,15233
высшее,5260
неоконченное высшее,744
начальное,282
ученая степень,6


In [16]:
data.duplicated().sum() # всего дубликатов

71

В таблице 71 дубликат. Скорее всего причиной появления дубликатов стало склеивание единой таблицы из нескольких источников, которые составлялись разными подразделениями банка (людьми).

In [17]:
display('Всего строк в датафрейме до удаления дубликатов:', len(data))
data = data.drop_duplicates().reset_index(drop=True) # Удалим дубликаты и перезапишем все индексы
display('Всего строк в датафрейме после удаления дубликатов:', len(data))

'Всего строк в датафрейме до удаления дубликатов:'

21525

'Всего строк в датафрейме после удаления дубликатов:'

21454

## Лемматизация

Столбец `purpose` полон текстовыми значениями. В таком виде их сложно обрабатывать и получить ответы на целевые вопросы исследования. Поэтому необходимо каждую причину получения кредита отнести к определённой категории. Чтобы это сделать, можно использовать лемматизацию, при помощи которой можно выделить основу слов, посчитать количество повторений каждого и выявить наиболее частовстречаемые - это и будут основные категории причин обращения в банк за кредитом.

In [18]:
lemmas = m.lemmatize(' '.join(data['purpose'])) # лемматизируем значения в столбце purpose и сохраняем их в переменной lemmas
lemmas = Counter(lemmas)                        # добавляем счётчик
display(lemmas.most_common(10))                 # просматриваем 10 наиболее частовстречаемых лемм

[(' ', 55023),
 ('недвижимость', 6351),
 ('покупка', 5897),
 ('жилье', 4460),
 ('автомобиль', 4306),
 ('образование', 4013),
 ('с', 2918),
 ('операция', 2604),
 ('свадьба', 2324),
 ('свой', 2230)]

In [19]:
def purpose_categorize(item): # создадим функцию для категоризации причин по выявленным наиболее частовстречаемым леммам
    if 'недвижим' in item or 'жиль' in item:
        return 'недвижимость'
    if 'автомоб' in item:
        return 'автомобиль'
    if 'образован' in item:
        return 'образование'
    if 'свадьб' in item:
        return 'свадьба'
    return 'прочее'

data['purpose_category'] = data['purpose'].apply(purpose_categorize)

display(data.head())

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category
0,1,8437,42.0,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,недвижимость
1,1,4024,36.0,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,автомобиль
2,0,5623,33.0,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,недвижимость
3,3,4124,32.0,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,образование
4,0,14177,53.0,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,свадьба


In [20]:
display(data['purpose_category'].unique()) # посмотрим уникальные значения в столбце причин

array(['недвижимость', 'автомобиль', 'образование', 'свадьба'],
      dtype=object)

## Категоризация данных

Исходя из цели исследования нам необходимо выделить словарь категорий в следующих данных:  
- `children`  
- `family_status` (`family_status_id`)   
- `total_income`  
  
дополнительно рассмотрим категории `education`, `education_id`, чтобы посмотреть какие значения уровня образования соответствуют каждому id.

In [21]:
education = data[['education','education_id']] # создадим новую переменную, в которой сохраним данные по категорям образования
education = education.drop_duplicates().reset_index(drop=True) # Удалим дубликаты и перезапишем все индексы
display(education)

Unnamed: 0,education,education_id
0,высшее,0
1,среднее,1
2,неоконченное высшее,2
3,начальное,3
4,ученая степень,4


теперь наглядно видно, какое значение id соответствует какому уровню образования. в переменной `education` лежит словарь категорий уровня образования клиентов банка.

Поступим также и с семейным статусом:

In [22]:
family = data[['family_status', 'family_status_id']] # создадим новую переменную, в которой сохраним данные по категорям семей
family = family.drop_duplicates().reset_index(drop=True) # Удалим дубликаты и перезапишем все индексы
display(family)

Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,гражданский брак,1
2,вдовец / вдова,2
3,в разводе,3
4,Не женат / не замужем,4


А в переменной `family` лежит словарь категорий семейного статуса клиентов банка.

In [23]:
def children_categorize(item): # создадим функцию, которая разделит на категории данные столбца о детях
    if item == 0:
        return 'нет детей'
    return 'есть дети'

data['children_category'] = data['children'].apply(children_categorize) # применим метод apply для создания нового столбца из другого
display(data.head())

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category,children_category
0,1,8437,42.0,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,недвижимость,есть дети
1,1,4024,36.0,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,автомобиль,есть дети
2,0,5623,33.0,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,недвижимость,нет детей
3,3,4124,32.0,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,образование,есть дети
4,0,14177,53.0,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,свадьба,нет детей


In [24]:
def total_income_categorize(item): # теперь создадим функцию, которая разделит на категории данные столбца о доходе
    if item <= data['total_income'].quantile(0.25):
        return 'очень бедный'
    if item <= data['total_income'].quantile(0.5):
        return 'бедный'
    if item <= data['total_income'].quantile(0.75):
        return 'выше среднего'
    return 'богатый'

data['total_income_category'] = data['total_income'].apply(total_income_categorize)
display(data.head())

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category,children_category,total_income_category
0,1,8437,42.0,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,недвижимость,есть дети,богатый
1,1,4024,36.0,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,автомобиль,есть дети,бедный
2,0,5623,33.0,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,недвижимость,нет детей,выше среднего
3,3,4124,32.0,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,образование,есть дети,богатый
4,0,14177,53.0,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,свадьба,нет детей,выше среднего


## Вывод

В ходе предобработки были получены следующие результаты:  
  
1) данные очистились от пропусков и странных значений, изменили тип.  
2) дубликатов больше нет, количество уникальных значений в столбцах `education` и `education_id` совпадает.  
3) В результате лемматизации в исходную таблицу добавился новый столбец `purpose_category`, в котором причина получения кредита категоризированы и, следовательно, пригодны для дальнейшего анализа.  
Выделилось всего 4 причины обращения за кредитом:  
'недвижимость',  
'автомобиль',  
'образование',  
'свадьба'.  
4) добавили в таблицу несколько новых столбцов (`children_category` и `total_income_category`), полученных из исходных данных, а также два словаря, хранящихся в отдельных переменных `education` и `family`. Благодаря проделанной работе доступность данных для дальнейшего анализа улучшилась. Можно приступать к ответам на вопросы исследования.

# Шаг 3. Исследовательский анализ данных

## Есть ли зависимость между наличием детей и возвратом кредита в срок?

Вернул ли клиент кредит в срок или нет - отражено в даннх в столбце `debt`: значение 1 - кредит не вернул, значение 0 - вернул.  
Чтобы ответить на вопрос о влиянии наличия детей на возврат кредита, посчитаем среднее значение в столбце `debt` для каждой группы клиентов. Чем ближе оно к 1, тем вероятнее невозврат для данной категории.

In [25]:
debt_children_pivot = data.pivot_table(index='children_category', 
                                       values='debt', 
                                       aggfunc=['mean', 'count']).sort_values([('mean','debt')], ascending=False)
display(debt_children_pivot) 

Unnamed: 0_level_0,mean,count
Unnamed: 0_level_1,debt,debt
children_category,Unnamed: 1_level_2,Unnamed: 2_level_2
есть дети,0.092082,7363
нет детей,0.075438,14091


### Вывод

Для тех клиентов, у которых есть дети невозврат кредита вероятнее, чем для тех, у кого детей нет, т.к. 9,2% > 7,5%.

## Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [26]:
debt_family_pivot = data.pivot_table(index='family_status', 
                                     values='debt', 
                                     aggfunc=['mean', 'count']).sort_values([('mean','debt')], ascending=False)
display(debt_family_pivot)

Unnamed: 0_level_0,mean,count
Unnamed: 0_level_1,debt,debt
family_status,Unnamed: 1_level_2,Unnamed: 2_level_2
Не женат / не замужем,0.097509,2810
гражданский брак,0.093471,4151
женат / замужем,0.075452,12339
в разводе,0.07113,1195
вдовец / вдова,0.065693,959


### Вывод

Самая высокая вероятность невозврата кредита в срок у незамужних/неженатых и в гражданском браке 9,3-9,8%.  
Для тех, кто состоит в браке и в разводе примерно одинаковая вероятность невозврата кредита 7,1-7,5%.  
Самые надёжные - вдовы/вдовцы - 6,6%.

## Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [27]:
debt_income_pivot = data.pivot_table(index='total_income_category', 
                                     values='debt', 
                                     aggfunc=['mean', 'count']).sort_values([('mean','debt')], ascending=False)
display(debt_income_pivot)

Unnamed: 0_level_0,mean,count
Unnamed: 0_level_1,debt,debt
total_income_category,Unnamed: 1_level_2,Unnamed: 2_level_2
бедный,0.088155,5479
выше среднего,0.085382,5247
очень бедный,0.079605,5364
богатый,0.071402,5364


### Вывод

Получились неожиданные выводы: наиболее высокая вероятнось невозврата кредита у бедных (чей общий доход от нижнего квартиля до медианы) и людей с доходом выше среднего (от медианы до третьего квартиля). В это же время наиболее надёжными заёмщиками стали крайние квартильные группы: очень бедные и богатые. 

## Как разные цели кредита влияют на его возврат в срок?

In [28]:
debt_purpose_pivot = data.pivot_table(index='purpose_category', 
                                      values='debt', 
                                      aggfunc=['mean', 'count']).sort_values([('mean','debt')], ascending=False)
display(debt_purpose_pivot)

Unnamed: 0_level_0,mean,count
Unnamed: 0_level_1,debt,debt
purpose_category,Unnamed: 1_level_2,Unnamed: 2_level_2
автомобиль,0.09359,4306
образование,0.0922,4013
свадьба,0.080034,2324
недвижимость,0.072334,10811


### Вывод

Кредит, взятый на автомобиль (9,3%) и образование (9,2%), реже возвращается в срок, чем на свадьбу (8%) и недвижимость (7,2%).

# Шаг 4. Общий вывод

Заказчиком была поставлена задача ответа на вопросы о влиянии семейного положения, количества детей, дохода и причины обращения клиента на факт погашения кредита в срок. Были предоставлены входные данные от банка (файл data.csv), в котором представлена статистика о платёжеспособности клиентов. Известно, что результаты исследования будут учитываться в дальнейшем при построении модели кредитного скоринга.  
Изначально данные содержали пропуски, явные и неявные дубликаты, ошибки в формате записи и типе данных, что делало их малопригодными для обработки. Поэтому основная часть исследования была посвященна предобработке данных и их приведению в пригодный для анализа вид. Над данными были произведены следующие действия:  
- обработаны пропуски - благодаря этому этапу, все явные пропуски были заменены на среднее значение по категориям, что не повлияло на качество данных;  
- заменены аномальные значения - все странные значения были исправлены;  
- заменен тип данных - в двух столбцах исправлен тип данных с плавающего сточкой на целочисленный;  
- обработаны дубликаты - были найдены и удалены одинаковые строки;  
- лемматизированы причины кредита - позволило выявить основные 4 категории обращения за кредитом;   
- категоризированы основные переменные - финальный этап перед ответом на вопросы заказчика.  
  
В результате исследования были обнаружены следующие зависимости:  
**1) Наличие детей повышает вероятность невозврата кредита в срок.**    
**2) Незамужние/неженатые и в гражданском браке больше склоны к невозврату кредита, чем те, кто состоит в браке и в разводе. Самые надёжные кредиторы - вдовы/вдовцы.**  
**3) Средние значения общего дохода соответствуют наименьшей вероятности возврата кредита в срок.**   
**4) Кредит, взятый на автомобиль и образование, реже возвращается в срок, чем на свадьбу. Причина: недвижимость - самая надёжная.**  
  
Таким образом, исследование подтвердило наличие зависимости возврата кредита в срок от следующего: наличия детей, незамужнего/неженатого семейного статуса, низкого дохода, обращение за кредитом на автомобиль. 