## Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

<div style="border:solid green 2px; padding: 20px"> <h1 style="color:green; margin-bottom:20px">Комментарий наставника</h1>

Привет! Поздравляю тебя с первым твоим проектом и спасибо, что вовремя сдала задание:) Ты проделала большую работу. Далее в файле мои комментарии ты сможешь найти в ячейках, аналогичных данной ( если рамки комментария зелёные - всё сделано правильно; жёлтые - есть замечания, но не критично; красные - нужно переделать). Не удаляй эти комментарии и постарайся учесть их в ходе выполнения проекта. 

### Шаг 1. Откройте файл с данными и изучите общую информацию. 

Импортируем библиотеку `pandas`, считаем данную таблицу и посмотрим общую информацию о ней

In [414]:
import pandas as pd
df = pd.read_csv("/datasets/data.csv")
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Также посмотрим первые 5 строк таблицы для лучшего понимания ее содержания

In [415]:
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


### Вывод

Таблица содержит 21525 строк и  12 столбцов: 

`['children', 'days_employed', 'dob_years', 'education', 'education_id', 'family_status', 'family_status_id', 'gender', 'income_type', 'debt', 'total_income', 'purpose']`

+ children            количество детей в семье int64
+ days_employed       общий трудовой стаж в днях float64
+ dob_years           возраст в годах int64
+ education           уровень образования  object
+ education_id        идентификатор уровня образования  int64
+ family_status       семейное положения object
+ family_status_id    идентификатор семейного положения int64
+ gender              пол object
+ income_type         тип занятости object
+ debt                имел ли задолженность по возврату кредитов int64
+ total_income        ежемесячный доход float64
+ purpose             цель получения кредита object

В каждой строке содержится информация об одном клиенте.

В столбцах 'total_income' и  'days_employed' есть пропуски

<div style="border:solid green 2px; padding: 20px"> <h1 style="color:green; margin-bottom:20px">Комментарий наставника</h1>

Данные загружены и изучены, так держать!)

### Шаг 2. Предобработка данных

### Обработка пропусков

Проверим данные на наличие пропусков вызовом набора методов для суммирования пропущенных значений.

In [416]:
df.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Пропуски есть только в столбцах 'days_employed' и 'total_income', причем их количество одинаковое. Возможно, они встречаются только вместе. Проверим эту гипотезу, попробовав вывести строки с пропусками в столбце 'days_employed' и заполненными значениями в  'total_income'

In [417]:
df[(df['days_employed'].isna()) & (~(df['total_income'].isna()))]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


Гипотеза подтвердилась: если для клиента не указан стаж, то и данных об  доходе также нет. Значит, у этих пропусков одно происхождение. Возможно, была утеряна трудовая книжка, или человек вообще не работал, или работал без официального трудового договора, или иниые причины.

Попробуем найти закономерность появления этих пропусков, просмотрев первые 15 строк с пропусками

In [418]:
df[df['days_employed'].isna()].head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
65,0,,21,среднее,1,Не женат / не замужем,4,M,компаньон,0,,операции с коммерческой недвижимостью
67,0,,52,высшее,0,женат / замужем,0,F,пенсионер,0,,покупка жилья для семьи
72,1,,32,высшее,0,женат / замужем,0,M,госслужащий,0,,операции с коммерческой недвижимостью
82,2,,50,высшее,0,женат / замужем,0,F,сотрудник,0,,жилье
83,0,,52,среднее,1,женат / замужем,0,M,сотрудник,0,,жилье


Явных закономерностей нет. Доля строк с пропуском 2174/21525 = 0.1. Это слишком много, чтобы просто отбростть эти строки: результаты анализа могут серьезно измениться. Заменить пропуски на среднее значение соответствующего столбца (без учета пропусков) тоже нельзя: это существенно повлияет на ответ на вопрос *Есть ли зависимость между уровнем дохода и возвратом кредита в срок?* 

Так как в заполненных ячейках этих столбцов нет значений `0`,

In [419]:
df.loc[df['days_employed'] == 0]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


In [420]:
df.loc[df['total_income'] == 0]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


на данном этапе присвоим этим ячейкам значение `0`, по которому потом легко сможем их вычислить, и учтем это при дальнейшем анализе.

In [421]:
df = df.fillna(0)
df.isna().sum()

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

### Вывод

В таблице,по невыясненной причине, в некоторых строках были пропущены значения столбцов 'days_employed' и 'total_income'. Так как для достоверных результатов анализа от них лучше не избавляться, им было присвоено значение `0`, по которому потом их можно будет вычислить. Пропусков больше нет.

<div style="border:solid green 2px; padding: 20px"> <h1 style="color:green; margin-bottom:20px">Комментарий наставника</h1>

Пропуски заполнены верно, молодец)

### Замена типа данных

In [422]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Так как все данные в столбцах 'days_employed' и 'total_income' имеют тип float64, для их приведения к целому типу достаточно использовать метод `.astype()`

In [423]:
df['days_employed'] = df['days_employed'].astype('int')
df['total_income'] = df['total_income'].astype('int')
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


`df.info()` показал, что замена прошла успешено и все данные в столбцах 'days_employed' и 'total_income' теперь имеют тип int64

<div style="border:solid green 2px; padding: 20px"> <h1 style="color:green; margin-bottom:20px">Комментарий наставника</h1>

Замена типа данных выполнена верно

### Обработка дубликатов

Последовательно проверим столбцы education, family_status, gender, income_type, purpose с типом данных object на наличие дубликатов

### 'education'

In [424]:
df['education'].value_counts()

среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

Из полученных данных видно, что в этом столбце есть дубликаты с учетом регистра. Появление этих дубликатов могло быть связано с невнимательным заполнением данных или включенным на клавиатуре верхним регистром. Избавимся от них с использованием методов `str.lower()` и `drop_duplicates()`

In [425]:
df['education'].str.lower().drop_duplicates().reset_index(drop=True)

0                 высшее
1                среднее
2    неоконченное высшее
3              начальное
4         ученая степень
Name: education, dtype: object

### 'family_status'

In [426]:
df['family_status'].value_counts()

женат / замужем          12380
гражданский брак          4177
Не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

В этом столбце дубликатов нет

### 'gender'

In [427]:
df['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

В этом столбце дубликатов нет

### 'income_type'

In [428]:
df['income_type'].value_counts()

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
предприниматель        2
безработный            2
студент                1
в декрете              1
Name: income_type, dtype: int64

В этом столбце дубликатов нет

### 'purpose'

In [429]:
df['purpose'].value_counts()

свадьба                                   797
на проведение свадьбы                     777
сыграть свадьбу                           774
операции с недвижимостью                  676
покупка коммерческой недвижимости         664
операции с жильем                         653
покупка жилья для сдачи                   653
операции с коммерческой недвижимостью     651
жилье                                     647
покупка жилья                             647
покупка жилья для семьи                   641
строительство собственной недвижимости    635
недвижимость                              634
операции со своей недвижимостью           630
строительство жилой недвижимости          626
покупка недвижимости                      624
покупка своего жилья                      620
строительство недвижимости                620
ремонт жилью                              612
покупка жилой недвижимости                607
на покупку своего автомобиля              505
заняться высшим образованием      

В этом столбце прямых дубликатов нет

### Вывод

Единственный столбец, который нуждался в чистке от дубликатов-'education'. Так как в этом столбце были только дубликаты с учетом регистра, понадобилось лишь привести все к нижнему регистру и избавиться от дубликатов. 

<div style="border:solid green 2px; padding: 20px"> <h1 style="color:green; margin-bottom:20px">Комментарий наставника</h1>

Дубликаты найдены и обработаны верно,отлично


### Избавление от артефактов

В данных встречаются артефакты — значения, которые не отражают действительность.Во-первых, отрицательное количество дней трудового стажа. Причина их появления - ошибки при заполнении полей или в рассчетах трудового стажа. Чтобы избавиться от них, домножим все отрицательные значения столбца 'days_employed' на (-1).

In [430]:
df.loc[df['days_employed'] < 0, 'days_employed'] *= -1
print(df['days_employed'].head(10))

0      8437
1      4024
2      5623
3      4124
4    340266
5       926
6      2879
7       152
8      6929
9      2188
Name: days_employed, dtype: int64


Во-вторых, в полученных данных есть не совсем понятные или необычные значения для количества детей: `-1` и `20`.

In [431]:
df.groupby('children').count()

Unnamed: 0_level_0,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
-1,47,47,47,47,47,47,47,47,47,47,47
0,14149,14149,14149,14149,14149,14149,14149,14149,14149,14149,14149
1,4818,4818,4818,4818,4818,4818,4818,4818,4818,4818,4818
2,2055,2055,2055,2055,2055,2055,2055,2055,2055,2055,2055
3,330,330,330,330,330,330,330,330,330,330,330
4,41,41,41,41,41,41,41,41,41,41,41
5,9,9,9,9,9,9,9,9,9,9,9
20,76,76,76,76,76,76,76,76,76,76,76


Возможно, `-1` стоит интерпретировать как `1`, а `20` как `2`. Но так как причина появления таких значений неизвестна, а суммарная доля их появления этих результатов (47+76)/21525 = 0.006 очень мала, правильней будет просто не учитывать в анализе эти значения и соответствующие им строки. Избавимся от них.

In [432]:
df = df.loc[(df['children'] != -1) & (df['children'] != 20)]
df.groupby('children').count()

Unnamed: 0_level_0,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1,Unnamed: 9_level_1,Unnamed: 10_level_1,Unnamed: 11_level_1
0,14149,14149,14149,14149,14149,14149,14149,14149,14149,14149,14149
1,4818,4818,4818,4818,4818,4818,4818,4818,4818,4818,4818
2,2055,2055,2055,2055,2055,2055,2055,2055,2055,2055,2055
3,330,330,330,330,330,330,330,330,330,330,330
4,41,41,41,41,41,41,41,41,41,41,41
5,9,9,9,9,9,9,9,9,9,9,9


### Вывод

Для того чтобы анализ не выдал невозможных (некорректных) результатов, таблица была очищена от артефактов

<div style="border:solid green 2px; padding: 20px"> <h1 style="color:green; margin-bottom:20px">Комментарий наставника</h1>

Отлично)

### Лемматизация

Импортируем библиотеку Mystem и лемматизируем столбец 'purpose':будем поочередно брать строки из столбца 'purpose', лемматизировать их, и полученные леммы поочередно добавлять в список lemmas.

Подсчитаем количество уникальных лемматизированных слов специальным контейнер Counter 

In [433]:
from pymystem3 import Mystem
lemmas = []
m = Mystem()
for text in df['purpose']:
    text_laemmatized = m.lemmatize(text)
    for lemma in text_laemmatized:
        lemmas.append(lemma)
from collections import Counter
Counter(lemmas)

Counter({'покупка': 5880,
         ' ': 33485,
         'жилье': 4450,
         '\n': 21402,
         'приобретение': 460,
         'автомобиль': 4288,
         'дополнительный': 902,
         'образование': 3997,
         'сыграть': 769,
         'свадьба': 2337,
         'операция': 2593,
         'с': 2906,
         'на': 2218,
         'проведение': 772,
         'для': 1291,
         'семья': 640,
         'недвижимость': 6330,
         'коммерческий': 1307,
         'жилой': 1225,
         'строительство': 1870,
         'собственный': 628,
         'подержать': 472,
         'свой': 2224,
         'со': 626,
         'заниматься': 908,
         'сделка': 939,
         'подержанный': 484,
         'получение': 1311,
         'высокий': 1368,
         'профильный': 432,
         'сдача': 651,
         'ремонт': 609})

### Вывод

По полученным леммам можно сделать вывод, что основные цели кредита у клиентов из списка - свадьба, операции с недвижимостю, операции с автомобилем, образование.

<div style="border:solid green 2px; padding: 20px"> <h1 style="color:green; margin-bottom:20px">Комментарий наставника</h1>


Лемматизация проведена верно

### Категоризация данных

В столбце 'purpose' очень много схожих целей, записанных по-разному. Лемматизация этого столбца позволила выделить основные цели кредита у клиентов из списка - свадьба, операции с недвижимостю, операции с автомобилем, образование. Создадим функцию sort_purpose(purpose), которая распределяет цели кредита на группы и применим ее к стобцу purpose.

In [434]:
def sort_purpose(purpose):
    lemmas = m.lemmatize(purpose)
    if 'автомобиль' in lemmas:
        return 'автомобиль'
    elif ('жилье' in lemmas) or ('жилой' in lemmas) or ('недвижимость' in lemmas):
        return 'недвижимость'
    elif 'свадьба' in lemmas:
        return 'свадьба'
    elif 'образование' in lemmas:
        return 'образование'
df['purpose'] = df['purpose'].apply(sort_purpose)
df['purpose'].value_counts()

недвижимость    10780
автомобиль       4288
образование      3997
свадьба          2337
Name: purpose, dtype: int64

Теперь категоризуем клиентов по уровню дохода. Найдем наименьшее и наибольшее значения столбца 'total_income'. (с учетом того, что нулевое значение в столбце 'total_income' означает отсутствие данных)

In [435]:
df.loc[df['total_income'] != 0].sort_values('total_income')

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
14585,0,359219,57,среднее,1,женат / замужем,0,F,пенсионер,1,20667,недвижимость
13006,0,369708,37,среднее,1,гражданский брак,1,M,пенсионер,0,21205,образование
16174,1,3642,52,Среднее,1,женат / замужем,0,M,сотрудник,0,21367,автомобиль
1598,0,359726,68,среднее,1,гражданский брак,1,M,пенсионер,0,21695,свадьба
14276,0,346602,61,среднее,1,женат / замужем,0,F,пенсионер,0,21895,недвижимость
...,...,...,...,...,...,...,...,...,...,...,...,...
17178,0,5734,42,высшее,0,гражданский брак,1,M,компаньон,0,1711309,свадьба
20809,0,4719,61,среднее,1,Не женат / не замужем,4,F,сотрудник,0,1715018,недвижимость
9169,1,5248,35,среднее,1,гражданский брак,1,M,сотрудник,0,1726276,образование
19606,1,2577,39,высшее,0,женат / замужем,0,M,компаньон,1,2200852,недвижимость


max = 2265604, min = 20667	

Разделим клиентов по уровню дохода на 5 групп: низкий: [20667,50000), средний: [50000, 100000), высокий: [100000,500000), очень высокий:[500000,2265604], нет данных

Создадим таблицу-словарь total_income_categories, где сохраним расшифровку категорий дохода

In [436]:
columns = ['category', 'meaning']
data = [['низкий','[20667,50000)'],
        ['средний','[50000, 100000)'],
        ['высокий','[100000,500000)'],
        ['очень высокий','[500000,2265604)']]
total_income_categories = pd.DataFrame(data = data,columns = columns)
total_income_categories

Unnamed: 0,category,meaning
0,низкий,"[20667,50000)"
1,средний,"[50000, 100000)"
2,высокий,"[100000,500000)"
3,очень высокий,"[500000,2265604)"


Создадим функцию sort_total_income(x), которая будет осуществлять эту категоризацию.

In [437]:
def sort_total_income(x):
    if 20667 <= x < 50000:
        return 'низкий'
    elif 50000 <= x < 100000:
        return 'средний'
    elif 100000<= x <500000:
        return 'высокий'
    elif 500000 <= x < 2265604:
        return 'очень высокий'
    else:
        return 'нет данных'

Создадим таблицу df_main, где оставим нужную для анализа информацию таблицы pd -  столбцы 'children' (количество детей), 'family_status_id' (id семейного положения), 'debt' (наличие/отсутствие долга), 'total_income_category' (категория дохода) и 'purpose' - сокращенная цель кредита

In [438]:
df_main = df[['children','family_status_id', 'debt', 'purpose']]
df_main.loc[:,'total_income_category'] = df['total_income'].apply(sort_total_income)
df_main.head()

Unnamed: 0,children,family_status_id,debt,purpose,total_income_category
0,1,0,0,недвижимость,высокий
1,1,0,0,автомобиль,высокий
2,0,0,0,недвижимость,высокий
3,3,0,0,образование,высокий
4,0,1,0,свадьба,высокий


Создадим словарь df_family_status: каждому family_status_id запишем расшифрофку id.

In [439]:
df_family_status = df[['family_status_id', 'family_status']]
df_family_status.head(10)

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,0,женат / замужем
2,0,женат / замужем
3,0,женат / замужем
4,1,гражданский брак
5,1,гражданский брак
6,0,женат / замужем
7,0,женат / замужем
8,1,гражданский брак
9,0,женат / замужем


В «словаре» есть большое количество дубликатов. Их нужно удалить цепочкой методов: drop_duplicates() и reset_index().

In [440]:
df_family_status = df_family_status.drop_duplicates().reset_index(drop=True)
print(df_family_status)

   family_status_id          family_status
0                 0        женат / замужем
1                 1       гражданский брак
2                 2         вдовец / вдова
3                 3              в разводе
4                 4  Не женат / не замужем


### Вывод

После категоризации данных представление данных о клиентах стало удобнее. Таблицу df_main легко обрабатывать, так как там остались только самые нужные данные: количество детей, идентификатор семейного положения, наличие/отсутствие долга, уровень дохода, и категоризированная цель кредита,- а в таблицах - словарях df_family_status и total_income_categories находится расшифрока соответствующих значений.

<div style="border:solid green 2px; padding: 20px"> <h1 style="color:green; margin-bottom:20px">Комментарий наставника</h1>

Категоризация проведена верно

### Шаг 3. Ответьте на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

Посмотрим долю групп клиентов с различным числом детей в общем количестве "должников"

In [441]:
df_main.groupby('children')['debt'].sum()/df_main['debt'].count()

children
0    0.049668
1    0.020746
2    0.009065
3    0.001262
4    0.000187
5    0.000000
Name: debt, dtype: float64

Казалось бы, прослеживается линейная зависимость: чем меньше у клиентов детей, тем реже они возвращают кредит в срок. Однако нужно учесть, что в каждой группе различное число клиентов

In [442]:
df_main.groupby('children')['debt'].count()

children
0    14149
1     4818
2     2055
3      330
4       41
5        9
Name: debt, dtype: int64

Посмотрим долю должников внутри каждой группы

In [443]:
print(df_main.groupby('children')['debt'].sum()/df_main.groupby('children')['debt'].count())

children
0    0.075129
1    0.092154
2    0.094404
3    0.081818
4    0.097561
5    0.000000
Name: debt, dtype: float64


По этим данным в группе клиентов, у которых нет детей, наименьшая "концентрация" должников. Однако следующими после них идут не те, у кого 1 ребенок, а те, у кого 3 ребенка, что не позволяет сделать полные выводы. При этом из 9 человек с 5 детьми в семье все вернули долг в срок, но для столь малой выборки это не является показателем.

### Вывод

Зависимость между наличием детей и возвратом кредита в срок есть: если у клиентов нет детей, то вероятность того, что он не вернет кредит в срок заметно уменьшается (7.5%). Однако среди тех, у кого детей больше одного, зависимость между количеством детей и возвратом кредита в срок не прослеживается.

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

Посмотрим долю должников внутри каждой группы по семейному статусу

In [444]:
print(df.groupby('family_status')['debt'].sum()/df.groupby('family_status')['debt'].count())

family_status
Не женат / не замужем    0.097535
в разводе                0.070648
вдовец / вдова           0.066176
гражданский брак         0.092548
женат / замужем          0.075354
Name: debt, dtype: float64


### Вывод

Зависимость между семейным положением и возвратом кредита в срок естт: чаще всего в должниках остается тот, кто еще не женат / не замужем или живет в гражданском браке (доля ~0.9), реже - тот, кто женат / замужем, и реже остальных - тот, кто уже не в браке: в разводе или вдовец / вдова. Таким образом, наиболее приоритетные заемщики - те, кто уже вступали в официальный брак.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

Посмотрим долю должников внутри каждой группы по уровню дохода.

In [445]:
print(df_main.groupby('total_income_category')['debt'].sum()/df_main.groupby('total_income_category')['debt'].count())

total_income_category
высокий          0.081927
нет данных       0.078595
низкий           0.061995
очень высокий    0.063348
средний          0.081267
Name: debt, dtype: float64


### Вывод

Зависимости между уровнем дохода и возвратом кредита в срок практически нет: клиенты с низкими и очень высокими доходами возвращают долг в срок немного чаще людей со средним и очень высокими доходами (94% против 92% соответственно)

- Как разные цели кредита влияют на его возврат в срок?

Посмотрим долю должников внутри каждой группы по цели кредита

In [446]:
print(df_main.groupby('purpose')['debt'].sum()/df_main.groupby('purpose')['debt'].count())

purpose
автомобиль      0.093284
недвижимость    0.072356
образование     0.092319
свадьба         0.078306
Name: debt, dtype: float64


### Вывод

Кредиты, взятые на операции с автомобилем и на образование, не возвращают в срок (около 9% клиентов) чаще, чем кредиты на недвижимость или на свадьбу (около 7.5%)

<div style="border:solid green 2px; padding: 20px"> <h1 style="color:green; margin-bottom:20px">Комментарий наставника</h1>

Всё верно и точно сделано, как выводы, так и код написаны правильно


### Шаг 4. Общий вывод

На возврат кредита в срок влиятет множество факторов: количество детей в семье клиента, его семейное положение, уровень дохода,  цель кредита и т.д. Но рассматривать их по-отдельности не совсем верно, так как один из пунктов может быть скомпенсирован другим. Поэтому для построения модели кредитного скоринга следует использовать всю совокупность результатов проведенного анализа.

<div style="border:solid  orange  2px; padding: 20px"> <h1 style="color: orange ; margin-bottom:20px">Комментарий наставника</h1>

Хорошо, но можно было бы написать и больше выводов


### Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  открыт файл;
- [x]  файл изучен;
- [x]  определены пропущенные значения;
- [x]  заполнены пропущенные значения;
- [x]  есть пояснение какие пропущенные значения обнаружены;
- [x]  описаны возможные причины появления пропусков в данных;
- [x]  объяснено по какому принципу заполнены пропуски;
- [x]  заменен вещественный тип данных на целочисленный;
- [x]  есть пояснение какой метод используется для изменения типа данных и почему;
- [x]  удалены дубликаты;
- [x]  есть пояснение какой метод используется для поиска и удаления дубликатов;
- [x]  описаны возможные причины появления дубликатов в данных;
- [x]  выделены леммы в значениях столбца с целями получения кредита;
- [x]  описан процесс лемматизации;
- [x]  данные категоризированы;
- [x]  есть объяснение принципа категоризации данных;
- [x]  есть ответ на вопрос "Есть ли зависимость между наличием детей и возвратом кредита в срок?";
- [x]  есть ответ на вопрос "Есть ли зависимость между семейным положением и возвратом кредита в срок?";
- [x]  есть ответ на вопрос "Есть ли зависимость между уровнем дохода и возвратом кредита в срок?";
- [x]  есть ответ на вопрос "Как разные цели кредита влияют на его возврат в срок?";
- [x]  в каждом этапе есть выводы;
- [x]  есть общий вывод.

<div style="border:solid  green  2px; padding: 20px"> <h1 style="color: green ; margin-bottom:20px">Комментарий наставника</h1>

#### Код

Всё отлично. Из того, что очень порадовало - соблюдена структура проекта, шаги из задания обозначены и выполнены последовательно, код написан аккуратно, используются комментарии к коду, быстро можно понять, какие операции выполняют сложные конструкции. В качестве совета предлагаю глубже изучить и начать чаще применять конструкцию try-except в решении задачи — это улучшит отказоустойчивость кода и обезопасит код от поломок в будущем, а так же изучить средства для построения изображений в Python для более глубокого понимания данных.
#### Выводы

У тебя отлично получается анализировать сложные данные, выдвигать корректные гипотезы и проверять свои выводы на возможность соответствия реальности. Видно глубокое понимание сути проведённого анализа. Было очень интересно проверять твой проект и следить за твоей мыслью, так держать!)
