# Исследование надёжности заёмщиков

Изучим данные, которые переданы для работы над анализом.


## Импорт библиотек

In [1]:
import pandas as pd

Прочитаем файл *data.csv* и сохраним его в переменной *df*. 

In [2]:
df = pd.read_csv('/datasets/data.csv')

Общая информация о данных таблицы *df*.

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Рассмотрим полученную информацию подробнее.

Всего в таблице 12 столбцов, тип данных у столбцов - *float64*, *int64*, *object*.

Подробно разберём, какие в df столбцы и какую информацию они содержат:

* children — количество детей в семье
* days_employed — трудовой стаж в днях
* dob_years — возраст клиента в годах
* education — образование клиента
* education_id — идентификатор образования
* family_status — семейное положение
* family_status_id — идентификатор семейного положения
* gender — пол клиента
* income_type — тип занятости
* debt — имел ли задолженность по возврату кредитов
* total_income — доход в месяц
* purpose — цель получения кредита

# Переработка данных

Исключим пропуски, переименуем столбцы, а также проверим данные на наличие дубликатов.

In [4]:
df.columns

Index(['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose'],
      dtype='object')

В названиях столбцов нету пробелов или же ошибок, с данными можно работать корректно.

Проверим данные на наличие пропусков вызовом набора методов для суммирования пропущенных значений.

In [5]:
df.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Пустые значения свидетельствуют, что для некоторых данных доступна не вся информация. Причины могут быть разные: скажем, не указана информация, либо же сама запись не корректна.

В столбцах *df['days_employed']* и *df['total_income']* мы видим NaN, не целочисленные данные, а так же отрицательные значения.

In [6]:
df['days_employed']

0         -8437.673028
1         -4024.803754
2         -5623.422610
3         -4124.747207
4        340266.072047
5          -926.185831
6         -2879.202052
7          -152.779569
8         -6929.865299
9         -2188.756445
10        -4171.483647
11         -792.701887
12                 NaN
13        -1846.641941
14        -1844.956182
15         -972.364419
16        -1719.934226
17        -2369.999720
18       400281.136913
19       -10038.818549
20        -1311.604166
21         -253.685166
22        -1766.644138
23         -272.981385
24       338551.952911
25       363548.489348
26                 NaN
27         -529.191635
28         -717.274324
29                 NaN
             ...      
21495              NaN
21496      -759.680851
21497              NaN
21498     -1330.627998
21499     -9929.015065
21500      -578.082757
21501    334343.096304
21502              NaN
21503     -3096.881131
21504    355235.728158
21505    338904.866406
21506     -1556.249906
21507      

Так как пустые значения в таблице находятся в столбцах *days_employed — трудовой стаж в днях* и *total_income — доход в месяц*, то заменяем пропущенные значения в *days_employed — трудовой стаж в днях* на *mean()* всего столбца, а *total_income — доход в месяц*, на *median()* всего столбца. После этой операции нужно убедиться, что таблица больше не содержит пропусков.

In [7]:
df['days_employed'] = df['days_employed'].fillna(value = df['days_employed'].mean())
# <замена пропущенных значений в столбце 'days_employed' на среднее значение столбца>


In [8]:
df['total_income'] = df['total_income'].fillna(value = df['total_income'].median())
# <замена пропущенных значений в столбце 'total_income' на медиану столбца>


In [9]:
df.isnull().sum()
# <проверка на отсутствие>

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

Получение первых 5 строк таблицы.

In [10]:
df.head(5)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


Получение последних 5 строк таблицы.

In [11]:
df.tail(5)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.0505,на покупку своего автомобиля
21524,2,-1984.507589,40,среднее,1,женат / замужем,0,F,сотрудник,0,82047.418899,на покупку автомобиля


Посмотрим список уникальных значений столбца *education*, так как в данном столбце видно, что одне и те же значения разным размером штрифта.

In [12]:
df['education'].unique()

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

Группируем данные по образованию и вызовом метода *count()* подсчитываем должности к образованию.

In [13]:
df.groupby('education')['income_type'].count()
# <группировка данных таблицы df по столбцу 'education' и подсчёт количества значений столбца 'income_type'>


education
ВЫСШЕЕ                   274
Высшее                   268
НАЧАЛЬНОЕ                 17
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
Начальное                 15
Неоконченное высшее       47
СРЕДНЕЕ                  772
Среднее                  711
УЧЕНАЯ СТЕПЕНЬ             1
Ученая степень             1
высшее                  4718
начальное                250
неоконченное высшее      668
среднее                13750
ученая степень             4
Name: income_type, dtype: int64

Видим, что в таблице попадаются дубликаты, переведём их в нижний регистр через *lower()*.

In [14]:
df['education'] = df['education'].str.lower()

Сделаем повторный пересчёт столбца *education*, видим, что данные перераспределились по значениям с нижним регистром, теперь у нас остались только уникальные значения.

In [15]:
df.groupby('education')['income_type'].count()

education
высшее                  5260
начальное                282
неоконченное высшее      744
среднее                15233
ученая степень             6
Name: income_type, dtype: int64

Чтобы убедиться, что значения теперь корректно отображаются, выведим первые 5 строк.

In [16]:
df.head(5)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


Столбцы *df['days_employed']*, *df['total_income']* состоят из типа данных *float64*, переведём его в *int64* для удобства просчёта.

In [17]:
df['days_employed'] = df['days_employed'].astype('int')

In [18]:
df['total_income'] = df['total_income'].astype('int')

Выведим информацию о таблице и убедимся, что тип данных сменился на *int64*.

In [19]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null int64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


Проверим столбец, сгрупируем и посмотрим присутсвуют ли в нем ошибки или некорректные данные.

In [20]:
df.groupby('children')['income_type'].count()

children
-1        47
 0     14149
 1      4818
 2      2055
 3       330
 4        41
 5         9
 20       76
Name: income_type, dtype: int64

Мы нашли отрацательное значения (-1), а так же то, что у 76 человек в поле дети, указано колличество 20, что вызывает сомнения в достоверности данных, так что перепроверим и выведим часть данных этого значения.

Для начала переведём через *abs()* значение (-1) в положительное (1), так как скорее всего была допущена ошибка при заполнения столбца.

In [21]:
df['children'] = df['children'].abs()

Так же поступим и со столбцом *df['days_employed']*, так как в данном столбце указаны как отрицательные, так и положительные данные, но он отвечает за "трудовой стаж работы в днях", поэтому скорее всего, что так же была допущена ошибка, так как данный показатель может быть или 0 или же иметь положительное значение.

In [22]:
df['days_employed'] = df['days_employed'].abs()

Вернёмся к категории у которой числится 20 детей, посмотрим, что указывают другие столбцы о данной категории.

In [23]:
df.loc[df['children'] == 20]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
606,20,880,21,среднее,1,женат / замужем,0,M,компаньон,0,145334,покупка жилья
720,20,855,44,среднее,1,женат / замужем,0,F,компаньон,0,112998,покупка недвижимости
1074,20,3310,56,среднее,1,женат / замужем,0,F,сотрудник,1,229518,получение образования
2510,20,2714,59,высшее,0,вдовец / вдова,2,F,сотрудник,0,264474,операции с коммерческой недвижимостью
2941,20,2161,0,среднее,1,женат / замужем,0,F,сотрудник,0,199739,на покупку автомобиля
3302,20,63046,35,среднее,1,Не женат / не замужем,4,F,госслужащий,0,145017,профильное образование
3396,20,63046,56,высшее,0,женат / замужем,0,F,компаньон,0,145017,высшее образование
3671,20,913,23,среднее,1,Не женат / не замужем,4,F,сотрудник,0,101255,на покупку подержанного автомобиля
3697,20,2907,40,среднее,1,гражданский брак,1,M,сотрудник,0,115380,на покупку подержанного автомобиля
3735,20,805,26,высшее,0,Не женат / не замужем,4,M,сотрудник,0,137200,ремонт жилью


Видим, что есть те, кто "не женат/не замужем" и в возрасте 23 года завёл более 20-ти детей, вызывает сомнения данная категория. Скорее всего, либо опечатка, либо ошибка в выгрузке данных, и так как данные сомнения падают на 76 строчек, а это меньше 1% от общего количества, то заменим 20, на 2х детей.

In [24]:
df['children'] = df['children'].replace(20, 2)

Повторно выведим данные, сгрупировав значения и подсчитаем. Как видим в данном случае данные отправились в стобец к заёмщикам с 2-мя детьми.

In [25]:
df.groupby('children')['income_type'].count()

children
0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: income_type, dtype: int64

Необходимо установить наличие дубликатов.  Если найдутся, удаляем, и проверяем, все ли удалились.

In [26]:
df.duplicated().sum()
# <получение суммарного количества дубликатов в таблице df>


71

In [27]:
df = df.drop_duplicates().reset_index(drop=True)
# <удаление всех дубликатов из таблицы df специальным методом>

In [28]:
df.duplicated().sum()
# <проверка на отсутствие>


0

Дубликаты могли появиться вследствие сбоя в записи данных, либо при выгрузке из системы.

Проверим, есть ли в столбцах *df['days_employed']*, *df['total_income']* на некорректиные строки.

In [29]:
count_lines = 0
total_position = 0
wrong_lines = 0
for row in df['total_income']:
    try:
        count_lines += 1
        level = row
        total_position += level
    except:
        wrong_lines += 1
print('Количество измерений', count_lines)    
print('Количество некорректных строк', wrong_lines)

Количество измерений 21454
Количество некорректных строк 0


In [30]:
count_lines = 0
total_position = 0
wrong_lines = 0
for row in df['days_employed']:
    try:
        count_lines += 1
        level = row
        total_position += level
    except:
        wrong_lines += 1
print('Количество измерений', count_lines)    
print('Количество некорректных строк', wrong_lines)

Количество измерений 21454
Количество некорректных строк 0


Получаем общую информацию о данных. Убеждаемся, что чистка выполнена успешно.

In [31]:
df.info()
# <получение общей информации о данных таблицы df>


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 12 columns):
children            21454 non-null int64
days_employed       21454 non-null int64
dob_years           21454 non-null int64
education           21454 non-null object
education_id        21454 non-null int64
family_status       21454 non-null object
family_status_id    21454 non-null int64
gender              21454 non-null object
income_type         21454 non-null object
debt                21454 non-null int64
total_income        21454 non-null int64
purpose             21454 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


Так как в столбце *purpose — цель получения кредита* цели записаны в разной форме, необходимо провести леммматизацию и так как в данные указаны на русском языке, будет удобно и актуально использовать библиотеку *pymystem3*.

Импортируем библиотеку и лемматизируем столбец *purpose*, вызвав функцию *lemmas*.

In [32]:
from pymystem3 import Mystem
m = Mystem()

def lemmas(purpose):
    lemma = m.lemmatize(purpose)
    return lemma

Выведим и добавим результат лемматизации столбца, добавив столбец *lemm_purpose*.

In [33]:
df['lemm_purpose'] = df['purpose'].apply(lemmas)

Проверим результат, получив первых 5 строк таблицы.

In [34]:
df.head(5)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemm_purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,"[покупка, , жилье, \n]"
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,"[приобретение, , автомобиль, \n]"
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,"[покупка, , жилье, \n]"
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,"[дополнительный, , образование, \n]"
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,"[сыграть, , свадьба, \n]"


Сощдадим функцию *lemm_category()*,которая будет принимать значения столбца(лемму) и возвращать категорию прнадлежности, после категоризируем данные столбца *lemm_purpose*, чтобы можно было определить тип цели получения кредита.

In [35]:
def lemm_category(rows):
   
    if 'автомобиль' in rows:
        return 'автомобиль'
    if 'свадьба' in rows:
        return 'свадьба'
    if  'жилье' and 'ремонт' in rows:
        return 'ремонт жилья'
    if  'жилье' in rows:
        return 'жилье'
    if 'недвижимость' in rows:
        return 'недвижимость'   
    if 'образование' in rows:
        return 'образование'

Выполнив функцию, добавим её результат в столбец *lemm_category*.

In [36]:
df['lemm_category'] = df['lemm_purpose'].apply(lemm_category)

Проверим результат, получив первых 5 строк таблицы, посморим на новый столбец и соответсвует ли он функции.

In [37]:
df.head(5)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemm_purpose,lemm_category
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,"[покупка, , жилье, \n]",жилье
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,"[приобретение, , автомобиль, \n]",автомобиль
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,"[покупка, , жилье, \n]",жилье
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,"[дополнительный, , образование, \n]",образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,"[сыграть, , свадьба, \n]",свадьба


Проверим сходятся ли наши значения и сохранены ли везле типы данных.

Рассмотрим, на какие цели чаще всего берут кредит.

In [38]:
df.groupby('lemm_category')['purpose'].count()

lemm_category
автомобиль      4306
жилье           3853
недвижимость    6351
образование     4013
ремонт жилья     607
свадьба         2324
Name: purpose, dtype: int64

In [39]:
df.info()
# <получение общей информации о данных таблицы df>

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 14 columns):
children            21454 non-null int64
days_employed       21454 non-null int64
dob_years           21454 non-null int64
education           21454 non-null object
education_id        21454 non-null int64
family_status       21454 non-null object
family_status_id    21454 non-null int64
gender              21454 non-null object
income_type         21454 non-null object
debt                21454 non-null int64
total_income        21454 non-null int64
purpose             21454 non-null object
lemm_purpose        21454 non-null object
lemm_category       21454 non-null object
dtypes: int64(7), object(7)
memory usage: 2.3+ MB


Создадим функцию income(), которая будет принимать уровень дохода и возраващать индификатор, в зависимости от суммы.

In [40]:
def income(income_value):
    if income_value < 50000:
        return 1
    if 50000 < income_value <= 100000:
        return 2
    if 100000 < income_value <= 150000:
        return 3
    if 150000 < income_value <= 200000:
        return 4
    if 200000 < income_value <= 250000:
        return 5
    if income_value > 250000:
        return 6

Выполнив функцию, добавим её результат в столбец *income_type_id*.

In [41]:
df['income_type_id'] = df['total_income'].apply(income)

Проверим результат, получив первых 5 строк таблицы, посморим на новый столбец и соответсвует ли он функции.

In [42]:
df.head(5)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemm_purpose,lemm_category,income_type_id
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,"[покупка, , жилье, \n]",жилье,6
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,"[приобретение, , автомобиль, \n]",автомобиль,3
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,"[покупка, , жилье, \n]",жилье,3
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,"[дополнительный, , образование, \n]",образование,6
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,"[сыграть, , свадьба, \n]",свадьба,4


Проверим работу функции, как видим функция работает корректно и верно распределяет *id*.

In [43]:
income(120000)

3

Создадим функцию *income_name()*, которая будет принимать индификатор уровня дохода и возраващать пренадлежность, в зависимости от индификатора.

In [44]:
def income_name(income_id):
    if income_id == 1:
        return 'Доход меньше 50 тыс'
    if income_id == 2:
        return 'Доход 50-100 тыс'
    if income_id == 3:
        return 'Доход 100-150 тыс'
    if income_id == 4:
        return 'Доход 150-200 тыс'
    if income_id == 5:
        return 'Доход 200-250 тыс'
    if income_id == 6:
        return 'Доход больше 250 тыс'

Выполнив функцию, добавим её результат в столбец *income_sort*.

In [45]:
df['income_sort'] = df['income_type_id'].apply(income_name)

Проверим результат, получив первых 5 строк таблицы, посморим на новый столбец и соответсвует ли он функции.

In [46]:
df.head(5)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemm_purpose,lemm_category,income_type_id,income_sort
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,"[покупка, , жилье, \n]",жилье,6,Доход больше 250 тыс
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,"[приобретение, , автомобиль, \n]",автомобиль,3,Доход 100-150 тыс
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,"[покупка, , жилье, \n]",жилье,3,Доход 100-150 тыс
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,"[дополнительный, , образование, \n]",образование,6,Доход больше 250 тыс
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,"[сыграть, , свадьба, \n]",свадьба,4,Доход 150-200 тыс


Проверим работу функции, как видим функция работает корректно и верно определяет *income_sort*.

In [47]:
income_name(3)

'Доход 100-150 тыс'

Создадим функцию *children_name()*, которая будет принимать количество детей и возраващать пренадлежность, в зависимости от количества.

In [48]:
def children_name(children_id):
    if children_id == 0:
        return 'Без детей'
    if children_id == 1:
        return 'Один ребёнок'
    if children_id == 2:
        return 'Двое детей'
    if children_id == 3:
        return 'Трое детей'
    if children_id == 4:
        return 'Четверо детей'
    if children_id == 5:
        return 'Пятеро детей'

Выполнив функцию, добавим её результат в столбец *children_sort*.

In [49]:
df['children_sort'] = df['children'].apply(children_name)

Проверим работу функции, как видим функция работает корректно и верно определяет *children_sort*.

In [50]:
children_name(3)

'Трое детей'

Проверим результат, получив первых 5 строк таблицы, посморим на новый столбец и соответсвует ли он функции.

In [51]:
df.head(5)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,lemm_purpose,lemm_category,income_type_id,income_sort,children_sort
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,"[покупка, , жилье, \n]",жилье,6,Доход больше 250 тыс,Один ребёнок
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,"[приобретение, , автомобиль, \n]",автомобиль,3,Доход 100-150 тыс,Один ребёнок
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,"[покупка, , жилье, \n]",жилье,3,Доход 100-150 тыс,Без детей
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,"[дополнительный, , образование, \n]",образование,6,Доход больше 250 тыс,Трое детей
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,"[сыграть, , свадьба, \n]",свадьба,4,Доход 150-200 тыс,Без детей


# Анализ полученных данных

Посмотрим, с каким доходом и какой целью кредита, чаще всего встречаются проблемы с выплатою в срок.

In [52]:
money = df.pivot_table(index = 'income_sort' , columns = 'lemm_category', values = 'debt', aggfunc = 'sum')


Отсортируем сводную таблицу.

In [53]:
money.sort_values(by = 'income_sort', ascending = False)

lemm_category,автомобиль,жилье,недвижимость,образование,ремонт жилья,свадьба
income_sort,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1
Доход меньше 50 тыс,10,2,6,2,0,3
Доход больше 250 тыс,48,31,53,42,5,15
Доход 50-100 тыс,62,51,94,79,4,41
Доход 200-250 тыс,38,24,58,29,2,13
Доход 150-200 тыс,83,60,106,76,12,31
Доход 100-150 тыс,162,105,157,142,12,83


Как видно, самым проблематичным кредитом является цель связанная с автомобилем и недвижимостью, что ещё более интересно то, что довольно много просрочек у заёмщиков с доходом свыше 150 тыс.

Рассмотрим, как разные цели кредита влияют на его возврат в срок?

In [54]:
lemm_debt = df.pivot_table(index = 'lemm_category', values = 'debt', aggfunc='sum')


Отсортируем сводную таблицу по убыванию.

In [55]:
lemm_debt.sort_values(by = 'debt', ascending = False)


Unnamed: 0_level_0,debt
lemm_category,Unnamed: 1_level_1
недвижимость,474
автомобиль,403
образование,370
жилье,273
свадьба,186
ремонт жилья,35


Вывод таков, самыми "проблематичными" можно считать цели на "недвижимость" и "автомобиль", они возварщаются чаще всего не в нужный срок.

Рассмотрим, *есть ли зависимость между наличием детей и возвратом кредита в срок?*

In [56]:
child_debt = df.pivot_table(index = 'children_sort', values = 'debt', aggfunc='sum')


Отсортируем сводную таблицу по убыванию.

In [57]:
child_debt.sort_values(by = 'debt', ascending = False)

Unnamed: 0_level_0,debt
children_sort,Unnamed: 1_level_1
Без детей,1063
Один ребёнок,445
Двое детей,202
Трое детей,27
Четверо детей,4
Пятеро детей,0


Вывод таков, заёмщики, которые без детей или с одним ребёнком чаще всего возвращают кредит не в назначенный срок.

В строке *пятеро детей* отсутствуют задолженности, проверим с чем это связанно. Проверим сколько вовсе данных заёмщиков.

In [58]:
df.loc[df['children_sort'] == 'Пятеро детей']['children_sort'].count()

9

В данном случае, заёмщиков из пятерью детьми, только лишь 9, можно предлоположить, что данная категория очень редко обращаются за получением кредита.

Рассмотрим, *есть ли зависимость между семейным положением и возвратом кредита в срок?*

In [59]:
family_debt = df.pivot_table(index = 'family_status', values = 'debt', aggfunc='sum')


Отсортируем сводную таблицу по убыванию.

In [60]:
family_debt.sort_values(by = 'debt', ascending = False)

Unnamed: 0_level_0,debt
family_status,Unnamed: 1_level_1
женат / замужем,931
гражданский брак,388
Не женат / не замужем,274
в разводе,85
вдовец / вдова,63


Рассмотрим, *есть ли зависимость между уровнем дохода и возвратом кредита в срок?*

In [61]:
income_sort_debt = df.pivot_table(index = 'income_sort', values = 'debt', aggfunc='sum')


Отсортируем сводную таблицу по убыванию.

In [62]:
income_sort_debt.sort_values(by = 'debt', ascending = False)

Unnamed: 0_level_0,debt
income_sort,Unnamed: 1_level_1
Доход 100-150 тыс,661
Доход 150-200 тыс,368
Доход 50-100 тыс,331
Доход больше 250 тыс,194
Доход 200-250 тыс,164
Доход меньше 50 тыс,23


Вывод таков, со всех категорий дохода чаще всего заёмщики, с доходом от 100 - 200 тыс, возвращают кредит не во время.

# Результаты исследования

Рабочие гипотизы и что удалось обнаружить:

* Чаще всего целью кредита являются: недвижимость/жилье, автомобиль и образование; 
* Цели, которые чаще других не выплачиваются вовремя являются: недвижимость и автомобиль;
* Заёмщики без детей чаще других не выплачивали кредит вовремя;
* Клиенты, которые были женаты/замужем чаще других не выплачивали кредит вовремя;
* Клиенты, с доходом 100-150 тыс чаще других не выплачивали кредит вовремя;

Общие результаты таковы, что на не вовремя выплаченный кредит влиет почти каждый фактор, начиная от количества детей, заканчивая целью кредита, мы проанализировали и дали ответ на основные вопросы (находится выше), так к примеру если и заёмщика доход около 70 тыс, это не значит, что он не сможет выплатить вовремя взятый кредит, так что не стоит опираться лишь на один из факторов, а подходить комплексно, изучая больше аспектов и важных факторов клиента.
