# Оглавление
1. [Общая информация](#Шаг_1)
2. [Обработка дубликатов](#Шаг_3)
3. [Лемматизация](#Шаг_4)
4. [Категоризация данных](#Шаг_5)
5. [Выводы](#Шаг_6)

<a name="Шаг_1"></a>

### Общая информация

In [1]:
import pandas as pd

In [2]:
df = pd.read_csv('data.csv')

In [3]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [4]:
df.columns

Index(['children', 'days_employed', 'dob_years', 'education', 'education_id',
       'family_status', 'family_status_id', 'gender', 'income_type', 'debt',
       'total_income', 'purpose'],
      dtype='object')

In [5]:
df.head(5)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


### Вывод

children          21525 non-null int64   пропусков нет, категориальная переменная

days_employed     19351 non-null float64 пропуски есть, перевести в года, переименовать, ототцательные значения

dob_years         21525 non-null int64   пропусков нет, категориальная переменная, уже

education         21525 non-null object  пропусков нет, регистр

education_id      21525 non-null int64   пропусков нет, категориальная переменная

family_status     21525 non-null object  пропусков нет, регистр

family_status_id  21525 non-null int64   пропусков нет, категориальная переменная

gender            21525 non-null object  пропусков нет, категориальная переменная

income_type       21525 non-null object  пропусков нет, регистр

debt              21525 non-null int64   пропусков нет, категориальная переменная

total_income      19351 non-null float64 пропуски есть, количественная переменная

purpose           21525 non-null object  пропусков нет, описание.


### Обработка пропусков

Проверка на пустые значения и сумма пустых значений

In [6]:
df.isnull().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Пустые значения есть только в двух столбцах 'days_employed' и 'total_income'

In [7]:
df['days_employed'] = df['days_employed'].fillna('0')

In [8]:
df['total_income'] = df['total_income'].fillna('0')

In [9]:
sootvetstvie = df[df['days_employed'] == '0']

In [10]:
sootvetstvie['total_income'].unique()

array(['0'], dtype=object)

Проверка соответсвия пропущенных значений
Создал переменную в которой значения по столбцу 'days_employed' нулевые. И отсортировал уникальные значения с помощью .unique().
Оно одно '0'. Значит нулевые значения, ранее пустые в столбце 'days_employed' соответствую тем же нулевым значениям 
в столбце 'total_income'.

In [11]:
df['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

In [12]:
df['children'] = df['children'].abs()

In [13]:
df['children'] = df['children'].replace(20, 2)

In [14]:
df['children'].value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

Пустых значений нет. Но есть отрицательные, убрал с помощью abs() + проверил
Значение 20 к применению к количеству детей считаю слишком большим, опечатка. Поставил два. Так как считаю, что при отсутствие детей, человек заполняющий форму так опечататься не может! Или при внесение данных палец очень удобно съезжает с "2" на "0", то есть при нажатие на 2 легче задеть 0, чем при обратном порядке.

In [15]:
df['dob_years'].value_counts()

35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

In [16]:
sort = df[df['dob_years'] != 0]

In [17]:
x = sort['dob_years'].median()

In [18]:
df['dob_years'] = df['dob_years'].replace(0, x)

In [19]:
df['dob_years'].value_counts()

35    617
43    614
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

Пустых значений нет. Есть 0. Отсортировал в переменную значения по столбцу, не равные 0. Взял медиану. Проставил + проверил

In [20]:
df['education'].value_counts()

среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

In [21]:
df['education'] = df['education'].str.lower()

In [22]:
df['education'].value_counts()

среднее                15233
высшее                  5260
неоконченное высшее      744
начальное                282
ученая степень             6
Name: education, dtype: int64

Пустых значений нет. Но есть разный регистр, привел к одному (нижнему). + проверил

In [23]:
df['education_id'].value_counts()

1    15233
0     5260
2      744
3      282
4        6
Name: education_id, dtype: int64

Пустых значений нет. Количество соответствует наименованиям

In [24]:
df['family_status'].value_counts()

женат / замужем          12380
гражданский брак          4177
Не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

In [25]:
df['family_status'] = df['family_status'].str.lower()

Пустых значений нет. Но есть разный регистр, привел к одному (нижнему)

In [26]:
df['family_status_id'].value_counts()

0    12380
1     4177
4     2813
3     1195
2      960
Name: family_status_id, dtype: int64

Пустых значений нет. Количество id соответствует наименованиям

In [27]:
df['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

In [28]:
df['gender'] = df['gender'].replace('XNA', 'F')

In [29]:
df['gender'].value_counts()

F    14237
M     7288
Name: gender, dtype: int64

Пустых значений нет. что такое XNA? Считаю что неопределен. Заменил на 'F', так как их больше в два раза. + проверил

In [30]:
df['income_type'].value_counts()

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
предприниматель        2
безработный            2
студент                1
в декрете              1
Name: income_type, dtype: int64

Пустых значений нет. регистр нормалный

In [31]:
df['debt'].value_counts()

0    19784
1     1741
Name: debt, dtype: int64

Пустых значений нет. Значения оставляяю без изменений.

In [32]:
df['purpose'].value_counts()

свадьба                                   797
на проведение свадьбы                     777
сыграть свадьбу                           774
операции с недвижимостью                  676
покупка коммерческой недвижимости         664
покупка жилья для сдачи                   653
операции с жильем                         653
операции с коммерческой недвижимостью     651
покупка жилья                             647
жилье                                     647
покупка жилья для семьи                   641
строительство собственной недвижимости    635
недвижимость                              634
операции со своей недвижимостью           630
строительство жилой недвижимости          626
покупка недвижимости                      624
покупка своего жилья                      620
строительство недвижимости                620
ремонт жилью                              612
покупка жилой недвижимости                607
на покупку своего автомобиля              505
заняться высшим образованием      

In [33]:
df['purpose'] = df['purpose'].str.lower()

Пустых значений нет. Привел столбце purpose к нижнему регистру на всякий случай

### Вывод

Возможно появление пропусков связано с отсутствием стажа работы. (не понятно)
Пропуски в столбце days_employed заменил на нулевае значения, позже заменю на медиану по этому столбцу
Пропуски в столбце total_income заменил на нулевае значения, позже заменю на медиану по этому столбцу
Нулевые значения в столбце dob_years заменил на медиану по этому столбцу, так как всего 101 значение

### Замена типа данных

In [34]:
pd.to_numeric(df['days_employed'], errors='coerce')

0         -8437.673028
1         -4024.803754
2         -5623.422610
3         -4124.747207
4        340266.072047
             ...      
21520     -4529.316663
21521    343937.404131
21522     -2113.346888
21523     -3112.481705
21524     -1984.507589
Name: days_employed, Length: 21525, dtype: float64

In [35]:
pd.to_numeric(df['total_income'], errors='coerce')

0        253875.639453
1        112080.014102
2        145885.952297
3        267628.550329
4        158616.077870
             ...      
21520    224791.862382
21521    155999.806512
21522     89672.561153
21523    244093.050500
21524     82047.418899
Name: total_income, Length: 21525, dtype: float64

Тип данных меняю с object на float64

In [36]:
df['days_employed'] = df['days_employed'].astype('int')

In [37]:
df['total_income'] = df['total_income'].astype('int')

In [38]:
df['days_employed'] = df['days_employed'].abs()

In [39]:
df['total_income'] = df['total_income'].abs()

Тип данных меняю с float64 на int64 с помощью .astype('int'), учитываю только целые значения + Убрал отрицательные значения

In [40]:
sort = df[df['days_employed'] != 0]

In [41]:
x = sort['days_employed'].median()

In [42]:
df['days_employed'] = df['days_employed'].replace(0, x)

In [43]:
df[df['days_employed'] == 0]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


Ранее избавленный столбец days_employed от пустых значений, теперь избавляю от "0".
Отсортировал всю таблицу по значениям этого столбца, отличным от "0", взял медиану.

In [44]:
sort = df[df['total_income'] != 0]

In [45]:
x = sort['total_income'].median()

In [46]:
x

145017.0

In [47]:
df['total_income'] = df['total_income'].replace(0, x)

In [48]:
df[df['total_income'] == 0]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose


Ранее избавленный столбец total_income от пустых значений, теперь избавляю от "0".
Отсортировал всю таблицу по значениям этого столбца, отличным от "0", взял медиану.

### Вывод

Заменил вещественный тип значений на целочисленный, так как столбцы в которых я проводил эти изменения отображают трудовой стаж в днях и доход в месяц. Рассматривать буду целые значения этих столбцов. Значением после запятой в столбце доход в месяц считаю, что можно пренебречь. Убрал нулевые значения, проставил медиану.

<a name="Шаг_3"></a>

### Обработка дубликатов

In [49]:
df.duplicated().sum()

71

ищу дубликаты с помощью .duplicated() и сразу сумму.sum() Итого 71 шт.

In [50]:
df = df.drop_duplicates().reset_index(drop= True)

удилил дубликаты, без создания столбца с помощью drop_duplicates(), reset_index(), (drop= True)

In [51]:
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 12 columns):
children            21454 non-null int64
days_employed       21454 non-null int64
dob_years           21454 non-null int64
education           21454 non-null object
education_id        21454 non-null int64
family_status       21454 non-null object
family_status_id    21454 non-null int64
gender              21454 non-null object
income_type         21454 non-null object
debt                21454 non-null int64
total_income        21454 non-null int64
purpose             21454 non-null object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


In [52]:
df.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


### Вывод

Был найден 71 дубликат и удален с обновлением индексов

<a name="Шаг_4"></a>

### Лемматизация

In [53]:
from pymystem3 import Mystem
m = Mystem()

In [54]:
from collections import Counter

In [55]:
data = df['purpose']

In [56]:
data

0                       покупка жилья
1             приобретение автомобиля
2                       покупка жилья
3          дополнительное образование
4                     сыграть свадьбу
                     ...             
21449               операции с жильем
21450            сделка с автомобилем
21451                    недвижимость
21452    на покупку своего автомобиля
21453           на покупку автомобиля
Name: purpose, Length: 21454, dtype: object

Создал переменную для столбца с значениями purpose

In [57]:
def lammatiz(data):
    count = []
    for row in data:
        lemmas = m.lemmatize(row)
        print(lemmas)
        count += lemmas
    return count

Функция для применения m.lemmatize()

In [58]:
count = lammatiz(data)

['покупка', ' ', 'жилье', '\n']
['приобретение', ' ', 'автомобиль', '\n']
['покупка', ' ', 'жилье', '\n']
['дополнительный', ' ', 'образование', '\n']
['сыграть', ' ', 'свадьба', '\n']
['покупка', ' ', 'жилье', '\n']
['операция', ' ', 'с', ' ', 'жилье', '\n']
['образование', '\n']
['на', ' ', 'проведение', ' ', 'свадьба', '\n']
['покупка', ' ', 'жилье', ' ', 'для', ' ', 'семья', '\n']
['покупка', ' ', 'недвижимость', '\n']
['покупка', ' ', 'коммерческий', ' ', 'недвижимость', '\n']
['сыграть', ' ', 'свадьба', '\n']
['приобретение', ' ', 'автомобиль', '\n']
['покупка', ' ', 'жилой', ' ', 'недвижимость', '\n']
['строительство', ' ', 'собственный', ' ', 'недвижимость', '\n']
['недвижимость', '\n']
['строительство', ' ', 'недвижимость', '\n']
['на', ' ', 'покупка', ' ', 'подержать', ' ', 'автомобиль', '\n']
['на', ' ', 'покупка', ' ', 'свой', ' ', 'автомобиль', '\n']
['недвижимость', '\n']
['приобретение', ' ', 'автомобиль', '\n']
['на', ' ', 'покупка', ' ', 'подержать', ' ', 'автомобиль',

Сохранил в отдельную переменную

In [59]:
Counter(count)

Counter({'покупка': 5897,
         ' ': 33570,
         'жилье': 4460,
         '\n': 21454,
         'приобретение': 461,
         'автомобиль': 4306,
         'дополнительный': 906,
         'образование': 4013,
         'сыграть': 765,
         'свадьба': 2324,
         'операция': 2604,
         'с': 2918,
         'на': 2222,
         'проведение': 768,
         'для': 1289,
         'семья': 638,
         'недвижимость': 6351,
         'коммерческий': 1311,
         'жилой': 1230,
         'строительство': 1878,
         'собственный': 635,
         'подержать': 478,
         'свой': 2230,
         'со': 627,
         'заниматься': 904,
         'сделка': 941,
         'подержанный': 486,
         'получение': 1314,
         'высокий': 1374,
         'профильный': 436,
         'сдача': 651,
         'ремонт': 607})

Применение Counter() для подсчета значений

In [60]:
spisok = [
    ['покупка', '5897'],
    ['жилье', '4460'],
    ['приобретение', '461'],
    ['автомобиль', '4306'],
    ['дополнительный', '906'],
    ['образование', '4013'],
    ['сыграть', '765'],
    ['свадьба', '2324'],
    ['операция', '2604'],
    ['проведение', '768'],
    ['семья', '638'],
    ['недвижимость', '6351'],
    ['коммерческий', '1311'],
    ['жилой', '1230'],
    ['строительство', '1878'],
    ['собственный', '635'],
    ['подержать', '478'],
    ['заниматься', '904'],
    ['сделка', '941'],
    ['подержанный', '486'],
    ['получение', '1314'],
    ['высокий', '1374'],
    ['профильный', '436'],
    ['сдача', '651'],
    ['ремонт', '607'],
]


Создал список вручную, удалил лишнее (предлоги и пробелы)

In [61]:
columns = ['purpose', 'count']

In [62]:
spisok = pd.DataFrame(data = spisok, columns = columns)

In [63]:
spisok.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25 entries, 0 to 24
Data columns (total 2 columns):
purpose    25 non-null object
count      25 non-null object
dtypes: object(2)
memory usage: 528.0+ bytes


In [64]:
pd.to_numeric(spisok['count'], errors='coerce')

0     5897
1     4460
2      461
3     4306
4      906
5     4013
6      765
7     2324
8     2604
9      768
10     638
11    6351
12    1311
13    1230
14    1878
15     635
16     478
17     904
18     941
19     486
20    1314
21    1374
22     436
23     651
24     607
Name: count, dtype: int64

In [65]:
spisok['count'] = spisok['count'].astype('int')

In [66]:
spisok.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 25 entries, 0 to 24
Data columns (total 2 columns):
purpose    25 non-null object
count      25 non-null int64
dtypes: int64(1), object(1)
memory usage: 528.0+ bytes


Сделал таблицу с двумя столбцами, поменял тип данных + проверка

In [67]:
spisok_purpose_sort_values = spisok.sort_values(by = 'count', ascending = False)

In [68]:
spisok_purpose_sort_values

Unnamed: 0,purpose,count
11,недвижимость,6351
0,покупка,5897
1,жилье,4460
3,автомобиль,4306
5,образование,4013
8,операция,2604
7,свадьба,2324
14,строительство,1878
21,высокий,1374
20,получение,1314


Отсортировал в отдельной переменной

### Вывод

Основные пять целей получения кредита:

недвижимость 6351
покупка	5897
жилье	4460
автомобиль	4306
образование	4013

с разрывом
операция 2604
свадьба	2324

<a name="Шаг_5"></a>

### Категоризация данных

зависимость между наличием детей и возвратом кредита в срок

In [69]:
df_children_debt = df[['children', 'debt']]

отсеял нетребуемые столбцы

In [70]:
df_children_debt.groupby(['children','debt']).agg({'debt':'count'})

Unnamed: 0_level_0,Unnamed: 1_level_0,debt
children,debt,Unnamed: 2_level_1
0,0,13028
0,1,1063
1,0,4410
1,1,445
2,0,1926
2,1,202
3,0,303
3,1,27
4,0,37
4,1,4


In [71]:
df_children_debt[(df_children_debt['children'] == 0)].count()

children    14091
debt        14091
dtype: int64

всего бездетных

In [72]:
df_children_debt[(df_children_debt['debt'] == 0) & (df_children_debt['children'] == 0)].count()

children    13028
debt        13028
dtype: int64

бездетные без задолженностей

In [73]:
df_children_debt[(df_children_debt['debt'] == 1) & (df_children_debt['children'] == 0)].count()

children    1063
debt        1063
dtype: int64

бездетные с задолженностью

In [74]:
13028 / 14091 * 100

92.45617770207934

In [75]:
1063 / 14091 * 100

7.543822297920659

In [76]:
df_children_debt[(df_children_debt['children'] != 0)].count()

children    7363
debt        7363
dtype: int64

всего с детьми

In [77]:
df_children_debt[(df_children_debt['debt'] == 0) & (df_children_debt['children'] != 0)].count()

children    6685
debt        6685
dtype: int64

с детьми без задолженности

In [78]:
df_children_debt[(df_children_debt['debt'] == 1) & (df_children_debt['children'] != 0)].count()

children    678
debt        678
dtype: int64

с детьми с задолженностью

In [79]:
6685 / 7363 * 100

90.79179682194759

In [80]:
678 / 7363 * 100

9.208203178052424

In [81]:
df_children_all = [
    
    ['нет детей', '92.46', '7.54'],
    ['есть дети', '90.79', '9.21'],
    
]

In [82]:
columns_children = ['children', 'debt_0', 'debt_1']

In [83]:
data_children = pd.DataFrame(data = df_children_all, columns =columns_children)

In [84]:
data_children

Unnamed: 0,children,debt_0,debt_1
0,нет детей,92.46,7.54
1,есть дети,90.79,9.21


Таблица для наглядности

При отсутствие детей
92.46% не имеет проблем с возвратом кредита
7.54% имеют проблемы с возвратом кредита

При наличие детей
90.79% не имеет проблем с возвратом кредита
9.21% имеют проблемы с возвратом кредита

зависимость между семейным положением и возвратом кредита в срок

In [85]:
df_family_status_debt = df[['family_status', 'debt']]

In [86]:
df_family_status_debt.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21454 entries, 0 to 21453
Data columns (total 2 columns):
family_status    21454 non-null object
debt             21454 non-null int64
dtypes: int64(1), object(1)
memory usage: 335.3+ KB


In [87]:
df_family_status_debt.groupby(['family_status','debt']).agg({'family_status':'count'})

Unnamed: 0_level_0,Unnamed: 1_level_0,family_status
family_status,debt,Unnamed: 2_level_1
в разводе,0,1110
в разводе,1,85
вдовец / вдова,0,896
вдовец / вдова,1,63
гражданский брак,0,3763
гражданский брак,1,388
женат / замужем,0,11408
женат / замужем,1,931
не женат / не замужем,0,2536
не женат / не замужем,1,274


In [88]:
df_family_status_debt['debt'].value_counts()

0    19713
1     1741
Name: debt, dtype: int64

общие значения 

In [89]:
df_family_status_debt.groupby('family_status')['debt'].value_counts()

family_status          debt
в разводе              0        1110
                       1          85
вдовец / вдова         0         896
                       1          63
гражданский брак       0        3763
                       1         388
женат / замужем        0       11408
                       1         931
не женат / не замужем  0        2536
                       1         274
Name: debt, dtype: int64

In [90]:
df_family = [
    ['в разводе', '1110', '85'],
    ['вдовец / вдова', '896', '63'],
    ['гражданский брак', '3763', '388'],
    ['женат / замужем', '11408', '931'],
    ['не женат / не замужем', '2536', '274'],
    
]

In [91]:
columns = ['family_status', 'debt_0', 'debt_1']

In [92]:
df_family_data = pd.DataFrame(data = df_family, columns =columns)

список

In [93]:
df_family_data['debt_0'] = pd.to_numeric(df_family_data['debt_0'], errors='coerce')

In [94]:
df_family_data['debt_1'] = pd.to_numeric(df_family_data['debt_1'], errors='coerce')

In [95]:
df_family_data['debt_0_1'] = df_family_data['debt_0'] + df_family_data['debt_1']

In [96]:
df_family_data['itogo_0'] = (df_family_data['debt_0'] / df_family_data['debt_0_1'] * 100)

In [97]:
df_family_data['itogo_1'] = (df_family_data['debt_1'] / df_family_data['debt_0_1'] * 100)

In [98]:
df_family_data_sort = df_family_data.sort_values(by='itogo_1', ascending = False)

In [99]:
df_family_data_sort 

Unnamed: 0,family_status,debt_0,debt_1,debt_0_1,itogo_0,itogo_1
4,не женат / не замужем,2536,274,2810,90.24911,9.75089
2,гражданский брак,3763,388,4151,90.652855,9.347145
3,женат / замужем,11408,931,12339,92.454818,7.545182
0,в разводе,1110,85,1195,92.887029,7.112971
1,вдовец / вдова,896,63,959,93.430657,6.569343


Сортировка для наглядности

Больше всех проблемы с задолженностью по кредиту имеют личности в статусе семьи 'не женат / не замужем'

зависимость между уровнем дохода и возвратом кредита в срок

In [100]:
df_total_income_debt = df[['total_income', 'debt']]

In [101]:
df_total_income_debt_0 = df_total_income_debt[df_total_income_debt['debt'] == 0]

In [102]:
df_total_income_debt_1 = df_total_income_debt[df_total_income_debt['debt'] == 1]

In [103]:
df_total_income_debt_0['total_income'].mean()

165569.23979100087

среднее значение без задолженностей

In [104]:
df_total_income_debt_0['total_income'].median()

145017.0

медиана без задолженностей

In [105]:
df_total_income_debt_1['total_income'].mean()

161334.64215967833

среднее значение с задолженностями

In [106]:
df_total_income_debt_1['total_income'].median()

145017.0

медиана с задолженностями

In [107]:
df_total_income_debt_all = [
    [0, 165569.23, 145017.0],
    [1, 161334.64, 145017.0],
]

In [108]:
columns = ['debt', 'mean', 'median']

In [109]:
df_total_income_debt_all = pd.DataFrame(data = df_total_income_debt_all, columns =columns)

In [110]:
df_total_income_debt_all

Unnamed: 0,debt,mean,median
0,0,165569.23,145017.0
1,1,161334.64,145017.0


таблица для наглядности

Если смотреть по медиане, то на признак задолженности по кредиту доход ежемесячный не влияет.

разные цели кредита влияют на его возврат в срок

In [111]:
df_purpose_debt = df[['purpose', 'debt']]

отсеял нетребуемые столбцы

In [112]:
df_purpose_debt_0 = df_purpose_debt[df_purpose_debt['debt'] == 0]

In [113]:
count_df_purpose_debt_0 = Counter(lammatiz(df_purpose_debt_0['purpose']))

['покупка', ' ', 'жилье', '\n']
['приобретение', ' ', 'автомобиль', '\n']
['покупка', ' ', 'жилье', '\n']
['дополнительный', ' ', 'образование', '\n']
['сыграть', ' ', 'свадьба', '\n']
['покупка', ' ', 'жилье', '\n']
['операция', ' ', 'с', ' ', 'жилье', '\n']
['образование', '\n']
['на', ' ', 'проведение', ' ', 'свадьба', '\n']
['покупка', ' ', 'жилье', ' ', 'для', ' ', 'семья', '\n']
['покупка', ' ', 'недвижимость', '\n']
['покупка', ' ', 'коммерческий', ' ', 'недвижимость', '\n']
['сыграть', ' ', 'свадьба', '\n']
['приобретение', ' ', 'автомобиль', '\n']
['строительство', ' ', 'собственный', ' ', 'недвижимость', '\n']
['недвижимость', '\n']
['строительство', ' ', 'недвижимость', '\n']
['на', ' ', 'покупка', ' ', 'подержать', ' ', 'автомобиль', '\n']
['на', ' ', 'покупка', ' ', 'свой', ' ', 'автомобиль', '\n']
['недвижимость', '\n']
['приобретение', ' ', 'автомобиль', '\n']
['на', ' ', 'покупка', ' ', 'подержать', ' ', 'автомобиль', '\n']
['сыграть', ' ', 'свадьба', '\n']
['операция',

In [114]:
count_df_purpose_debt_0

Counter({'покупка': 5461,
         ' ': 30822,
         'жилье': 4152,
         '\n': 19713,
         'приобретение': 419,
         'автомобиль': 3903,
         'дополнительный': 817,
         'образование': 3643,
         'сыграть': 707,
         'свадьба': 2138,
         'операция': 2399,
         'с': 2662,
         'на': 2032,
         'проведение': 704,
         'для': 1192,
         'семья': 593,
         'недвижимость': 5877,
         'коммерческий': 1212,
         'строительство': 1734,
         'собственный': 593,
         'подержать': 442,
         'свой': 2052,
         'жилой': 1141,
         'со': 577,
         'заниматься': 822,
         'сделка': 840,
         'подержанный': 435,
         'получение': 1180,
         'высокий': 1245,
         'профильный': 392,
         'сдача': 599,
         'ремонт': 572})

In [115]:
count_df_purpose_debt_0 = [
    ['покупка', 5461],
    ['жилье', 4152],
    ['приобретение', 419],
    ['автомобиль', 3903],
    ['дополнительный', 817],
    ['образование', 3643],
    ['сыграть', 707],
    ['свадьба', 2138],
    ['операция', 2399],
    ['проведение', 704],
    ['семья', 593],
    ['недвижимость', 5877],
    ['коммерческий', 1212],
    ['строительство', 1734],
    ['собственный', 593],
    ['подержать', 442],
    ['жилой', 1141],
    ['заниматься', 822],
    ['сделка', 840],
    ['подержанный', 435],
    ['получение', 1180],
    ['высокий', 1245],
    ['профильный', 392],
    ['сдача', 599],
    ['ремонт', 572]

]

In [116]:
columns = ['purpose', 'debt_0']

In [117]:
count_df_purpose_debt_0 = pd.DataFrame(data = count_df_purpose_debt_0, columns=columns)

цели в таблице при отсутствие задолженности

In [118]:
df_purpose_debt_1 = df_purpose_debt[df_purpose_debt['debt'] == 1]

In [119]:
count_df_purpose_debt_1 = Counter(lammatiz(df_purpose_debt_1['purpose']))

['покупка', ' ', 'жилой', ' ', 'недвижимость', '\n']
['на', ' ', 'проведение', ' ', 'свадьба', '\n']
['образование', '\n']
['сыграть', ' ', 'свадьба', '\n']
['операция', ' ', 'с', ' ', 'недвижимость', '\n']
['сделка', ' ', 'с', ' ', 'автомобиль', '\n']
['операция', ' ', 'с', ' ', 'недвижимость', '\n']
['операция', ' ', 'со', ' ', 'свой', ' ', 'недвижимость', '\n']
['операция', ' ', 'с', ' ', 'коммерческий', ' ', 'недвижимость', '\n']
['операция', ' ', 'с', ' ', 'недвижимость', '\n']
['жилье', '\n']
['сделка', ' ', 'с', ' ', 'автомобиль', '\n']
['на', ' ', 'покупка', ' ', 'свой', ' ', 'автомобиль', '\n']
['покупка', ' ', 'жилье', ' ', 'для', ' ', 'семья', '\n']
['получение', ' ', 'дополнительный', ' ', 'образование', '\n']
['получение', ' ', 'дополнительный', ' ', 'образование', '\n']
['покупка', ' ', 'жилой', ' ', 'недвижимость', '\n']
['на', ' ', 'покупка', ' ', 'автомобиль', '\n']
['на', ' ', 'покупка', ' ', 'свой', ' ', 'автомобиль', '\n']
['свадьба', '\n']
['покупка', ' ', 'жилье',

In [120]:
count_df_purpose_debt_1 = [
    ['покупка', 436],
    ['жилой', 89],
    ['недвижимость', 474],
    ['проведение', 64],
    ['свадьба', 186],
    ['образование', 370],
    ['сыграть', 58],
    ['операция', 205],
    ['сделка', 101],
    ['автомобиль', 403],
    ['коммерческий', 99],
    ['жилье', 308],
    ['семья', 45],
    ['получение', 134],
    ['дополнительный', 89],
    ['заниматься', 82],
    ['высокий', 129],
    ['подержать', 36],
    ['строительство', 144],
    ['сдача', 52],
    ['приобретение', 42],
    ['подержанный', 51],
    ['собственный', 42],
    ['ремонт', 35],
    ['профильный', 44]
]

In [121]:
columns = ['purpose','debt_1']

In [122]:
count_df_purpose_debt_1 = pd.DataFrame(data = count_df_purpose_debt_1, columns=columns)

цели в таблице с  задолженностью

In [123]:
count_df_purpose_debt_all = count_df_purpose_debt_0.merge(count_df_purpose_debt_1)

склеил таблицы

In [124]:
count_df_purpose_debt_all['debt_all'] = count_df_purpose_debt_all['debt_0'] + count_df_purpose_debt_all['debt_1']

In [125]:
count_df_purpose_debt_all['itog_0'] = count_df_purpose_debt_all['debt_0'] / count_df_purpose_debt_all['debt_all'] * 100

In [126]:
count_df_purpose_debt_all['itog_1'] = count_df_purpose_debt_all['debt_1'] / count_df_purpose_debt_all['debt_all'] * 100

In [127]:
count_df_purpose_debt_all_sort = count_df_purpose_debt_all.sort_values(by='itog_1', ascending = False)

In [128]:
count_df_purpose_debt_all_sort

Unnamed: 0,purpose,debt_0,debt_1,debt_all,itog_0,itog_1
18,сделка,840,101,941,89.266738,10.733262
19,подержанный,435,51,486,89.506173,10.493827
20,получение,1180,134,1314,89.802131,10.197869
22,профильный,392,44,436,89.908257,10.091743
4,дополнительный,817,89,906,90.1766,9.8234
21,высокий,1245,129,1374,90.611354,9.388646
3,автомобиль,3903,403,4306,90.640966,9.359034
5,образование,3643,370,4013,90.779965,9.220035
2,приобретение,419,42,461,90.889371,9.110629
17,заниматься,822,82,904,90.929204,9.070796


Больше всего возникает проблем с кедитом у заемщиков для совершения сделки с автомобилем.
Меньше всего с кредитом на ремонт

### Вывод

При категоризации данных, наглядно видны ответы на возможные вопросы.

<a name="Шаг_6"></a>

### Выводы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [129]:
data_children

Unnamed: 0,children,debt_0,debt_1
0,нет детей,92.46,7.54
1,есть дети,90.79,9.21


### Вывод

При отсутствие детей
92.46% не имеет проблем с возвратом кредита
7.54% имеют проблемы с возвратом кредита

При наличие детей
90.79% не имеет проблем с возвратом кредита
9.21% имеют проблемы с возвратом кредита

Прослеживается зависимость, что с наличием детей увеличивается показатель задолженности по кредиту на 1,67%

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [130]:
df_family_data_sort 

Unnamed: 0,family_status,debt_0,debt_1,debt_0_1,itogo_0,itogo_1
4,не женат / не замужем,2536,274,2810,90.24911,9.75089
2,гражданский брак,3763,388,4151,90.652855,9.347145
3,женат / замужем,11408,931,12339,92.454818,7.545182
0,в разводе,1110,85,1195,92.887029,7.112971
1,вдовец / вдова,896,63,959,93.430657,6.569343


### Вывод

Да. есть.
Больше всех проблем с задолженностью по кредиту имеют личности в статусе семьи 'не женат / не замужем'


Меньше всех проблем с задолженностью по кредиту имеют личности в статусе семьи 'вдовец / вдова'
Что странно. Есть социальные дотации?

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [131]:
df_total_income_debt_all

Unnamed: 0,debt,mean,median
0,0,165569.23,145017.0
1,1,161334.64,145017.0


### Вывод

Если смотреть по медиане, то на признак задолженности по кредиту доход ежемесячный не влияет.
Считаю что среднее значение по доходу в данном случае не показательно.

- Как разные цели кредита влияют на его возврат в срок?

In [132]:
count_df_purpose_debt_all_sort

Unnamed: 0,purpose,debt_0,debt_1,debt_all,itog_0,itog_1
18,сделка,840,101,941,89.266738,10.733262
19,подержанный,435,51,486,89.506173,10.493827
20,получение,1180,134,1314,89.802131,10.197869
22,профильный,392,44,436,89.908257,10.091743
4,дополнительный,817,89,906,90.1766,9.8234
21,высокий,1245,129,1374,90.611354,9.388646
3,автомобиль,3903,403,4306,90.640966,9.359034
5,образование,3643,370,4013,90.779965,9.220035
2,приобретение,419,42,461,90.889371,9.110629
17,заниматься,822,82,904,90.929204,9.070796


### Вывод

Больше всего возникает проблем с кредитом у заемщиков для совершения сделки с автомобилем.
Меньше всего с кредитом на ремонт

### Шаг 4. Общий вывод

Некоторое факторы влияют на возможность выплат по кредиту в срок.
Такие как
дети
семейным положением 
цели 

Заработная плата не влияет.