# Исследование надёжности заёмщиков

## Шаг 1. Откройте файл с данными и изучите общую информацию

In [1]:
import pandas as pd
data = pd.read_csv('/datasets/data.csv')
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [2]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

In [3]:
data.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


**Вывод**
 
- Информация о структуре данных - двумерная(DataFrame);
- таблица имеет 21525 строк и 12 столбцов; 
- присутствуют названия столбцов и количество ненулевых значений;
- в таблице присутствуют значения типов object(5 столбцов), int(5 столбцов)и float(2 столбца);
- использование памяти.

## Шаг 2. Предобработка данных

### Обработка пропусков

In [4]:
data['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

In [5]:
data['children'] = data['children'].abs()
data.loc[data['children'] == 20, 'children'] = data[data['children'] != 20]['children'].median()

In [6]:
data['children'].value_counts()

0.0    14225
1.0     4865
2.0     2055
3.0      330
4.0       41
5.0        9
Name: children, dtype: int64

In [7]:
data['days_employed'].value_counts()

-986.927316     1
-7026.359174    1
-4236.274243    1
-6620.396473    1
-1238.560080    1
               ..
-2849.351119    1
-5619.328204    1
-448.829898     1
-1687.038672    1
-582.538413     1
Name: days_employed, Length: 19351, dtype: int64

In [8]:
data['days_employed'] = data['days_employed'].abs()
data['days_employed'] = data['days_employed'].fillna(data.groupby('income_type')['days_employed'].transform('median'))

In [9]:
data['days_employed'].isna().sum()

0

In [10]:
data['dob_years'].value_counts()

35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

In [11]:
data.loc[data['dob_years'] == 0, 'dob_years'] = data.groupby('income_type')['dob_years'].transform('median')

In [12]:
data[data['dob_years'] == 0]['dob_years'].count()

0

In [13]:
data['education'].value_counts()

среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
УЧЕНАЯ СТЕПЕНЬ             1
Ученая степень             1
Name: education, dtype: int64

In [14]:
data['education_id'].value_counts()

1    15233
0     5260
2      744
3      282
4        6
Name: education_id, dtype: int64

In [15]:
data['family_status'].value_counts()

женат / замужем          12380
гражданский брак          4177
Не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64

In [16]:
data['family_status_id'].value_counts()

0    12380
1     4177
4     2813
3     1195
2      960
Name: family_status_id, dtype: int64

In [17]:
data['gender'].value_counts()

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

In [18]:
data[data['gender'] == 'XNA']

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10701,0.0,2358.600502,24.0,неоконченное высшее,2,гражданский брак,1,XNA,компаньон,0,203905.157261,покупка недвижимости


In [19]:
data[data['income_type'] == 'компаньон'].groupby('gender')['income_type'].count()

gender
F      3197
M      1887
XNA       1
Name: income_type, dtype: int64

In [20]:
data.loc[data['gender'] == 'XNA', 'gender'] = 'F'

In [21]:
data['income_type'].value_counts()

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
безработный            2
предприниматель        2
в декрете              1
студент                1
Name: income_type, dtype: int64

In [22]:
data['debt'].value_counts()

0    19784
1     1741
Name: debt, dtype: int64

In [23]:
data['total_income'].value_counts()

112874.418757    1
133912.272223    1
182036.676828    1
122421.963500    1
198271.837248    1
                ..
133299.194693    1
115080.782380    1
84896.781597     1
153838.839212    1
150014.128510    1
Name: total_income, Length: 19351, dtype: int64

In [24]:
data['total_income'] = data['total_income'].fillna(data.groupby('income_type')['total_income'].transform('median'))

In [25]:
data['total_income'].isna().sum()

0

In [26]:
data['purpose'].value_counts()

свадьба                                   797
на проведение свадьбы                     777
сыграть свадьбу                           774
операции с недвижимостью                  676
покупка коммерческой недвижимости         664
покупка жилья для сдачи                   653
операции с жильем                         653
операции с коммерческой недвижимостью     651
жилье                                     647
покупка жилья                             647
покупка жилья для семьи                   641
строительство собственной недвижимости    635
недвижимость                              634
операции со своей недвижимостью           630
строительство жилой недвижимости          626
покупка недвижимости                      624
покупка своего жилья                      620
строительство недвижимости                620
ремонт жилью                              612
покупка жилой недвижимости                607
на покупку своего автомобиля              505
заняться высшим образованием      

**Вывод**

Обнаружены пропуски в двух столбцах(методом isna().sum()): days_employed(общий трудовой стаж в днях) и total_income(ежемесячный доход) - 2174 пропуска.

Возможные причины появления пропусков:
- н-р, если это пенсионер, то просто могли не передать данные из соответствующих органов;
- если человек еще трудоспособен, может уволили с работы, поэтому пропуск в стаже и доходе.

Замена пропусков:
- В столбце 'total_income'(ежемесячный доход) пропуски были заполнены медианным значением, которое было сформировано по группам, группировка производилась по типу занятости по столбцу 'income_type'.
- Далее перед тем как запонять пропуски в столбце 'days_employed'(общий трудовой стаж) я привела все отрицательные значения к положительным через метод abs().
- Затем в столбце 'days_employed' пропуски были заполнены медианным значением, которое было сформировано по группам, группировка производилась по типу занятости по столбцу 'income_type'. Еть проблема, из-за того, что верхнее граничное значение сильно превышает логически допустимое, после заполнения получила несовсем корректное медианное значение. В дальнейших исследованиях данный столбец не используется.
- В столбце 'dob_years'(возраст клиента) встречались значения "0", заменила их на медианное значение, которое было сформировано по группам, группировка производилась по типу занятости по столбцу 'income_type'.



### Замена типа данных

In [27]:
data['dob_years'] = data['dob_years'].astype('int')

**Вывод**

Для начала использовала метод info(), просмотрела все столбцы и указанные типы данных, проанализировала, заметила, что столбец 'dob_years' с типом данных float, заменила на int методом astype().

### Обработка дубликатов

In [28]:
data['education'] = data['education'].str.lower()

In [29]:
data['family_status'] = data['family_status'].str.lower()

In [30]:
data = data.drop_duplicates().reset_index(drop=True)
data.duplicated().value_counts()

False    21454
dtype: int64

**Вывод**

Чтобы учесть все дубликаты, приведём все символы в столбцах 'education' и 'family_status' к нижнему регистру. Затем удалим дубликаты и проверяем все ли дубликаты удалились.



### Лемматизация

In [31]:
from nltk.stem import SnowballStemmer 
russian_stemmer = SnowballStemmer('russian')

purpose_dict = {
    russian_stemmer.stem('жильё'):'недвижимость',
    russian_stemmer.stem('свадьба'):'свадьба',
    russian_stemmer.stem('образование'):'образование',
    russian_stemmer.stem('недвижимость'):'недвижимость',
    russian_stemmer.stem('автомобиль'):'автомобиль',
    russian_stemmer.stem('автомобили'):'автомобиль'}

def stem_purpose(value):
    for word in value.split(' '):
        word_base = russian_stemmer.stem(word)
        if word_base in purpose_dict:
            return purpose_dict[word_base]
    return value

data['purpose'] = data['purpose'].transform(stem_purpose)

**Вывод**

В данном пункте был применен стемминг. Для начала создала словарь, в котором ключ это основания слов, часто встречающиеся в строках столбца 'purpose', а значение это строки, на которые нужно заменить текущее значение строки столбца в случае равенства основания слова в строке одному из ключей словаря.

Объявила функцию stem_purpose(value), где value это текущая строка столбца 'purpose'. С помощью метода split() разбиваем текущее значение строки на подстроки с пробелом в качестве разделителя. В цикле перебираем подстроки и для каждой из них ищем основание, проверяем наличие каждого основания в словаре, в случае успеха возвращаем значение по ключу. Если ни одного сопоставления так и не найдено возвращается текущее значение строки.
Передаем данные значения столбцу 'purpose' методом transform(stem_purpose - наша функция).

### Категоризация данных

In [32]:
children_debt = data[['children', 'debt']]

In [33]:
family_status_debt = data[['family_status', 'debt']]

In [34]:
total_income_debt = data[['total_income', 'debt']]

total_income_max = total_income_debt['total_income'].max()
total_income_min = total_income_debt['total_income'].min()
total_income_below_average = data['total_income'].describe()['25%']
total_income_medium = data['total_income'].describe()['50%']
total_income_above_average = data['total_income'].describe()['75%']

def total_income_group(value):
    if value >= total_income_min and value < total_income_below_average:
        return 'бедные'
    elif value >= total_income_below_average and value < total_income_medium:
        return 'ниже среднего'
    elif value >= total_income_medium and value < total_income_above_average:
        return 'выше среднего'
    elif value >= total_income_above_average and value <= total_income_max:
        return 'богатые'
    return 'неопределено'
total_income_debt['total_income_group'] = total_income_debt['total_income'].apply(total_income_group)


A value is trying to be set on a copy of a slice from a DataFrame.
Try using .loc[row_indexer,col_indexer] = value instead

See the caveats in the documentation: http://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy


In [35]:
total_income_debt['total_income_group'].value_counts()

выше среднего    6317
богатые          5364
бедные           5364
ниже среднего    4409
Name: total_income_group, dtype: int64

In [36]:
purpose_debt = data[['purpose', 'debt']]

In [37]:
total_income_labels = ['Низкий', 'Ниже среднего', 'Средний', 'Выше среднего', 'Высокий']

data['income_group_rev'] = pd.qcut(data['total_income'],
                              q=[0, .2, .4, .6, .8, 1],
                              labels=total_income_labels)
data['income_group_rev'].value_counts()

Высокий          4291
Выше среднего    4291
Ниже среднего    4291
Низкий           4291
Средний          4290
Name: income_group_rev, dtype: int64

**Вывод**


В соответствии со следующими вопросами, разделились наши данныше на категории. Сравнивала по отдельности каждый столбец: 'children', 'family_status', 'total_income', 'purpose' со столбцом 'debt'. Для всех столбцов кроме 'total_income' получилось дальше найти среднее и сгруппировать по категориям, а вот для ежемесячного дохода так не вышло, поэтому для начала нашла максимальное и минимальное значение данного столбца, затем решила, что можно разделить данные на три категории, поэтому нашла шаг, далее ввела функцию с условиями и создала новый столбец куда попадут наши категории в зависимости от того какой у клиента ежемесячный доход.

## Шаг 3. Ответьте на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [38]:
children_debt.groupby(by = ['children'])['debt'].mean()

children
0.0    0.075598
1.0    0.091658
2.0    0.094542
3.0    0.081818
4.0    0.097561
5.0    0.000000
Name: debt, dtype: float64

**Вывод**

Наличие и количество детей не влияет на возврат кредита в срок. Есть аномалия, где количество детей равно 5, такие данные не учитываем из-за недостаточности даннных.

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [39]:
family_status_debt.groupby(by = ['family_status'])['debt'].mean()

family_status
в разводе                0.071130
вдовец / вдова           0.065693
гражданский брак         0.093471
женат / замужем          0.075452
не женат / не замужем    0.097509
Name: debt, dtype: float64

**Вывод**

Семейное положение не влияет на возврат кредита в срок. Разница всего пару процентов.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [40]:
total_income_debt.groupby(by = ['total_income_group'])['debt'].mean()

total_income_group
бедные           0.079605
богатые          0.071402
выше среднего    0.086433
ниже среднего    0.087321
Name: debt, dtype: float64

**Вывод**

Люди с высоким доходом чаще не возвращают кредит в срок нежели люди со средним и нижним доходом (разница практически в 2 раза).

- Как разные цели кредита влияют на его возврат в срок?

In [41]:
purpose_debt.groupby(by = ['purpose'])['debt'].mean()

purpose
автомобиль      0.093590
недвижимость    0.072334
образование     0.092200
свадьба         0.080034
Name: debt, dtype: float64

**Вывод**

Цели кредита также не особо влияют на возврат кредита в срок.

## Шаг 4. Общий вывод

**Вывод**

Общий вывод можно сделать такой: На возврат кредита в срок в основном влияет только ежемесячный доход клиента.