# Исследование надёжности заёмщиков

Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.

Результаты исследования будут учтены при построении модели **кредитного скоринга** — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.

## Шаг 1. Откройте файл с данными и изучите общую информацию

In [87]:
import pandas as pd

In [88]:
data = pd.read_csv('/datasets/data.csv')

In [89]:
pwd

'/home/jovyan/work'

In [90]:
data.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [91]:
data.tail(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
21510,2,,28,среднее,1,женат / замужем,0,F,сотрудник,0,,приобретение автомобиля
21511,0,-612.569129,29,высшее,0,гражданский брак,1,F,сотрудник,1,140068.472941,покупка жилья для сдачи
21512,0,-165.377752,26,высшее,0,Не женат / не замужем,4,M,компаньон,0,147301.457769,получение дополнительного образования
21513,0,-1166.216789,35,среднее,1,женат / замужем,0,F,сотрудник,0,250986.142309,покупка жилья
21514,0,-280.469996,27,неоконченное высшее,2,Не женат / не замужем,4,M,компаньон,0,355988.407188,строительство недвижимости
21515,1,-467.68513,28,среднее,1,женат / замужем,0,F,сотрудник,1,109486.327999,заняться образованием
21516,0,-914.391429,42,высшее,0,женат / замужем,0,F,компаньон,0,322807.776603,покупка своего жилья
21517,0,-404.679034,42,высшее,0,гражданский брак,1,F,компаньон,0,178059.553491,на покупку своего автомобиля
21518,0,373995.710838,59,СРЕДНЕЕ,1,женат / замужем,0,F,пенсионер,0,153864.650328,сделка с автомобилем
21519,1,-2351.431934,37,ученая степень,4,в разводе,3,M,сотрудник,0,115949.039788,покупка коммерческой недвижимости


Добавил метод **tail**

In [92]:
data.describe().T

Unnamed: 0,count,mean,std,min,25%,50%,75%,max
children,21525.0,0.538908,1.381587,-1.0,0.0,0.0,1.0,20.0
days_employed,19351.0,63046.497661,140827.311974,-18388.949901,-2747.423625,-1203.369529,-291.095954,401755.4
dob_years,21525.0,43.29338,12.574584,0.0,33.0,42.0,53.0,75.0
education_id,21525.0,0.817236,0.548138,0.0,1.0,1.0,1.0,4.0
family_status_id,21525.0,0.972544,1.420324,0.0,0.0,0.0,1.0,4.0
debt,21525.0,0.080883,0.272661,0.0,0.0,0.0,0.0,1.0
total_income,19351.0,167422.302208,102971.566448,20667.263793,103053.152913,145017.937533,203435.067663,2265604.0


Добавил метод **describe**

In [93]:
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

**Промежуточный вывод:** столбцы **days_employed** и **total_income** действительно содержат пропуски (NaN). Количество трдуового стажа в днях коррелирует с ежемесячным доходом. Т.е. данные из двух столбцов зависят друг от друга. Также я заметил, что тип занятости (в основном) тех, у кого в столбцах с пропусками - пенсионер. Возможные причины: пенсионный возраст, человеческий фактор при сборе датасета. **Медианным значением** резонно заполнить пропуски, т.к. требуются характерные значения, чтобы оценить состояние всей выборки.

**Вывод**

Таблица содержит пропуски, зависимость между пропусками прослеживается. Скорее всего, пропуски в столбце **total_income** отчасти сделаны неспроста, т.к. некоторые люди имеют тип занятости - пенсионер. Соответственно столбец **days_employed**, в свою очередь, тоже имеет пропуски, которые так же зависят от значенией столбца **total_income** и **income_type**.

## Шаг 2. Предобработка данных

### Обработка пропусков

Посчитаем доли пропущенных значений каждого столбца

In [94]:
days_employed_empty = data['days_employed'].isna().sum()

In [95]:
empty_values_proportion_days_employed = days_employed_empty / data.loc[:, 'days_employed'].count()

In [96]:
print("Доля пропущенных значений в столбце 'days_employed' составляет:, {:.2%}".format(empty_values_proportion_days_employed))

Доля пропущенных значений в столбце 'days_employed' составляет:, 11.23%


In [97]:
ser = data.isna().sum()
index = ser.index
for index, value in ser.items():
    if value != 0:
        print(index)

days_employed
total_income


In [98]:
index

'purpose'

In [99]:
data.shape[0]

21525

In [100]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [101]:
def empty_values_counter(dataset):
    empty_values = dataset.isna().sum()
    index = empty_values.index
    for index, empty_value in empty_values.items():
        if empty_value != 0:
            empty_percent = empty_value / dataset.shape[0]
            print("Количество пропусков в столбце {} составляет: {:.2%}".format(index, empty_percent))

In [102]:
empty_values_counter(data)

Количество пропусков в столбце days_employed составляет: 10.10%
Количество пропусков в столбце total_income составляет: 10.10%


Пока писал функцию, нашел ошибку по подсчету процентов пропусков в каждом столбце (метод **data.loc[:, 'days_employed'].count()**, выводил количество строк без пропусков, т.е 19351). Поэтому в функции поправил, добавив **dataset.shape[0]**

In [103]:
total_income = data['total_income'].isna().sum()

In [104]:
empty_values_proportion_total_income = total_income / data.loc[:, 'days_employed'].count()

In [105]:
print("Доля пропущенных значений в столбце 'days_employed' составляет: {:.2%}".format(empty_values_proportion_total_income))

Доля пропущенных значений в столбце 'days_employed' составляет: 11.23%


In [106]:
# В столбце total_income заполним пропуски медианным значением.
median_values_total_income = data['total_income'].median()

In [107]:
data['total_income'] = data['total_income'].fillna(median_values_total_income)

In [108]:
data.head(60)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Вывод**

В столбце days_employed остались отрицательные значения, которые нужно отфильтровать. После заполнения пропусков в столбце **total_income** данные приняли понятный облик. Далее заполню пропуски в столбце **days_employed** медианным значением и отфильтрую отрицательные значения.

### Замена типа данных

In [109]:
range(len(data['days_employed']))

range(0, 21525)

In [110]:
for i in range(len(data['days_employed'])):
    if data['days_employed'][i] < 0:
        data['days_employed'][i] *= -1
print(data['days_employed'])

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['days_employed'][i] *= -1


0          8437.673028
1          4024.803754
2          5623.422610
3          4124.747207
4        340266.072047
             ...      
21520      4529.316663
21521    343937.404131
21522      2113.346888
21523      3112.481705
21524      1984.507589
Name: days_employed, Length: 21525, dtype: float64


Добавил цикл с функцией **abs()**

In [111]:
for i in range(len(data['days_employed'])):
    data['days_employed'][i] = abs(data['days_employed'][i])
print(data['days_employed'])

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['days_employed'][i] = abs(data['days_employed'][i])


0          8437.673028
1          4024.803754
2          5623.422610
3          4124.747207
4        340266.072047
             ...      
21520      4529.316663
21521    343937.404131
21522      2113.346888
21523      3112.481705
21524      1984.507589
Name: days_employed, Length: 21525, dtype: float64


Исправил, сделал abs в apply()

In [112]:
data['days_employed'].apply(abs)

0          8437.673028
1          4024.803754
2          5623.422610
3          4124.747207
4        340266.072047
             ...      
21520      4529.316663
21521    343937.404131
21522      2113.346888
21523      3112.481705
21524      1984.507589
Name: days_employed, Length: 21525, dtype: float64

In [113]:
data.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Добавил медианное значение в столбец **days_employed**

In [114]:
median_values_days_employed = data['days_employed'].median()

In [115]:
data['days_employed'] = data['days_employed'].fillna(median_values_days_employed)

In [116]:
data.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [117]:
data.loc[data['days_employed'] > 10000, 'days_employed'] = data['days_employed'] / 100

In [118]:
data['days_employed'] = data['days_employed'].astype('int')

In [119]:
data.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,3402,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,152,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,6929,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Вывод**

Заменил данные с вещественного типа на целочисленный.

### Обработка дубликатов

In [120]:
data['education'].value_counts()

среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
УЧЕНАЯ СТЕПЕНЬ             1
Ученая степень             1
Name: education, dtype: int64

In [121]:
data.duplicated().sum()

54

In [122]:
data.drop_duplicates().reset_index(drop=True)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,3402,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21466,1,4529,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21467,0,3439,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21468,1,2113,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21469,3,3112,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


In [123]:
data['education'].duplicated().sum()

21510

In [124]:
data['education'].unique()

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

In [125]:
data['gender'].unique()

array(['F', 'M', 'XNA'], dtype=object)

In [126]:
data['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

In [127]:
childrens_bad = [-1, 20]
childrens_good = [0, 5]

In [128]:
data['children'] = data['children'].replace(childrens_bad, childrens_good)

In [129]:
data['children'].value_counts()

0    14196
1     4818
2     2055
3      330
5       85
4       41
Name: children, dtype: int64

In [130]:
data['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем'], dtype=object)

In [131]:
data['family_status'] = data['family_status'].replace('Не женат / не замужем', 'не женат / не замужем')

In [132]:
data['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'не женат / не замужем'], dtype=object)

In [134]:
data[data['gender'] == 'XNA']

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10701,0,2358,24,неоконченное высшее,2,гражданский брак,1,XNA,компаньон,0,203905.157261,покупка недвижимости


In [135]:
data.drop(index=[10701], axis=0, inplace=True)

In [136]:
data.loc[10699:10703]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
10699,0,5777,53,среднее,1,не женат / не замужем,4,F,сотрудник,0,153948.641711,покупка недвижимости
10700,1,512,37,высшее,0,женат / замужем,0,F,компаньон,0,174396.822139,ремонт жилью
10702,0,3886,60,среднее,1,гражданский брак,1,F,пенсионер,0,108125.202905,свадьба
10703,0,3619,35,среднее,1,женат / замужем,0,F,сотрудник,0,89817.943638,получение образования


In [137]:
duplicates_medium = ['Среднее', 'СРЕДНЕЕ', 'Неоконченное высшее']

In [138]:
duplicates_beginner = ['НАЧАЛЬНОЕ', 'Начальное']

In [139]:
duplicates_qual_high = ['ВЫСШЕЕ', 'Высшее']

In [140]:
duplicates_high = ['НЕОКОНЧЕННОЕ ВЫСШЕЕ']

In [141]:
duplicates_science = ['Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ']

In [142]:
name_medium = 'среднее'

In [143]:
name_qual_higher = 'высшее'

In [144]:
name_higher = 'неоконченное высшее'

In [145]:
name_beginner = 'начальное'

In [146]:
name_science = 'ученая степень'

In [147]:
 data['education'] = data['education'].replace(duplicates_medium, name_medium)

In [148]:
 data['education'] = data['education'].replace(duplicates_qual_high, name_qual_higher)

In [149]:
 data['education'] = data['education'].replace(duplicates_high, name_higher)

In [150]:
 data['education'] = data['education'].replace(duplicates_beginner, name_beginner)

In [151]:
 data['education'] = data['education'].replace(duplicates_science, name_science)

In [152]:
data.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,3402,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [153]:
data['education'].unique()

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

**Вывод**

Дубликаты удалены. Использовал методы **unique()** и **drop_duplicates()** для проверки и удаления дубликатов. Дубликаты появились, скорее всего, в следствие человеческого фактора.

### Лемматизация

In [154]:
family_status = data[['family_status_id', 'family_status']]
type(family_status)

pandas.core.frame.DataFrame

In [155]:
educations = data[['education_id', 'education']]
type(educations)

pandas.core.frame.DataFrame

Поправил вывод: ошибся в функции **type()** - использовал не то название переменной.

**Вывод**

Создал два датафрейма с идентификаторами, по которым можно обращаться к значениям.

### Категоризация данных

In [156]:
def total_income_group(num):
    if num >= 0 and num <= 30000:
        return 'E'
    if num >=30001 and num <= 50000:
        return 'D'
    if num >= 50001 and num <= 200000:
        return 'C'
    if num >= 200001 and num <= 1000000:
        return 'B'
    if num >= 1000001:
        return 'A'

In [157]:
total_income_group(100000)

'C'

In [158]:
data['total_income_group'] = data['total_income'].apply(total_income_group)

In [159]:
data.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_group
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья,B
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля,C
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья,C
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование,B
4,0,3402,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу,C
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья,B
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем,B
7,0,152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование,C
8,2,6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы,C
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи,C


In [160]:
def purpose(word):
    try:
        if 'свадьбы' in word:
            return 'проведение свадьбы'
        if 'свадьбу' in word:
            return 'проведение свадьбы'
        if 'недвижимости' in word:
            return 'операции с недвижимостью'
        if 'жилья' in word:
            return 'операции с недвижимостью'
        if 'жильем' in word:
            return 'операции с недвижимостью'
        if 'образование' in word:
            return 'получение образования'
        if 'автомобиля' in word:
            return 'операции с автомобилем'
    except:
        print('Слово не опрделено, проверьте правильность написания.')

Добавил блок **try...except**

In [161]:
purpose('свадьбы')

'проведение свадьбы'

In [162]:
data['purpose_category'] = data['purpose'].apply(purpose)

In [163]:
data.head(15)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_group,purpose_category
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья,B,операции с недвижимостью
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля,C,операции с автомобилем
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья,C,операции с недвижимостью
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование,B,получение образования
4,0,3402,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу,C,проведение свадьбы
5,0,926,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья,B,операции с недвижимостью
6,0,2879,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем,B,операции с недвижимостью
7,0,152,50,среднее,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование,C,получение образования
8,2,6929,35,высшее,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы,C,проведение свадьбы
9,0,2188,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи,C,операции с недвижимостью


**Вывод**

Провел категоризацию данных, разделили на различные группы по признакам.

## Шаг 3. Ответьте на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?

In [164]:
children = pd.DataFrame()
children['count_children'] = data.groupby('children')['debt'].count()
children['sum_children'] = data.groupby('children')['debt'].sum()
children['result_children'] = children['sum_children'] / children['count_children'] 
children.sort_values('result_children', ascending = False)

Unnamed: 0_level_0,count_children,sum_children,result_children
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
4,41,4,0.097561
2,2055,194,0.094404
5,85,8,0.094118
1,4818,444,0.092154
3,330,27,0.081818
0,14195,1064,0.074956


**Вывод**

Чем больше количество детей, тем больше количество просроченных задолженностей. Люди с тремя детьми выплачивают чаще, чем люди с одним ребенком.

- Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [165]:
family_status = pd.DataFrame()
family_status['sum_family_status'] = data.groupby('family_status')['debt'].sum()
family_status['count_family_status'] = data.groupby('family_status')['debt'].count()
family_status['result_family_status'] = family_status['sum_family_status'] / family_status['count_family_status'] 
family_status.sort_values('result_family_status', ascending = False)

Unnamed: 0_level_0,sum_family_status,count_family_status,result_family_status
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
не женат / не замужем,274,2813,0.097405
гражданский брак,388,4176,0.092912
женат / замужем,931,12380,0.075202
в разводе,85,1195,0.07113
вдовец / вдова,63,960,0.065625


**Вывод**

Люди, которые не были в браке чаще имеют задолженность по кредитам.

- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [166]:
def total_income_category(value):
    if value >= 500000:
        return 10
    else:
        value = value // 50000
        return value
data['total_income_id'] = data['total_income'].apply(total_income_category)
data['total_income_id'].value_counts()
total_income = pd.DataFrame()
total_income['sum'] = data.groupby('total_income_id')['debt'].sum()
total_income['count'] = data.groupby('total_income_id')['debt'].count()
total_income['conversion'] = total_income['sum'] / total_income['count']
total_income.sort_values('conversion', ascending = False)

Unnamed: 0_level_0,sum,count,conversion
total_income_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
3.0,368,4118,0.089364
2.0,661,7878,0.083905
6.0,51,624,0.081731
1.0,331,4091,0.080909
4.0,164,2253,0.072792
7.0,24,330,0.072727
8.0,13,196,0.066327
5.0,88,1330,0.066165
10.0,14,222,0.063063
0.0,23,372,0.061828


 **Вывод**
 
 В данном случае зависимости не наблюдается.

- Как разные цели кредита влияют на его возврат в срок?

In [167]:
purpose_category = pd.DataFrame()
purpose_category['sum_purpose_category'] = data.groupby('purpose_category')['debt'].sum()
purpose_category['count_purpose_category'] = data.groupby('purpose_category')['debt'].count()
purpose_category['result_purpose_category'] = purpose_category['sum_purpose_category'] / purpose_category['count_purpose_category'] 
purpose_category.sort_values('result_purpose_category', ascending = False)

Unnamed: 0_level_0,sum_purpose_category,count_purpose_category,result_purpose_category
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с автомобилем,168,1918,0.087591
получение образования,236,2706,0.087214
проведение свадьбы,122,1551,0.078659
операции с недвижимостью,502,6989,0.071827


**Вывод**

Автомобиль и образование имеют наивысший риск просрачивания. Наименьшее - операция с недвижимостью.

## Шаг 4. Общий вывод

Общий вывод: семейный статус действительно влияет на вероятность платежей по кредиту в срок - люди, которые были в браке чаще плятят в срок чем те, кто не бывали в браке, причем разведенные и овдовевшие платят в срок чаще, чем люди в браке. Чем больше детей, тем чаще платят не в срок, люди, не имеющие детей, реже просрачивают оплату.

## Чек-лист готовности проекта

Поставьте 'x' в выполненных пунктах. Далее нажмите Shift+Enter.

- [x]  открыт файл;
- [x]  файл изучен;
- [x]  определены пропущенные значения;
- [x]  заполнены пропущенные значения;
- [x]  есть пояснение, какие пропущенные значения обнаружены;
- [x]  описаны возможные причины появления пропусков в данных;
- [x]  объяснено, по какому принципу заполнены пропуски;
- [x]  заменен вещественный тип данных на целочисленный;
- [x]  есть пояснение, какой метод используется для изменения типа данных и почему;
- [x]  удалены дубликаты;
- [x]  есть пояснение, какой метод используется для поиска и удаления дубликатов;
- [x]  описаны возможные причины появления дубликатов в данных;
- [x]  выделены леммы в значениях столбца с целями получения кредита;
- [x]  описан процесс лемматизации;
- [x]  данные категоризированы;
- [x]  есть объяснение принципа категоризации данных;
- [x]  есть ответ на вопрос: "Есть ли зависимость между наличием детей и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Есть ли зависимость между семейным положением и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Есть ли зависимость между уровнем дохода и возвратом кредита в срок?";
- [x]  есть ответ на вопрос: "Как разные цели кредита влияют на его возврат в срок?";
- [x]  в каждом этапе есть выводы;
- [x]  есть общий вывод.