# Задачи исследования
## 1. Осмотр данных
        - посмотрим начало
        - сделаем предварительные выводы
        - поищем аномалии


## 2. Обработка данных
        - найти и обработать пропуски
        - заменить некорректные типы данных
        - удалить дубликаты
        - выделить леммы


## 3. Ответы на вопросы
        - Есть ли зависимость между наличием детей и возвратом кредита в срок?
        - Есть ли зависимость между семейным положением и возвратом кредита в срок?
        - Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
        - Как разные цели кредита влияют на его возврат в срок?


##  4. Результаты исследования
        - Общие выводы
        - Рекомендации

In [1]:
import pandas as pd
import numpy as np

In [2]:
data = pd.read_csv('credit_children.csv')
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Описание датасета (данные о клиентах банка)

    1) children — количество детей в семье
    2) days_employed — общий трудовой стаж в днях
    3) dob_years — возраст клиента в годах
    4) education — уровень образования клиента
    5) education_id — идентификатор уровня образования
    6) family_status — семейное положение
    7) family_status_id — идентификатор семейного положения
    8) gender — пол клиента
    9) income_type — тип занятости
    10) debt — имел ли задолженность по возврату кредитов
    11) total_income — доход
    12) purpose — цель получения кредита

# 1. Осмотр данных


    - сделаем предварительные выводы
    - поищем аномалии

In [3]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [4]:
data.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


In [5]:
# Выведем уникальные значения по каждому столбцу для простоты анализа представленных данных 

for column_name in data.drop(['days_employed','total_income'], axis = 1):
    print(column_name)
    print(data[column_name].unique())

children
[ 1  0  3  2 -1  4 20  5]
dob_years
[42 36 33 32 53 27 43 50 35 41 40 65 54 56 26 48 24 21 57 67 28 63 62 47
 34 68 25 31 30 20 49 37 45 61 64 44 52 46 23 38 39 51  0 59 29 60 55 58
 71 22 73 66 69 19 72 70 74 75]
education
['высшее' 'среднее' 'Среднее' 'СРЕДНЕЕ' 'ВЫСШЕЕ' 'неоконченное высшее'
 'начальное' 'Высшее' 'НЕОКОНЧЕННОЕ ВЫСШЕЕ' 'Неоконченное высшее'
 'НАЧАЛЬНОЕ' 'Начальное' 'Ученая степень' 'УЧЕНАЯ СТЕПЕНЬ'
 'ученая степень']
education_id
[0 1 2 3 4]
family_status
['женат / замужем' 'гражданский брак' 'вдовец / вдова' 'в разводе'
 'Не женат / не замужем']
family_status_id
[0 1 2 3 4]
gender
['F' 'M' 'XNA']
income_type
['сотрудник' 'пенсионер' 'компаньон' 'госслужащий' 'безработный'
 'предприниматель' 'студент' 'в декрете']
debt
[0 1]
purpose
['покупка жилья' 'приобретение автомобиля' 'дополнительное образование'
 'сыграть свадьбу' 'операции с жильем' 'образование'
 'на проведение свадьбы' 'покупка жилья для семьи' 'покупка недвижимости'
 'покупка коммерческой недвижим

Вывод по проблемным областям представленных данных на основе метода info(), unique() и describe()  :

    1) Есть пустые значения в 1, 10 колонках
    2) Есть колонки с значениями object - позже надо выявить проблемные места там (например регистр/ошибки в орфографии и тд.)
    3) В колонкеп children (количество детей у клиента) - есть отрицательное значение -1
    4) Отрицательные значения в колонке days_employed (трудовой стаж)
    5) Максимальнрое значение в колонке days_employed (трудовой стаж) - 401 755 дней (что невозможно)
    6) Непонятное обозначение family_status_id (какой статус какая цифра заменяет )
    7) В колонке dob_years (возраст клиента) - есть значение 0
    8) Есть колонки (признаки), которые по сути повторяют друг друга (Например: family_status - family_status_id и т.д.)
    9) Неудобные данные total_income (плавающая запятая, а также не понятна валюта этих значений)
    10) Не очень удобное обозначепние стажа (дни), можно пекревести в года (т.к. тяжело быстро оценить длинные цифры)
    11) Не удобно воспринимать английский в названиях столбцов ( есть слова которые переводятся по разному в зависимости от контекста(или от представыленных значений)) Например income_type (income - доход) income_type - тип занятости

# 2. Обработка данных

        - найти и обработать пропуски
        - заменить некорректные типы данных
        - удалить дубликаты
        - выделить леммы
        - поменять названия столбцов (моя правка)


In [6]:
# найти и обработать пропуски

data.isnull().sum()


children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Видим одинаковое количество пустых значений (возможно они совпадают). 

Причины их отсутствия:

   1) Нет стажа в силу возраста
   2) Нет стажа в силу неофициального трудоустройства (самозанятые и тд.)
   3) Некорректные данные

In [7]:
# Заполним отсутствующие данные нулями (не корректно заполнять медианным или средим значением)
# т.к. мы намеренно сделаем данные некорректными (присутствие дохода - повышает шанс взятия кредита)

data = data.fillna(0)
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [8]:
# Наличие дубликатов проверим в самом конце после скорректирования всех остальных проблем
'''
Начнем обрабатывать каждый столбец
'''

# children

data['children'].unique()   # -1 и 20 детей врятли возможны. -1 перепишем в 1

array([ 1,  0,  3,  2, -1,  4, 20,  5], dtype=int64)

In [9]:
data['children'] = data['children'].replace(-1,1)
data[data['children'] == -1]['children'].count()    # проверка 

0

In [10]:
# Посмотрим на данные клиентов с 20 детьми ( и проверим ошибка ли это )

data[data['children'] == 20]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
606,20,-880.221113,21,среднее,1,женат / замужем,0,M,компаньон,0,145334.865002,покупка жилья
720,20,-855.595512,44,среднее,1,женат / замужем,0,F,компаньон,0,112998.738649,покупка недвижимости
1074,20,-3310.411598,56,среднее,1,женат / замужем,0,F,сотрудник,1,229518.537004,получение образования
2510,20,-2714.161249,59,высшее,0,вдовец / вдова,2,F,сотрудник,0,264474.835577,операции с коммерческой недвижимостью
2941,20,-2161.591519,0,среднее,1,женат / замужем,0,F,сотрудник,0,199739.941398,на покупку автомобиля
...,...,...,...,...,...,...,...,...,...,...,...,...
21008,20,-1240.257910,40,среднее,1,женат / замужем,0,F,сотрудник,1,133524.010303,свой автомобиль
21325,20,-601.174883,37,среднее,1,женат / замужем,0,F,компаньон,0,102986.065978,профильное образование
21390,20,0.000000,53,среднее,1,женат / замужем,0,M,компаньон,0,0.000000,покупка жилой недвижимости
21404,20,-494.788448,52,среднее,1,женат / замужем,0,M,компаньон,0,156629.683642,операции со своей недвижимостью


In [11]:
# видим, что есть довольно молодые клиенты с 20 детьми (посмотрим сколько таких из 76)

len(data[(data['children'] == 20) & (data['dob_years'] <= 30)])

13

In [12]:
# оценим также количество клиентов с разным количесвтом детей

data['children'].value_counts()

0     14149
1      4865
2      2055
3       330
20       76
4        41
5         9
Name: children, dtype: int64

Видим, что клиенты с 20 детьми в небольшом количестве (76) и 13 из них в возрасте до 30 
(врятли в таком возрасте можно иметь 20 детей), говорим, что это ошибка и меняем число на 2

In [13]:
data['children'] = data['children'].replace(20,2)
data['children'].unique()   # проверка

array([1, 0, 3, 2, 4, 5], dtype=int64)

In [14]:
# исправляем ошибки в столбце трудовой стаж (days_employed)

data['days_employed'].describe()

count     21525.000000
mean      56678.874622
std      134870.763085
min      -18388.949901
25%       -2518.168900
50%        -982.531720
75%           0.000000
max      401755.400475
Name: days_employed, dtype: float64

In [15]:
# с 0 дней стаже мы определились (возможно самозанятые и тд.), 
# также помним о слишком больших цифрах трудового стажа, но пока основная проблема - отрицательные числа (возьмем их по модулю)

data['days_employed'] = data['days_employed'].abs()
data['days_employed'].describe() # проверка

count     21525.000000
mean      60156.419005
std      133355.929525
min           0.000000
25%         610.652074
50%        1808.053434
75%        4779.587738
max      401755.400475
Name: days_employed, dtype: float64

In [16]:
# чтобы решить проблему черезмерно большого стажа - нужно сделать отсев
# Возьмем за точку отсчета самого старшего из клиентов и предположим, что он 
# работал с 16 лет ( по законодательству СССР ) и посмотрим долю клиентов выше этого значения

chislo_otseva = (data['dob_years'].max() - 16)*365
chislo_otseva

21535

In [17]:
( len(data[data['days_employed'] >= chislo_otseva]) / len(data) ) * 100     # 16 процетов клиентов с аномальным значением стажа

16.004645760743323

In [18]:
# посмотрим на этих клиентов и оценим, почему такие цифры могли получиться

data_anomaliya_stag = data[data['days_employed'] >= chislo_otseva]
data_anomaliya_stag

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
18,0,400281.136913,53,среднее,1,вдовец / вдова,2,F,пенсионер,0,56823.777243,на покупку подержанного автомобиля
24,1,338551.952911,57,среднее,1,Не женат / не замужем,4,F,пенсионер,0,290547.235997,операции с коммерческой недвижимостью
25,0,363548.489348,67,среднее,1,женат / замужем,0,M,пенсионер,0,55112.757732,покупка недвижимости
30,1,335581.668515,62,среднее,1,женат / замужем,0,F,пенсионер,0,171456.067993,операции с коммерческой недвижимостью
...,...,...,...,...,...,...,...,...,...,...,...,...
21505,0,338904.866406,53,среднее,1,гражданский брак,1,M,пенсионер,0,75439.993167,сыграть свадьбу
21508,0,386497.714078,62,среднее,1,женат / замужем,0,M,пенсионер,0,72638.590915,недвижимость
21509,0,362161.054124,59,высшее,0,женат / замужем,0,M,пенсионер,0,73029.059379,операции с недвижимостью
21518,0,373995.710838,59,СРЕДНЕЕ,1,женат / замужем,0,F,пенсионер,0,153864.650328,сделка с автомобилем


In [19]:
data_anomaliya_stag.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,3445.0,3445.0,3445.0,3445.0,3445.0,3445.0,3445.0
mean,0.095791,365004.309916,59.124819,0.914659,0.984325,0.05283,137124.105624
std,0.3384,21075.016396,7.580584,0.517103,1.316071,0.223727,80242.210917
min,0.0,328728.720605,0.0,0.0,0.0,0.0,20667.263793
25%,0.0,346639.413916,56.0,1.0,0.0,0.0,82876.335652
50%,0.0,365213.306266,60.0,1.0,0.0,0.0,118514.486412
75%,0.0,383246.444219,64.0,1.0,2.0,0.0,169746.263276
max,4.0,401755.400475,74.0,4.0,4.0,1.0,735103.270167


In [20]:
data_anomaliya_stag['income_type'].value_counts()   # ничего необычного, кроме аномального стажа в этих клиетах нет, кроме того, что подавляющее количесвто из них - пенсионеры
                                                    # делаем вывод, что это ошибка системы ( причем всего пенсионеров в датасете - 3856 (см. ниже ))
                                                    # видимо пенсионеры неправильно вводят цифры стажа на сайте (хотя я не знаю как собираются эти данные, 
                                                    # может 3856-3443 = 413 (пришли в банк и им заполнили все сотрудники банка), а остальные заполняли на сайте)
                                                    # В любом случае - делаем вывод ошибки в числах стажа в большинстве случаев у пенсионеров - причину назвать трудо

пенсионер      3443
безработный       2
Name: income_type, dtype: int64

In [21]:
len(data[data['income_type'] == 'пенсионер'])   

3856

In [22]:
# так как клиентов с аномальным стажем довольно много (16 %), а некорректные данные нехотелось бы оставлять - заменим цифры стажа на максимальный 
# как-будто они работали с 16 лет

(data_anomaliya_stag['dob_years'] - 16)*365

4        13505
18       13505
24       14965
25       18615
30       16790
         ...  
21505    13505
21508    16790
21509    15695
21518    15695
21521    18615
Name: dob_years, Length: 3445, dtype: int64

In [23]:
data['days_employed'][data_anomaliya_stag.index] = (data_anomaliya_stag['dob_years'] - 16)*365
data

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['days_employed'][data_anomaliya_stag.index] = (data_anomaliya_stag['dob_years'] - 16)*365


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,13505.000000,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,18615.000000,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


In [24]:
#   надо помнить, что среди аномальных - были и безработные, а значит из-за математики мы им дали отрицательный стаж

data[data['days_employed']<0]

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
99,0,-5840.0,0,Среднее,1,женат / замужем,0,F,пенсионер,0,71291.522491,автомобиль
578,0,-5840.0,0,среднее,1,женат / замужем,0,F,пенсионер,0,97620.687042,строительство собственной недвижимости
1175,0,-5840.0,0,среднее,1,женат / замужем,0,F,пенсионер,0,313949.845188,получение дополнительного образования
1898,0,-5840.0,0,среднее,1,вдовец / вдова,2,F,пенсионер,0,127400.268338,на покупку автомобиля
4922,0,-5840.0,0,высшее,0,вдовец / вдова,2,F,пенсионер,1,183556.355624,свой автомобиль
7034,0,-5840.0,0,высшее,0,Не женат / не замужем,4,F,пенсионер,0,263121.074528,образование
8061,0,-5840.0,0,высшее,0,Не женат / не замужем,4,F,пенсионер,0,61804.271999,высшее образование
10188,0,-5840.0,0,среднее,1,женат / замужем,0,M,пенсионер,0,102621.701671,операции с недвижимостью
12062,0,-5840.0,0,среднее,1,женат / замужем,0,F,пенсионер,0,206718.981389,покупка жилья
12729,0,-5840.0,0,среднее,1,вдовец / вдова,2,F,пенсионер,0,54815.744162,образование


In [25]:
# снова занулим эти данные

data['days_employed'][data[data['days_employed']<0].index] = 0

A value is trying to be set on a copy of a slice from a DataFrame

See the caveats in the documentation: https://pandas.pydata.org/pandas-docs/stable/user_guide/indexing.html#returning-a-view-versus-a-copy
  data['days_employed'][data[data['days_employed']<0].index] = 0


In [26]:
# заменим столбец с днями стажа на года стажа ( это число проще воспринимать для анализа)

data['years_employed'] = (data['days_employed']/365).astype(int)
data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья,23
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля,11
2,0,5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья,15
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование,11
4,0,13505.000000,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу,37
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем,12
21521,0,18615.000000,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем,51
21522,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость,5
21523,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля,8


In [27]:
# удалим столбец с днями стажа

data = data.drop('days_employed', axis = 1)
data

Unnamed: 0,children,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed
0,1,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья,23
1,1,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля,11
2,0,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья,15
3,3,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование,11
4,0,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу,37
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем,12
21521,0,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем,51
21522,1,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость,5
21523,3,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля,8


In [28]:
# следующий стобец на рассмотрении - возраст клиента (dob_years)

data[data['dob_years']<18]['dob_years'].unique()  # видим, что есть возраст 0 (при взятии кредита необходимо быть совершеннолетним)

array([0], dtype=int64)

In [29]:
data[data['dob_years']<18]      # видим что среди них есть и пенсионеры и команьоны и сотрудниуи - т.е. либо возраст просто не указан либо ошибка системы,
                                # на дальнейший анализ эта некорректность не должна повлиять (в любом случае эти клиенты берут кредит и по возрасту они обязаны подходить)

Unnamed: 0,children,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed
99,0,0,Среднее,1,женат / замужем,0,F,пенсионер,0,71291.522491,автомобиль,0
149,0,0,среднее,1,в разводе,3,F,сотрудник,0,70176.435951,операции с жильем,7
270,3,0,среднее,1,женат / замужем,0,F,сотрудник,0,102166.458894,ремонт жилью,5
578,0,0,среднее,1,женат / замужем,0,F,пенсионер,0,97620.687042,строительство собственной недвижимости,0
1040,0,0,высшее,0,в разводе,3,F,компаньон,0,303994.134987,свой автомобиль,3
...,...,...,...,...,...,...,...,...,...,...,...,...
19829,0,0,среднее,1,женат / замужем,0,F,сотрудник,0,0.000000,жилье,0
20462,0,0,среднее,1,женат / замужем,0,F,пенсионер,0,259193.920299,покупка своего жилья,0
20577,0,0,среднее,1,Не женат / не замужем,4,F,пенсионер,0,129788.762899,недвижимость,0
21179,2,0,высшее,0,женат / замужем,0,M,компаньон,0,240702.007382,строительство жилой недвижимости,0


In [30]:
# Рассмотрим образование ( education )

data['education'].unique()  # необходимо все строковые данные перевести в нижний регистр

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

In [31]:
data['education'] = data['education'].str.lower()
data['education'].unique()      # проверка

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

In [32]:
# Выясним какая цифра в признаке education_id какому образованю отвечает ( для большего понимания данных )\

data_education = data[['education', 'education_id']]
data_education

Unnamed: 0,education,education_id
0,высшее,0
1,среднее,1
2,среднее,1
3,среднее,1
4,среднее,1
...,...,...
21520,среднее,1
21521,среднее,1
21522,среднее,1
21523,среднее,1


In [33]:
spisok_education_id = {}

for i in data_education['education'].unique():
    id = data_education[data_education['education'] == i]['education_id'].iloc[0]
    spisok_education_id[i] = id

spisok_education_id

{'высшее': 0,
 'среднее': 1,
 'неоконченное высшее': 2,
 'начальное': 3,
 'ученая степень': 4}

In [34]:
# разберемся с признаком семейный статус

data['family_status'].unique()  # видим, что необходим все привести в нижний регистр

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем'], dtype=object)

In [35]:
data['family_status'] = data['family_status'].str.lower()
data['family_status'].unique()  # проверка

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'не женат / не замужем'], dtype=object)

In [36]:
# Разберемся с ID семейного статуса

spisok_family_id = {}

for i in data['family_status'].unique():
    id = data[data['family_status'] == i]['family_status_id'].iloc[0]
    spisok_family_id[i] = id

spisok_family_id

{'женат / замужем': 0,
 'гражданский брак': 1,
 'вдовец / вдова': 2,
 'в разводе': 3,
 'не женат / не замужем': 4}

In [37]:
# Разбираемся с полом

data['gender'].unique() # есть непонятный пол

array(['F', 'M', 'XNA'], dtype=object)

In [38]:
data[data['gender'] == 'XNA']   # видим, что запись единственная ( пока оставим, но так как эта запись единственная, то можно и удалить )

Unnamed: 0,children,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed
10701,0,24,неоконченное высшее,2,гражданский брак,1,XNA,компаньон,0,203905.157261,покупка недвижимости,6


In [39]:
# Разбираемся с типом занятости

data['income_type'].unique()    # все в нижнем регистре - нас это устраивает

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

In [40]:
# Разбираемся с долгами по кредитам

data['debt'].unique()   # Здесь все понятно: 0 - нет долгов, 1 - есть

array([0, 1], dtype=int64)

In [41]:
# Рассмотрим признак доход

data['total_income']    # такие числа трудно воспринимать, поэтому окуглим математически (ценность таких точных данных по доходам пренебрежимо мала)

0        253875.639453
1        112080.014102
2        145885.952297
3        267628.550329
4        158616.077870
             ...      
21520    224791.862382
21521    155999.806512
21522     89672.561153
21523    244093.050500
21524     82047.418899
Name: total_income, Length: 21525, dtype: float64

In [42]:
def okruglenie(chislo):         # напишем функцию мат. округления
    return int(chislo + 0.5)


data['total_income'] = data['total_income'].map(okruglenie)
data['total_income']    # проверка
                        # важно помнить, что мы не понимаем что это задохо ( в месмяц или в год или в неделю, и в какой валюте измеряется )

0        253876
1        112080
2        145886
3        267629
4        158616
          ...  
21520    224792
21521    156000
21522     89673
21523    244093
21524     82047
Name: total_income, Length: 21525, dtype: int64

In [43]:
# Разбираемся с целью кредитования 

data['purpose'].unique()        # видим довольно много позиций, посмотрим количесво клиентов по каждой из позиций 

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

In [44]:
data.groupby('purpose')['purpose'].count()

purpose
автомобили                                478
автомобиль                                495
высшее образование                        453
дополнительное образование                462
жилье                                     647
заняться высшим образованием              496
заняться образованием                     412
на покупку автомобиля                     472
на покупку подержанного автомобиля        479
на покупку своего автомобиля              505
на проведение свадьбы                     777
недвижимость                              634
образование                               447
операции с жильем                         653
операции с коммерческой недвижимостью     651
операции с недвижимостью                  676
операции со своей недвижимостью           630
покупка жилой недвижимости                607
покупка жилья                             647
покупка жилья для сдачи                   653
покупка жилья для семьи                   641
покупка коммерческой недви

In [45]:
spisok_purpose = data['purpose'].unique().tolist()

spisok_unique_purpose_1 = pd.Series(' '.join(spisok_purpose).split(' ')).unique()    
spisok_unique_purpose_1 

array(['покупка', 'жилья', 'приобретение', 'автомобиля', 'дополнительное',
       'образование', 'сыграть', 'свадьбу', 'операции', 'с', 'жильем',
       'на', 'проведение', 'свадьбы', 'для', 'семьи', 'недвижимости',
       'коммерческой', 'жилой', 'строительство', 'собственной',
       'недвижимость', 'покупку', 'подержанного', 'своего',
       'недвижимостью', 'жилье', 'со', 'своей', 'автомобили', 'заняться',
       'образованием', 'сделка', 'подержанным', 'автомобилем',
       'получение', 'образования', 'автомобиль', 'свадьба',
       'дополнительного', 'высшего', 'свой', 'профильное', 'высшее',
       'сдачи', 'ремонт', 'жилью', 'высшим'], dtype=object)

In [46]:
from nltk.stem.snowball import SnowballStemmer

snow_stemmer = SnowballStemmer('russian')
snowball_spisok = [snow_stemmer.stem(word) for word in spisok_unique_purpose_1]
pd.Series(snowball_spisok).unique()

array(['покупк', 'жил', 'приобретен', 'автомобил', 'дополнительн',
       'образован', 'сыгра', 'свадьб', 'операц', 'с', 'на', 'проведен',
       'для', 'сем', 'недвижим', 'коммерческ', 'строительств', 'собствен',
       'подержа', 'сво', 'со', 'автомоб', 'заня', 'сделк', 'получен',
       'высш', 'профильн', 'сдач', 'ремонт'], dtype=object)

Понимаем, что есть несколько основных видов кредитования:

        1) недвижимость/жилье
        2) автомобиль
        3) образование
        4) свадьба


Создадим новый признак в нашем датасете - ключевая цель кредитования

In [47]:
spisok_kornevih_slov = {'недвиж':'недвижимость', 'жил':'недвижимость', 'авто':'автомобиль', 'образ':'образование', 'свад':'свадьба'}   # создадим словарь корневых слов (в виде ключей) 
                                                                                                                                       # и их замен ( значения )

new_purpose = []

for i in data['purpose']:
    for index, value in spisok_kornevih_slov.items():
        if index in i:
            new_purpose.append(value)
            break   # есть две одинаковые замены (недвижмость, жилье - недвижимость)
        
new_purpose     # проверка


['недвижимость',
 'автомобиль',
 'недвижимость',
 'образование',
 'свадьба',
 'недвижимость',
 'недвижимость',
 'образование',
 'свадьба',
 'недвижимость',
 'недвижимость',
 'недвижимость',
 'свадьба',
 'автомобиль',
 'недвижимость',
 'недвижимость',
 'недвижимость',
 'недвижимость',
 'автомобиль',
 'автомобиль',
 'недвижимость',
 'автомобиль',
 'автомобиль',
 'свадьба',
 'недвижимость',
 'недвижимость',
 'образование',
 'недвижимость',
 'недвижимость',
 'недвижимость',
 'недвижимость',
 'недвижимость',
 'свадьба',
 'недвижимость',
 'недвижимость',
 'свадьба',
 'автомобиль',
 'автомобиль',
 'образование',
 'образование',
 'недвижимость',
 'автомобиль',
 'образование',
 'автомобиль',
 'автомобиль',
 'образование',
 'автомобиль',
 'свадьба',
 'недвижимость',
 'автомобиль',
 'автомобиль',
 'свадьба',
 'образование',
 'недвижимость',
 'автомобиль',
 'свадьба',
 'образование',
 'образование',
 'недвижимость',
 'недвижимость',
 'образование',
 'недвижимость',
 'образование',
 'недвижимость',

In [48]:
data['key_purpose'] = new_purpose       # добавляем новый признак в датасет
data

Unnamed: 0,children,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,years_employed,key_purpose
0,1,42,высшее,0,женат / замужем,0,F,сотрудник,0,253876,покупка жилья,23,недвижимость
1,1,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,11,автомобиль
2,0,33,среднее,1,женат / замужем,0,M,сотрудник,0,145886,покупка жилья,15,недвижимость
3,3,32,среднее,1,женат / замужем,0,M,сотрудник,0,267629,дополнительное образование,11,образование
4,0,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,37,свадьба
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,43,среднее,1,гражданский брак,1,F,компаньон,0,224792,операции с жильем,12,недвижимость
21521,0,67,среднее,1,женат / замужем,0,F,пенсионер,0,156000,сделка с автомобилем,51,автомобиль
21522,1,38,среднее,1,гражданский брак,1,M,сотрудник,1,89673,недвижимость,5,недвижимость
21523,3,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля,8,автомобиль


In [49]:
'''
Разберемся с дублями. Здесь надо помнить, что удаление дубликатов это дейсвие ситуативное (с какого момента надо удалять их ?)
Например: Из-за непонимания - каким образом собирались эти данные, мв не можем знать сами клиенты заполняли эти "анкеты" или сами сотрудники банка ( один и тот же человек заполнял
образование в верхнем регистре или нет. А клиентов с одинаковыми данными может быть много и разные люди могут написать по-разному)
Я возможно допустил ошибку в моменте отсеивания дубликатов: возможно надо было их отсечь на моменте уравнивния регистров в колонке "образование"
'''


data.duplicated().sum()     # видим 71 дубликат, далее удалим их
                            # Причиной наличие дубликуатов может быть ошибка системы или человеческий фактор





71

In [50]:
data = data.drop_duplicates().reset_index(drop = True)  # дроп дубликатов и смена индексов после дропа
data.duplicated().sum() # проверка

0

In [51]:
# меняем названия колонок

data.columns = ['кол-во детей', 'возраст', 'образование', 'id образования', 
                 'семейное положение', 'id семейного положнения', 'пол', 
                 'тип занятости', 'наличие задолженности', 'доход', 'причина кредитования',
                 'стаж (в годах)', 'причина кредитования (ключ)']

data

Unnamed: 0,кол-во детей,возраст,образование,id образования,семейное положение,id семейного положнения,пол,тип занятости,наличие задолженности,доход,причина кредитования,стаж (в годах),причина кредитования (ключ)
0,1,42,высшее,0,женат / замужем,0,F,сотрудник,0,253876,покупка жилья,23,недвижимость
1,1,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,11,автомобиль
2,0,33,среднее,1,женат / замужем,0,M,сотрудник,0,145886,покупка жилья,15,недвижимость
3,3,32,среднее,1,женат / замужем,0,M,сотрудник,0,267629,дополнительное образование,11,образование
4,0,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,37,свадьба
...,...,...,...,...,...,...,...,...,...,...,...,...,...
21449,1,43,среднее,1,гражданский брак,1,F,компаньон,0,224792,операции с жильем,12,недвижимость
21450,0,67,среднее,1,женат / замужем,0,F,пенсионер,0,156000,сделка с автомобилем,51,автомобиль
21451,1,38,среднее,1,гражданский брак,1,M,сотрудник,1,89673,недвижимость,5,недвижимость
21452,3,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля,8,автомобиль


Вывод: 

    1) произведена предобработка данных 
    2) заполнены пропуски
    3) Пока оставленыны дублирубщие колонки 
    4) создана колонка ключевых целей кредитования (для лучшего восприятия данных)
    5) упрощены числа ( стаж из дней --> года, доход --> целое число)
    6) нет понимания валюты дотхода и временной период получения такого дохода (неделя, месяц, год и т.д.)
    7) убраны дубликаты
    8) также есть некорректные данные (Возраст 0)
 

# 3. Ответы на вопросы

- Есть ли зависимость между наличием детей и возвратом кредита в срок?
- Есть ли зависимость между семейным положением и возвратом кредита в срок?
- Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
- Как разные цели кредита влияют на его возврат в срок?

## Есть ли зависимость между наличием детей и возвратом кредита в срок? 

In [52]:
'''
в столбце наличие задолженности отражается присутствие погашенной/не погашенной задолженности
'''

( data.groupby('кол-во детей')['наличие задолженности'].sum()  / data.groupby('кол-во детей')['наличие задолженности'].count() ) * 100      # посчитаем долю клиентов с задолженностями
                                                                                                                                            
                                                                                                                                            

кол-во детей
0    7.543822
1    9.165808
2    9.492481
3    8.181818
4    9.756098
5    0.000000
Name: наличие задолженности, dtype: float64

Промежуточный итог: т.к. цифры схожи (кроме клиентов с 5 детьми), то делаем вывод, что люди с разным количесвом детей "невыплачивают" одинаково,
но есть лидеры по невыплатам: клиенты с 1,2,4 детьми (лучшую выплачиваемость клиентов с 3 детьми - объяснить трудно (скорее всего с большей выборкой - цифры были бы идентичными)) - тут причину надо искать в целях кредитования таких семей (мне, наоборот, казалось, что ответственнее будут клиенты с детьми - на них лежит ответственность перед семьей)
Посмотрим на данные по выплатам и невыплатам одновременно

In [53]:

pivo_data =     data.pivot_table('причина кредитования',
                                 index = ['кол-во детей'],
                                 columns = ['наличие задолженности'],
                                 aggfunc='count')
pivo_data

наличие задолженности,0,1
кол-во детей,Unnamed: 1_level_1,Unnamed: 2_level_1
0,13028.0,1063.0
1,4410.0,445.0
2,1926.0,202.0
3,303.0,27.0
4,37.0,4.0
5,9.0,


In [54]:
pivo_data['доля выплаченных кредитов'] = ( pivo_data[0] / (pivo_data[0] + pivo_data[1]) ) * 100
pivo_data['доля невыплаченных кредитов'] = ( pivo_data[1] / (pivo_data[0] + pivo_data[1]) ) * 100
pivo_data

наличие задолженности,0,1,доля выплаченных кредитов,доля невыплаченных кредитов
кол-во детей,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1
0,13028.0,1063.0,92.456178,7.543822
1,4410.0,445.0,90.834192,9.165808
2,1926.0,202.0,90.507519,9.492481
3,303.0,27.0,91.818182,8.181818
4,37.0,4.0,90.243902,9.756098
5,9.0,,,


In [55]:
# посмотрим на кол-во клиентов с разнам кол-вом детей

data.groupby('кол-во детей')['наличие задолженности'].count()

кол-во детей
0    14091
1     4855
2     2128
3      330
4       41
5        9
Name: наличие задолженности, dtype: int64

Итог:   

        1) Доли выплаченных кредитов по разным количествам детей схожи (лучше всего выплачивают - клиенты без детей, а доли выплаченных кредитов клиентами с детьми - схожа )
        2) по клиентам с 5 детьми - сложно сделать вывод (малая выборка)



## Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [56]:


pivo_data1 = data.pivot_table('причина кредитования',
                              index = ['семейное положение'],
                              columns = ['наличие задолженности'],
                              aggfunc='count')

pivo_data1['доля выплаченных кредитов'] = ( pivo_data1[0] / (pivo_data1[0] + pivo_data1[1]) ) * 100
pivo_data1['доля невыплаченных кредитов'] = ( pivo_data1[1] / (pivo_data1[0] + pivo_data1[1]) ) * 100
pivo_data1['всего клиентов по каждому семеному положению'] = pivo_data1[0] + pivo_data1[1]
pivo_data1

наличие задолженности,0,1,доля выплаченных кредитов,доля невыплаченных кредитов,всего клиентов по каждому семеному положению
семейное положение,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
в разводе,1110,85,92.887029,7.112971,1195
вдовец / вдова,896,63,93.430657,6.569343,959
гражданский брак,3763,388,90.652855,9.347145,4151
женат / замужем,11408,931,92.454818,7.545182,12339
не женат / не замужем,2536,274,90.24911,9.75089,2810


Итог:

        1) выборки репрезентативны (большое кол-во данных по клиентам с выпл. и не выпл. кредитами)
        2) доли выплаченных кредитов схожи, но есть лидер по невыплачиваемости - клиенты, кот. состоят в гражданском браке, и не женаты/не замужем
           (причина - отсутствие ответственности (семьи/официальной семьи))


## Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [57]:
# посчитаем процентили по доходам

procentili = np.percentile(data['доход'], q =[25,50,75])
procentili

array([ 89089.25, 135781.  , 195814.25])

In [58]:
# Напишем функцию для определения групп доходов

def dohod(chislo):
    if chislo <= procentili[0]:
        return 'низкий'
    if chislo <= procentili[1]:
        return 'средний'
    if chislo <= procentili[2]:
        return 'высокий'
    else:
        return 'сверхвысокий'


data['уровень дохода'] = data['доход'].map(dohod)


pivo_data2 = data.pivot_table('причина кредитования',
                              index = ['уровень дохода'],
                              columns = ['наличие задолженности'],
                              aggfunc='count')

pivo_data2['всего клиентов по уровню дохода'] = pivo_data2[0] + pivo_data2[1]
pivo_data2['доля выплаченных кредитов'] = ( pivo_data2[0] / pivo_data2['всего клиентов по уровню дохода'] ) * 100
pivo_data2['доля невыплаченных кредитов'] = ( pivo_data2[1] / pivo_data2['всего клиентов по уровню дохода'] ) * 100
pivo_data2

наличие задолженности,0,1,всего клиентов по уровню дохода,доля выплаченных кредитов,доля невыплаченных кредитов
уровень дохода,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
высокий,4882,481,5363,91.031139,8.968861
низкий,4945,419,5364,92.188665,7.811335
сверхвысокий,4981,383,5364,92.859806,7.140194
средний,4905,458,5363,91.460004,8.539996


Итог:

        1) Выборка репрезентативна
        2) Показатели схожи --> связи нет, но в лидерах по невыплачиваемости - высокий и средний уровни дохода 
           (на вопрос почему ответить трудно - смотря исключительно на доход вывод делать нельзя)

## Как разные цели кредита влияют на его возврат в срок?

In [59]:
pivo_data3 = data.pivot_table('причина кредитования',
                              index = ['причина кредитования (ключ)'],
                              columns = ['наличие задолженности'],
                              aggfunc='count')

pivo_data3['кол-во клиентов по причинам кредитования'] = pivo_data3[0] + pivo_data3[1]
pivo_data3['доля выплаченных кредитов'] = ( pivo_data3[0] / pivo_data3['кол-во клиентов по причинам кредитования'] ) * 100
pivo_data3['доля невыплаченных кредитов'] = ( pivo_data3[1] / pivo_data3['кол-во клиентов по причинам кредитования'] ) * 100
pivo_data3

наличие задолженности,0,1,кол-во клиентов по причинам кредитования,доля выплаченных кредитов,доля невыплаченных кредитов
причина кредитования (ключ),Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1
автомобиль,3903,403,4306,90.640966,9.359034
недвижимость,10029,782,10811,92.766627,7.233373
образование,3643,370,4013,90.779965,9.220035
свадьба,2138,186,2324,91.996558,8.003442


Итог:

        1) Выборка репрезентативная
        2) В срок в основном выплачивают кредит по недвижимости (ипотека) --> физ. лица очень часто ответственно подходят к крупному кредитованию 
           (обычно это на много лет, и такие решения чаще всего принимают ответственные люди (с постоянным доходом и семьей)). 
           Надо также помнить, что мы некоторые причины как например "Ремонт жилья" - тоже отнесли в раздел "недвижимость", поэтому, написанное выше, нельзя считать окончательным выводом
        3) показатели по образованию и авто выглядят хуже, и действительно авто - не настолько ответственная покупка (многолетняя), как квартира.
           Кредит на образование - берут не из-за "хорошей жизни" (малообеспеченные клиенты)
        4) Выплаты кредитов по свадьбе - высокие (Почему - трудно ответить, но можно предположить из-за нежелательности, клиент чувствует, что это не вложение в будущее, как например     квартира, машина, образование (свадьба != вложение/инвестиция))

# Результаты исследования               



## Общие выводы:

        1) Зависимости есть между наличием детей (количество неважно), семейным положением, целью кредитования
        2) Во всех рассмотренных зависимостях разница в 1-3 % (при большей выборке - разница может быть существеннее)
        3) Обратить внимание на:
                3.1) Клиентов с детьми (количество детей не важно)
                3.2) Клиенты, кот. состоят в гражданском браке, и не женаты/не замужем
                3.3) Клиенты, цель кредитования которых - авто, образование, свадьба 
           У всех вышеперечисленных категорий клиентов - есть риски по невозврату кредита в срок


## Рекомендации
        
        1) Не допуск заявок на кредитование клиентов с заведомо некорректной информацией (Например отрицательное число детей)
        2) Обратить внимание на ошибку системы - дублируемые заявки
        3) Расчет стажа в годах (не в днях).

