# Исследование надежности заемщиков.

<div class="alert alert-info"><b>Заказчик</b> — кредитный отдел банка. <b>Суть проекта - </b> разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. <b>Входные данные от банка</b> — статистика о платёжеспособности клиентов.
<b>Результаты исследования</b> будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.</div>

### Шаг 1. Обзор данных

<div class="alert alert-info"><b>Общая информация</b> о таблице и обзор первых 5ти строк таблицы</div>

In [3]:
import pandas as pd
data = pd.read_csv('data.csv')

print('Общая информация')
data.info()
print(65 * '= ')

print('Первые 5 строк датафрейма')
display(data.head())

Общая информация
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB
= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = 
Первые 5 строк датафрей

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


<div class="alert alert-info"> Информация о <b>пропусках и дубликатах </b></div>

In [4]:
print('Инофрмация о пропусках')
display(data.isna().sum())
print(60 * '= ')

print(f'Полных дубликатов: {data.duplicated().sum()}')
print(60 * '= ')

Инофрмация о пропусках


children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = 
Полных дубликатов: 54
= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = 


<div class="alert alert-info"> Описательная статистика данных <b></b></div>

In [5]:
display(data.describe(include='all'))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
count,21525.0,19351.0,21525.0,21525,21525.0,21525,21525.0,21525,21525,21525.0,19351.0,21525
unique,,,,15,,5,,3,8,,,38
top,,,,среднее,,женат / замужем,,F,сотрудник,,,свадьба
freq,,,,13750,,12380,,14236,11119,,,797
mean,0.538908,63046.497661,43.29338,,0.817236,,0.972544,,,0.080883,167422.3,
std,1.381587,140827.311974,12.574584,,0.548138,,1.420324,,,0.272661,102971.6,
min,-1.0,-18388.949901,0.0,,0.0,,0.0,,,0.0,20667.26,
25%,0.0,-2747.423625,33.0,,1.0,,0.0,,,0.0,103053.2,
50%,0.0,-1203.369529,42.0,,1.0,,0.0,,,0.0,145017.9,
75%,1.0,-291.095954,53.0,,1.0,,1.0,,,0.0,203435.1,


### Шаг 2.1 Заполнение пропусков

<div class="alert alert-info"> В столбцах <b>total_income и days_employed</b> были обнаружены значения <b>NaN.</b>
    
    
Значения <b>total_income</b> отсутствуют там где нет информации о <b>days_employed</b></div>

In [6]:
display(data[data['total_income'].isna()].head(10)) 

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
65,0,,21,среднее,1,Не женат / не замужем,4,M,компаньон,0,,операции с коммерческой недвижимостью
67,0,,52,высшее,0,женат / замужем,0,F,пенсионер,0,,покупка жилья для семьи
72,1,,32,высшее,0,женат / замужем,0,M,госслужащий,0,,операции с коммерческой недвижимостью
82,2,,50,высшее,0,женат / замужем,0,F,сотрудник,0,,жилье
83,0,,52,среднее,1,женат / замужем,0,M,сотрудник,0,,жилье


<div class="alert alert-info"> Доля пропущенных значений в столбцах <b>total_income и days_employed</b> </div>

In [7]:
print(data['total_income'].isna().mean())
print(data['days_employed'].isna().mean())

0.10099883855981417
0.10099883855981417


<div class="alert alert-info"> Заполнить пропуски в столбце <b>total_income</b> медианным значением — лучшее решение, так как в выборке присутствует большой разброс значений. 
    
Ниже это видно по MIN и MAX значениям столбца <b>total_income</b></div>

In [8]:
min_total_income = int(data['total_income'].min())
max_total_income = int(data['total_income'].max())

print(f'Минимальное значение total_income: {min_total_income}')
print(f'Максимальное значение total_income: {max_total_income}')

Минимальное значение total_income: 20667
Максимальное значение total_income: 2265604


<div class="alert alert-info"> Заполнение пропущенных значений в столбце <b>total_income медианным значением по столбцу.</b>
    
Проверим отсутствие пропусков методом <b>isna</b> </div>

In [9]:
median_total_income = data['total_income'].median()
display(median_total_income)
data['total_income'] = data['total_income'].fillna(median_total_income)

print('Инофрмация о пропусках')
data.isna().sum()

145017.93753253992

Инофрмация о пропусках


children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income           0
purpose                0
dtype: int64

### Шаг 2.2. Проверка данных на аномалии и исправления


 <div class="alert alert-info"> Ищем значения с аномалиями в столбцах <b>
   

In [10]:
display(data.describe(include='all'))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
count,21525.0,19351.0,21525.0,21525,21525.0,21525,21525.0,21525,21525,21525.0,21525.0,21525
unique,,,,15,,5,,3,8,,,38
top,,,,среднее,,женат / замужем,,F,сотрудник,,,свадьба
freq,,,,13750,,12380,,14236,11119,,,797
mean,0.538908,63046.497661,43.29338,,0.817236,,0.972544,,,0.080883,165159.5,
std,1.381587,140827.311974,12.574584,,0.548138,,1.420324,,,0.272661,97866.07,
min,-1.0,-18388.949901,0.0,,0.0,,0.0,,,0.0,20667.26,
25%,0.0,-2747.423625,33.0,,1.0,,0.0,,,0.0,107798.2,
50%,0.0,-1203.369529,42.0,,1.0,,0.0,,,0.0,145017.9,
75%,1.0,-291.095954,53.0,,1.0,,1.0,,,0.0,195543.6,


 🔹<font color='blue'>  <b> Выводы:</b>
    
    1. Есть некорректные минусовые значения в столбце children
    2. Есть некорректные минусовые значения в столбце days_employed
    3*. В столбце dob_years есть значение "0" - которое встречается у 101 клиента. Это аномалия и ошибка.
    4. В столбце debt всё хорошо. Корректные значения от 0 до 1 типа float
    5. Со столбцом total_income всё хорошо. Корректные значения типа float
    6. В столбце children максимальное значение - 20 детей. Вероятнее всего это ошибка и тут лишний "0"
    7*. В столбце days_employed есть аномально большие значения (max - 401755 при медиане - 2194).

<div class="alert alert-info"> Рассмотрим подробнее столбец<b> education_id. </b>
    
<b> Вывод:</b> Количество ID - соответствует количеству вариантов в столбце <b> education</b> </div>

In [11]:
data['education_id'].value_counts()


1    15233
0     5260
2      744
3      282
4        6
Name: education_id, dtype: int64

<div class="alert alert-info"> Рассмотрим подробнее столбец<b> family_status_id. </b>
    
<b> Вывод:</b> Количество ID - соответствует количеству вариантов в столбце <b>family_status</b> </div>

In [12]:
data['family_status_id'].value_counts()

0    12380
1     4177
4     2813
3     1195
2      960
Name: family_status_id, dtype: int64

<div class="alert alert-info"> Проверим уникальные значения столбца <b> children</b>. И заменим все значения "20" на "2"</div>

In [13]:
data['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

In [14]:
data['children'] = data['children'].replace(20, 2)

In [15]:
data['children'].value_counts()

 0    14149
 1     4818
 2     2131
 3      330
-1       47
 4       41
 5        9
Name: children, dtype: int64

<div class="alert alert-info"> Обработка минусовых значений в столбце <b>days_employed и children </b>. </div>

In [16]:
data['days_employed'] = abs(data['days_employed'])
data['children'] = abs(data['children'])

<div class="alert alert-info"> Проверка после обработки некорректных значений в столбцах <b>days_employed и children </b>. </div>

In [17]:
display(data.describe(include='all'))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
count,21525.0,19351.0,21525.0,21525,21525.0,21525,21525.0,21525,21525,21525.0,21525.0,21525
unique,,,,15,,5,,3,8,,,38
top,,,,среднее,,женат / замужем,,F,сотрудник,,,свадьба
freq,,,,13750,,12380,,14236,11119,,,797
mean,0.479721,66914.728907,43.29338,,0.817236,,0.972544,,,0.080883,165159.5,
std,0.755528,139030.880527,12.574584,,0.548138,,1.420324,,,0.272661,97866.07,
min,0.0,24.141633,0.0,,0.0,,0.0,,,0.0,20667.26,
25%,0.0,927.009265,33.0,,1.0,,0.0,,,0.0,107798.2,
50%,0.0,2194.220567,42.0,,1.0,,0.0,,,0.0,145017.9,
75%,1.0,5537.882441,53.0,,1.0,,1.0,,,0.0,195543.6,


<div class="alert alert-info"> Заполнение пропущенных значений в столбце <b>days_employed</b> медианным значением по столбцу.
    
 </div>

In [18]:
median_days_employed = data['days_employed'].median()
data['days_employed'] = data['days_employed'].fillna(median_days_employed)

<div class="alert alert-info"> 
    
Проверим отсутствие пропусков методом <b>isna</b> </div>

In [19]:
print('Инофрмация о пропусках')
data.isna().sum()

Инофрмация о пропусках


children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

<div class="alert alert-info"> В столбце <b>dob_years</b> есть значение "0" - которое встречается у 101 клиента. Это аномалия и ошибка. Можно было бы заменить медианными значениями по столбцу или медианными значениями по столбцу учитывая группы  "income_type". Добавила в "Выводы" выше  </div>

In [20]:
data['dob_years'].value_counts()

35    617
40    609
41    607
34    603
38    598
42    597
33    581
39    573
31    560
36    555
44    547
29    545
30    540
48    538
37    537
50    514
43    513
32    510
49    508
28    503
45    497
27    493
56    487
52    484
47    480
54    479
46    475
58    461
57    460
53    459
51    448
59    444
55    443
26    408
60    377
25    357
61    355
62    352
63    269
64    265
24    264
23    254
65    194
66    183
22    183
67    167
21    111
0     101
68     99
69     85
70     65
71     58
20     51
72     33
19     14
73      8
74      6
75      1
Name: dob_years, dtype: int64

### Шаг 2.3. Изменение типов данных.

<div class="alert alert-info"> Замена типа данных с float на int в столбце <b>total_income</b> </div>

In [21]:
data['total_income'] = data['total_income'].astype('int')
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     21525 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      21525 non-null  int32  
 11  purpose           21525 non-null  object 
dtypes: float64(1), int32(1), int64(5), object(5)
memory usage: 1.9+ MB


### Шаг 2.4. Удаление дубликатов.

<div class="alert alert-info"> Поиск неявных дубликатов в столбце <b>education</b> </div>

In [22]:
data['education'].unique()

array(['высшее', 'среднее', 'Среднее', 'СРЕДНЕЕ', 'ВЫСШЕЕ',
       'неоконченное высшее', 'начальное', 'Высшее',
       'НЕОКОНЧЕННОЕ ВЫСШЕЕ', 'Неоконченное высшее', 'НАЧАЛЬНОЕ',
       'Начальное', 'Ученая степень', 'УЧЕНАЯ СТЕПЕНЬ', 'ученая степень'],
      dtype=object)

<div class="alert alert-info"> Обработка неявных дубликатов в столбце <b>education</b> и проверка на их отсутствие </div>

In [23]:
data['education'] = data['education'].str.lower()
data['education'].unique()

array(['высшее', 'среднее', 'неоконченное высшее', 'начальное',
       'ученая степень'], dtype=object)

<div class="alert alert-info"> Поиск неявных дубликатов в столбце <b>family_status</b>. Дубликаты не найдены </div>

In [24]:
data['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем'], dtype=object)

<div class="alert alert-info"> Поиск неявных дубликатов в столбце <b>gender</b>. Дубликаты не найдены.  </div>

In [25]:
data['gender'].unique()
data['gender'].value_counts()


F      14236
M       7288
XNA        1
Name: gender, dtype: int64

<div class="alert alert-block alert-info">
<b>Сделано</b> ☑️ Найдено аномальное значение пола - XNA у 1 клиента. Возможно это не ошибка, а нежелание человека указывать свой пол :)

</div>

<div class="alert alert-info"> Поиск неявных дубликатов в столбце <b>income_type</b>. Дубликаты не найдены </div>

In [26]:
data['income_type'].unique()

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

<div class="alert alert-info"> Поиск неявных дубликатов в столбце <b>purpose</b>. Дубликаты найдены. В задании 2.7 - будут категоризированы </div>

In [27]:
data['purpose'].unique()

array(['покупка жилья', 'приобретение автомобиля',
       'дополнительное образование', 'сыграть свадьбу',
       'операции с жильем', 'образование', 'на проведение свадьбы',
       'покупка жилья для семьи', 'покупка недвижимости',
       'покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля',
       'операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью', 'автомобили',
       'заняться образованием', 'сделка с подержанным автомобилем',
       'получение образования', 'автомобиль', 'свадьба',
       'получение дополнительного образования', 'покупка своего жилья',
       'операции с недвижимостью', 'получение высшего образования',
       'свой автомобиль', 'сделка с автомобилем',
       'профильное образование', 'высшее об

🔹<font color='blue'>  Для поиска дубликатов я выбрала метод <b>unique()</b>, так как на мой взгляд он прекрасно подходит для поиска категорийных неявнях дубликатов. 
    
🔹<font color='blue'>  Для удаления явных дубликатов использовался метод <b>drop_duplicates()</b>. 
    
🔹<font color='blue'>  <b>Причины возникновения явных дубликатов</b> - ошибка или повторный кредит. 
    
🔹<font color='blue'>  <b>Неявных</b> - ошибки в написании одного и того же слова, разный регистр.
   

<div class="alert alert-info"> Проверка на явные дубликаты. <b> После исправления неявных дубликатов</b> </div>

In [28]:
print(f'Полных дубликатов: {data.duplicated().sum()}')
print(60 * '= ')

Полных дубликатов: 71
= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = 


<div class="alert alert-info"> Удаление явных дубликатов из данных </b> </div>

In [29]:
data = data.drop_duplicates().reset_index(drop=True)

<div class="alert alert-info"> Проверка на отсутствие явных дубликотов </div>

In [30]:
print(f'Полных дубликатов: {data.duplicated().sum()}')

Полных дубликатов: 0


### Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

<div class="alert alert-info">Формирование дополнительного датафрейм словаря для <b>education</b> </div>

In [31]:
educ_dict = data[['education','education_id']]
educ_dict = educ_dict.drop_duplicates().reset_index(drop=True)
display(educ_dict)

Unnamed: 0,education,education_id
0,высшее,0
1,среднее,1
2,неоконченное высшее,2
3,начальное,3
4,ученая степень,4


<div class="alert alert-info">Формирование дополнительного датафрейм словаря для <b>family_status</b> </div>

In [32]:
famil_dict = data[['family_status','family_status_id']]
famil_dict = famil_dict.drop_duplicates().reset_index(drop=True)
display(famil_dict)

Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,гражданский брак,1
2,вдовец / вдова,2
3,в разводе,3
4,Не женат / не замужем,4


<div class="alert alert-info">Удаление столбцов <b>education и family_status</b> из исходного Датафрейма </div>

In [33]:
data = data.drop(columns = ['education', 'family_status'], axis = 1) 
display(data.head())

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,сыграть свадьбу


### Шаг 2.6. Категоризация дохода.

<div class="alert alert-info">Создаем функцию <b>income_category</b> которая будет рассчитывать категорию учитывая значения столбца <b>total_income</b> </div>

In [34]:
def income_category(income):
    if income < 30001:
        return 'E'
    if income < 50001:
        return 'D'
    if income < 200001:
        return 'C'
    if income < 1000001:
        return 'B'
    else:
        return 'A'

<div class="alert alert-info">Создаем новый столбец <b>total_income_category</b> и заполняем значениями из функции</b> </div>

In [35]:
data['total_income_category'] = data['total_income'].apply(income_category)

<div class="alert alert-info"> Проверяем, как изменилась таблица и все ли категории в нее попали.</div>

In [36]:
display(data.head()) 
data['total_income_category'].unique()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C


array(['B', 'C', 'D', 'E', 'A'], dtype=object)

### Шаг 2.7. Категоризация целей кредита.

<div class="alert alert-info">Создаем функцию <b>name_purpose</b>, которая на основании данных из столбца <b>purpose </b>сформирует новый столбец <b>purpose_category</b>, в который войдут следующие категории:
<b>'операции с автомобилем',</b>
<b>'операции с недвижимостью',</b>
<b>'проведение свадьбы',</b>
<b>'получение образования'. </b> </div>

In [37]:
incorrect_property = ['покупка жилья','операции с жильем','покупка жилья для семьи',
       'покупка недвижимости','покупка коммерческой недвижимости', 'покупка жилой недвижимости',
       'строительство собственной недвижимости', 'недвижимость',
       'строительство недвижимости','операции с коммерческой недвижимостью',
       'строительство жилой недвижимости', 'жилье',
       'операции со своей недвижимостью','покупка своего жилья',
       'операции с недвижимостью', 'покупка жилья для сдачи', 'ремонт жилью']

incorrect_car = ['приобретение автомобиля', 'на покупку подержанного автомобиля',
                 'на покупку своего автомобиля','автомобили', 'автомобиль', 'свой автомобиль', 
                 'сделка с автомобилем', 'сделка с подержанным автомобилем', 'на покупку автомобиля' ]

incorrect_education = ['дополнительное образование','образование',  'заняться образованием',
                       'получение образования',  'получение дополнительного образования', 
                       'получение высшего образования', 'профильное образование', 'высшее образование', 
                      'заняться высшим образованием']

incorrect_wedding = ['сыграть свадьбу', 'на проведение свадьбы', 'свадьба']


def name_purpose(purpose):
    try:
        if purpose in incorrect_property:
            return 'операции с недвижимостью'
        if purpose in incorrect_car:
            return 'операции с автомобилем'
        if purpose in incorrect_education:
            return 'получение образования'
        if purpose in incorrect_wedding:
            return 'проведение свадьбы'
    except:
        return 'другое'
    
data['purpose_category'] = data['purpose'].apply(name_purpose)

<div class="alert alert-info"> Проверяем, как изменилась таблица и все ли категории в нее попали.</div>

In [38]:
display(data.head())
data['purpose_category'].unique()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437.673028,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024.803754,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623.42261,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124.747207,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,340266.072047,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы


array(['операции с недвижимостью', 'операции с автомобилем',
       'получение образования', 'проведение свадьбы'], dtype=object)

### Ответы на вопросы.

##### Вопрос 1:Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [39]:
data_pivot_children = data.pivot_table(index='children', columns='debt', values = 'total_income', aggfunc ='count')
data_pivot_children['pivot_0'] = data_pivot_children[1]/data_pivot_children[0]*100

print('pivot_0 - % клиентов c задолженностью в зависимсоти от количества детей')
display(data_pivot_children)

pivot_0 - % клиентов c задолженностью в зависимсоти от количества детей


debt,0,1,pivot_0
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,13028.0,1063.0,8.159349
1,4410.0,445.0,10.090703
2,1926.0,202.0,10.488058
3,303.0,27.0,8.910891
4,37.0,4.0,10.810811
5,9.0,,


##### Вывод 1:  По итогам рассчетов выялена минимальная зависимость между количеством детей и возвратом кредита в срок .  У 8,1 %  клиентов без детей есть задолденность по кредиту. У клиентов с детьми этот % немного выше -  от 8,9 до 10,8. Группу с 5-ю детьми нельзя учитывать в расчетах, так как очень маленькая выборка. 

##### Вопрос 2: Есть ли зависимость между семейным положением и возвратом кредита в срок?


In [40]:
data_pivot_family = data.pivot_table(index=['family_status_id'], values='debt', aggfunc='sum')

family = data['family_status_id'].value_counts()
debt_family = data.groupby('family_status_id')['debt'].sum()
convers_debt_family = debt_family / family * 100

print('Количество клиентов в зависимости от семейного статуса')
display(family)
print(60*'= ')
print('Количество клиентов c задолженностью в зависимости от семейного статуса')
display(data_pivot_family)
print(60*'= ')
print('% клиентов c задолженностью в зависимсоти от семейного статуса')
display(convers_debt_family)
print(60*'= ')
print('Расшифровка')
display(famil_dict)

Количество клиентов в зависимости от семейного статуса


0    12339
1     4151
4     2810
3     1195
2      959
Name: family_status_id, dtype: int64

= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = 
Количество клиентов c задолженностью в зависимости от семейного статуса


Unnamed: 0_level_0,debt
family_status_id,Unnamed: 1_level_1
0,931
1,388
2,63
3,85
4,274


= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = 
% клиентов c задолженностью в зависимсоти от семейного статуса


0    7.545182
1    9.347145
2    6.569343
3    7.112971
4    9.750890
dtype: float64

= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = 
Расшифровка


Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,гражданский брак,1
2,вдовец / вдова,2
3,в разводе,3
4,Не женат / не замужем,4


##### Вывод 2: Реже всего задолженность образуется у категории "вдовец / вдова" (6,5%).  Те кто женат, либо уже находится в разводе оказываются в задолженности в 7% случаев. Чаще всего просрочка кредита возникает у тех кто не был женат, либо живет гражданским браком(около 9,5%). У категории "вдовец" и "в разводе" - маленькая выборка. В итоговых выводах эти категории учитываться не будут.

##### Вопрос 3 :Есть ли зависимость между уровнем дохода и возвратом кредита в срок?


In [41]:
data_pivot_income = data.pivot_table(index=['total_income_category'], values='debt', aggfunc='sum')

income = data['total_income_category'].value_counts()
debt_income = data.groupby('total_income_category')['debt'].sum()
convers_debt_income = debt_income / income * 100

print('Количество клиентов в зависимости от категории дохода')
display(income)
print(60*'= ')
print('Количество клиентов c задолженностью в зависимости от категории дохода')
display(data_pivot_income)
print(60*'= ')
print('% клиентов c задолженностью в зависимости от категории дохода')
display(convers_debt_income)
print(60*'= ')

Количество клиентов в зависимости от категории дохода


C    16016
B     5041
D      350
A       25
E       22
Name: total_income_category, dtype: int64

= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = 
Количество клиентов c задолженностью в зависимости от категории дохода


Unnamed: 0_level_0,debt
total_income_category,Unnamed: 1_level_1
A,2
B,356
C,1360
D,21
E,2


= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = 
% клиентов c задолженностью в зависимости от категории дохода


A    8.000000
B    7.062091
C    8.491508
D    6.000000
E    9.090909
dtype: float64

= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = 


##### Вывод 3:  Только у 6 % клиентов категории D (доход 30001–50000) есть задолженность. У категории B(доход 200001–1000000) и С(доход 50001–200000) он выше - 7 и 8,5% соответственно.  Клиентов категорий A и E - не стоит учитывать в анализе из-за маленькой выборки. Прямой зависимости между уровнем дохода и погашением кредита в срок не выялено.

##### Вопрос 4 :Как разные цели кредита влияют на его возврат в срок?

In [42]:
data_pivot_purpose = data.pivot_table(index=['purpose_category'], values='debt', aggfunc='sum')

purpose = data['purpose_category'].value_counts()
debt_purpose = data.groupby('purpose_category')['debt'].sum()
convers_debt_purpose = debt_purpose / purpose * 100

print('Количество клиентов в зависимости от цели кредита')
display(purpose)
print(60*'= ')
print('Количество клиентов c задолженностью в зависимости от цели кредита')
display(data_pivot_purpose)
print(60*'= ')
print('% клиентов c задолженностью в зависимости от цели кредита')
display(convers_debt_purpose)
print(60*'= ')

Количество клиентов в зависимости от цели кредита


операции с недвижимостью    10811
операции с автомобилем       4306
получение образования        4013
проведение свадьбы           2324
Name: purpose_category, dtype: int64

= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = 
Количество клиентов c задолженностью в зависимости от цели кредита


Unnamed: 0_level_0,debt
purpose_category,Unnamed: 1_level_1
операции с автомобилем,403
операции с недвижимостью,782
получение образования,370
проведение свадьбы,186


= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = 
% клиентов c задолженностью в зависимости от цели кредита


операции с автомобилем      9.359034
операции с недвижимостью    7.233373
получение образования       9.220035
проведение свадьбы          8.003442
dtype: float64

= = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = = 


##### Вывод 4: У клиентов с кредитами на операции с автомобилем  и получение образования, чаще образуются задолженности (в среднем у 9%клиентов), чем у тех, кто берет кредит на операции с недвижимостью  и проведение свадьбы(в среднем у 7,5 % клиентов). 

## Общий вывод:

- В процессе анализа статистики о платёжеспособности клиентов были обнаружены пропуски в данных клиентов об трудовом стаже и доходе(пропуски обнаружены у 11% клиентов). Пропуски были заполнены медианными значениями трудового стажа и дохода клиентов.

- Так же в процессе анализа были обнаружены анамальные значения в таких показателях как : возраст клиента(более чем у 100 клиентов он равен 0), трудовой стаж(минусовые значения и аномально большие значения) и количество детей(минусовые значения и аномально большие значения) и пол клиента(у 1 клиента он неопределен). В процессе предоброботки данных большинство аномалий было устранено.

- Так же были обнаружены неявные дубликаты в данных об образовании клиента. Данные приведены к общему виду.

- После устранения неявных дубликатов - было найдено 71 стока явных дубликатов. Явные дубликаты удалены.

- Мной была проведена категоризация данных в зависимоти от целей кредита и доходов клиента, для упрощения работы с таблицей.

Категории целей кредита: операции с автомобилем, операции с недвижимостью, получение образования, проведение свадьбы.

Категории дохода клиентов: A,B,C,D,E, где A - клиенты с самым высоким доходом, а E - c самым низким

<b>Выводы по анализу зависимости погашения кредита в срок от : количества детей, дохода, семейного положения и целей кредита:</b>
1. У клиентов без детей реже возникает задолженность. (8.1% против 8,9-10,8% у клиентов с детьми)
2. Клиенты, которые женаты/замужем - реже имеют задолженность, по сравнению с неженатыми/незамужними (7% против 9%)
3. Прямой зависимости между уровнем дохода и погашением кредита в срок не выялено.
4. У клиентов с кредитами на операции с автомобилем и получение образования, чаще образуются задолженности, чем у тех, кто берет кредит на операции с недвижимостью и проведение свадьбы(9% против 7,5 %). 