# Исследование надежности заемщиков.

<font size = 6>**Описание проекта**</font>

<font size = 4>Заказчик — кредитный отдел банка. Нужно разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов.
Результаты исследования будут учтены при построении модели кредитного скоринга — специальной системы, которая оценивает способность потенциального заёмщика вернуть кредит банку.</font>

**Шаг 1. Открытие таблицы и изучение общей информации о данных**

Путь к файлу: /datasets/data.csv.

**Шаг 2. Предобработка данных**

1. Пропущенные значения
* обнаружение и описание пропущенных значений;
* проверка доли пропущенных значений в каждом из столбцов с пропусками;
* Возможные причины появления пропусков в данных;
* Объяснение, почему заполнять пропуски медианным значением — лучшее решение для количественных переменных.

2. В данных могут встречаться артефакты (аномалии) — значения, которые не отражают действительность и появились по какой-то ошибке. Необходимо обработать значения в столбцах с аномалиями и описать возможные причины появления таких данных.
* Обработать значения в столбцах с аномалиями и описать возможные причины появления таких данных. После обработки аномалий заполнить пропуски в days_employed медианными значениями по этому столбцу.

3. Замена вещественных типов данных на целочисленные с помощью метода astype().


4. Дубликаты:
* Выбор метода для поиска и удаления дубликатов в данных;
* Возможные причины появления дубликатов.

5. Создание двух новых датафрейма, в которых:
* каждому уникальному значению из education соответствует уникальное значение education_id — в первом;
* каждому уникальному значению из family_status соответствует уникальное значение family_status_id — во втором.

6. На основании диапазонов, указанных ниже, создать столбец total_income_category с категориями:
* 0–30000 — 'E';
* 30001–50000 — 'D';
* 50001–200000 — 'C';
* 200001–1000000 — 'B';
* 1000001 и выше — 'A'.

7. Создание функции, которая на основании данных из столбца purpose сформирует новый столбец purpose_category, в который войдут следующие категории:
* 'операции с автомобилем',
* 'операции с недвижимостью',
* 'проведение свадьбы',
* 'получение образования'.


**Шаг 3. Ответы на вопросы:**
* Есть ли зависимость между количеством детей и возвратом кредита в срок?
* Есть ли зависимость между семейным положением и возвратом кредита в срок?
* Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
* Как разные цели кредита влияют на его возврат в срок?

**Шаг 4. Общий вывод**

**Описание данных**
* children — количество детей в семье
* days_employed — общий трудовой стаж в днях
* dob_years — возраст клиента в годах
* education — уровень образования клиента
* education_id — идентификатор уровня образования
* family_status — семейное положение
* family_status_id — идентификатор семейного положения
* gender — пол клиента
* income_type — тип занятости
* debt — имел ли задолженность по возврату кредитов
* total_income — ежемесячный доход
* purpose — цель получения кредита


### Шаг 1. Обзор данных

In [152]:
import pandas as pd # импорт библиотеки pandas
data = pd.read_csv('C:\Data\data.csv') # чтение файла с данными и сохранение в data

In [153]:
data.head(10) # получение первых 10 строк таблицы data


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [154]:
display(data) # и остальных строк таблицы data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.422610,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,-4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,-2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,-3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


In [155]:
data.info() # получение общей информации о данных в таблице data

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [156]:
#После вышеприведённых данных стоит задуматься, почему у столбцов days_employed и total_income одинаковые not-null значния. Скорее всего, между ними существует взаимосвясь. Скорее всего, это молодые люди, которые пока не работают, либо занимаются поиском работы.

Определим процент недостающих данных, с двумя знаками после запятой


In [157]:
print(f' Процент пропущенных значений = {(21525 - 19351)/ 21525:,.2%}')
      

 Процент пропущенных значений = 10.10%


In [158]:
# Процент пропущенных значений довольно большой. Придётся разбираться. Для начала определим количество non-null в обоих столбах методом .isna() и sum().

In [159]:
for column in data.columns:
    print(f'{column} : Число пропусков/пустых строк = {data[column].isna().sum()}')
    


children : Число пропусков/пустых строк = 0
days_employed : Число пропусков/пустых строк = 2174
dob_years : Число пропусков/пустых строк = 0
education : Число пропусков/пустых строк = 0
education_id : Число пропусков/пустых строк = 0
family_status : Число пропусков/пустых строк = 0
family_status_id : Число пропусков/пустых строк = 0
gender : Число пропусков/пустых строк = 0
income_type : Число пропусков/пустых строк = 0
debt : Число пропусков/пустых строк = 0
total_income : Число пропусков/пустых строк = 2174
purpose : Число пропусков/пустых строк = 0


In [160]:
#В двух столбцах обнаружено по 2174 пропуска, либо пустых строк

In [161]:
#Проверяем каждый столбец

<font size = 4>**1 Столбец Children**</font>

In [162]:
print(data['children'].value_counts())

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64


In [163]:
#Больше всего бездетных людей. Больше всего вопросов вызывает группа людей, у которых 20 детей (их 76), а также и вовсе отрицательное количество детей (их 47). Скорее всего, ошибка имеет технических повторяющийся характер, потому что вряд ли бы респонденты указывали такие значения несколько раз. Определим строки, в которых закрались ошибки, Поскольку ошибка в выборке не превышает 0,6% (123 / 21525 = 0,01%) удалим данные строки

<font size = 4>**2. Столбец days_employed**</font>

In [164]:
print(data['days_employed'])
print()
print('Отрицательные значения =', data[data['days_employed']<0]['days_employed'].count())

0         -8437.673028
1         -4024.803754
2         -5623.422610
3         -4124.747207
4        340266.072047
             ...      
21520     -4529.316663
21521    343937.404131
21522     -2113.346888
21523     -3112.481705
21524     -1984.507589
Name: days_employed, Length: 21525, dtype: float64

Отрицательные значения = 15906


In [165]:
#Присутствует довольно большое количество отрицательных значений, что, скорее всего может говорить о нерпавильности введённых данных. Возможно, данные здесь приведены в формате времени, а не даты. Либо же это тире, которые программа посчитала как минус. Данные форматы не могут быть допустимыми к исследованию.

<font size = 4>**3. Столбец dob_years**</font>

In [166]:
print(data['dob_years'].value_counts().sort_index()) #применим метод .sort_index() сортировки по возрастанию для наглядного понимания столбца

0     101
19     14
20     51
21    111
22    183
23    254
24    264
25    357
26    408
27    493
28    503
29    545
30    540
31    560
32    510
33    581
34    603
35    617
36    555
37    537
38    598
39    573
40    609
41    607
42    597
43    513
44    547
45    497
46    475
47    480
48    538
49    508
50    514
51    448
52    484
53    459
54    479
55    443
56    487
57    460
58    461
59    444
60    377
61    355
62    352
63    269
64    265
65    194
66    183
67    167
68     99
69     85
70     65
71     58
72     33
73      8
74      6
75      1
Name: dob_years, dtype: int64


In [167]:
#В данных закралась ошибка, где присутсвует 101 человек с возрастом 0 лет. Данную категорию людей можно будет удалить, поскольку она не будет превышать допустимого значения ошибки в выборке. (101 / 2125 =  0,004%)

<font size = 4>**4. Столбец education и 5 education_id**</font>

In [168]:
print(data['education'].value_counts())
print(data['education_id'].value_counts())

среднее                13750
высшее                  4718
СРЕДНЕЕ                  772
Среднее                  711
неоконченное высшее      668
ВЫСШЕЕ                   274
Высшее                   268
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64
1    15233
0     5260
2      744
3      282
4        6
Name: education_id, dtype: int64


In [169]:
#Как мы видим в данных закралось несколько повторов с разными регистрами. Данные дубликаты придётся исправить Всего же уникальных значений в списке 5

<font size = 4>**6. Столбец family_status и 7. family_status_id**</font>

In [170]:
print(data['family_status'].value_counts())
print(data['family_status_id'].value_counts())

женат / замужем          12380
гражданский брак          4177
Не женат / не замужем     2813
в разводе                 1195
вдовец / вдова             960
Name: family_status, dtype: int64
0    12380
1     4177
4     2813
3     1195
2      960
Name: family_status_id, dtype: int64


In [171]:
#Количества в данных совпадают. Они корректны

<font size = 4>**8. Столбец gender**</font>

In [172]:
print(data['gender'].value_counts())

F      14236
M       7288
XNA        1
Name: gender, dtype: int64


In [173]:
#Выявлено только одно некорректное значение. Внесем его в "F", поскольку велика вероятность того, что это женщина, поскольку их в два раза больше в выборке. Для решения данной задачи двнный стобец мало важен

<font size = 4>**9. Столбец income_type**</font>

In [174]:
print(data['income_type'].value_counts())

сотрудник          11119
компаньон           5085
пенсионер           3856
госслужащий         1459
безработный            2
предприниматель        2
студент                1
в декрете              1
Name: income_type, dtype: int64


In [175]:
#Данный столбец корректен. Идём дальше

<font size = 4>**10. Столбец debt**</font>

In [176]:
print(data['debt'].value_counts())

0    19784
1     1741
Name: debt, dtype: int64


In [177]:
#Столбец корректен

<font size = 4>**11. Столбец total_income**</font>

In [178]:
display(data['total_income'].describe()) 
display(data[data['total_income'].isnull()].head(10))

count    1.935100e+04
mean     1.674223e+05
std      1.029716e+05
min      2.066726e+04
25%      1.030532e+05
50%      1.450179e+05
75%      2.034351e+05
max      2.265604e+06
Name: total_income, dtype: float64

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
65,0,,21,среднее,1,Не женат / не замужем,4,M,компаньон,0,,операции с коммерческой недвижимостью
67,0,,52,высшее,0,женат / замужем,0,F,пенсионер,0,,покупка жилья для семьи
72,1,,32,высшее,0,женат / замужем,0,M,госслужащий,0,,операции с коммерческой недвижимостью
82,2,,50,высшее,0,женат / замужем,0,F,сотрудник,0,,жилье
83,0,,52,среднее,1,женат / замужем,0,M,сотрудник,0,,жилье


In [179]:
print(data['days_employed'].isnull().sum() & data['income_type'].isnull().sum())
print(data.loc[data['days_employed'].isna()==True,'days_employed'].sum())

0
0.0


In [180]:
#Из вышеприведённых данных, можно предположить, что нет закономерности в появлении пропусков, поскольку в других столбцах все значения разные. Данный столбец нам будет также важен для дальнейшего анализа

<font size = 4>**12. Столбец purpose**</font>

In [181]:
print(data['purpose'].value_counts())

свадьба                                   797
на проведение свадьбы                     777
сыграть свадьбу                           774
операции с недвижимостью                  676
покупка коммерческой недвижимости         664
покупка жилья для сдачи                   653
операции с жильем                         653
операции с коммерческой недвижимостью     651
покупка жилья                             647
жилье                                     647
покупка жилья для семьи                   641
строительство собственной недвижимости    635
недвижимость                              634
операции со своей недвижимостью           630
строительство жилой недвижимости          626
покупка недвижимости                      624
строительство недвижимости                620
покупка своего жилья                      620
ремонт жилью                              612
покупка жилой недвижимости                607
на покупку своего автомобиля              505
заняться высшим образованием      

In [182]:
#Столбец корректный, однако некоторые значения столбца совпадают. Придётся их привести к одному названию

<font size = 4>**Выводы**</font>

Исходя из вышеизложенного, сделаем опись по столбцам:

1. Столбец Children - Некорректные значения "20" (малое количество) и "-1" (нереальное значение). Необходимо удалить данные строки, поскольку очщее число в выбоке их незначительно
2. Столбец days_employed - Присутствует довольно большое количество отрицательных, а также пропущенных и довольно больших значений, что, скорее всего может говорить о нерпавильности введённых данных. Данные форматы не могут быть допустимыми к исследованию. Данный столбец можно будет удалить, поскольку он нам не понадобится для решения задачи.
3. Столбец dob_years - некорректное значение "101" наблюдения людей в возрасте "0" лет. Можно будет удалить данные значения, поскольку она не будет превышать допустимого значения ошибки в выборке. (101 / 2125 =  0,004%)
4. Столбец education - необходимо привести все названия к одному регистру, а именно, чтобы осталось 6 уникальных названий
5. Столбец education_id - столбец корректен. Необходимо будет проверить, совпадает ли количество наблюдений столбца education_id с education
6. Столбец family_status - столбец корректен
7. Столбец family_status_id - столбец корректен
8. Столбец gender - Исправление значения "XNA" на "F"
9. Столбец income_type - столбец корректен
10. Столбец debt - столбец корректен
11. Столбец total_income - Процент отсутствующих значений довольно большой (10,10%), придётся его заполнить. По заданию такжде необходимо поменять тип на int. 
12. Столбец purpose - столлбец корректен, однако есть большое число значений с разными регистрами. Приведём всё к одному названию

### Шаг 2.1 Заполнение пропусков  и Шаг 2.2 Проверка данных на аномалии и исправления

<font size = 4>**Пропуски days_employed и total income**</font>

Число пропусков в данных столбцах одинаковое. Посокольку было выдвинуто предположение о том, что это молодые люди, которые ещё не работают, либо не зарабатывают, то столбец income type можно будет заполнить нулями вместо пропусков.

In [183]:
print(data['days_employed'].value_counts())

-8437.673028      1
-3507.818775      1
 354500.415854    1
-769.717438       1
-3963.590317      1
                 ..
-1099.957609      1
-209.984794       1
 398099.392433    1
-1271.038880      1
-1984.507589      1
Name: days_employed, Length: 19351, dtype: int64


In [184]:
null = data.loc[(data['days_employed'].isnull()) & (data['total_income'].isnull()), 'dob_years'].count()
print(f'Количество значений, отсутствующих в обоих столбцах = {null}')
print()
display(data.loc[(data['days_employed'].isnull()) & (data['total_income'].isnull())].head(10))

Количество значений, отсутствующих в обоих столбцах = 2174



Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
65,0,,21,среднее,1,Не женат / не замужем,4,M,компаньон,0,,операции с коммерческой недвижимостью
67,0,,52,высшее,0,женат / замужем,0,F,пенсионер,0,,покупка жилья для семьи
72,1,,32,высшее,0,женат / замужем,0,M,госслужащий,0,,операции с коммерческой недвижимостью
82,2,,50,высшее,0,женат / замужем,0,F,сотрудник,0,,жилье
83,0,,52,среднее,1,женат / замужем,0,M,сотрудник,0,,жилье


In [185]:
#После выведения первых десяти строк с улсовием NaN в обоих столбцах days_employed и total_income, видно, что диапозон возраста варьируется от 21 года до 65 лет. Значит, наше предположение о том, что это молодые неработавшие, либо незарабатывающие люди ложно. Исходя из этого, заполним столбец total_income медианным значением. Столбец же days_employed удалим за ненадобностью.

In [186]:
data.drop('days_employed', axis='columns', inplace=True) #удаляем столбец days_employed
print(data.columns)

Index(['children', 'dob_years', 'education', 'education_id', 'family_status',
       'family_status_id', 'gender', 'income_type', 'debt', 'total_income',
       'purpose'],
      dtype='object')


<font size = 4>**Столбец total_income**</font>

In [187]:
display(data.info())
print()
total_income_median = data['total_income'].median()
display(f'Медиана столбца total_income = {total_income_median}')
print()
display(data['total_income'].describe())

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 11 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   dob_years         21525 non-null  int64  
 2   education         21525 non-null  object 
 3   education_id      21525 non-null  int64  
 4   family_status     21525 non-null  object 
 5   family_status_id  21525 non-null  int64  
 6   gender            21525 non-null  object 
 7   income_type       21525 non-null  object 
 8   debt              21525 non-null  int64  
 9   total_income      19351 non-null  float64
 10  purpose           21525 non-null  object 
dtypes: float64(1), int64(5), object(5)
memory usage: 1.8+ MB


None




'Медиана столбца total_income = 145017.93753253992'




count    1.935100e+04
mean     1.674223e+05
std      1.029716e+05
min      2.066726e+04
25%      1.030532e+05
50%      1.450179e+05
75%      2.034351e+05
max      2.265604e+06
Name: total_income, dtype: float64

In [188]:
#Выбор заполнения стобца total_income медианными значениями оправдан, поскольку в данном столбце данные приблизительно одного порядка. Теперь создадим столбец income_category_list, который содержит медианы по категориям.

In [189]:
income_category_list = data.groupby('income_type')['total_income'].median().sort_values() #группируем столбец income_type по столбцу total_income и выводим медианное значение, отсортировав их по возрастанию
print('Таблица медиан по категориям: ')
display(income_category_list)
print()
print('Количество пропущенных значений в total_income: ', data['total_income'].isna().sum())

Таблица медиан по категориям: 


income_type
в декрете           53829.130729
студент             98201.625314
пенсионер          118514.486412
безработный        131339.751676
сотрудник          142594.396847
госслужащий        150447.935283
компаньон          172357.950966
предприниматель    499163.144947
Name: total_income, dtype: float64


Количество пропущенных значений в total_income:  2174


In [190]:
#Теперь выведем первые 10 строк с пропусками

In [191]:
display(data.loc[data.loc[:, 'total_income'].isna()==True].head(10))

Unnamed: 0,children,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу
65,0,21,среднее,1,Не женат / не замужем,4,M,компаньон,0,,операции с коммерческой недвижимостью
67,0,52,высшее,0,женат / замужем,0,F,пенсионер,0,,покупка жилья для семьи
72,1,32,высшее,0,женат / замужем,0,M,госслужащий,0,,операции с коммерческой недвижимостью
82,2,50,высшее,0,женат / замужем,0,F,сотрудник,0,,жилье
83,0,52,среднее,1,женат / замужем,0,M,сотрудник,0,,жилье


In [192]:
for category in income_category_list.index:
    median = income_category_list[category]
    print(category,': Медиана = ',  median)
    print(median)
    print('Пропусков было:', data[data['income_type']==category]['total_income'].isnull().sum())
    
    data.loc[data.loc[:, 'income_type']==category, 'total_income'] = data.loc[data.loc[:, 'income_type']==category, 'total_income'].fillna(median)
    print('Пропусков стало:', data[data['income_type']==category]['total_income'].isnull().sum())
    print()
print('Пропущенных значений осталось:', data['total_income'].isna().sum())


в декрете : Медиана =  53829.13072905995
53829.13072905995
Пропусков было: 0
Пропусков стало: 0

студент : Медиана =  98201.62531401133
98201.62531401133
Пропусков было: 0
Пропусков стало: 0

пенсионер : Медиана =  118514.48641164352
118514.48641164352
Пропусков было: 413
Пропусков стало: 0

безработный : Медиана =  131339.7516762103
131339.7516762103
Пропусков было: 0
Пропусков стало: 0

сотрудник : Медиана =  142594.39684740017
142594.39684740017
Пропусков было: 1105
Пропусков стало: 0

госслужащий : Медиана =  150447.9352830068
150447.9352830068
Пропусков было: 147
Пропусков стало: 0

компаньон : Медиана =  172357.95096577113
172357.95096577113
Пропусков было: 508
Пропусков стало: 0

предприниматель : Медиана =  499163.1449470857
499163.1449470857
Пропусков было: 1
Пропусков стало: 0

Пропущенных значений осталось: 0


In [193]:
#Проведём проверку в строках (№№ 12 - пенсионер, 26 - госслужащий, 65 - компаньон, 82 - сотрудник), где были сделаны замены пропусков из разных катергорий

In [194]:
print(data.loc[[12,26,65,82], ['total_income', 'income_type']])

     total_income  income_type
12  118514.486412    пенсионер
26  150447.935283  госслужащий
65  172357.950966    компаньон
82  142594.396847    сотрудник


In [195]:
#Выводим таблицы медиан по категориям:

In [196]:
print(income_category_list)

income_type
в декрете           53829.130729
студент             98201.625314
пенсионер          118514.486412
безработный        131339.751676
сотрудник          142594.396847
госслужащий        150447.935283
компаньон          172357.950966
предприниматель    499163.144947
Name: total_income, dtype: float64


In [197]:
#Таблицы совпадают

<font size = 4> **Столбец gender**</font>

In [198]:
#Заменим строку с "XNA" на "F"

In [199]:
print(data.loc[data['gender']=='XNA']) #определим местанахождение строки с XNA
print()
print(data['gender'].value_counts())
print()
data.loc[data['gender']=='XNA', 'gender'] = 'F' #производим замену на 'F'
print(data['gender'].value_counts())
print()
print(data.loc[10701]) #выводим строку 10701 где была осущетствлена замена для проверки

       children  dob_years            education  education_id  \
10701         0         24  неоконченное высшее             2   

          family_status  family_status_id gender income_type  debt  \
10701  гражданский брак                 1    XNA   компаньон     0   

        total_income               purpose  
10701  203905.157261  покупка недвижимости  

F      14236
M       7288
XNA        1
Name: gender, dtype: int64

F    14237
M     7288
Name: gender, dtype: int64

children                               0
dob_years                             24
education            неоконченное высшее
education_id                           2
family_status           гражданский брак
family_status_id                       1
gender                                 F
income_type                    компаньон
debt                                   0
total_income               203905.157261
purpose             покупка недвижимости
Name: 10701, dtype: object


In [200]:
#Замена была успешно проведена

<font size=4> **Столбец children**</font>

Столбец Children - Некорректные значения "20" (малое количество) и "-1" (нереальное значение). Необходимо удалить данные строки, поскольку очщее число в выбоке их незначительно

In [201]:
print(data['children'].value_counts())

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64


In [202]:
#Для того чтобы удалить строки с -1 и 20 проверим их перед удалением на возможную закономерность

In [203]:
display(data[data['children']==-1].head(10))
display(data[data['children']==20].head(10))

Unnamed: 0,children,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
291,-1,46,среднее,1,гражданский брак,1,F,сотрудник,0,102816.346412,профильное образование
705,-1,50,среднее,1,женат / замужем,0,F,госслужащий,0,137882.899271,приобретение автомобиля
742,-1,57,среднее,1,женат / замужем,0,F,сотрудник,0,64268.044444,дополнительное образование
800,-1,54,среднее,1,Не женат / не замужем,4,F,пенсионер,0,86293.724153,дополнительное образование
941,-1,57,Среднее,1,женат / замужем,0,F,пенсионер,0,118514.486412,на покупку своего автомобиля
1363,-1,55,СРЕДНЕЕ,1,женат / замужем,0,F,компаньон,0,69550.699692,профильное образование
1929,-1,38,среднее,1,Не женат / не замужем,4,M,сотрудник,0,109121.569013,покупка жилья
2073,-1,42,среднее,1,в разводе,3,F,компаньон,0,162638.609373,покупка жилья
3814,-1,26,Среднее,1,гражданский брак,1,F,госслужащий,0,131892.785435,на проведение свадьбы
4201,-1,41,среднее,1,женат / замужем,0,F,госслужащий,0,226375.766751,операции со своей недвижимостью


Unnamed: 0,children,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
606,20,21,среднее,1,женат / замужем,0,M,компаньон,0,145334.865002,покупка жилья
720,20,44,среднее,1,женат / замужем,0,F,компаньон,0,112998.738649,покупка недвижимости
1074,20,56,среднее,1,женат / замужем,0,F,сотрудник,1,229518.537004,получение образования
2510,20,59,высшее,0,вдовец / вдова,2,F,сотрудник,0,264474.835577,операции с коммерческой недвижимостью
2941,20,0,среднее,1,женат / замужем,0,F,сотрудник,0,199739.941398,на покупку автомобиля
3302,20,35,среднее,1,Не женат / не замужем,4,F,госслужащий,0,150447.935283,профильное образование
3396,20,56,высшее,0,женат / замужем,0,F,компаньон,0,172357.950966,высшее образование
3671,20,23,среднее,1,Не женат / не замужем,4,F,сотрудник,0,101255.492076,на покупку подержанного автомобиля
3697,20,40,среднее,1,гражданский брак,1,M,сотрудник,0,115380.694664,на покупку подержанного автомобиля
3735,20,26,высшее,0,Не женат / не замужем,4,M,сотрудник,0,137200.646181,ремонт жилью


Закономерности выявлено не было, поэтому удаляем эти строки

In [204]:
str1 = data[data['children']==-1].index
print(str1)
str20 = data[data['children']==20].index
print(str20)
print(data.info())


Int64Index([  291,   705,   742,   800,   941,  1363,  1929,  2073,  3814,
             4201,  4402,  4542,  5272,  6013,  6385,  7190,  7278,  7615,
             7685,  8229,  8251,  8561,  9565,  9574, 10177, 10365, 10918,
            11109, 11268, 11617, 12304, 13786, 14357, 15147, 15435, 16129,
            16265, 17095, 17429, 17657, 18219, 19100, 19366, 19417, 20393,
            20717, 21140],
           dtype='int64')
Int64Index([  606,   720,  1074,  2510,  2941,  3302,  3396,  3671,  3697,
             3735,  3877,  5020,  5315,  5349,  5362,  6198,  6428,  7027,
             7078,  7516,  7789,  7962,  8430,  8883,  8909,  8950,  9889,
            10194, 10377, 10736, 10782, 11449, 11489, 11715, 11937, 12212,
            12226, 12319, 12390, 12534, 12909, 12910, 13256, 13291, 13471,
            13489, 13618, 14355, 14474, 14782, 15313, 15674, 15762, 15812,
            15976, 16371, 16795, 16886, 17093, 17134, 17286, 17509, 18476,
            18493, 18756, 18890, 19271, 19562, 

In [205]:
str_delete_count=0 #используем конструкцию try, except для проверки удаления ненужных нам строк
try:
    for drop_str in str1:
        data = data.drop(drop_str)
        str_delete_count+=1
except:
    print('Строки не удалились')
print('Число удалённых строк с -1:', str_delete_count)

str_del_count=0
try:
    for drop_str in str20:
        data = data.drop(drop_str)
        str_del_count+=1
except:
    print('Неполучилось удалить строку')    
print('Число удалённых строк с "20" =', str_del_count)

print(data[data['children']==20].head())
print(data[data['children']==-1].head())
  
data = data.reset_index(drop=True)
print(data.info())



Число удалённых строк с -1: 47
Число удалённых строк с "20" = 76
Empty DataFrame
Columns: [children, dob_years, education, education_id, family_status, family_status_id, gender, income_type, debt, total_income, purpose]
Index: []
Empty DataFrame
Columns: [children, dob_years, education, education_id, family_status, family_status_id, gender, income_type, debt, total_income, purpose]
Index: []
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21402 entries, 0 to 21401
Data columns (total 11 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21402 non-null  int64  
 1   dob_years         21402 non-null  int64  
 2   education         21402 non-null  object 
 3   education_id      21402 non-null  int64  
 4   family_status     21402 non-null  object 
 5   family_status_id  21402 non-null  int64  
 6   gender            21402 non-null  object 
 7   income_type       21402 non-null  object 
 8   debt              214

In [206]:
#Число строк благодаря удалением необходимых строк осталось 21402 , т. к 21525 - 47 - 76 = 21402

<font size=4> **Столбец dob_years**</font>

In [207]:
print(data['dob_years'].value_counts().sort_index())

0     100
19     14
20     51
21    110
22    183
23    252
24    263
25    356
26    406
27    490
28    501
29    543
30    536
31    556
32    506
33    577
34    597
35    614
36    553
37    531
38    595
39    572
40    603
41    603
42    592
43    510
44    543
45    494
46    469
47    480
48    536
49    505
50    509
51    446
52    483
53    457
54    476
55    441
56    482
57    457
58    461
59    441
60    376
61    353
62    351
63    268
64    263
65    194
66    183
67    167
68     99
69     83
70     65
71     58
72     33
73      8
74      6
75      1
Name: dob_years, dtype: int64


Поскольку, после выполнение предыдущей операции оставшееся число 100 в строке 1 является некорректным, удалим его, поскольку такая ошибка в выборке не превышает 0,5%

In [208]:
display(data[data['dob_years']==0].head(10)) #выведем первые 10 значений на экран

Unnamed: 0,children,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
99,0,0,Среднее,1,женат / замужем,0,F,пенсионер,0,71291.522491,автомобиль
149,0,0,среднее,1,в разводе,3,F,сотрудник,0,70176.435951,операции с жильем
270,3,0,среднее,1,женат / замужем,0,F,сотрудник,0,102166.458894,ремонт жилью
577,0,0,среднее,1,женат / замужем,0,F,пенсионер,0,97620.687042,строительство собственной недвижимости
1033,0,0,высшее,0,в разводе,3,F,компаньон,0,303994.134987,свой автомобиль
1141,0,0,среднее,1,женат / замужем,0,F,компаньон,0,201852.430096,покупка недвижимости
1167,0,0,среднее,1,женат / замужем,0,F,пенсионер,0,313949.845188,получение дополнительного образования
1377,0,0,высшее,0,женат / замужем,0,M,госслужащий,0,240523.618071,сделка с автомобилем
1881,0,0,высшее,0,Не женат / не замужем,4,F,сотрудник,0,142594.396847,жилье
1889,0,0,среднее,1,вдовец / вдова,2,F,пенсионер,0,127400.268338,на покупку автомобиля


Закономерности выявлено не было, поэтому удаляем эти строки

In [209]:
str0 = data[data['dob_years']==0].index
print(str0)

Int64Index([   99,   149,   270,   577,  1033,  1141,  1167,  1377,  1881,
             1889,  2071,  2273,  2458,  2476,  2858,  3031,  3134,  3687,
             4044,  4127,  4899,  4907,  4991,  6042,  6376,  6380,  6638,
             6746,  6799,  6816,  6827,  7001,  7040,  7042,  7217,  7308,
             8020,  8373,  8529,  8627,  8739,  9014,  9103,  9538, 10112,
            10136, 10253, 10311, 10329, 10490, 10540, 11019, 11229, 11407,
            11420, 11514, 11601, 11925, 11997, 12159, 12230, 12333, 12658,
            13044, 13114, 13159, 13338, 13348, 13364, 13444, 13663, 13889,
            14395, 14432, 14526, 14577, 15057, 15211, 15324, 15348, 15797,
            15802, 15952, 16767, 16827, 17117, 17207, 17512, 18074, 18312,
            18434, 18627, 18745, 19008, 19261, 19716, 20346, 20461, 21060,
            21194],
           dtype='int64')


In [210]:
str_delete_count=0
for i in str0:
    data = data.drop(i)
    str_delete_count+=1
print('Число удалённых строк с "0" =', str_delete_count)
print()
print(data[data['dob_years']==0].head())
data = data.reset_index(drop=True)
print(data.info())

Число удалённых строк с "0" = 100

Empty DataFrame
Columns: [children, dob_years, education, education_id, family_status, family_status_id, gender, income_type, debt, total_income, purpose]
Index: []
<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21302 entries, 0 to 21301
Data columns (total 11 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21302 non-null  int64  
 1   dob_years         21302 non-null  int64  
 2   education         21302 non-null  object 
 3   education_id      21302 non-null  int64  
 4   family_status     21302 non-null  object 
 5   family_status_id  21302 non-null  int64  
 6   gender            21302 non-null  object 
 7   income_type       21302 non-null  object 
 8   debt              21302 non-null  int64  
 9   total_income      21302 non-null  float64
 10  purpose           21302 non-null  object 
dtypes: float64(1), int64(5), object(5)
memory usage: 1.8+ MB
None


In [211]:
#Всего осталось 21302 после удаления 100 строк

In [212]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21302 entries, 0 to 21301
Data columns (total 11 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21302 non-null  int64  
 1   dob_years         21302 non-null  int64  
 2   education         21302 non-null  object 
 3   education_id      21302 non-null  int64  
 4   family_status     21302 non-null  object 
 5   family_status_id  21302 non-null  int64  
 6   gender            21302 non-null  object 
 7   income_type       21302 non-null  object 
 8   debt              21302 non-null  int64  
 9   total_income      21302 non-null  float64
 10  purpose           21302 non-null  object 
dtypes: float64(1), int64(5), object(5)
memory usage: 1.8+ MB


<font size = 4> **Вывод**</font>

In [213]:
#После проведения операций по удалению строк, у нас осталось 21302 строки из изначальных 21525, что вполне допустимо для дальнейшего исследования. Также мы удалили столбец days_employed, поскольку он нам не нужен был для исследования

### Шаг 2.3. Изменение типов данных.

In [214]:
#Произведём замену в двух столбцах, а именно, в столбце debt на bool и total_income на int

In [215]:
print('dept до изменения: ', data[data['debt']!=0]['debt'].head())
data['debt'] = data['debt'].astype(bool)
print('dept после изменения: ', data[data['debt']==1]['debt'].head())

dept до изменения:  14    1
32    1
38    1
55    1
75    1
Name: debt, dtype: int64
dept после изменения:  14    True
32    True
38    True
55    True
75    True
Name: debt, dtype: bool


In [216]:
print('total_income до изменения: ', data['total_income'].head())
data['total_income'] = data['total_income'].astype(int)
print('total_income после изменения ', data['total_income'].head())


total_income до изменения:  0    253875.639453
1    112080.014102
2    145885.952297
3    267628.550329
4    158616.077870
Name: total_income, dtype: float64
total_income после изменения  0    253875
1    112080
2    145885
3    267628
4    158616
Name: total_income, dtype: int32


In [217]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21302 entries, 0 to 21301
Data columns (total 11 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21302 non-null  int64 
 1   dob_years         21302 non-null  int64 
 2   education         21302 non-null  object
 3   education_id      21302 non-null  int64 
 4   family_status     21302 non-null  object
 5   family_status_id  21302 non-null  int64 
 6   gender            21302 non-null  object
 7   income_type       21302 non-null  object
 8   debt              21302 non-null  bool  
 9   total_income      21302 non-null  int32 
 10  purpose           21302 non-null  object
dtypes: bool(1), int32(1), int64(4), object(5)
memory usage: 1.6+ MB


<font size = 4> **Вывод** </font>

Были заменены типы данных в столбцах dept и total_income для лучшего понимания информации во время чтения.

### Шаг 2.4. Удаление дубликатов.

<font size = 4> **Столбец education**</font>

In [218]:
print(data['education'].value_counts())
print()
print(data['education_id'].value_counts())

среднее                13609
высшее                  4666
СРЕДНЕЕ                  764
Среднее                  700
неоконченное высшее      663
ВЫСШЕЕ                   270
Высшее                   266
начальное                250
Неоконченное высшее       47
НЕОКОНЧЕННОЕ ВЫСШЕЕ       29
НАЧАЛЬНОЕ                 17
Начальное                 15
ученая степень             4
Ученая степень             1
УЧЕНАЯ СТЕПЕНЬ             1
Name: education, dtype: int64

1    15073
0     5202
2      739
3      282
4        6
Name: education_id, dtype: int64


In [219]:
#Исходя из вышеприведённых данных, мы видим дубликаты в тройном экземпляре. Скорее всего, было неудачное слияние трех баз. Стоят разные регистры. В данном случае нам необходимо привести всё к одному регистру - книжнему, а затем проверить, совпадает ли число категорий education с категориями education_id

In [220]:
data['education'] = data['education'].str.lower()
print(data['education'].value_counts())
print()
print(data['education_id'].value_counts())

среднее                15073
высшее                  5202
неоконченное высшее      739
начальное                282
ученая степень             6
Name: education, dtype: int64

1    15073
0     5202
2      739
3      282
4        6
Name: education_id, dtype: int64


In [221]:
#Числовые данные в категориях education и education_id совпали

### Шаг 2.5. Категоризация дохода.

Для выполнении категоризации дохода, необходимо воспользоваться столбцом total_income. Создадим новый столбец total_income_category с категориями:
0–30000 — 'E';
30001–50000 — 'D';
50001–200000 — 'C';
200001–1000000 — 'B';
1000001 и выше — 'A'.


In [222]:
def total_income_category(total_income):
    if total_income <= 30000:
        return 'E'
    if total_income <= 50000:
        return 'D'
    if total_income <= 200000:
        return 'C'
    if total_income <= 1000000:
        return 'B'
    return 'A'
data['total_income_category'] = data['total_income'].apply(total_income_category)
print(data['total_income_category'].value_counts())
display(data.head())
print(data.info())

#data['total_income_category'] = data['total_income'].apply(total_income_category)
#print(data.groupby('total_income_category')['total_income'].sum())



C    15920
B     4988
D      347
A       25
E       22
Name: total_income_category, dtype: int64


Unnamed: 0,children,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,42,высшее,0,женат / замужем,0,F,сотрудник,False,253875,покупка жилья,B
1,1,36,среднее,1,женат / замужем,0,F,сотрудник,False,112080,приобретение автомобиля,C
2,0,33,среднее,1,женат / замужем,0,M,сотрудник,False,145885,покупка жилья,C
3,3,32,среднее,1,женат / замужем,0,M,сотрудник,False,267628,дополнительное образование,B
4,0,53,среднее,1,гражданский брак,1,F,пенсионер,False,158616,сыграть свадьбу,C


<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21302 entries, 0 to 21301
Data columns (total 12 columns):
 #   Column                 Non-Null Count  Dtype 
---  ------                 --------------  ----- 
 0   children               21302 non-null  int64 
 1   dob_years              21302 non-null  int64 
 2   education              21302 non-null  object
 3   education_id           21302 non-null  int64 
 4   family_status          21302 non-null  object
 5   family_status_id       21302 non-null  int64 
 6   gender                 21302 non-null  object
 7   income_type            21302 non-null  object
 8   debt                   21302 non-null  bool  
 9   total_income           21302 non-null  int32 
 10  purpose                21302 non-null  object
 11  total_income_category  21302 non-null  object
dtypes: bool(1), int32(1), int64(4), object(6)
memory usage: 1.7+ MB
None


In [223]:
#Был образован столбец с 5 категориями как просили в задаче (A, B, C, D, E)

### Шаг 2.6. Категоризация целей кредита.

<font size = 4> **Столбец purpose** </font>

В столбце purpose необходимо привести все цели кредита к единым названиям, а именно к:

-'операции с автомобилем',
-'операции с недвижимостью',
-'проведение свадьбы',
-'получение образования'.

Из вышеприведённых данных мы видем, что существуют почти одинаковые причины взятия кредита. Скорее всего, строки имеют разные регистры по предыдущей причине - было слито 3 разных базы. Создайте функцию, которая на основании данных из столбца purpose сформирует новый столбец purpose_category, в которые войдут категории: -'операции с автомобилем', -'операции с недвижимостью', -'проведение свадьбы', -'получение образования'.

In [255]:
display(data['purpose'].value_counts())

свадьба                                   791
на проведение свадьбы                     768
сыграть свадьбу                           764
операции с недвижимостью                  670
покупка коммерческой недвижимости         658
покупка жилья для сдачи                   649
операции с коммерческой недвижимостью     644
операции с жильем                         642
покупка жилья для семьи                   639
жилье                                     636
покупка жилья                             635
недвижимость                              628
операции со своей недвижимостью           626
строительство собственной недвижимости    626
строительство недвижимости                620
строительство жилой недвижимости          619
покупка своего жилья                      618
покупка недвижимости                      616
ремонт жилью                              607
покупка жилой недвижимости                600
на покупку своего автомобиля              501
заняться высшим образованием      

In [224]:
def purpose_category(list):
    if 'авто' in list:
        return "Операции с автомобилем"
    if "образ" in list:
        return "Получение образования"
    if "свадьб" in list:
        return "Проведение свадьбы"
    if "недви" in list:
        return "Операции с недвижимостью"
    if "строит" in list:
        return "Операции с недвижимостью"
    if "жил" in list:
        return "Операции с недвижимостью"
data['purpose_category'] = data['purpose'].apply(purpose_category)
print(data['purpose_category'].head(100))

0     Операции с недвижимостью
1       Операции с автомобилем
2     Операции с недвижимостью
3        Получение образования
4           Проведение свадьбы
                ...           
95      Операции с автомобилем
96    Операции с недвижимостью
97       Получение образования
98    Операции с недвижимостью
99    Операции с недвижимостью
Name: purpose_category, Length: 100, dtype: object


In [225]:
print(data['purpose_category'].value_counts())
print()
display(data.head())

Операции с недвижимостью    10733
Операции с автомобилем       4267
Получение образования        3979
Проведение свадьбы           2323
Name: purpose_category, dtype: int64



Unnamed: 0,children,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,42,высшее,0,женат / замужем,0,F,сотрудник,False,253875,покупка жилья,B,Операции с недвижимостью
1,1,36,среднее,1,женат / замужем,0,F,сотрудник,False,112080,приобретение автомобиля,C,Операции с автомобилем
2,0,33,среднее,1,женат / замужем,0,M,сотрудник,False,145885,покупка жилья,C,Операции с недвижимостью
3,3,32,среднее,1,женат / замужем,0,M,сотрудник,False,267628,дополнительное образование,B,Получение образования
4,0,53,среднее,1,гражданский брак,1,F,пенсионер,False,158616,сыграть свадьбу,C,Проведение свадьбы


In [226]:
#Была успешно проведена группировка по 4 категориям.

### Ответы на вопросы.

### Шаг 2.7. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

##### Вопрос 1: Есть ли зависимость между количеством детей и возвратом кредита в срок?

Для того, чтобы проанализировать взаимозависимость двух факторов, создади сводную таблицу методом pivot.table с помощью столбцов children и debt. Группировать их будем при помощи family_status и family_status_id

In [227]:
data_pivot_children = data.pivot_table(index=['family_status_id', 'family_status', 'gender'], columns='children', values='debt', aggfunc='sum')
display(data_pivot_children)

Unnamed: 0_level_0,Unnamed: 1_level_0,children,0,1,2,3,4,5
family_status_id,family_status,gender,Unnamed: 3_level_1,Unnamed: 4_level_1,Unnamed: 5_level_1,Unnamed: 6_level_1,Unnamed: 7_level_1,Unnamed: 8_level_1
0,женат / замужем,F,290.0,127.0,96.0,10.0,0.0,0.0
0,женат / замужем,M,224.0,117.0,49.0,7.0,3.0,0.0
1,гражданский брак,F,131.0,69.0,24.0,7.0,0.0,0.0
1,гражданский брак,M,96.0,49.0,6.0,1.0,0.0,0.0
2,вдовец / вдова,F,42.0,6.0,3.0,0.0,0.0,
2,вдовец / вдова,M,10.0,1.0,0.0,,,
3,в разводе,F,44.0,13.0,4.0,0.0,0.0,
3,в разводе,M,11.0,8.0,3.0,1.0,,
4,Не женат / не замужем,F,82.0,28.0,7.0,0.0,1.0,
4,Не женат / не замужем,M,128.0,23.0,2.0,1.0,,


In [238]:
debt_children['count_children'] = data.groupby('children')['debt'].count() 
debt_children['sum_children'] = data.groupby('children')['debt'].sum()
debt_children['result_children'] = debt_children['sum_children'] / debt_children['count_children']
print(debt_children)

          count_children  sum_children  result_children
children                                               
0                  14080          1058         0.075142
1                   4802           441         0.091837
2                   2042           194         0.095005
3                    328            27         0.082317
4                     41             4         0.097561
5                      9             0         0.000000


Описывая вышеизложенные данные, можно сказать, что количество детей напрямую влияет на погашении кредита в срок

##### Вопрос 2: Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [244]:
data_pivot_family_status = data.groupby(['family_status_id', 'family_status']).agg({'debt':['sum', 'count']})
print(data_pivot_family_status)

                                       debt       
                                        sum  count
family_status_id family_status                    
0                женат / замужем        923  12254
1                гражданский брак       383   4139
2                вдовец / вдова          62    947
3                в разводе               84   1179
4                Не женат / не замужем  272   2783


Наибольшее числе невозвратов кредита в срок у женатых/замужних пар. На втором месте по задолженности - люди, находящиеся в гражданском браке. На третьем месте по долгам находятся люди, которые без пары.

##### Вопрос 3: Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [248]:
data_pivot_income_rating = data.groupby(['total_income_category']).agg({'debt':['sum', 'count']}) #Применим столбец total_income_category из пердыдущей главы
print(data_pivot_income_rating)

                       debt       
                        sum  count
total_income_category             
A                         2     25
B                       353   4988
C                      1346  15920
D                        21    347
E                         2     22


Из приведённой выше таблицы мы видим, что большинство должников являются люди, которые получают средние доходы, а именно категории C (50001–200000). Здесь отчётливо наблюдается линейная зависимость, поскольку мы видим вовольно минимальное количество людей с крайневысокими и крайне низкими доходами, которые задолжали денег в банк

##### Вопрос 4: Как разные цели кредита влияют на его возврат в срок?

In [249]:
data_pivot_income_rating = data.groupby(['purpose_category']).agg({'debt':['sum', 'count']}) #Применим столбец total_income_category из пердыдущей главы
print(data_pivot_income_rating)

                         debt       
                          sum  count
purpose_category                    
Операции с автомобилем    397   4267
Операции с недвижимостью  777  10733
Получение образования     369   3979
Проведение свадьбы        181   2323


In [None]:
Исходя из вышеприведённых данных, мы видим, что большинство заёмщиков - люди, которые проводят операции с недвижимостью, а именно, покупают квартиры, ремонитруют их, строют дома и т. д. На втором месте по займам находятся люди, которые покупают автомобиль. На тертем же месте - люди, которые вкладывают деньги в образование 

## Общий вывод:

В заключение всего вышеизложенного, можно сказать, что все поставленные задачи были решены, а цель нашего проекта была достигнута. Сначала мы занимались предобработкой данных, а именно, удалали и структурировали дубликаты, категоризировали данные, прежде чем анализировать их. Затем, проанализировав данные, мы смогли ответить на поставленные нам четыре вопроса. Были выявлены закономерности возврата кредита в срок на количество детей в семье, семейное положение, уровнем дохода, а также на цели самого кредита.