# Исследование надежности заемщиков

## Обзор данных

In [1]:
import pandas as pd  #импорт библиотеки pandas

In [2]:
data = pd.read_csv('data.csv')  #чтение файла data.csv и сохранение в переменной data

In [3]:
data.head(10) # просмотр первых 10 строк таблицы data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


In [4]:
data.info() #получение общей информации о таблице data

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Итак, в таблице 12 столбцов. Типы данных в столбцах: object, int64 и float64.

Согласно документации к данным:
* `children` — количество детей в семье;
* `days_employed` — общий трудовой стаж в днях;
* `dob_years` — возраст клиента в годах;
* `education` — уровень образования клиента;
* `education_id` — идентификатор уровня образования;
* `family_status` — семейное положение;
* `family_status_id` — идентификатор семейного положения;
* `gender` — пол клиента;
* `income_type` — тип занятости;
* `debt` — имел ли задолженность по возврату кредитов;
* `total_income` — ежемесячный доход;
* `purpose` — цель получения кредита.

Названия столбцов корректные в соответствие с хорошим стилем, исправление названий не требуется.

Количество значений в столбцах различается. Значит, в данных есть пропущенные значения.

**Выводы**

В каждой строке таблицы - данные о клиенте. Часть колонок рассказывает о личных данных клиента: количество детей, семейное положение, возраст, пол. Другая часть - о профессиональных характеристиках: уровень образования, трудовой стаж, тип занятости и ежемесячный доход. И в оставшихся столбцах данные о кредитах клиента: была ли у него задолженность и какая цель получения кредита.

Предварительно можно утверждать, что, данных достаточно для проверки гипотез. Но встречаются пропуски в данных, некорректные значения, например, отрицательные значения в столбце `days_employed`, а также одни и те же значения, записанные в разных регистрах, например, в стобце `education`. 

Для более эффективной работы с данными и большей наглядности для проверки гипотез необходимо произвести их категоризицию по уровням доходов и целям кредитов.

Чтобы двигаться дальше, нужно устранить проблемы в данных.

## Предобработка данных

### Проверка данных на аномалии и исправления.

По первым строкам таблицы можно заметить, что в столбце `days_employed` присутствуют отрицательные значения и данные значения указаны для клиентов с типом занятости отличным от `пенсионер`, из чего можно сделать вывод, что по остальным типам заняности произошла ошибка данных, необходимо значения исправить на положительные.

In [5]:
data['days_employed'] = abs(data['days_employed'])  #возьмём все значения в столбце `days_employed` по модулю
data.head()  #проверим, что отрицательных значений больше нет

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


Также в столбце `days_employed` присутствуют аномально большие, например, если перевести значение 340266.072047 в года, то получится приблизительно 932 года, чего не может быть. После уточнения формата выгрузки, выяснилось, что большие числа указаны в часах, а не днях. Определим максимальный рабочий стаж в РФ как разницу между средней продолжительностью жизни и совершеннолетием = 72 года (по данным Росстата на 2021 год) - 18 лет = 54 года или 19710 дней. Соответсвенно, все значения больше 19710 в столбце являются некорректными и их нужно перевести в дни.

In [6]:
#отсортируем таблицу по убыванию значений в столбце `days_employed` и выведем 5 первых строк
data.sort_values(by='days_employed', ascending=False).head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
6954,0,401755.400475,56,среднее,1,вдовец / вдова,2,F,пенсионер,0,176278.441171,ремонт жилью
10006,0,401715.811749,69,высшее,0,Не женат / не замужем,4,F,пенсионер,0,57390.256908,получение образования
7664,1,401675.093434,61,среднее,1,женат / замужем,0,F,пенсионер,0,126214.519212,операции с жильем
2156,0,401674.466633,60,среднее,1,женат / замужем,0,M,пенсионер,0,325395.724541,автомобили
7794,0,401663.850046,61,среднее,1,гражданский брак,1,F,пенсионер,0,48286.441362,свадьба


In [7]:
#выберем в столбце `days_employed` все значения больше 19710 и переведём их в дни
data.loc[data['days_employed'] > 19710, 'days_employed'] = data['days_employed'] / 24
#провеврим результат
data.sort_values(by='days_employed', ascending=False).head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
16335,1,18388.949901,61,среднее,1,женат / замужем,0,F,сотрудник,0,186178.934089,операции с недвижимостью
4299,0,17615.563266,61,среднее,1,женат / замужем,0,F,компаньон,0,122560.741753,покупка жилья
6954,0,16739.808353,56,среднее,1,вдовец / вдова,2,F,пенсионер,0,176278.441171,ремонт жилью
10006,0,16738.158823,69,высшее,0,Не женат / не замужем,4,F,пенсионер,0,57390.256908,получение образования
7664,1,16736.462226,61,среднее,1,женат / замужем,0,F,пенсионер,0,126214.519212,операции с жильем


Проверим какие значения есть в столбцах `children`, `dob_years`, `education`, `family_status`, `gender` и `income_type`.

In [8]:
data['children'].sort_values().unique()  #выведем уникальные значения столбца `children`

array([-1,  0,  1,  2,  3,  4,  5, 20])

Значения -1 и 20 являются аномальными для столбца `children`. Узнаем их количество и долю от общего количества значений в столбце.

In [9]:
data.groupby('children')['children'].count()  #группируем количество значений по каждому значению в столбце `children`

children
-1        47
 0     14149
 1      4818
 2      2055
 3       330
 4        41
 5         9
 20       76
Name: children, dtype: int64

In [10]:
#находим долю от общего количества значений в столбце `children`
print(f'Доля аномальных значений для столбца children: {(47 + 76) / 21525:.1%}')

Доля аномальных значений для столбца children: 0.6%


Так как аномальных значений достаточно маленькое количество и нет возможности выяснить причину появления данных значений, предлагается удалить их из таблицы.

In [11]:
data = data.loc[(data['children'] != -1) & (data['children'] != 20)]  #удаляем из таблицы строки с аномальными значениями
data.groupby('children')['children'].count()  #проверяем результат

children
0    14149
1     4818
2     2055
3      330
4       41
5        9
Name: children, dtype: int64

In [12]:
data.shape  #проверим новое количество строк

(21402, 12)

In [13]:
data['dob_years'].sort_values().unique()  #выведем уникальные значения столбца `dob_years`

array([ 0, 19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34,
       35, 36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51,
       52, 53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68,
       69, 70, 71, 72, 73, 74, 75])

Значение 0 является аномальным для столбца `dob_years`. Проверим количество и долю таких значений.

In [14]:
dob_years_0 = len(data.loc[data['dob_years'] == 0])  #сохраним в переменную dob_years_0 все значения равные 0
print(f'Количество значений 0 в столбце dob_years: {dob_years_0}')
print(f'Доля значений 0 в столбце dob_years: {dob_years_0 / 21402:.1%}')

Количество значений 0 в столбце dob_years: 100
Доля значений 0 в столбце dob_years: 0.5%


Так как доля аномальных значений незначительная и нет возможности выяснить причину появления данных значений, предлагается удалить их из таблицы.

In [15]:
data = data.loc[data['dob_years'] != 0]  #удаляем из таблицы строки с аномальными значениями
data['dob_years'].sort_values().unique()  #проверяем уникальные значения столбца `dob_years`

array([19, 20, 21, 22, 23, 24, 25, 26, 27, 28, 29, 30, 31, 32, 33, 34, 35,
       36, 37, 38, 39, 40, 41, 42, 43, 44, 45, 46, 47, 48, 49, 50, 51, 52,
       53, 54, 55, 56, 57, 58, 59, 60, 61, 62, 63, 64, 65, 66, 67, 68, 69,
       70, 71, 72, 73, 74, 75])

In [16]:
data.shape  #проверим новое количество строк

(21302, 12)

In [17]:
data['education'].sort_values().unique()  #выведем уникальные значения столбца `education`

array(['ВЫСШЕЕ', 'Высшее', 'НАЧАЛЬНОЕ', 'НЕОКОНЧЕННОЕ ВЫСШЕЕ',
       'Начальное', 'Неоконченное высшее', 'СРЕДНЕЕ', 'Среднее',
       'УЧЕНАЯ СТЕПЕНЬ', 'Ученая степень', 'высшее', 'начальное',
       'неоконченное высшее', 'среднее', 'ученая степень'], dtype=object)

Аномальных значений не обнаружено, но имеются дубликаты, записанные разными регистрами. Обработаем их на этапе работы с дубликатами.

In [18]:
data['family_status'].sort_values().unique()  #выведем уникальные значения столбца `family_status`

array(['Не женат / не замужем', 'в разводе', 'вдовец / вдова',
       'гражданский брак', 'женат / замужем'], dtype=object)

Аномальных значений не обнаружено

In [19]:
data['gender'].sort_values().unique()  #выведем уникальные значения столбца `gender`

array(['F', 'M', 'XNA'], dtype=object)

Значение XNA является аномальным для столбца `gender`. Проверим количество и долю таких значений.

In [20]:
gender_XNA = len(data.loc[data['gender'] == 'XNA'])  #сохраним в переменную gender_XNA все значения равные XNA
print(f'Количество значений XNA в столбце gender: {gender_XNA}')
print(f'Доля значений XNA в столбце gender: {gender_XNA / 21302:.2%}')

Количество значений XNA в столбце gender: 1
Доля значений XNA в столбце gender: 0.00%


Так как доля аномальных значений незначительная и нет возможности выяснить причину появления данных значений, предлагается удалить их из таблицы.

In [21]:
data = data.loc[data['gender'] != 'XNA']  #удаляем из таблицы строки с аномальными значениями
data['gender'].sort_values().unique()  #проверяем уникальные значения столбца `dob_years`

array(['F', 'M'], dtype=object)

In [22]:
data.shape  #проверим новое количество строк

(21301, 12)

In [23]:
data['income_type'].sort_values().unique()  #выведем уникальные значения столбца `income_type`

array(['безработный', 'в декрете', 'госслужащий', 'компаньон',
       'пенсионер', 'предприниматель', 'сотрудник', 'студент'],
      dtype=object)

Аномальных значений не обнаружено

In [24]:
data = data.reset_index(drop=True) #удалим старые индексы и сформируем новые
data.head()  #проверим новые индексы

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,14177.753002,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


**Выводы**

На данном этапе мы проверили столбцы таблицы на наличие артефактов. Некорректные значения были обнаружены в столбцах `days_employed`, `children`, `dob_years` и `gender`. 
* В столбце `days_employed` исправили отрицательные значения на положительные, а также перевели значения из часов в дни. 
* В столбце `children` удалили строки с некорректными значениями -1 и 20. 
* В столбце `dob_years` удалили строки с некорректным значением 0. 
* И в столбце `gender` удалили строку с некорректным значением XNA. 
* Также в столбце `education` обнаружены дубликаты - значения написаны в разных регистрах. Обработаем их на шаге с удалением дубликатов.

### Заполнение пропусков

Пропущенные значения присутствуют в столбцах `days_employed` и `total_income`. Проверим количество таких значений и что это за значения.

In [25]:
data.isna().mean() #информация о доле пропущенных значений в каждом из столбцов таблицы

children            0.000000
days_employed       0.101028
dob_years           0.000000
education           0.000000
education_id        0.000000
family_status       0.000000
family_status_id    0.000000
gender              0.000000
income_type         0.000000
debt                0.000000
total_income        0.101028
purpose             0.000000
dtype: float64

In [26]:
display(data[data['days_employed'].isna()].head()) #информация о пропущенных значениях в столбце `days_employed`

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу


In [27]:
display(data[data['total_income'].isna()].head()) #информация о пропущенных значениях в столбце `total_income`

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу


Пропуски в данных могли появится либо из-за ошибки выгрузки данных, либо по причине того, что клиенты не захотели указывать свой стаж и уровень дохода. На будущее необходимо проверить корректность выгрузки данных, а также проверить работу скрипта заполнения и обработки данных клиентов и не принимать заполненную заявку с пропущенной информацией о стаже и уровне доходов.

Принимая во внимание то, что данные показатели являются колличественными и их доля в таблице состовляет около 10%, а сроки исследования являются сжатыми, предлагается заполнить пустые значения медианным значением по столбцу `days_employed`, а по столбцу `total_income` медианой, взятой по типам занятости клиентов.

Заполяем медианными значениями, а не средним в данном случае, так как разброс значений в столбцах может быть довольно большим.

In [28]:
#заполняем пропущенные значения в столбце `days_employed` медианным значением
data['days_employed'] = data['days_employed'].fillna(data['days_employed'].median())

In [29]:
data['total_income'].median() #посчитаем медиану по столбцу `total_income`

145017.93753253992

In [30]:
data.groupby('income_type')['total_income'].agg('median')  #теперь проверим медиану по каждой типу занятости отдельно

income_type
безработный        131339.751676
в декрете           53829.130729
госслужащий        150475.720290
компаньон          172466.509253
пенсионер          118497.661910
предприниматель    499163.144947
сотрудник          142594.396847
студент             98201.625314
Name: total_income, dtype: float64

Как и ожидалось разброс значений медиан по разным типам занятости достаточно большой, поэтому заменим пустые значения медианами по каждому из типов занятости.

In [31]:
#для заполнения медианой `total_income` в зависимоти от `income_type` записываем в отдельные переменные значения
m1 = (data['income_type'] == 'безработный')  
m2 = (data['income_type'] == 'в декрете')
m3 = (data['income_type'] == 'госслужащий')
m4 = (data['income_type'] == 'компаньон')
m5 = (data['income_type'] == 'пенсионер')
m6 = (data['income_type'] == 'предприниматель')
m7 = (data['income_type'] == 'сотрудник')
m8 = (data['income_type'] == 'студент')

In [32]:
#заполняем пропущенные значения в столбце `total_income` медианным значением в зависимости от типа занятости
data.loc[m1,'total_income'] = data.loc[m1,'total_income'].fillna(131339.751676)
data.loc[m2,'total_income'] = data.loc[m2,'total_income'].fillna(53829.130729)
data.loc[m3,'total_income'] = data.loc[m3,'total_income'].fillna(150475.720290)
data.loc[m4,'total_income'] = data.loc[m4,'total_income'].fillna(172466.509253)
data.loc[m5,'total_income'] = data.loc[m5,'total_income'].fillna(118497.661910)
data.loc[m6,'total_income'] = data.loc[m6,'total_income'].fillna(499163.144947)
data.loc[m7,'total_income'] = data.loc[m7,'total_income'].fillna(142594.396847)
data.loc[m8,'total_income'] = data.loc[m8,'total_income'].fillna(98201.625314)

In [33]:
data.isna().sum() #проверим, что пропущенных значений не осталось

children            0
days_employed       0
dob_years           0
education           0
education_id        0
family_status       0
family_status_id    0
gender              0
income_type         0
debt                0
total_income        0
purpose             0
dtype: int64

**Выводы**

На данном этапе мы обработали пропущенные значения, которые были обнаружены в столбцах `days_employed` и `total_income`.
Доля пропущенных значений в данных порядка 10% по каждому столбцу, что является значительной частью таблицы и может повлиять на выводы в проверке гипотез, а значит не подлежит удалению. Пропущенные значения были заменены на медианные, так как значения в каждом из столбцов достаточно сильно отличаются друг от друга.

### Изменение типов данных.

Значения в столбцах `days_employed` и `total_income` представлены в типе float, однако данные будут гораздо читабельнее, если они будут представлены в типе int. 

In [34]:
data['days_employed'] = data['days_employed'].astype('int')  #поменяем тип данных в столбце `days_employed` на int
data['total_income'] = data['total_income'].astype('int')  #поменяем тип данных в столбце `total_income` на int
data.info()  #проверим, что тип данных изменился

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21301 entries, 0 to 21300
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype 
---  ------            --------------  ----- 
 0   children          21301 non-null  int64 
 1   days_employed     21301 non-null  int64 
 2   dob_years         21301 non-null  int64 
 3   education         21301 non-null  object
 4   education_id      21301 non-null  int64 
 5   family_status     21301 non-null  object
 6   family_status_id  21301 non-null  int64 
 7   gender            21301 non-null  object
 8   income_type       21301 non-null  object
 9   debt              21301 non-null  int64 
 10  total_income      21301 non-null  int64 
 11  purpose           21301 non-null  object
dtypes: int64(7), object(5)
memory usage: 2.0+ MB


**Выводы**

На данном этапе мы изменили тип данных в столбцах `days_employed` и `total_income` на целочисленный для улучшения наглядности данных и удобства работы.

### Удаление дубликатов.

На этапе проверки наличия артефактов в данных мы обнаружили, что в столбце `education` есть одни и те же значения, но записанные по-разному: с использованием заглавных и строчных букв. Скорее всего это произошло из-за воможности ручного заполнения графы образование при подаче заявки на кредит. На будущее стоит рекомендовать зафиксировать список возможных значений и давать клиентам выбирать значение из списка. Приведём их к одному регистру.

In [35]:
data['education'].sort_values().unique()  #выведем уникальные значения столбца `education`

array(['ВЫСШЕЕ', 'Высшее', 'НАЧАЛЬНОЕ', 'НЕОКОНЧЕННОЕ ВЫСШЕЕ',
       'Начальное', 'Неоконченное высшее', 'СРЕДНЕЕ', 'Среднее',
       'УЧЕНАЯ СТЕПЕНЬ', 'Ученая степень', 'высшее', 'начальное',
       'неоконченное высшее', 'среднее', 'ученая степень'], dtype=object)

In [36]:
data['education'] = data['education'].str.lower()  #приводим все значения столбца `education` к нижнему регистру
data['education'].sort_values().unique()  #проверяем изменения

array(['высшее', 'начальное', 'неоконченное высшее', 'среднее',
       'ученая степень'], dtype=object)

Проверим значения в столбце `purpose` на наличие неявных дубликатов.

In [37]:
data['purpose'].sort_values().unique()  #выведем список уникальных значений столбца `purpose`

array(['автомобили', 'автомобиль', 'высшее образование',
       'дополнительное образование', 'жилье',
       'заняться высшим образованием', 'заняться образованием',
       'на покупку автомобиля', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля', 'на проведение свадьбы',
       'недвижимость', 'образование', 'операции с жильем',
       'операции с коммерческой недвижимостью',
       'операции с недвижимостью', 'операции со своей недвижимостью',
       'покупка жилой недвижимости', 'покупка жилья',
       'покупка жилья для сдачи', 'покупка жилья для семьи',
       'покупка коммерческой недвижимости', 'покупка недвижимости',
       'покупка своего жилья', 'получение высшего образования',
       'получение дополнительного образования', 'получение образования',
       'приобретение автомобиля', 'профильное образование',
       'ремонт жилью', 'свадьба', 'свой автомобиль',
       'сделка с автомобилем', 'сделка с подержанным автомобилем',
       'строительство 

Многие значения по смыслу дублируют друг друга. Скорее всего это произошло из-за воможности ручного заполнения графы цель кредита при подаче заявки на кредит. На будущее стоит рекомендовать зафиксировать список возможных значений и давать клиентам выбирать значение из списка. Для текущей задачи предлагается объединить одинаковые по смыслу значения в более широкие категории. Данная задача будет выполнена на этапе категоризации данных.

Проверим файл на наличие явных дубликатов.

In [38]:
print ('Дубликатов в таблице:', data.duplicated().sum())  #проверяем количество явных дубликатов в файле

Дубликатов в таблице: 71


In [39]:
duplicated_data = data[data.duplicated()]  #сформируем таблицу с дублирующимися строками
display(duplicated_data.head())

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
2823,0,2197,41,среднее,1,женат / замужем,0,F,сотрудник,0,142594,покупка жилья для семьи
3260,0,2197,58,среднее,1,гражданский брак,1,F,пенсионер,0,118497,сыграть свадьбу
4142,1,2197,34,высшее,0,гражданский брак,1,F,сотрудник,0,142594,свадьба
4808,0,2197,60,среднее,1,гражданский брак,1,F,пенсионер,0,118497,свадьба
5506,0,2197,58,среднее,1,гражданский брак,1,F,пенсионер,0,118497,сыграть свадьбу


Предположительно дубликаты возникли в следствие ошибки выгрузки данных. На будущее необходимо установить причину ошибки и устранить её. Для текущей задачи количество дублирующихся строк является некритичным, удалим их из таблицы.

In [40]:
# удалим явные дубликаты (с удалением старых индексов и формированием новых)
data = data.drop_duplicates().reset_index(drop=True)

In [41]:
data.duplicated().sum() # проверка на отсутствие дубликатов

0

**Выводы**

На данном этапе мы обработали строки с дубликатами:
* Все значения в столбце 'education' перевели в нижний регистр;
* Значения в столбце 'purpose' решили объединить в более общие категории на этапе категоризации;
* Удалили строки с явными дубликатами.

### Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

Для упрощения работы с таблицей данных выведем в отдельные словари значения стобцов `education_id` и `education`, а также `family_status_id` и `family_status`. После чего удалим из исходного датафрейма столбцы `education` и `family_status`, оставив только их идентификаторы: `education_id` и `family_status_id`.

In [42]:
#сохрагим в переменную `education_dict` словарь id и значений уровней образования клиентов
education_dict = data[['education_id', 'education']]  
education_dict.head()  #проверим результат

Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,1,среднее
3,1,среднее
4,1,среднее


In [43]:
education_dict = education_dict.drop_duplicates().reset_index(drop=True)  #удалим дубликаты и обновим ндексы
education_dict.sort_values('education_id')  #проверим итоговую таблицу со словарём ззначений

Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,2,неоконченное высшее
3,3,начальное
4,4,ученая степень


In [44]:
#сохрагим в переменную `family_status_dict` словарь id и значений семейного положения клиентов
family_status_dict = data[['family_status_id', 'family_status']]  
family_status_dict.head()  #проверим результат

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,0,женат / замужем
2,0,женат / замужем
3,0,женат / замужем
4,1,гражданский брак


In [45]:
family_status_dict = family_status_dict.drop_duplicates().reset_index(drop=True)  #удалим дубликаты и обновим ндексы
family_status_dict.sort_values('family_status_id')  #проверим итоговую таблицу со словарём ззначений

Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,1,гражданский брак
2,2,вдовец / вдова
3,3,в разводе
4,4,Не женат / не замужем


In [46]:
#удаляем столбцы `education` и `family_status` из исходной таблицы
data.drop(columns = ['education', 'family_status'], axis = 1, inplace=True)  
data.head()  #проверяем изменения

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,14177,53,1,1,F,пенсионер,0,158616,сыграть свадьбу


**Выводы**

На данном этапе мы создали отдельные словари значений для столбцов `education_id` и `education`, а также `family_status_id` и `family_status`. И удалили из исходной таблицы столбцы `education` и `family_status` с целью улучшения визуальной работы с ней.

## Проверка гипотез

### Зависимость между количеством детей и возвратом кредита в срок.

По обновлённой таблице построим сводную таблицу по возврату кредита в срок в зависимости от количества детей.

In [47]:
#построим сводную таблицу по количеству должников в зависимости от количества детей
data_pivot_children = data.pivot_table(index=['children'], columns='debt', values='dob_years', aggfunc='count')
data_pivot_children

debt,0,1
children,Unnamed: 1_level_1,Unnamed: 2_level_1
0,12963.0,1058.0
1,4351.0,441.0
2,1845.0,194.0
3,301.0,27.0
4,37.0,4.0
5,9.0,


In [48]:
#рассчитаем отношение количество должников к количеству возвращающих кредит в срок в зависимости от количества детей
data_pivot_children['ratio'] = data_pivot_children[1] / (data_pivot_children[0] + data_pivot_children[1])
data_pivot_children.sort_values(by='ratio', ascending=False)  #отсортируем таблицу по доле должников

debt,0,1,ratio
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
4,37.0,4.0,0.097561
2,1845.0,194.0,0.095145
1,4351.0,441.0,0.092028
3,301.0,27.0,0.082317
0,12963.0,1058.0,0.075458
5,9.0,,


**Выводы**

Исходя из полученных данных в сводной таблице, можно сделать следующие выводы:
* результаты по клиентам с 5 детьми не рассматриваем, так как количество данных очень маленькое и из этого можно сделать некорректные выводы;
* процент должников среди клиентов без детей ниже (7.5%), чем у клиентов с детьми (8-10%).
* клиенты с 3 детьми чаще возвращают кредит в срок, чем клиенты с 1, 2 и 4 детьми (8% против 9-10%), при этом, данных по  категориям с 3 и 4 детьми также не очень много, так что вывод может быть не совсем корректным.

### Зависимость между семйным положением и возвратом кредита в срок.

Построим сводную таблицу по возврату кредита в срок в зависимости от семйного положения.

In [49]:
#построим сводную таблицу по количеству должников в зависимости от семейного положения
data_pivot_family_status = data.pivot_table(index=['family_status_id'], columns='debt', values='dob_years', aggfunc='count')
data_pivot_family_status

debt,0,1
family_status_id,Unnamed: 1_level_1,Unnamed: 2_level_1
0,11290,923
1,3729,383
2,884,62
3,1095,84
4,2508,272


In [50]:
#рассчитаем отношение количества должников к количеству возвращающих кредит в срок в зависимости от семейного положения
data_pivot_family_status['ratio'] = data_pivot_family_status[1] / (data_pivot_family_status[0] + data_pivot_family_status[1])


In [51]:
#отсортируем таблицу по доле должников и добавим нназвание семейного статуса
family_status_dict.merge(data_pivot_family_status, on='family_status_id', how='left').sort_values(by='ratio', ascending=False)

Unnamed: 0,family_status_id,family_status,0,1,ratio
4,4,Не женат / не замужем,2508,272,0.097842
1,1,гражданский брак,3729,383,0.093142
0,0,женат / замужем,11290,923,0.075575
3,3,в разводе,1095,84,0.071247
2,2,вдовец / вдова,884,62,0.065539


**Выводы**

Исходя из полученных данных в сводной таблице, можно сделать следующие выводы:
* процент должников среди неженатых / незамужних клиентов либо находящихся в гражданском браке выше (9-10%), чем у женатых / замужних клиентов, в разводе либо вдовцов/вдов (6,6-7,6%);
* клиенты вдовцы / вдовы чаще других категорий возвращают кредиты в срок (6,6% просрочек).

### Категоризация дохода. Зависимость между уровнем дохода и возвратом кредита в срок.

Сгруппируем данные в столбце `total_income`, чтобы численности каждой группы хватало для формулировки выводов по гипотезе о влиянии дохода на возврат кредита в сорк.

In [52]:
def income_category(income):  #напишем функцию для категоризации доходов клиентов
    """
    Возваращает наименование категории дохода клиента в зависимости от размера ежемесячного дохода:
    - 'E', если income < 30000;
    - 'D', если income от 30001 до 50000;
    - 'C', если income от 50001 до 200000;
    - 'B', если income от 200001 до 1000000;
    - 'A', если income > 1000001.
    """
    
    if income <= 30000:
        return 'E'
    if 30000 < income <= 50000:
        return 'D'
    if 50000 < income <= 200000:
        return 'C'
    if 200000 < income <= 1000000:
        return 'B'
    return 'A'

#проверяем работу функции
print(income_category(29000))
print(income_category(67000))
print(income_category(1000005))

E
C
A


In [53]:
#создаём новый столбец `total_income_category` с категориями доходов клиентов
data['total_income_category'] = data['total_income'].apply(income_category)
data.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B
4,0,14177,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C


In [54]:
#построим сводную таблицу по количеству должников по каждой из категорий доходов клиентов
data_pivot_income = data.pivot_table(index=['total_income_category'], columns='debt', values='dob_years', aggfunc='count')
data_pivot_income

debt,0,1
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1
A,23,2
B,4634,353
C,14503,1346
D,326,21
E,20,2


In [55]:
#рассчитаем отношение количество должников к количеству возвращающих кредит в срок в каждой из групп
data_pivot_income['ratio'] = data_pivot_income[1] / (data_pivot_income[0] + data_pivot_income[1])
data_pivot_income.sort_values(by='ratio', ascending=False)  #отсортируем таблицу по доле должников

debt,0,1,ratio
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
E,20,2,0.090909
C,14503,1346,0.084926
A,23,2,0.08
B,4634,353,0.070784
D,326,21,0.060519


**Выводы**

Исходя из полученных данных в сводной таблице, можно сделать следующие выводы:
* результаты по категориям Е и А можно не рассматривать, так как количество данных очень маленькое и из этого можно сделать некорректные выводы;
* процент должников среди клиентов с доходами от 50001 до 200000 (категория С) больше, чем в категориях B и D (8,5% против 7% и 6,1%).

### Категоризация целей кредита. Зависимость между целями кредита и возвратом кредита в срок.

На этапе обработки дубликатов в таблице мы заметили, что в столбце `purpose` многие значения по смыслу дублируют друг друга. Для проверки гипотезы влияния цели кредита на его возврат в срок предлагается объединить одинаковые по смыслу значения в более общие категории.

In [56]:
data['purpose'].sort_values().unique()  #выведем список уникальных значений столбца `purpose`

array(['автомобили', 'автомобиль', 'высшее образование',
       'дополнительное образование', 'жилье',
       'заняться высшим образованием', 'заняться образованием',
       'на покупку автомобиля', 'на покупку подержанного автомобиля',
       'на покупку своего автомобиля', 'на проведение свадьбы',
       'недвижимость', 'образование', 'операции с жильем',
       'операции с коммерческой недвижимостью',
       'операции с недвижимостью', 'операции со своей недвижимостью',
       'покупка жилой недвижимости', 'покупка жилья',
       'покупка жилья для сдачи', 'покупка жилья для семьи',
       'покупка коммерческой недвижимости', 'покупка недвижимости',
       'покупка своего жилья', 'получение высшего образования',
       'получение дополнительного образования', 'получение образования',
       'приобретение автомобиля', 'профильное образование',
       'ремонт жилью', 'свадьба', 'свой автомобиль',
       'сделка с автомобилем', 'сделка с подержанным автомобилем',
       'строительство 

In [57]:
def purpose_group(purpose):  #напишем функцию для категоризации целей кредитов
    """
    Возваращает наименование категории цели кредита в зависимости от значения в столбце `purpose`:
    - 'операции с автомобилем', если purpose содержит 'авто';
    - 'операции с недвижимостью', если purpose содержит 'недвиж' или 'жиль';
    - 'проведение свадьбы', если purpose содержит 'свадь';
    - 'получение образования', если purpose содержит 'образов'.
    """
    
    try:
        if 'авто' in purpose:
            return 'операции с автомобилем'
        if 'недвиж' in purpose or 'жиль' in purpose:
            return 'операции с недвижимостью'
        if 'свадь' in purpose:
            return 'проведение свадьбы'
        if 'образов' in purpose:
            return 'получение образования'
    except:
        return 'NA'

#проверяем работу функции
print(purpose_group('дополнительное образование'))
print(purpose_group('строительство недвижимости'))
print(purpose_group('сыграть свадьбу'))
print(purpose_group('сделка с автомобилем'))

получение образования
операции с недвижимостью
проведение свадьбы
операции с автомобилем


In [58]:
#создаём новый столбец `purpose_category` с категориями доходов клиентов
data['purpose_category'] = data['purpose'].apply(purpose_group)
data.head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,14177,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы


In [59]:
#проверяем, что все знаяения из столбца `purpose` попали в новые категории = не должно быть значения NA
data['purpose_category'].sort_values().unique()

array(['операции с автомобилем', 'операции с недвижимостью',
       'получение образования', 'проведение свадьбы'], dtype=object)

In [60]:
#построим сводную таблицу по количеству должников по каждой из категорий целей кредитов
data_pivot_purpose = data.pivot_table(index=['purpose_category'], columns='debt', values='dob_years', aggfunc='count')
data_pivot_purpose

debt,0,1
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1
операции с автомобилем,3861,397
операции с недвижимостью,9926,777
получение образования,3601,369
проведение свадьбы,2118,181


In [61]:
#рассчитаем отношение количество должников к количеству возвращающих кредит в срок в каждой из групп
data_pivot_purpose['ratio'] = data_pivot_purpose[1] / (data_pivot_purpose[0] + data_pivot_purpose[1])
data_pivot_purpose.sort_values(by='ratio', ascending=False)  #отсортируем таблицу по доле должников

debt,0,1,ratio
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с автомобилем,3861,397,0.093236
получение образования,3601,369,0.092947
проведение свадьбы,2118,181,0.07873
операции с недвижимостью,9926,777,0.072596


**Выводы**

Исходя из полученных данных в сводной таблице, можно сделать следующие выводы:
* процент должников среди клиентов, которые берут кредит на авто или на образование, примерно равен - 9,3%;
* процент должников среди клиентов с кредитами на свадьбу и на недвижимость ниже, чем по остальным категориям - порядка 7,3-7,9%.

### Итоги исследования

Мы проверили четыре гипотезы и установили:

#### Гипотеза 1: Количество детей клиента влияет на возврат кредита в срок

По итогам исследования можно сделать вывод, что гипотеза подтвердилась.
Доля просрочивших возврат кредита у клиентов без детей ниже (7.5%), чем у клиентов с детьми (8-10%).

#### Гипотеза 2: Семейное положение клиента влияет на возврат кредита в срок

Гипотиза также подтвердилась, доля просрочивших возврат кредита у клиентов, находящихся в браке, разводе либо вдовцов/вдов ниже (6,6-7,6%), чем у клиентов в гражданском браке либо вне брака (9-10%).

#### Гипотеза 3. Уровень дохода влияет на возврат кредита в срок

Гипотиза также подтвердилась, нельзя сказать, что, чем выше доход клиента, тем более вероятно, что он вернёт кредит в срок, но по данным видно, что  доля просрочивших возврат кредита у клиентов с доходами от 50001 до 200000 (категория С) выше, чем в категориях B и D (8,5% против 7% и 6,1%). По категориям A и E недостаточно данных для формирования выводов.

#### Гипотеза 4. Цель кредита влияет на возврат кредита в срок.

Гипотиза также подтвердилась, доля просрочивших возврат кредита у клиентов с кридитами на автомобили и образование выше, чем у клиентов с кредитами на свадьбы и недвижимость (9,3% против 7,3-7,9%).

## Общий вывод:

По результатам исследования можно сделать вывод о том, что в зависимости от факторов наличия детей, семейного положения, уровня дохода и цели кредита есть влияние на показатель возврата кредита в срок порядка 2-3,5%, на которые стоит обратить внимание. В данных по некоторым категориям слишком мало значений, что не позволяет сделать какие-либо выводы о клиентах этих категорий. Для улучшения достоверности результатов исследования рекомендуется провести исследование на более широкой выборке клиентов.