<h1>Содержание<span class="tocSkip"></span></h1>
<div class="toc"><ul class="toc-item"><li><span><a href="#Обзор-данных" data-toc-modified-id="Обзор-данных-1"><span class="toc-item-num">1&nbsp;&nbsp;</span>Обзор данных</a></span></li><li><span><a href="#Предобработка-данных" data-toc-modified-id="Предобработка-данных-2"><span class="toc-item-num">2&nbsp;&nbsp;</span>Предобработка данных</a></span><ul class="toc-item"><li><span><a href="#Заполнение-пропусков" data-toc-modified-id="Заполнение-пропусков-2.1"><span class="toc-item-num">2.1&nbsp;&nbsp;</span>Заполнение пропусков</a></span></li><li><span><a href="#Проверка-данных-на-аномалии-и-исправления" data-toc-modified-id="Проверка-данных-на-аномалии-и-исправления-2.2"><span class="toc-item-num">2.2&nbsp;&nbsp;</span>Проверка данных на аномалии и исправления</a></span></li><li><span><a href="#Изменение-типов-данных" data-toc-modified-id="Изменение-типов-данных-2.3"><span class="toc-item-num">2.3&nbsp;&nbsp;</span>Изменение типов данных</a></span></li><li><span><a href="#Удаление-дубликатов" data-toc-modified-id="Удаление-дубликатов-2.4"><span class="toc-item-num">2.4&nbsp;&nbsp;</span>Удаление дубликатов</a></span></li><li><span><a href="#Формирование-дополнительных-датафреймов-словарей,-декомпозиция-исходного-датафрейма" data-toc-modified-id="Формирование-дополнительных-датафреймов-словарей,-декомпозиция-исходного-датафрейма-2.5"><span class="toc-item-num">2.5&nbsp;&nbsp;</span>Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма</a></span></li><li><span><a href="#Категоризация-дохода" data-toc-modified-id="Категоризация-дохода-2.6"><span class="toc-item-num">2.6&nbsp;&nbsp;</span>Категоризация дохода</a></span></li><li><span><a href="#Категоризация-целей-кредита" data-toc-modified-id="Категоризация-целей-кредита-2.7"><span class="toc-item-num">2.7&nbsp;&nbsp;</span>Категоризация целей кредита</a></span></li></ul></li><li><span><a href="#Вывод" data-toc-modified-id="Вывод-3"><span class="toc-item-num">3&nbsp;&nbsp;</span>Вывод</a></span></li></ul></div>

# Исследование надежности заемщиков - анализ банковских данных #

Заказчиком данного исследования является кредитный отдел банка. 

**Цель исследования** - изучение влияния на платежеспособность клиентов таких факторов, как: количество детей, семейное положение, уровень дохода и цель кредита. 


Результаты исследования будут учтены при построении специальной системы, которая будет оценивать способность потенциального заемщика вернуть кредит в срок.

## Обзор данных

In [1]:
# импорт библиотек
import pandas as pd

In [2]:
# чтение файла с данными и сохранение в data
data = pd.read_csv('/datasets/data.csv')
# вывод первых строй таблицы
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу


In [3]:
# получение общей информации о данных 
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


**Описание данных:**
- children — количество детей в семье,
- days_employed — общий трудовой стаж в днях,
- dob_years — возраст клиента в годах,
- education — уровень образования клиента,
- education_id — идентификатор уровня образования, 
- family_status — семейное положение, 
- family_status_id — идентификатор семейного положения, 
- gender — пол клиента, 
- income_type — тип занятости, 
- debt — имел ли задолженность по возврату кредитов, 
- total_income — ежемесячный доход, 
- purpose — цель получения кредита.

## Предобработка данных

### Заполнение пропусков

In [4]:
# подсчет пропусков
data.isna().sum()

children               0
days_employed       2174
dob_years              0
education              0
education_id           0
family_status          0
family_status_id       0
gender                 0
income_type            0
debt                   0
total_income        2174
purpose                0
dtype: int64

Найдены пропущенные значения в столбцах 'days_employed' и 'total_income'

In [5]:
# доля пропущенных значений
data.isna().mean()

children            0.000000
days_employed       0.100999
dob_years           0.000000
education           0.000000
education_id        0.000000
family_status       0.000000
family_status_id    0.000000
gender              0.000000
income_type         0.000000
debt                0.000000
total_income        0.100999
purpose             0.000000
dtype: float64

Доля пропущенных значений в колонках 'days_employed' и 'total_income' сотавляет 10%.

Пропущенные значения в данных могут быть вызваны ошибками ввода данных, отсутствием необходимой информации для внесения сведений. 

Выделим несколько категорий заемщиков и по каждой категории рассчитаем значение медианы и проведем замену пропущенных значений в каждой категории.

In [6]:
# найдем уникальные значения в столбце 'income_type'
data['income_type'].unique()

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

In [7]:
# найдем медианные значения для каждой группы в столбце 'total_income' 
data.groupby('income_type')['total_income'].median()

income_type
безработный        131339.751676
в декрете           53829.130729
госслужащий        150447.935283
компаньон          172357.950966
пенсионер          118514.486412
предприниматель    499163.144947
сотрудник          142594.396847
студент             98201.625314
Name: total_income, dtype: float64

In [8]:
# заменим пропущенные значения медианными в столбце 'total_income'
data['total_income'] = data['total_income'].fillna(data.groupby('income_type')['total_income'].transform('median'))
# проверка пропусков в столбце 'total_income'
data['total_income'].isna().sum()

0

In [9]:
# поиск медианных значений для каждой группы в столбце 'days_employed' 
data.groupby('income_type')['days_employed'].median()

income_type
безработный        366413.652744
в декрете           -3296.759962
госслужащий         -2689.368353
компаньон           -1547.382223
пенсионер          365213.306266
предприниматель      -520.848083
сотрудник           -1574.202821
студент              -578.751554
Name: days_employed, dtype: float64

In [10]:
# замена пропущенных значений медианным в столбце 'days_employed'
data['days_employed'] = data['days_employed'].fillna(data.groupby('income_type')['days_employed'].transform('median'))
# проверка пропусков в столбце 'days_employed'
data['days_employed'].isna().sum()

0

'days_employed' и 'total_income' это количественные переменные, некоторые значения в них существенно отличаются от остальных, поэтому заполнение пропущенных значений медианным для каждой группы заемщиков будет более правильным, чем нахождение среднего значения.

### Проверка данных на аномалии и исправления

In [11]:
# проверка столбца 'children'
data['children'].value_counts()

 0     14149
 1      4818
 2      2055
 3       330
 20       76
-1        47
 4        41
 5         9
Name: children, dtype: int64

В столбце 'children' есть отрицательные значения, но поскольку мы не обладаем точной информацией по какой причине возникла данная ошибка, можно предположить, что причиной послужил человеческий фактор, поэтому исправим отрицательные значения на положительные.

In [12]:
# исправление ошибки в отрицательном количестве детей
data['children'] = data['children'].replace(-1, 1)
# нахождение медианного и среднего значения по количеству детей
display(data.loc[data['children'] != 20]['children'].sort_values().median())
display(data.loc[data['children'] != 20]['children'].sort_values().mean())

0.0

0.474334467807357

Также в этом столбце выделяется большое количество детей. Для исправления ошибок по количеству детей среднее значение нам не подходит. Медианное значение сильно повлияет на результаты дальнейшего исследования, поэтому возможно, что при внесении информации был поставлен лишний 0. Заменим в данных 20 на 2.

In [13]:
# исправление ошибки в количестве детей
data['children'] = data['children'].replace(20, 2)
# проверим количество уникальных значений в столбце 'children'
data['children'].value_counts()

0    14149
1     4865
2     2131
3      330
4       41
5        9
Name: children, dtype: int64

In [14]:
# проверка столбца 'dob_years'
display(data.loc[data['dob_years'] <= 0]['dob_years'].count())
display(data.loc[data['dob_years'] >= 100]['dob_years'].count())

101

0

В столбце 'dob_years' указан возраст клиентов равный 0, но поскольку данный показатель не повлияет на результаты дальнейшего исследования, оставим его без изменений.

In [15]:
# проверка столбца 'days_employed'
data['days_employed'].describe()

count     21525.000000
mean      63550.497071
std      141150.420058
min      -18388.949901
25%       -2570.047544
50%       -1355.683356
75%        -316.240646
max      401755.400475
Name: days_employed, dtype: float64

In [16]:
# найдем максимальный стаж среди клиентов в годах
yaer_employed_max = data['days_employed'].max()/365
yaer_employed_max

1100.6997273296713

Мы видим, что количество отработанных лет выглядит очень неправдоподобным, к тому же большинство данных имеет отрицательное значение. Может быть данные приведены в количестве отработанных часов? Необходимо все-таки уточнить в каком формате они представлены.

In [17]:
# заменим отрицательные значения в столбце 'days_employed' на положительные
data['days_employed'] = abs(data['days_employed'])
# проверим столбец 'days_employed'
data.loc[data['days_employed'] < 0]['days_employed'].count()

0

In [18]:
# проверка столбца 'gender'
data['gender'].unique()

array(['F', 'M', 'XNA'], dtype=object)

В столбце 'gender' есть аномалия в виде значения 'XNA', оставим данную ошибку без изменений, поскольку пол заемщиков не влияет на результаты дальнейшего исследования.

### Изменение типов данных

In [19]:
# замена вещественного типа данных на целочисленный в столбцах 'total_income' и 'days_employed' 
data['total_income'] = data['total_income'].astype('int')
data['days_employed'] = data['days_employed'].astype('int')
# проверка типа данных
display(data['total_income'].dtypes)
data['days_employed'].dtypes

dtype('int64')

dtype('int64')

### Удаление дубликатов

In [20]:
# нахождение неявных дубликатов в столбце 'education'
sorted(data['education'].unique())

['ВЫСШЕЕ',
 'Высшее',
 'НАЧАЛЬНОЕ',
 'НЕОКОНЧЕННОЕ ВЫСШЕЕ',
 'Начальное',
 'Неоконченное высшее',
 'СРЕДНЕЕ',
 'Среднее',
 'УЧЕНАЯ СТЕПЕНЬ',
 'Ученая степень',
 'высшее',
 'начальное',
 'неоконченное высшее',
 'среднее',
 'ученая степень']

In [21]:
# приведение значений столбца 'education' к нижнему регистру
data['education'] = data['education'].str.lower()
# проверка столбца 'education'
sorted(data['education'].unique())

['высшее', 'начальное', 'неоконченное высшее', 'среднее', 'ученая степень']

In [22]:
# подсчет числа явных дубликатов
data.duplicated().sum()

71

In [23]:
# удаление явных дубликатов (с удалением старых индексов и формированием новых)
data = data.drop_duplicates().reset_index(drop=True)
# проверка на отсутствие явных дубликатов
display(data.duplicated().sum())
# получение размера таблицы после удаления дубликатов
data.shape

0

(21454, 12)

In [24]:
# проверка столбца 'family_status'
data['family_status'].unique()

array(['женат / замужем', 'гражданский брак', 'вдовец / вдова',
       'в разводе', 'Не женат / не замужем'], dtype=object)

In [25]:
# проверка столбца 'income_type'
data['income_type'].unique()

array(['сотрудник', 'пенсионер', 'компаньон', 'госслужащий',
       'безработный', 'предприниматель', 'студент', 'в декрете'],
      dtype=object)

In [26]:
# нахождение неявных дубликатов в столбце 'purpose'
sorted(data['purpose'].unique())

['автомобили',
 'автомобиль',
 'высшее образование',
 'дополнительное образование',
 'жилье',
 'заняться высшим образованием',
 'заняться образованием',
 'на покупку автомобиля',
 'на покупку подержанного автомобиля',
 'на покупку своего автомобиля',
 'на проведение свадьбы',
 'недвижимость',
 'образование',
 'операции с жильем',
 'операции с коммерческой недвижимостью',
 'операции с недвижимостью',
 'операции со своей недвижимостью',
 'покупка жилой недвижимости',
 'покупка жилья',
 'покупка жилья для сдачи',
 'покупка жилья для семьи',
 'покупка коммерческой недвижимости',
 'покупка недвижимости',
 'покупка своего жилья',
 'получение высшего образования',
 'получение дополнительного образования',
 'получение образования',
 'приобретение автомобиля',
 'профильное образование',
 'ремонт жилью',
 'свадьба',
 'свой автомобиль',
 'сделка с автомобилем',
 'сделка с подержанным автомобилем',
 'строительство жилой недвижимости',
 'строительство недвижимости',
 'строительство собственной недв

In [27]:
# замена неявных дубликатов в столбце 'purpose' c формированием столбца 'purpose_category'

def purpose_function(purpose):
    try:
        if 'недвижим' in purpose or 'жил' in purpose:
            return 'операции с недвижимостью'
        elif 'автомоб' in purpose:
            return 'операции с автомобилем'
        elif 'свадьб' in purpose:
            return 'проведение свадьбы'
        elif 'образов' in purpose:
            return 'получение образования'
    except:
        return 'проверить данные'
        
data['purpose_category'] = data['purpose'].apply(purpose_function)
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,операции с недвижимостью
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,операции с автомобилем
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,операции с недвижимостью
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,получение образования
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,проведение свадьбы


In [28]:
# проверка столбца 'purpose_category'
data['purpose_category'].value_counts()

операции с недвижимостью    10811
операции с автомобилем       4306
получение образования        4013
проведение свадьбы           2324
Name: purpose_category, dtype: int64

Возможными причинами появления явных дубликатов может быть неправильная выгрузка данных из разных источников, повторная подача заявок клиентами. Причины появления неявных дубликатов: ошибки клиентов при заполнении, заполнение заявок в произвольное форме. 
Для нахождения и подсчета явных дубликатов был использован метод duplicated().sum(). Для их удаления - drop_duplicates(), при этом нарушается порядок индексации строк, чтобы их перенумеровать и удалить старую индексацию был применен параметр reset_index(drop=True).

### Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма

In [29]:
# создание датафрейма со столбцами 'education_id' и 'education'
new_education = data[['education', 'education_id']]
new_education.drop_duplicates().reset_index(drop=True)

Unnamed: 0,education,education_id
0,высшее,0
1,среднее,1
2,неоконченное высшее,2
3,начальное,3
4,ученая степень,4


In [30]:
# создание датафрейма со столбцами 'family_status_id' и 'family_status'
new_family_status = data[['family_status', 'family_status_id']]
new_family_status.drop_duplicates().reset_index(drop=True)

Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,гражданский брак,1
2,вдовец / вдова,2
3,в разводе,3
4,Не женат / не замужем,4


In [31]:
# удаление из исходного датафрейма столбцов 'education' и 'family_status'
data.drop(['education', 'family_status'], axis = 1).head()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,операции с недвижимостью
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,операции с автомобилем
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,операции с недвижимостью
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,получение образования
4,0,340266,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,проведение свадьбы


###  Категоризация дохода

In [32]:
# создание столбца 'total_income_category'

def total_income_function(total_income):
    try:
        if total_income <= 30000:
            return 'E'
        if total_income <= 50000:
            return 'D'
        if total_income <= 200000:
            return 'C'
        if total_income <= 1000000:
            return 'B'
        if total_income > 1000000:
            return 'A'
    except:
        return 'проверить данные'
    
data['total_income_category'] = data['total_income'].apply(total_income_function)
data.head()

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose,purpose_category,total_income_category
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья,операции с недвижимостью,B
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля,операции с автомобилем,C
2,0,5623,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья,операции с недвижимостью,C
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование,получение образования,B
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу,проведение свадьбы,C


### Категоризация целей кредита

In [33]:
# сводная таблица зависимости между количеством детей и возвратом кредита в срок
data_children_debt = data.pivot_table(index = 'children', columns = 'debt', values = 'days_employed', aggfunc='count')
data_children_debt['ratio'] = data_children_debt[1]/data_children_debt[0]*100
data_children_debt

debt,0,1,ratio
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
0,13028.0,1063.0,8.159349
1,4410.0,445.0,10.090703
2,1926.0,202.0,10.488058
3,303.0,27.0,8.910891
4,37.0,4.0,10.810811
5,9.0,,


In [34]:
# сводная таблица зависимости между семейным положением и возвратом кредита в срок
data_family_status_debt = data.pivot_table(index ='family_status', columns = 'debt',\
                                           values = 'days_employed', aggfunc='count')
data_family_status_debt['ratio'] = data_family_status_debt[1]/data_family_status_debt[0]*100
data_family_status_debt

debt,0,1,ratio
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Не женат / не замужем,2536,274,10.804416
в разводе,1110,85,7.657658
вдовец / вдова,896,63,7.03125
гражданский брак,3763,388,10.310922
женат / замужем,11408,931,8.16094


In [35]:
# сводная таблица зависимости между уровнем дохода и возвратом кредита в срок
data_total_income_debt = data.pivot_table(index = 'total_income_category',\
                                          columns = 'debt', values = 'days_employed', aggfunc='count')
data_total_income_debt['ratio'] = data_total_income_debt[1]/data_total_income_debt[0]*100
data_total_income_debt

debt,0,1,ratio
total_income_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
A,23,2,8.695652
B,4686,356,7.597098
C,14655,1360,9.280109
D,329,21,6.382979
E,20,2,10.0


In [36]:
# сводная таблица зависимости между целями кредита и его возвратом в срок
data_purpose_dept = data.pivot_table(index = 'purpose_category', columns = 'debt',\
                                     values = 'days_employed', aggfunc='count')
data_purpose_dept['ratio'] = data_purpose_dept[1]/data_purpose_dept[0]*100
data_purpose_dept

debt,0,1,ratio
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
операции с автомобилем,3903,403,10.325391
операции с недвижимостью,10029,782,7.797388
получение образования,3643,370,10.156464
проведение свадьбы,2138,186,8.699719


## Вывод

В ходе проведения исследования мы изучили влияние количества детей, семейного положения, уровеня дохода и цели кредита на платежеспособность клиентов. Основание для исследования являются входные данные от банка - статистика платежеспособности клиентов. 

Данные прошли необходимую предобработку, в ходе которой были найдены и устранены такие проблемы, как: пропуски, аномалии, дубликаты, изменение типов данных.

Данные были разбиты на определенные группы - категории, составлены итоговые сводные таблицы, которые помогли ответить на основые вопросы исследования, а именно:

- бездетные клиенты имееют меньший процент по просрочке кредитов, являясь более платежеспособными среди остальных. Клиенты, имеющие в семье по 4 ребенка, чаще всех имеют задолженность;

- вдовы и вдовцы, а также клиенты, находящиеся в разводе, стараются погашать кредиты в срок, что нельзя сказать о неженатых и незамужних клиентах;

- меньшую задолженность по кредитам имеют клиенты с невысоким доходом - от 30 до 50 тысяч рублей. Клиенты с доходом от 50 до 200 тысяч рублей и более 1 млн, чаще остальных не платят кредиты в срок;

- клиенты, имеющие кредиты на покупку недвижимости, стараются гасить платежи в срок. Задержку по платежам имеют лица, взявшие кредиты на покупку автомобилей и получение образования.

Таким образом, для банка наиболее привлекательными с точки зрения платежеспособности являются клиенты без детей, лица, находящиеся в разводе, вдовы или вдовцы, имеющие доход от 30 до 50 тысяч рублей. 

Результаты данного исследования могут быть учтены при построении специальной системы, которая будет оценивать способность потенциального заемщика вернуть кредит в срок.