# Исследование надежности заемщиков.

## Обзор данных
- Задача: разобраться, влияет ли семейное положение и количество детей клиента на факт погашения кредита в срок.

### Описание
- Название столбцов:

- children — количество детей в семье
- days_employed — общий трудовой стаж в днях
- dob_years — возраст клиента в годах
- education — уровень образования клиента
- family_status — семейное положение
- gender — пол клиента
- income_type — тип занятости
- debt — имел ли задолженность по возврату кредитов
- total_income — ежемесячный доход
- purpose — цель получения кредита

In [1]:
# импортируем библиотеки
import pandas as pd
import os

In [2]:
# сохраняем уникальный путь для данных
path = 'C:\\Users\\tbyni\\Рабочий стол\\YA_DA12+\\2 Предобработка данных\\Проект\\'

In [3]:
# выгружаем необходимую информацию 
df = pd.read_csv(path + 'borrower_research.csv', sep = ',')

In [4]:
# просматриваем общую информацию о данных
df.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
 #   Column            Non-Null Count  Dtype  
---  ------            --------------  -----  
 0   children          21525 non-null  int64  
 1   days_employed     19351 non-null  float64
 2   dob_years         21525 non-null  int64  
 3   education         21525 non-null  object 
 4   education_id      21525 non-null  int64  
 5   family_status     21525 non-null  object 
 6   family_status_id  21525 non-null  int64  
 7   gender            21525 non-null  object 
 8   income_type       21525 non-null  object 
 9   debt              21525 non-null  int64  
 10  total_income      19351 non-null  float64
 11  purpose           21525 non-null  object 
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [5]:
# получаем общую информацию о данных
df.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


In [6]:
# просматриваем первые 20 строк
df.head(20)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


Просматривая таблицу, выявили следующее:

- Перекос в кол-ве значений в 2х столбцам. (days_employed, total_income) Кол-во 19351. Предполагаем, что это пропуски, которые нам будет необходимо заполнить. 
- В столбцах: children, days_employed, есть минусовые значения, что само по себе не может быть. 
- В столбце education нет единого формата шрифта.
- Наличие значений равных 0 в столбце dob_years, чего так же не может быть.
- Странные значения в days_employed, очень много, заметим для себя, но исправлять нет смысла, т.к данный столбец не влиялет на цель исследования. 
- Странное кол-во детей в столбце children, а тоесть 20, можно будет привести к большему кол-ву и отнести к многодетным, чтобы таблица была более приятна глазу. 


## Заполнение пропусков

In [7]:
 # df.isna().sum() # Узнаем кол-во пропущенных значений.
 # "Процент пропущенных значений в столбце days_employed: {:,.1%}".format(df['days_employed'].isna().sum()/len(df)) # Узнаем % пропущенных значений относительно общего кол-ва.
 # "Процент пропущенных значений в столбце total_income: {:,.1%}".format(df['total_income'].isna().sum()/len(df)) # Узнаем % пропущенных значений относительно общего кол-ва.
df['total_income'] = df['total_income'].fillna(value = df['total_income'].median()) # Заполняем пропуски в столбце total_income
df['days_employed'] = df['days_employed'].fillna(value = df['days_employed'].mean()) # Заполняем пропуски в столбце total_income
 # df.info() # Убеждаемся, что все пропуски в столбцах days_employed и total_income заполнены. 

- Определили кол-во пропущенных значений, уточнили, что % более 5 значит необходимо заполнение, чтобы данные были корректны. Далее будем делать акцент на столбец total_income, т.к он непосредственно влияет на исследование, а столбец days_employed полон аномалий и не информативен для данного исследования, (Не влияет ни на кол-во детей, ни на факт погашения кредита.) далее его не используем. 

- Т.к в столбце total_income, столь разные заработки и есть так называемые лидеры, то правильнее будет использовать медианные значения, чтобы избежать предвзятости.

### Проверка данных на аномалии и исправления.

In [8]:
 # df['children'].unique() # Ранее узнали, что в столбце есть странные значения. Узнаем. 
 # df['children'][df['children'] == -1].count() # Уточняем кол-во заемщиков с -1 в графе дети.(amount=47)
 # df['children'][df['children'] == 20].count() # Уточняем кол-во заемщиков с 20 в графе дети.(amount=76)
df['children'] = df['children'].replace(-1, 1) # Замена отрицательных значений на положительные.
df['children'] = df['children'].replace(20, 5) # Как ранее писал заемщики с 20 детьми переходят в список многодетных.
 # df['children'].value_counts() # Проверяем. Все сходится.

- Cтолбец с возрастом клиентов (dob_years) исправлять не будем ввиду его не информативности. 
- Исправил столбец children в соотвествии с планом. Значение -1 заменил, т.к думаю, что в данном случае техническая ошибка и скорее всего клиент хотел указать 1, клиентов с кол-вом детей 20 перенес в раздел многодетных, а тоесть >5.

In [9]:
 # df['gender'].value_counts() # Проверяем столбец на корректность. 
df['gender'] = df['gender'].replace('XNA', 'F') # Т.к female больше практически в 2 раза отнесем данную ошибку в F. 
 # df['gender'].value_counts() # check 'gender'
 # df['family_status'].value_counts() # check 'family_status'

- Проверил важные для нас столбцы gender и family_status на корректность. Все исправлено.

### Изменение типов данных.

In [10]:
 # заменяем формат данных
df['total_income'] = df['total_income'].astype('int')
 # df.info()
 # df.head(20)

### Удаление дубликатов.

In [11]:
 # приводим строки к единой форме  
df['education'] = df['education'].str.lower() 
 # df['education'].value_counts() # ckeck 'education' 
 # df.duplicated().sum() # просматриваем кол-во дубликатов. (amount=71)
 # "Процент дубликатов: {:,.2%}".format(df.duplicated().sum()/len(df)) #(percent = 0,3)
df = df.drop_duplicates() # удаляем дубликаты. 
 # df.duplicated().sum() # check 

- Привели названия строк в столбце education к единой форме.
- % дубликатов низкий, поэтому можем удалить это никак не повлияет на анализ.

### Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

In [12]:
# создаем дополнительные "словари".
education_id = df[['education', 'education_id']]
family_status_id = df[['family_status', 'family_status_id']]

### Категоризация дохода.

In [13]:
 # категоризуем клиентов по доходу
def total_income_category(total_income):
    if total_income >= 0 and total_income <= 30000:
        return 'E'
    if total_income > 30001 and total_income <= 50000:
        return 'D'
    if total_income > 50001 and total_income <= 200000:
        return 'C'
    if total_income > 200001 and total_income <= 1000000:
        return 'B'
    if total_income > 1000001:
        return 'A'
df['total_income_id'] = df['total_income'].apply(total_income_category)
 # df['total_income_id'].value_counts() # Уточняем кол-во людей по достатку. 

- Создаем функцию для распределения клиентов по уровню их доходов:

- А = клиенты с уровнем дохода 100001 и выше;
- B = клиенты с уровнем дохода 200001 - 1000000;
- С = клиенты с уровнем дохода 50001 - 200000;
- D = клиенты с уровнем дохода 30001 - 50000; 
- E = клиенты с уровнем дохода 0 - 30000.

### Категоризация целей кредита.

In [14]:
 # функция для категоризации целей кредита
def purpose_category(row):
    if 'автомобил' in row:
        return 'операции с автомобилем'
    elif 'недвижимост' in row or 'жиль' in row:
        return 'операции с недвижимостью'
    elif 'свадьб' in row:
        return 'проведение свадьбы'
    elif 'образован' in row:
        return 'получение образования'
    else:
        return 'ошибка'
    
df['purpose_category'] = df['purpose'].apply(purpose_category)
 # df['purpose_category'].value_counts() # check

- Создаем функцию, чтобы понять для какой цели клиенты чаще всего берут кредиты. Как мы видим, что основной причиной для заема является покупка жилья. Можем предопложить, что здесь есть прямая взаимосвзяь с кол-вом детей и как следствие увеличением жил. площади. 

### Ответы на вопросы.

#### Вопрос 1: Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [15]:
# просматриваем зависимость между кол-вом детей и возвратом кредита в срок
child_depend_debt = pd.DataFrame()
child_depend_debt['amount_children'] = df.groupby('children')['debt'].count()
child_depend_debt['total_children'] = df.groupby('children')['debt'].sum()
child_depend_debt['final_children'] = child_depend_debt['total_children'] / child_depend_debt['amount_children'] 
child_depend_debt.sort_values('final_children', ascending = False)

Unnamed: 0_level_0,amount_children,total_children,final_children
children,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
4,41,4,0.097561
2,2052,194,0.094542
5,85,8,0.094118
1,4855,445,0.091658
3,330,27,0.081818
0,14091,1063,0.075438


Из полученных данных заметно выделяется факт, что люди без детей имеют гораздо меньший процент просрочки по кредиту. Из этого можно предположить, что с увеличением кол-ва детей возрастает и финансовая нагрузка, соответственно и риск просрочки, что видно по таблице. Однако, как мы можем заметить, что у многодетных, к которым мы отнесли людей у кого более 5 детей, вовсе отсутствует просрочка, а у людей с 3 детьми просрочка меньше чем у людей с 2, здесь можем предположить играет факт выборки, на людей с 2 детьми приходится = 2052, а на людей с 4 детьми всего лишь 41. 

#### Вопрос 2: Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [16]:
# просматриваем зависимость между семейным положением и возвратом кредита в срок
fam_depend_debt = pd.DataFrame()
fam_depend_debt['amount_family_status'] = df.groupby('family_status')['debt'].sum()
fam_depend_debt['total_family_status'] = df.groupby('family_status')['debt'].count()
fam_depend_debt['final_family_status'] = fam_depend_debt['amount_family_status'] / fam_depend_debt['total_family_status'] 
fam_depend_debt.sort_values('final_family_status', ascending = False)

Unnamed: 0_level_0,amount_family_status,total_family_status,final_family_status
family_status,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
Не женат / не замужем,274,2810,0.097509
гражданский брак,388,4151,0.093471
женат / замужем,931,12339,0.075452
в разводе,85,1195,0.07113
вдовец / вдова,63,959,0.065693


Чаще всех просрочку допускают люди не находящиеся в официальном браке и не состоявшие. Смею предположить, что у людей состоящих/состоявших в официальном браке (сюда же отнесем разведенных и овдовевших) есть дети и определенные жизненные обязательства, которые заставляют их более ответственно брать кредиты. Зависимость есть. 

#### Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [17]:
 # просматриваем зависимость между уровнем дохода и возвратом кредита в срок
debt_income = pd.DataFrame()
debt_income['amount'] = df.groupby('total_income_id')['debt'].sum()
debt_income['total'] = df.groupby('total_income_id')['debt'].count()
debt_income['final'] = debt_income['amount'] / debt_income['total']
debt_income.sort_values('final', ascending = False)

Unnamed: 0_level_0,amount,total,final
total_income_id,Unnamed: 1_level_1,Unnamed: 2_level_1,Unnamed: 3_level_1
E,2,22,0.090909
C,1360,16016,0.084915
A,2,25,0.08
B,356,5040,0.070635
D,21,350,0.06


- Памятка: 
- А = клиенты с уровнем дохода 100001 и выше;
- B = клиенты с уровнем дохода 200001 - 1000000;
- С = клиенты с уровнем дохода 50001 - 200000;
- D = клиенты с уровнем дохода 30001 - 50000;
- E = клиенты с уровнем дохода 0 - 30000.

Из полученных данных, можно сделать вывод, что лучше всех возвращают кредиты люди с заработком 30001 - 50000 и по мере роста благосостояния люди берут больше кредитов и не отдают. Пример, люди с доходом 50001 - 200000, процент просрочки уже выше. Но если обратим внимание, на след ступень (200001 - 1000000), то процент уже сокращается. Считаю, что зависимости нет. 

#### Как разные цели кредита влияют на его возврат в срок?

In [18]:
# просматриваем распределение по признаку задержки в выплатах кредита
pd.pivot_table(df, index = 'purpose_category', columns = 'debt', values = 'gender', aggfunc = 'count').sort_values(by = 1,ascending = False)

debt,0,1
purpose_category,Unnamed: 1_level_1,Unnamed: 2_level_1
операции с недвижимостью,10029,782
операции с автомобилем,3903,403
получение образования,3643,370
проведение свадьбы,2138,186


Самый низкий процент невозврата при операциях с недвижимостью. Здесь можно предположить, что кредит на недвижимость берут более осознанно и на длительный срок и даже несмотря на большое кол-во на фоне других причин и их соотношения, заемщики недвижимости выглядят более привлекательно. Но не стоит забывать, что заемщики могут утаить истинную причину кредита.  

## Общий вывод:

Подводя итоги нашего исследования, можем предположить, что наш иделальный кандидат это женатый человек берущий кредит на недвижимость или свадьбу, без детей с зарплатой более 50000.

Отдельно стоит отметить, что наш анализ подтверждает зависимость между семейным положением и возвратом кредитов, а именно: 

- Семейные реже просрочивают платежи, что будет плюсом при рассмотрении заявки.
- Наличие детей увеличивает статьи расходов, что отрицательно влияет на решение по выдаче займа. 
- Данные касательно заработка неоднозначны, но можно отметить, что чем выше заработок, тем выше возможность положительного решения. 
- В случае с причиной кредита, необходимо учитывать предыдущие факторы и более детально рассматривать каждого клиента, т.к несмотря на большое кол-во просрочек в сделках с недвижимостью общий процент невозврата гораздо ниже нежели при других причинах.