# Исследование надежности заемщиков.

### Шаг 1. Обзор данных

<div class="alert alert-info">
<font color='black'> <b> В данном проекте нужно разобраться, влияет ли семейное положение, количество детей клиента, образование, доход клиента на факт погашения кредита в срок. Входные данные от банка — статистика о платёжеспособности клиентов</font> <b> 
  



In [1]:
import pandas as pd
data=pd.read_csv('/datasets/data.csv')
data.info()
display(data.head(15))



<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


<div class="alert alert-info">
<font color='black'> <b> По открытой таблице с данными можно сделать следующие выводы:  
   В данных имеетя 12 колонок, в двух колонках значений меньше, чем в остальных.
   Присутствуют целые числа, дробные числа и значения типа "object" </font> <b> 
   
    

### Шаг 2.1 Заполнение пропусков

In [2]:
data.isna().sum()
median_days_employed=data['days_employed'].median()
median_total_income=data['total_income'].median()
data['days_employed']=data['days_employed'].fillna(median_days_employed)
data['total_income']=data['total_income'].fillna(median_total_income)
display(data.head(15))

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


<div class="alert alert-info">
<font color='black'> <b>Имеются пропуски типа Nan в двух столбцах 'days_employed' и 'total_income'. Пропуски составляют около 10% от количества значений по каждому из этих столбцов. Ошибки могли быть вызваны человеческим фактором, либо некорректное считывание, копирование. Заполнить пропуски медианными значениями нужно для того, чтобы минимизировать влияние пропущенных значений на общую картину данных*</font> <b> 

### Шаг 2.2 Проверка данных на аномалии и исправления.

In [3]:
data['days_employed'] = pd.to_numeric(data['days_employed']) 
data['total_income'] = pd.to_numeric(data['total_income'])
data['days_employed'] = data['days_employed'].abs()
data=data.loc[(data['dob_years']>10) & (data['gender']!='XNA')]
data.info()
data['children'] = data['children'].replace(-1, 1)
data['children'] = data['children'].replace(20, 2)

#display(data['children'].value_counts())
#display(data['dob_years'].value_counts())
#display(data['gender'].value_counts())

<class 'pandas.core.frame.DataFrame'>
Int64Index: 21423 entries, 0 to 21524
Data columns (total 12 columns):
children            21423 non-null int64
days_employed       21423 non-null float64
dob_years           21423 non-null int64
education           21423 non-null object
education_id        21423 non-null int64
family_status       21423 non-null object
family_status_id    21423 non-null int64
gender              21423 non-null object
income_type         21423 non-null object
debt                21423 non-null int64
total_income        21423 non-null float64
purpose             21423 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.1+ MB


<div class="alert alert-info">
<font color='black'> <b>В столбце 'days_employed' присутствовали отрицательные значения и значения, которых не может существовать (300000 рабочих дней существовать не может). В столбце 'children' есть отрицательное значение и аномально большое значение равное 20. Заменил отрицательное значение на такое же положительное, аномально большое значение заменил на среднее. Их не так много, большой роли не сыграет. Есть странное значение в столбце "пол" в количестве 1 шт., удалим (всего одно значение!). Возраста "0" не бывает, удалил эти значения (их сравнительно мало)</font> <b> 

### Шаг 2.3. Изменение типов данных.

In [4]:
data['total_income']=data['total_income'].astype('int')
data['days_employed']=data['days_employed'].astype('int')

display(data.head())

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу


### Шаг 2.4. Удаление дубликатов.

In [5]:
display(data.duplicated().sum())
data['education']=data['education'].str.lower()
data=data.drop_duplicates()





54

<div class="alert alert-info">
<font color='black'> <b>Был применен метод 'duplicated().sum()' для поиска количества строк-дубликатов
Было найдены строки с одинаковыми значениями в столбцах 'days_employed' и 'total_income', которые были удалены. В столбце 'education' значения приведены к единому регистру<b>

### Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

In [6]:
education_data = data[['education_id','education']]
family_data = data[['family_status_id','family_status']]
#data = data[['children','days_employed','dob_years', 'education_id', 'family_status_id', 'gender', 'income_type', 'debt', 'total_income', 'purpose']]
education_data=education_data.drop_duplicates().reset_index(drop=True)
family_data=family_data.drop_duplicates().reset_index(drop=True)
data=data.drop('education', axis=1)
data=data.drop('family_status', axis=1)
display (education_data.head(10))
display (family_data.head(10))
display (data.head(10))


Unnamed: 0,education_id,education
0,0,высшее
1,1,среднее
2,2,неоконченное высшее
3,3,начальное
4,4,ученая степень


Unnamed: 0,family_status_id,family_status
0,0,женат / замужем
1,1,гражданский брак
2,2,вдовец / вдова
3,3,в разводе
4,4,Не женат / не замужем


Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266,53,1,1,F,пенсионер,0,158616,сыграть свадьбу
5,0,926,27,0,1,M,компаньон,0,255763,покупка жилья
6,0,2879,43,0,0,F,компаньон,0,240525,операции с жильем
7,0,152,50,1,0,M,сотрудник,0,135823,образование
8,2,6929,35,0,1,F,сотрудник,0,95856,на проведение свадьбы
9,0,2188,41,1,0,M,сотрудник,0,144425,покупка жилья для семьи


### Шаг 2.6. Категоризация дохода.

In [7]:
def category_income(total_income):
    if 0<=total_income<= 30000:
        return 'E'
    elif 30001<=total_income<= 50000:
        return 'D'
    elif 50001<=total_income<= 200000:
        return 'C'
    elif 200001<=total_income<= 1000000:
        return 'B'
    return 'A'
data['total_income_category']=data['total_income'].apply(category_income)
display (data['total_income_category'].value_counts()) 

def purpose_category(category):
    if 'автомоб' in category:
        return 'операции с автомобилем'
    elif 'свадь' in category:
        return 'проведение свадьбы'
    elif 'образова' in category:
        return 'получение образования'
    elif 'недвижим' or 'жиль' in category:
        return 'операции с недвижимостью'
    
data['purpose_category']=data['purpose'].apply(purpose_category)
display (data['purpose_category'].value_counts())
display (data.head(10))


C    15943
B     5014
D      348
A       25
E       22
Name: total_income_category, dtype: int64

операции с недвижимостью    10763
операции с автомобилем       4284
получение образования        3995
проведение свадьбы           2310
Name: purpose_category, dtype: int64

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,gender,income_type,debt,total_income,purpose,total_income_category,purpose_category
0,1,8437,42,0,0,F,сотрудник,0,253875,покупка жилья,B,операции с недвижимостью
1,1,4024,36,1,0,F,сотрудник,0,112080,приобретение автомобиля,C,операции с автомобилем
2,0,5623,33,1,0,M,сотрудник,0,145885,покупка жилья,C,операции с недвижимостью
3,3,4124,32,1,0,M,сотрудник,0,267628,дополнительное образование,B,получение образования
4,0,340266,53,1,1,F,пенсионер,0,158616,сыграть свадьбу,C,проведение свадьбы
5,0,926,27,0,1,M,компаньон,0,255763,покупка жилья,B,операции с недвижимостью
6,0,2879,43,0,0,F,компаньон,0,240525,операции с жильем,B,операции с недвижимостью
7,0,152,50,1,0,M,сотрудник,0,135823,образование,C,получение образования
8,2,6929,35,0,1,F,сотрудник,0,95856,на проведение свадьбы,C,проведение свадьбы
9,0,2188,41,1,0,M,сотрудник,0,144425,покупка жилья для семьи,C,операции с недвижимостью


### Шаг 2.7. Категоризация целей кредита.

In [8]:
total_income_category_count=data.groupby('total_income_category')['debt'].count()
total_income_category_sum=data.groupby('total_income_category')['debt'].sum()
total_income_conversion=total_income_category_sum/total_income_category_count
display(total_income_conversion)
children_count=data.groupby('children')['debt'].count()
children_sum=data.groupby('children')['debt'].sum()
children_conversion=children_sum/children_count
display(children_conversion.sort_values( ascending=False))
education_count=data.groupby('education_id')['debt'].count()
education_sum=data.groupby('education_id')['debt'].sum()
education_conversion=education_sum/education_count
display (education_conversion.sort_values( ascending=False))
family_count=data.groupby('family_status_id')['debt'].count()
family_sum=data.groupby('family_status_id')['debt'].sum()
family_conversion=family_sum/family_count
display (family_conversion.sort_values( ascending=False))
purpose_count=data.groupby('purpose_category')['debt'].count()
purpose_sum=data.groupby('purpose_category')['debt'].sum()
purpose_conversion=purpose_sum/purpose_count
display (purpose_conversion.sort_values( ascending=False))




total_income_category
A    0.080000
B    0.070802
C    0.084865
D    0.060345
E    0.090909
Name: debt, dtype: float64

children
4    0.097561
2    0.095553
1    0.091341
3    0.082317
0    0.075458
5    0.000000
Name: debt, dtype: float64

education_id
3    0.109929
2    0.091768
1    0.089820
0    0.053116
4    0.000000
Name: debt, dtype: float64

family_status_id
4    0.097709
1    0.093485
0    0.075427
3    0.071730
2    0.064990
Name: debt, dtype: float64

purpose_category
операции с автомобилем      0.093371
получение образования       0.092616
проведение свадьбы          0.079654
операции с недвижимостью    0.072378
Name: debt, dtype: float64

### Ответы на вопросы.

##### Вопрос 1:

<div class="alert alert-info">
<font color='black'> <b>1) Есть ли зависимость между количеством детей и возвратом кредита в срок?
У тех людей, у которых больше детей, больше вероятность просрочки по кредитам
2) Есть ли зависимость между семейным положением и возвратом кредита в срок?
У тех людей, кто потерял супруга или в разводе, меньше вероятность просрочки по кредитам
3) Есть ли зависимость между уровнем дохода и возвратом кредита в срок?
Большой разницы судя по всему нет 
4) Как разные цели кредита влияют на его возврат в срок?
У тех, кто проводит операции с авто, больше вероятность просрочки.
У тех, кто проводит операции с недвижимостью, эта вероятность меньше всех<b>



##### Вывод 1:

## Общий вывод:

<div class="alert alert-info" >
<font color='black'> <b>
    Наибольшую вероятность просрочки имеют следующие люди:
    1) Имеющие 4 детей - 9.7 %
    2) Имеющие начальное образование - 10.9%
    3) Не состоящие в официальных отношениях - 9.7%
    4) Берущие кредит на операции с автомобилем - 9.3%.
    Наименьшую вероятность просрочки имеют следующие люди:
    1) Имеющие 0 детей - 7.5 %
    2) Имеющие высшее образование - 5.3%
    3) Вдовцы и вдовы - 6.4%
    4) Берущие кредит на операции с недвижимостью - 7.2%  <b>