# Исследование надежности заемщиков.

**Цель проекта: 
Узнать влияние семейного положения и количества детей клиента на факт погашения кредита в срок.**

### Шаг 1. Обзор данных

In [1]:
# Прочитаем таблицу и выведем первые 10 строк на экран
import pandas as pd
data=pd.read_csv('/datasets/data.csv')
data.head(10)

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,-8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,-4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,-5623.42261,33,Среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,-4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.07787,сыграть свадьбу
5,0,-926.185831,27,высшее,0,гражданский брак,1,M,компаньон,0,255763.565419,покупка жилья
6,0,-2879.202052,43,высшее,0,женат / замужем,0,F,компаньон,0,240525.97192,операции с жильем
7,0,-152.779569,50,СРЕДНЕЕ,1,женат / замужем,0,M,сотрудник,0,135823.934197,образование
8,2,-6929.865299,35,ВЫСШЕЕ,0,гражданский брак,1,F,сотрудник,0,95856.832424,на проведение свадьбы
9,0,-2188.756445,41,среднее,1,женат / замужем,0,M,сотрудник,0,144425.938277,покупка жилья для семьи


**Проведя анализ таблицы, выявили следующие замечания:**
<div style="border:solid green 5px; padding: 20px">
    
1. В столбце education значения не приведены к единому регистру;   
2. В столбце days_employed есть аномалия -  значения отрицательны и количество отработанных дней в 4 строке больше возраста человека и положительно. Вероятнее всего, отрицательные значения получились из-за того, что дату анкетирования вычли из даты начала стажа. 
    Причину высоких положительных значений выявить неудалось. Возможно эти данные приведены в часах или был неправильно указан формат даты при анкетировании.

In [2]:
data.info() #просмотрим общую информаци по таблице

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       19351 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        19351 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


In [3]:
data.isna().mean() # узнаем долю пропусков в таблице

children            0.000000
days_employed       0.100999
dob_years           0.000000
education           0.000000
education_id        0.000000
family_status       0.000000
family_status_id    0.000000
gender              0.000000
income_type         0.000000
debt                0.000000
total_income        0.100999
purpose             0.000000
dtype: float64

In [4]:
data[data['days_employed'].isna()].head() # посмотрим первые 5 пропусков в столбце days_employed

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу


In [5]:
data[data['total_income'].isna()].head() # посмотрим первые 5 пропусков в столбце total_income

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
12,0,,65,среднее,1,гражданский брак,1,M,пенсионер,0,,сыграть свадьбу
26,0,,41,среднее,1,женат / замужем,0,M,госслужащий,0,,образование
29,0,,63,среднее,1,Не женат / не замужем,4,F,пенсионер,0,,строительство жилой недвижимости
41,0,,50,среднее,1,женат / замужем,0,F,госслужащий,0,,сделка с подержанным автомобилем
55,0,,54,среднее,1,гражданский брак,1,F,пенсионер,1,,сыграть свадьбу


<div style="border:solid green 5px; padding: 20px">
1. Имеются пропуски в столбцах days_employed и total_income - лучше всего заполнить медианным значением потому что некоторые значения могут сильно выделяться среди большинства. Все пропуски в таблице имеют тип float64 (Nan) и составляют не более 11%.Пропуски столбца total_income совпадают с пропусками стобца days_employed. Вероятнее всего пропуски не случайные и ежемесячный доход зависит от количества отработанных дней. Также в total_income нужно заменить вещественный тип данных на целочисленный.

In [6]:
data.describe()

Unnamed: 0,children,days_employed,dob_years,education_id,family_status_id,debt,total_income
count,21525.0,19351.0,21525.0,21525.0,21525.0,21525.0,19351.0
mean,0.538908,63046.497661,43.29338,0.817236,0.972544,0.080883,167422.3
std,1.381587,140827.311974,12.574584,0.548138,1.420324,0.272661,102971.6
min,-1.0,-18388.949901,0.0,0.0,0.0,0.0,20667.26
25%,0.0,-2747.423625,33.0,1.0,0.0,0.0,103053.2
50%,0.0,-1203.369529,42.0,1.0,0.0,0.0,145017.9
75%,1.0,-291.095954,53.0,1.0,1.0,0.0,203435.1
max,20.0,401755.400475,75.0,4.0,4.0,1.0,2265604.0


### Шаг 2.1 Заполнение пропусков

In [7]:
# Найдем медиану столбцов days_employed и total_income и заменими пропуски в таблице
data = data.fillna(data['days_employed'].mean())
data = data.fillna(data['total_income'].mean())
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null float64
purpose             21525 non-null object
dtypes: float64(2), int64(5), object(5)
memory usage: 2.0+ MB


**Все пропуски заменили на медианное значение**

### Шаг 2.2 Проверка данных на аномалии и исправления.

Пройдем по столбцам методом unique() и выявим аномльные значения

In [8]:
#data['children'].unique()
#sorted(data['dob_years'].unique())
#sorted(data['education'].unique())
#sorted(data['education_id'].unique())
sorted(data['family_status'].unique())
#sorted(data['family_status_id'].unique())
#sorted(data['gender'].unique())
#sorted(data['income_type'].unique())
#sorted(data['debt'].unique())
#data.sort_values(by='total_income')
#sorted(data['purpose'].unique())
#data.sort_values(by='days_employed')

['Не женат / не замужем',
 'в разводе',
 'вдовец / вдова',
 'гражданский брак',
 'женат / замужем']

1. children - значения -1 и 20 (-1 лучше заменить на 0, цифру 20 оставить(может правда у кого-то 20 детей))
2. dob_years - возраст некоторых клиентов равен нулю (нужно изменить на медианное значение)
3. education - прописан в разном регистре
4. gender - есть значения где гендер неопределен (XNA). Заменять не будем, на расчеты и выводы не повлияет.
5. purpose - привести все значения в соответствии с категориями (автомобили, образование, недвижимость, свадьба)
6. days_employed - стобец с самыми странными значениями. Отрицательные значения еще можно объяснить - нужно просто заменить на положительное значение (но тогда у некоторых клиентов стаж с 11 лет). А вот максимальные положительные значения объяснить очень сложно. В любом случае нужно перевести все значения в положительные.
7. total_income - заменить вещественный тип данных на целочисленный
8. family_status - привести стобец к одному регистру

### Шаг 2.3. Изменение типов данных.

In [9]:
# заменим значения -1 в столбце children на 0
data['children'] = data['children'].replace(-1, 0)
data['children'].unique()

array([ 1,  0,  3,  2,  4, 20,  5])

In [10]:
# заменим значения 0 в столбце dob_years на медианное
data['dob_years'] = data['dob_years'].replace(0, data['dob_years'].mean()).astype(int)
#sorted(data['dob_years'].unique())

In [11]:
# столбец education приведем к одному регистру
data['education'] = data['education'].str.lower()
sorted(data['education'].unique())

['высшее', 'начальное', 'неоконченное высшее', 'среднее', 'ученая степень']

In [12]:
# сделаем все значения столбца days_employed положительнымпи
days_employed_positive = []
for day in data['days_employed']:
    days_employed_positive.append(abs(day))
data['days_employed']=days_employed_positive
data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875.639453,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080.014102,приобретение автомобиля
2,0,5623.422610,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885.952297,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628.550329,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616.077870,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791.862382,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999.806512,сделка с автомобилем
21522,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672.561153,недвижимость
21523,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093.050500,на покупку своего автомобиля


<div style="border:solid green 5px; padding: 20px">
    3. Заменим вещественный тип данных в столбце total_income на целочисленный при помощи astype()

In [13]:
# заменим тип данных в столбце total_income на целочисленный
data['total_income']=data['total_income'].astype(int)
data['total_income'].dtypes

dtype('int64')

In [14]:
# приведем столбец family_status к одному регистру
data['family_status'] = data['family_status'].str.lower()
sorted(data['family_status'].unique())

['в разводе',
 'вдовец / вдова',
 'гражданский брак',
 'женат / замужем',
 'не женат / не замужем']

In [15]:
# выведем таблицу и информацию по ней на экран для проверки
data

Unnamed: 0,children,days_employed,dob_years,education,education_id,family_status,family_status_id,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,0,женат / замужем,0,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,среднее,1,женат / замужем,0,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.422610,33,среднее,1,женат / замужем,0,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,среднее,1,женат / замужем,0,M,сотрудник,0,267628,дополнительное образование
4,0,340266.072047,53,среднее,1,гражданский брак,1,F,пенсионер,0,158616,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...,...,...
21520,1,4529.316663,43,среднее,1,гражданский брак,1,F,компаньон,0,224791,операции с жильем
21521,0,343937.404131,67,среднее,1,женат / замужем,0,F,пенсионер,0,155999,сделка с автомобилем
21522,1,2113.346888,38,среднее,1,гражданский брак,1,M,сотрудник,1,89672,недвижимость
21523,3,3112.481705,38,среднее,1,женат / замужем,0,M,сотрудник,1,244093,на покупку своего автомобиля


In [16]:
data.info()

<class 'pandas.core.frame.DataFrame'>
RangeIndex: 21525 entries, 0 to 21524
Data columns (total 12 columns):
children            21525 non-null int64
days_employed       21525 non-null float64
dob_years           21525 non-null int64
education           21525 non-null object
education_id        21525 non-null int64
family_status       21525 non-null object
family_status_id    21525 non-null int64
gender              21525 non-null object
income_type         21525 non-null object
debt                21525 non-null int64
total_income        21525 non-null int64
purpose             21525 non-null object
dtypes: float64(1), int64(6), object(5)
memory usage: 2.0+ MB


### Шаг 2.4. Удаление дубликатов.

<div style="border:solid green 5px; padding: 20px">
    4.1 Предварительно обработали таблицу и выявили неявные дубликаты в стобцах education (прописан в разном регистре),
purpose - (привели все значения к стандартным категориям).
    Теперь выявим явные дубликаты и уберем их из таблицы при помощи метода drop_duplicates() и перезапишем индекс.

In [17]:
# Найдем количество дубликатов
data.duplicated().sum()

71

In [18]:
#избавимся от дубликатов
data = data.drop_duplicates().reset_index(drop = True)

In [19]:
#Проверим
data.duplicated().sum()

0

<div style="border:solid green 5px; padding: 20px">
4.2 В таблице было 409 явных дубликата. Они могли появится по причине того, что клиенты повторно подавали заявки на кредиты. 
Теперь таблица предобработана и подготовлена к работе.

### Шаг 2.5. Формирование дополнительных датафреймов словарей, декомпозиция исходного датафрейма.

<div style="border:solid green 5px; padding: 20px">
    5. Создадим две новые таблицы education и family со столбцами: education и education_id в первом и family_status и family_status_id. Уберем столбцы education_id и family_status_id из исходной таблицы и выведем таблицы на экран.

In [20]:
education_t = data[['education' , 'education_id']]
family = data[['family_status' , 'family_status_id']]
data = data.drop(['education_id', 'family_status_id'], axis=1)
data

Unnamed: 0,children,days_employed,dob_years,education,family_status,gender,income_type,debt,total_income,purpose
0,1,8437.673028,42,высшее,женат / замужем,F,сотрудник,0,253875,покупка жилья
1,1,4024.803754,36,среднее,женат / замужем,F,сотрудник,0,112080,приобретение автомобиля
2,0,5623.422610,33,среднее,женат / замужем,M,сотрудник,0,145885,покупка жилья
3,3,4124.747207,32,среднее,женат / замужем,M,сотрудник,0,267628,дополнительное образование
4,0,340266.072047,53,среднее,гражданский брак,F,пенсионер,0,158616,сыграть свадьбу
...,...,...,...,...,...,...,...,...,...,...
21449,1,4529.316663,43,среднее,гражданский брак,F,компаньон,0,224791,операции с жильем
21450,0,343937.404131,67,среднее,женат / замужем,F,пенсионер,0,155999,сделка с автомобилем
21451,1,2113.346888,38,среднее,гражданский брак,M,сотрудник,1,89672,недвижимость
21452,3,3112.481705,38,среднее,женат / замужем,M,сотрудник,1,244093,на покупку своего автомобиля


In [21]:
family

Unnamed: 0,family_status,family_status_id
0,женат / замужем,0
1,женат / замужем,0
2,женат / замужем,0
3,женат / замужем,0
4,гражданский брак,1
...,...,...
21449,гражданский брак,1
21450,женат / замужем,0
21451,гражданский брак,1
21452,женат / замужем,0


In [22]:
education_t

Unnamed: 0,education,education_id
0,высшее,0
1,среднее,1
2,среднее,1
3,среднее,1
4,среднее,1
...,...,...
21449,среднее,1
21450,среднее,1
21451,среднее,1
21452,среднее,1


### Шаг 2.6. Категоризация дохода.

<div style="border:solid green 5px; padding: 20px">
    6. Создадим функцию которая определит категорию для каждого клиента в соответствии с диапазонами

In [23]:
# Здесь проводим категоризацию
   # и возвращаем категорию в зависимости
   # значения содержащегося в row
#data['purpose_category']
def categorize_income(row):
    if 0 <= row <= 30000:
        return 'E'
    elif 30001 <= row <= 50000:
        return 'D'
    elif 50001 <= row <= 200000:
        return 'C'
    elif 200001 <= row <= 1000000:
        return 'B'
    elif row >= 1000001:
        return 'A'
    return 'uncategorize'
data['total_income_category'] = data['total_income'].apply(categorize_income)
sorted(data['total_income_category'].unique())

['A', 'B', 'C', 'D', 'E']

### Шаг 2.7. Категоризация целей кредита.

<div style="border:solid green 5px; padding: 20px">
    7. Создадим функцию categorize_purpose(row) которая на основании данных столбца purpose создаст новый столбец со стандартизированными категорями.

In [24]:
# Здесь проводим категоризацию
   # и возвращаем категорию в зависимости
   # значения содержащегося в row
#data['purpose_category']
def categorize_purpose(row):
    if 'автомоб' in row:
        return 'операции с автомобилем'
    elif 'жил' in row or 'недвиж' in row:
        return 'операции с недвижимостью'
    elif 'образов' in row:
        return 'получение образования'
    elif 'свад' in row:
        return 'проведение свадьбы'
    return 'uncategorize'
data['purpose_category'] = data['purpose'].apply(categorize_purpose)
sorted(data['purpose_category'].unique())

['операции с автомобилем',
 'операции с недвижимостью',
 'получение образования',
 'проведение свадьбы']

### Ответы на вопросы.

##### Вопрос 1: Есть ли зависимость между количеством детей и возвратом кредита в срок?

In [25]:
data.pivot_table(index='children',values='debt',aggfunc=['mean','count'],margins=True).reset_index()

Unnamed: 0_level_0,children,mean,count
Unnamed: 0_level_1,Unnamed: 1_level_1,debt,debt
0,0,0.075258,14138
1,1,0.092346,4808
2,2,0.094542,2052
3,3,0.081818,330
4,4,0.097561,41
5,5,0.0,9
6,20,0.105263,76
7,All,0.08115,21454


##### Вывод 1: По сводной таблице мы можем увидеть, что чем больше детей тем сложнее клиентам возвращать кредиты. Существенее всего влияет появление первого ребенка ( на 2% меньше погашений кредитов). Данные по 5 детям не показательны, всего 9 наблюдений.

##### Вопрос 2: Есть ли зависимость между семейным положением и возвратом кредита в срок?

In [26]:
data.pivot_table(index='family_status',values='debt',aggfunc=['mean','count'],margins=True).reset_index()

Unnamed: 0_level_0,family_status,mean,count
Unnamed: 0_level_1,Unnamed: 1_level_1,debt,debt
0,в разводе,0.07113,1195
1,вдовец / вдова,0.065693,959
2,гражданский брак,0.093471,4151
3,женат / замужем,0.075452,12339
4,не женат / не замужем,0.097509,2810
5,All,0.08115,21454


##### Вывод 2: Лучше всего возвращают кредиты клиенты которые состоят или состояли в официальном браке (93%-94% возвратов). Вероятно, эти люди более зрелые и ответственные. Клиенты которые не состоят в официальных отношениях, токой ответственности не имеют(91% возвратов) .

##### Вопрос 3: Есть ли зависимость между уровнем дохода и возвратом кредита в срок?

In [27]:
data.pivot_table(index='total_income_category',values='debt',aggfunc=['mean','count'],margins=True).reset_index()

Unnamed: 0_level_0,total_income_category,mean,count
Unnamed: 0_level_1,Unnamed: 1_level_1,debt,debt
0,A,0.08,25
1,B,0.070621,5041
2,C,0.084915,16016
3,D,0.06,350
4,E,0.090909,22
5,All,0.08115,21454


##### Вывод 3: Зависимости между доходом и возврата кредита нет. Это связано с тем, что клиенты имеющие больший доход берут большую сумму кредитов. Из-за этого все находятся в равных условиях по погашению кредитов в срок (91-94% погашений).

##### Вопрос 4: Как разные цели кредита влияют на его возврат в срок?

In [28]:
data.pivot_table(index='purpose_category',values='debt',aggfunc=['mean','count'],margins=True).reset_index()

Unnamed: 0_level_0,purpose_category,mean,count
Unnamed: 0_level_1,Unnamed: 1_level_1,debt,debt
0,операции с автомобилем,0.09359,4306
1,операции с недвижимостью,0.072334,10811
2,получение образования,0.0922,4013
3,проведение свадьбы,0.080034,2324
4,All,0.08115,21454


##### Вывод 4: Наиболее благоприятной целью для выдачи кредита является "операции с недвижимостью" (93% возвратов), хуже всего обстоят дела с операциями с автомобилем и получением образования (91% возвратов)

## Общий вывод:

**В рамках иследования, мы выяснили, что имеется зависимость между семейным положением и количеством клиента на факт погашения кредита в срок. Самыми благоприятными клиентам являются клиенты с наименьшим количеством детей и клиенты которые состоят или состояли в официальном браке. Цель кредита также имеет значение. Уровень дохода на возврат кредита в срок не влияет.**